什么是非结构化数据?
非结构化数据是缺少可识别结构或架构的数据。这意味着它不符合预定义的数据模型,因此不适合主流关系数据库。由于没有易于识别的结构,因此很难被计算机程序读取。
如今,大型企业组织生成的数据量估计将以每年 40% 到 60% 的速度快速增长。
非结构化数据来自哪里?
非结构化数据的一些来源包括:
- 网页
- 影片
- 用户对博客和社交媒体网站的评论
- 备忘录
- 报告
- 调查回复
- 文档(Word、PPT、PDF、文本)
- 非结构化文本
- 客户服务电话记录
- 互联网上的图片(JPEG、PNG、GIF 等)
- 媒体日志
这些数据存储在数据库、事务日志、电子邮件、语音日志等中。它通常过于非结构化、碎片化和分散,无法一目了然地获得洞见。简单地将其按原样存储没有任何用处。
如果此类数据从孤岛模式变为相互衔接,并且可以在整个组织中轻松访问,其模式得到解读,并通过数据分析提取洞见,那么它可以为利益相关者提供大量有价值的信息。
机器数据是非结构化数据的一种新形式。这包括来自网页、服务器、网络和移动应用程序的日志文件,这些文件记录了大量的活动和性能数据。公司越来越多地从物联网和互联设备,甚至是制造设备上的智能传感器捕获和分析数据。

存储非结构化数据:挑战
尽管存储非结构化数据而不将其用于分析没有任何实际用途,但只是存储也不是那么简单。可能有几个问题:
- 非结构化数据实际上无处不在,并且会占用大量存储空间。由于其中很大一部分是大文件(如视频、音频和图像)的形式,因此它们占据了存储饼图的很大一部分。
- 与结构化数据相比,非结构化数据结构紧凑、整洁,保存或维护的成本要高得多。
- 由于缺乏结构和架构,在系统中运行搜索、删除部分或启动更新通常很困难。
- 非结构化数据量越大,编制索引的难度就越大。
如何存储非结构化数据?
存储非结构化数据有几种可能的方法:
- 首先应该将其转换为更易于管理的格式。可扩展标记语言 (XML) 通常是首选的格式。
- 内容寻址存储系统 (CAS) 用于存储非结构化数据。该系统通过访问数据的元数据并为存储在数据中的每个项目或对象分配唯一的名称来存储数据。可根据对象的内容而不是其位置来检索对象。
- 非结构化数据可以存储在软件系统中,然后用于维护关系数据库。某些关系数据库系统允许选择使用结构化查询语言 (SQL) 来提交查询和维护数据库。
- 二进制大型对象(也称为 BLOB)是用于存储非结构化数据的可行系统。二进制大型对象是作为单个实体存储在数据库管理系统中的二进制数据的集合。二进制大型对象通常是图像、音频或其他多媒体对象。有时甚至二进制可执行代码也被存储为二进制大型对象。
非结构化数据的缺点
非结构化数据的缺点是显而易见的:
- 缺少模式和结构使得非结构化数据难以管理,而且存储起来很麻烦。
- 为非结构化数据编制索引不仅困难,而且由于结构模糊和缺少预定义属性,很容易出错。运行搜索是一项非常痛苦的操作,因为搜索结果不够准确,没有任何用处。
- 确保非结构化数据的安全也极其困难。
从非结构化数据中提取信息
如前所述,众所周知,非结构化数据很难标记、索引和读取。传统算法无法轻易解释它。出错的可能性很高。以下是一些有助于挖掘非结构化数据以提取可用信息的策略:
- 将数据存储在虚拟存储库(如 Documentum)中,可以自动标记数据。
- 运行各种数据挖掘工具。
- 数据的分类法或分类为其提供了结构和层次。这通过其固有的逻辑简化了搜索过程。
- 通过使用诸如扩展在线分析处理 (XOLAP) 之类的应用程序平台,这对于从电子邮件和基于 XML 的文档中提取信息非常有用。
- 大数据环境中用于处理非结构化数据的工具和技术包括文本分析工具。它们在极高级别上搜索文本数据中的模式、关键字和看法。另一个是自然语言处理 (NLP) 技术,这是一种评估上下文并在文本和人类语音中得出含义的人工智能。这是通过使用神经网络分析数据的深度学习算法来实现的。

非结构化数据的优势
但是,非结构化数据并非没有其优势。它的一些缺点可能会变得更加有利。
缺乏架构允许灵活性
非结构化数据缺少模式和架构,使其不那么僵化。实际上,它可以非常灵活。这种灵活性使其可扩展且不受限制。非结构化数据是可移植的。
更丰富的信息来源
源的异质性确保了在非结构化格式下捕获更丰富的数据。如果分析得当,非结构化数据可以有各种各样的应用程序,并提供有价值的商业智能洞见。
非结构化数据有多种格式
数据集可以多种格式进行维护。由于缺乏统一的存储结构,分析团队可以自由地分析和处理所有可用数据,而不必首先专注于整合和标准化数据。以此得到的分析可能比采用更严格的数据格式更广泛、更全面。
非结构化数据与其他数据类型有何不同
除了非结构化数据之外, 大数据还包含其他类型的数据,即结构化和半结构化数据。
结构化数据
这在各方面都与非结构化数据相反。结构化数据可以在数据库或类似格式的存储库中进行组织,以便随时进行有效的分析。
从技术上讲,结构化数据一词适用于可以存储在数据库中的所有数据。它包括所有可以通过结构化查询语言 (SQL) 存储在具有行和列的表中的数据。这种结构的特点是它们的关系键,可以很容易地映射到预先设计的字段中。结构化数据是处理得最多的一种。这是管理信息最简单、最有条理的方法。关系数据就是结构化数据的一个示例。
结构化数据的僵化格式使其难以向上扩展。金融系统和其他业务应用程序中的交易数据就是一个示例。在大多数情况下,它通常必须符合给定的结构,以确保过程和分析的一致性。
半结构化数据
半结构化数据是不属于关系数据库的信息。但是,与纯粹的非结构化数据相比,它仍然具有一些组织属性,因此可以更轻松地挖掘和分析。例如,如果添加了元数据标签,则会有更多关于数据所含内容的信息和上下文。XML 数据就是一个例子。
根据一些数据管理专家的说法,所有数据,即使是非结构化数据,都具有一定程度的结构。他们认为,非结构化数据和半结构化数据之间的界限模糊不清。鉴于非结构化数据往往拥有丰富的洞见,数据科学家可以利用这些洞见更好地构建模型,因此非结构化数据的重要性怎么强调也不过分。