什么是非结构化数据?

非结构化数据是不存在于可识别的数据结构(如关系数据库表)中的任何数字信息。本质上,任何非结构化数据或半结构化数据都算作非结构化数据。

“大数据”一词几乎专门指这类数据。非结构化数据数量庞大,但很难导航和分析。因此,组织开发了新的方法来存储和处理这些数据。这些新方法包括HadoopNoSQL,数据的湖泊

非结构化数据与结构化数据有何不同?

所有数据都有某种结构,要么是隐式的,要么是隐含的。例如,当数字图像的格式为JPG或PNG时,图像数据存在于文件格式所隐含的结构中。

但通常,结构化数据指的是适合用SQL等语言进行查询的信息。这几乎完全意味着关系数据库,理想情况下是规范化的,表之间具有基于键的关系。

术语半结构化指的是可以相对容易地转换为可查询格式的数据。例如,CSV文件是一个文本文件,它不是结构化数据。但是将CSV文件导入关系数据库是一项简单的任务,这时文件中的值就适合用SQL进行查询了。

其他的都是非结构化数据。非结构化数据的常见例子包括:

  • 平面文件
  • 文档,如Word文件或pdf
  • 多媒体,包括音频和视频
  • 图片
  • 扫描文档(技术上是图像,但它们包含OCR进程可以检索的文本)
  • 系统日志
  • 生物统计数据

所有这些实例都包含对业务有用的数据。个别文件可能包含重要信息,如合同扫描。或者企业可以使用数据分析技术来揭示非结构化数据中的模式。例如,对网站活动日志的深入分析可能揭示用户行为模式的信息。

如何存储非结构化数据?

组织经常每天产生大量的非结构化数据,这些数据可以放在从桌面文件夹到电子邮件服务器的任何地方。大多数这样的公司都希望为了存储和分析等目的而组织和合并这些数据。

大规模处理非结构化数据有两种主要策略:NoSQL数据库和数据湖

NoSQL

近年来,NoSQL已经成为处理大量非结构化数据的首选方法之一。

NoSQL代表“Not Only SQL”,因为它可以处理关系数据库,而且还支持更复杂的数据结构。NoSQL以多种方式处理非结构化数据,例如:

  • 键值存储:数据库保存一个键表,每个键指向一个数据项。这可以是任何类型的数据,包括视频、文本文件或JSON。这是一种更简单的NoSQL策略,通常用于存储数据,而不是构建事务性数据库。
  • 文档存储:此策略涉及以标准化格式编码值,如YAML、JSON或BSON。根据NoSQL的版本不同,它将尝试在逻辑结构中组织这些文档,并缓存最常用的值。
  • 图的存储:该系统非常适合包含由图表示的关系的非结构化数据。这是一种流行的存储社交媒体数据的系统,您可以在其中绘制用户之间的关系图。
  • 广谱商店:这些数据库的工作方式与关系数据库类似,只是有更大的灵活性。这样,列名和格式可以在行之间发生变化。这个技巧不完全一样柱状数据库,这是一种存储大型关系表的方法。

数据湖

虽然数据仓库ManBetX万博客服是高度结构化的,但数据湖几乎没有固有的结构,这使它成为非结构化数据存储的理想存储库。

数据湖由以下几个部分组成:

  • 文件系统:湖泊通常储存着大量的数据。为了有效地做到这一点,他们必须使用一个文件系统,如Apache Hadoop或Spark,将数据分发到一个庞大的存储集群网络上。每个湖泊群只占整个湖泊的一小部分。在某些模型中,集群处理与特定集群中包含的数据相关的所有处理请求。在其他模型中,文件系统将处理与存储解耦。
  • 数据管道:数据必须从数据源进入数据湖。这通常涉及自动化的英语教学(提取,加载,转换)的过程。英语教学比英语教学快(提取,转换,加载),因为它不涉及中间转换层。相反,ELT使用按需模式,这意味着最终用户必须尝试对非结构化数据进行排序。
  • 排序工具:数据湖用户需要某种工具来帮助他们在巨大的数据湖中导航。MapReduce是比较熟悉的工具之一。MapReduce通常与Hadoop相关联,它通过令牌化数据,然后组织这些令牌,创建一个更有逻辑的数据结构来工作。Hadoop的结构允许数千个MapReduce实例并发运行,这可以产生快速的结果。
  • 分析工具:在大多数情况下,组织将使用他们的数据湖作为分析见解的来源。有许多工具,例如GoodData而且邓达斯BI,可以探索和分析数据湖,返回可操作的见解。

对于分析目的来说,数据湖最重要的方面是它是最近的。这就是为什么数据湖如此依赖数据管道来保持不断刷新。

最后,数据湖还需要良好的数据治理。否则,它可能会变成一个数据沼泽,充满了无关的数据,只会减慢分析查询的速度。

非结构化数据的数据治理意味着:

  • 为输入湖中的所有数据创建详细的元数据
  • 建立关于不同数据类型的生命周期的明确业务规则
  • 定期进行审计,确保数据质量
  • 删除所有已过期的数据

元数据本身可以是结构化数据。例如,在大型图像缓存中,每个图像都有描述图像格式、分辨率、地理位置信息和其他关键细节的元数据。可以将这些数据存储在关系数据库中,而图像本身则保存在数据湖中。

术语汇编

数据集成技术的命名法指南。

Baidu
map