什么是元数据?

元数据是描述其他数据属性的数据。元数据有很多用途,比如跟踪数据的历史、理解数据之间的关系以及创建可搜索的数据索引。

元数据的类型是什么?

所有元数据都是与其他东西相关的。例如,餐厅菜单是元数据的一种。菜单上的每一项都包含餐厅所售食物的名称、描述和价格。

在企业上下文中,元数据通常与其他数据相关。这可以是关系数据库表中的数据,也可以是平面文件或JSON中的数据;它可以是结构化的数据ManBetX万博客服或大量的非结构化数据数据湖

数据是多样的,元数据也是。但它可以分为三个主要类别:管理的、结构的和描述的。

管理元数据

这种元数据在任何好的数据管理系统中都是必不可少的。管理数据包括关于数据沿袭,其中包括数据来源和任何更改或更新的记录。

一个例子是Word、谷歌Docs或其他类似应用程序中的共享文档。一个人将创建文档、给它命名并保存它。然后另一个人可以打开文档并添加一些文本。第三个人可能会来编辑文本,而第四个可能会重命名它。

有些应用程序将跟踪所有这些活动并将其存储为管理元数据。这允许未来的用户发现重要的细节,如文档创建日期、作者的身份和最后的编辑日期。

在更大的范围内,管理元数据在ETL (提取,转换,加载)的过程。这个过程可以将大量数据从一个位置移动到另一个位置,同时对数据值进行基本更改。

数据治理意味着保存所有这些事件的日志,以及记录数据来源等细节。这确保在填充数据仓库时总是完全透明的。ManBetX万博客服

结构元数据

结构元数据告诉我们数据之间的关系。例如,一个组织可能将他们的员工记录存储在一个HR系统中。每个员工在该系统中都有相同类型的记录,无论他们是实习生还是首席执行官。

为了反映公司的层次结构,人力资源团队将需要一些描述员工之间关系的结构元数据。一个部门经理的人力资源记录可能有这样的结构元数据:

职位:财务经理1 |-汇报对象:财务总监1 |-汇报对象:财务员工1,财务员工2,财务员工3

这个元数据没有提供任何关于个人记录的信息。然而,它确实帮助人力资源团队跟踪所有这些记录之间的关系。这些结构元数据的总和描述了整个公司层次结构。

结构元数据可以存在于任何级别。您可以在文档中找到它——书籍的目录就是结构化元数据的一个例子。它还可以描述关系数据库的结构或存储库(如数据仓库)的内容。ManBetX万博客服

描述性元数据

描述性元数据提供有关底层实体的信息。例如,在一个大型而多样的文档存储中,描述性元数据可能包含关于单个文档的详细信息,例如:

  • 文件名或唯一标识符
  • 文档标题
  • 作者或来源
  • 剧情简介
  • 体裁或主题
  • 格式
  • 文件大小
  • 语言
  • 权利的信息
  • 元标记

这种类型的元数据存在于数字时代之前的图书馆中,卡片索引代表书架上的书。每张卡片都包含图书馆中一本书的信息,包括书名、作者、ISBN和分类等细节。

我们在大多数现代操作系统中使用类似的东西,我们可以根据名称、位置、大小或格式在驱动器上搜索文件。这种搜索查看文件的描述性元数据,并返回与搜索匹配的每一项。

元数据如何使用?

元数据是良好数据治理策略的关键组成部分之一。有了正确的元数据,企业可以做以下事情:

数据的可发现性

元数据使搜索数据变得更容易;元数据越详细,搜索结果就越准确。数据湖就是一个例子,它是一个庞大的非结构化数据储存库。这种结构之所以有效,是因为文件系统保存了关于湖泊内容的详细元数据。

数据重用

重用数据有助于提高效率。例如,如果数据已经通过了转换过程,那么它就不需要再次进行转换。元数据可以帮助跟踪数据沿袭,包括任何更改或集成的细节。用户可以简单地检查元数据,看看数据是否满足他们所需的标准。

数据字典

数据字典是业务数据结构的模板。它概述了每个数据源的所有字段、数据类型、关系和访问权限。该字典本身是一种元数据类型,但业务将从其可用元数据派生该字典。然后,数据字典用于指导所有未来的数据项目。

系统集成

元数据在系统集成中是必不可少的。例如,考虑一个ETL流程,其中数据从生产系统流到数据仓库。ManBetX万博客服万博max手机网页登录ETL流程必须确保不会用旧版本覆盖最新的数据。它通过比较元数据并确定哪个版本是最新的来实现这一点。

分析与商业智能

元数据可以作为丰富的信息源数据分析以及商业智能工具。例如,管理元数据将提供特定数据项的创建日期。分析工具可以研究所有这些数据,并确定随着时间的推移的趋势。元数据也很重要数据探索,这是分析学必不可少的第一步。

术语汇编

数据集成技术的命名法指南。

Baidu
map