什么是数据映射?

数据映射是一种将数据移动到不同的表结构而不影响数据完整性的方法。

数据映射模式确定导入新结构时数据值的位置。这些模式在数据仓库、数据集成和数据转换中起着至关重要的作用。

什么是数据映射过程?

在最基本的形式中,数据映射涉及查看源数据库和目标数据库,然后决定如何将值从一个数据库复制到另一个数据库。

例如,一个组织可能有一个系统,其中包含几个保存客户信息的表:名称、地址和会员详细信息。如果组织想要将这些信息复制到单个Customer Data表中,他们需要应用一个如下所示的数据映射模式:

创建这个模式是一个简单的过程:

  1. 明确数据源的结构.数据可能来自多个来源,这将增加映射过程的复杂性。对于每个源,您需要了解完整的数据库模式,包括表结构、关系、主键和外键。
  2. 定义目标数据库。如果目标数据库还没有创建,就需要创建它——源和目标之间的差异越大,映射过程就越复杂。
  3. 映射数据传输.数据映射模式详细描述了源列和目标列之间的关系。该模式应该尽可能保留关系,并注意主键等唯一标识符。
  4. 为例外情况做好准备.数据转换并不总是顺利进行的,尤其是在原始源没有被正确清理的情况下。数据映射过程的一部分是为此类异常进行规划,并处理空值或不正确的数据类型等问题。
  5. 测试目标数据库。第一个重要的测试是,通过检查所有关系是否按预期运行,以及在传输过程中没有数据损坏,以确保目标数据库能够完全运行。
  6. 测试潜在的数据丢失。最后的测试是确保来自源的所有相关数据都已到达目的地。如果目标表不完整,则可能表明需要更新数据映射模式。

这个过程的难度取决于数据的复杂性。数据映射可以通过以下几种方式实现:

手动映射

对于小型数据集,可以手动执行数据转换。这可以通过多种方式实现,例如将数据导出为XML和编写XSLT小型应用程序来执行转换。

半自动映射

在处理较大的数据集时,通常需要模式映射工具。有几种可用的商业模式映射工具,或者可以用Python等语言对它们进行编码。这些工具通常包括一个GUI,允许用户匹配源表和目标表之间的列,以及定义规则和关系。然后需要手动应用生成的模式。

自动映射

大多数企业用例都需要完全自动化的数据映射。这涉及到使用专业平台,例如Xplenty,来提供一个完全自动化的转换层提取变换负载的过程。

Xplenty预装了数百个与流行服务的集成,所以它可以轻松地执行涉及Salesforce、谷歌Analytics和Amazon S3等平台的数据映射。大多数自动化平台(包括Xplenty)都包含用于微调自动映射的开发人员工具。这些工具还可以帮助为不被自动支持的源生成映射。

什么时候使用数据映射?

在将数据值从一个关系数据库移动到另一个关系数据库时,数据映射是必不可少的。在实践中,这可归结为四种基本情况:

数据迁移

数据经常需要从一个来源转移到另一个来源,例如当一个组织采用一个新平台时。新平台可能处理相同的基本数据,但底层表结构将完全不同。

数据映射模式对于从A到b获取数据至关重要。模式可以一次性应用,例如迁移。当集成两个系统时,它们也可以成为数据管道实现的一部分。

ManBetX万博客服数据仓库

仓储与迁移非常相似,但它往往涉及多个来源和更大数量的数据。ManBetX万博客服数据仓库通常包含一个组织的整个数据存储,这就提出了自己的挑战,比如如何规范化数据和减少重复。

设计良好的模式可以帮助将许多不同的数据源集成到少量关系表中。这允许更低的存储成本和更快的分析,没有任何数据丢失的风险。

数据转换

组织有时可能需要转换数据,使其适合其他应用程序。例如,他们可能想要合并两个数据源,以使分析更容易,或增强应用程序。

数据转换还可以在数据清理中发挥作用。数据映射模式包括异常的偶发情况,例如空值或不正确的数据类型。通过转换层运行数据会生成一个干净、标准化的数据库。

电子数据交换

当数据不能通过API访问时,可能会以CSV、JSON和XML等文件格式导出。这些文件可能被导入到另一个关系数据库中,在这种情况下,它们可能需要以随时可用的格式导出。

如果最终目的地是已知的,数据映射可以提供帮助。这个过程最终是相同的,只是执行的结果是创建一个文件。在进入下一个阶段之前,应该对该文件进行验证和质量检查。

数据映射和遵从性

隐私法,例如GDPR对对数据执行转换的公司有影响。因为这可能涉及到处理个人信息,所以数据控制者需要满足某些标准。

一般来说,需求是所有转换过程都是透明的,并且文档记录良好。这包括应用于个人数据的任何数据映射模式的详细信息。在审计的情况下,组织可能被要求展示他们如何转换个人数据,并证明以这种方式处理个人信息的合法业务理由。

术语汇编

数据集成技术的命名法指南。

Baidu
map