什么是数据转换?

数据转换是将数据从当前结构转换为新结构的过程。

变换是ETL (提取,转换,加载).转换为其他用途准备数据,例如分析、仓库或在生产系统中使用。万博max手机网页登录

为什么要使用数据转换?

数据转换用于将数据从一个位置移动到另一个位置,或用于重新利用数据以满足新的需求。底层数据值在转换中保持不变,但是结构被更改以匹配所需的结构。

转换可以应用于结构化和半结构化数据。例如,以下是一些关系数据库形式的结构化数据:

该结构可能在原始上下文中工作,但组织可能需要将该数据复制到另一个数据库。目标数据库可以有一个不同的结构,像这样:

在转换期间,必须修改源数据以适应目标数据库的结构。对于大型生产数据库,这万博max手机网页登录通常是通过ETL流程完成的:

  • 提取来源数据
  • 变换根据模式(转换模式在ETL平台上定义)的源数据
  • 负载将数据转换到目标

使用这个过程有以下几个原因:

  • 兼容性:大多数生产系万博max手机网页登录统都有一个数据库层,这些数据库的结构各不相同。当从一个系统移动到另一个系统时需要转换,例如当数据从客户关系管理系统复制到销售平台时。
  • 一致性:转换可以将通用表结构应用到不同的数据源,从而加快分析项目的速度。转换还包括清洗整合,而且协调数据,导致高-质量输出。
  • 储存:当数据采用标准格式时,一些存储库(如数据仓库和数据集市)的工作效果最好ManBetX万博客服。通过转换层传递数据可以实现更有效的存储和更快的检索。

在自动化ETL流程中,转换在后端使用下面描述的技术进行。

什么是数据转换过程?

当首次提取数据时,它被托管在一个称为暂存区的临时数据存储库中。

在暂存区,数据被转换以满足需求。在自动化ETL的情况下,这些转换将根据管理员定义的模式自动执行。Xplenty提供了一个拖放接口,允许在不编码的情况下配置转换模式。

在后端,转换过程可以包括几个步骤

  • 关键重组:在转换数据以满足目标模式、实体的需求时关系得以保存。转换几乎总是涉及到对主键和外键的一些破坏,因此主要目标之一是避免破坏任何关系。
  • 格式:列被转换为适当的数据格式。例如,日期可以在源数据库中以整数或文本字段的形式存储。转换层可以对所有相关数据应用一致的数据类型。
  • 映射:将数据从一列复制到目标数据库中的另一列。数据映射确认源列和目标列之间的关系,从而将正确的数据放置在正确的位置。
  • 连接:将兼容的数据值合并为单个值。例如,FIRST_NAME和LAST_NAME可以连接并映射到单个NAME列。还可以使用相同的反向逻辑将值解关联。
  • 分裂/加入:如果需要,可以将一个列分解为多个列。类似地,可以统一多个列。
  • 聚合:数据可以根据需要进行简化或总结。例如,可以按客户端ID聚合发票总额列表,给出一个单一的生命周期价值为每个客户绘制图。
  • 归一化:删除重复信息。在关系数据库中,这可能涉及到将数据分割成多个表并使用主键或外键将它们链接起来。
  • 清洗:识别并修复损坏的、不准确的或无效的数据。这可以通过重新格式化项、删除项或通过查找找到正确的值来实现。的转换阶段是一个理想的应用场所数据清理方法,保证高水平数据质量加载到目的地时。
  • 标准化:可以将值转换为与单一格式一致的值。这方面的一个例子是州名。数据库可能对各州使用不同的格式,例如California、Cali、CAL、CA。每种格式都是有效的,但在集成多个源时需要对这些值进行标准化。这种标准化有时是通过查找表来完成的,该表列出了正确的值和所有常见的变化。
  • 验证:测试数据值,看它们是否在逻辑限制内。例如,日期可能需要在某个范围内,而url应该解析为一个工作位置。
  • 困惑:敏感数据在加载到目标存储库之前可以被屏蔽或以其他方式屏蔽。当目标数据被用于测试或分析时,混淆通常使用。这允许终端用户使用数据的功能版本,但不会暴露任何个人细节或商业秘密。

数据转换后会发生什么?

一旦转换了数据,就会将其传输到目标存储库。

这也是数据集成的基础。多个不同的源可以通过集成层,然后以标准化的格式出现。然后,所有这些数据都可以加载到数据存储库中,在数据存储库中可以作为单个数据源使用。

数据所有者通常会对转换后的数据执行质量检查,特别是在新ETL流程的第一次运行之后。这些检查将关注以下事项:

  • 转换后的数据是否完整和准确?
  • 所有的关系都完好无损吗?
  • 有副本吗
  • 所有值的格式或范围都有效吗?
  • 在转换过程中是否有任何值被损坏?
  • 是否有无效的数据到达目标存储库?
  • 是否有任何敏感数据被不必要地暴露?
  • 完成的数据集是否满足该项目的业务需求?

如果转换后的数据满足所需的条件,数据所有者可以选择建立数据管道。这本质上是一个正在进行的ETL过程,它自动从数据源获取数据,通过转换层处理数据,并将其加载到目的地,所有这些都不需要进一步干预。

术语汇编

数据集成技术的命名法指南。

Baidu
map