ETL和ELT是什么?

英语教学与英语教学的主要区别是什么?

ETL (提取,转换,加载)和ELT(提取、加载、转换)是将数据从源移动到目标存储库的两种方法。

ETL在将数据加载到目的地之前应用转换。使用ELT,转换在数据传输很久之后按需发生。这是一个对数据存储和分析具有重要意义的本质区别。

ETL是如何工作的?

ETL流程分为三个阶段:

  • 提取: ETL从目标数据源获取数据,例如关系数据库、NoSQL数据库、API调用或文件导入。所有这些都是结构化数据。
  • 变换: ETL引擎对传入的数据应用转换模式。它在一个暂存区域中执行此操作,在该区域中,引擎将值从当前表复制到新表。这将标准化所有传入数据,同时还执行一些数据质量任务。
  • 负载:现在数据是干净的、一致的,并且格式正确,ETL将其传输到目的地。对于ETL,这个目的地通常是OLAP数据仓库ManBetX万博客服

在转换过程中,ETL流程将清理、协调和规范化原始数据。如果需要,它还可以丰富或屏蔽数据。

到达存储库的数据具有质量保证和正确的格式,可以立即用于分析等。

英语教学是如何工作的?

ELT遵循上述相同的基本步骤,但以不同的顺序实现它们。这对结果产生了巨大的影响。

  • 提取: ELT流程从数据源中提取数据。该过程可以处理结构化、半结构化或非结构化数据。
  • 负载:进程将数据推送到相应的数据存储库。当使用ELT时,存储库通常是一个数据湖构建在分布式文件系统上,例如Hadoop.此时数据没有经过转换,这意味着流程以原始格式将其加载到存储库中。
  • 变换:在英语教学中,数据转换是按需进行的。如果用户或应用程序希望从数据湖检索数据,他们将使用诸如MapReduce对可用数据进行排序。

英语教学的优势是速度快。提取和加载之间的处理开销是最小的,因为没有转换工作发生。ETL是构建为数据湖提供数据管道的有效方法。然而,如果没有得到充分的管理,这可能会变成一个数据沼泽。

由于这些数据不是结构化和集成的,执行传统风格的查询将花费大量的时间。Hadoop和Spark等大数据工具可以显著减少执行时间。

常见ETL用例

ETL最适合于特定的用例,特别是涉及某些类型的用例数据存储库

创建数据仓库或数据集市时ManBetX万博客服

ETL处理结构化数据,这就是为什么它非常适合用作填充存储库结构(如数据仓库)的数据管道。ManBetX万博客服

这也适用于类似的结构,比如数据集市。一个数据集市本质上是一个专门的仓库,为特定的业务功能提供信息。例如,您可以部署一个金融数据集市,它只保存与金融相关的数据。ETL将为这样的结构提供新的数据。

当集成数据源时

ETL是数据集成用例的理想选择。在这种情况下,组织将拥有不同的数据源,例如生产数据库、云服务和存储在关系数据库表中的信息。万博max手机网页登录

如果企业希望以统一的格式将这些组合在一起,ETL将在转换阶段应用所需的更改。其结果是一个标准化的、一致的数据存储库,可以立即使用。

当应用主模式时

ETL在您希望将不同的源组合到一个关系数据库中的场景中非常出色。例如,您的CMS、计费系统和电子商务系统中可能有客户数据。您可以在ETL接口中创建一个模式,ETL引擎将执行数据集成过程。

其结果是一个充满整齐格式化的客户信息的数据存储库。这个过程适用于任何数据量,只要它们都符合您的模式。

当存储数据供将来生产使用时万博max手机网页登录

如果需要,ETL可以是双向过程。数据仓库中的数据是干净的、集ManBetX万博客服成的和质量可控的。这意味着您可以将数据从仓库导出到另一个应用程序。

例如,您可能有一个创建客户信息数据库的ETL流程。一旦建立了这个数据库,就可以将其导出到客户关系管理(CRM)系统中。

常见的英语教学用例

ELT在其他用例中也很有用,例如:

创建数据湖时

与其他存储库结构相比,数据湖似乎没有规则。数据管道以其原生格式存放数据,而不进行任何类型的转换。

如果有合适的工具支持,这种方法可以很好地工作。你还需要优秀的水准数据治理确保在数据过期时删除数据。你也必须确保保存足够的记录,例如血统的元数据

当存储不同类型的数据在一起

ETL可以处理半结构化数据,如CSV文件,以及非结构化数据,如图像和文本文件。ETL不能这样做,因为它试图通过转换层传递所有数据,而转换层只适用于结构化数据。

所有这些数据实体都以其原生格式保存,因此您可以以原始形式回忆它们。这将释放企业网络中其他地方的存储容量。

当数据太多样化而不能应用模式时

在处理大数据时,输入的数据可能在结构上过于多样化,无法适合单一的模式。如果是这样的话,组织数据的斗争很可能以失败告终。

ELT方法在这种情况下是有意义的。您可以以原生格式将所有信息加载到数据湖中,然后在需要时依靠MapReduce等技术来查找所需的信息。

归档数据时

有些数据需要长期存储,即使它不会经常使用。例如,财务记录必须存储至少一段时间。在此期间,它们可能不受读操作的影响。

ELT是实现这一目的的理想选择,因为它将以原生格式传输数据。它以最小的开销做到这一点,并使用具有成本效益的大数据存储技术,如Spark和Hadoop。

ETLT替代方案

ETLT是一个新兴的框架,它结合了ETL和ELT的最佳元素。在这个模型中,有四个阶段:

  • 提取: ETLT服务从数据源获取数据。
  • 转换数据:服务将数据传递给清理和验证。
  • 负载:将数据加载到数据仓库中。ManBetX万博客服
  • 变换关系:进一步的SQL处理在仓库端进行,以集成传入的数据源。

ETLT越来越受欢迎,因为它使用新技术来提高整体流程效率。ETL工具可以处理数据复制的大部分困难工作,使用动态方法处理不同类型的提取。然后ETLT框架管理器可以在最佳时间安排额外的转换,最大限度地利用可用资源。万博手机登录平台其结果是数据吞吐量大大提高,对企业系统的压力更小。

术语汇编

数据集成技术的命名指南。

Baidu
map