什么是数据管道?

数据管道是从数据源获取数据并将其推送到目的地的软件过程。大多数现代的数据管道都是用ETL (提取,转换,加载)平台。

数据管道是如何工作的?

为了处理、分析、同步或存储等功能,数据总是需要从一个位置流到另一个位置。这个移动可能需要每天、每小时,甚至在记录更新时实时进行。

数据管道是例行公事地、一致地执行此任务的软件。管道有三个主要元素:

  • 来源:管道可以从多个不同的源提取数据。例如,数据可以来自CRM、ERP或销售数据库等生产系统。万博max手机网页登录
  • 目的地:数据的最终目的地。这可能经常是一个数据集市、数据仓ManBetX万博客服库、数据湖或不同的关系数据库。通常,管道只有一个目的地。
  • 管道软件:软件从源端导出,再导入到目的端。在过去,这是通过定期安排的批处理作业来执行的。这种方法大部分已经被自动ETL所取代,它可以实时运行。该软件还可以对传输中的数据执行转换,以便根据目的地的模式对数据进行格式化

自动化ETL的优点之一是管理员可以在不影响管道的情况下对源和目的地进行更改。

什么数据流经数据管道?

任何数据都可以通过数据管道流动。广义地说,这意味着数据的三种分类:

  • 结构化数据:已经在关系数据库结构中的数据。可以使用API调用导出完整的表。
  • -结构化数据:此数据可以作为文件导出处理,例如JSON或CSV文件。
  • 非组织性数据:在这种情况下,unstructured可以指任何非可识别数据库格式的内容。文本文件、图像、音频和文档扫描都是非结构化数据的例子。

要将源连接到管道,管理员必须具有执行数据导出的足够权限。每个源都有自己的导出数据的方法。在某些情况下,可能需要编写从源提取数据的脚本或应用程序。

自动化ETL使这个过程更加容易。像Xplenty这样的平台是预先配置的,可以与大型流行数据源库集成。这允许平台自动从数据源获取数据,而不需要编码、配置或批处理作业。

数据如何在管道中转换?

数据在交付到目的地之前可能需要转换,也可能不需要转换。根据管道的性质,此转换可能包括:

  • 数据清理任何错误的值都将被修改或删除,包括重复值和空值。
  • 数据映射:将数据转换为适合目标数据库的模式。
  • 数据协调数据将进一步细化,以确保所有值都满足目标数据库的逻辑规则
  • 数据浓缩多个数据源被合并以创建单个更详细的数据源
  • 数据屏蔽对敏感值进行模糊处理,以保护数据主题的隐私。

如果在传输过程中发生任何转换,管理员将定义规则,包括主模式。除非使用自动ETL工具,否则必须手动应用和验证这些规则。

ETL将自动对通过管道的所有数据应用任何更改。这是通过分期层来完成的,在分期层中,数据被复制到目标模式的某个版本。

管道可以在哪里存放数据?

管道可以连接到任何合适的数据存储库。最终目的地取决于管道的目的。

  • 关系数据库:管道可以连接到一个简单的关系数据库。这在集成多个数据源或在生产使用前必须转换数据的场景中最有用。万博max手机网页登录
  • ManBetX万博客服管道对于数据仓库是必不可少的。可以将管道配置为从多个源收集数据,然后将数据转换为符合仓库模式的数据。ETL确保仓库实时准确地更新。
  • 数据集市: Marts是仓库的子部分,根据特定的商业目的整理数据。数据管道可以帮助提供这些市场,确保结构中的所有数据都是相关的。
  • 数据湖一个数据是大量数据的非结构化存储库。当管道连接到数据湖时,它通常不会执行任何实质性的数据转换。相反,数据以原始格式加载到湖中,分析人员使用先进的工具进行导航。这种方法被称为ELT(提取、加载、转换),与ETL相反。

大多数数据管道都是单向的,数据从源流向目的地。这通常是最有效的方法,尽管有些实现允许双向管道。

数据管道的遵从性和安全影响

传输数据有一定程度的风险。数据可能被损坏,被错误转换,甚至被第三方截获。

在规划数据管道时,强大的安全协议是必不可少的。自动化ETL平台消除了大部分相关风险,因为数据从不直接暴露。相反,ETL平台通过API查询目的地,然后安全地将数据传输到目的地。因为没有人工与数据交互,所以风险很小。

一些数据保护法律,如GDPR,可以限制组织对数据的操作方式。必须保持数据质量标准,并且可能不允许数据离开管辖范围。当使用设在另一个国家的第三方服务时,这可能是一个问题。

此外,必须始终保持数据质量。最终数据中的任何错误都可能构成违反数据保护的行为,并危及数据的完整性。

由于这个原因,组织必须有一个跟踪数据沿袭的过程。这是一种元数据,它详细描述了数据的来源、传输到的位置以及发生了何种类型的转换。

术语汇编

数据集成技术的命名法指南。

Baidu
map