什么是数据准备?

数据准备是一个工作流,它为指定的业务用途生成一组数据,例如分析或仓库。典型的数据准备工作流可以包括数据获取、数据清理、创建元数据和数据转换等步骤。

什么是数据准备工作流程?

数据准备工作流的性质取决于项目的类型。通常,这个过程从与相关涉众的对话开始。

1.收集需求

如果这是一个新的数据准备项目,数据团队将与涉众一起定义最终目标。例如,在一个分析项目中,他们将讨论使用哪些数据源以及最终的数据结构将是什么样子。

2.清理数据

数据清理是修改数据以提高准确性和质量的过程。这是通过识别任何损坏的、空的、无效的或重复的数据来完成的。这些不一致可以通过更新或删除受影响的值来修复。

3.提取数据

数据集成将不同的数据源聚集到一个地方。有时,这可能需要多种方法,例如使用API调用和JSON文件导入的组合。

4.转换数据

导入的数据需要进行转换,以满足最终用户的需求。当所有数据被转换为适合单一模式时,这称为数据协调

5.创建元数据

最终的数据集将需要用于导航和组织的元数据。元数据可以用来保存以前的元数据,例如与数据沿袭还有数据来源。

6.加载数据

准备好之后,必须将数据交付到它的最终位置,例如数据仓库。ManBetX万博客服在数据准备过程的最后,用户应该能够执行他们想要的过程,而不需要进一步修改数据。

数据准备使用什么工具?

如果是一次性的小型作业,则可以手动执行数据准备。数据技术人员可以使用SQL查询或Excel电子表格来准备数据。

对于较大的项目,数据准备由自动化ETL(提取转换负载)平台处理,例如Xplenty。

自动化ETL处理数据准备过程中的大部分资源密集型工作。ETL的优点是:

  • 提取:像Xplenty这样的ETL平台包括一个集成库。这允许他们插入多个数据源,而不需要编写代码、配置api或执行手动导出。ETL允许在一个地方轻松收集所有所需的数据。
  • 转换: ETL平台提供了一个登台层,在此层中数据可以在继续前进之前进行转换。这可以包括根据使用ETL平台内的工具定义的单一模式来协调数据。
  • 加载:对数据进行清理、集成和协调后,就可以将数据交付到最终目的地,如数据仓库或分析平台。ManBetX万博客服与提取阶段一样,由于集成库,Xplenty可以不需要代码就执行这部分。

自动化ETL的主要优点是它创建了一个活动的数据管道。数据准备项目只需要设置一次。然后,数据管道将提供稳定的、可用于业务的新数据供应。

术语汇编

数据集成技术的命名法指南。

Baidu
map