数据处理有哪些阶段?

数据处理是将原始数据转化为有用信息所执行的任何操作。“信息”是对组织有用的任何输出,如分析报告、可视化或精细化的数据集。

数据处理的阶段

数据处理的工作方式与提取,转换,加载(ETL)。从数据源检索数据,然后通过转换层,最后存入最终目的地。

通常,这个过程分为以下几个阶段:

收购

首先,确定相关数据源。这些可以包括生产数据库、数据存储库和万博max手机网页登录外部源。有几种数据获取方法,如API调用、手动文件导出或使用自动化ETL平台。

准备

数据准备本身就是一系列较小的过程。这包括数据清理和协调,以确保传入的数据没有错误、重复和冗余。这个准备阶段产生一组干净的数据,现在可以进行集成了。

集成

集成层涉及到根据主模式转换数据,以便数据以标准化格式到达目的地。集成还将规范化数据,使其具有更有效的结构。

组织

在某些情况下,数据在进入下一个阶段之前可能需要索引、排序或其他形式的组织。这可以手动完成,也可以使用排序算法。

处理

根据数据的复杂性,可以手动或自动执行处理工作。对于小型数据集,分析人员可以使用一些SQL查询甚至Excel执行处理。更大的数据集将需要一个数据分析工具,该工具将使用机器学习和人工智能从数据中获得见解。

可视化

数据处理的结果通常是服务于业务需求的通信。图形、图表、仪表板、报告——所有这些都可以是处理的结果。通常,此步骤由分析专家处理,他们将使用可视化工具,如Tableau and chart.io

存储

最后,将处理过的数据放入存储器。这可能是特定于业务的存储库,例如数据集市,以便有关的业务单位在需要时可访问已处理的数据。否则,数据可能会在更大的存储库中结束,例如数据仓库或数据湖。ManBetX万博客服

处理非结构化数据

在处理非结构化数据时,数据处理可能有所不同。

结构化数据在处理之前已经存在于关系表中。非结构化和半结构化数据可以有多种形式:图像、音频文件、应用程序日志、JSON和CSV导出、blob(二进制大对象)。

也可以处理非结构化数据,尽管过程通常不同。

采办和准备

在可能的情况下,应该对包含哪些来源进行战略决策。当使用大数据结构时,这可能并不总是可行的,例如数据湖.尽可能在处理数据之前对数据进行验证,并删除任何损坏的数据。

搬到一个合适的环境

通常,这涉及到将所有数据转移到合适的环境中,例如Hadoop。非结构化数据不能添加到关系数据库中,这就是为什么必须将其导入到适当的大数据设置中。

执行数据探索

在处理较大的数据集时,数据探索是必不可少的。通常情况下,分析团队可能无法清楚地了解可用数据的全部范围。探索是一种初步分析,它有助于阐明数据集的内容,并确定可实现的分析目标。

介绍一些结构

有一些在非结构化数据中查找结构的技术,包括:

  • 元数据分析:元数据通常是结构化数据,可以按照结构化数据进行处理。该信息有助于理解和映射非结构化数据的内容。
  • 正则表达式:一种识别具有相同语义的数据的方法。例如,6月12日、6月12日和6月12日都表达了相同的概念。正则表达式可以帮助简化非结构化数据。
  • 标记:一种识别数据中常见模式的方法,如文本中重复出现的短语。这些模式由标记来标识,并且可以将标记组合起来构建语义结构。
  • 分割:该技术涉及到根据公共属性将数据分组。例如,同一天创建的数据可以被分割并进行队列分析。

有了大数据集,所有这些操作都可以由分析工具自动执行,这些分析工具可以在相对较短的时间内导航庞大的数据仓库,这要感谢MapReduce等工具。

执行分析和可视化

当数据准备好后,分析团队将执行分析操作,包括可视化。然后,从数据中得到的见解被传递到相关的业务单位。

注意,与ETL方法不同,非结构化数据需要提取、加载、转换(ELT)方法。因为数据没有结构,所以它不能通过单个模式。相反,必须将数据转移到正确的环境中,然后进行处理。

GDPR数据处理的定义

“数据处理”一词在欧盟中有非常具体的含义一般资料保障规例.根据该法律,数据处理被定义为:

“……对个人资料进行的各种操作,包括手动或自动方式。它包括收集、记录、组织、构造、储存、改编或改变、检索、咨询、使用、通过传播披露、传播或以其他方式提供,对齐或组合,限制,删除或破坏个人数据。”

这个定义并不只适用于商业智能中的分析。相反,它涵盖了GDPR所涵盖的涉及个人数据的任何活动。

GDPR将数据处理器定义为处理个人信息的任何人,包括代表其他组织处理数据的服务。在该上下文中,拥有数据的组织称为数据控制器。

术语汇编

数据集成技术的命名法指南。

Baidu
map