什么是数据清理?

数据清理是修改数据以提高准确性和质量的过程。清洁过程有两个步骤:

  1. 识别和分类任何可能损坏、不准确、重复、过期、格式错误或与其他数据源不一致的数据
  2. 通过更新、重新格式化或删除脏数据来纠正所有脏数据

的关键步骤之一是数据清理提取,转换,加载(ETL)的过程。ETL工具将在转换阶段应用预定义的模式,以确保只有高质量的数据传递到加载阶段。

数据清理如何工作?

自动数据清理工具在清理数据时要经过几个过程,例如:

  • 识别重复:单个表中的重复行或多个数据库中的多个记录
  • 标记损坏或空的单元格:损坏和空细胞可能需要人工干预来修正
  • 检查数据有效性:随着时间的推移,数据会变得陈旧,可能不再准确
  • 数据验证:根据模板匹配数据,如电话号码为XXX-XXX-XXXX或{name}@{domain}。{TLD}用于电子邮件
  • 检查数据格式:数据经常以错误的数据格式存储,例如以文本字符串存储的日期和整数类型
  • 直方图和回归测试:有一些统计技术可用于检测可能需要清理的异常数据值
  • 使用转换表:如果一个公共值上有几个重复的变化,转换表可以识别所有的变化,并用首选版本替换它们,例如替换“FA”、“Fla”的所有实例。“florida”和“florida”。

识别出有问题的数据后,系统必须纠正它。清洁可以通过几种方式进行,例如:

  • 重新格式化:系统可以将行转换为正确的数据类型。
  • 下降:重复数据可以安全地从数据源中删除。
  • 的改动:缺失的数据有时可以从其他值推断出来,或者根据类似的记录进行估计。
  • 合并:如果有更好的数据源可用,则可以将来自该数据源的信息合并到损坏的表中。
  • 标记:当没有办法自动修复数据时,系统可以标记出有问题。分析模块可以在分析过程中忽略这些数据,人工操作人员可以尝试手动更新有问题的数据。

何时进行数据清理?

大规模数据清理通常发生在变换ETL阶段。在此阶段,可以根据组织的数据模式单独检查每个记录。这确保了分析操作的准确性,高质量的信息。

然而,ETL只影响到达数据仓库的数据。ManBetX万博客服它不清除任何作为输入的数据源,例如组织的CRM或ERP,这些数据源在ETL过程中保持不变。

如果一个组织在ETL之前注意到数据质量的重大问题,他们应该进行全面的数据审计。在某些情况下,他们可能需要执行大量的手动数据清理和数据治理策略检查。

术语汇编

数据集成技术的命名法指南。

Baidu
map