什么是数据质量?

数据质量是指数据的当前状态以及它是否适合特定的业务目的。数据质量管理是确保适当的数据质量的行为。它是一个中心支柱数据治理框架。

如何衡量数据质量?

不同的上下文需要不同的数据质量标准。例如,在使用生产数据库时,数据质量意味着高标准的清理、集成和协万博max手机网页登录调。在数据湖上下文中,数据质量可能仅指删除损坏的和空白的数据值。

每个组织将设计自己的数据质量政策框架。该策略将指定以下细节:

  • 数据的目的:数据质量政策将概述数据的当前用途和未来潜在用途。
  • 数据来源:该策略将详细说明任何可用数据存储库的性质,并概述合适的未来存储库的需求。
  • 数据转换方法:数据质量受到转换过程的影响,例如清理、增强、协调,集成.数据质量策略应该为任何类型的数据转换提供可接受的标准概要。
  • 审计实践:数据质量策略应该概述审计数据质量的首选方法。作为数据治理的一部分,每个组织都应该有一个明确的流程来响应检查期间出现的任何数据质量问题。

数据质量可能涉及速度和效率之间的权衡,这就是为什么组织可能针对不同的上下文有不同的策略。但是,数据质量策略应该始终与数据治理框架的其他元素保持一致,特别是与数据安全相关的元素。

数据质量的属性是什么?

目前还没有公认的数据质量标准。然而,有一些框架可以帮助组织开发他们自己的质量定义。

DAMA,全球数据管理社区,概述了数据质量的一些常见属性:

1.有效性

数据值需要符合数据模式。在最基本的级别上,这意味着值应该匹配数据类型:如果模式指定整数,则值必须是数值,等等。

还有一些逻辑规则可能没有反映在数据库中。例如,在客户出生日期列表中,所有值都应该采用日期格式,例如YYYYMMDD。但同时,这个日期不能在未来或遥远的过去。

不同部门对有效数据的定义不同。只打本地电话的人可能会说电话号码必须是九位数。拨打国际电话的人可能不同意。在整个组织中明确这些标准是很重要的。

2.精度

所有数据都描述了一些东西,无论是人、产品还是其他数据。万博max手机网页登录高质量的数据应该准确地描述它所描述的事物。

准确性可能是一个有点主观的术语。例如,如果两个离散的数据库包含冲突的数据值,那么只有一个是准确的(除非两个都不准确)。解决这种差异是数据治理和理解数据源本质的问题。

准确性的衡量标准是数据描述事物的好坏。例如,如果企业拥有一组准确的客户数据,那么员工将能够查看每个人的正确姓名、地址、联系详细信息和订单历史。

3.及时性

可用数据应该包含最新的可用值。过期的数据应该被标记、隐藏或删除。

时效性在生产系统中尤为重要。万博max手机网页登录例如,ERP总是显示所有资源的最新属性。万博手机登录平台如果ERP仪表板显示旧的交付状态,或者显示员工在休假时可用,那么资源计划将失败。

在GDPR等规则下,数据必须被保护在必要时保持更新.该规则旨在防止出现以下情况:例如,公司将敏感邮件发送到客户以前的地址。

4.完整性

可用的数据应该是完整和全面的。数据中的空白可能导致分析不准确或使其他数据失效。

并不总是能够判断数据是完整的还是部分的。例如,一个网站所有者可能有两个分析数据库:一个用于桌面访问者,一个用于移动浏览器。当单独查看时,这两个数据库中的任何一个都可能描述所有网站访问者。这可能导致倾斜和不准确的分析。

关系数据库建立在关系之上,因此排除任何数据可能会影响数据库其余部分的功能。来自其他来源的数据可能需要提供额外的上下文。

5.可靠性

数据应该来自可靠的来源。如果对来源的准确性有疑问,所有数据都应适当标记,以与更可靠的数据区分开来。

在这个意义上,可靠指的是数据已经通过了经过批准的转换过程。例如,数据已经通过提取,转换,加载(ETL)流程通常被认为是可靠的,因为它是根据公认的模式进行处理的。ETL输出将被彻底清理和协调。

可靠性也与数据本身有关。例如,在登录用户中进行的调查可能比公众投票更可靠。在评估可靠性时,了解任何数据采集背后的方法是很重要的。

6.粒度

数据值可以在需要时聚合或汇总。当业务需要详细的数据时,数据应该适当地细化。

数据值通常可以被分解成更细的值。例如,考虑客户的购买历史。在一些报告中,这可能会显示为单个值:总生命周期花费。但这可以进一步分解为所有发票总数的列表。发票可以细分为项目,项目可以细分为项目成本和销售税。每一个都是不同的粒度级别。

并非所有实例都需要高度细粒度的数据。与数据质量策略的所有元素一样,决定因素是数据的最终业务目的。

术语汇编

数据集成技术的命名指南。

Baidu
map