重复数据删除技术是什么?

重复数据删除方法删除重复的值的数据。这个过程帮助加速过程,如备份、和其他进程可能导致大规模的重复数据值。

重复数据删除为什么重要?

数据有主人的货币成本。保持数据的存储成本,还有查询数据的处理成本。随着数据量扩大,数据成本增加。

复制数据所有者没有价值,但它仍然要花钱的。在某些情况下,复制数据可以开始放缓影响性能的查询结果。

大规模数据复制可以发生在一些过程中,如数据备份。例如,考虑一个组织生产系统等万博max手机网页登录CRM。对于这个公司,平均每天1%的客户详细信息的变化,而另外99%是相同的。

该组织可能会选择定期备份CRM的数据,也许每一天。如果出口的大小是1 GB,然后用365 GB的组织最终将备份数据后一年。如果每个备份是不变的99%,那么361 GB的存储空间被浪费了。

这些裁员规模,导致更高的存储成本和较慢的查询结果。重复数据删除技术是去除这些冗余的过程组织与尽可能少的重复有可靠的备份。

重复数据删除技术是如何执行的?

有几种方法执行重复数据删除的数据,根据任务的性质。

基于查询的

在关系数据库中,个人可能包含重复值的行。这些可以使用查询或删除脚本,只要他们是真正意义上的重复。

组织一般手动执行这样的重复数据删除技术,通过存储查询或批处理文件。这种重复数据删除也可以发生后处理的一部分,这是净化处理后数据所有者执行数据已经从源到目的地目标。基于查询的重复数据删除技术通常是微调数据库,而不是让大规模的效率的提高。

ETL过程

重复数据删除的函数转换过程的ETL (提取、转换、加载)。ETL过程持有数据导入后分段层。然后比较了分段过程层数据到其他可用资源。

如果检测到一个重复的过程,它将采取下列行动:

  • 删除:ETL过程删除重复值。然后它将删除处理版本的数据传递到目标库中。
  • 标记:一个令牌替换重复的值。这个令牌指向相应的已有数据的价值。在上面的示例中,这将使识别客户记录也没有改变自上次备份,然后替换记录指针指向适当的条目在目标库中。
  • 归一化:如果关系数据库中包含大量重复的单元格值,这可能会触发一个标准化过程中的ETL平台。正常化有几种形式,这取决于性质的冗余。一般来说,它包括重组表来更有效的形式。

在ETL,这都是基于规则,规则定义的用户。用户可以选择他们认为合适的应用这些规则,根据他们的数据需求。

基于文件的

在处理大型出口或非结构化数据,重复数据删除技术通常涉及到一个直接比较的导入和现有的文件。然后使用一个重复数据删除的过程,这将执行以下步骤:

  1. 把文件分解成更小的部分。如果进程试图比较两个500 GB的单个字节的文件不同,他们将显示为non-duplicates。相反,这个过程必须把数据分解成更容易管理的部分。
  2. 为每个部分创建一个签名。个人部分本身是没有可读的文件,那么这个过程创造了一个十六进制签名基于每个部分中包含的值。
  3. 比较签名之间的部分。过程检查签名内的目标部分存在任何目的地。
  4. 如果这是一个重复的标记。如果匹配,这个过程令牌值替换这个重复的部分。令牌指向的位置匹配的文件部分。
  5. 如果不是重复写。如果没有匹配,那么目标部分复制到目的地。

这一过程的结果是一个小得多的文件传输。这个过程只复制独特的部分进口文件。其余的文件包含指针,小指出告诉目标系统在哪儿找到丢失的部分。

重复数据删除的潜在问题是什么?

重复数据删除过程必须透明,记录,和精心策划。如果有一个错误的重复数据删除,可能会产生负面的结果,如:

  • 意外删除:一个贫穷的重复数据删除过程的最大的危险是,你可以移除独特的数据。你可以避免通过使用响应平台如ETL工具管理流程。
  • 缺乏冗余:一个典型的例子重复数据删除的邮件备份。电子邮件可能都有相同的页脚的形象,这意味着这张照片只需要备份一次,并且每个电子邮件可以指向备份文件。然而,如果事情发生这个图像的一个副本,每个存储电子邮件将受到影响。
  • 增加管理费用:重复数据删除的目标是减少处理开销。但有一个开销这一过程。组织平衡成本与成本的重复数据。开销可能出现如果重复数据删除过程未能减少文件大小,或者重建文件的处理成本太高了。

大多数这些问题是可以避免的,仔细的规划和使用正确的工具。

的术语表

一个数据集成技术的术语指南。

Baidu
map