什么是数据混淆?

数据混淆描述了在保留某些可用性方面的同时隐藏敏感数据的任何过程。术语“数据混淆”和“数据屏蔽通常可以互换使用,尽管数据屏蔽也可以指专门用于测试目的的混淆。

为什么使用数据混淆?

组织经常需要隐藏数据以防止未经授权的访问,特别是业务关键数据或个人信息。这可以用于数据安全与数据保护相关的合规性要求。

如果敏感数据不是处理所必需的,则可以简单地将其删除或置空。如果需要完整的数据集,则使用模糊处理来保护隐私。这种需求的存在可能有以下几个原因,例如:

  • 测试:只有生产数据才能进行准确的测试。万博max手机网页登录数据混淆产生的数据库完全代表真实数据,但不包含敏感信息。
  • 安全的交易:两个系统可能需要在不暴露数据的情况下执行事务,例如电子商务服务器连接到安全支付系统。模糊处理可以在不暴露信用卡号码等数据的情况下实现这一点。
  • 出口数据:当数据通过手动导出导入过程从一个系统移动到另一个系统时,数据文件的内容可能容易受到攻击。模糊处理可以隐藏关键数据,如果文件被拦截,则无法读取。

什么是数据混淆的过程?

有许多方法可以在保留功能的同时模糊数据。最常见的包括:

数据匿名化

数据匿名化通常用于生成安全、可用的测试数据。有几种不同的屏蔽数据的方法,包括:

  • 随机化:数据值在共享前会被打乱。这可以通过对数据进行排列,或者通过随机排列列,使每一行都不准确来实现。
  • 替换:虚拟值替换真实数据值。这些数据可以随机生成,也可以从查找表中获取。例如,一个真实的信用卡号可以被一个从非活动信用卡列表中获得的假信用卡号所取代。
  • 远程替换:使用虚拟值,但这些值在实际数据值的范围内。例如,对于一个数字列表,将会有最高值和最低值。虚拟值是随机生成的,但它们均匀地落在这个范围内。

匿名数据看起来就像真实数据一样,可以用于彻底的软件测试。但是,它不包含任何可识别的信息。理想情况下,应该没有办法逆转匿名化过程并获得原始数据。

数据标记

使用标记化,每个数据值都链接到一个随机代码或标记。这个令牌本身没有任何值,但是当它被传递回原始系统时,可以使用它来执行查找。

例如,数据库可能包含信用卡号码列表。每张信用卡都链接到一个查找表中的随机令牌。安全支付API在与其他系统交互时可以使用令牌,这意味着信用卡号永远不会暴露。

数据加密

加密的数据使用加密算法进行转换,任何拥有密钥的人都可以解锁。加密数据在传输过程中是不可读的——通常,它会显示为一串无意义的字母数字。

加密允许敏感数据与其他数据一起安全地传输。因此,数据导出可能包含一些加密的表,在到达目的地之前无法访问这些表。到达后,接收方可以使用该密钥恢复原始数据值。

术语汇编

数据集成技术的命名指南。

Baidu
map