什么是数据屏蔽?

数据屏蔽是一种模糊敏感数据的过程,当数据被导出用于测试时,可以在不暴露私人信息的情况下进行准确的测试。

如何屏蔽数据?

有许多常见的数据屏蔽技术,可以根据数据的性质和测试的范围使用这些技术。这些方法包括:

  • 调零:返回数据值为空或替换为占位符。
  • 回文构词法:每一项字符或数字的顺序被打乱。例如,“Laura”和7189可能被洗牌为“Raalu”和8917。
  • 替换:在这种方法中,每个值都从适当的替代值的单独数据库中随机选择。例如,管理员可能会编译一个非功能性信用卡号列表。然后,在屏蔽过程中,可以将这些信用卡号码交换为真实的信用卡号码。
  • 随机替换:该方法查看字段中值之间的方差,并在该范围内生成一个随机值。例如,如果值是位于6个月期间的日期,屏蔽算法将在同一6个月期间创建一组适当分布的随机日期。
  • 加密:导出时对敏感数据进行加密。任何拥有密码或密钥的人都可以解除加密。

为了最好地平衡数据完整性和数据安全性,应该由数据库管理员来决定应用哪种方法。这些方法都可以静态或动态地应用:

  • 静态数据屏蔽:屏蔽规则在源端应用。由于原始副本被屏蔽了,因此可以保证敏感数据不会被暴露。但是,这些数据不能用于任何需要解掩数据的目的。
  • 动态数据屏蔽:对出口按照预定义的数据规则进行屏蔽。这些规则可以基于用户访问级别、API调用参数或其他可能需要额外数据安全性的因素。可以应用不同类型的屏蔽规则,以便每个场景返回最合适的数据集。

动态屏蔽更加灵活,因此更适合于像DevOps这样的连续测试环境。然而,静态屏蔽更快,最终也更可靠。

为什么使用数据屏蔽?

数据是任何组织的命脉。它支持应用程序,支持分析,并影响战略。但是数据也代表真实的人——客户、客户、员工、站点访问者、邮件列表订阅用户、公民和其他与组织交互的人。

屏蔽数据允许组织平衡所有这些需求。

消费者的信任

当个人数据被曝光时,就有可能落入坏人之手。黑客可以拦截数据传输,或者不道德的员工可以窃取个人信息。

数据屏蔽通过确保任何敏感数据在到达目的地之前被删除或加密来解决这个问题。这有助于建立客户信任,并避免与隐私泄露相关的声誉损害。

精确的测试

测试数据没有生产数据的深度或范围,这就是生产数据对测试至关重要的原因。万博max手机网页登录如果开发人员被拒绝访问高质量的数据,他们将无法开发或维护产品。万博max手机网页登录

数据屏蔽解决了这个问题,它提供了一个与真实数据非常相似的数据集,而不会危及任何人的隐私。开发人员可以在真实场景中测试他们的应用程序,并在发布前发现任何问题。

合规

欧盟《一般保障资料规例》(GDPR)要求数据控制器实现匿名,这样数据就不能用来识别个人。数据屏蔽是企业使用的一种关键的匿名技术。

其他地区也有可能引入类似的要求。如果是这样,那么组织将需要证明他们在适当的情况下使用了数据屏蔽,否则他们可能会因未能满足数据保护要求而面临惩罚。

常见的数据屏蔽问题

数据屏蔽的应用需要谨慎,否则可能会产生负面后果,例如:

测试的完整性

数据屏蔽会影响测试的准确性。例如,一个组织可能有一些姓中有特殊字符的客户。使用替换方法,每个姓氏将被替换表中的一个虚拟姓氏替换。

但是,如果没有一个替代姓氏包含特殊字符,那么测试结果就不准确。这种不一致可能在应用程序上线之后才会被发现。

可逆性

如果屏蔽方法过于透明,则可能会外推原始值。例如,如果一个常见的名字是拼字的,那么它通常很容易解读。这同样适用于变电站代码,如将A改为B, B改为C,等等。

屏蔽只在无法确定原始值时有效。大多数管理员会执行感觉检查,看看他们的屏蔽算法是否达到标准。

数据库的完整性

在某些关系数据库配置中,个人数据可以充当主键。例如,员工数据库可能使用员工的id号作为键。如果一个表通过主键连接到另一个表,则屏蔽将破坏这种关系。

解决方案是使用不同的主键来保存关系,理想情况下,主键不能用于识别数据的主题。数据库管理员通常会在屏蔽后检查数据库的完整性,以确保所有关系保持完整。

分析

如果屏蔽数据被用于分析,那么由此产生的见解可能并不准确。例如,如果一列日期被替换为随机日期值,那么分析人员将无法清楚地了解每日活动模式。

当数据库团队和分析团队之间沟通不畅时,通常会出现这个问题。有效的屏蔽需要双方进行主动对话,以确保在客户数据保持安全的情况下满足业务需求。

术语汇编

数据集成技术的命名法指南。

Baidu
map