什么是数据屏蔽?

数据屏蔽是一种对数据进行加扰以创建用于各种非生产目的的不真实副本的数据安全技术。数据屏蔽保留了原始生产数据的特征和完整性,并帮助组织在非生产环境中利用数据的同时最大限度地减少数据安全问题。这些屏蔽的数据可用于分析、训练或测试。

数据屏蔽示例

数据屏蔽的一个简单例子是隐藏个人身份信息。假定组织的数据库中有一个员工表。它具有其每位员工的员工 ID 和全名。通过数据屏蔽,组织可以创建使用通用姓名的原始数据库的副本。

为什么组织需要数据屏蔽?

近年来,数据安全法规变得非常严格。诸如《通用数据保护条例》(GDPR) 之类法规的出台迫使组织严格保护其数据。这极大地限制了组织数据用于测试或分析。

假设一家医疗保健公司想要分析和研究他们的客户行为。他们可能希望将分析工作外包给第三方供应商。如果他们将客户的真实健康信息传递给供应商,就有可能发生数据泄露。在这种情况下,数据屏蔽会有所帮助。

数据是组织最重要的资产之一。数据屏蔽功能可帮助组织在不影响数据安全性的情况下获取数据带来的最大好处。

了解用于治理、管理和使用所有共享数据资产的单一解决方案
了解用于治理、管理和使用所有共享数据资产的单一解决方案
通过一体化方法来管理整个企业的数据资产,避免孤岛。

常见的数据屏蔽方法有哪些?

替换

在替换方法中,数据记录中的原始数据值将替换为虚假值。例如,在客户数据库中,每个男性姓名都可能被替换为标准值。每个女性名字都可能被另一个值替换。替换可确保不真实数据的格式与原始数据的格式完全相同。另外,在上面的例子中,数据屏蔽系统通过分别替换男性和女性姓名来维持男女顾客比例。

混排

这是一种常见的数据屏蔽技术,其中的值在数据库表的列中垂直混排。如果我们需要使用混排来屏蔽存储每个银行账户余额的表,我们会随机混排账户余额列。这样,帐号将具有随机余额,而不是真实数据。混排的一个优点是,即使在数据屏蔽之后,列的聚合值也保持不变。

取平均值

取平均值将表列中的所有数值替换为平均值。在上面的账户余额示例中,每个账户余额都被所有余额的平均值所取代。这使得无法找出个人账户的余额。此过程还会保持总值。

编校和置零

编校是最直接的数据屏蔽方法。敏感数据将替换为类似 “X” 的通用值。这是一种屏蔽电话号码或信用卡号的常见做法。置零是一个类似的过程,但不是泛型值,而是将置零放置在数据字段中。这种方法有各种弊端。置零可能会导致各种数据不一致。它还强调了数据被屏蔽的事实。

格式保留加密

加密将数据转换为无法读取的符号数组。标准加密方法通常会将数据点转换为随机长度的字符串。对于数据屏蔽,加密应保留原始数据的长度和格式,以保持数据的完整性。因此,使用保留格式的加密方法来屏蔽数据。与上述方法不同的是,如果有加密密钥,加密数据可以反转,这可能会带来安全风险。尽管如此,许多组织仍使用加密进行数据屏蔽。

数据屏蔽的一般规则是什么?

数据屏蔽技术需要遵循一些规则,以便转换后的数据仍然有用。

数据屏蔽必须是不可逆的

一旦数据屏蔽技术转换了真实数据,就不可能从屏蔽数据中检索原始数据。如果数据是可逆的,那就是严重的安全问题。

数据必须具有代表性

数据屏蔽技术不应改变数据的性质。数据屏蔽在进行转换时应保留原始数据的地理分布、性别分布、可读性和数字分布。

完整性不应受到损害

数据屏蔽不应影响数据库的完整性。例如,如果信用卡号是表的主键,为了屏蔽对其进行加扰,则该信用卡号的每个实例都应以相同的加扰方式进行加密。简而言之,数据屏蔽不应影响参照完整性。

屏蔽会影响敏感数据的非敏感数据

数据屏蔽不一定会掩盖数据记录中的每个字段。例如,在客户记录中,可能不需要掩盖客户的性别,因为所有敏感信息都已被屏蔽。如果非敏感数据可用于重建敏感数据,则需要对它们进行屏蔽以确保安全。

数据屏蔽应自动化

数据屏蔽不是一次性的过程。由于生产数据经常变化,数据屏蔽系统应为新数据创建一个屏蔽副本。如果数据屏蔽不是自动化的,则可能代价高昂、效率低下且无效。

数据屏蔽工作流选项

静态数据屏蔽

在静态数据屏蔽工作流中,会创建原始数据的副本,并对该副本进行屏蔽。有两种流行的静态数据屏蔽方法。

提取 — 转换 — 加载 (ETL)

ETL 是一种常用的数据屏蔽工作流程。此工作流的第一步是从生产数据库中提取数据。此步骤可能会创建生产数据库的精确副本,或者使用 SELECT 查询仅提取数据的一个子集。在转换步骤中,数据屏蔽系统应用了上述数据屏蔽方法之一。在最后一步中,屏蔽的数据被加载到测试数据库中。

原地屏蔽

在此工作流中,数据在生产/原始数据库中被屏蔽。屏蔽系统处理同一数据库中存在的数据的 “副本”。这消除了从 ETL 工作流程中提取和加载的步骤。原地数据屏蔽利用了生产数据库的高端功能。这种方法的缺点之一是生产数据库的计算开销。此外,在生产数据库中创建副本以及用户访问这些屏蔽数据可能会造成安全威胁。

动态数据屏蔽

在动态数据屏蔽中,只要系统收到用户请求,就会对数据副本应用进行屏蔽。

基于视图的数据屏蔽

在这种数据屏蔽技术中,当用户根据自己的访问权限请求数据时,会应用屏蔽,用户将获得原始数据的 “屏蔽视图”。被屏蔽的视图是一个虚拟表。基于视图的动态屏蔽适用于每个测试用户可能不具有相同数据权限的测试环境。

基于代理的数据屏蔽

基于代理的数据屏蔽是一种较新的动态数据屏蔽方法。在此模型中,所有数据请求都经过将数据屏蔽作为服务运行的代理系统。基于代理的屏蔽的一个示例是应用程序和数据库之间的数据事务。如果应用程序对信用卡号等敏感数据发出过多查询,则代理系统可能会屏蔽这些数据。这是为了在遭到黑客入侵或任何未经授权的访问时保护数据。在此模型中,查询结果由屏蔽数据替换。在不同的实现中,查询本身被重写为针对被屏蔽的数据副本运行。然后从数据库的屏蔽列中选择结果。

访问、组合并配置所有企业数据
访问、组合并配置所有企业数据
查看这 13 个使用案例,了解如何支持当今复杂的数据和分析局面。

数据屏蔽的挑战是什么?

虽然屏蔽的过程看起来很简单,但数据屏蔽系统在生成生产数据的有用屏蔽副本时面临着许多挑战。

格式保留

数据屏蔽系统应该了解数据所代表的内容。当替换为不真实的数据时,屏蔽系统应保留格式。这对于顺序和格式至关重要的日期和数据字符串尤其重要。

参照完整性

在关系数据库中,表与主键相互连接。当屏蔽系统对表的主键值进行加扰或替换时,应始终在整个数据库中更改相同的值。

性别保护

在替换数据库中的人名时,屏蔽系统应该知道男性和女性的名字。如果屏蔽系统随机更改名称,表中的性别分布将受到影响。

语义完整性

大多数数据库都强制执行有关允许值范围的规则。例如,可能薪水有一定范围。屏蔽的数据应位于此范围内,以保留数据的意义(语义)。

独特性

如果表中的原始数据是唯一的,则屏蔽系统应为每个数据元素提供唯一的值。例如,如果表存储员工的 SSN,则在进行屏蔽后,每个员工仍应具有唯一的 SSN。

屏蔽数据必须保留任何有意义的频率分布,例如地理分布。屏蔽数据中列的平均值也应接近原始数据。

数据屏蔽有哪些好处?

防止数据安全威胁

数据屏蔽是应对各种数据安全威胁的有效解决方案,例如数据泄漏、黑客攻击、不安全的数据接口或故意滥用数据。

允许将业务数据用于测试

数据屏蔽使公司能够将宝贵的业务数据用于测试和培训目的,而不必担心原始数据泄漏。

允许信息共享

组织可以将其与数据相关的任务外包出去,并将生产数据提供给第三方供应商。

保留数据格式和结构

数据屏蔽保留了原始数据的结构和格式,这使其成为辅助非生产程序和研究的理想技术。