1 数据脱敏
1.1 定义
数据脱敏也叫数据的去隐私化,在我们给定脱敏规则和策略的情况下,对敏感数据比如 手机号
、银行卡号
等信息,进行转换或者修改的一种技术手段,防止敏感数据直接在不可靠的环境下使用。
业界常见的脱敏规则有,替换、重排、加密、截断、掩码,用户也可以根据期望的脱敏算法自定义脱敏规则。
通过部分的屏蔽和模糊化处理来保护数据隐私。
1.2 脱敏原则
第一,尽可能地为脱敏后的应用,保留脱敏前的有意义信息;
第二,最大程度地防止黑客进行破解。
1.3 数据脱敏形式
静态数据脱敏
静态数据脱敏(SDM
):适用于将数据抽取出生产环境脱敏后分发至测试、开发、培训、数据分析等场景。
脱敏后的数据与生产环境隔离,满足业务需要的同时又保障了生产数据的安全。
动态数据脱敏
动态数据脱敏(DDM
):一般用在生产环境,访问敏感数据时实时进行脱敏,因为有时在不同情况下对于同一敏感数据的读取,需要做不同级别的脱敏处理,例如:不同角色、不同权限所执行的脱敏方案会不同。
脱敏前后保证数据的关联性,一致性和有效性。
1.4 数据脱敏方案
无效化
无效化方案在处理待脱敏的数据时,通过对字段数据值进行 截断
、加密
、隐藏
等方式让敏感数据脱敏,使其不再具有利用价值。一般采用特殊字符(*
等)代替真值,这种隐藏敏感数据的方法简单,但缺点是用户无法得知原数据的格式,如果想要获取完整信息,要让用户授权查询。
随机值
随机值替换,字母变为随机字母,数字变为随机数字,文字随机替换文字的方式来改变敏感数据,这种方案的优点在于可以在一定程度上保留原有数据的格式,往往这种方法用户不易察觉的。
数据替换
数据替换与前边的无效化方式比较相似,不同的是这里不以特殊字符进行遮挡,而是用一个设定的虚拟值替换真值。比如说我们将手机号统一设置成 “13651300000”。
对称加密
对称加密是一种特殊的可逆脱敏方法,通过加密密钥和算法对敏感数据进行加密,密文格式与原始数据在逻辑规则上一致,通过密钥解密可以恢复原始数据,要注意的就是密钥的安全性。
平均值
平均值方案经常用在统计场景,针对数值型数据,我们先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。
偏移和取整
这种方式通过随机移位改变数字数据,偏移取整在保持了数据的安全性的同时保证了范围的大致真实性,比之前几种方案更接近真实数据,在大数据分析场景中意义比较大。
数据脱敏规则在实际应用中往往都是多种方案配合使用,以此来达到更高的安全级别。
1.5 常见脱敏方法
2 匿名化
匿名化技术(Anonymization)可以实现个人信息记录的匿名,理想情况下无法识别到具体的“自然人”。主要有两个应用方向:个人信息的数据库发布或挖掘。
删除身份有关信息,即去标识化。
2.1 需求
-
无法重识别
-
数据可用性,最小化数据失真程度
2.2 常用算法
K-匿名化,基于泛化树和基于聚类的匿名化实现方法,(α, k)-匿名 ((α, k)–Anonymity)、L-多样性 (L-Diversity)和T-接近性 (T-closeness)模型
2.3 概念辨析
-
假名化:身份属性重新命名,重识别风险很高。
-
去标识化:将一些直接标识符删除,降低重识别风险。
-
匿名化:通过匿名化处理,攻击者无法实现“重识别”数据库的某一条个人信息记录对应的人,即切断“自然人”身份属性与隐私属性的关联。
三种对数据可用性以此降低,隐私保密性越来越高。
3 差分隐私
差分隐私(Differential Privacy, DP)具有严格的数学模型,无需先验知识的假设,安全性级别可量化可证明。
3.1 场景
统计数据库开放,比如某家医院提供医疗信息统计数据接口,某一天张三去医院看病,攻击者在张三去之前(第一次)查询统计数据接口,显示糖尿病患者是人数是99人,去之后攻击者再次查询,显示糖尿病患者是100人。那么攻击者推断,张三一定患病。该例子应用到了背景(先验)知识和差分攻击思想。
3.2 技术原理
DP可以确保数据库插入或删除一条记录不会对查询或统计结果造成显著影响。
例子:每一个用户的表情加入了噪声,是不准确的,但经过大量用户的频率统计,是相对准确的。
4 同态加密
同态加密不同于传统的加密,它是应对新的安全场景出现的一项新型密码技术。
4.1 应用场景
假设创业公司C拥有一批数据量大且夹杂个人信息的数据,需要多方进行共享和处理。为了降低成本,他选择使用廉价的不可信第三方平台:公有云。但为了保障传输和存储过程的数据安全,公司员工C1在数据上传前,对数据进行了加密,再将得到的密文数据上传到公有云。公司员工C2,需在公有云上执行一个数据分析和统计的任务。
4.2 需求
-
安全需求:除了公司C员工可解密数据外,其他人包括第三方平台无法解密和查看数据,即需要保障个人隐私数据的安全性。
-
处理需求:存储在第三方平台的密文数据,仍然可以进行基本运算(加减乘除)、统计、分析和检索等操作。处理后的密文数据,返回给公司C的员工,得到结果和预期是一致的。