数据安全系列(一)之数据脱敏

随着信息技术的高速发展,各用户单位业务系统经过多年沉淀,积累了大量个人隐私数据和企业信息。海量数据除了内部流转,还需要进行外部“共享”,这亦是国家大数据发展战略规划的需求和前提。对大数据商业价值的挖掘,实现用户的精准定位,大数据中蕴藏的巨大商业价值已经是大家人所共知的共识,但如何保证数据在产生、交换、共享等场景下的安全可用?数据变现过程中涉及个人隐私信息的保护,个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等,这些都是人的隐私,在大数据价值挖掘的同时上如何保护人的隐私信息,将是大数据应用必须解决的难题。

数据安全系列(一)之数据脱敏

大数据安全

数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用。如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏,实现敏感隐私数据的可靠保护。这样就可以在开发、测试和其他非生产环境以及外包环境中可以安全的使用脱敏后的真实数据集。

数据脱敏的主要目的是这些将要改造的数据涉及到用户或者企业数据的安全,在传输、存储、分析使用等环节,不能直接展示暴露,进行数据脱敏其实就是对这些数据进行加密,防止隐私数据泄露。

数据脱敏具有几个关键点:敏感数据、脱敏规则、使用环境。

敏感数据

敏感数据,又称隐私数据,常见的敏感数据有: 姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类 ( 如账户查询密码、取款密码、登录密码等 )、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。

脱敏规则

确定好了公司的哪些数据要作为脱敏目标后,我们就需要制定脱敏的规则,也就是具体的实施方法。脱敏规则,一般的脱敏规则分类为可恢复与不可恢复两类:

  • 可恢复类,指脱敏后的数据可以通过一定的方式,可以恢复成原来的敏感数据,此类脱敏规则主要指各类加解密算法规则。
  • 不可恢复类,指脱敏后的数据被脱敏的部分使用任何方式都不能恢复出。一般可分为替换算法和生成算法两大类。替换算法即将需要脱敏的部分使用定义好的字符或字符串替换,生成类算法则更复杂一些,要求脱敏后的数据符合逻辑规则,即是“看起来很真实的假数据”。

具体常见的方法包括:

1、替换:如统一将女性用户名替换为F,这种方法更像“障眼法”,对内部人员可以完全保持信息完整性,但易破解。

2、重排:序号12345 重排为 54321,按照一定的顺序进行打乱,很像“替换”, 可以在需要时方便还原信息,但同样易破解。

3、加密:编号 12345 加密为 23456,安全程度取决于采用哪种加密算法,一般根据实际情况而定。

4、截断:13811001111 截断为 138,舍弃必要信息来保证数据的模糊性,是比较常用的脱敏方法,但往往对生产不够友好。(丢失字段的长度)

5、掩码: 123456 -> 1xxxx6,保留了部分信息,并且保证了信息的长度不变性,对信息持有者更易辨别, 如火车票上得身份信息。(常用方法)

6、日期偏移取整:20130520 12:30:45 -> 20130520 12:00:00,舍弃精度来保证原始数据的安全性,一般此种方法可以保护数据的时间分布密度。

使用环境

主要指脱敏之后的数据在哪些环境中使用,普遍按照生产环境和非生产环境(开发、测试、外包、数据分析等)进行划分。根据数据脱敏产品应用场景,通常将数据脱敏划分为静态数据脱敏(static data masking[SDM])和动态数据脱敏(dynamic data masking[DDM])两大类。

数据安全系列(一)之数据脱敏

静态脱敏、动态脱敏

所谓静态和动态之分,主要在于脱敏的时机不同。对于静态脱敏来说,数据管理员提前对数据进行不同级别的脱敏处理,生成不同安全级别的数据,然后授予不同用户访问不同安全级别数据的权限。对于动态脱敏来说,管理员通过元数据管理不同用户访问具体数据的安全权限,在用户访问数据的时候,动态的从原始数据中按照用户权限动态的进行脱敏处理。静态数据脱敏(SDM)与动态数据脱敏(DDM)主要的区别是:是否在使用敏感数据当时进行脱敏。

静态数据脱敏(SDM)一般用在非生产环境,在敏感数据从生产环境脱敏完毕之后再在非生产环境使用,一般用于解决测试、开发库需要生产库的数据量与数据间的关联,以排查问题或进行数据分析等,但又不能将敏感数据存储于非生产环境的问题。

动态数据脱敏(DDM)一般用在生产环境,在访问敏感数据当时进行脱敏,一般用来解决在生产环境需要根据不同情况对同一敏感数据读取时需要进行不同级别脱敏的问题。

大数据脱敏平台

随着网络安全法的颁布实施,企业越来越重视数据安全,信息系统在支撑业务快速发展的同时,越逐步建设大数据安全管控平台,为企业的业务数据安全使用提供技术支撑手段。用户隐私数据保护与挖掘用户数据价值是两个互相冲突的矛盾体,彻底的数据脱敏,需要抹去全部的用户标识信息,使得数据潜在的分析价值大大降低。另一方面,完全保留用户隐私数据信息,可最大化数据的分析价值,同时导致用户隐私泄露的风险无法控制。因此大数据脱敏平台的设计目标并不是实现工具算法用来完全抹去全部的用户标识信息,而是包括如下几个目标:

数据安全系列(一)之数据脱敏

脱敏平台

数据泄露风险可控:首先,实现基于大数据平台的脱敏算法库,可并行,高效的按照脱敏规则对隐私数据进行脱敏。其次,基于数据脱敏的理论基础,建立用户隐私数据泄露风险的衡量模型,可定性定量的准确衡量数据可能发生泄露的风险。

可管理:结合大数据平台的用户认证体系,权限管理体系,以及隐私数据不同保护级别的权限管理体系,实现对隐私数据基于审批的数据访问机制。结合公司制度,规范,法务等管理,实现在尽可能保护用户隐私数据,减少数据泄露风险的前提下,最大化保留数据分析挖掘的价值。

可审计:对数据的访问要保证可回溯,可审计,当发生数据泄露时,要保证能够通过审计日志找到对应的泄露人员。

随着大数据、云平台的发展,大数据平台与云平台上数据隐私保护的研究与产品也将长足发展,同时敏感数据的智能探测、智能分析与统计、智能处理也将会被作为一个重要的产品发展方向。


分享到:


相關文章: