「蜂巢学院」何建平:网络系统中的数据隐私—量化、分析和设计

10月31日,万向区块链蜂巢学院联合矩阵元举办了“区块链+隐私计算与数据隐私保护”的分享活动,上海交通大学副教授何建平发表了《网络系统中的数据隐私:量化,分析和设计》的主题演讲,从隐私的量化的角度给大家介绍了保护算法分析与设计,带领大家从技术上深入了解数据隐私保护。以下为何建平教授演讲全文,有部分不影响原意的删减:


「蜂巢学院」何建平:网络系统中的数据隐私—量化、分析和设计

何教授在演讲


大家下午好,今天我演讲的题目是《网络系统中的数据隐私:量化,分析和设计》。今天的演讲主要分为四个方面:背景介绍、量化隐私、分析设计、趋势设计

背景介绍

随着互联网的发展以及各种智能设备、智能传感器的出现,我们已经到了信息爆炸的阶段。大数据的时代已经到来,在生活当中各个领域:商业大数据、农业大数据、医疗大数据以及工业大数据。


我们基于大数据可以做什么事情,有了这些数据之后可以进行算法设计、优化、预测,可以进行基于数据的控制和维护等等。从工业角度来说,可以通过大数据的分析提升工业生产的制造效率和质量,支持工业设备进行节能降耗。从互联网的思维来看,基于数据分析可以得到用户的喜好、偏好,可以基于这些分析的结果做一些广告的东西,商家可以更加的了解用户,最终推出用户更喜好的产品。


大数据的实用性决定了其价值,狭义的大数据通常指的是专门用于大数据的软件、硬件及服务。我们根据IDC和Wikibon等预测,全球的大数据核心产业规模约为200-300亿美元,据中国信息通信研究院预测,2017年我国大数据产业规模达到4700亿,现在还在持续的增长,增速达到30.6%,预计在今年可以达到6200亿人民币。增长速度在未来的2年内还会进一步维持。


大数据时代下,数据是一个双刃剑,给我们带来便利的同时,当然也可以给我们带来很多问题,最主要的问题就是隐私的问题。今年已经出现了很多隐私泄露的事件。印度10亿公民身份数据库得到攻击,这些信息都已经泄露、名字、电话号码、邮箱、指纹、虹膜等等都泄露了。今年3月份,一家英国的数据分析公司通过调查问卷的方式收集到Facebook 5000万用户的信息,用来做政治上的操作,对Facebook造成了很大的损失。一方面,互联网企业利用大数据给我们很多用户提供了很多的便利,从个人消费者来说,我们享受便利的同时,也有新的担心,就是各种隐私的信息遭到了泄露。如果利用大数据为生活带来便利的同时,利用技术手段保护用户的隐私这是一件非常有意义的事情。


大数据时代下,关于隐私有如下问题:

l 如何保护隐私?

l 怎么刻画隐私保护的程度?

l 数据的有用性和隐私之间的关系?

l 如何防护和优化?

l 大数据下的隐私保护新技术趋势?

量化隐私

为了回答上述问题我们首先需要了解隐私是如何被保护的,目前常用的隐私保护方法主要有两大类,加密加噪声


加密主要是指以算法的形式改变原有的信息数据,将明文进行加密处理后进行发送,收到数据的一方用已掌握的密钥对密文解密,从而还原出原始数据。未被授权的用户即使收到了信息,由于没有掌握密钥仍然无法获得原始数据。加密通常有两种,一种是对称加密,第二种是非对称加密。对称加密中加解密使用相同密钥,非对称加密中加解密使用不同密钥。但是加密方式存在一些问题,密钥有可能被丢,对称加密算法简单但容易破解,非对称复杂性高,但是要用数据的时候效率非常低。


另一种隐私保护方法是加噪声。这种保护隐私的方式有其优点:首先,它具有量化标准来评价隐私保护的等级;而且,通过设计噪声添加机制,在保护隐私的基础上可以保证数据的可用性。常见的添加的噪声有:拉普拉斯噪声、高斯噪声、均匀噪声,下图是它们的分布情况:

「蜂巢学院」何建平:网络系统中的数据隐私—量化、分析和设计


我个人比较喜欢加噪法,数据永远掌握在自己手里最安全的。加密你要用的话肯定要有一个解密的方法,一旦这个解密的方法泄露出去了,别人总是能看到的。


差分隐私

2006年C.Dwork提出差分隐私的概念,为隐私保护提供了一种量化评估方法。


若ϵ为一正实数,A为某一随机算法,如果对于两个只相差一个元素的相邻数据库D1和D2,以及所有的S∈Range(A),存在:

「蜂巢学院」何建平:网络系统中的数据隐私—量化、分析和设计

那么随机算法A可以实现ϵ-差分隐私,这里Range(A)代表随机算法A 的输出范围。


如下图,假设X和Y是比较近似的两个数据,A是你要去保护的技术,你是隐私保护的方法,在A作用下以后,两个数据的输出,给大家可以看到的O应该是差不多的,在这种情况下我们称之为随机保护的机制是差分隐私。差分隐私已经被苹果、谷歌公司应用于它们的产品当中来保护用户隐私。

「蜂巢学院」何建平:网络系统中的数据隐私—量化、分析和设计

分析设计

英国数据公司Cambridge Analytica通过调查申请收集了Facebook用户的信息,并将其滥用于政治目的,超过8000万Facebook用户的个人资料受到威胁,这一丑闻曝光后,Facebook损失了数百亿美元。这个事情背后的原因是:

l 第三方服务请求过多信息

l 用户不知道共享信息的潜在威胁


究其原因主要是这两点,针对这样一个事情,我们设计了一个全新的第三方信息共享的框架。我们的研究目标是通过控制与第三方共享的信息,最大限度地实现隐私保障下地安全自我信息披露,所谓自我隐私披露指的是我为了享受社交网络带给我的正常的服务而愿意暴露的个人信息,为了通过巧妙地隐藏用户信息有效降低推理攻击的准确,减少对用户体验的损害,满足不同用户的隐私问题,我们提出了两种隐私保护数据共享算法,EPPD和D-KP,分别侧重于最大化用户体验和降低计算复杂度。


如下图所示是我们的系统实现的展示,在原有的第三方系统认证OAuth2基础上引入了我们的隐私保护算法。左图我们给用户提供了一个对第三方服务信任度选择的接口,并且清楚的告诉用户第三方所请求的各项服务,方便用户决定暴露多少的个人信息。

「蜂巢学院」何建平:网络系统中的数据隐私—量化、分析和设计


通过在实际的数据集上仿真,我们可以看出引入了我们提出的算法之后能够大大降低推理攻击,对于机器学习推测用户习惯,我们的算法大大降低了常见分类器的准确性,保证了就算攻击者在一个应用上学习到了我的一些用户习惯,也不能如法炮制到下一个软件。可见我们的算法在最大限度地提高用户数据公开度的基础上提供了更强的隐私保护。


「蜂巢学院」何建平:网络系统中的数据隐私—量化、分析和设计


「蜂巢学院」何建平:网络系统中的数据隐私—量化、分析和设计


随着大型互联网系统的快速发展,各种灵活多变的系统架构模型层出不穷,主要分为集中式和分布式两大类:

l 集中式:依赖中心节点,一旦中心节点遭到攻击,整个系统性能都会受到影响,可拓展性差

l 分布式:不存在中心化的节点,任意节点的权利和义务都是均等的,系统中的数据块由整个系统中具有维护功能的节点来共同维护,任一节点停止工作都会不影响系统整体的运作


分布式数据统计正是分布式系统的重大应用之一。与传统的数据统计不同:分布式数据利用分布式技术对数据进行统计和学习,将原先集中在单节点上的庞大计算任务均衡的分派给若干台可相互通信的计算机上并行处理。分布式数据统计提供异构的隐私保护一致性框架,这种方法既能准确统计结果,又量身定制般地为每个用户的隐私不同程度地保护。


我们提出了两阶段框架。首先将用户分为不同小组,白色节点表示数据服务器,N个数据服务器构建成分布式网络。一个数据服务器负责从一组用户中收集数据。


阶段一:服务器搜集用户数据

不同的数据服务器从不同的用户组收集私有数据,从用户的角度考虑,用户认为直接上传数据的服务器有泄密风险,因此在数据报告之前,用户首先用高斯噪声扰乱其数据。而噪声方差由用户的隐私需求决定。


阶段二,服务器协作统计数据

当所有服务器完成数据聚合后,如何统计整个用户群体的结果呢?服务器网络执行一致性算法,在一致性过程中,服务器节点要将自己的信息释放出去获得相邻服务器节点的信息从而更新自身的状态。


下图显示了框架的整个工作流程:

「蜂巢学院」何建平:网络系统中的数据隐私—量化、分析和设计


首先,节点向服务器报告具有高斯噪声扰动的数据, 相当于一层防火墙。加噪聚合后,收集节点数据的服务器提供的用户隐私保护度增大,相当于自动增强了防火墙 。最后,多个服务器协作执行共识计算。


总的来说,我们的异构隐私保护方案有三大优点: 用户上传,安全聚合以及共识计算。


我们该如何选择添加的噪声以满足用户的个人隐私需求,并且保证数据发布的效用行呢?为了研究这一问题,我们首先需要对问题建模。


「蜂巢学院」何建平:网络系统中的数据隐私—量化、分析和设计

模型一

在模型一中,我们站在数据收集方考虑,既需要保证用户的隐私确保用户还愿意给自己提供数据,同时需要保证数据的可用性,故而目标函数建立为隐私和效用性的加权。


「蜂巢学院」何建平:网络系统中的数据隐私—量化、分析和设计

模型二

模型二中,我们考虑在实际生活中,隐私是个人的标准,每个人可能有不同的隐私保护需求,当达到一定的隐私保护水平后,如何最大化数据的效用性是具有实际指导意义的,故而我们将目标函数设置为数据的效用性,限制条件为每个人不同的隐私保护要求。


对上述两种模型我们通过一定合理的假设并给出结论,为了得到最优的整体效益(最大化隐私保护和可用性之和)的噪声是均匀噪声。在保证一定隐私的情况下,为了得到最大的数据发布可用性的噪声添加机制是均匀离散噪声,如下图所示:

「蜂巢学院」何建平:网络系统中的数据隐私—量化、分析和设计

趋势分析

区块链作为一种特殊的分布式数据库,是没有管理员的,彻底无中心的,一个个相连的区块(block)组成。区块很像数据库的记录,每次写入数据,就是创建一个区块,是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。以前是靠信誉、靠百年老店、权威机构等,区块链利用技术建立了新的信任方式,这是可以被量化的,从技术的角度实现的,所以说区块链成为了下一个信任的基石。目前区块链的隐私性主要通过匿名方式来保证,然而这种方式有可能被破解——对公开的交易账本信息进行资金流分析。


怎么样完善这个机制呢?当然有一些新的机制出来:

l P2P混合机制:若干用户签订协议,将多个交易混合成一个标准的交易,将多个提供者和接收者分别随机排序,我们也无法知道某一笔资金是从哪一个代号流入到哪一个代号。通过破坏交易的连续性,可使得建立代号之间的关联更为困难。

l 分布式混淆网络:多个用户都会和某一个第三方机构达成如下协议:我先交付给该机构10个币,过一段时间后,该机构会返还给我10个币。通过这种方式,外部人员很难捕获交易之间的关联信息。但是,这种方式也面临着第三方机构不归还资金的风险。

l 零知识证明:资金提供者并不需要通过提供自己的身份信息来验证资金的有效性,而只需证明该笔资金属于一个有效资金的公共列表。


如何在区块链中满足个人、企业、政府等对保护数据隐私要求,推动区块链技术规模化落地应用必须要解决的难题。

蜂巢学院简介

「蜂巢学院」是万向区块链倾力打造的线下活动品牌,持续关注区块链相关领域前沿技术与热点话题。汇聚全球范围内最具影响力的意见领袖、行业先锋、创业达人、专家学者等,通过小范围的面对面深度交流,力求记录全新科技改变我们所生活时代的每一个重要瞬间。而时代的浪潮之中,面对无限可能的未来,我们每一个人,都是求知者和见证者。


分享到:


相關文章: