AAAI 2020接收论文解读——联邦学习的隐含狄利克雷分布模型


前言


隐含狄利克雷分布(LDA)是工业级文本挖掘应用程序中广泛采用的模型。但是,其性能在很大程度上取决于对用户日常生活中收集的大量文本数据以进行模型训练。如果数据收集器不可信,则此类数据收集将面临严重的隐私泄漏风险。最近,联邦学习的兴起让大家找到解决大数据训练和数据隐私问题的一道妙方。因此,将LDA和联邦学习的结合也就顺理成章了。本文为大家介绍一篇被AI顶会AAAI 2020接收的论文《Federated Latent Dirichlet Allocation: A Local Differential Privacy Based Framework 》。作者均来自北京航空航天大学的Yansheng Wang, Yongxin Tong, Dingyuan Shi。在这篇文章中,作者提出了第一个LDA联邦学习框架。

论文地址:

http://47.93.51.251/static/paper/2020/AAAI2020_Federated%20Latent%20Dirichlet%20Allocation-A%20Local%20Differential%20Privacy%20Based%20Framework.pdf。


背景

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构(如图1所示)。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。为了训练LDA模型,我们需要从文档中推断出其参数的后验分布(文档-主题分布和主题-单词分布)。一种流行的训练算法是采样方法,例如Gibbs Sampling(GS)和Metropolis Hastings(MH)。

AAAI 2020接收论文解读——联邦学习的隐含狄利克雷分布模型

图1. LDA的图模型图

文中作者考虑LDA在联邦学习的场景,提出FedLDA。一种基于本地差分隐私(Local Differential Privacy,LDP)的框架,用于LDA模型的联邦学习。FedLDA的核心是一种称为先验随机响应(Random Response with Priori,RRP)的新型LDP机制,既能保证数据的隐私也能保证模型的准确率。


方法介绍

FedLDA的工作流程(如图2所示):在联邦学习设置中,文档主题分布和潜在变量在本地存储和更新,即用户i更新了他/她自己的,而不可信的数据收集器旨在推断主题词分布。在模型训练期间的每次迭代中,每个用户将的推论划分为本地采样(Local Sample),而数据收集器则将收集进行全局集成(Global Integration)。

AAAI 2020接收论文解读——联邦学习的隐含狄利克雷分布模型

图2. FedLDA的架构图

FedLDA主要有两个步骤:本地采样和全局集成。


  1. 本地采样:在迭代t时,每个用户i将基于当前主题词分布和他/她自己的文档主题分布为他/她的文档中的所有单词采样新的单词主题分配。然后可以使用诸如GS和MH之类的采样方法(我们使用并行的GS作为近似值)。在完成对所有主题分配的采样之后,用户i计算出一个更新向量,用表示。然后,对更新向量进行扰动以保护隐私,然后将其传输到数据收集器。
  2. 全局集成:在迭代t处,数据收集器从每个用户收集并聚合,并在将其传输给用户进行下一次迭代之前更新。


实验结果


实验中用了三种公开数据集:Reviews,Emails和Sentiments。并在垃圾邮件过滤(spam filtering,SF)和情感分析(sentiment analysis,SA)这两个真实应用中评估。针对不同的采样算法、差分隐私参数ε和δ,主题K以及采样率,观察其对结果的影响。

AAAI 2020接收论文解读——联邦学习的隐含狄利克雷分布模型

图3. 在Reviews和Emails数据集上的实验结果

  • 采样算法的影响-图5a,图5b,图5c和图5d显示了使用GS和MH作为采样算法的收敛性。在这两个数据集上,MH的收敛速度都比GS快。对于两种采样算法,RRP均明显优于其他三个基准,最终结果非常接近于非隐私。它的收敛速度可以与原始GS或MH一样快,但可能会跌至次优值,因此最终结果会受到轻微破坏。
  • ε的影响。图5e和图5g示出了隐私预算ε的影响。我们观察到,对于较大的ε,即较小的η和较低的隐私保护级别,所有方法的困惑度都会降低,与基准相比,RRP仍然是最好的方法。
  • K的影响。图5f和图5h显示了主题数K的影响。随着K的增加,所有方法的困惑都减小了,这与常识相符。RRP仍然表现最佳,并且也接近无隐私。
  • δ的影响。图5i和图5k显示了δ的影响。我们发现,随着δ的增大,即失效概率增大,t-kRR的性能将显着提高。但是对于RRP,结果略有变化,这意味着RRP具有δ的鲁棒性。这是合理的,因为我们按频率对单词进行排名,并且即使δ很小,废弃集也已经包含了大部分单词。在实际应用中,δ期望很小(小于0.1),并且在这种情况下我们方法的性能足够好。
  • 采样率的影响L/M。图5j和图5l显示了对L/M的影响,它是填充和采样过程中的采样率。如果比率等于0,则意味着我们仅对一条记录进行采样,这在图中被证明是有缺陷的。当采样率更大时,性能会提高,但是当采样率接近1时,性能提升不会明显。这证明,如果采样率小于1(例如0.7),我们可以获得类似的结果,同时可以降低通信成本30%。
AAAI 2020接收论文解读——联邦学习的隐含狄利克雷分布模型

表格1. 在真实应用中的结果

我们使用RRP ε= 7.5和ε= 5实施FedLDA。在垃圾邮件过滤中,我们观察到FedLDA的精度低于LDA,但召回率更高。如果ε= 7.5(即每次迭代将干扰5%的单词),则AUC的减少最多为2.7%;如果ε= 5(即40%的单词将受到干扰)的AUC最多减少5%。每次迭代)。从情感分析来看,差异甚至更小,如果ε= 7.5,则只有AUC降低1.6%,这证明我们的方法仍然有效,并且不会对实际应用中的性能造成大的损害。

总结


该论文提出第一个LDA结合联邦学习的框架:FedLDA。作者基于先验随机响应作为新的差分隐私机制。既保护了用户的数据隐私,并且保证了模型的准确性。这个论文可以被视为在真实应用场景中,具有高效和有实际意义的联邦主题模型。


END

投稿或寻求报道:[email protected]


AAAI 2020接收论文解读——联邦学习的隐含狄利克雷分布模型


Federated Learning

长按上方二维码


分享到:


相關文章: