如何訓練一個公平的算法?CMU提出基於公平表示的新方法

幾乎所有的方法都需要在某種程度上權衡準確性以降低依賴性。[Calders等,2009]

如何训练一个公平的算法?CMU提出基于公平表示的新方法 | 将门好声音

本文內容來自將門機器學習社群

本文為將門好聲音第31期,也是NeurlPS 2019系列分享第·9·

這次要介紹的是卡耐基梅隆大學的在讀博士趙晗及其團隊發表在NeurIPS 2019的工作—— 算法公平性以及其效用函數之間有怎樣潛在的本質權衡?

如果你也想與廣大群友分享自己的研究工作、文章觀點、出坑經驗,點擊“閱讀原文”或聯繫將門小姐姐!只要內容合適,我"門"送你頭條出道!

如何训练一个公平的算法?CMU提出基于公平表示的新方法 | 将门好声音

論文鏈接:

https://arxiv.org/pdf/1906.08386.pdf

關於作者

趙晗是卡內基梅隆大學機器學習系的博士生,師從Geoffrey J. Gordon教授。在來到CMU之前,他本科畢業於清華大學計算機系,並且在滑鐵盧大學獲得了數學碩士學位。他的研究興趣在於機器學習中的表示學習以及快速準確的不確定性推理。

隨著機器學習在刑事判決,醫學檢測,在線廣告等高風險領域中的普遍應用,保證自動化決策支持系統不攜帶歷史數據上可能存在的偏見或歧視顯得尤為重要。廣義上來說,關於算法公平性的相關文獻中針對公平有兩個核心概念。其中一個是個體公平,它要求算法對相似的個體進行公平的相似對待。然而在實踐中,通常很難找到或設計一種社會認可的個人間的相似度量標準。

而在這篇文章中,研究人員關注的是公平性的另一方面,即群體公平、或者被稱為統計均等(statistical parity),其本質上是要求預測模型輸出的結果在不同子群體之間相等。

讓我們用一個貸款發放的例子來說明這一問題,假設虛擬世界中有兩類人:圓圈族和方形族。自動貸款審批系統C的目標在於,在給定的貸款申請描述下,預測出放貸後申請者能C(X)=1或者不能C(X)=0償還貸款。如果我們用A=0/1來描述貸款申請者分別來自於圓圈族和方形族,那麼一個具有統計均等性的模型應該具有如下的特性:

也就是說,自動貸款審批系統應該給圓圈族和方形族申請人同樣的貸款批准概率。這一概率主要由X,A,Y的聯合概率分佈決定,即申請者的描述,所屬人群和申請人是否會還貸的基準標籤。換句話說,統計均等特性要求預測模型C(X)獨立於申請者的群體屬性A:C(X)⊥A.

公平表示的學習

為了儘可能地建立一個近似滿足統計均等特性和任務有效性的分類器,學習公平的表示方法是一種有效的解決方案。其目標在於從輸入變量X中通過某種變換尋找一個富有表達能力的Z,它具有獨立於A的表達但仍然含有豐富的分類信息已得到分類結果Y。這一目標可以通過下面的公式來表示:

其中ϵ>0是一個預設常數,我們使用I表示兩個隨機變量之間的互信息。由於最近在深度神經網絡在表示學習中的取得了較快的發展,上述優化問題可以通過對抗訓練實現,如圖2所示。需要指出的是,這種特定的方法至少可以追溯到Edwards等人。

如何训练一个公平的算法?CMU提出基于公平表示的新方法 | 将门好声音

學習公平表示的算法實現。中間部分的表示試圖欺騙對手,其目的是辨別輸入入變量的group屬性是Circle A = 0還是Square A = 1。整個網絡可以通過梯度下降來訓練。

這裡的目標是非常直觀的:如果我們設法訓練出特徵變換Z可以迷惑非常強大的判別器,那麼根據數據處理不等式( data processing inequality)任何使用這種表示形式的預測模型也將是公平的,即滿足統計均等性。

公平性和可用性間的權衡

上圖中的模型包含兩個目標並在訓練過程中對它們同時優化。第一個是通過混淆對抗網絡來確保統計均等,第二個是減少預測Y目標任務的損失函數來實現,它們通過超參數λ來進行融合。但統計均等性沒有考慮與真實標籤相關的信息。假設在某種情況下屬性A與目標Y高度相關,要求預測器滿足統計均等性將大幅降低預測器的性能。

如何训练一个公平的算法?CMU提出基于公平表示的新方法 | 将门好声音

上圖顯示了統計均等性與最佳決策之間的權衡。在此示例中,由於Circle和Square兩類人群之間的還款率不同,為了符合統計均等性,決策者必須拒絕向某些能夠償還的Circle申請者的貸款(左)或向某些會違約的Square申請者的貸款(右)(摘自《The Ethical Algorithm》一書)。

該圖顯示了一個例子,在授予貸款的情況下Circles的償還率(90%)高於Squares的償還率(80%)。但根據統計均等性,任何公平的預測者都必須以相同的比率向圓圈族和方形族提供貸款。

例如,一個公平的分類器將以相同的比例貸款給80%能償還的方形族,也以相同的比例貸給能償還貸款的80%圓圈族(圖1左)。但這意味著圓圈族中能償還的貸款的10%被拒絕貸款。

或者,公平的分類器也可以向將要償還的90%會償還貸款的圓圈族,和80%會償還貸款的方形族以及10%會違約的方形族發放貸款。上面兩個例子中都顯示了為了滿足統計均等標準,公平分類器都必須在預測準確性方面蒙受一些損失。雖然還有許多其他可能的公平預測指標,但有沒有可以減少損失的指標呢?作者在最近NeurIPS'19的論文中證明了從某種意義上說上述兩個公平分類器實際上都是效用最優的。

用數學公式表示下面的形式: 為在A=a∈{0,1}上得到的二進制分類誤差。定義:

如何训练一个公平的算法?CMU提出基于公平表示的新方法 | 将门好声音

是各組之間基本比率的差額。下列定理成立:

定理1. 對於滿足統計均等的任何預測變量

在上述貸款發放例子,圓圈族和方形族之間的還款率之差為10%,因此ΔBR= 0.1。需要注意的是上述兩個公平分類器在圓圈族或方形族上的錯誤率均為0.1。根據定理1,對於任何公平分類器,兩組的錯誤率之和必須至少為10%,因此它們都是最優的。

定理1非常直觀,它本質上在說:當各組的基準比率不同時,任何滿足統計均等性的公平分類器都必須對至少一個組產生較大的誤差。具體來說,根據鴿巢原理不難發現任何公平分類器都必須對每組至少產生ΔBR/2的錯誤率。

此外這種結果與算法無關並普遍成立,即使大型訓練集將無濟於事。下面將仔細分析一下看一下ΔBR的數值結果:

如果A⊥Y,則Pr(Y=1∣A=0)=Pr(Y=1∣A=1)。

這意味著ΔBR=0 ,意味著如果group屬性獨立於分類目標,則上述結果下限變為0,因此沒有權衡。如果幾乎可以肯定A=Y 或A=1−Y那麼ΔBR的最大值為1。在這種情況下,任何公平分類器都必須至少產生一個至少為0.5的錯誤。通常來說ΔBR的取值在0到1之間,代表了在二進制分類下的公平性和效用之間的權衡。

公平表示學習的權衡

定理1僅在“精確意義上”成立:預測變量需要精確地滿足統計均等性。但在實踐中由於訓練數據量有限或模型容量有限精確滿足很難實現。當預測變量僅近似滿足統計均等標準時,我們是否有可能表徵這種內在的權衡呢?如果可以,那麼這種表示的屬性將在哪裡以及將如何發揮作用呢?

事實證明,這種近似有助於減小定理1的下界。將Da,a∈{0,1}定義為在給定A=a時D的條件分佈。針對特徵轉換函數g:X→Z,定義為Da在g作用下的前推分佈(pushforward distribution )。此外利用(⋅,⋅)來表示兩個概率分佈間的總變分距離( total variation distance ),從而可以得到以下的定理:

定理2 令g:X→Z為特徵變換。對於任何(隨機)假設h:Z→{0,1},在預測器作用以下不等式成立:

首先很清楚的是,當時,定理2將退化為為定理1的下界。在這種情況下再次根據數據處理不等式,作用於Z的任何假設h也將在各組之間產生相同的結果比率,因此是公平的。

其次,可以發現到越小,下限越大。因此,當ΔBR大時,不同組的表示對齊程度越好,組間的錯誤總和也越大。

值得指出的是,選擇總變分距離作為分佈對齊質量的度量並沒有什麼特別之處。在論文的第3.2節中,我們提供了使用f-散度進行一般分析,可以將其實例化以獲取類似的下限,但也可以使用諸如Jensen-Shannon距離,Hellinger距離等其他散度度量。積極地來講在某些條件下還表明,學習公平的表示形式有助於實現另一種公平,即準確性均等性,它要求預測模型在各個群體之間的錯誤率相等。

實驗結果

上面的下限意味著不同類別間過度對齊特徵的分佈將不可避免地導致較大的聯合誤差。為了驗證這一現象,研究人員在真實數據集UCI成人數據集(Adult dataset,)上進行了實驗。這裡的任務是關於收入預測≥50K/年,對應的分類屬性是Male / Female。對於成人數據集,ΔBR= 0.197,即在1994年年收入大於5萬的男性比女性多大約19.7%。hat 研究人員實現了圖2中的模型,並在0.1、1.0、5.0和50.0之間改變了對抗損失的融合超參數λ。結果如下圖所示:

如何训练一个公平的算法?CMU提出基于公平表示的新方法 | 将门好声音

統計均等性與總錯誤率在不同權衡超參數下的結果比較

上圖中顯示了三個指標隨λ的增加而變化。第一深灰色條對應於聯合誤差,即,這是Adult數據集的整體誤差。第二個紅色條表示各個組之間的錯誤總和。這恰好是在定理1和定理2中出現的下界。第三個淺灰色條對應於一個差距分數,用以衡量滿足統計均等性的程度。更具體地說,它是:

如何训练一个公平的算法?CMU提出基于公平表示的新方法 | 将门好声音

顯然差距分數越小,預測變量就越滿足統計均等性。實驗結果與理論分析相同。隨著λ值的增加,差距得分迅速減小,並且當λ= 50.0時,相應的預測變量已經非常接近以滿足統計均等性的要求。另一方面也可以觀察到,隨著λ值的增加紅色條也迅速增加,最終不同組間的誤差總和超過0.36。值得注意的是,黑色水平線對應ΔBR= 0.197,所有紅色條都在該水平線上,這與我們的理論結果一致。在實際使用中,ΔBR= 0.197非常容易計算,並且可以作為對任何公平分類器必須滿足的總誤差的限制,而無需實際訓練這些公平分類器。

總 結

理解性能和統計均等性之間的基本權衡既有趣又充滿了挑戰。本研究展示了在二進制分類情況下這種內在權衡簡單直觀的表徵:當基準比率在各組之間不同時,任何統計均等意義上的公平分類器都必然會在至少一個組上產生較大的誤差!在迴歸情況下找到這種表徵的問題仍然懸而未決,目前尚不清楚如何將當前的證明策略拓展到分析迴歸問題中的類似權衡。

另一方面,研究結果表明將統計均等定義為公平性存在一定缺陷。在定義算法公平性時同時應該考慮目標的相關信息。例如,均等幾率和準確性均等性是組公平性的兩個可替代的定義,它們都與理想的預測模型兼容。在作者另一篇ICLR 2020論文中提供了一種算法,可以通過對錶示的學習,在二進制分類條件下同時近似實現這兩個指標。感興趣的朋友可以參考以下鏈接:

https://openreview.net/forum?id=Hkekl0NFPr

ref:https://www.zhihu.com/question/263336767?sort=created

如何训练一个公平的算法?CMU提出基于公平表示的新方法 | 将门好声音

關於我門

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金

專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在近四年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

如何训练一个公平的算法?CMU提出基于公平表示的新方法 | 将门好声音


分享到:


相關文章: