模型黑盒|機器學習模型的“可解釋性”研究

關注並標星索信達

每天打卡閱讀

更快走進金融人工智能世界

━━━━━━

模型黑盒|機器學習模型的“可解釋性”研究


我們是索信達集團旗下的金融人工智能實驗室團隊,微信公眾號(datamargin)將不定期推送原創AI科學文章。我們的作品都是由實戰經驗豐富的AI科學技術人員或資深顧問精心準備,志在分享結合實際業務的理論應用和心得體會。


文 | 索 信 達 張 舵

自1943年心理學家McCulloch和數學家Pitts發表了神經元模型MP之後,神經網絡歷經了兩次高潮和低谷,終於在2010年前後迎來了第三次高潮。在語音識別和圖像識別領域,神經網絡有著傳統統計學模型不可替代的優勢。


模型黑盒|機器學習模型的“可解釋性”研究


1.關於模型的可解釋性


在2012年的ImageNet競賽中,Hinton教授與他的學生用多層的卷積神經網絡成功地對包含一千類別的一百萬張圖片進行了訓練,取得了分類錯誤率15%的好成績,這個成績比第二名高了近11個百分點,充分證明了多層神經網絡識別效果的優越性。2016年橫空出世的深度學習模型AlphaGo更是在圍棋領域大放異彩,擊敗了人類最強選手。

但是神經網絡是把雙刃劍,在其高效、高正確率的背後,是模型的不可解釋性,即“黑箱子”問題。神經網絡應用於圖片分類、圍棋等領域尚可,但是當涉及到金融、醫療、無人駕駛等領域時,人們更加需要一個可信賴的模型。即從輸入到輸出的全部過程都是透明的、可解釋的。

在銀行業,人們有權詢問為什麼自己的信用評分比較低,而業務人員不能僅僅解釋為因為您的模型評分低。而在醫療這一及負“責任”的領域,使用模型來診斷疾病更加需要可解釋性。但諷刺的是,即使神經網絡可解釋性差,在乳腺癌切片的圖像診斷上,機器學習模型可以達到89%的準確性,而訓練過的病理學家只有73%的平均準確率。由此可見,我們既無法因為其可解釋性差而放棄使用這一高效模型,亦不能完全依賴這個“黑箱子”來幫助人類做出重大決策。


模型黑盒|機器學習模型的“可解釋性”研究


模型的可解釋性,即判別過程是否可以轉化成具備邏輯關係的規則,簡單來說,就是為什麼輸入可以得到這樣的輸出。那麼為什麼神經網絡模型不可解釋呢?一個重要因素是神經網絡模型的高複雜度。例如谷歌的圖片分類神經網絡ResNet,它包含152層網絡及個參數,幾乎不可能解釋清楚每個層級的功能和每個參數的意義。

本文將圍繞模型的可解釋性來對比和介紹傳統統計學模型和神經網絡模型的特點。第二章介紹常用的統計學回歸和分類模型,以及各模型中參數的意義和如何通過模型來解釋輸入與輸出的關係。第三章介紹神經網絡模型原理及其與統計學模型的關係。最後第四章介紹關於神經網絡可解釋性的發展與研究方向。


模型黑盒|機器學習模型的“可解釋性”研究


2.傳統統計學模型


本章將從線性迴歸、邏輯迴歸以及決策樹模型的角度,闡述傳統統計學模型在分析問題時對模型參數和輸入輸出關係的解釋。

2.1、線性迴歸模型。在最直觀的線性迴歸模型

模型黑盒|機器學習模型的“可解釋性”研究

中,我們已知其參數含義:

模型黑盒|機器學習模型的“可解釋性”研究

為直線斜率而

模型黑盒|機器學習模型的“可解釋性”研究

為直線在

模型黑盒|機器學習模型的“可解釋性”研究

軸的截距。當自變量

模型黑盒|機器學習模型的“可解釋性”研究

時,響應變量

模型黑盒|機器學習模型的“可解釋性”研究

每增加一個單位,

模型黑盒|機器學習模型的“可解釋性”研究

增加個

模型黑盒|機器學習模型的“可解釋性”研究

單位。類似地,在多元線性迴歸模型

模型黑盒|機器學習模型的“可解釋性”研究

中,

模型黑盒|機器學習模型的“可解釋性”研究

可理解為當其他所有變量保持不變時,

模型黑盒|機器學習模型的“可解釋性”研究

每增加一個單位,

模型黑盒|機器學習模型的“可解釋性”研究

增加個單位。


模型黑盒|機器學習模型的“可解釋性”研究


2.2、邏輯迴歸模型:對於二分類的響應變量

模型黑盒|機器學習模型的“可解釋性”研究

或0(對應YES or NO),

模型黑盒|機器學習模型的“可解釋性”研究

關於解釋變量

模型黑盒|機器學習模型的“可解釋性”研究

的邏輯迴歸模型為:


模型黑盒|機器學習模型的“可解釋性”研究

其中

模型黑盒|機器學習模型的“可解釋性”研究

概率,而參數

模型黑盒|機器學習模型的“可解釋性”研究

亦很容易理解,下面舉例說明。

例如

模型黑盒|機器學習模型的“可解釋性”研究

表示罹患肺癌而

模型黑盒|機器學習模型的“可解釋性”研究

表示煙齡(月份),假設他們之間服從邏輯迴歸模型且

模型黑盒|機器學習模型的“可解釋性”研究

時,

模型黑盒|機器學習模型的“可解釋性”研究

表示不抽菸患肺癌的幾率為0.15%。煙齡每增加一個月,優勢比

模型黑盒|機器學習模型的“可解釋性”研究

即患肺癌的概率比不患肺癌的概率增加了1.013倍。當

模型黑盒|機器學習模型的“可解釋性”研究

,即抽菸500個月(40年左右),有一半的概率會患肺癌。對於任意給定的

模型黑盒|機器學習模型的“可解釋性”研究

,通過上述模型我們可以測算出他的患癌概率

模型黑盒|機器學習模型的“可解釋性”研究


模型黑盒|機器學習模型的“可解釋性”研究


我們可以看到邏輯迴歸類似於線性迴歸,對於模型的每一個參數都可以給出合理解釋,對於每一個輸入

模型黑盒|機器學習模型的“可解釋性”研究

都可以清楚解釋為什麼會得到輸出

模型黑盒|機器學習模型的“可解釋性”研究

。多元邏輯迴歸模型

模型黑盒|機器學習模型的“可解釋性”研究

的參數意義類似於多元線性迴歸,即當其他變量不變時,

模型黑盒|機器學習模型的“可解釋性”研究

模型黑盒|機器學習模型的“可解釋性”研究

的影響。

2.3、決策樹與隨機森林模型。決策樹是一種非參數的分類模型,利用樣本節點對樣本進行劃分子集,會使得各子集中不同類別樣本的混合程度最低,在各子集中對樣本劃分所需的信息(熵)最少。下例中通過對不同人群的年齡特徵、資產特徵、身份特徵進行分類,最後可以劃分為四個重疊度較小的人群,然後可以針對不同人群推薦相應的產品。


模型黑盒|機器學習模型的“可解釋性”研究


我們可以看到,決策樹簡單直觀,對於任何結果我們都可以追根溯源的解釋為什麼得到這個輸出。當我們採用bootstrap的方式對樣本有放回的進行抽樣,並且針對每次的抽樣訓練多顆決策樹共同決策時,就形成了隨機森林模型,最終結果是採用Bagging的策略來獲得,即多數投票機制。隨機森林模型相對於決策樹模型在高維數據中有更高的準確度,但是利用多顆決策樹模型投票決策也使得他的可解釋性大為降低。


模型黑盒|機器學習模型的“可解釋性”研究


3.神經網絡模型


3.1、神經網絡模型簡介。神經網絡模型由許多的神經元模型組成,下圖為單個神經元的結構:


模型黑盒|機器學習模型的“可解釋性”研究


每一個輸入都有一個權重配比,之後通過加權求和及非線性函數得到輸出:

模型黑盒|機器學習模型的“可解釋性”研究

這裡的非線性函數通常為sigmoid(邏輯迴歸)函數。單個神經元可理解為一個結合了線性及非線性的簡單數學模型。對於單個神經元,我們知道它的函數表達式,知道輸入是通過什麼規則得到的輸出,所以單個神經元模型是可解釋的。

神經網絡結構如下圖所示,最左邊的是輸入層,最右邊的是輸出層,中間是多個隱含層,隱含層和輸出層的每個神經節點都是一個神經元模型。其中隱藏層的層數和每層的神經元數均不確定,往往通過實驗得到最優的層數和神經節點數。更深的網絡往往具有比淺層的網絡更好的識別效率。這點也在ImageNet的多次大賽中得到了證實。從2012年起,每年獲得ImageNet冠軍的深度神經網絡的層數逐年增加,2015年最好的方法GoogleNet是一個多達22層的神經網絡。


模型黑盒|機器學習模型的“可解釋性”研究


多層的神經網絡可以大大提高模型的識別準確率,同時卻降低了模型的可解釋性。一個複雜度如上圖的神經網絡,它的輸入/輸出關係已經很難寫出顯性表達式,對於輸入,我們並不可能知道為什麼會得到這樣的輸出,模型基本上已經完全不可解釋了。對於生產生活中的重大不可逆性決策,我們很難完全放心並依賴神經網絡來做出決策。

3.2、神經網絡模型與統計學模型關係。神經網絡模型在本質上是多層統計學模型的疊加。例如下圖中的單層感知機,當其激活函數為線性時

模型黑盒|機器學習模型的“可解釋性”研究

,均為的線性組合,即多元線性迴歸。當激活函數為sigmoid時,模型變為多元邏輯迴歸。

模型黑盒|機器學習模型的“可解釋性”研究


當我們加了隱藏層時,如果隱藏層的激活函數為非線性函數,則多層感知機實質上是非線性迴歸模型(如下圖)。當神經網絡的層數和神經元數逐漸增多時,我們的模型會越來越複雜,以至於很難找到一個顯性表達式來完整描述模型和其輸入輸出關係,這是導致模型不可解釋性的根本原因。

模型黑盒|機器學習模型的“可解釋性”研究

對於傳統的統計學模型,我們往往需要通過相關性分析、主成分分析(PCA)等變量選擇方法,甄選出主要的特徵變量,其次根據數據類型及問題選擇諸如線性或者非線性模型來擬合數據,它是簡單高效且緊緻的(parsimonious)。而神經網絡更像是一個萬金油模型,尤其適用於多特徵變量的高維數據,它無需變量選擇,將所有特徵變量輸入模型通過反向傳播算法(Backpropagation algorithm)計算出每個層級的參數,它是複雜且準確的。


模型黑盒|機器學習模型的“可解釋性”研究


4.可解釋神經網絡模型(xNN)


我們不能因噎廢食,由於神經網絡優秀的預測能力,我們希望可以在其可解釋性上有所突破。如下圖,機器學習算法的預測精度總是和可解釋性成反比,預測精度最高的深度學習算法的可解釋性最差,而解釋性最好的決策樹算法的預測精度也最低。


模型黑盒|機器學習模型的“可解釋性”研究


可解釋神經網絡模型(xNN) (Vaughan, 2018)是在簡單的統計學模型和過於複雜的神經網絡模型之間,選擇了一個解釋性和預測性都較好的加性指數模型(AIM),並通過改進AIM來近似神經網絡模型,它有一個顯性表達式,可以解釋輸入/輸出關係,函數表達式如下:

其中,為均值,為特徵變量的參數,為嶺函數,為嶺函數的權重。xNN模型的結構如下:

模型黑盒|機器學習模型的“可解釋性”研究

xNN模型含有三個層級:(1)映射層(the projection layer)為特徵變量的不同線性組合,即至。(2)子網絡(Subnetwork)為中間的非線性函數至,它將輸入1對1的轉化成輸出。(3)綜合層(combination layer)將子網絡的輸出加權求和,輸出最後結果。

在計算層面上,對於龐大的數據樣本,我們依然可以使用梯度下降算法(Gradient Descent)來求解參數,並通過反向傳播(Backpropagation)算法來進行優化。另外,當數據樣本量不大時,由於我們模型的簡潔性,我們還可以通過對損失函數(loss function)求偏導來直接計算每個參數,這就避免了神經網絡參數計算中的梯度爆炸和梯度消失等問題。

張愛軍教授等 (Zebin Y., 2019)在此基礎上提出了基於網絡結構約束的可解釋性神經網絡(SOSxNN)模型。通過三種網絡結構化約束:a)稀疏可加子網絡; b) 正交投影; c) 光滑函數;提升了模型的可解釋性及預測精準度。其中條件(a)保證了子網絡中嶺函數的稀疏性,即使得模型儘量簡潔、緊緻,用最少的嶺函數來構建模型。條件(b)為數據旋轉提供了正交基,使得模型可辨識性增強。(c)使得嶺函數更加光滑。簡單的說,就是通過對(1)中的參數、及嶺函數施加約束來構架出最緊緻、函數性質最好的xNN模型。同時在 SOSxNN模型與其他機器學習模型,如多層感知機(MLP)、支持向量機(SVM)、 隨機森林(Random Forests)、 Lasso 算法以及原始的 xNN 模型比較時,SOSxNN的預測精度被證明不低於這些模型。所以這是一種更簡化、預測精度高的新型可解釋神經網絡模型。

xNN模型的結構和設計方式使其具有輸入/輸出的過程解釋,打破了神經網絡“黑箱子”的侷限性。這項技術將機器學習技術應用於其他行業如醫學、銀行業提供了極大便利。它構建了一個可以被人們理解、信賴的模型。未來xNN模型必然在可解釋性及預測準確度上有所提升,我們期待它在各個領域的廣泛應用。

參考文獻:

Vaughan, J., Sudjianto, A., Brahimi, E., Chen, J., and Nair, V. N. (2018). Explainable neural networks based on additive index models. The RMA Journal.

Zebin Y., Aijun Z., and Agus S.(2019). Enhancing Explainability of Neural Networksthrough Architecture Constraints. arXiv:1901.03838v1 [stat.ML].



分享到:


相關文章: