老炮分享:解釋機器學習模型概述

這篇文章概述了許多解釋機器學習模型的方法,超出了通常的go – to方法。

第1部分介紹了包括方法和理解你的數據上下文中的培訓並解釋機器學習算法,第2部分介紹了將線性模型和機器學習算法相結合的情況下,解釋能力是至關重要的,第3部分描述理解和驗證最複雜類型的預測模型。

第1部分:查看你的數據

這一節指出一些方法來執行超出傳統的可視化數據探索。

這裡有許多方法來可視化數據集。大多數技術都僅在兩個維度上說明所有數據集,而不僅僅是數據集中的單變量或雙變量切片(即每次表示一個或兩個變量)。這在機器學習中是很重要的,因為大多數機器學習算法會自動地對變量之間的高階交互進行建模(也就是說,將超過兩個或三個變量組合在一起的效果。)

  • 本節所介紹的可視化技術包括:

符號

相關圖表

2D投影,如PCA、MDS和t - sne

局部依賴圖

殘差分析

可視化

老炮分享:解釋機器學習模型概述

代表大型金融公司貸款的相關圖表。圖由帕特里克·霍爾和H2O提供。

  • 建議提出的問題,以幫助確定這些可視化技術的價值(在隨後的部分中同樣被問到技術)包括:

可視化可以幫助解釋什麼功能的複雜性?

可視化如何增進理解?

可視化如何增強信任?

第2部分:在受監管的行業中使用機器學習

本節所介紹的技術是使用機器學習來增強傳統線性建模方法的新型線性模型。這些技術對於那些不能使用機器學習算法來構建預測模型的實踐者來說是很重要的。

  • 本節概述的技術包括:

·廣義可加模型(gam)

·分位數迴歸

·構建機器學習模型基準——即在從傳統的線性模型轉向機器學習算法的過程中,採用一種經過深思熟慮的過程,採取漸進的步驟,並在過程中比較性能和結果,而不是從簡單的迴歸模型直接跳到“黑盒”的深端。

·在傳統的分析過程中的機器學習——這是一個建議使用ML算法來增加分析生命週期的過程,以獲得更準確的預測,如預測線性模型降階。

·小的,可解釋的集合——在這一點上,總的來說,這是一個必然的結論,整體方法有巨大的價值,但是使用簡單的方法可能有助於提高準確性和解釋性。

·單調性約束——這樣的約束可以將複雜的模型轉換為可解釋的、非線性的、單一的模型。

  • 單調性方面至少有兩個原因比較重要:

監管機構通常十分期待單調性單

單調性使代碼生成一致

老炮分享:解釋機器學習模型概述

第3部分:理解複雜的機器學習模型

複雜的機器學習模型解釋能力是自動化機器學習的倡導者,這兩種技術是同一個硬幣的兩個方面:如果要使用自動化技術在前端生成模型,然後設計並採用適當的方法來簡化和理解這些模型,那麼,後端變得至關重要。

以下是幫助理解本文中複雜的ML模型的方法。

代理模型——簡單地說,代理是一個簡單的模型,可以用來解釋更復雜的模型。如果代理模型是由訓練創建的,比方說,一個簡單的線性迴歸,或者一個有原始輸入數據的決策樹,以及來自更復雜模型的預測,那麼這個簡單模型的特徵就可以被假定為一個更復雜模型的準確描述,而且它可能根本不準確。

那麼,為什麼要使用代理模型呢?

代理模型在其係數、變量重要性、趨勢和交互作用與人類領域的知識和建模現象的合理預期一致時,代理模型增強了信任。當使用與靈敏性分析相結合的方法時,代理模型可以增加信任,以測試解釋是否保持穩定,符合人類領域的知識,當數據被輕鬆地、有目的地擾動時,當有趣的場景被模擬時,或者隨著時間的推移數據變化時,達到合理的期望。

局部的可解釋模型——LIME是建立基於單一觀察的代理模型

LIME的實現可以按以下方式進行。首先,利用複雜模型對可解釋記錄集進行評分。然後,為了解釋關於另一個記錄的決定,解釋記錄通過與該記錄的接近程度加權,並且在這個加權解釋集上訓練L1正則化線性模型,線性模型的參數幫助解釋所選記錄的預測。

最大激活分析——一種用於分離特定實例的技術,它能引起一些模型超參數的最大響應

在最大的激活分析中,我們發現或模擬了在神經網絡或決策樹組合中,神經網絡或某些樹中最大激活某些神經元、層或過濾器的例子。為了達到最大激活分析的目的,對某一樹的低殘差類似於神經網絡中的高強度神經元輸出。

所以…是LIME,還是最大激活分析,還是兩者兼而有之?

上面討論的LIME有助於解釋條件分佈局部區域模型的預測。最大的激活分析有助於增強對模型的本地化內部機制的信任。這兩種方法對創建複雜響應函數的局部解釋非常重要。

靈敏性分析——此技術有助於確定是否有意干擾數據,或類似的數據更改,修改模型行為並破壞輸出的穩定,它也有助於研究特定場景的模型行為或案例

全局變量重要性度量——通常是基於樹的模型的域,決定變量重要性的啟發式與給定變量的分叉點的深度和頻率有關,更重要的是更高、更頻繁的變量

例如:

對於單個決策樹來說,變量的重要性是由每個節點被選擇為最佳分裂候選的每個節點的分解標準的累積變化決定的。

老炮分享:解釋機器學習模型概述

在決策樹集成模型中,一個變量重要性的說明。圖由帕特里克·霍爾和H2O提供。

leave - one - covario - out(LOCO)——最初是為迴歸模型而開發的,但更普遍適用,該技術的目標是確定一個變量,它對給定的行有最大的絕對影響——迭代地將變量值調零,這將決定對該行的預測最重要的變量

如何提高對變量重要性的理解?

對變量重要性度量增加理解是必要的,因為它們告訴我們模型中最具影響力的變量及其相對級別。

樹遍歷解釋器——嚴格的基於樹的模型(決策樹、隨機森林等)解釋方法

樹遍歷解釋器僅僅輸出給定模型中變量的偏差和單個貢獻的列表,或者單個記錄中輸入變量對單個預測的貢獻。


分享到:


相關文章: