機器學習模型可解釋性簡史

讓我們逐步瞭解機器學習模型可 解釋性的簡要歷史- 通過我們針對保險公司的AI索賠管理解決方案的實例說明。

從簡單開始 - 線性模型係數

線性模型的可解釋性很簡單。預測是特徵值的線性組合,由模型係數加權。

機器學習模型可解釋性簡史

具有線性預測索賠管理系統的特徵

然而,大型現代機器學習數據集的最高精度通常是通過複雜機器學習模型實現的,甚至專家也難以解釋(見下圖)。

機器學習模型可解釋性簡史

可解釋性 - 準確性權衡

如果線性模型的解釋性很容易,那麼如何在更強大的非線性機器學習模型(如隨機森林)上實現它?

2014年7月 - 隨機森林具有重要意義

在其博士論文(https://arxiv.org/abs/1407.7502)中,Gilles Louppe分析並討論了在變量重要性測量下擬合隨機森林模型的可解釋性。這就是著名的 scikit-learn RandomForest()估計器 .feature_importances_attribute 背後的原理。

以下是預測保險索賠管理解決方案中“特徵重要性”的輸出。

機器學習模型可解釋性簡史

Zelros預測保險索賠管理系統的重要性

2015年8月 - 隨機森林為特定預測提供了貢獻

之前的方法旨在解釋擬合模型在全局種群的重要性。這種新方法試圖單獨解釋每個預測的特徵貢獻。

是什麼使我的機器學習模型預測M. xxx貸款保險索賠是簡單的,可以自動解決?主要是利率嗎?或者資本的多少?還是貸款的類型?

實際上,由於scikit-learn 0.17的新功能,特性貢獻計算已經成為可能:允許存儲所有節點的值,而不僅僅是決策樹的葉子。

此方法可在Treeinterpreter包中找到。

機器學習模型可解釋性簡史

Zelros預測保險索賠管理系統的特特徵貢獻

2015年10月 - 決策閾值分佈

沒有一種獨特的方法來檢查和理解擬合的隨機森林模型。Airbnb研究團隊發佈了自己的方法(https://medium.com/airbnb-engineering/unboxing-the-random-forest-classifier-the-threshold-distributions-22ea2bb58ea6),專注於決策閾值分配。

機器學習模型可解釋性簡史

關於隨機森林可解釋性的Airbnb方法

2016年2月 - LIME

正如您所注意到的,以前的方法主要集中在當時最有效的算法:隨機森林。

但隨著更強大的算法出現(神經網絡,boosting trees, ensembling, ......),出現了新一代可解釋性技術,適用於任何機器學習模型 - 不僅僅是基於樹的。

這種類型的第一種可解釋性方法發表在論文中:“Why Should I Trust You?”(https://arxiv.org/abs/1602.04938):解釋任何分類器的預測。它通過學習一個關於預測的局部解釋性模型,以一種可解釋和faithful 的方式解釋了任何分類器的預測。

這種方法可以在LIME包(https://github.com/marcotcr/lime)中開箱即用(Local Explatable Model-Agnostic Explanations)。

機器學習模型可解釋性簡史

基於Zelros神經網絡的保險索賠複雜性預測的特徵貢獻

2016年6月 - 模型可解釋性的神話(o)

雖然可解釋性技術成倍增加,但更好地定義這一概念的必要性開始出現。

解釋機器學習模型是什麼意思,為什麼我們需要它?它是否相信模型?或者試圖找出分析現象中的因果關係?或者想象它?

這些方面在《The Mythos of Model Interpretability 》一文(https://arxiv.org/abs/1606.03490)中有較深入的論述。

2017年5月 - SHAP

如上所述,隨著時間的推移,已經提出了幾種方法,以幫助用戶解釋複雜模型的預測。但是,通常不清楚這些方法是如何相關的,以及何時一種方法比另一種方法更適合。

SHAP試圖統一六種先前的可解釋性方法(如Treeinterpreter,LIME,......),並使其結果更加健壯,一致並與人類直覺保持一致。

這可能是當前最先進的可解釋性方法。並且有一個Python庫可用(https://github.com/slundberg/shap)!

機器學習模型可解釋性簡史

Zelros預測保險索賠管理系統的SHAP值

2018年:下一步是什麼?

解釋複雜的機器學習模型是一個熱門的研究課題。未來幾年肯定會取得進展。

Tensorflow本月發佈 一個“what-if”的工具,可以直觀地檢查機器學習模型。

機器學習模型可解釋性簡史


分享到:


相關文章: