AI科普系列——機器學習 = 模型+策略+算法

近年來人工智能、機器學習的熱點不斷,而在這其中,從某種程度上,“機器學習”更學理的稱呼是“統計學習”(statistical learning)。

統計學習是概率論、統計學、信息論、計算理論、最優化理論及計算機科學等多個領域的交叉學科,並且在發展中逐步形成獨自的理論體系與方法論。統計學習用於對數據進行預測與分析,特別是對未知新數據進行預測與分析。統計學習對未知數據的預測可以使計算機更加智能化,或者說使計算機的某些性能得到提高;對數據的分析可以讓人們獲取新的知識,給人們帶來新的發現。

統計學習的操作路徑具體到監督學習可概括為:從給定的、有限的、用於學習的訓練數據(training data)集合出發,假設數據是獨立同分布產生的;並且假設要學習的模型屬於某個函數的集合,稱為假設空間(hypothesis space);應用某個可量化假設空間不同“函數”個體優劣差異的評價準則(evaluation criterion),配置合理的優化算法,從假設空間中選取一個最優的模型,使它對已知訓練數據集及未知測試數據在給定的評價準則下有最優的預測性能。

這樣統計學習方法包括模型的假設空間、模型選擇的評價準則(評估函數或損失函數)以及模型學習的算法(優化算法),稱為統計學習的三劍客:1.模型空間;2.評估策略;3.學習算法(如:Grid-Search\\Adam\\SGD)。


實現統計學習方法的步驟如下:

1.得到一個有限的訓練樣本集合;

2.確定包含所有可能的模型的假設空間,即學習模型的幾何;

3.確定模型選擇的準則,即量化模型“好壞”的評估策略;

4.確定求解最優模型的優化學習算法;

5.模型訓練過程:配置模型計算、超參優化的流程,優化算法基於評估策略的量化指標的驅動不同迭代修改模型的超參結構,從而實現模型性能的不斷提升;

6.模型應用過程:利用訓練階段獲取的訓練後模型,對位置數據進行預測或分析。


Factor.1 模型確立:選擇匹配問題對象的模型方法

關於機器學習等數據驅動的建模手段,業界廣泛流傳這樣一句總結:數據和特徵決定了建模效果的上限,而模型(建模方式)和算法(優化學習)則是為了逼近這個上限。數據集的質量和問題特徵的重要性不用贅述強調,而模型的選擇則關係到是否“對症下藥”,如研究對象本身是線性問題,則選擇線性迴歸或多項式迴歸即可;如研究對象呈現極為明顯的非線性傾向,則選擇線性迴歸這類線性模型顯然無法提供期望的非線性表達能力,這時神經網絡這類具備豐富非線性表達能力的模型,則無疑更為匹配。

所以,模型不存在完美模型,模型只有更適合的模型。深度學習雖然炫酷,但也絕非萬能,有的時候,線性迴歸可能更合適你的問題。


Factor.2 評估策略:量化的不同模型優劣程度的評估指標

工程上常說的一句話:可被測量的問題就是可以被解決的問題。本質上是指具體的目標訴求一旦被轉化成有效的量化指標,那麼該目標就可以通過具體的手段來達到。哪怕像公司運營管理這麼空泛的目標,一旦被轉化成KPI這種可度量的指標,並可基於KPI的驅動力來實現運營改善的目標。

同樣的道理,雖然建模方法在factor.1中被確定,如一階線性迴歸F(x)=ax+b,但不同的a, b對應不同的模型實例,如果不能判別不同模型實例之間孰好孰壞,那麼最優模型這一訴求便無法實現。簡單地說,評估策略就是評估模型空間兩個具體模型間孰好孰壞的量化手段,如線性迴歸常用的最小化均方誤差。

引入評估策略,便可將統計學習問題轉化為了最優化問題。最優化問題是藉助計算機計算能力最常見的計算任務密集型工作。


Factor.3 學習算法:解決最優化問題的優化算法

流程進行到Factor.2,我們已經將統計學習問題轉化成一個具體的最優化問題(最小化損失函數或最大化模型性能評分)。如果最優化問題有顯式的解析解,這個最優化問題就比較簡單。但通常解析解不存在,這就需要用數值計算的方法求解,如常見的梯度下降方法。如何保證找到全局最優解,並使求解的過程非常高效,就成為一個重要問題。常見的梯度下降、網格搜索Grid-Search、貝葉斯優化等優化學習算法適用於不同應用場景,同樣的,這一方向也是近年來AutoML自動化機器學習著重研究的領域。


分享到:


相關文章: