通俗易懂地理解機器學習中的損失函數與風險函數

通俗易懂地理解機器學習中的損失函數與風險函數

引入

我們需要一定的準則來評估不同機器學習模型的優劣,這就引申出損失函數和風險函數。

損失函數:評估模型單次預測的好壞

風險函數:度量平均意義下模型的好壞

損失函數的定義

監督學習是在假設空間F中選取模型f作為決策函數,對於給定的輸入X,由f(X)給出相應的輸出Y,用損失函數來衡量預測值f(X)和真實值Y之間的差距,它是一個非負實值函數,記為L(Y,f(X))。

常用的損失函數

1. 0-1損失函數

通俗易懂地理解機器學習中的損失函數與風險函數

2. 平方損失函數

通俗易懂地理解機器學習中的損失函數與風險函數

3. 絕對損失函數

通俗易懂地理解機器學習中的損失函數與風險函數

4. 對數似然損失函數

通俗易懂地理解機器學習中的損失函數與風險函數

風險函數

當損失函數越小時意味著模型擬合效果越好,損失函數的期望是:

通俗易懂地理解機器學習中的損失函數與風險函數

這是理論上模型f(X)關於聯合分佈P(X,Y)的平均意義下的損失,稱為風險函數(或者期望損失)。

風險函數與監督學習的關係

監督學習的目的就是選擇令期望風險最小化的模型,但是由於聯合分佈P(X,Y)未知,風險函數的值並不能直接計算,所以監督學習就稱為一個病態問題(ill-formed problem)。

經驗風險損失

由於風險函數並不能直接計算,我們轉而求模型f(X)在訓練數據集上的平均損失作為經驗風險損失,記作:

通俗易懂地理解機器學習中的損失函數與風險函數

經驗風險最小化

經驗風險最小化策略認為,經驗風險最小的模型就是最優的模型,即:

通俗易懂地理解機器學習中的損失函數與風險函數

當樣本容量足夠大時,經驗風險最小化能保證具有較好的學習效果,在現實中也被廣泛採用。例如極大似然估計就是經驗風險最小化的一個例子(在模型是條件概率分佈,損失函數是對數損失函數時等價)。

結構風險最小化

當樣本容量較小時,經驗風險最小化的準則會導致過擬合問題的出現,結構風險最小化等價於正則化(也叫做罰項)。定義如下:

通俗易懂地理解機器學習中的損失函數與風險函數

其中J(f)為模型的複雜度,是定義在假設空間F上的泛函。其中λ≥0是係數,用於權衡經驗風險和模型複雜度對模型優劣的影響。

結構風險較小的模型往往對訓練數據以及未知的測試數據都有較好的預測。例如貝葉斯估計中的最大後驗概率估計就是結構風險最小化的例子(在模型是條件概率分佈,損失函數是對數損失概率且模型複雜度由模型的先驗概率表示時等價)。

結論

監督學習的問題可以轉化為經驗風險或者結構風險函數的最優化問題,這時候經驗或者結構風險函數就是最優化的目標函數。

寫在最後

由於頭條對markdown的支持程度較差,想要閱讀排版更好的文章請點擊下方的鏈接:

https://zhuanlan.zhihu.com/p/67920451


分享到:


相關文章: