以通用的監督學習為例,基本包含4個部分:
01
偏差與方差
● 在機器學習算法中,偏差是由先驗假設的不合理帶來的模型誤差,高偏差會導致欠擬合:所謂欠擬合是指對特徵和標註之間的因果關係學習不到位,導致模型本身沒有較好的學到歷史經驗的現象;
● 方差表徵的是模型誤差對樣本發生一定變化時的敏感度,高方差會導致過擬合:模型對訓練樣本中的隨機噪聲也做了擬合學習,導致在未知樣本上應用時出現效果較差的現象;
● 機器學習模型的核心之一在於其推廣能力,即在未知樣本上的表現。
對方差和偏差的一種直觀解釋
一個例子,假如我們有預測模型:
我們希望用f^e(x)估計f(x),如果使用基於square loss 的線性迴歸,則誤差分析如下:
所以大家可以清楚的看到模型學習過程其實就是對偏差和方差的折中過程。
02
模型原理
標準線性迴歸通過對自變量的線性組合來預測因變量,組合自變量的權重通過最小化訓練集中所有樣本的預測平方誤差和來得到,原理如下。
● 預測函數
● 參數學習-採用最小二乘法
所有機器學習模型的成立都會有一定的先驗假設,線性迴歸也不例外,它對數據做了以下強假設:
● 自變量相互獨立,無多重共線性
● 因變量是自變量的線性加權組合:
● 所有樣本獨立同分布(iid),且誤差項服從以下分佈:
最小二乘法與以上假設的關係推導如下:
使用MLE(極大似然法)估計參數如下:
線性迴歸有兩個重要變體:
● Lasso Regression:採用L1正則並使用MAP做參數估計
● Ridge Regression:採用L2正則並使用MAP做參數估計
關於正則化及最優化後續會做介紹。
03
損失函數
進一步閱讀可參考:https://en.wikipedia.org/wiki/Least_squares
閱讀更多 洛鴻0920 的文章