統計機器學習中最基礎的模型是:線性迴歸。
這個模型有3個基本特點:
- 線性:輸出是輸入的線性組合
- 全局性:整個輸入空間都是一組參數
- 數據不變形:不對數據進行處理
這3個特點決給線性迴歸帶來了簡潔的數學形式、清晰的可解釋性,但同時也限制了線性迴歸的表達能力。
於是為了對實際問題進行更好的建模,後續出現的機器學習方法都是在打破上面3個特點。
本節所講的線性分類,就是打破了線性這個特點,簡單理解就是:
線性迴歸通過激活函數,將輸出從實數閾映射到了{0,1},我們按照輸出是{0,1}還是[0,1],可以進一步對迴歸進行劃分:
硬輸出:感知機
統計機器學習中核心是一個優化問題,其解決問題的基本思路是:
- 建立模型
- 定義loss function
- 優化算法 optimize
感知機的模型定義是:
Loss函數定義為:
其中當分類錯誤的時候,yiwxi < 0 為真,此時 I 值是1,否則為0,所以loss函數是一個不可導的函數,無法求解析解。
下面是對於不同情況的細分。
我們可以看到當樣本正確分類時,對損失函數貢獻為0,當分類錯誤時,我們的目標是讓 yiwtxi 儘可能的接近於0,所以我麼可以轉換損失函數為:
現在損失函數是可導的了,下一步優化算法就可以採用SGD方法了:
硬輸出:Fisher判別
問題描述
Fisher決策的出發點是:把所有的樣本都投影到一維空間,使得在投影線上最易於分類 。
那什麼是最易於分類的投影面呢?我們希望這個投影面是這樣的:
投影后兩類相隔儘可能遠,而對同一類的樣本又儘可能聚集。
基於這個出發點,我們需要算出最佳的投影方向。如下圖,右側的投影面則優於左側的投影面,因為它將兩個類別更好地分開。
核心思想:類間最大,類內最小。
下面分別定義類間和類內距離:
定義目標函數:
下面將分子、分母分別展開:
我們可以進一步簡化目標函數的形式:
最優解求解
軟輸出-概率判別模型:logistic regression
模型描述
激活函數將實數閾映射到0-1之間。
寫出條件概率P(y|x)
定義目標函數:最大似然
求解:可以採用梯度下降的方法。
軟輸出-概率生成模型:高斯判別分析
模型描述:
目標函數:最大似然
求解:分別求導。
閱讀更多 進擊吧程序猿 的文章