在做數據挖掘建模型的時候,比如在邏輯迴歸中,我們常常使用極大似然估計、梯度下降法來求參數,那麼到底極大似然估計是什麼?在邏輯迴歸中是怎麼推導得來的呢?
什麼是極大似然估計:
極大似然估計,在大學數學系專業《概率論與數理統計》中出現的,是概率論在統計學的應用,它是參數估計的方法之一。極大似然估計是建立在這樣的思想上:隨機樣本滿足某種概率分佈,但是其中具體的參數不清楚,假設這個參數能使這個樣本出現的概率最大,所以就把這個參數作為估計的真實值。
在一個罐中隨機拿去小球,假如在一百次記錄中,有七十次是白球,那麼我們直覺會說罐中白球所佔的比例最有可能是70%。
其實這直覺的背後,我們就利用了極大似然估計
假設罐中白球的比例是p,那麼紅球的比例就是1−p。又因為每抽一個球后,又將其放回搖勻,所以每次抽出來的球服從獨立同分布
在一百次抽樣中,七十次是白球的概率是
其實還應該乘以從100中隨機抽取70白球的組合C(100,70)
即獨立發生的概率相乘,那麼要使他最大,則P值應該為多少呢,求導即可得P=0.7
邏輯迴歸中的極大似然估計
1,似然函數
我們知道,邏輯迴歸的成本函數不能像一般的迴歸模型那樣,直接是擬合值與真實值的誤差的平方。
我們假設邏輯迴歸預測函數是:y=1時,
h(x)就是邏輯迴歸模型的函數式,默認是y=1
,則y=0時,
我們可以這樣寫每個樣本隨機出現的概率函數:
剛好滿足,當y=1時
y=0時:
則樣本集概率:
每個樣本獨立同分布
這也是我們所說的似然函數
2,對數似然函數
我們對似然函數求極大值,取導數的時候太複雜了
我們對此兩邊取對數,變成連加的方式,這樣求最大值就容易許多,可以得到對數似然函數:
取導把連乘變成加和的形式,更容易求極值
對樣本觀測值
,選擇參數θ使得
求使得該樣本概率最大的θ值
則
稱為參數 θ的極大似然估計值,
注:我們可以取對數似然函數的負值作為邏輯迴歸的代價函數,再用梯度下降法求取模型參數
哎,數學公式太難寫了,手打的太累,只好去網上借些圖了,傷不起啊!