算法數學基礎-統計學習你應該知道的參數估計概念

我們知道隨機事件通過隨機變量數學化,而隨機變量特徵由分佈律或分佈概率密度函數來表徵(離散型隨機變量對應分佈律,連續型隨機變量對應概率密度函數)。但往往我們對總體的分佈一無所知,需要通過實驗數據展現出來的特徵來推測概率模型及模型的參數。統計推斷有兩類問題,一類叫點估計,一類叫區間估計。從名字上直觀就可以理解,點估計是估計參數的具體值,區間估計不光給出值還要給出估計值的可信範圍!這裡先介紹點估計。

1、點估計:比如我猜到了某個實驗的結果數據看上去是一個標準的高斯曲線,但是高斯分佈中的均值和方差不知道。這時候怎麼辦呢?點估計就是告訴你怎麼去猜這個均值和方差。為什麼用猜呢?因為得到的是一個近似值。點估計有個前提,就是分佈函數的形式是已知的,分佈函數中的參數未知。例如:假設已知分佈為高斯分佈,我們要估計高斯分佈模型中的均值和方差怎麼估計呢?是不是直接想到了用樣本值的均值、方差作為參數的近似。想到用樣本的均值和方差就叫估計量,是不是思想超級簡單?用帶參數的分佈函數作為模型,用實驗的樣本數據作為求得近似解,聯立方程組求解未知數,剩下的工作就簡單了。點估計中常用的兩個方法一個是矩估計,一個是最大似然估計(這個名字搞得好像很高大上,其實非常簡單的思想)。

1.1 矩估計:矩估計的方法的理論依據是,分佈律與分佈函數樣本的前K階矩依概率收於總體矩。就是說我可以用樣本的矩的值來估計總體矩的值。總體矩可以從概念出發表示成為參數方程組的形式,有多少個參數就列多少個等式。比如有兩個參數就是一階矩和二階矩的方程組,每個方程左邊是從概率形式推導出來的含參數的表達式,方程右邊是從樣本數據求的具體的值,多少個參數就有多少個方程,所以就可以解方程組得到參數的值!!

1.2 最大似然估計:首先整個方法是針對離散型隨機變量適用的,常見的離散型隨機變量的分佈大家還記得麼?(0-1分佈,二項分佈,泊松分佈)如何估計這些分佈的參數呢。一個樸素的想法就是找到一組參數去擬合我現在的數據,類似曲線擬合的想法,固定樣本不動。將樣本出現的概率表示為f1*f2*...fn(參數1,...,參數n)的形式,fn的形式是已知的,樣本之間符合獨立性假設,這樣問題就變換為求這個乘積最大的參數組合。這種形式求最大,可以藉助微分學中求最大值的問題了,導數為零。但往往乘積的形式可以通過對數函數變換為和的形式得到(對數形式也叫對數似然方程),看具體的分佈函數的形式。如果未知的參數有多個,則變成了分別對參數求偏導數,得到的似然方程組。最大似然法最重要的就是列出最大似然函數,最大似然函數是從假設已知的帶參數的分佈律或概率密度函數出發的,做一系列等價變換後的最終形式,然後基於這個最終形式求出關心的參數。(這個東西機器學習裡面經常出現,建議可以多花點時間理解)

目前參數估計的最基本的兩種方法就如上兩種,用這個方法有個前提就是我們已經大概猜出來了分佈律或者概率密度函數的形式,矩估計適用的範圍更廣一些,而最大似然估計是針對離散型隨機變量而言。一個有趣的結論,最大似然估計的不變性:如果x的函數y=f(x)有單值反函數,則隨機變量函數的最大似然估計就是將X的最大似然估計代入直接求。

1.3 估計量評估:上面是求出估計量的一些方法,那麼用這些方法求出來的參數怎麼評價其近似的效果呢?有三個標準來衡量:

1.3.1、無偏性:就用實際值與理論值進行比較,如果實際值與理論值一致就稱為無偏。誤差是由估計方法產生的可以看成為系統誤差,所以這個可以用來評估估計量有效性,從系統論的角度看一個無偏的估計就是沒有系統誤差的估計。

1.3.2、有效性:如果找到了兩個無偏估計量,那麼如何比較它們的優劣呢?有效性就是比較兩個無偏估計量的方差,因為方差反映了數據的集中程度,方差越小集中度越高說明質量越好!

1.3.3、相合性:當樣本量增加的時候,參數估計量的值應趨近於真實值。

2、區間估計

區間估計稍微複雜一點,就是實際工作中我們不光要做出預測,還需要知道預測的可信度。這時候光點估計就不夠了,需要用到區間估計的方法。比如,我要知道明天下不下雨,天氣預報不光會給出一個預測說明天下雨,而且要告訴大家下雨的概率是90%還是50%(哈哈哈,50%的預測會讓人無所適從)。首先看幾個概念:

置信區間:這個用氣溫預測來比方是比較合適,比如天氣預報會說預計明天氣溫是27-30℃,其實隱藏了一個結論就是說溫度在這個區間的可信度為95%(不然也不會報哦),也排除意外不過概率很小。這種預測不會上來說明天氣溫25℃(不能是一個點),這就是一個標準的區間預測(這就是區間預測的名字由來吧)。其中那個27度叫置信下限,30稱為置信上限,而(1-95%)稱為置信水平。有上下限的稱為雙側置信區間,只有一邊的稱為單側置信區間。(數學之所以大家覺得難,就是近代中國對數學的原創貢獻太少了,外國人命名的這些概念總是對我們記憶那麼不友好,缺乏直觀,所以中國的數學家還要加油!)

這個的求解就超級簡單了,我們一般會規定可信度,比如我們要求預測一個區間保證準確率在90%以上,這樣的話我們就可以根據之前將的各種分佈分位點查表求得置信區間了!所以,置信區間是一個反向求解的過程,而且往往都是查表求出來的。基本流程是,找出隨機變量的一個無偏估計量,然後依據置信水平的要求查表,最後得到置信區間。所以整個過程是反的,大家可以自己體會一下與點估計有什麼不同。

我們求出的置信區間是不是唯一的呢?置信區間最後對應到概率上,我們就知道是不唯一的。想象概率密度函數對應了一條曲線,曲線下的面積對應概率,那麼滿足概率相同(面積相等)的區間肯定不是唯一的。如何解決這個問題呢,又引入了一個樞軸量的概念,就要找到一個估計量讓它不依賴未知參數,從而得到一個確定的置信區間,這個估計量就是樞軸量。

算法數學基礎-統計學習你應該知道的參數估計概念


分享到:


相關文章: