樣本方差與總體方差

一、方差(variance):衡量隨機變量或一組數據時離散程度的度量。

概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。

統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。

概率論中的方差表示方法 :

樣本方差,無偏估計、無偏方差(unbiased variance)。對於一組隨機變量,從中隨機抽取N個 樣本,這組樣本的方差就 是Xi^2平方和除以N-1。

樣本方差與總體方差

總體方差,也叫做有偏估計,其實就是我們從初高中就學到的那個標準定義的方差,除數是N。

樣本方差與總體方差

統計中的方差表示方法 :

樣本方差與總體方差

樣本方差與總體方差

二、為什麼樣本方差的分母是n-1?為什麼它又叫做無偏估計?

簡單的回答,是因為因為均值你已經用了n個數的平均來做估計在求方差時,只有(n-1)個數和均值信息是不相關的。

而你的第n個數已經可以由前(n-1)個數和均值來唯一確定,實際上沒有信息量。所以在計算方差時,只除以(n-1)。

那麼更嚴格的證明呢?

樣本方差計算公式裡分母為n-1的目的是為了讓方差的估計是無偏的。

無偏的估計(unbiased estimator)比有偏估計(biased estimator)更好是符合直覺的,儘管有的統計學家認為讓mean square error即MSE最小才更有意義,這個問題我們不在這裡探討;

不符合直覺的是,為什麼分母必須得是n-1而不是n才能使得該估計無偏。

首先,我們假定隨機變量的數學期望是已知的,然而方差未知。在這個條件下,根據方差的定義我們有


樣本方差與總體方差

由此可得


樣本方差與總體方差

這個結果符合直覺,並且在數學上也是顯而易見的。

現在,我們考慮隨機變量


樣本方差與總體方差


樣本方差與總體方差


樣本方差與總體方差

三、理論推導

為了方便敘述,在這裡說明好數學符號:

樣本方差與總體方差

前面說過樣本方差之所以要除以(n-1)是因為這樣的方差估計量才是關於總體方差的無偏估計量。在公式上來講的話就是樣本方差的估計量的期望要等於總體方差。如下:

樣本方差與總體方差

但是沒有修正的方差公式,它的期望是不等於總體方差的

樣本方差與總體方差

也就是說,樣本方差估計量如果是用沒有修正的方差公式來估計總計方差的話是有偏差的

下面給出比較好理解的公式推導過程:

樣本方差與總體方差

也就是說,除非

樣本方差與總體方差

否則一定會有

樣本方差與總體方差

需要注意的是不等式右邊的才是的對方差的“正確”估計,但是我們是不知道真正的總體均值是多少的,只能通過樣本的均值來代替總體的均值。

所以樣本方差估計量如果是用沒有修正的方差公式來估計總計方差的話是會有偏差,是會低估了總體的樣本方差的。為了能無偏差的估計總體方差,所以要對方差計算公式進行修正,修正公式如下:

樣本方差與總體方差

這種修正後的估計量將是總體方差的無偏估計量,下面將會給出這種修正的一個來源;

為了能搞懂這種修正是怎麼來的,首先我們得有下面幾個等式:

1.方差計算公式:

樣本方差與總體方差

2. 均值的均值、方差計算公式:

樣本方差與總體方差

對於沒有修正的方差計算公式我們有:

樣本方差與總體方差

因為:

樣本方差與總體方差

所以有:

樣本方差與總體方差

在這裡如果想修正的方差公式,讓修正後的方差公式求出的方差的期望為總體方差的話就需要在沒有修正的方差公式前面加上來進行修正,即:

樣本方差與總體方差

所以就會有這樣的修正公式:

樣本方差與總體方差

而我們看到的都是修正後的最終結果:

樣本方差與總體方差

這就解釋了為什麼要對方差計算公式進行修正,且為什麼要這樣修正。

上面的解釋如果有什麼錯誤,或者有哪些解釋不正確的地方歡迎大家指正。謝謝大家。希望能對大家有點幫助。


分享到:


相關文章: