直觀、形象、動態,一文了解無處不在的標準差

選自 Fahd Alhazmi's Blog

機器之心編譯

參與:魔王、杜偉

本文將對標準差這一概念提供直觀的視覺解釋。


直觀、形象、動態,一文了解無處不在的標準差

本文作者為紐約市立大學在讀博士生 Fahd Alhazmi,專注於神經科學、人工智能和人類行為研究。

統計學中最核心的概念之一是:標準差及其與其他統計量(如方差和均值)之間的關係。入門課程中老師常告訴學生「記住公式就行」,但這並非解釋概念的最佳方式。本文將對標準差這一概念提供直觀的視覺解釋。

假設你有一個成績單,在本案例中這即是現實測量(real-world measurements)。我們想將這些測量中的信息「壓縮」為一組量,以便後續對比不同班級的成績或不同年份的成績等。鑑於認知能力有限,我們不想挨個查看分數,來找出平均分更高的班級。這時就需要總結數字,描述統計學就派上用場了。

總結數字的方式有兩種:量化其相似性或差異(difference)。

  • 量化數字的相似性即「集中趨勢量數」(measures of central tendency),包括平均數、中位數和眾數;
  • 量化數字的差異即「差異量數」(measures of variability),包括方差和標準差。

標準差揭示一組數字中彼此之間的差異,以及數字與平均值之間的差異。

舉例而言,假設你收集了一些學生分數(出於簡潔性考慮,我們假設這些分數是總體)。

直觀、形象、動態,一文了解無處不在的標準差

我們首先在簡單的散點圖中繪製這些數字:

直觀、形象、動態,一文了解無處不在的標準差

繪製完成後,計算差異的第一步是找出這些數字的中心,即平均值。

直觀、形象、動態,一文了解無處不在的標準差

視覺上,我們可以繪製一條線來表示平均分數。

直觀、形象、動態,一文了解無處不在的標準差

接下來我們要計算每個點和平均值之間的距離,並對得到的數值求平方。記住,我們的目標是計算數字之間的差異,以及數字與平均值之間的差異。我們可以用數學或視圖的方式完成該操作:

直觀、形象、動態,一文了解無處不在的標準差

從上圖中我們可以看到,「求平方」只不過是畫了一個方框而已。這裡有兩點需要注意:我們無法計算所有差異的總和。因為一些差異是正值,一些是負值,求和會使正負抵消得到 0。為此,我們對差異取平方(稍後我會解釋為什麼取平方而不是其他運算,如取絕對值)。

現在,我們來計算差異平方的總和(即平方和):

直觀、形象、動態,一文了解無處不在的標準差

通過計算平方和,我們高效計算出這些分數的總變異(即差異)。理解變異(variability)與差異(difference)之間的關係是理解多個統計估計和推斷檢驗的關鍵。上圖中平方和 67.5 表示,如果我們將所有方框堆在一個巨大的正方形中,則大正方形的面積等於 67.5 points^2,points 指分數的單位。任意測量集的總變異都是正方形的面積。

方差

現在我們得到了總變異(即大正方形的面積),但我們真正想要的是平均變異(mean variability)。要想求得平均變異,我們只需要用總面積除以方框的數量:

直觀、形象、動態,一文了解無處不在的標準差

直觀、形象、動態,一文了解無處不在的標準差

出於實用目的考慮,你或許想除以 N−1,而不是 N,這樣你就可以嘗試基於一個樣本而不是總體來估計平均變異。但是,這裡假設我們已經具備總體(total population)。重點在於,你想計算所有小方框的均方值。這就是「方差」,即平均變異,或者差異平方的平均值(mean squared difference)。

標準差

我們為什麼不用方差來表示分數的差異呢?唯一的問題是,我們無法對比方差和原始分數,因為方差是「平方」值,即它是面積而非長度。其單位是 points^2,與原始分數的單位 points 不同。那麼如何甩掉平方呢?開平方根啊!

直觀、形象、動態,一文了解無處不在的標準差

最後,我們終於得到了標準差:變異的平方根,即 2.91points。

這就是標準差的核心理念。本文對標準差概念的基礎直觀解釋可以幫助大家更容易地理解,為什麼在處理 z 分數(z-score)、正態分佈、標準誤差和方差分析時要使用標準差的單位。

此外,如果你用標準差公式中的擬合線 Y 替代平均值,則你在處理的是基礎迴歸項,如均方誤差(不開根號的話)、均方根誤差(開根號,但是和擬合線相關)。相關和迴歸公式均可使用不同量的平方和(或總變異區域)來寫。分割平方和是理解機器學習中的泛化線性模型和偏差-方差權衡的關鍵概念。

簡而言之:標準差無處不在。

絕對值的問題

你可能會疑惑,為什麼對差異求平方而不是取絕對值呢。沒有什麼能夠真正阻止你使用差異的平均絕對值。平均絕對值給所有差異提供的是相同的權重,而差異平方為距離平均值較遠的數字提供更多權重。

這或許是你想要的。但是,大部分數學理論利用差異平方(其原因不在本文討論範圍內,如可微分)。

不過,我會用一個容易理解的反例來回答這個問題。假設有兩個均值相同的分數集合:x_1 和 x_2:

直觀、形象、動態,一文了解無處不在的標準差

從這些數字中,你可以輕鬆觀察到 x_1 的變異和數值分散性比 x_2 低。我們來計算兩個集合差異的平均絕對值(二者的平均值都為 6):

直觀、形象、動態,一文了解無處不在的標準差

哦,結果並不好!兩個集合的變異值相同,儘管我們能夠看到 x_1 的數字差異要比 x_2 低。現在,我們使用差異平方計算,得到:

直觀、形象、動態,一文了解無處不在的標準差

在差異平方的作用下,我們得到了想要的結果:當數字越分散時,標準差越大。

原文鏈接:http://falhazmi.com/blog/a-visual-interpretation-of-the-standard-deviation/


分享到:


相關文章: