01.07 人人都需要掌握的 5 個基本統計概念

在數據科學藝術的執行中,統計可以說是一個強大的工具。從高層次來看,統計學是利用數學對數據進行分析的學科。基本的可視化(柱狀圖等)會給受眾一些深層的信息,但通過統計,我們可以用一種更富有信息驅動力和更有針對性的方式對數據進行操作。統計中的數學可以幫助我們對數據形成具體的結論,而不僅僅是猜測。

通過統計,我們可以獲得更深入、更細緻入微的見解,能夠了解數據的確切結構,並在此基礎上了解如何應用其他數據科學技術來獲取更多信息。今天,我們來看看數據科學家需要掌握的5個基本統計概念及其應用。

統計特徵(Statistical Features)

統計特徵可能是數據科學中最常用的統計概念。它通常是你在研究數據集時使用的第一種統計技術,包括偏差(bias)、方差(variance)、平均值(mean)、中位數(median)、百分位數(percentiles)等。這很好理解,在代碼中也非常容易實現。下圖可以說明這些特徵。

人人都需要掌握的 5 個基本統計概念


一個基本的箱須圖(box- whisker-plot)

中間的那條線是數據的中位數(median),中位數比平均值(mean)更常用,因為它更不容易受到極端數值的影響。第一四分位數(first quartile,Q1)實際上是第25%的數,換句話說,是樣本所有數值由小到大排列後第25%的數字。第三四分位數(third quartile,Q3)是第75%的數,即樣本所有數值由小到大排列後第75%的數字。上限和下限即樣本數據非異常範圍內的最大值和最小值。第一四分位數和第三四分位數組成箱須圖中的箱子(box plot),第一四分位數-下限以及第三四分位數-上限連接的線段即須(whisker)

箱須圖完美地說明了我們可以用基本統計特徵得出什麼結論:

  • 當箱子較短時,意味著樣本的數據差別不大,因為在較小範圍裡有許多值。
  • 當箱子較長時,意味著樣本的數據差別很大,因為數據分散在較大範圍內。
  • 如果中位數接近箱子底部,那麼就意味著樣本中更多數據的數值較小,呈左偏態分佈;如果中位數接近箱子頂部,那麼就意味著樣本中更多數據的數值較大,呈右偏態分佈。基本上,如果中位數的那條線不在箱子中間,那麼就意味著數據分佈偏態。
  • “須”很長?這意味著你的樣本數據有較高的標準差和方差,換句話說,數據分佈分散。如果箱子一邊有很長的須,而另一邊較短,那麼你的數據可能只在一個方向上更為分散。

所有這些信息都來自於很容易計算的簡單統計特徵!當你需要快速獲取有意義的數據統計圖時,你可以試著畫箱須圖。

概率分佈(Probability Distributions)

概率能夠反映隨機事件出現的可能性大小。在數據科學中,概率通常被量化在0-1之間,概率為0意味著不可能事件(一定條件下必然不發生的事件),概率為1表示必然事件(一定條件下必然發生的事件)。概率分佈是一個函數,表示實驗中所有可能值的概率。下圖可以幫你理解概率分佈。

人人都需要掌握的 5 個基本統計概念


常見的概率分佈。

均勻分佈(左)、正態分佈(中)、泊松分佈(右)

  • 均勻分佈(Uniform Distribution)是3種概率分佈中最基本的一種。它在區間內只有一個值,也就是說在相同長度間隔的分佈概率是等可能的,範圍之外的概率都是0。相當於一個“開或關”的分佈。我們也可以把它看作是一個有兩個類別的分類變量:0或者那個一定的值。你的分類變量可能有多個值,不僅僅是0,但我們可以把它看作多重均勻分佈的分段函數。
  • 正態分佈(Normal distribution),又稱高斯分佈(Gaussian Distribution),由其平均值和標準差定義。正態分佈的對稱軸是樣本平均值,隨著樣本平均值的變化在座標軸上左右移動,標準差描述了正態分佈的離散程度(即數據是廣泛分佈還是高度集中)。它由平均數所在處開始,分別向左右兩側逐漸均勻下降。與其他分佈(如泊松分佈)相比,正態分佈的標準偏差在所有方向上都是相同的。因此,通過正態分佈,我們就可以清楚知道樣本的平均值和離散程度。
  • 泊松分佈(Poisson Distribution)和正態分佈相似,但多了偏斜率。如果偏度值非常小,那麼泊松分佈在各個方向上的分佈就和正態分佈相似,相對均勻。但當偏度值很大時,數據在不同方向上的分佈就不同:在一個方向上,它將非常分散;而在另一個方向上,它將高度集中。泊松分佈很適合描述單位時間內隨機事件發生的次數。

還得說一句題外話,除了上述三種分佈之外,還有其他非常多的概率分佈,你都可以深入研究,但這三種分佈已經給我們提供了相當多的價值。我們可以用均勻分佈快速查看和解釋分類變量。如果看到高斯分佈,那我們知道有許許多多算法,它們在默認情況下都會執行地非常優異,我們應該選擇它們。對於泊松分佈,我們發現必須謹慎地選擇一種算法,它擁有足夠的魯棒性應對時空的變量。

維數約簡(Dimensionality Reduction)

維數約簡這個術語很好理解:有一個數據集,我們想減少它的維度數量。在數據科學中,這個數量是特徵變量的數量。維數約簡的意義就是降低原來的維數,並保證原數據庫的完整性,在約簡後的空間中執行後續程序將大大減少運算量,提高數據挖掘效率,且挖掘出來的結果與原有數據集所獲得結果基本一致。更廣泛的說就是防止了維數災難的發生。看下圖獲得更詳細的解釋:

人人都需要掌握的 5 個基本統計概念


維數約簡

立方體代表我們的樣本數據集,它有三個維度,共1000個點。以現有的計算能力,1000個點很容易就能處理,但處理更大範圍的數據還是會遇到問題。然而,僅僅從二維的角度來看數據集,比如從立方體的一側來看,我們可以看到區分所有的顏色還是很容易的。通過維數約簡,我們可以將三維數據投射(project)到二維平面上。這把我們需要計算的點數減少到100,有效地節約了大量的計算時間。

另一種維數約簡的方式是特徵修剪(feature pruning)。利用特徵修剪,我們基本可以刪去對我們的分析不重要的特徵。例如,研究一個數據集之後,我們可能發現該數據集有10個特徵,其中,有7個特徵與輸出有很高的相關性,而其餘3個相關性不高。那麼這3個低相關性特徵可能就不值得計算了,我們可以在不影響輸出的情況下從分析中刪掉它們。

最常用的維數約簡方法是主成分分析(PCA),本質上是創建新的向量,這些向量可以儘可能多地反映原始變量的信息特徵(即它們的相關性)。PCA可用於上述兩種維數約簡方式。在這個教程中可以獲得更多相關信息。

過採樣和欠採樣(Over and Under Sampling)

過採樣和欠採樣是用於分類問題的統計技術。有時,分類數據集可能過於偏向於一邊。例如,類別1有2000個樣本,類別2只有200個。我們能夠用來建模、預測的許多機器學習技術都沒法用了!但是,過採樣和欠採樣可以解決這個問題。請看這張圖:

人人都需要掌握的 5 個基本統計概念


欠採樣(左)和過採樣(右)

上圖裡,兩張數據圖中藍色類別的樣本比橙色多多了。在這種情況下,我們有兩個預處理選項,可以幫助訓練我們的機器學習模型。

欠採樣意味著我們從多數類中選擇一些數據,只使用和少數類數量一致的樣本。這種選擇不是隨便挑選的,而是要保證類的概率分佈不變。這很容易!我們選取少量樣本,使樣本數據集更加均勻。

過採樣意味著創建少數類樣本的副本,使少數類與多數類擁有數量一致的樣本。副本創建需要保證少數類的概率分佈不變。我們不需要收集更多的樣本就能使樣本數據集更加均勻。

貝葉斯統計(Bayesian Statistics)

想要完全理解為什麼我們要用貝葉斯統計,首先需要理解頻率統計(Frequency Statistics)的缺陷。頻率統計是大多數人聽到“概率”一次時首先會想到的一種統計類型,頻率統計檢測一個事件(或者假設)是否發生,它通過長時間的試驗計算某個事件發生的可能性(試驗是在同等條件下進行的),唯一計算的數據是先驗數據(prior data)。

人人都需要掌握的 5 個基本統計概念


可以看這個例子。假如我給你一個骰子,問你擲出6的幾率是多少。大多數人會說是1/6。確實如此,如果做頻率分析,某人拋擲骰子10000次,計算每個數字出現的頻率,那麼我們可以看到結果每個數字出現的頻率大約是1/6。

但如果有人告訴你,給你的骰子不那麼規整,總是6朝上呢?由於頻率分析只考慮了之前的數據,上述分析中,骰子不規整的因素沒有被考慮進去。

而貝葉斯統計就考慮了這一點。我們可以用下圖的貝葉斯法則(Baye’s Theoram)來說明:

人人都需要掌握的 5 個基本統計概念


貝葉斯法則

方程中,H代表一個事件,E代表另一個,P即某事件發生的概率。

P(H)即先驗概率,基本上就是數據分析的結果,即之前事件H發生的概率。

P(E|H)被稱作相似度,指假設事件H成立時,事件E發生的概率。

P(E)指事件E成立的先驗概率,也被稱作標準化常量。

P(H|E)即後驗概率,指E發生後,發生H的概率。

例如,如果你想投擲骰子10000次,前1000次全擲出的是6,你很懷疑骰子不規整了。如果我告訴你骰子確實不規整,你是相信我,還是認為這是個騙局呢?

如果頻率分析沒有什麼缺陷,那麼我們會比較自信地認定接下來的投擲出現6的概率仍是1/6。而如果骰子確實不規整,或是不基於其自身的先驗概率及頻率分析,我們在預測接下來數字出現的概率時,就必須要考慮到骰子的因素。當我們不能準確知悉一個事物的本質時,可以依靠與事物特定本質相關的事件出現的多少去判斷其本質屬性的概率。正如你從方程式中能能看到的,貝葉斯統計把所有因素都考慮在內了。當你覺得之前的數據不能很好地代表未來數據和結果的時候,就應該使用貝葉斯統計。


分享到:


相關文章: