算法數學基礎-統計的基本概念教育頭條網

算法數學基礎-統計的基本概念

這章開始我們開始介紹數理統計的內容。概率論是研究的工具，那麼數理統計就是研究的方法。大學裡面概率論和統計是一門課，當時其實根本沒有學明白，稀裡糊塗。現在來理解就是研究的工具和方法的關係，而研究的對象隨機現象。在概率論中，我們都假設某個隨機變量的分佈是已知的，告知了我們一些性質。而數理統計將帶來更多的未知，要解決概率論中那些個前提假設如何來的問題，教會我們如何從大量的數據中找到規律、做出推斷，是更有用的部分。比如，我們從數據中發現可能一個隨機現象可以用正態分佈來描述，那麼這種感覺或者判斷在我們不瞭解全部信息的情況下是否正確呢？這就需要用到統計學的方法，求得模型的參數、為判斷提供依據，告訴我們如何從觀察中得到規律！個人覺得學習知識脈絡是最重要的，理清楚脈絡才能融會貫通，運用自如。

我們先梳理一下統計的基本概念：

1、總體：試驗的全部可能的觀察值；（是不是樣本空間呢？）

2、個體：每一個可能的觀察值；（是不是樣本點？）

3、容量：總體中包含的個體個數；容量有限的稱為有限容量總體，無限容量的稱為無限總體。例如投擲硬幣，就是一個有限總體，而測量湖水深度就是一個無限總體。（連續隨機變量是有限總體麼？）擔但這個劃分也不是絕對的，如果一個很大的量我們也可以將其近似看成無限的，比如測量全國人民身高14億人就可以近似看成無限總體。

通過上述定義就可以將現實中的樣本與概率中的概念聯繫起來了。總體對應著就是我們的樣本空間，個體的觀察值（每一次試驗結果)對應樣本空間的樣本點，我們可以用一個隨機變量來對應這個樣本空間，通過研究隨機變量的分佈函數和數字特徵來研究總體的特點和規律。是不是很順啊！通過幾個定義，從概率論的概念對應到了實際問題。這個就叫建模！把身邊的事情用數學模型來描述，是很爽的一件事，如果模型建對了你就可以解釋現象、預測未來了，哈哈哈哈。

舉個例子吧，比如我們生產了一批零件，這批零件就是一個總體，有合格的也有不合格的。如果我要了解這批零件的合格率但又不能全部每一個都測量一遍，我們就可以用一個隨機變量X來對應（X代表這個零件的合格率），模型就建完了。接下來我們可以研究X的分佈函數、數字特徵了。如何研究呢？不知大家有沒有想起大數定律，如果有那麼說明你前面的內容掌握的不錯了。我們可以採用抽樣幾批求平均的方法，通過小樣本的研究來近似總體的特徵。這個就是統計學的方法了。

因為總體的分佈通常是未知的，一般都是通過抽樣的方法來獲得總體特徵進行推斷。所以抽樣概念及方法自然而然就需要提煉出來了。

4、樣本：從總體抽取一部分數據對總體進行推斷，被抽出的部分個體叫做樣本；

5、簡單隨機樣本：在相同條件在對總體進行n次抽樣並記錄觀察值，每一次觀察值都是獨立的，而且與總體有相同的分佈函數，則稱為容量為n的簡單隨機樣本。也就是一個簡單隨機樣本包括了n個觀察值。比如我想考察北京市的人均收入，那簡單隨機樣本應該怎麼選呢？我就不能過多的考慮差異，按地區抽樣是比較合理的，因為不同人們的地域分佈可以假設是均勻的，高低收入人群的分是類似的。（可能例子不是太恰當，但是大家理解意思就好了），就是要求抽樣的前提一致，樣本之間無關聯。這樣我們就可以簡單求得總體分佈（X1,X2,X3)=F(X1)*F(X2)...F(Xn)-假設樣本無關，所以從獨立性的定義出發聯合分佈的概率等於概率之積，即從樣本的分佈得到了總體的分佈。這是從部分感知總體的方法，但是約束也是很清晰的就是部分之間沒有聯繫！

6、統計數據的圖形表示：直方圖、箱線圖。直方圖就不解釋了，就是將統計數據用曲線的形式表示出來，有很多例子比如圖像處理中的灰度圖就是典型的直方圖，橫座標是灰度縱座標是點數，這種直方圖外部輪廓線從大數定律的角度出發接近於總體的概率密度函數。另外一種圖要多說兩句，叫箱線圖。箱線圖就是把數據分佈表示在圖上的一種方法，非常有利於比較不同組數據之間的差異。分位點就是數據集的劃分，通常有第一分位點、第三分位點，通俗理解就是將數據排序後得到的最大、最小、1/4大、1/2大、3/4大以及每個區間的數據個數用圖像表示出來。這樣不光可以看到數據的個數，還可以知道數據按一個直觀分佈情況。同時箱線圖還可以排除測試中的異常數值。箱線圖特別適合用於不同組之間的數據比較。如下圖，中間的黑線就是中位數，我們可以看到這些房價的總體是平穩的，99年的房價5萬元以下的比較集中，而2003年的房價6-10萬這個區間分佈比較集中（此例為示意，勿當真）。大家可以感受一下，箱線圖中表達的信息還是非常豐富的。