正態分布的前世今生(2)-在機率論及數理統計的發展

19世紀初,隨著拉普拉斯中心極限定理的建立與高斯正態誤差理論的問世,正態分佈開始嶄露頭角,逐步在近代概率論和數理統計學中大放異彩。

在概率論中,由於拉普拉斯的推動,中心極限定理發展成為現代概率論的一塊基石。而在數理統計學中,在高斯的大力提倡之下,正態分佈開始逐步暢行於天下。

中心極限定理

先來說說正態分佈在概率論中的地位,這個主要是由於中心極限定理的影響。1776年,拉普拉斯開始考慮一個天文學中的彗星軌道的傾角的計算問題,最終的問題涉及獨立隨機變量求和的概率計算,也就是計算如下的概率值

正態分佈的前世今生(2)-在概率論及數理統計的發展

在這個問題的處理上,拉普拉斯充分展示了其深厚的數學分析功底和高超的概率計算技巧,他首次引入了特徵函數(也就是對概率密度函數做傅立葉變換)來處理概率分佈的神妙方法,而這一方法經過幾代概率學家的發展,在現代概率論裡面佔有極其重要的位置。基於這一分析方法,拉普拉斯通過近似計算,在他的1812年的名著《概率分析理論》中給出了中心極限定理的一般描述:

正態分佈的前世今生(2)-在概率論及數理統計的發展

多麼奇妙的性質,隨意的一個概率分佈中生成的隨機變量,在序列和(或者等價的求算術平均)的操作之下,表現出如此一致的行為,統一的規約到正態分佈。

正態分佈的前世今生(2)-在概率論及數理統計的發展

中心極限定理雖然表述形式簡潔,但是嚴格證明它卻非常困難。中心極限定理就像一張大蜘蛛網,棣莫弗和拉普拉斯編織了它的雛形,可是這張網上漏洞太多,一個多世紀來,數學家們就像蜘蛛一樣前赴後繼,努力想把所有的漏洞都補上。在十九世紀,珀松(Poission)、狄利克萊(Dirichlet)、柯西(Cauchy)、貝塞爾(Bessel)這些大蜘蛛都曾經試圖對把這張網上的漏洞補上。從現代概率論來看角度,整個十九世紀的經典概率理論並沒有能輸出一個一般意義下嚴格的證明。

而真正把漏洞補上的是來自俄羅斯的幾位蜘蛛俠:切比雪夫(Chebyshev)、馬爾可夫(Markov)和李雅普諾夫(Lyapunov)。俄羅斯是一個具有優秀的數學傳統的民族,產生過幾位頂尖的的數學家,在現代概率論的發展中,俄羅斯的聖彼得堡學派可以算是頂了半邊天。把漏洞補上的嚴格方案的雛形是從切比雪夫1887年的工作開始的,不過切比雪夫的證明存在一些漏洞。馬爾可夫和李雅普諾夫都是切比雪夫的學生,馬爾可夫沿著老師的基於矩法的思路在蜘蛛網上辛勤編織,但洞還是補得不夠嚴實;李雅普諾夫不像馬爾可夫那樣深受老師的影響,他沿著拉普拉斯當年提出的基於特徵函數的思路,於1901年給出了一個補洞的方法,切比雪夫對這個方法大加讚賞,李雅普諾夫的證明被認為是第一個在一般條件下的嚴格證明;而馬爾可夫也不甘示弱,在1913年基於矩法也把洞給補嚴實了。

正態分佈的前世今生(2)-在概率論及數理統計的發展

20世紀初期到中期,中心極限定理的研究幾乎吸引了所有的概率學家,這個定理儼然成為了概率論的明珠,成為了各大概率論武林高手華山論劍的場所。不知道大家對中心極限定理中的"中心"一詞如何理解,許多人都認為"中心"這個詞描述的是這個定理的行為:以正態分佈為中心。這個解釋看起來確實合情合理,不過並不符合該定理被冠名的歷史。事實上,20世紀初概率學家大都稱呼該定理為極限定理(Limit Theorem),由於該定理在概率論中處於如此重要的中心位置,如此之多的概率學武林高手為它魂牽夢繞,於是數學家波利亞(G.Polya)於1920年在該定理前面冠以"中心"一詞,由此後續人們都稱之為中心極限定理。

數學家們總是極其嚴謹苛刻的,在一個給定條件下嚴格證明了中心極限定理之後,數學家就開始探尋中心極限定理成立的各種條件,詢問這個條件是否充分必要條件,並且進一步追問序列和在該條件下以什麼樣的速度收斂到正態分佈。從1922年Lindeberg基於一個比較寬泛容易滿足的條件,給中心極限定理提出了一個很容易理解的初等證明。這個條件我們現在稱之為Lindeberg條件。然後概率學家費勒和列維就開始追問Lindeberg條件是充分必要的嗎?基於Lindeberg的工作,費勒和列維都於1935年獨立的得到了中心極限定理成立的充分必要條件,這個條件可以用直觀的非數學語言描述如下:

正態分佈的前世今生(2)-在概率論及數理統計的發展

正態分佈真是很奇妙,就像蚯蚓一樣具有再生的性質,你把它一刀兩斷,它生成兩個正態分佈;或者說正態分佈具有極其高貴的優良血統,正態分佈的組成成分中只能包含正態分佈,而不可能含有其它雜質。一流的數學家都是接近上帝的人,善於猜測上帝的意圖;1928年Levy就猜到了這個定理,並在1935年使用這個定理對中心極限定理的充分必要條件作了證明。有意思的是列維卻無法證明正態分佈的這個看上去極其簡單的再生性質,所以他的證明多少讓人覺得有些瑕疵。不過列維的救星很快就降臨了,1936年Cramer證明他的猜想完全正確。

中心極限定理成為了現代概率論中首屈一指的定理,事實上中心極限定理在現代概率論裡面已經不僅是指一個定理,而是指一系列相關的定理。統計學家們也基於該定理不斷地完善拉普拉斯提出的元誤差理論,並據此解釋為何世界上正態分佈如此常見。而中心極限定理同時成為了現代統計學中大樣本理論的基礎。

正態分佈進入近代統計學

由於高斯的工作,正態分佈在誤差分析中迅速確定了自己的地位。有了這麼好的工具,我們可能拍腦袋就認為,正態分佈很快就被人們用來分析其它的數據,然而事實卻出乎我們的意料,正態分佈進入社會領域和自然科學領域,可是經過一番周折的。

首先我要告訴大家一個事實:誤差分析和統計學是兩個風馬牛不相及的兩個學科;當然這個事實存在的時間是19世紀初之前。統計學的產生最初與"編制國情報告"有關,主要服務於政府部門。統計學面對的是統計數據,是對多個不同對象的測量;而誤差分析研究的是觀測數據,是對同一個對象的多次測量。因此觀測數據和統計數據在當時被認為兩種不同行為獲取得到的數據,適用於觀測數據的規律未必適用於統計數據。19世紀的統計數據分析處於一個很落後的狀態,和概率論沒有多少結合。而概率論的產生主要和賭博相關,發展過程中與誤差分析緊密聯繫,而與當時的統計學交集非常小。將統計學與概率論真正結合起來推動數理統計學發展的便是我們的統計學巨星凱特勒。

凱特勒這名字或許不如其它數學家那麼響亮,估計很多人不熟悉,所以有必要介紹一下。凱特勒是比利時人,數學博士畢業,年輕的時候曾追隨拉普拉斯學習過概率論。此人學識淵博,涉獵廣泛,腦門上的桂冠包括統計學家、數學家、天文學家、社會學家、國際統計會議之父、近代統計學之父、數理統計學派創始人。凱特勒的最大的貢獻就是將法國的古典概率引入統計學,用純數學的方法對社會現象進行研究。

1831年,凱特勒參與主持新建比利時統計總局的工作。他開始從事有關人口問題的統計學研究。在這種研究中,凱特勒發現,以往被人們認為雜亂無章的、偶然性佔統治地位的社會現象,如同自然現象一樣也具有一定的規律性。凱特勒蒐集了大量關於人體生理測量的數據,如體重、身高與胸圍等,並使用概率統計方法來對數據進行數據分析。但是當時的統計分析方法遭到了社會學家的質疑,社會學家們的反對意見主要在於:社會問題與科學實驗不同,其數據一般由觀察得到,無法控制且經常不瞭解其異質因素,這樣數據的同質性連帶其分析結果往往就有了問題,於是社會統計工作者就面臨一個如何判斷數據同質性的問題。凱特勒大膽地提出:

正態分佈的前世今生(2)-在概率論及數理統計的發展

凱特勒提出了一個使用正態曲線擬合數據的方法,並廣泛的使用正態分佈去擬合各種類型的數據。由此,凱特勒為正態分佈的應用拓展了廣闊的舞臺。正態分佈如同一把刀,在他的帶領下,學者們揮舞著這把寶刀在各個領域披荊斬棘,攻陷了人口、領土、政治、農業、工業、商業、道德等社會領域,並進一步攻佔天文學、數學、物理學、生物學、社會統計學及氣象學等自然科學領域。

當正態分佈與生物學聯姻時,近代統計學迎來了一次大發展。高爾頓是生物統計學派的奠基人,他的表哥達爾文的鉅著《物種起源》問世以後,觸動他用統計方法研究遺傳進化問題。受凱特勒的啟發,他對正態分佈懷有濃厚的興趣,開始使用正態分佈去擬合人的身高、胸圍、以至考試成績等各類數據,發現正態分佈擬合得非常好。他因此相信正態曲線是適用於無數情況的一般法則。

然而,對高爾頓而言,這個無處不在的正態性給他帶來一些困惑。他考察了親子兩代的身高數據,發現遵從同一的正態分佈,遺傳作為一個顯著因素是如何發揮作用的?1877年,高爾頓設計了一個叫高爾頓釘板(quincunx,或者Galton board)的裝置,模擬正態分佈的性質用於解釋遺傳現象

正態分佈的前世今生(2)-在概率論及數理統計的發展

正態分佈的前世今生(2)-在概率論及數理統計的發展

高爾頓利用這個裝置創造性的把正態分佈的性質用於解釋遺傳現象。他解釋說身高受到顯著因素和其它較小因素的影響,每個因素的影響可以表達為一個正態分佈。遺傳作為一個顯著因素,類似圖中底部大小不一的正態分佈中的比較大的正態分佈,而多個大小不一正態分佈累加之後其結果仍然得到一個正態分佈。

高爾頓在研究身高的遺傳效應的時候,同時發現一個奇特的現象:高個子父母的子女,其身高有低於其父母身高的趨勢,而矮個子父母的子女,其身高有高於其父母的趨勢,即有"迴歸"到普通人平均身高去的趨勢,這也是"迴歸"一詞最早的含義。高爾頓用二維正態分佈去擬合父代和子代身高的數據,同時引進了迴歸直線、相關係數的概念,從而開創了迴歸分析這門技術。

可以說,高爾頓是用統計方法研究生物學的第一人,他用實際行動開拓了凱特勒的思想;為數理統計學的產生奠定了基礎。無論是凱特勒還是高爾頓,他們的統計分析工作都是以正態分佈為中心的,在他們的影響下,正態分佈獲得了普遍認可和廣泛應用,甚至是被濫用,以至有些學者認為19世紀是正態分佈在統計學中佔統治地位的時代。


分享到:


相關文章: