正态分布的前世今生(2)-在概率论及数理统计的发展

19世纪初,随着拉普拉斯中心极限定理的建立与高斯正态误差理论的问世,正态分布开始崭露头角,逐步在近代概率论和数理统计学中大放异彩。

在概率论中,由于拉普拉斯的推动,中心极限定理发展成为现代概率论的一块基石。而在数理统计学中,在高斯的大力提倡之下,正态分布开始逐步畅行于天下。

中心极限定理

先来说说正态分布在概率论中的地位,这个主要是由于中心极限定理的影响。1776年,拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题,最终的问题涉及独立随机变量求和的概率计算,也就是计算如下的概率值

正态分布的前世今生(2)-在概率论及数理统计的发展

在这个问题的处理上,拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧,他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法,而这一方法经过几代概率学家的发展,在现代概率论里面占有极其重要的位置。基于这一分析方法,拉普拉斯通过近似计算,在他的1812年的名著《概率分析理论》中给出了中心极限定理的一般描述:

正态分布的前世今生(2)-在概率论及数理统计的发展

多么奇妙的性质,随意的一个概率分布中生成的随机变量,在序列和(或者等价的求算术平均)的操作之下,表现出如此一致的行为,统一的规约到正态分布。

正态分布的前世今生(2)-在概率论及数理统计的发展

中心极限定理虽然表述形式简洁,但是严格证明它却非常困难。中心极限定理就像一张大蜘蛛网,棣莫弗和拉普拉斯编织了它的雏形,可是这张网上漏洞太多,一个多世纪来,数学家们就像蜘蛛一样前赴后继,努力想把所有的漏洞都补上。在十九世纪,珀松(Poission)、狄利克莱(Dirichlet)、柯西(Cauchy)、贝塞尔(Bessel)这些大蜘蛛都曾经试图对把这张网上的漏洞补上。从现代概率论来看角度,整个十九世纪的经典概率理论并没有能输出一个一般意义下严格的证明。

而真正把漏洞补上的是来自俄罗斯的几位蜘蛛侠:切比雪夫(Chebyshev)、马尔可夫(Markov)和李雅普诺夫(Lyapunov)。俄罗斯是一个具有优秀的数学传统的民族,产生过几位顶尖的的数学家,在现代概率论的发展中,俄罗斯的圣彼得堡学派可以算是顶了半边天。把漏洞补上的严格方案的雏形是从切比雪夫1887年的工作开始的,不过切比雪夫的证明存在一些漏洞。马尔可夫和李雅普诺夫都是切比雪夫的学生,马尔可夫沿着老师的基于矩法的思路在蜘蛛网上辛勤编织,但洞还是补得不够严实;李雅普诺夫不像马尔可夫那样深受老师的影响,他沿着拉普拉斯当年提出的基于特征函数的思路,于1901年给出了一个补洞的方法,切比雪夫对这个方法大加赞赏,李雅普诺夫的证明被认为是第一个在一般条件下的严格证明;而马尔可夫也不甘示弱,在1913年基于矩法也把洞给补严实了。

正态分布的前世今生(2)-在概率论及数理统计的发展

20世纪初期到中期,中心极限定理的研究几乎吸引了所有的概率学家,这个定理俨然成为了概率论的明珠,成为了各大概率论武林高手华山论剑的场所。不知道大家对中心极限定理中的"中心"一词如何理解,许多人都认为"中心"这个词描述的是这个定理的行为:以正态分布为中心。这个解释看起来确实合情合理,不过并不符合该定理被冠名的历史。事实上,20世纪初概率学家大都称呼该定理为极限定理(Limit Theorem),由于该定理在概率论中处于如此重要的中心位置,如此之多的概率学武林高手为它魂牵梦绕,于是数学家波利亚(G.Polya)于1920年在该定理前面冠以"中心"一词,由此后续人们都称之为中心极限定理。

数学家们总是极其严谨苛刻的,在一个给定条件下严格证明了中心极限定理之后,数学家就开始探寻中心极限定理成立的各种条件,询问这个条件是否充分必要条件,并且进一步追问序列和在该条件下以什么样的速度收敛到正态分布。从1922年Lindeberg基于一个比较宽泛容易满足的条件,给中心极限定理提出了一个很容易理解的初等证明。这个条件我们现在称之为Lindeberg条件。然后概率学家费勒和列维就开始追问Lindeberg条件是充分必要的吗?基于Lindeberg的工作,费勒和列维都于1935年独立的得到了中心极限定理成立的充分必要条件,这个条件可以用直观的非数学语言描述如下:

正态分布的前世今生(2)-在概率论及数理统计的发展

正态分布真是很奇妙,就像蚯蚓一样具有再生的性质,你把它一刀两断,它生成两个正态分布;或者说正态分布具有极其高贵的优良血统,正态分布的组成成分中只能包含正态分布,而不可能含有其它杂质。一流的数学家都是接近上帝的人,善于猜测上帝的意图;1928年Levy就猜到了这个定理,并在1935年使用这个定理对中心极限定理的充分必要条件作了证明。有意思的是列维却无法证明正态分布的这个看上去极其简单的再生性质,所以他的证明多少让人觉得有些瑕疵。不过列维的救星很快就降临了,1936年Cramer证明他的猜想完全正确。

中心极限定理成为了现代概率论中首屈一指的定理,事实上中心极限定理在现代概率论里面已经不仅是指一个定理,而是指一系列相关的定理。统计学家们也基于该定理不断地完善拉普拉斯提出的元误差理论,并据此解释为何世界上正态分布如此常见。而中心极限定理同时成为了现代统计学中大样本理论的基础。

正态分布进入近代统计学

由于高斯的工作,正态分布在误差分析中迅速确定了自己的地位。有了这么好的工具,我们可能拍脑袋就认为,正态分布很快就被人们用来分析其它的数据,然而事实却出乎我们的意料,正态分布进入社会领域和自然科学领域,可是经过一番周折的。

首先我要告诉大家一个事实:误差分析和统计学是两个风马牛不相及的两个学科;当然这个事实存在的时间是19世纪初之前。统计学的产生最初与"编制国情报告"有关,主要服务于政府部门。统计学面对的是统计数据,是对多个不同对象的测量;而误差分析研究的是观测数据,是对同一个对象的多次测量。因此观测数据和统计数据在当时被认为两种不同行为获取得到的数据,适用于观测数据的规律未必适用于统计数据。19世纪的统计数据分析处于一个很落后的状态,和概率论没有多少结合。而概率论的产生主要和赌博相关,发展过程中与误差分析紧密联系,而与当时的统计学交集非常小。将统计学与概率论真正结合起来推动数理统计学发展的便是我们的统计学巨星凯特勒。

凯特勒这名字或许不如其它数学家那么响亮,估计很多人不熟悉,所以有必要介绍一下。凯特勒是比利时人,数学博士毕业,年轻的时候曾追随拉普拉斯学习过概率论。此人学识渊博,涉猎广泛,脑门上的桂冠包括统计学家、数学家、天文学家、社会学家、国际统计会议之父、近代统计学之父、数理统计学派创始人。凯特勒的最大的贡献就是将法国的古典概率引入统计学,用纯数学的方法对社会现象进行研究。

1831年,凯特勒参与主持新建比利时统计总局的工作。他开始从事有关人口问题的统计学研究。在这种研究中,凯特勒发现,以往被人们认为杂乱无章的、偶然性占统治地位的社会现象,如同自然现象一样也具有一定的规律性。凯特勒搜集了大量关于人体生理测量的数据,如体重、身高与胸围等,并使用概率统计方法来对数据进行数据分析。但是当时的统计分析方法遭到了社会学家的质疑,社会学家们的反对意见主要在于:社会问题与科学实验不同,其数据一般由观察得到,无法控制且经常不了解其异质因素,这样数据的同质性连带其分析结果往往就有了问题,于是社会统计工作者就面临一个如何判断数据同质性的问题。凯特勒大胆地提出:

正态分布的前世今生(2)-在概率论及数理统计的发展

凯特勒提出了一个使用正态曲线拟合数据的方法,并广泛的使用正态分布去拟合各种类型的数据。由此,凯特勒为正态分布的应用拓展了广阔的舞台。正态分布如同一把刀,在他的带领下,学者们挥舞着这把宝刀在各个领域披荆斩棘,攻陷了人口、领土、政治、农业、工业、商业、道德等社会领域,并进一步攻占天文学、数学、物理学、生物学、社会统计学及气象学等自然科学领域。

当正态分布与生物学联姻时,近代统计学迎来了一次大发展。高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著《物种起源》问世以后,触动他用统计方法研究遗传进化问题。受凯特勒的启发,他对正态分布怀有浓厚的兴趣,开始使用正态分布去拟合人的身高、胸围、以至考试成绩等各类数据,发现正态分布拟合得非常好。他因此相信正态曲线是适用于无数情况的一般法则。

然而,对高尔顿而言,这个无处不在的正态性给他带来一些困惑。他考察了亲子两代的身高数据,发现遵从同一的正态分布,遗传作为一个显著因素是如何发挥作用的?1877年,高尔顿设计了一个叫高尔顿钉板(quincunx,或者Galton board)的装置,模拟正态分布的性质用于解释遗传现象

正态分布的前世今生(2)-在概率论及数理统计的发展

正态分布的前世今生(2)-在概率论及数理统计的发展

高尔顿利用这个装置创造性的把正态分布的性质用于解释遗传现象。他解释说身高受到显著因素和其它较小因素的影响,每个因素的影响可以表达为一个正态分布。遗传作为一个显著因素,类似图中底部大小不一的正态分布中的比较大的正态分布,而多个大小不一正态分布累加之后其结果仍然得到一个正态分布。

高尔顿在研究身高的遗传效应的时候,同时发现一个奇特的现象:高个子父母的子女,其身高有低于其父母身高的趋势,而矮个子父母的子女,其身高有高于其父母的趋势,即有"回归"到普通人平均身高去的趋势,这也是"回归"一词最早的含义。高尔顿用二维正态分布去拟合父代和子代身高的数据,同时引进了回归直线、相关系数的概念,从而开创了回归分析这门技术。

可以说,高尔顿是用统计方法研究生物学的第一人,他用实际行动开拓了凯特勒的思想;为数理统计学的产生奠定了基础。无论是凯特勒还是高尔顿,他们的统计分析工作都是以正态分布为中心的,在他们的影响下,正态分布获得了普遍认可和广泛应用,甚至是被滥用,以至有些学者认为19世纪是正态分布在统计学中占统治地位的时代。


分享到:


相關文章: