数据分析界的AK47——正态分布

引言

数学之美在于公式之美、形态之美。公式之美在于简洁之美、和谐之美、秩序之美;形态之美在于对称之美、平衡之美。如果从数学世界进行选美,那么正态分布绝对算得上是其中之一。

数据分析界的AK47——正态分布

正态分布的公式非常具有数学美感,一个公式中包含了数学界2个重要的常量π和е,这是正态分布的和谐之美;从复杂的自然界中抽象出世界的规律,从混沌中找出秩序,这是正态分布的秩序之美。

数据分析界的AK47——正态分布

对称是美学的基本法则之一,正态分布的曲线是一个对称的钟形曲线, 中间达到峰值,首尾分别向无穷远处延伸开去,有起有落,这是自然界的平衡之美。

正态分布简介

正态分布又叫高斯分布,是统计学中一个非常核心的概率分布模型,是自然界最常见的一种分布,婴儿出生时的体重服从正态分布、人类的IQ服从正态分布、人类的身高服从正态分布、穿的鞋码服从正态分布等等。

数据分析界的AK47——正态分布

数据分析界的AK47——正态分布

数据分析界的AK47——正态分布

数据分析界的AK47——正态分布

正态分布在生活中如此常见,你是否会觉得正态分布是根据经验总结出来的呢?No,正态分布可不是简单的经验总结,而是经过严谨的数学论证得出来的。

历史上概率论的诞生和发展非常有趣,概率论一开始诞生于赌桌上,是为了解决如何公平的为赌徒们分配赌金问题。而当时也没有所谓的数学家,数学家这个称谓是后来发展出数学这个学科后,给那些在数学领域有一定建树的人的。当时研究数学的人要么是一些神父或者法官这样有正当职业的人,要么是一些公爵或权贵人物有稳定经济来源的人,当时研究数学并不是为了找工作和赚钱,而是一种兴趣爱好,或者是为了获得一种能够了解自然掌握自然规律的优越感。

数据分析界的AK47——正态分布

亚伯拉罕·棣莫弗

而第一次发现正态分布的人是法国数学家亚伯拉罕·棣莫弗,棣莫弗是个数学天才,他跟牛顿是好朋友。棣莫弗第一次将正态分布的的密度函数以数学的形式推导展现给世人,后来经过拉普拉斯的完善,形成了我们今天看到的棣莫弗—拉普拉斯中心极限定理

数据分析界的AK47——正态分布

你会发现我们熟悉的正态分布的密度函数就在公式中,这就是数学的严谨之美和逻辑之美。

中心极限定理告诉我们:对于给定的一个未知分布的数据集,其样本均值将近似于正态分布。

数据分析界的AK47——正态分布

但是中心极限定理需要满足3个条件:

  1. 样本必须是随机抽样;
  2. 样本必须相互独立;
  3. 样本数量必须足够大。

实际上,中心极限定理解答了我们的另外一个问题:正态分布为什么如此常见?自然界中只要是满足上述3个条件的样本,其样本均值最终都会符合正态分布。

数据分析界的AK47——正态分布

约翰·卡尔·弗里德里希·高斯

话说回来,为什么正态分布又叫高斯分布而不叫棣莫弗分布呢?是因为棣莫弗在当时并不是个统计学家,对自己的推导公式并没有从统计学的角度去加以应用,导致其成果在当时并没有引起足够重视。70多年后,高斯在研究测量误差时又推导出了正态分布,并将正态分布和最小二乘法联系在一起,并在统计误差分析中确立了自己的定位,使得正态分布发扬光大,让更多的人知道了正态分布的强大魅力。

为了纪念伟大的高斯,德国10元马克纸币的正面印有高斯和正态分布,可谓是“数”中自有黄金屋。


数据分析界的AK47——正态分布

数据分析界的AK47——正态分布

历史上第一个演示正态分布产生过程的是一个生物学家叫高尔顿,他为了解释生物学遗传现象,设计了一个叫高尔顿钉板的装置,模拟了正态分布的生成过程和性质。

数据分析界的AK47——正态分布

正态分布的性质

数据分析界的AK47——正态分布

正态分布有2个重要的参数:

数据分析界的AK47——正态分布

正态分布曲线围绕均值对称。而且,均值、中位数和众数都相同。

对方差进行开方就是标准差:

数据分析界的AK47——正态分布

正态分布的标准差控制分布范围。从标准差的定义我们可以直观的感受到,标准差越小,意味着数据整体越接近均值,所以分布曲线越瘦、越陡;标准差越大,意味着数据与均值相差较大,所以分布曲线越胖、越平坦。根据经验,大约68.27%的数据落在均值的一个标准偏差之内;95.45%的数据落在在均值的两个标准差之内;99.73%的数据落在均值的三个标准差之内。

数据分析界的AK47——正态分布

正态分布的另一个重要特性时非常“瓷实”,对正态分布的运算始终保持正态形状,例如:

  • 两个正态分布的乘积是正态分布
  • 两个正态分布的和是正态分布
  • 两个正态分布的卷积是正态分布
  • 正态分布的傅立叶变换还是正态的

真可谓是:任尔东南西北风,我自岿然不动。

奥卡姆剃刀强调一个哲学原理,既在其他条件相同的情况下,越简单的解既是较好的解。正态分布整体上简洁美观,只需要均值和方差2个参数即可确定整个分布,其特性相当稳定,如同一把AK47,集美学与实用性于一体,最重要的是非常稳定。

标准正态分布

当均值为0,标准差为1时,正态分布称为标准正态分布。对于任何的正态分布我们可以通过以下公式将其转换为标准正态分布:

数据分析界的AK47——正态分布


数据分析界的AK47——正态分布

为了更好的理解将正态分布转换为标准正态分布的重要性,我们举个例子:假设小明同学数学考了65分,小强同学英语考了80分,那么谁在本次考试中考的更好一点呢?初看这个问题,可能觉得这是没有任何比较意义的,因为这是2门不同的学科成绩,但是如果告诉你全班数学的平均分是60,标准差是4,全班英语平均分是79,标准差2,我们就可以计算出2个同学的考试成绩在全班是什么程度。

数据分析界的AK47——正态分布

数据分析界的AK47——正态分布

数据分析界的AK47——正态分布

所以,小明的成绩比平均分高1.25个标准差,而小强只高0.5个标准差,所以小明的表现更好一点。

分布的正态性检验

尽管中心极限定理告诉了我们正态分布存在的普遍性,但是现实往往是我们获取的数据样本表现出了偏斜,主要原因是数据样本量不够。检验正态分布可以通过以下几种方法。

  • 直方图
    1. 直方图能够显示连续区间内数据的分布情况;
    2. 直方图中的每个条形表示数值范围频率;
    3. 直方图的高度表示每个数值出现的频率。

    我们还是以考试成绩来举例说明:

    <code>import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    
    df = pd.read_csv('E:\Marks.csv')
    df.hist(bins = 10, figsize = (20,15))
    plt.show()/<code>
    数据分析界的AK47——正态分布

    可以看出数学成绩遵循正态分布,英语和历史分别是右偏和左偏分布。

    • KDE图

    如果设置不同数量的数值宽度范围或者只是更改数值范围的起始值和结束值,直方图可能会有很大的变化。为了解决这个问题,我们可以利用密度函数。密度图是根据数据估计的直方图的平滑连续版本。最常见的估计形式是核密度估计(KDE)。KDE将每个单独的数据点绘制一条连续曲线(核),然后将所有这些曲线加在一起,实现单次平滑密度估计。

    <code>%matplotlib inline
    import numpy as np 
    import seaborn as sns
    
    sns.kdeplot(math)/<code>
    数据分析界的AK47——正态分布


    数据分析界的AK47——正态分布

    数据分析界的AK47——正态分布

    • Q_Q图

    Q_Q图是一种散点图,正态分布的Q_Q 图以标准正态分布的分位数为横坐标,以样本值为纵坐标。用Q_Q图检验样本是否服从正态分布,只需看Q_Q图上的点是否近似地在一条直线,如果是直线说明样本服从正态分布,并且直线的斜率标准差,截距均值

    <code>import pandas as pd
    from scipy import stats
    from matplotlib import pyplot as plt
    import seaborn as sns
    
    data = pd.read_csv('E:\Marks.csv')
    math = data['Maths_Marks']
    english = data['English_Marks']
    history =  data['History_Marks']
    
    stats.probplot(history,dist="norm", plot=plt)
    plt.show()/<code>
    数据分析界的AK47——正态分布

    数据分析界的AK47——正态分布

    数据分析界的AK47——正态分布

    由图中可以看出数学成绩服从正态分布;英语成绩较大的值比正态分布的期望值要大,较小的值也比正态分布的期望值大,这与英语成绩的右偏分布一致;历史成绩较大的值比正态分布的期望值小,较小的值也比正态分布的期望值小,这与历史成绩的左偏分布一致。

    3个科目成绩分布如下图所示。

    数据分析界的AK47——正态分布

    总结

    正态分布是自然界最普遍的分布,统计学中的许多分布都是基于正态分布演变而来,正态分布由于其普适性和简洁性,在统计学中处于至关重要的地位,学好正态分布对于学习数据科学和统计学是必要条件。


    分享到:


    相關文章: