假设检验之t检验

假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。

假设检验的基本原理

举个通俗的例子:你随手扔一个硬币,连仍10次,发现都是正面,这个时候我们开始怀疑这个硬币是不是有问题?

我们做一个假设H:这个硬币没有问题

那么每次出现正面的概率为0.5,10次都是正面的概率P=0.0009765<0.001,这是一个很小的概率,在一次实验中几乎不会出现,而现在出现了,只能说明原假设H不对,我们就应该拒绝这个原假设,认为这个硬币有问题。

又或者,你找工作的时候某一项技能填的是精通,人事满心欢喜的把你叫来面试,结果笔试题都做的一塌糊涂,那么此时面试官心理该怎么想?

我们做一个假设,你来之前,人事根据你简历所写 有一个初始判断H:你的技能没问题

但是笔试的十几个题都做的一塌糊涂,在你技能OK的前提下不应该出现这样的笔试结果啊,所以面试官就根据笔试断定你的简历上写的技能有误,你的技能并没有那么溜,这脸打的啪啪啪的。

当然你也可能说我这是发挥失常啊,但是比起你发挥失常,你的技能更值得怀疑。

假设检验的基本思想是小概率事件反证法。

但是又有问题了,如果说抛10次有9次或者8次正面,又该怎么判断呢,判断正确的概率有多少呢?费希尔据此提出一套可行的方法,形成了假设检验理论。常用的主要假设检验方法有t检验法、χ2检验法(卡方检验)、F-检验法

P值到底是什么?

P值方法是广泛使用的统计手段,做假设检验最常见的就是这个P值了,如果P值小于0.05则欢呼雀跃,大于0.05灰回头丧气,那么P值到底是什么能有这么大的魔力?

利用样本观测值能够做出拒绝原假设的最小显著性水平就是P值。

简单来说,就是上个例子中10次出现正面的概率就是P值!

P值就是原假设为真的概率?

当然不是,P值既不是原假设为真的概率也不是备则假设为假的概率,而是拒绝原假设的概率

P值都是用来拒绝原假设的,从来没有被证明可以用来接受某个假设。

通常假设检验中,小于0.05就是小概率事件。至于0.05是怎么定出来的,也没有什么高深的,英国著名的统计学家Ronald Fisher把1/20作为小概率标准,也就是0.05,从此0.05或者比0.05小就叫做小概率事件。Fisher没有任何高深的理由解释他为什么选择0.05,只是说他忽然想起来的。

看吧,看似复杂的统计学也有它好玩的地方。

第一类错误和第二类错误

我们通过某个网站上的一个略黄略暴力的故事来阐述一下

话说N年过去了,某位性别不明的地球统治者决定要消灭地球上的男人们。但是怎样找到地球上所有的男人并把他们都消灭呢?这位统治者开发出了一种自动判别武器——如果胸小于A罩杯,则杀无赦;如果等于或大于A罩杯,则放过。

绝大部分的男人都不带走一片云彩地离开了这个世界,而绝大部分女人都还在愉快地生活着,然而有些可怜的妹子因为胸太小被误杀,有些胸肌发达的男人却因为胸很大而活了下来。

在这里,武器的判别程序犯了两种错误:

  1. 把一小部分小胸女人当成了男人,也就是在原假设其实为真时错误地拒绝了它,这在统计学中被称为第一类错误,也就是拒真;
  2. 把一小撮大胸男人当成了女人,也就是在原假设其实为假时错误地接受了它,这在统计学中被称为第二类错误,也就是取伪。

通常用一对希腊字母⍺和β来代表犯第一类和第二类错误的概率。在这个故事里,⍺就是被错杀的女人在所有女人中的比例,而β则是被放过的男人在所有男人中的比例。

显然,这样的结果不是很令人满意,要是两种错误都少犯不就好了?就不能两种错误都少犯些吗!

还真不能!在样本给定的情况下⍺和β中一个减小必然会导致另一个增大,这不是偶然的,而是一般性 ,

就是说我们不能找到一个同时是⍺和β都小的检验。

既然我们不能同时控制⍺和β,只能采取折中的办法,通常的做法是仅限制犯第一类错误的概率,这就是费希尔的显著性检验!但是也不能让⍺太小,过小则会导致β过大,适当控制⍺来制约β。最常的选择是⍺=0.05

怎么样确定原假设?

可能又有人问了,例子中你为什么要把这个硬币没问题作为原假设?为什么不把硬币有问题作为原假设?

如果你把硬币有问题作为原假设,正反面出现的概率该如何判定?不好判定!

所以在假设检验中一般将不会被轻易否定的假设作为原假设。

正如硬币没问题一般不容易轻易被否定,毕竟遇到的假币的几率还是很小的!

为什么需要数据符合正态分布?

常见的t检验法、χ2检验法(卡方检验)、F-检验法的统计量主要来自于三大分布,F分布,t分布,卡方分布,而这三大分布都是脱胎于正态分布的。

T检验

T检验亦称学生检验主要用于样本含量较小(例如n<30),总体样本σ未知的正态分布。

t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著,就是对两样本均值差别的显著性进行检验。

单样本T检验

单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。

当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。

设x1, x2, …,xn,是来自N(μ,σ2)的样本,由于σ未知,使用样本标准差代替σ形成t检验统计量

假设检验之t检验

其中,s是样本标准差

一个例子:某工厂生产的某一种铝材的长度服从正态分布,其均值设定为240cm,现在抽取五件产品,测得其长度(单位:cm)239.7,239.6,239,240,239.2,以此判断该厂此种铝材的长度是否满足设定的要求。

检验假设H0:μ=240 VS H1: μ≠240

使用Python 进行T检验

假设检验之t检验

检验结果P<0.05,则拒绝原假设,可以断定这种铝材长度不符合要求

成对样本的t检验

如果我们要对两个总体平均值进行比较时,有时候样本数据可能是成对出现的,这时候就要成对样本的t检验,注意:两个样本中的每个数据都是对应的。其实我们可以把对应详见,就可以得到对应的样本差,就变成了一个样本,此时的原检验就变成了样本差的平均值是否等于零的单样本t检验了。先对两个成对样本进行 t 检验,再计算出变化量进行单样本t检验,得到的结果将是完全一样的。

成对样本的 t 检验最常见于同一组实验对象两个时间点(比如说干预前后)之间的比较。

除此以外,还有一种情形,就是两组实验对象虽然是不同的个体,但是存在其它的一些关联,使得两组中的个体能够一一对应起来。比如改进生产工艺生产出来的样品和以前的样品的参数比较等等,我们有了成对的样本,因此也可以使用成对样本的t检验。

例如:为了比较两种谷物种子的优劣,选取10块图纸不同的土地,并将每块土地分成相同的两部分,分别种下这两种种子,施肥和管理相同得到产量数据如下:

假设检验之t检验

假设产量服从正态分布,问两种种子的平均产量在显著性水平α=0.05上有没有显著差异?

Excel成对样本t检验结果,μ表示产量

假设:H0:μ1=μ2 VS H1:μ1≠μ2

假设检验之t检验

双尾P<0.05,拒绝原假设,则两个种子平均产量有显著差异,种子2要比种子1的单位产量要高

在正态分布下,差距d=μ1-μ2也符合正态分布,则可以转化为考察d是否为零的单样本T检验,假设:H0:d=0 VS H1:d≠0

Python进行单样本T检验

假设检验之t检验

结果和Excel做的成对样本T检验的双尾P值一样

独立样本t检验

由于我们是在比较两个样本,而这两个样本可能来源于两个不同的分布,因此在确定 t 统计量的时候,我们需要考虑两个样本所来自的分布是否有相同的方差,进而对 t 统计量以及有效的样本量(称为「自由度」)进行不同的处理或修正。

因此,在我们使用独立样本的 t 检验之前,需要先进行另外一个检验即检验两个样本的方差是否有显著性差异 ,这是选择何种T检验(等方差双样本检验,异方差双样本检验)的前提条件。

对于两个样本的方差是否相等,一个常用的检验是Levene 氏检验 (Levene's test)。这个检验的原假设是两个分布方差相等。与所有其它检验一样,它会给我们一个 p 值。当 p 值大于 0.05 时,我们就不能拒绝原假设,即认为两分布方差相等;反之则认为两分布方差不相等。

在不少统计学软件中,Levene 氏检验已经默认称为独立样本 t 检验的一个步骤。例如在 SPSS 里,当我们使用独立样本 t 检验时,它会自动给出 Levene 氏检验的结果,并同时输出方差相等和不相等的结果,我们只需根据 Levene 氏检验读取合适的部分即可。

如果使用spss做T检验,spss提供了方差相等或者不相等两种分析结果可供选择

等方差双样本T检验

一个例子:一个工厂铸造车间为了提高铸件的耐磨性而试制了一种镍合金铸件用来取代铜合金铸件,为此,从两种铸件中各抽取一个容量分别为8和9的样本,测试其硬度(耐磨指标)数据如下:

假设检验之t检验

根据专业经验,硬度服从正态分布,且方差保持不变,试问在显著性水平α=0.05下判断镍合金的硬度是否明显有提高?

检验假设:H0:μ1=μ2 VS H1:μ1> μ2

使用Excel进行双样本T检验

假设检验之t检验

使用Python 进行双样本T检验

假设检验之t检验

关于单侧检验和双侧检验

Python中的scipy.stats模块提供的test_1samp, ttest_ind, ttest_rel方法均进行双侧检验 ,

在Excel中双尾检验就是双侧检验,单尾就是单侧检验

单尾检验和双尾检验的区别在于他们拒绝H0的标准。单尾检验允许你在差异相对较小时拒绝H0,这个差异被规定了方向。另一方面,双尾检验需要相对较大的差异,这个差异不依赖于方向。

简单就是说备择假设中是单方向的(只有小于或大于),我们把这种情况称为单侧检验,备择假设中是双方向的(不如不等于,则有可能大于或小于),我们把这种情况称为单侧检验

由于 t 分布是对称的,因此对于同样的样本而言,双侧检验对应的 p 值将会是单侧检验的两倍。

所有的研究者都同意单尾检验与双尾检验不同。一些研究者认为,双尾检验更为严格,比单尾检验更令人信服。因为双尾检验要求更多的证据来拒绝H0,因此提供了更强的证据说明处理存在效应。另一些研究者倾向于使用单尾检验,因为它更为敏感,即在单尾检验中相对较小的处理效应也可能是显著的,但是,它可能不能达到双尾检验的显著性要求。那么我们是应该使用单尾检验还是双尾检验?通常,双尾检验被用于没有强烈方向性期望的实验研究中,或是存在两个可竞争的预测时。例如,当一种理论预测分数增加,而另一种理论预测分数减少时,应当使用双尾检验。应当使用单尾检验的情况包括在进行实验前已经有方向性预测,或强烈需要做出方向性预测时。

T分布发现的趣事

t检验是哥塞特为了观测酿酒质量而发明的。由于哥塞特接触的样本都甚少,甚至才几个,通过大量实验数据积累,哥塞特发现t=√N(X-µ)/s(X来自正态分布的样本,µ均值,s样本标准差)分布与传统的标准正态分布N(0,1)并不相同,尤其是尾部概率相差比较大。于是他道皮尔逊那里学了一年的统计学,着重研究少量数据的统计分析问题,最终发表了这个让他名垂史册的发现。

很多人可能会和我一样,好奇为什么t分布也叫学生t分布。实际上,学生是发现这个分布的数学家哥塞特(Gosset)的笔名,他于1908年在一个叫Biometrika的杂志上,发表了关于t分布的文章,当时就是用的这个笔名。为什么发文章要用笔名呢?(公司不允许员工公开发表研究成果),于是戈塞特才被迫用笔名发表了文章。t分布的发现在统计学史上具有划时代的意义,打破了正态分布一统天下的局面,开创了小样本统计推断的新纪元。后来费希尔在1922年给出了t分布的完整证明,并编制了t分布的分位表。

感受一下t分布:

假设检验之t检验


分享到:


相關文章: