“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验

“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验

假设检验 ---- “凑巧”可以拒绝吗?

【案例1】奶茶情缘

20世纪20年代初的一个午后, 三位科学家一边晒在英格兰午后的阳光一边喝着下午茶。统计学家罗纳德·费希尔(Ronald Fisher)倒了一杯奶茶端给了他的同事---穆丽尔·布里斯托(Muriel Bristol)。但她婉拒了这杯奶茶,因为她说先倒牛奶后倒茶的味道更好。

Fisher不相信。于是另外一个科学家威廉姆·洛奇(William Roach)建议大家做一个试验:背着Bristol倒一杯奶茶,然后让她尝,看看她能不能猜出倒奶和倒茶的顺序。但是就算她说出正确答案,也不能说明什么,因为至少也有50%的概率猜对。

“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验

Ronald Fisher in 1913 (图自维基)

这是个浪漫的故事。Bristol和Roach 因为这杯奶茶相识、相爱。当然除了这段姻缘,这杯奶茶还成就了Fisher的假设检验的理论。

Fisher 在其《试验设计》一书中写道,他试图驳斥这样的假设:Bristol的选择是随机的。这就是零假设。

Fisher设计了一种可以反驳零假设的方法。他准备8杯茶,4杯先倒茶,4杯先倒奶。打乱顺序后让Bristol每次品尝一杯,然后说出奶和茶倒入的顺序。

“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验

Bristol轻松过关,正确地辨认出8杯奶茶中奶和茶的倒入顺序。因为Fisher的试验设计的非常随机,8杯奶茶分成两组的有

“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验

种可能性。她全部猜中的可能性是 1/70=0.014。

虽然这是个很小很小的概率,但依旧无法排除Bristol是“猜”出来的可能性。我们只能说,这种可能性非常小而已。

那究竟可有性为多少我们才可以拒绝“Bristol的选择是随机的”这样的假设?

Fisher认为,基于零假设为真的前提,却依旧观测到这种结果的概率如果不到5%就可以拒绝零假设了。Bristol猜对的概率是1.4%,小于这个值,所以我们可以大胆地认为Bristol对奶茶有自己独到犀利的味觉。

一杯奶茶,成就了一段浪漫的情缘,也成就了统计学的重要工具----假设检验。

【案例 2】咖啡新鲜吗?

“咖啡(Coffee)“的名字最早来自埃塞俄比亚的一个名叫卡法(kaffa)的小镇,是“力量与热情”的意思。它与茶叶、可可并称为世界三大饮料植物,受到全世界人民的普遍喜爱。

“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验

在中国,咖啡作为一个和“时尚”紧密相连的饮料受到越来越多年轻人的喜爱。咖啡的浓香伴随着清晨的第一缕阳光把耳朵叫醒;紧张的工作时间,一杯咖啡迅速让你“满血复活”;和朋友小聚时,几杯咖啡、一点蛋糕,分享着生活和幸福。

人们理应更喜欢新鲜磨制的咖啡(fresh coffee),因为它的口感更纯正、香浓,喝过之后唇齿留香。但在这个“速溶”的时代,速溶咖啡(instant coffee)也因其便携、快速的优点成为很多人的首选。在中国,有报道声称“速溶咖啡和现磨咖啡在市场上各占据半壁江山”。某品牌现磨咖啡机在进驻中国市场之前,为了对中国消费者的喜好有一个更清楚的认识,特意做了一个试验来验证。

有100个人参与这项试验,每个人都需要尝两杯没有任何标记的咖啡,然后告诉工作人员他们更喜欢哪杯。事实上,这两杯咖啡一杯是速溶的,一杯是新鲜磨制的。

这个试验的统计量是样本中更喜欢新鲜咖啡的比例 ^p。这个符号上的帽尖(Hat)代表这只是个从样本中算出的估计值,并不是总体中的真实值。结果显示,100人中有72人选择了新鲜咖啡,也就是


“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验

这个试验能够提供多少有力证据来反驳报纸上的观点呢?要想回答这个问题,就需要用到统计上的假设检验。

【知识点1】显著性水平

零假设究竟有多不合理才可以将其推翻?可以推翻零假设的门槛通常是5%,用希腊字母

表示,意思是可以推翻一个成立的概率不足5%的零假设。这就是0.05的显著性水平。当然,这个门槛还可以设为0.01和0.1。显然0.01的显著性水平比0.1的水平拒绝起来的难度更大,代表的统计学分量也更重。

这里必须强调的是,这个显著性水平是事先给定的。如果等数据出来再决定是用0.01,0.05还是0.1,就容易犯机会主义倾向的错误。

案例1中Fisher给出的显著性水平是0.05,基于零假设为真的前提,如果依旧观测到这种结果的概率如果不到5%,那么就可以拒绝零假设,即拒绝Bristol是瞎猜猜对倒奶的顺序。

【知识点2】p值

p值是零假设为真时,得到样本所观测到的结果或者更极端结果出现的概率。p值越小,由样本数据所提供的拒绝零假设的证据就越强。

案例1中通过排列组合和试验设计的原理,计算出的p值是0.014。案例2中的p值该如何计算呢?这里需要用到正态分布的理论,后面会详细解释。

究竟p值多少才可以拒绝零假设呢?对于这个问题,没有个一个一成不变的标准,要看拒绝零假设的成本有多高。如果这个成本很昂贵,就需要很强的证据支持才能够拒绝。

“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验

【知识点3】统计显著

当由样本中计算出来的p值小于事先设定的显著性水平 α时,就可以说样本数据在 α 的显著性水平下是统计显著的。

这里必须强调的是,这个显著性水平一定是预先设定的。为什么呢?比如,得到数据后计算出p值是0.03,再反过头来规定显著性水平是0.05,我们就可以理所应当地拒绝零假设。但如果我们事先规定显著性水平是0.01,那么就不可以拒绝。如果显著性水平是取得数据后再给定的,就能根据结果调整得到我们想要的结论,那么就存在一定投机的可能性。

案例1中Fisher计算出的p值是0.014,小于预先设定的0.05的显著性水平,说明统计显著的结论,即根据样本得出的结论可以拒绝零假设,进而认为Bristol真的能够分辨出先倒奶还是先倒茶在味道上的区别。

【知识点4】统计显著对比实际显著

“统计显著”是很多学术报告和商业报告中都会给出的结论,代表了从统计学的角度对事物的观点。但事实上,存在一个误区,即认为统计显著的结果总是在总体中具有重大的实际意义。这是对统计这门学科“迷信”的一种表现。

当样本很大时,许多效应即使差异不大,也会产生统计显著的效果。得到统计显著的结论其实不是一个终点,恰恰这是一个起点,它可以用来引发人们的思考,进而做深入的研究,即探寻事物的来龙去脉后再下定论,确定在实际中有没有显著效应。

【知识点5】假设检验 对比置信区间

假设检验是一种科学研究的重要手段,是人们更好探寻世间规律的方法。从某种程度上来说,假设检验不如置信区间提供的信息量大。在假设检验中,关注的焦点是某个参数的一个值,例如,在案例2中所关注的是人们偏爱新鲜咖啡的比例是不是50%。如果根据假设检验的结果拒绝了这个零假设,之后我们就不清楚它具体的值是多少了。

很多统计学者更偏爱置信区间。因为置信区间能够提供一个估计范围,而他们希望这个区间能够包含这个总体真实值。

【知识点6】单侧检验 对比双侧检验

案例2的样本中偏爱新鲜咖啡的比例是

“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验

有两种方法可以检验报道上的结论:总体中人们偏爱新鲜咖啡的比例究竟是不是50%?确切地说,有两种备择假设。

第一种:

“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验


第二种:

“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验


p是总体中所有喝咖啡的人当中偏好新鲜磨制咖啡的比例。第一种备择假设是,总体中偏好新鲜咖啡的人不等于50%,这个比例可能更高也可能更低。第二种备择假设是,偏爱新鲜咖啡的人的比例高于50%。选择第一种备择假设,我们就选择了双侧检验;选择了第二种,就选择了单侧检验。

在零假设为真的情况下,^p 近似服从正态分布,它的均值和标准差分别为

“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验


不管做哪种选择,首先要把样本比例转化成标准正态的z值:

“凑巧”可以拒绝吗?统计学里的最重要工具之一:假设检验

现在的统计软件很发达,任何软件都可以求出p值。在第一种备择假设下,也就是在双侧检验的情况下,我们基于z值求出的p值是 1.1×10^-5。而在单侧检验下的p值为 5.4×10^-6。在事先设定的显著性水平下,这两种检验的原假设都会被拒绝。

根据理论或常识无法对估计系数的影响方向做出肯定的判断,即有可能为正也有可能为负,故作双侧检验。而单侧检验则相反,能够依据常识或理论对估计系数的影响方向做明确的断定,既要么为正要么为负。案例2中如果那个准备进入市场的某品牌现磨咖啡机项目调查人员认为人们理应更喜欢新鲜磨制的咖啡,那么他们就需要直奔单侧检验,这样得到的结论更直接、有效。

理解假设检验就需要理解假设检验所隐含的如下两个思维。

1)反证法思维

案例1中,假设零假设为真,即Bristol完全是瞎猜的前提条件下,那么,“她全部猜对8杯奶茶的倒茶和倒奶的顺序”就是一个非常规的事件,在大多数情况下不会发生,而现在竟然发生了,那么就可以认为她是真的可以品尝出倒奶还是先倒茶的区别。

案例2中,如果“人们对咖啡没有偏好”的零假设为真,则样本中有72%的人偏爱新鲜磨制咖啡就是一个本不应该发生却发生了的非常规事件,因此就可以拒绝零假设。

2)小概率思维

上述所提到的非常规的事件,并不是逻辑学中的绝对不可能发生的事件,而是指统计学上指的小概率事件。小概率事件在一个样本中往往是不太可能发生的。

案例1、案例2中样本所观测到的事件,在基于它们各自零假设为真的前提下,都是小概率事件,所以间接否定了它们的零假设。

上文节选自电子工业出版社《大数据时代下的统计学》(第二版), [遇见] 已获授权, 特此感谢!


分享到:


相關文章: