“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗

“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗

假設檢驗 ---- “湊巧”可以拒絕嗎?

【案例1】奶茶情緣

20世紀20年代初的一個午後, 三位科學家一邊曬在英格蘭午後的陽光一邊喝著下午茶。統計學家羅納德·費希爾(Ronald Fisher)倒了一杯奶茶端給了他的同事---穆麗爾·布里斯托(Muriel Bristol)。但她婉拒了這杯奶茶,因為她說先倒牛奶後倒茶的味道更好。

Fisher不相信。於是另外一個科學家威廉姆·洛奇(William Roach)建議大家做一個試驗:揹著Bristol倒一杯奶茶,然後讓她嘗,看看她能不能猜出倒奶和倒茶的順序。但是就算她說出正確答案,也不能說明什麼,因為至少也有50%的概率猜對。

“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗

Ronald Fisher in 1913 (圖自維基)

這是個浪漫的故事。Bristol和Roach 因為這杯奶茶相識、相愛。當然除了這段姻緣,這杯奶茶還成就了Fisher的假設檢驗的理論。

Fisher 在其《試驗設計》一書中寫道,他試圖駁斥這樣的假設:Bristol的選擇是隨機的。這就是零假設。

Fisher設計了一種可以反駁零假設的方法。他準備8杯茶,4杯先倒茶,4杯先倒奶。打亂順序後讓Bristol每次品嚐一杯,然後說出奶和茶倒入的順序。

“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗

Bristol輕鬆過關,正確地辨認出8杯奶茶中奶和茶的倒入順序。因為Fisher的試驗設計的非常隨機,8杯奶茶分成兩組的有

“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗

種可能性。她全部猜中的可能性是 1/70=0.014。

雖然這是個很小很小的概率,但依舊無法排除Bristol是“猜”出來的可能性。我們只能說,這種可能性非常小而已。

那究竟可有性為多少我們才可以拒絕“Bristol的選擇是隨機的”這樣的假設?

Fisher認為,基於零假設為真的前提,卻依舊觀測到這種結果的概率如果不到5%就可以拒絕零假設了。Bristol猜對的概率是1.4%,小於這個值,所以我們可以大膽地認為Bristol對奶茶有自己獨到犀利的味覺。

一杯奶茶,成就了一段浪漫的情緣,也成就了統計學的重要工具----假設檢驗。

【案例 2】咖啡新鮮嗎?

“咖啡(Coffee)“的名字最早來自埃塞俄比亞的一個名叫卡法(kaffa)的小鎮,是“力量與熱情”的意思。它與茶葉、可可並稱為世界三大飲料植物,受到全世界人民的普遍喜愛。

“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗

在中國,咖啡作為一個和“時尚”緊密相連的飲料受到越來越多年輕人的喜愛。咖啡的濃香伴隨著清晨的第一縷陽光把耳朵叫醒;緊張的工作時間,一杯咖啡迅速讓你“滿血復活”;和朋友小聚時,幾杯咖啡、一點蛋糕,分享著生活和幸福。

人們理應更喜歡新鮮磨製的咖啡(fresh coffee),因為它的口感更純正、香濃,喝過之後唇齒留香。但在這個“速溶”的時代,速溶咖啡(instant coffee)也因其便攜、快速的優點成為很多人的首選。在中國,有報道聲稱“速溶咖啡和現磨咖啡在市場上各佔據半壁江山”。某品牌現磨咖啡機在進駐中國市場之前,為了對中國消費者的喜好有一個更清楚的認識,特意做了一個試驗來驗證。

有100個人參與這項試驗,每個人都需要嘗兩杯沒有任何標記的咖啡,然後告訴工作人員他們更喜歡哪杯。事實上,這兩杯咖啡一杯是速溶的,一杯是新鮮磨製的。

這個試驗的統計量是樣本中更喜歡新鮮咖啡的比例 ^p。這個符號上的帽尖(Hat)代表這只是個從樣本中算出的估計值,並不是總體中的真實值。結果顯示,100人中有72人選擇了新鮮咖啡,也就是


“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗

這個試驗能夠提供多少有力證據來反駁報紙上的觀點呢?要想回答這個問題,就需要用到統計上的假設檢驗。

【知識點1】顯著性水平

零假設究竟有多不合理才可以將其推翻?可以推翻零假設的門檻通常是5%,用希臘字母

表示,意思是可以推翻一個成立的概率不足5%的零假設。這就是0.05的顯著性水平。當然,這個門檻還可以設為0.01和0.1。顯然0.01的顯著性水平比0.1的水平拒絕起來的難度更大,代表的統計學分量也更重。

這裡必須強調的是,這個顯著性水平是事先給定的。如果等數據出來再決定是用0.01,0.05還是0.1,就容易犯機會主義傾向的錯誤。

案例1中Fisher給出的顯著性水平是0.05,基於零假設為真的前提,如果依舊觀測到這種結果的概率如果不到5%,那麼就可以拒絕零假設,即拒絕Bristol是瞎猜猜對倒奶的順序。

【知識點2】p值

p值是零假設為真時,得到樣本所觀測到的結果或者更極端結果出現的概率。p值越小,由樣本數據所提供的拒絕零假設的證據就越強。

案例1中通過排列組合和試驗設計的原理,計算出的p值是0.014。案例2中的p值該如何計算呢?這裡需要用到正態分佈的理論,後面會詳細解釋。

究竟p值多少才可以拒絕零假設呢?對於這個問題,沒有個一個一成不變的標準,要看拒絕零假設的成本有多高。如果這個成本很昂貴,就需要很強的證據支持才能夠拒絕。

“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗

【知識點3】統計顯著

當由樣本中計算出來的p值小於事先設定的顯著性水平 α時,就可以說樣本數據在 α 的顯著性水平下是統計顯著的。

這裡必須強調的是,這個顯著性水平一定是預先設定的。為什麼呢?比如,得到數據後計算出p值是0.03,再反過頭來規定顯著性水平是0.05,我們就可以理所應當地拒絕零假設。但如果我們事先規定顯著性水平是0.01,那麼就不可以拒絕。如果顯著性水平是取得數據後再給定的,就能根據結果調整得到我們想要的結論,那麼就存在一定投機的可能性。

案例1中Fisher計算出的p值是0.014,小於預先設定的0.05的顯著性水平,說明統計顯著的結論,即根據樣本得出的結論可以拒絕零假設,進而認為Bristol真的能夠分辨出先倒奶還是先倒茶在味道上的區別。

【知識點4】統計顯著對比實際顯著

“統計顯著”是很多學術報告和商業報告中都會給出的結論,代表了從統計學的角度對事物的觀點。但事實上,存在一個誤區,即認為統計顯著的結果總是在總體中具有重大的實際意義。這是對統計這門學科“迷信”的一種表現。

當樣本很大時,許多效應即使差異不大,也會產生統計顯著的效果。得到統計顯著的結論其實不是一個終點,恰恰這是一個起點,它可以用來引發人們的思考,進而做深入的研究,即探尋事物的來龍去脈後再下定論,確定在實際中有沒有顯著效應。

【知識點5】假設檢驗 對比置信區間

假設檢驗是一種科學研究的重要手段,是人們更好探尋世間規律的方法。從某種程度上來說,假設檢驗不如置信區間提供的信息量大。在假設檢驗中,關注的焦點是某個參數的一個值,例如,在案例2中所關注的是人們偏愛新鮮咖啡的比例是不是50%。如果根據假設檢驗的結果拒絕了這個零假設,之後我們就不清楚它具體的值是多少了。

很多統計學者更偏愛置信區間。因為置信區間能夠提供一個估計範圍,而他們希望這個區間能夠包含這個總體真實值。

【知識點6】單側檢驗 對比雙側檢驗

案例2的樣本中偏愛新鮮咖啡的比例是

“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗

有兩種方法可以檢驗報道上的結論:總體中人們偏愛新鮮咖啡的比例究竟是不是50%?確切地說,有兩種備擇假設。

第一種:

“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗


第二種:

“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗


p是總體中所有喝咖啡的人當中偏好新鮮磨製咖啡的比例。第一種備擇假設是,總體中偏好新鮮咖啡的人不等於50%,這個比例可能更高也可能更低。第二種備擇假設是,偏愛新鮮咖啡的人的比例高於50%。選擇第一種備擇假設,我們就選擇了雙側檢驗;選擇了第二種,就選擇了單側檢驗。

在零假設為真的情況下,^p 近似服從正態分佈,它的均值和標準差分別為

“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗


不管做哪種選擇,首先要把樣本比例轉化成標準正態的z值:

“湊巧”可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗

現在的統計軟件很發達,任何軟件都可以求出p值。在第一種備擇假設下,也就是在雙側檢驗的情況下,我們基於z值求出的p值是 1.1×10^-5。而在單側檢驗下的p值為 5.4×10^-6。在事先設定的顯著性水平下,這兩種檢驗的原假設都會被拒絕。

根據理論或常識無法對估計係數的影響方向做出肯定的判斷,即有可能為正也有可能為負,故作雙側檢驗。而單側檢驗則相反,能夠依據常識或理論對估計係數的影響方向做明確的斷定,既要麼為正要麼為負。案例2中如果那個準備進入市場的某品牌現磨咖啡機項目調查人員認為人們理應更喜歡新鮮磨製的咖啡,那麼他們就需要直奔單側檢驗,這樣得到的結論更直接、有效。

理解假設檢驗就需要理解假設檢驗所隱含的如下兩個思維。

1)反證法思維

案例1中,假設零假設為真,即Bristol完全是瞎猜的前提條件下,那麼,“她全部猜對8杯奶茶的倒茶和倒奶的順序”就是一個非常規的事件,在大多數情況下不會發生,而現在竟然發生了,那麼就可以認為她是真的可以品嚐出倒奶還是先倒茶的區別。

案例2中,如果“人們對咖啡沒有偏好”的零假設為真,則樣本中有72%的人偏愛新鮮磨製咖啡就是一個本不應該發生卻發生了的非常規事件,因此就可以拒絕零假設。

2)小概率思維

上述所提到的非常規的事件,並不是邏輯學中的絕對不可能發生的事件,而是指統計學上指的小概率事件。小概率事件在一個樣本中往往是不太可能發生的。

案例1、案例2中樣本所觀測到的事件,在基於它們各自零假設為真的前提下,都是小概率事件,所以間接否定了它們的零假設。

上文節選自電子工業出版社《大數據時代下的統計學》(第二版), [遇見] 已獲授權, 特此感謝!


分享到:


相關文章: