純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

導 讀

也不知道P值是招誰惹誰了,反正大家都喜歡拿他開刷!老早就有一篇爭議挺大的公眾號文章說「P值已死」,立馬就有人反駁「別鬧了,P值沒死」。其實, Nature雜誌在14年2月份時就刊發了一篇文章,對統計效度的金標準「P值」提出了質疑,認為P值並沒有統計學家所認為的那樣可信。

我們暫且把這個問題擱置一下,替P值君問一句:「為什麼受傷的總是我呀?是我是我還是我」真要說起個問題,咱們得從統計學的框架說起。

現代統計學的框架

現代統計學兩分天下:一分統計描述,一分統計推斷

統計書上經常這樣表述:

統計描述和統計推斷是現代統計學的兩個組成部分,兩者相輔相成、缺一不可,統計描述是現代統計學的基礎和前提,統計推斷是現代統計學的核心和關鍵。

純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

統計描述就是給數據拍張快照唄,看看他們長什麼樣子。我們熟知的均數、中位數就是用來看他們扎堆的位置,紮在什麼地方;標準差、四分位數間距等就是用來看他們扎堆的程度,扎得有多緊。當然我們也可以用直方圖,箱線圖,散點圖等統計圖形來更為形象直觀的查看。

統計推斷是用我們手中的樣本數據來推斷其背後的總體特徵。

統計推斷裡有兩大塊內容:參數估計和假設檢驗。

參數估計

就是我們用樣本的統計量(如樣本均數)去估計總體的參數(如總體均數)。此時,我們可以有兩種策略:一種是簡單了事,直接把樣本統計量當做總體參數,這就是所謂的點估計;另外一種策略就是考慮到抽樣誤差,我們用一個範圍,而不是一個單一的值去估計總體參數,此即所謂的區間估計。而假設檢驗則是利用小概率反正法思想,從問題的對立面(H0,原假設)出發,假定H0成立的條件下,去計算檢驗統計量,獲得P值,再通過P值來在H0,H1(備擇假設)之間做進一步取捨。

純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

既然統計推斷是現代統計學的核心和關鍵,看到這裡,你也能體會到作為假設檢驗的黃金判定標準的P值,在統計學中的地位啦。那具體而言,什麼是P值呢?

P值和假設檢驗

什麼是P值呢?按照頻率學派的經典套路:

  • 敷衍的人會告訴你:「P值啊,就是P Value,Probability Value,就是概率啊」聽完我們想揍死他,你還別笑,有些統計培訓班還真這麼講的
  • 老實本分的老師會告訴你: 「P值啊,就是在H0為真的條件下,獲得當前樣本或者更偏的樣本的概率」。聽完我們很迷茫啊,看著我們迷茫的眼神,老師無奈的寫下「P=Prob(X|H0)」,我們只好無奈且善意的點點頭
  • 少有的明白人會告訴你:「P值啊,就是在H0為真時,觀察到的差異來源於抽樣誤差的可能性大小」

P值就是在H0為真時,觀察到的差異來源於抽樣誤差的可能性大小。聽完這個解釋,或許我們眼前能閃現一絲靈光。我們以正態分佈的Z檢驗為例簡要說明下,不知道不理解為什麼那麼多的統計教材竟然要以t檢驗為例來講假設檢驗。如果你被他們毒害了,不知道什麼是Z檢驗,請看如下公式:

純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

看不懂?不著急。一步一步來。依據「P值就是在H0為真時,觀察到的差異來源於抽樣誤差的可能性的大小」這一定義,我們假定H0為真,也就是假定樣本均數「X Bar」(即X頭上抬根槓,微信編輯器什麼時候能插入公式啊,只好擬音啦) 就等於總體均數「miu」(擬音),但是實際上,我們利用手中的樣本數據計算的均數 「X Bar」和總體均數「miu」總是有差異的,這個差異就是公式中的分子,但是這個差異缺乏一個統一的度量,於是 我們除以一個 總體的變異幅度(暫且用標準誤代替,也就是上圖中的分母), 這樣就得到一個以總體變異幅度來度量的差異,也就是說這個差異是多個標準誤,或者說差了多少個標準誤的距離,這個就是我們所說的統計量,Z值。現在在看看Z檢驗的公式,是否好容易理解多了? 統計量Z值其實就是樣本均數和總體均數相差的,以標準誤度量的單位量。

純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

那麼P值呢?別急。每一個Z值可以對應到一個相應的P值,比如,Z=1.96表示 差了1.96倍標準誤的距離,對應的P 值就是0.05。

純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

但是不同的分佈,統計量不同,因此難以標化統一,不過P 值卻可以,而且在實際操作中,由於計算機統計軟件包的發展,P值也很容易獲得。 獲得P值後,比如,比如啊,P=0.003,我們可以回過頭來想:既然我們已經假定H0為真了,也就是(「X Bar」-「miu」)應該沒有差異了,但是現在還有Z倍標準誤的差異啊! 那現在這個差異是哪裡來的呢?只有一個可能的原因:抽樣誤差。但是現在可以歸因於抽樣誤差的概率很小,只有0.003啊(統計軟件計算結果),0.003的概率,1000次也才3次,竟然一次就讓我們趕上了,這不太可能吧?是的,確實不太可能。那我們就只能回過頭來懷疑我們的根基,我們的原假設H0錯了,因此我們否定H0, 接受H1。

純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

這才是我們的假設檢驗。這才是我們的P值。既然P值是假定H0為真的條件下,我們所觀察到的差異來源於抽樣誤差的概率。這很容易讓我們想到,如果H0真的為真,我們因P值<=0.05而拒絕了真實的H0時,我們會犯下I類錯誤,也就是棄真錯誤,也即假陽性,這是這個錯誤的概率是不是就是P呀?「就是啊」,一些統計培訓師就是這麼認為的。若果你認真問起來,他們或許就含含糊糊,說不清了。

I類錯誤的概率是不是P值呢?To P or not to P, that's a question。 要說起清楚這個問題,還得勞神費心談談假設檢驗的前世今生。

其實,「前世今生」系列的文章我已經看到過好幾篇了,比如「正太分佈的前世今生」、「Meta分析的前世今生」。不知為何,我個人也很喜歡「前世今生」這個詞。今天呢,就聊一聊我知道的一點「假設檢驗的前世今生」吧。

假設檢驗是統計學裡最重要、最基礎的的概念,即便是不知道,不瞭解這個術語,與統計學毫不相干的人,在日常生活中,也不知不覺地應用了假設檢驗。比如,我們在街上水果攤閒逛買橘子。

甜的時候,我們的思維過程:

純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

不甜的時候,我們的思維過程:

純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

當然,以上只是個簡單類比,不必細究。不過,相比一些翻譯教材喜歡用老外的「法官定罪」的例子來說,這個場景應該更容易為國人所理解。

現行的假設檢驗,叫原假設顯著性檢驗( Null Hypothesis Significance Testing,NHST)。其基本思路和框架在現行的統計教材中論述較多,在此僅簡要概括:

  1. 建立假設,確定檢驗水平。假設包括兩種,一種稱為原假設、無效假設、零假設(Null Hypothesis,H0);另一種稱為備則假設(Alternative hypothesis, H1),H1是H0的對立面。原假設H0通常是「別擔心,啥事也沒有」,比如沒有差異,沒有療效等。H1 則是「有情況,要留意啊」,比如有差異,有療效。檢驗水平alpha,又稱顯著性水平,這個是預先規定遊戲標杆,通常為0.05。
  2. 計算檢驗統計量,計算P值。我們認為手頭已有的數據是從H0 為真的總體中的一個抽樣,但是這個可能性是多少?這需要計算評估。如何計算評估呢?我們可以計算檢驗統計量,不過不同的問題,計算的檢驗統計量不同,如Z值,t值,F值,X2值,這樣豈不是比較亂?是的,所以把那些統計量統統對應到P值,統一用P值來解決。
  3. 做出統計推斷結論。比較P值及alpha值,如果 P<=alpha, 拒絕H0,差異顯著,有統計學意義;反之,如果P>alpha, 不拒絕H0,差異不顯著,無統計學意義。
純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

不太想了解假設檢驗的具體流程和細節的,只要記住一條簡單粗暴的黃金口訣:If P is low, H0 must go!

純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

以上這一套流程,看起來好像是流暢統一的整體,然而,統計教材沒有說明的是,這其實是一道大拌菜,是統計學家Karl Pearson的「擬合優度檢驗」,Ronald A Fisher的 「顯著性檢驗 」和 Jerzy Neyman,Egon Pearson的N-P「假設檢驗」的大雜燴。

故事的關鍵點大概是這樣的:

Karl Pearson的「擬合優度檢驗」

部分文獻以為P值是Fisher發明的,但其實最先提出P值的是Karl Pearson。Karl Pearson在其1900年的論文中提出了擬合優度的卡方檢驗,這其中就包括P值。但是給出了P值的在各種情形下的計算方法的卻是Karl Pearson的死對頭,Ronald A Fisher。應該說,Karl Pearson的提出了「P值 」,Ronald A Fisher 將「P值 」發揚光大。 而1925年Ronald A Fisher的 經典著作《Statistical Methods for Research Workers》騰空出世奠定了其現代統計學之父的威名。

純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

Karl Pearson

Ronald A Fisher的 「顯著性檢驗 」

1925年,Fisher提出了其顯著性檢驗的思想。Fisher的顯著性檢驗可大概概括為以下5個步驟:

  1. 選擇合適的檢驗,如卡方檢驗,t檢驗
  2. 建立原假設H0
  3. 假定H0的條件下計算理論的P值
  4. 評估結果是否有統計學顯著
  5. 對結果的統計學顯著性進行解釋
純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

Ronald A Fisher

N-P的「假設檢驗」

1928年,Jerzy Neyman和Karl Pearson 的兒子 Egon Pearson提出了「假設檢驗」,「假設檢驗」思想可大概概括為以下8個步驟:

  1. 設立人群中期望的效應值
  2. 選擇合適的檢驗
  3. 建立主假設Hm
  4. 建立備則假設Ha
  5. 計算為達到良好的把握度所需的樣本量
  6. 計算檢驗的臨界值,確定拒絕域
  7. 計算研究的檢驗值(老實說,這條我也沒理解)
  8. 做出支持Hm或者Ha的決策
純技術貼,在質量與可靠性工程師們眼中飽受爭議的“P”

Egon Pearson,Jerzy Neyman

簡單來看,Ronald A Fisher的 「顯著性檢驗 」是沒有備則假設的,而N-P的「假設檢驗」不僅有備則假設,還有一個主假設Hm(與H0類似),不僅如此,N-P的「假設檢驗」還提出了效應值、把握度,I類、II類錯誤的概念,且採用拒絕域而非P值來做決策。

除了以上形式上的差別,Ronald A Fisher的 「顯著性檢驗 」與N-P的「假設檢驗」在深層次的統計哲學上也不同。

  • Fisher的統計模型的方法論基礎是假想無限總體,現有資料可視為是從中抽取的一個隨機樣本。而N-P則是假想無限抽樣。N-P 「假設檢驗」 的要旨為在限制第一類錯誤的概率不超過顯著性水平 α 的條件下, 謀求第二類錯誤的概率最小化。雖不期望知曉每個獨立的假設是真是假, 但仍可研究指導我們與之相關行為的準則, 以便保證在長遠意義上不至錯得太多。
  • Fisher認為統計學的功用是“歸納推論” ( inductive inference) , 而不是做“歸納行動” ( inductive behavior) ; 統計學應當止於歸納結論, 而不涉足行動判斷。顯著性檢驗不能給出針對現實的判斷, 而只能改變研究者對事實的態度。而在 N-P 看來, 沒有任何一種統計推論思想能夠不涉及決策過程。他們直接繞過假設檢驗作為科學推論的適合性的討論, 而將它作為一種決策方法, 在先行給出決策前提( 控制第一類錯誤、 然後追求功效最大化) 的前提下, 進行數學上的最優化論證( 錯誤率最低) 。這種思維方式對實際研究者顯然是很有“實際優勢” 的, 因為這正符合了他們使用假設檢驗的最初目的和最終期待

原假設顯著性檢驗,NHST

1940年,Lindquist首次對Ronald A Fisher的 「顯著性檢驗 」和N-P的「假設檢驗」進行了糅合, 提出了原假設顯著性檢驗(Null Hypothesis Significance Testing, NHST)。

NHST 的基本雜合方式是:

  1. 採用 N-P 的原假設對備擇假設 的假設形式( H0 vs H1) , 而備擇假設卻是 Fisher 沒有使用並且一直反對引入的
  2. 同時採用 P值( Fisher 的判斷依據) 和拒絕域法( N-P 的判斷依據) , 認為兩者的判定效果是等價的, 但 Fisher 本人卻極其反對拒絕域法, 而 N-P 則並不強調P值的作用
  3. 把檢驗功效 和兩類錯誤作為 NHST 的內在內容加以介紹, 而不提及這只是 N-P 的觀點, Fisher本人是反對這些概念的。

至此,這就是我們統計教科書裡看到的假設檢驗了。NHST自其誕生以來就飽受質疑和批判,後世的統計學家也一直在呼籲用置信區間,貝葉斯統計來取代NHSTH這種統計推論方式。更多批判NHST的文章和更深層的討論,好像已經超出我的能力範圍了。


分享到:


相關文章: