假設檢驗中P值那些事

假設檢驗中P值那些事

作模型的時候經常會用到假設檢驗,經常會遇到p-value這樣的值,今天我們來看一下P值到底是什麼?

P值和假設檢驗的歷史

提起P值就離不開假設檢驗,P值得歷史可以追溯到1770年,數學家拉普拉斯在處理50萬左右的生育數據時,發現男性的生育率超過女性,對於這個無法解釋的"超越",他計算了一個叫做 "P值"的東西,以確定這個"超越"是真實的

很多統計學家誤以為關於P值的正式文獻是Fisher發表的,其實不然,最早在文獻中正式闡述P值及其計算的,是統計學家Karl Pearson,你可能不瞭解他,但是他的Pearson卡方檢驗你一定知道,這篇關於卡方檢驗的文章當時被髮表在《哲學雜誌》上,文章中一同被介紹的,還有一個被叫做"P值"的

Fisher作為一代假設檢驗理論的創立者,在假設檢驗中首先提出P值的概念。P值能風靡學術界這麼多年,Fisher是第一推手,被他推動的除了P值,還有被稱為"費雪學派"(Fisherian)的假設檢驗思想。簡單介紹下他的思想:

如果我們想要檢驗一個樣本是否來自某個分佈已知的總體,首先要建立一個"原假設"(null hypothesis),比如,下圖的例子我們假設該樣本來自正態總體N(m0,σ),那麼原假設為:

H0:m=m0

但實際上我們得到的樣本均值不是m0,而是 ,那麼Fisher他老人家當時的想法是:在一個樣本均值為m0的正態總體中,抽樣得到這個均值為的樣本的幾率會有多大?我要是能計算出這個概率,就知道"這個樣本來自該總體"這件事有多靠譜了,如果概率太小,就認為是不靠譜的事情,那麼就可以認定這個假設是錯的。這就是假設檢驗裡的"小概率事件原理",這個概率就是後來風靡學術界的"P值",一般認為概率小於5%,就是不靠譜的事情,則需要拒絕原假設。

到此為止,Fisher大神隻字未提"備擇假設",也從沒說任何關於"接受"某個假設的事情,在Fisher的檢驗哲學裡,

檢驗是基於無限總體中抽出的一個(注意是一個)樣本;

顯著性檢驗的基礎是基於原假設而得出的假想概率,這些檢驗不能導出任何關於真實世界的概率論斷。

因此,費雪以及他的P值檢驗思想,從來沒有涉及到"備擇假設"的概念,沒有被認為可以用來證明某個假設是對的。

Neyman-Pearson認為假設檢驗是一種方法,決策者在不確定的條件下進行運作,利用這一方法可以在兩種可能中作出明確的選擇,而同時又要控制錯誤發生的概率。

因此提出了另一個重要的檢驗思想,也就是後來流行的"備擇假設"的概念即Neyman-Pearson(以下簡稱N-P)檢驗思想。N-P學派發源於費雪的思想,但卻與之不太一樣,他們兩派相互爭論了很多年。相比較於Fisher學派,Neyman他們主要有三個不同:

(1) 引入備擇假設

Neyman本人曾說,"接受一個假設H,僅僅意味著採用決策A要比決策B好,並不能說明我們必須要相信假設H就是對的。"

(2) 引入兩種錯誤:第一類錯誤和第二類錯誤

第一類錯誤是指拒絕了一個正確的原假設(α),第二類錯誤是指接受了一個錯誤的原假設(β);

Power=1-β,被稱為檢驗效力,它代表著拒絕一個錯誤假設的概率;

N-P的檢驗思想是,控制第一類錯誤(一般事先給定),使得第二類錯誤的值越小越好,即power越大越好。

後世的許多統計學家錯誤的將兩個方法進行了混合,衍生出這樣的判別標準,即:

用p

如Gibbons說:"P值與古典方法(即Neyman-Pearson)的關係是,如果p<=α,我們就要拒絕H0,如果p>α,我們就要接受H0。"

P值到底是什麼?

P值是原假設為真時出現結果的概率,

假設A和B一起比賽籃球,我們假設A的技術比B的好,但是比賽1000場,A卻輸了800場,那麼此時產生這樣的結果的概率P可能是0.0005,也就是說,我們根據結果判斷,原假設A的技術比B好的概率是p=0.0005,這是非常小的小概率事件,幾乎是不可能發生的,結果卻發生了,那麼我們就應該推翻原假設的結論。

簡單來說,P值越小,原假設有問題的可能性越大,你的假設就越可能成立。若P=0.05,則這時拒絕原假設,有5%的可能性你“冤枉了”正確的原假設;若P=0.01,那麼拒絕原假設你只有1%的可能是錯的。

P值小到什麼時候才能拒絕零假設又被學界認可?這個一刀切的門檻就是顯著性閾值,完全人為設定。目前這個學界認可的門檻高度是0.05,即當p值小於0.05時可以說實驗結果統計學上顯著。

P值危機

P值方法是廣泛使用的統計手段,但因其自身的缺陷飽受爭議。學界對於p值的討論一直很熱烈,有一批科學家就認為,由p值小於0.05推出的結論並不如人們想象中的那麼靠譜,需要降低實驗中使用的顯著性閾值。如今更是被諸多統計學大牛指出,P值遠沒有眾多科學者想象的那麼可靠,顯然它在統計學的大佬地位已經岌岌可危。

假設檢驗中P值那些事

羅斯福大學的經濟學家史蒂芬說,"P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。"因為P值都是用來拒絕原假設的,從來沒有被證明可以用來接受某個假設。

解決之道

面對"P值至上"的種種惡果,統計學家們給出了其他的解決方法,

避免使用"顯著"或"不顯著"來進行判斷。如心理學家Cumming建議,研究者應當給出置信區間和power,以讓讀者明白研究結果的靠譜程度。

使用貝葉斯等決策方法。下圖是貝葉斯的判斷準則,沒有P值的參與。

假設檢驗中P值那些事

對同一個數據使用多種方法進行分析。結果越是不同,就越有可能出現重大的發現。


分享到:


相關文章: