簡明數據科學 第三部分:假設檢驗

簡明數據科學 第三部分:假設檢驗

原文作者:Pradeep Menon

原文鏈接:https://towardsdatascience.com/data-science-simplified-key-concepts-of-statistical-learning-45648049709e

譯者:TalkingData 張永超

昨天的文章中,我們討論了統計學習的關鍵概念——參數模型、訓練與測試、方差與偏差等等,今天我們再來看一看機器學習的基石概念之一假設檢驗

簡明數據科學 第三部分:假設檢驗

著名的物理學家愛德華·特勒曾經引用過:

“A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty, until found effective.”

假設檢驗的應用在數據科學中占主導地位,它是簡化和結構的必備之選。就像犯罪小說的故事一樣,基於數據的假設檢驗,將從一個新穎的建議引向一個有效的命題

概念

假設是指用有限的證據作出的想法,它是進一步調查分析的起點。該概念非常簡單,但是在實際應用中很強大。在日常生活中,通常按照如下7個步驟進行:

  1. 做出假設;
  2. 初始狀態設定;
  3. 確定替代的問題;
  4. 設置驗收標準;
  5. 進行基於事實的測試;
  6. 評估結果。評估是否支持初始狀態?確定結果不是偶然的?
  7. 達到以下結論之一:拒絕原來的位置以支持替代位置或拒絕原始位置。
簡明數據科學 第三部分:假設檢驗

以一個故事來進一步解釋假設檢驗的概念。霍爾馬維克是冰島西部的一個小鎮,這個小鎮有其獨特之處是,它被稱為巫術博物館。即使現在,那裡也有人聲稱是巫師。伊西爾德和甘道夫就是這樣的人。

他們聲稱自己具有千里眼的超能力,能夠透視任何物體,於是一些研究人員想要驗證他們的能力,讓他們玩一種叫做透視紙牌的遊戲。

該遊戲的規則如下:

  1. 伊西爾德和甘道夫隨機從四副撲克牌中選擇10張紙牌;
  2. 他們必須確認每張紙牌屬於那副牌;
  3. 該測試每次重複10次。

在進行此次測試驗證之前,已經對正常人進行了測試,得到的結論是正常人能夠預測正確的平均次數在6次左右。這個就是本次假設檢驗的基礎,而本次假設檢驗的目的是統計確定伊西爾德和甘道夫是否是巫師。

第一步:做出假設

不同種類的假設檢驗需要做出不同的假設。而假設與數據的分佈、採樣以及線性有關。一些常見的假設如下:

  • 分佈:
    每種數據都會遵循特定的分佈,需要掌握數據中的規律。許多自然發生的數據點如股票市場數據、人體重量和高度、在酒吧喝酒的人的薪水等等都近似正態分佈。正態分佈只是意味著很多觀測值都在中間位置,較少的觀察值大於或小於中間值。中間值也稱為中位數。
  • 採樣: 假設為測試採樣的數據是隨機選擇的,沒有偏見。

對於上述透視紙牌遊戲,以下假設是正確的:

  • 在透視卡牌遊戲中,所選紙牌的分佈將是正態分佈的。這是真的,因為這些紙牌是隨機選擇的。隨機選擇紙牌意味著將被挑選的十張紙牌中的每一張都具有被選擇用於測試的相同概率。
  • 在該問題中,紙牌沒有偏見。

第二步:空假設

空假設是假設驗證的初始情況,也就是當下的狀態,是拒絕或者失敗的立場,在整個假設驗證的過程中處於需要驗證和測試的位置。

對於上述紙牌遊戲來說,空假設如下:

伊西爾德/甘道夫並沒有千里眼的能力。

第三步:備用假設

備用假設和空假設正好是相反的。如果統計學獲得的證據正好表明備選假設是有效的,那麼空假設就是被拒絕的。

對於上述紙牌遊戲,備用假設如下:

伊西爾德/甘道夫具有千里眼的能力。

第四步:設置驗收標準

空假設和備用假設定義好之後,初始位置為空假設。現在需要設定一個閾值,我們知道一個普通人,即不是巫師的人會在10次中得到正確的六次。如果伊西爾德和甘道夫能夠在一次測試中預測超過六張正確的紙牌,那麼有更多的證據表明他們確實可能是巫師。有一種度量評估方法叫做t-統計,t-統計估計值遠離備選假設越多越合理。

假設檢驗結果可能會出錯。有四種可能的情況:

  1. 測試發現,伊西爾德和甘道夫具有千里眼能力,他們是名巫師;
  2. 測試發現,伊西爾德和甘道夫沒有千里眼能力,他們不是巫師;
  3. 測試發現,伊西爾德和甘道夫具有千里眼能力,他們不是巫師;
  4. 測試發現,伊西爾德和甘道夫沒有千里眼能力,他們是名巫師。
  5. 測試的結果可能顯示結論1和結論2是正確的,結論3和結論4是無效的。

如果結論3屬實,這樣會導致空假設失效,屬於一種誤報,此類情況也稱為Ⅰ型錯誤;

如果結論3無效,這樣會是的空假設屬實,屬於一種錯誤的否定,此類情況稱為Ⅱ型錯誤。

類型所有的統計驗證,假設驗證也必須處理不確定性,也就是必須處理概率,而概率並沒有絕對的。

對於概率來說,需要設定概率層級,以便確定發生I型錯誤的機會,這個水平被稱為顯著性水平,使用α表示它。 α越低意味著測試越嚴格。相對較高的α意味著測試不是那麼嚴格。 α的值是根據假設檢驗的性質設定的。典型值為0.001,0.05或0.1。

如果所觀察到的結果僅僅是偶然的呢?如果這只是一個巧合呢?如果他們在測試進行的那一天剛好幸運呢?這種不確定性需要得到度量,假設檢驗有一個衡量這個不確定性的指標,p值是該度量。

p值表示為概率。這意味著它的值在0和1之間。p值是在假設為真的假設下偶然觀察到的t統計量的概率。

對於透視紙牌遊戲,決定如果伊西爾德可以正確猜測超過8張牌,那麼備選假設是合理的。他可能確實是一位千里眼。 t統計量是8。

作為一名千里眼人是沒有生命危險的。沒有人處於危險之中。顯著性水平設定為0.05。 α是0.05。

第五步:進行測試

通過重複十次的測試和驗證,得到了一些結果。假設統計引擎最終得到如下的結果:

伊西爾德:

  • t-統計:8
  • P值:0.1

甘道夫:

  • t-統計:9
  • P值:0.01

第六步:評估結果

概率(p值)和顯著性水平之間的比較產生以下結果:

對於伊西爾德來說:

  • t統計量為8,這意味著,他平均預測了八張牌,比正常人預測的要高。
  • p值是0.1,這意味著觀察到的t統計數據歸因於偶然的概率是10%。 p值很高。
  • 設定的顯著性水平(α)是0.05,轉化為5%。
  • p值大於設定的顯著性水平,即10%> 5%。

第七步:得出結論

測試已結束,指標是已知的。誰是真正的巫師呢?

對於伊西爾德:p值大於設定的顯著性水平(10%> 5%)。儘管平均而言,他已經預測了八張牌;從統計上,結論如下:

  • 伊西爾德的結論:沒有實質證據反對空假設,空假設未被拒絕。

對於甘道夫:平均而言,他已經預測了九張牌。,p值低於設定的顯著性水平(1%<5%);從統計上,結論如下:

  • 甘道夫的結論:有很好的證據反對空假設,空假設被拒絕,備選假設被接受。

最終,伊西爾德被否認,甘道夫很高興。然而,伊西爾德也並不那個傷心,測試並沒有確定他不是一位具有千里眼的巫師,空假設沒有被驗證是錯誤的,也沒有證據表明備選假設是不成立的,這意味著沒有足夠的證據來確定空假設是無效的,在現實中,這樣的情況普遍存在。

結語

假設檢驗是機器學習的基石概念之一,很多評估方法使用假設檢驗來評估模型的魯棒性。在我們瀏覽本系列時,我們將深入探索其構造。


分享到:


相關文章: