你對數字的直覺確定沒有錯嗎?

想必大家都看過著名漫畫

“The Simpsons”吧!

你對數字的直覺確定沒有錯嗎?

但是什麼是 Simpson’s paradox?

未必知道吧!

今天我們就來說說這個很有趣的統計學的經典悖論,這也是Ap Statistic裡面的一個考點哦。

這個理論是英國的統計學家E.H.Simpson於1951年提出的。在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。

可能有的小夥伴看了定義,依然傻傻搞不清楚狀況。那麼我們具體用一個例子,幫助大家理解吧。

1.下圖是某個大學的商學院和法學院的新生錄取情況,

你對數字的直覺確定沒有錯嗎?

請注意!

法學院和商學院的女生的錄取率都低於男生,但是把兩個學院的學生進行累加的時候,就發現,Simpson`s paradox 的出現了!女生的整體錄取率竟然高於男生。

2.造成這個悖論的原因主要是兩個:

1) 兩個學院的錄取比例相差懸殊

2) 對於錄取率很低的商學院,男生的申請人數比較多

3.所以接下來我們試著改變這兩個條件看看。

首先,我們先調整高一下商學院的錄取率。

你對數字的直覺確定沒有錯嗎?

哎呦,沒有悖論出現了哦!

4.接著,我們試著讓較少的男生去申請商學院

你對數字的直覺確定沒有錯嗎?

哦吼吼,還是沒有看到悖論了呢!

這兩個改變都讓這個悖論消失了?

5.

綜上所述,Simpson’s paradox本身不是悖論,它只是統計學上的一種現象,而且在生活中這樣的paradox其實並不常 見,但是我們要知道的事,如果簡單的將分組資料相加彙總,不一定能反映真實情況。

那麼之所以會出現以上第一幅圖數據的Simpson’s paradox,就是因為在兩個學院在分別考慮的時候,女生的錄取率都小於男生,但是由於男生較多的去選擇了錄取率很低的商學院,所以導致最後彙總數據的時候,女生整體錄取率反而反轉地超過了男生。

為了避免辛普森悖論出現,就需要斟酌個別分組的權重,以一定的係數去消除以分組資料基數差異所造成的影響,同時必需瞭解該情境是否存在其他潛在要因而綜合考慮。

數據是統計的基礎,不可否認它的重要性,但是有時候進行分析的時候,數量也不是代表全部。

小夥伴們只要知道有這個現象就好。


分享到:


相關文章: