想必大家都看過著名漫畫
“The Simpsons”吧!
但是什麼是 Simpson’s paradox?
未必知道吧!
今天我們就來說說這個很有趣的統計學的經典悖論,這也是Ap Statistic裡面的一個考點哦。
這個理論是英國的統計學家E.H.Simpson於1951年提出的。在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。
可能有的小夥伴看了定義,依然傻傻搞不清楚狀況。那麼我們具體用一個例子,幫助大家理解吧。
1.下圖是某個大學的商學院和法學院的新生錄取情況,
請注意!
法學院和商學院的女生的錄取率都低於男生,但是把兩個學院的學生進行累加的時候,就發現,Simpson`s paradox 的出現了!女生的整體錄取率竟然高於男生。
2.造成這個悖論的原因主要是兩個:
1) 兩個學院的錄取比例相差懸殊
2) 對於錄取率很低的商學院,男生的申請人數比較多
3.所以接下來我們試著改變這兩個條件看看。
首先,我們先調整高一下商學院的錄取率。
哎呦,沒有悖論出現了哦!
4.接著,我們試著讓較少的男生去申請商學院
哦吼吼,還是沒有看到悖論了呢!
這兩個改變都讓這個悖論消失了?
5. 綜上所述,Simpson’s paradox本身不是悖論,它只是統計學上的一種現象,而且在生活中這樣的paradox其實並不常 見,但是我們要知道的事,如果簡單的將分組資料相加彙總,不一定能反映真實情況。
那麼之所以會出現以上第一幅圖數據的Simpson’s paradox,就是因為在兩個學院在分別考慮的時候,女生的錄取率都小於男生,但是由於男生較多的去選擇了錄取率很低的商學院,所以導致最後彙總數據的時候,女生整體錄取率反而反轉地超過了男生。
為了避免辛普森悖論出現,就需要斟酌個別分組的權重,以一定的係數去消除以分組資料基數差異所造成的影響,同時必需瞭解該情境是否存在其他潛在要因而綜合考慮。
數據是統計的基礎,不可否認它的重要性,但是有時候進行分析的時候,數量也不是代表全部。
小夥伴們只要知道有這個現象就好。
閱讀更多 MathsAlgorithm 的文章