一文讀懂《簡單統計學》

★一文讀懂《簡單統計學》★


如何有理有據地胡說八道?如何讓數據按照自己編造的理論舞蹈?簡單統計學這本書介紹了兩類統計陷阱,一種是對數據進行化妝,使用不代表真實情況的樣本來推理信息,另一種是實驗者自身因素干預統計結論。讀完這本書就可以初步瞭解,為什麼工業界對於學術論文數據與實驗結論不屑一顧,為什麼有人用極其侷限的信息就可以得出新奇的結論,為什麼學者辛苦研究與蒐集資料的努力僅僅驗證了典型謬誤。瞭解統計中的各類陷阱,見識用數據說謊的本事,讓我幫你扔掉書架上的暢銷書。

一文讀懂《簡單統計學》

“只有顯著結論能發表”:製造顯著性

由於雜誌編輯認為不具有統計顯著性的結果沒有發表價值,統計顯著性在學術界被瘋狂崇拜,這引發了兩種獲得統計顯著性的拙劣手段。一種是用手頭的數據去檢驗多種理論而只發表具有統計顯著性的結果,這隻證明了研究人員實驗的耐心,而沒有科學價值;第二種是利用算例編造理論,即通過幾百次各種類型的測試在算例中發現某種模式,然後編造可以解釋這種模式的理論,最後由算例中的數據證實。

由於檢驗論文理論的工作需要獲得新數據且常不能發表,研究人員一般不會去驗證他人的理論,因此科研工作中充斥著類似的具備統計顯著性的論文。

第一類陷阱 數據挖掘

01

01

“事後諸葛亮”:數據導出理論

如果你現對著牆射幾箭,然後再圍繞著箭孔畫上箭靶,那麼你總能取得不錯的成績。即使數據是完全隨機的,有時也會在某處呈現出集聚效應,讓你可以編造一個解釋集聚的毫無理論支撐的假說。

研究人員在獲知數據之後再推測數據符合的規律是毫無意義的,因為如果某個小概率事件已經發生,那麼概率也就不再是小概率事件。“費曼謬誤”是個很好的例子,“1,3,5,7,11,19”在你已經知道是本期彩票號碼的情況下,中獎概率就變成了1。類似於轉基因食品導致疾病、變電站致癌等等理論,也是數據集聚導出荒謬理論的典型例子。

02

自選擇偏差

如果你在A航空公司的航班上調查“會考慮選擇搭乘A公司航班”的旅客比例,你會發現熱愛A公司的顧客比例可能超過了50%,可A公司在市場中佔比甚至不足10%。這是因為調查樣本侷限在“隨機選取”的A公司航班的旅客群體之中。

當研究人員認為自己做了隨機抽樣,卻忽視了人自身的選擇時,就帶來了自選擇偏差。人會自己做出選擇,而他們的選擇體現了自身特性。因此在不進行實驗而僅僅依靠觀測數據抽樣時,我們很難保證樣本群體是完全隨機的。做出了不同選擇的人群存在系統性差異,而這些差異往往與實驗的因素存在相關影響。

03

“90%員工對公司滿意”:倖存者偏差

宣傳“公司員工對公司滿意程度”這項指標是愚蠢的,因為即使公司離職率居高不下,該項指標也總是頗高。離職的員工可能是出於不滿才會不在此處工作,而調查滿意度時卻丟失了這樣一部分數據,這使得在求取數據均值時存在嚴重問題。事實上離職的員工滿意度應當設為0來考慮,換句話說,高離職率就意味著員工對公司不滿意。

選定樣本後調查其歷史的研究被稱為“回溯性研究”,該類研究都存在倖存者偏差問題。統計返航戰機受傷部位時會忽視被擊落的飛機,調查百歲老人養生秘方時會忽略掉早年因該不良習慣早夭的人群,歸納近50年成功公司的秘訣時選定今年還存活的公司等等。由於你使用了在如今才知道的信息,那麼你必定會得到錯誤的統計結論。統計實驗中正確的做法是,假定你回到50年前,完全依賴50年前的信息,按照你的某種假定標準選出傑出公司,再用近50年的信息驗證它。結局是你會發現,今天成功的公司都依賴著運氣。

04

“分得足夠細,總能支持結論”

在做實驗時本應僅有我們關心的因素在變化,其他條件均保持穩定,但是由於複雜的現實環境和實驗本身是觀測性的,總有一些條件無法被剝離,這些與我們關心的因素無關的因素被稱為“混雜因素”。辛普森悖論指出,當一種包含多種因素的實驗數據,被按照某種分類條件進行細分時,其整體所導出的統計結論出現反轉的現象。

舉個例子來解釋。某學校整體來看女性錄取率偏低,調查各系後卻發現90%的院系女性錄取率都遠高於男性。研究人員發現存在一個系男女錄取率都低於極低,但是申請該學校的女生中50%都申請該系,拉低了女性在該校的錄取比例。可以看出此處不同系的錄取率是起作用的混雜因素,女性更偏向申請錄取率低的系,這拉低了女性錄取率。

05

“後視鏡裡看不到未來”

歷史數據僅僅在存在可靠理論支撐其與未來關聯時,才可以成為統計學樣本。這意味著依靠數據過去的趨勢分析未來,那麼趨勢一定要存在意義

,僅僅有數據是不可能預測未來的,就像在汽車的後視鏡裡尋找遠方的路一般。

我在做股票價格趨勢預測時,學習了很多股票技術分析的方法(通道、支撐、阻力),但是像波浪理論等趨勢分析都是勞而無功的垃圾理論。在對樣本的起始年月進行敏感性分析時發現,當你改變數據時間範圍時,技術分析的結論完全不同。量化分析與機器學習的方法也不能可靠地預測股市走向,因為它們對股價樣本的時間窗口存在高度敏感性,改變訓練算法的起止時間,結果劇烈波動。技術分析試圖衡量投資者的“動物精神”,而隨機性無法由歷史來衡量。

第二類陷阱 實驗者作弊

01

01

“科研是重複性勞動”:選擇性報告

在統計顯著性的指揮棒下,科學研究變成了裁剪數據與修飾結果的遊戲。當針對一組數據檢驗數百種理論,那麼即使是毫無價值的理論也能產生統計顯著性。研究人員只發布具統計顯著性的理論,聲稱理論得到了數據驗證,而數據不能驗證的主流理論卻被拋到一邊,公眾們卻從不知曉。

每年有數以百計毫無價值的藥物上市,可他們在之前設計良好的實驗中呈現出統計顯著性。製藥商喜歡對更多的新藥針對更多的用途進行檢驗,從而增加藥品上市的可能,然而他們最不喜歡的是針對某種新藥及其適應症重新進行一次驗證實驗。

02

“人口與飲酒同步上升”:膚淺相關

一次統計調查發現美國的啤酒銷售量與已婚人口數相關性達到0.99,那麼基於如此強烈的相關關係,飲用啤酒是否就能帶來婚姻,或者是說結婚會導致飲酒呢?答案是這兩者都是荒謬的結果。

這兩個因素都與時間和人口總數有關。隨著時間的增長,美國人口數上升,因此已婚人口與飲酒人數也隨之增加了。統計魔術師的手段在於轉移了人們的注意力,儘管在實驗結果上高度相關的兩種因素,如果不能找到合理的解釋,這種相關很可能只是巧合,不一定存在任何關係。

03

“修剪數據”

有經濟學家發表研究稱“國家的負債率過高會帶來經濟衰退”,並且給出了幾次經濟危機與該國負債率的例子。不過後來統計學家發現,有幾個不符合該理論的國家在統計時被當作異常值剔除了,同時某些國家一年的經濟數據也被拿來與其他國家的平均值同等對待,這種處理使得統計結果符合經濟學家的預言。

這種把戲包括:以異常值的名義刪減數據、用某個時刻的值代替平均值、用平均值代替缺失值、使用特定時間的數據、忽略缺失樣本,以及進行錯誤的數據轉換。研究中出現類似的數據處理方式時,實驗的統計結果不再有意義,因為統計結論僅僅表現數據被扭曲的方向。

04

“萬物歸於中庸?”:均值迴歸

總有人說“不可以表揚優異的表現,因為表揚後下次表現會下降”,這是“勝利者詛咒”的一個典型現象。事實上我們低估了好運氣在“優異的表現”之中的作用,而當下次沒有那麼好運時,選手的水平迴歸正常表現,卻被認為是“表揚起了負面作用”。

著名教授苦心研究十年,調查了眾多公司後發現,十年前的最優秀公司表現正在下降,而最落後的公司表現正在變好。他稱之為公司出現“平庸化”的傾向。調查結論發表後他的名聲毀於一旦,統計學家斥責他缺乏“均值迴歸”的常識,結論也成為了笑話。儘管不同公司的企業競爭力有差距,但是最好的公司一定獲得了難得的好運,而最壞的公司也承受了極為糟糕的厄運。隨著時間的推移,好運與厄運都不會持久,公司的表現迴歸其合理水平。在研究員看來,居然被定論為“平庸化”的趨勢。勝利與失敗的原因之中,隨機性被大大低估了。新加入證券指數的公司未來10年的表現往往不如被踢出指數的公司,這是均值迴歸的另一個例子。

05

“缺乏理論的數據”:編造模式

無所事事也要比做愚蠢的事情要好。長期資本管理公司成立於1994年,它從歷史數據中發現全球利率同步變化,同時從歷史數據中分析到幾種資產價格趨勢是不相關的,並按照這種思路進行分散風險的套利投資,最終破產於1998年金融危機。事實上,利率的同步變化是由於投資者的主動選擇,這迫使各國債券保持利率一致,而現實上各國是不同的,當面臨風險時各國反應完全不同,這導致了利差的出現。另外,當俄羅斯債務違約後,歷史上從未體現相關性的資產突然呈現出高度相關性,全部領域的資產風險同步上升,推土機碾過了拾硬幣的人。

統計關係是靠不住的,投資也不應該壓在歷史模式卻缺乏合理理論支撐的關係之上。當某種統計關係缺乏理論支撐的,那麼這種關係很可能是不可靠的。

06

“缺乏數據的理論”:空想理論

“系統動力學”是一名電氣工程師發明的,他從工程領域轉到管理領域後,發明了一些模型來幫助理解與預測系統的演化。然而,如同馬爾薩斯的人口論一般,這兩種理論都明顯不正確,也沒有在現實世界的應用價值。模型的推理與建立存在著合理性,但問題是禁不住歷史數據檢驗。

要被一項研究說服,那麼理論與數據缺一不可,既要通過常識推理的驗證,也需要通過未經處理的新數據的檢測。

一文讀懂《簡單統計學》
一文讀懂《簡單統計學》一文讀懂《簡單統計學》

無論是風裡,還是在雨裡,我都在這裡守候著你~


分享到:


相關文章: