瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南


瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南

如果說瑞幸自爆造假22億是第一片落下的雪花,北京時間4月7日深夜,渾水(Muddy Water)和狼群(Wolf Pack Research)聯合發佈的愛奇藝做空報告則是第二片雪花。

調查公司指出,愛奇藝存在嚴重的財務數據作假和用戶數據作假,營收誇大了80億-130億元(27%-44%),整整37頁的做空報告引發市場關注。

瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南


WolfpackResearch指出,愛奇藝的“DAU用戶數據存在水分”“平臺存在刷量行為”“誇大會員收入”“體育價格虛高”“誇大廣告收入”“購買電視劇的費用虛高”。

不過,愛奇藝很快就發佈聲明,對這份做空報告內容予以堅決否認,4月8日,愛奇藝聲稱已披露的所有財務和運營數據均是真實的,符合SEC(美國證監會)要求,並表示將保留法律追訴的權力。


瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南


4月13日,國家廣播電視總局發佈《廣播電視行業統計管理規定》,強調不得製造虛假收視收聽率,對出現統計造假、弄虛作假行為的,所在單位的主要負責人承擔第一責任,分管負責人承擔主要責任,統計人員承擔直接責任。


在生活中,我們經常會接觸到統計數據,不論是政府和研究人員公佈的調查結果,還是商家打廣告時用到的數據結論。在很多人眼裡,數據就是對事實最有力的證明。但實際上,各種各樣的統計操縱無處不在,讓人一不小心就會掉入陷阱。


那麼,在信息繁雜的當下,我們如何才能練就一對火眼金睛,識破統計數據帶來的虛假信息呢?


《統計數據會說謊》這本書裡,作者揭開統計數據的神秘面紗,帶我們瞭解統計學的基本原理,看清那些銷售人員、廣告文案、記者甚至專家常用的統計操縱技巧,讓我們不再盲從於統計,更好地認清事實真相。

瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南


1. 統計陷阱一:樣本內部偏差讓結果失真


在講如何識破統計陷阱之前,我們先要弄明白什麼是“統計”。概括來說,統計就是對數據進行收集、處理、分析和解釋,並且從中得出某種結論。


舉個最簡單的例子,現在有一萬顆豆子,裡面有紅豆有綠豆,怎麼知道紅豆綠豆分別多少顆呢?你當然可以一顆一顆地數,得出精確的結果,但這得數到什麼時候啊!為了節省時間精力,我們可以用統計的辦法,先把這些豆子均勻地混在一起,然後隨便抓幾把出來,看看紅豆綠豆分別佔比多少,最終大致估計出紅豆和綠豆的數量。


瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南


這是最簡單的一種統計,但其實說簡單也不簡單。為什麼呢?因為一萬顆豆子是整體,而抓住來這幾把則是樣本,我們是根據樣本的情況來推斷整體的情況,所以樣本的選取非常重要,一定不能存在太大的偏差。


那假如在抽樣的時候出現了偏差,會導致什麼後果呢?我們來講一個真實的例子:1940年代,美國《時代》雜誌上刊登了這樣一則報道:對美國耶魯大學1924屆畢業生的調查發現,他們的平均年收入高達2.5萬美元。


這是個什麼水平呢?按照美元的購買力來算,1940年代中期的1美元大概相當於現在的14美元,2.5萬美元也就相當於現在的35萬美元,換成人民幣就是200多萬!照這麼看,耶魯畢業生的收入相當可觀,簡直讓人羨慕嫉妒恨啊!但別興奮得太早,仔細分析一下,我們就會發現這個結論有下面幾方面存在疑問:


瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南


首先是數據的來源。如果是個人自己填報的收入,很有可能虛報。比如有人覺得自己賺得少怕丟臉,就故意多報一點;還有人可能實際收入比較高,但報給稅務局的數比較低,為了防止逃稅被發現,所以故意少報。既然數據來源不真實,統計結果自然就不準確。


其次是數據的計算方法。也就是說,就算大家都實話實說,每個人對於“年收入”的理解也會不統一,可能有人只算了工資,而有人算上了各種福利,還有人則把一些投資也加進去。這樣一來,數據就沒什麼可比性了。


最後是樣本不隨機導致的偏差。要知道,上面說的調查時間離學生畢業已經20年,而且當時通訊又不發達,能聯繫上的人肯定不多。那些有所成就的肯定比失敗潦倒的更容易聯繫,就算聯繫上了,也不是所有人都願意配合調查,那些高收入的肯定比低收入的更願意透露情況。所以說,樣本本身就偏向了高收入群體,怎麼還能用來代表整體情況呢?


瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南


你看,如果樣本內部就有偏差,代表不了整體,也就沒法保證統計結果的準確性。當然了,即便以上三個問題都不存在,2.5萬美元這個數據也不一定能代表這屆耶魯畢業生在1940年代收入的總體水平。為什麼呢?關鍵在於數據披露不完整。


2. 統計陷阱二:不完整的數據掩蓋實際情況


我們剛才說到,2.5萬美元人均年收入這個統計結果存在數據披露不完整的問題。為什麼這麼說呢?主要有兩方面原因。


瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南


一方面,樣本大小不明確。如果這批被調查的畢業生人數很少,樣本就喪失了隨機性,無法代表一整屆畢業生這個整體。但在很多廣告中,商家偏偏會利用這一點,故意忽略掉樣本的數量,從而誇大產品的效果。


比如在1950年代,美國多克斯牙膏曾經打過一個廣告,說根據測試用戶反映,在使用新款多克斯牙膏以後,有23%的人蛀牙數量有所減少。乍一聽,這牙膏效果顯著啊!但實際上,參加測試的人數有多少呢?才13個人!


除了樣本大小問題,數據披露不完整還體現在另一個方面,那就是數據之間的差異。我們回到前面年薪的例子,2.5萬美元只是一個平均數,也就是N個數字相加再除以N的結果。問題是,如果數據相差很大,平均數就容易受到極端值的影響。假設樣本是400個畢業生,只要裡面有一個創業成功,成了年收入千萬美元的大老闆,就算其他人年收入都是0,平均下來年薪也能有2.5萬美元。


瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南


因此,我們不應該只關注平均數這一個統計數字,還要結合眾數、中位數,或者分層來看,才能更全面地瞭解真實情況。


換句話說,利用某些統計方式,可以掩蓋真實的情況。除了我們剛才說的數據不完整以外,類似的情況還發生在統計圖表的製作過程中。


3. 統計陷阱三:操縱圖表給人帶來錯覺


我們經常會看到各式各樣的統計圖表,比如柱形圖、折線圖、餅圖等等。有的圖表裡還會插入生動的圖片,比如用一個錢袋子來代表1萬元,用一頭牛來代表1噸的牛肉產量。這些圖表可以讓枯燥複雜的統計數據變得更直觀、更有趣,所以更容易被大家所接受。不過大家要注意的是,統計圖表也是會騙人的。


怎麼個騙人法呢?我們就先從最原始的統計圖表——柱形圖講起。大家知道,柱形圖可以用來比較幾個數據的大小多少。好比說一家公司2001年收入1億,2010年收入2億,他們就可以用柱形圖來表現這種翻倍的效果。但如果這個公司心術不正,就可能通過在圖表上動些手腳,來誇大兩個數據之間的差距。


瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南


第一種做法是改變縱座標的起始數值。一般我們畫柱形圖,縱座標都是從0開始的,但有些圖的縱座標故意不從0開始,相當於每根柱子都截掉了一段,相互之間的差異就被放大了。還是剛才的例子,如果縱座標從5000萬開始,那表示2010年收入的柱子就有2001年的3倍高,很容易讓人以為收入是原來的3倍。


以前很多廣告都這麼操作,不過這種做法畢竟不符合作圖規範,所以現在更常用的是另一種辦法——縮小縱座標的單位。比如原來縱座標上1釐米代表5000萬,那麼兩個收入數據也就是2釐米和4釐米的差別,雖然確實是翻倍,但視覺上沒什麼衝擊力。如果讓1釐米代表2000萬,那兩個數據就成了5釐米和10釐米的差別。也就是說,柱子被拉高,柱子之間的距離卻沒有變化,那麼收入的增加趨勢看上去就更加陡峭和明顯。由於這種辦法並不違反作圖規範,很難被質疑。


除此之外,在對統計結果進行解讀的時候,也有一些常見的陷阱。


4. 統計陷阱四:用偷換概念和顛倒因果混淆視聽


就算沒法操縱數據,還可以用其他一些手段來影響結論。


第一招是偷換概念。也就是說,如果你沒法證明A,那就給人們展示一下B,並假裝A和B是一回事兒。舉個例子,有一個感冒特效藥的廣告,說是經過獨立的第三方實驗室測試,把這種特效藥放進裝滿細菌的試管裡,只需15克,就能在11秒裡殺死試管裡的3萬多個細菌!聽上去特別厲害吧,特別是再配上一張穿著白大褂的醫生照片,簡直太權威了!


但仔細分析一下,這裡邊玩的卻是“看似相關”的把戲。首先,測試是在試管裡做的,可是人體跟試管的環境能一樣嗎?其次,測試用的藥物成分沒有經過稀釋,而給人服用的藥品卻必須限制含量和濃度,避免對身體組織造成傷害。最後,說這種藥殺死了3萬多個細菌,至於是哪種細菌、跟感冒有沒有關係,這些都沒提。因此光憑這條廣告,根本不能判斷感冒藥的效果究竟如何。


瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南


第二招是顛倒因果。統計只能說明數據之間是否相關,而因果關係則需要結合理論和現實進行主觀判斷,這就給了某些有心之人可乘之機。通過顛倒因果,他們就能讓統計結果支持自己的說法。


比如很多研究都表明,抽菸的學生往往比不抽菸的學生成績差。有人可以把它解讀成是抽菸導致學習變差,於是他們可以說“抽菸會讓人變笨!”。但實際的因果關係並非如此,有可能是成績不好的學生更有可能去抽菸。


除此之外還有一種可能性,那就是成績差和抽菸之間壓根沒有任何因果關係,而是都跟第三種因素有關。比如我們來聽聽這個解釋:壓力太大的人容易抽菸,而壓力太大也會讓人成績差,所以不能簡單地說抽菸的人成績差,它們只不過是“壓力太大”這個因素導致的兩種表現罷了。


所以你看,利用偷換概念和顛倒因果這兩招來解釋統計數據,就能利用似是而非的結論來支持自己的觀點。


瑞幸之後愛奇藝再遭做空,數據≠事實,來自統計學大師的防騙指南


看到這兒,大家應該明白了,統計數據並不一定是完全真實客觀的,而是存在各種各樣的操縱行為。不管是抽樣樣本存在偏差,還是在數據披露和圖表製作過程中耍手段,又或者是對統計結果別有用心的解讀,總有人會用這樣那樣的法子,利用統計數據給別人傳遞錯誤的信息。這類行為用一個詞概括,就是統計操縱。


那麼聽了這麼多案例,我們在日常生活中又如何才能更好地鑑別和反駁這類統計操縱的現象呢?你不妨問問下面幾個問題:


第一,樣本是怎麼來的,數量夠不夠大呢?

第二,在抽樣的過程中,隨機性有沒有得到保證呢?

第三,呈現統計結果的時候,有沒有故意遺漏了某些容易被忽略但是很重要的數據?圖表是不是符合製圖規範,有沒有故意利用人們的視覺錯覺?在解釋統計結果的時候,存不存在偷換概念、顛倒因果,或是誇大意義的情況呢?



所以,我們有必要主動樹立統計思維,學會批判性地看待統計數據。


排版|涼山

路上讀書:全球名校博士30分鐘精讀一本好書。


分享到:


相關文章: