03.03 《模型思考者》3:三種分佈模型


《模型思考者》3:三種分佈模型

這裡是斯科特·佩奇的《模型思考者》這本書的第三講,咱們講三個特別常用的統計模型,分別是“正態分佈”、“對數正態分佈”和“冪律分佈”。

我敢打賭你至少聽說過“正態分佈”。我們專欄以前提到過正態分佈 [1],這次是以模型的眼光把三個重要分佈放在一起講。佩奇的模型課完全不介意使用數學,這三個概念聽起來就有強烈的數學味道……而我保證,在我們整個的系列解讀中,你都不需要拿起筆來做數學計算。

但是你需要從這個系列中獲得一點“數學感”。球迷自己不會踢,看別人踢球也會得到有一點“球感”,也能在一定程度上閱讀比賽、甚至做出很好的預測判斷,我說的數學感差不多也是這個意思。

這一講說的數學感能帶給你一個非常實用的判斷力:什麼時候應該擔心發生極端事件,什麼時候不應該擔心。我們講“蝴蝶效應”的時候說過 [2],就算你是個小心謹慎的人,你也不應該一天到晚對什麼事情都提心吊膽。

有些天真的人認為極端事件隨時都可能在任何領域發生,真正的學者不會這麼看問題的 —— 我們的確見過很多身高超過兩米的人,但是可沒見過身高 15 米的人。而在另一些領域中,的確就是存在特別極端的例子,比如世界上有些特別有錢的人。這二者的區別是啥呢?


區別是人的身高服從正態分佈,而財富不是。

1.正態分佈

咱們先回到上一講說的那個開餐館的事兒。如果你的餐館事業已經比較穩定了,你不會太擔心顧客流量的波動。這種情況,就是正態分佈。


假設你的餐館平均每天有 100 個顧客,比較好的時候能到 115 人,比較差的時候也有 85 人,那麼畫出圖來,就是下面這樣的一條鐘形曲線 ——

《模型思考者》3:三種分佈模型

曲線的橫座標代表每天來的人數,縱座標代表在比如說一個季度之中,來這麼多人的時候有多少天。圖中標記了正態分佈的兩個重要概念:平均值(μ),和標準差(σ)。對你這個餐館來說,μ = 100,σ = 15,這意味著在 68%的日子裡,你的顧客人數會在 85 和 115 之間 —— 這叫“一個標準差之內”。橫軸上距離平均值越遠的地方越是極端事件,而那些事件的縱座標大小則代表它們發生的概率。

只要你知道餐館人數符合正態分佈,平均值和標準差就都可以用平時的流量數據統計出來。有了平均值和標準差你就可以大致估算各種事件發生的概率:95%的事情都發生在兩個標準差之內,99.7% 的事情發生在三個標準差之內。有個極客說要找個美貌程度在兩個標準差之外的女朋友,那就意味著她要比 97.5%的人都漂亮。

這些概念是一名現代大學生應該具備的常識,你在課堂上可能都學過。但是也許你有個疑問:

為什麼餐館人數滿足正態分佈?

並不是所有隨機事件都滿足正態分佈。想要學會判斷什麼樣的事件滿足正態分佈,你必須有一點數學感,你需要了解“中心極限定理”。中心極限定理說,如果一個事件滿足下面這些條件,它的分佈就是正態分佈 ——

第一,它是由多個 —— 至少 20 個 —— 隨機變量*相加*的結果;

第二,這眾多的隨機變量是互相“獨立”的;

第三,每個隨機變量的方差都只有有限大;

第四,每個隨機變量對結果都要有一定的貢獻,否則如果只是其中幾個起到決定性的作用,那也不能算“多”。

簡單地說,關鍵要求有兩個:“相加”和“獨立” —— 凡是多個獨立隨機變量相加的事件,結果就會是正態分佈 [3]。

你的餐館顧客滿足這些條件。每個顧客來不來吃飯都是他自己的決定,是獨立的;而你計算的是今天總共來了多少人,是這些人的和。

直觀地說,中心極限定理說的是每個人來不來可能波動很大,但是因為人多,整體上來多少人,波動就不會有那麼大,所以滿足正態分佈。

生物學家認為人的身高是由至少 180 個基因共同決定的。有的決定你的小腿有多長,有的決定你的脖子有多長 —— 而你的身高,是所有這些因素相加之和。作為一個很好的近似,決定身高的各個基因是比較互相獨立的。所以身高滿足正態分佈。

你看這是不是有一種“冥冥之中自有定數”的感覺。雖然你不知道明天會有哪些顧客,但是你知道他們的總人數不會太離譜:三個標準差已經覆蓋了 99.7%的可能性,來超過 145 或者低於 55 人的可能性只有千分之一。這意味著兩三年都碰不到一次,所以你真的沒有必要準備那麼多桌椅。

正態分佈能給人充分的掌控感。每個案例相差都不會很大,通常翻不了天。


好,現在回到正態分佈的兩個條件,“相加”和“獨立”:如果局面不滿足這兩個條件,結果會是怎樣的呢?那你就得做好準備迎接極端事件了。

2.對數正態分佈

如果一個事件的結果不是由獨立隨機事件相加、而是由相乘決定的,它的分佈將是“對數正態分佈”。這個分佈的形狀就不是對稱的鐘形了,而是像下面這樣 ——

《模型思考者》3:三種分佈模型

它有一個比較長的尾巴。這意味著其中發生極端事件的可能性比正態分佈高很多。

比如說漲工資吧。有個公司,本來員工之間工資相差不大。有一天老闆宣佈了一個漲工資計劃,說以後每年業績突出的員工,工資會增加 10%。你猜這個政策意味著什麼?

意味著員工之間的工資差距將會變得越來越大。可能老王工資本來就比小李高,這次業績又比小李好,那麼老王漲 10%,小李沒有,所以兩人的差距將會變大。換一種情況,老王表現沒有小李好,那麼小李漲 10%,兩人差距會縮小。但是,請注意,因為老王工資高,所以第一種情況導致的工資差距拉大,會超過第二種情況導致的工資差距縮小 —— 所以總體看來,全體員工的收入差距必然拉大。

這就是因為你使用了相乘的方法。換個方案,如果規定業績好的員工,不論之前的工資是多少,一律漲一萬塊錢,那麼員工之間的工資差距就不會拉大。

你喜歡讓員工的收入差距拉大還是縮小呢?不管你喜歡哪種局面,你需要這個數學感。否則是你自己設計的模型,含著淚也得接受它的結果。


請注意,對數正態分佈仍然假設每個隨機變量的作用是互相獨立的 —— 這意味著哪個員工今年能做出更好的業績,跟他去年的工資沒關係。而如果你認為員工工資代表了能力,那麼工資越高的人就越有可能做出好業績,那結果就不會是對數正態分佈了,而是比這還要容易出極端事件的“冪律分佈”。

3.冪律分佈

冪律分佈的“長尾”,比對數正態分佈更長 ——

《模型思考者》3:三種分佈模型

網頁鏈接的冪律分佈

《模型思考者》3:三種分佈模型

對數座標下,冪律分佈(黑線)和對數正態分佈(灰線)的比較

這意味著冪律分佈中會有大量的極端事件。

冪律分佈是*不獨立*的隨機變量作用的結果。科學家找到了很多個能帶來冪律分佈的模型,咱們這裡說其中最常見的兩個。

第一個模型是“馬太效應”。比如你去書店買書,那麼多本書選哪本呢?你會優先關注那些上了排行榜的“暢銷書”。這是人之常情,但是這對那些沒上榜的書是不公平的 —— 這等於說越暢銷的書就會越容易被關注,而越容易被關注就讓它進一步更暢銷。這就成了一個富者愈富的局面。冪律分佈使得圖書市場中會出現少量特別暢銷的書,而絕大多數書的銷售成績都很差。

而這一切都是因為你做決定的時候是在模仿別人。你看到別人都買這本書,所以你才關注它。你的買書行為不是獨立的。

明星的粉絲數量、公司的大小、城市的大小,都是冪律分佈。比如一個城市越大,其中人與人的互動就越多,就業機會和創新機會也會越多,就越能吸引到新人的加入。這就是為什麼中國有那麼多的超大城市。當然每個冪律分佈中的那個冪律參數不見得是一樣的,但是這一講我們不關心具體的數學,只關心數學感。

如果一個局面中有很多極端事件,我們基本上可以猜測它滿足某種某種冪律分佈。佩奇做了個計算,說如果美國人的身高是冪律分佈的,全美國就會至少有一個人比帝國大廈還要高,而且有一萬人會比長頸鹿高……這就是冪律分佈的威力。

另一種冪律分佈模型來自於複雜系統的“自組織”現象。一個系統在變大、變複雜的過程中,它的各個部分互相依賴的程度將會增加。到了一個臨界點,因為互相關聯實在太緊密了,一部分出個小問題就會導致整個系統出大問題,那就是雪崩式的災難。

核電站的安全性、地震、森林大火,這些事情中包含自組織,各個部分之間會有複雜的聯動。而我們說過,所謂蝴蝶效應,罪過不在蝴蝶,恰恰就是因為系統中的複雜聯動。這些系統可能平時什麼事兒都沒有,但是其中蘊含著大災難的可能性。


可能一個地區每天都發生一萬次以上的小地震,影響微不足道,但是你考慮到地震是冪律分佈的事件,就必須對大地震做好防災準備。

*

總而言之,如果這個事件代表多個獨立隨機變量之和,它就滿足正態分佈,你不用擔心會有什麼極端的情況發生。如果一個事件是獨立隨機變量的乘積,那就是對數正態分佈,其中會有一些比較極端、但不是那麼極端的事情發生。而如果一個事件中的隨機變量不是互相獨立的,有互相模仿或者達成了緊密的關聯,那你就必須做好應對極端情況的準備。

如果你是一個管理者,這個數學感會讓你希望建立一個“原子化”的組織。其中的個體都獨立決定,不要互相模仿、不要有什麼民間組織和派系,實現正態分佈。這意味著你要打壓那些所謂一呼百應的“社會凝結核”,你要把壞消息的傳播控制在最低限度。


而作為個體,也許冪律分佈對你有某種誘惑……咱們會專門說說這個。


《模型思考者》3:三種分佈模型


分享到:


相關文章: