《算法之美》:使用冪律、正態和愛爾朗分布來做出正確的預測

《算法之美》:使用冪律、正態和愛爾朗分佈來做出正確的預測

下文節選自《算法之美:指導工作與生活的算法》, 已獲出版社授權許可, [遇見數學] 特此表示感謝!

真實世界的先驗……

從廣義上講,世界上有兩種類型的事物:傾向於(或圍繞)某種“自然”價值的事物,以及與之相反的事物。

人類的生命跨度顯然是屬於前一類。它大體遵循所謂的“正態”的分佈,也被稱為“高斯”分佈(這是以德國數學家卡爾·弗里德里希·高斯命名的),同時因其分佈的形狀特徵也被形象地稱為“鐘形曲線”。這種形狀能很好地表現人類的壽命,例如,美國男性的平均壽命集中在76歲左右,曲線頂端的兩邊呈現急劇下降的趨勢。正態分佈往往都有一個適當的比例:一位數的壽命往往會被認為是悲慘的,三位數的壽命是非凡的。自然世界的許多其他事情也都呈現正態分佈的趨勢,從人的身高、體重、血壓,到城市正午的溫度,或是果園的果實直徑。

《算法之美》:使用冪律、正態和愛爾朗分佈來做出正確的預測

正態分佈概率密度函數

世界上有許多事物看起來似乎並不呈現正態分佈,但這只是因為你沒有長遠地看。例如,美國一個城鎮的平均人口是 8226 人。但是如果你要按人口統計該城鎮數量圖表,你就不會看到像鐘形曲線那樣長遠才能實現的東西。還有很多小鎮的人口遠不足 8226 人,同時,某些重要城鎮的人口會比平均人口要大得多。這種模式就是所謂的“冪律分佈”,也被稱為“無標度分佈”,因為他們可以在多個尺度的範圍表達數量:一個城市能有幾十,數百,數千,數萬,數十萬,甚至數百萬名的居民,所以我們不能以一個單一的數值來定義一個“正常”的城鎮有多大。

冪律分佈可以描述在日常生活中一系列與城鎮人口分佈類似的現象:大多數都低於平均值,少數是超過的。電影的票房收入,其範圍可以是從 4~10 位的數字,這是另一個例子。有些電影根本掙不了那麼多錢,但偶爾也有像《泰坦尼克號》這樣的高票房電影。

事實上,一般來說,貨幣是一個充滿權力法則的領域。冪律分佈可以描述人民的財富和人民的收入。例如,美國的人均收入是5568美元,但由於收入大致是呈冪律分佈的,這樣我們便會得知,平均值以下的人會比平均值以上的要多,而平均值以上的人的收入可能高得幾乎偏離了圖表。事實也的確如此:美國2/3 的人口收入低於平均收入,但前1% 的人的收入幾乎是平均水平的10 倍。這 1% 中的前1%的人的收入又是其餘 99% 的 10 倍。

《算法之美》:使用冪律、正態和愛爾朗分佈來做出正確的預測

帕累託分佈以意大利經濟學家維弗雷多·帕雷託命名的, 是從大量真實世界的現象中發現的冪定律分佈

人們常常感嘆“富人會變得更富有”,實際上“偏好依附”的過程是產生冪律分佈的最可靠的方法之一。我們使用最多的網站往往就是最有可能獲得導入鏈接的網站,擁有最多人追隨的網絡紅人就是最有可能獲得新支持者的人,最有聲望的公司就是最有可能吸引新客戶的公司,最大的城市就是最有可能吸引新居民的城市。在這每一種情況下,冪律分佈都會得出這個結果。

貝葉斯法則告訴我們,在基於有限的證據進行預測時,很少有事情是和好的先驗一樣重要的,也就是說,我們期望證據可以從分佈結果中得出。因此,良好的預測最開始要有良好的直覺,要能感覺到我們何時在處理一個正態分佈,何時在處理一個冪律分佈。事實證明,貝葉斯法則為我們處理這些情況各提供了一個簡單但顯著不同的預測經驗法則。

他們的預測規則

你是指“這會一直”朝好的方向發展嗎?——本•勒納

為了驗證哥白尼原則,我們看到,當給貝葉斯法則一個無信息先驗時,它會一直預測事物的總壽命為目前壽命的兩倍。事實上,無信息先驗的可能性有很寬泛的尺度,柏林牆可能繼續存在幾個月或幾千年,這個尺度就是冪律分佈。對於任何冪律分佈,貝葉斯法則表明,一個合適的預測策略就是相乘法則:將迄今觀察到的數量乘以一些常數。對於無信息先驗,這個常數一般是2,哥白尼預測的方法由此得來;在其他冪律的情況下,所乘的數將取決於你工作的精確分佈。例如,對於電影票房,它正好是1.4。所以,如果你聽到一部電影到目前為止已經賺了600萬美元,那麼你可以猜測,它總共將賺840萬美元。如果它現在賺了9 000萬美元,那麼可以預計的最高票房將是1.26億美元。

冪律分佈不能表明它們所描述的現象的自然範疇,這就直接導致了相乘法則的出現。因此,唯一能給我們的預測提供一些關於範疇的想法的就是我們所擁有的單一數據點,比如柏林牆已經存在 8 年了。單一數據點的值越大,我們可能要處理的範疇也就越大,反之亦然。當然這種情況也是有可能的:這部電影的票房現在是 600 萬美元,而實際上它只是在第一個小時票房驚人,它更可能是一個只有幾百萬美元票房的電影。

另一方面,當我們將正態分佈作為貝葉斯法則的先驗時,我們會得到一個非常不同的指導。我們會得到一個“平均”規則,而不是相乘法則:使用分佈的“自然”平均數作為指導。例如,如果有人還沒達到平均壽命,那麼就直接將其年齡預測為平均值。隨著他們的年齡增長並超過平均水平,就預測他們還會再活幾年。遵循這一規律為 90 歲和 6 歲的兩個人給出的合理預測年齡分別為 94 歲和77 歲。(6 歲的孩子的預測壽命比76 歲的平均壽命略高是因為他已經順利度過了嬰兒期:這樣我們就知道他不處於分佈的尾端。)

電影的時長就像人類的壽命,也遵循正態分佈:大多數電影都在100 分鐘左右,某些特殊的電影時長處於分佈的兩端。但並不是所有的人類活動都是這樣的。詩人迪安·楊曾經說過,每當他聽一首帶編號的詩時,如果讀者開始念第四節,他的心就會一沉:如果有三個以上的部分,楊就會重新開始,靜坐細聽。事實證明,楊的沮喪完美體現了貝葉斯法則。通過對詩的分析可發現,它不同於電影的時長,詩歌更接近於冪率分佈而不是正態分佈:因為大部分詩是短的,除了某些史詩。所以說到詩歌,首先你要確保有一個舒適的座位。正態分佈的東西似乎太長了,最後必然會很快結束。但冪律分佈的東西存在的時間越長,你可以預測它繼續下去的時間就越長。

《算法之美》:使用冪律、正態和愛爾朗分佈來做出正確的預測

Erlang Distribution 的概率密度函數

在這兩個極端之間,生活中實際上還有第三種事物:那些不具有更大或更小可能性結束的事物,只因為他們已經持續存在了一段時間。有時候事情是簡單的、不變的。丹麥數學家瓦格納·厄蘭研究了這種現象,他將獨立事件之間的間隔形式化並推導出帶有他名字的函數:厄蘭分佈。這條曲線的形狀不同於正態分佈或冪律分佈:它有一個類似翅膀的形狀,峰值上升較緩,尾部下降的趨勢比冪律分佈得快,但比正態分佈得緩。在20世紀初,他為哥本哈根電信公司工作,用這種分佈曲線來模擬在電話網絡中連續通話的時間。自那以後,厄蘭分佈([遇見數學]小編注:即愛爾郎分佈,Erlang Distribution)也被用於城市規劃以及汽車和行人交通的建設模型中,並被網絡工程師在設計互聯網的基礎設施時使用。自然世界中存在多個維度,其中發生的事件彼此也是完全獨立的,它們之間的間隔從而就落在了厄蘭曲線上。放射性衰變就是一個例子,這意味著厄蘭分佈完美地預測了蓋革計數器的下一次提示聲何時會發出。其在描述例如政客在眾議院的任職時間這類的人類活動時也表現不俗。

厄蘭分佈給出了第三種預測法則——相加法則:總是預測事物只會再持續一個常量。我們經常聽到的“只需5分鐘!……(5分鐘後)再給我5分鐘!”這往往表現了人們的某種特徵,比如說,當一個人準備離開房子或辦公室,或完成一些任務的最後時間,這似乎預示著在對現實做出估計時可能出現的一些慢性故障。不過,在一個人不符合厄蘭分佈的情況下,無論如何,這種話都可能是正確的。

例如,如果一個賭場紙牌愛好者告訴他不耐煩的配偶,他會在贏得一次21 點後就停手(贏的概率約為20∶1),他會很高興地預測:“我再買20 次就會贏了!”20 次後她又回來,問他要讓她再等多久,那麼,他的答案將是不變的:“我再買大約20 次就會贏!”這聽起來像是我們這位不懈的賭鬼已經進入短期記憶喪失模式了,但事實上,他的預測是完全正確的。事實上,無論他們過去或目前的狀態是怎樣的,分佈結果會產生相同的預測,這一結果被統計學家稱為“無記憶性”。

這三個非常不同的最佳預測模式——相乘法則、平均法則和相加法則都是通過將貝葉斯法則應用到冪律、正態和厄蘭分佈上得出結果的。因為這些預測的出現,這三種分佈也給我們提供了不同的指導,讓我們知道對某些事件應該有多驚訝。

在冪律分佈中,某個事物已經存在的時間越長,我們可以預測它繼續存在的時間也就越長。因此,冪律事件讓我們等待的時間越長,就會讓我們更加驚奇,尤其在它發生前的一刻。一個國家、一個公司或一個機構,年復一年地變得更加強大,所以當它崩潰時總是令人震驚。

在正態分佈中,如果事件提前發生就會令人驚訝,因為我們期望它們達到平均水平,但當它們推遲發生時不會如此。的確,到了這一點,它們似乎推遲發生了,所以我們等待的時間越長,我們就會越期待。

在厄蘭分佈中,通過定義的事件無論何時發生都不會給我們帶來更多或更少的意外。任何事情的狀態都有可能結束,不管它已經持續了多久。毫無疑問,政治家總是會對他們下一次的選舉進行準備。

《算法之美》:使用冪律、正態和愛爾朗分佈來做出正確的預測

賭博的特點類似於穩態預期。例如,如果你所等待的輪盤賭注的勝利是呈正態分佈的,那麼平均法則將適用於此:在一個壞運氣後,它會告訴你,你的號碼應該會隨時中獎,在輸了更多次之後會更快出現。(在這種情況下,它的影響會持續到下一次勝利,然後停止。)相反,如果你等待的勝利呈現冪律分佈,那麼相乘法則會告訴你勝出盤會一次接著一次出現。(在這種情況下,如果你這局勝出了就應該繼續下注,如果長時間沒有勝出就該停手。)然而,當面對無記憶分佈時,你就進退兩難了。相加法則告訴你,現在贏的機會和一小時前一樣,一小時後也如此。一切都沒有什麼變化。你沒有因為長時間的等待而得到大獎,也沒有一個轉折點會告訴你何時應該停止你的損失。在電影《賭棍》中,肯尼·羅傑斯提出了一個著名的建議,他說,你必須“知道什麼時候走開,或知道什麼時候繼續”,但對於無記憶分佈而言,沒有一個絕對正確的退出時間。這可能就是為什麼這些遊戲會讓人上癮的部分原因。

知道你所面對的是什麼樣的分佈十分重要。當哈佛大學的生物學家和作家斯蒂芬·傑伊·古爾德發現自己得了癌症後,他的第一個念頭就是去閱讀相關的醫學文獻。然後他發現為什麼他的醫生會勸阻他這樣做:患他這種癌症的病人有一半在確診8 個月內死亡。

但是這一個統計數字(8 個月)並沒有告訴他任何關於倖存者的分佈。如果這是一個正態分佈,那麼平均法則將給出一個相當明確的預測,告訴他還可以活多久:約 8 個月。但是,如果它是冪律分佈,尾部延伸到右側,那麼情況就會大不相同:相乘法則會告訴他,他活得越久,就會有越多的證據證明他能活得更長。進一步閱讀後,古爾德發現:“分佈確實是強烈右偏,長(但比較小的)尾巴延長數年以上,都超過8個月的中位數。我看不出我為什麼不應該待在那條小尾巴上,我長長地鬆了一口氣。”古爾德在確診後又活了20年。(下一節:小數據與思維,待續)


分享到:


相關文章: