08.31 用概率論告訴你：直覺到底有多不靠譜科學頭條網

08.31 用概率論告訴你：直覺到底有多不靠譜


本文來自公眾號：超級數學建模
微信號 ：supermodeling

除了與幾何概型有關的貝特朗悖論，貝特朗於1889年還提出了另一個貝特朗盒子悖論，這個悖論有一個著名的現代版本，實際上不算是“悖論”，因為它沒有邏輯矛盾。

但它是一個與博弈論相關的有趣的數學遊戲。

首先寫在這兒讓諸位娛樂一下。

三門問題

這個問題有好幾個等效版本，最早一版的日期可追溯到19世紀的貝特朗。

該問題在數學本質上也等同於馬丁·加德納1959年提出的“三囚犯問題”【1】。

不過這些老版本長時間都默默無聞，只是到了100多年之後的1990年左右，卻熱門了一陣子，在公眾中引起熱烈的討論。

其原因要歸功於美國一個著名的，從上世紀80年代一直延續至今的電視遊戲節目Let's Make a Deal。

由此例也足以可見現代媒體在公眾中普及科學知識之威力。

當年的節目主持人蒙特霍爾（MontyHall）善於與參賽者打心理戰，經常突如其來地變換遊戲規則，給參賽人和觀眾都來個猝不及防。

既使得觀眾們困惑不已，又迫使參賽者“腦筋急轉彎”，三門問題及各種變通版本便是他經常使用的法寶。

後來有人便將此遊戲以主持人的名字命名，也稱之為蒙特霍爾問題【2】。

用概率論告訴你：直覺到底有多不靠譜在三扇關閉了的門後面，分別藏著汽車和兩隻山羊。

如果參賽者選中了後面有汽車的那扇門，便能贏得該汽車作為獎品。

顯而易見，這種情況下，參賽者贏得汽車的概率是1/3。

圖1：三門問題

用概率論告訴你：直覺到底有多不靠譜不過，主持人有一次稍微將遊戲規則改變了一點點。

當參賽者選擇了一扇門但尚未打開之際，知道門後情形的主持人說：

“等等，我現在給你第二次機會。

首先，我將打開你沒有選擇的兩扇門中有山羊的一扇，你可以看到門內的山羊。

然後，你有兩種可能性：改變你原來的選擇（交換），或者保留原來的選擇（不交換）。”

主持人的意思是說：在參賽者選擇之後，他打開一扇有山羊的門，留下一扇未開之門，讓參賽者決定要不要將原來的選擇與剩下的未開之門“交換”？

用概率論告訴你：直覺到底有多不靠譜要不要交換？我們不從“碰運氣”而是從“概率”的角度來思考這個問題。

如果不交換，保持原狀的話，得汽車的概率是1/3。

如果交換的話，是否能增加抽到汽車的概率呢？

答案是會。

轉換選擇（交換）可以增加參賽者的機會，如果參賽者同意“換門”，他贏得汽車的概率從1/3增加到2/3。

用概率論告訴你：直覺到底有多不靠譜讓我們來分析一下整個遊戲過程中，由於參賽者的不同選擇而產生的各種具體情況，以及在這些情況下選擇“交換”後的結果。

參賽者指定3道門中的一道，有三種可能的情況，每種選擇的幾率相等（1/3），見圖2中的a、b、c:

（a）參賽者挑選有汽車的第1道門，主持人挑兩頭羊的任何一頭，開門。交換將失敗。

（b）參賽者挑選有羊的第2道門，主持人打開第3道門。交換將贏得汽車。

（c）參賽者挑選有羊的第3道門，主持人打開第2道門。交換將贏得汽車。

圖2：參賽者“同意轉換”得到汽車的概率變成2/3。

在後兩種情況，參賽者均可利用轉換選擇而贏得汽車，只有第一種情況將使得參賽者因轉換選擇而倒黴。

參賽者的轉換選擇，使得三種情況中的兩種贏，一種輸。

所以選擇“交換”，將贏的概率增加到2/3。

用概率論告訴你：直覺到底有多不靠譜也可以換一種思維方式來理解這個問題。

因為3道門中2道是羊，1道是汽車。

所以參賽者最初選到汽車的概率是1/3，選到羊的概率是2/3。

如果參賽者先選中汽車，換後一定輸；如果先選中羊，換後一定贏。

因此選擇“交換”而贏的概率，就是開始選擇羊的概率為2/3。

也許三門問題的解釋仍然有些使人困惑之處。

但如果將門的數目增加到10道門（主持人開啟8道有“羊”的門，留下1扇），100道門（主持人開啟98道有“羊”的門，留下1扇），甚至1000道門（主持人開啟998道有“羊”的門，留下1扇）。

這些情況下，參賽者選擇“交換”使概率增加的結論便顯而易見了。

用概率論告訴你：直覺到底有多不靠譜例如，圖3顯示的是10道門的情形。

圖3：十門問題

如果門的數目增加到10，其中9道門中是羊，1道是汽車。

參賽者開始也選中3號門，但3號門是汽車的概率只有1/10。

然後，主持人開啟了8道有羊的門，剩下2號門以及參賽者選中的3號，並問參賽者是否要“交換”？

這次參賽者的腦袋比較清醒：3號門是汽車的可能性是1/10，剩下的9/10的可能性都在2號門，交換使得概率增大9倍，當然要換，傻子才不換！

其實說“傻子才不換”，是有些不公平的。

用概率論告訴你：直覺到底有多不靠譜我們來想想看所謂的“貝葉斯派”會怎麼說這個問題？

三門問題存在一個客觀的概率分佈（舉10門為例）。

“有”汽車的概率分佈情況：有車之門概率為1，其餘9門概率為0。

不過這個客觀概率只有上帝（主持人）知道，外面的人只能憑主觀猜想。

他們所謂的概率只是他們根據已知的信息進行猜測的主觀概率。

用概率論告訴你：直覺到底有多不靠譜這兒有兩種基本的猜測方法（最開始的第一次，兩種方法都使用概率均分，每個門的概率均為1/10）：

1. （主觀地）認為選中那道門的概率不再改變，永遠=1/10，其餘的9/10在其它門中均分。

因此，後來，每當主持人打開1道有羊的門，其餘的門的概率變化（增加）。

但第一次選定之門概率不變（1/10）。

因此參賽者認為“要交換”！

2. （主觀地）認為選中那道門的概率與其它門的概率同樣如下變化：1/10，1/9，……，1/2。

因此，後來兩道門的概率均為1/2，換不換無所謂！

筆者認為這兩種都是他們各自的主觀概率，那些概率值並不是客觀存在，而是兩個人的主觀判定。

兩種方法最後都不會得到客觀概率，除非再打開一道門。

本福特定律

法蘭克·本福特（FrankBenford, 1883–1948）本來是一個美國電氣工程師，也是一名物理學家，在美國通用電氣公司（GE）實驗室裡工作多年直到退休。

這位工程師在50多歲的時候，卻迷上了一個與概率有關的課題。

課題得到的結論便是現在我們所說的“本福特定律”。

事實上，本福特定律的最早發現者並不是本福特，而是美國天文學家西蒙·紐康。

紐康於1877年成為美國航海天文歷編制局局長，並組織同行們重新計算所有主要的天文常數。

繁雜的天文計算經常需要用到對數表，但那個時代沒有互聯網，沒有阿里雲，對數表被印成書本，存於圖書館。

細心的紐康發現一個奇怪的現象：對數表中包含以1開頭的數的那幾頁比其他頁破爛得多，似乎表明計算所用的數值中，首位數是1的概率更高。

因此他在1881年發表了一篇文章提到並分析了這個現象【3】。

但沒有引起人們的注意，直到57年之後的1938年，本福特又重新發現這個現象。

說來令人奇怪，科學定律的發現有時候來自於一些毫不起眼，小得不能再小的現象。

本福特的發現便是如此：

以1開頭的數字比較多，這也算是一個定律嗎？本福特發現這種現象不僅僅存在於對數表中，也存在於其它多種數據中。

於是，本福特檢查了大量數據而證實了這點【4】。

本福特定律是一個乍聽起來有點奇怪並違反直覺的現象。

我們舉一個例子說明它。

設想某銀行有1000多個儲存賬戶，金額不等。

比如說，張本有存款23587元、老李1345元、小何35670元、劉紅9000元、王軍450元……等等。

奇怪的本福特定律不感興趣存款金額本身，而感興趣這些數值的開頭第一位有效數字是什麼，指的是這個數的第一個非零數字。

例如8.1、81、0.81的第一位有效數字都是8。

比如說，剛才幾個人存款數的第一位數字分別是2、1、3、9、4。

所以，本福特定律也叫“首位數字定律”。

一個數的第一位（非零）數字可能是1到9之間的任何一個。

現在，如果我問，在剛才那個銀行的上千個存款數據中，第一位數字是1的概率是多大？

不需要經過很多思考，大部分人都會很快地回答：應該是1/9吧。

因為從1-9，9個數字排在第一位的概率是相等的，每一個數字出現的概率都是1/9，大約11%左右。

圖4：本福德定律（首位數定律）及其應用實例

這聽起來十分正常的思維方法卻與許多自然得到的數據所遵循的規律不一樣。

人們發現，很多情況下，第一個數字是1的概率要比靠直覺預料的11%大得多。

數字越大，出現在第一位的概率就越小，數字9出現於第一位的概率只有4.5%左右。

各個數字出現在第一位的概率遵循如圖4左圖所示的概率分佈。

本福德和紐康都從數據中總結出首位數字為n的概率公式是：

P（n）=log_d（1+1/n）

其中d取決於數據使用的進位制，對十進制數據而言，d=10。

因此，根據本福德定律，首位數是1的概率最大，log₁₀2=0.301，十成中佔了三成；首位數是2的概率log₁₀（3/2）=0.1761；然後逐次減小，首位數是9的概率最小，只有4.6%。

圖4右圖所示的是符合本福德首位數法則的幾個例子：人口統計、基本物理常數、斐波那契數、階乘。

本福德收集並研究了20229個統計數據，分成20組，包括諸如河流面積、人口統計、分子及原子重量、物理常數等多種來源的資料。

數據來源雖然千差萬別，卻基本上符合本福德的對數法則，見圖5所示的數據表。

表中的最後一列數值，是根據本福特的對數規律公式計算得到的每個數字出現於首位的概率，讀者可以將它與真實數據相比較。

本福特定律適用範圍異常廣泛，自然界和日常生活中獲得的大多數數據都符合這個規律。

儘管如此，但畢竟還是有其應用範圍，主要是受限於如下幾個因素：

1.這些數據必須跨度足夠大，樣本數量足夠多，數值大小相差幾個數量級；

2. 人為規則的數據不滿足本福特定律。

比如說，按照某種人為規則設計選定的電話號碼、身份證號碼、發票編號，為造假而人工修改過的實驗數據等，都不符合本福特法則。

彩票上的隨機數據也不符合第一數字定律。

圖5：本福德從大量數據中得到的首位數字概率表

如何理解本福德定律

儘管本福德和紐康都總結出了首位數字的對數規律，但並未給出證明，直到1995年美國學者Ted Hill才從理論上對該定律作出瞭解釋，進行了嚴謹的數學證明【5】。

雖然本福德定律在許多方面都得到了驗證和應用，但對於這種數字奇異現象人們依舊是迷惑不解。

到底應該如何直觀理解本福德定律？為什麼大多數數據的首位數字不是均勻分佈而是對數分佈的？

有人探求數“數”的方法，來直觀理解本福德定律。

他們的意思是說，當你計算數字時，順序總是從1開始，1,2,3,...,9，如果到9就終結的話，所有數起首的機會都相同，但9之後的兩位數10至19，以1起首的數則大大多於其他數字。

之後，在9起首的數出現之前，必然會經過一堆以2,3,4,...,8起首的數。

如果這樣的數法有個終結點，然後又重新從1開始的話，以1起首的數的出現率一般都應該比較大。

可以用這種理解方法來解釋街道號碼（地址）一類的數據。

一般來說，每條街道的號碼都是從1算起，街道長度有限，號碼排到某一個數就終止了。

另一條街又有它自己的從1開始的號碼排列，這樣的話，看起來，1開頭的號碼是要多一些的。

但這種解釋也太不“數學”了！

況且，這種理解無法說明另外一類數據為什麼也符合本福德原則。

比如說，“物理常數”的集合、出生率、死亡率等，就不是從1開始計算到有限長度就截止的那種數據了。

另一種解釋是認為“首位數字定律”的根源是由於數據的指數增長。

指數增長的序列，數值小的時候增長較慢，由最初的數字1增長到另一個數字2，需要更多時間，所以出現率就更高了。

舉個例子來深入說明這個道理。

考慮你有100美元存到銀行裡，年利是10%，25年中，你每年的存款金額將是（$，只保留了整數部分）：

100、110、121、133、146、161、177、195、214、236、259、285、314、345、380、418、459、505、556、612、673、740、814、895、985

這是一個指數增長的序列。

在這組數據的25個數中，首位數字為1的有8個（32%）；2的4個；3的3個……9的只有1個（4%）。

那是因為從首位為1增加到首位為2，經過了更長的時間（8年），從首位為2，只經過4年就變成了首位為3，而首位為9的話，下一年就不是9了。

所以，指數增長規律的數列的確符合本福德法則。

讀者也許會有疑問：你上面的數列選擇從100開始，1打頭的比較多，如果從別的數字開始，規律是否會改變呢？

讀者可以試驗一下，從別的數開始得到的數據列，也一樣符合本福德法則。

此外，你還可以將美元換算成人民幣，得到的數據仍然會遵循本福德法則，這也說明本福德定律具有“尺度不變性”。

幫助偵破“數據造假”

不管你如何詮釋本福德定律，它是一個客觀存在，並且十分有用！

由於大多數財務方面的數據，都滿足本福德定律。

因此，它可以用作檢查財務數據是否造假。

美國華盛頓州偵破過一個當時最大的投資詐騙案，金額高達1億美元。

詐騙主謀凱文·勞倫斯及其同夥，以創辦高技術含量的連鎖健身俱樂部為名，向5000多個投資者籌集了大量資金。

然後，他們挪用公款用作自身享樂，為他們自己買豪宅、豪華汽車、珠寶等。

為了掩飾他們的不法行為，他們將資金在海外公司和銀行間進行頻繁轉賬，並且人為做假賬，給投資者造成生意興隆的錯覺。

所幸當時有一位會計師（Darrell Dorrell ）感覺不對頭，他將70000多個與支票和匯款有關的數據收集起來，將這些數據首位數字發生的概率與本福德定律相比較，發現這些數據通過不了第一數字法則的檢驗。

最後經過了3年的司法調查，終於拆穿了這個投資騙局。

2002年，勞倫斯被判20年牢獄。

2001年，美國最大的能源交易商安然公司宣佈破產，並傳出公司高層管理人員涉嫌做假賬的傳聞。

據說安然高層改動過財務數據，因而他們所公佈的2001-2002年每股盈利數據不符合本福特定律【6】。

此外，本福德定律也被用於股票市場分析、檢驗選舉投票欺詐行為等。

圖6：安然公司數據vs本福德定律

（圖片來源：The wall street journal【6】）

美國稅務局也利用本福德規則來檢驗報稅表，揪出逃稅漏稅行為。

據說有人曾經用此定律來檢驗美國前總統克林頓10年內的報稅數據，不過沒有發現破綻。

【1】Gardner, Martin (1959). "Mathematical Games"column, Scientific American, October 1959, pp. 180–182.

【2】Bohl, Alan H.; Liberatore, Matthew J.; and Nydick, Robert L.(1995). "A Tale of Two Goats ... and a Car, or The Importance ofAssumptions in Problem Solutions". Journal of RecreationalMathematics 1995, pp. 1–9.

【3】Newcomb, S (1881). "Note on the frequency of use of thedifferent digits in natural numbers". American Journal of Mathematics. 4(1): 39–40.

【4】Benford, F. (1938), The law of anomalous numbers, Proc.Amer.

PhilosophicalSoc. 78, 551–572.

【5】Hill, T. P. "A Statistical Derivation of theSignificant-Digit Law." Stat. Sci. 10, 354-363, 1996.。

【6】“The wall streetjournal”

https://www.wsj.com/articles/accountants-increasingly-use-data-analysis-to-catch-fraud-1417804886

徵稿啟示

中國科學探索中心微信公眾號歡迎賜稿！

稿件內容以反偽破迷為核心思想，科技哲學、科學與公眾、世俗人文主義、科技倫理等領域均可涉及，旨在將科學探索結果無偏見地告知公眾，避免公眾上當受騙。

稿件一經採用，我們將奉上稿酬。

投稿郵箱：[email protected]

中國科學探索中心

崇尚科學反偽破迷

您的關注和轉發，是對科學事業最大的支持！

分享到:

閱讀更多 中國科學探索中心 的文章

關鍵字: 數學朗於山羊

08.31 用概率論告訴你：直覺到底有多不靠譜

相關文章:

又一頂尖中國科學家撤離硅谷，回國力助阿里，多次刷新世界紀錄

《科學》發佈全球首個新冠疫苗動物實驗研究結果，來自中國科研團隊；騰訊視頻、愛奇藝等9家公司發佈行業自救聯合倡議書

5人口居住地將熱成撒哈拉？

治理太湖藍藻有了新突破

中國首次太空3D打印成功完成

天文學家們稱已經找到了離地球最近的黑洞

我國首次太空3D打印成功完成

高美生物Gomics與諾恩生物Known Biotech合併，加速致力於癌症早檢研發及推廣

一生盡瘁，國士無雙！#2020年已有15位院士去世#

抗病毒藥物重大發現 甘草苷可抑制新冠病毒複製

奇怪的宇宙！宇宙正在以奇怪的方式擴張 新型的暗物質如何解釋？

小行星威脅！最近，小行星的超近距離飛越 10％的機會與地球相撞

院士領銜科技領軍 雲南高層次人才培養支持計劃成績斐然

第100次撞擊!天文臺觀察小行星撞擊月球活動升溫 小行星最小5釐米

5500萬公里外，探測器拍到這顆星球古老河流痕跡，會有遠古生命嗎

今年最後一次XXL號“超級月亮”！不過

宇宙也有生命？科學家研究後給出大膽猜想：“它”是什麼？

誰是人類文明之光？誰又是人類公敵？

俄專家談月球採礦前景

假如地球是一個生命體，人類最終會被清理嗎？

太陽好像有特殊情況？科學家發現太陽磁性相當萎靡

宇宙大爆炸理論，讓哲學家靜悄悄的走開

原子被放大一億倍後，一個宇宙的模型出現了，微觀世界竟如此真實

中國科學家們創造了一種不用化石燃料的“空氣等離子”發動機原型

即將取得有關新冠病毒重大發現的華人研究人員在美國被槍殺

黑洞真存在嗎？根據熵增定律，黑洞在宇宙中就不應該存在

地球上的水究竟是從哪裡來的？科學家歷時20年終於找到正確答案

為何說一沙一世界？將沙子放大300倍，彷彿進入了另一個世界

明晚“超級月亮”又來了

宇宙星體那麼多，為什麼地球沒有和其它星休撞擊？

在6.5光年外，距離我們最近的棕矮星上，發現類似木星的雲帶

「深度」“胖五”B剛發射成功，美國搞“月球圈地”想排擠中國？

探測飛船在這顆距地球6億公里的星球上，再次發現了數個橢圓白點

為什麼海市蜃樓很難找到原型？真的是平行世界的折射？

宇宙有最大的恆星能有多大？有直徑達到一光年的恆星嗎？

達能提供5萬刀獎學金用於酸奶和腸道菌群探索

除了衛星導彈技術，錢學森還留下這一科技，全球只有五個國家有

英國遺傳學研究報告：任何想要找到0號病人的想法都是不現實的

新疆的“死海”正在復活，水都是怎麼來的？原來是這樣

又一頂尖科學家離開美國！美科技界炸鍋：他居然回國發展AR科技

用基因“拼圖”！歐洲首次人工合成活的新冠病毒，一週之內可大量生產

霍金留下的這幾個預言，有一個正在醞釀，或關乎人類的生死存亡

星系碰撞和星系併合，天體物理學的前沿研究

超級月亮又來了！這將是2020年最後一次

重磅：Nature全線137種期刊加入中國知網

我國“一箭9星”發射成功，印度“一箭百星”為什麼被外媒吐槽

5月7日，偽超級月亮同樣照亮夜空

愛因斯坦：宇宙都是設計好的！難道所有"掙扎"都是枉費？

機器人或出現意識？可能導致人類滅亡？是真的嗎？

總覺得外星人科技更先進？但是人類可能就是最高級文明瞭！

你覺得有哪些球員在世界盃後身價會大漲？

在西安，準備拉網線，哪個運營商的哪個套餐好？

亂世梟雄杜月笙，一生“傳奇”的上海王，晚年在香港生活的如何？

科學家根據什麼原理或方法推算出宇宙年齡為137億年，而不是138億年或136億年？

中超聯賽各支俱樂部引援如何，你怎麼看？

旅行者1號有遇到過外星人嗎？

都說杜月笙是舊上海的土皇帝，他的皇帝生活究竟是怎樣？

再生障礙性貧血，有什麼症狀？

膽汁返流的表現？

山西師範大學與哈爾濱師範大學哪個好？

為什麼考博不是全國統一呢？

如何評價iPhone 9充電頭曝光？

該怎麼規劃去內蒙古看呼倫貝爾大草原的路線？

LOL神超直播時，遭腳本玩家狂虐，賽後私下嘲諷神超，騰訊出手封號三年，你怎麼看？

呼倫貝爾草原旅遊六天，線路、行程怎麼安排合適？

自駕從鄭州到阿爾山、滿洲里、漠河，路線怎麼設計？

四川甘孜州有哪些地方值得一看？

怎樣看待巴基斯坦花費10億美元購買土耳其的輕型護衛艦一事？

世界盃上同樣是未來新星，姆巴佩已經成為主力，拉師傅為什麼連上場的機會都很少？

去內蒙古大草原旅遊，有哪些旅遊攻略可推薦？

4500元買iPhone第幾代比較划算，為什麼？

黑龍江有哪些特別好的大學，在全國排什麼位置？

委內瑞拉的問題怎樣才能解決？

為什麼印度當時不在元朝的領土內？

2018款長城H6怎麼樣？

揭秘黃金榮老婆是誰，黃金榮晚年是怎樣度過的？

西雙版納本地人喜歡吃哪家的燒烤？哪家最正宗最有特色？

哪個系列的OPPO手機最好？

抗病毒藥物重大發現甘草苷可抑制新冠病毒複製

奇怪的宇宙！宇宙正在以奇怪的方式擴張新型的暗物質如何解釋？

院士領銜科技領軍雲南高層次人才培養支持計劃成績斐然

第100次撞擊!天文臺觀察小行星撞擊月球活動升溫小行星最小5釐米