伯努利試驗:到底如何理解隨機性?


伯努利試驗:到底如何理解隨機性?

我們上一講講到隨機性是有規律可循的,於是才有了概率論。

扔十次硬幣,真的會有五次朝上?

但是它的規律性其實和我們直覺想象的不一樣,以至於在生活中大部分人會誤讀概率。比如說,我們知道拋硬幣正反兩面朝上的概率各一半,但你現在去拋十次硬幣,真的有5次正面朝上麼?其實這種可能性只有1/4左右,顯然和大多數人的直覺完全不同了。

再比如有一個賭局,贏面是10%,你玩十次是否就能保證贏一次呢?如果不能,需要多少次才有很高的把握贏一次呢?這個結果其實是26次,這可能也顛覆了你的認知。因此我們這一講就要正本清源,通過一些例子講清楚隨機性到底意味著什麼,我們該如何得到正確的統計規律,而不是主觀偏見。

我們都知道,統計學的規律只有經過了大量隨機試驗才能得出,也才有意義。

但是隨機試驗得到的結果,和我們用古典概率算出來的結論可能是兩回事。不僅你擲10次硬幣大部分時候不可能得到五次正面朝上的結果,你做其它隨機試驗也是如此。

比如你擲12次骰子,大約只有30%的情況它正好有兩次六點朝上。這時你是否能講,有70%的可能性要否定六點朝上的概率是1/6這個結論呢?似乎也不應該這麼武斷。

這裡面到底哪裡出了問題?這其中的關鍵是,如何解釋真實情況和理想中的概率之間的偏差。

為什麼現實概率和理想概率總有偏差?

幾百年前,法國數學家伯努利等人為了回答這個問題,就開始做一些最簡單的隨機試驗,這種試驗簡單到只有兩種結果,非A即B,沒有第三種狀態,而且在同樣條件下重複這種試驗,A和B發生的概率需要一致。

比如拋硬幣,每次正面朝上的概率是1/2;擲骰子,事件A是“六點朝上”,它出現的概率每次也是1/6。當然事件B就是其它點朝上,每次的概率是5/6。在一般情況下,出現A的概率是p,B的概率是1-p。這類試驗後來被稱為伯努利試驗。

好了,基本的設定講清楚了。我們來分析一下擲硬幣的問題。照理講,我們擲10次硬幣,正面朝上的次數應該是5次。但是如果你真的拿一個硬幣去試試,你會發現可能只有三次正面朝上,也可能四次正面朝上,甚至會出現沒有一次正面朝上的情況。

如果我們把從0次正面朝上,也就是說全部是背面朝上,到10次全是正面朝上的可能性都算出來,畫成一個折線圖,就是一箇中間鼓起的曲線:

從圖中可以看出,雖然5次正面朝上的可能性最大,但是隻有1/4左右。

伯努利試驗:到底如何理解隨機性?


造成試驗結果和理論值不一致的原因,是試驗十次數量太少,統計的規律性被試驗的隨機性掩蓋了。如果我們做更多的隨機試驗,規律性是否會更清晰一點呢?

比如我們做100次試驗,這時你會發現,80%的情況下,正面朝上出現了40~60次。如果我們繼續放大試驗的次數,你會發現絕大多數情況正面朝上的次數在一半左右浮動,那種正面朝上佔比特別少或者特別多的可能性幾乎不會出現,而不是像一開始那樣,什麼情況都有可能。

當然,如果你做1000次試驗,在99.9%的情況下正面朝上的次數在400~600之間。即使你把浮動的範圍縮小到450~550,99.7%的情況下正面朝上落在這個範圍內。

在一般情況下,如果進行N次這種簡單的伯努利試驗,那麼事件A會發生多少次呢?雖然我們感覺應該是總次數N乘以每次發生的概率p,但是實際上事件A發生多少次都是有可能的。當然發生N*p次的可能性最大,接下來發生N*p+1或者N*p-1次的可能性次之,然後向兩頭逐漸遞減。

如果我們將它畫成一條曲線,就是中間高兩頭低的曲線。順便說一下,滿足這種曲線的概率分佈,被稱為伯努利分佈,也稱為二項式分佈,因為每一次試驗的結果有兩種。

我們還看這個實驗,事實上,如果試驗次數N比較大,那中間就是一個大鼓包,然後快速下降,兩旁幾乎是零,這也就是說事件A發生的次數在N*p左右的可能性極大,其它的可能性極小。相反,如果總次數N比較小,中間的鼓包就比較平緩,兩頭的值雖然小,但不會是零,其實難以判定事件A到底發生了多少次。

於是,我們就得到這樣一個結論:有關不確定性的規律,只有在大量隨機試驗時才顯現出來,當試驗的次數不足,它則顯現出偶然性和隨意性。

如何找出這個偏差的本質?

當然,在數學上我們不能用“曲線比較鼓”,或者“比較平”之類不嚴格的語言來描述一種規律。我們需要用兩個非常準確的概念來定量描述“鼓”和“平”的差別。這第一個概念就是平均值或者叫做數學期望值,也就是N*p,因為概率是p的事件進行N次試驗後,平均發生的次數,也是最可能發生的次數,好,這是N*p。

接下來我們再用平方差(簡稱方差)這個概念來描述曲線的“鼓”與“平”。“方差”這個詞你可能並不陌生,那麼什麼是方差,它是如何計算的呢?我們下面就簡單地說一說。

方差其實是對誤差的一種度量,既然是誤差,就要有可對比的基點,在概率中,這個基準點就是數學期望值(簡稱期望值),也就是我們通常說的平均值。比如說,做10次拋硬幣的試驗,平均值就是5次正面朝上,5就是基點。

如果我們做10次試驗只出現4次正面朝上的情況,就有了誤差,誤差是1。如果9次正面朝上,那麼誤差就大了,就是4。好了,接下來我們就把各種誤差,和產生那些誤差的可能性一起考慮,做一個加權平均,算出來的“誤差”就是平方差。

之所以使用“平方”這個詞,是因為計算方差這種誤差時用到了平方,為了進一步方便誤差和平均值的比較,我們通常會對方差開根號一次,這樣得到的結果被稱為標準差(嚴格來講,方差開根號後和標準差還是略有差別,但是這個差別很小,為了便於理解,我們就假定標準差是方差開根號的結果)。

關於方差和標準差的公式我們就省略了,大家只要記住下面這個結論就可以了,那就是伯努利試驗或者其它類似的試驗,試驗的次數越多,方差和標準差越小,概率的分佈越往平均值N*p的位置集中。顯然,在這種情況下,你用A發生的次數,除以試驗次數N,當作A發生的概率,就比較準確。

反之,試驗的次數越少,概率分佈的曲線就越平,也就是說A發生多少次的可能性都存在,這時你用A發生的次數,除以試驗次數N,當作A發生的概率,誤差可能會很大。

具體到拋硬幣的試驗,進行100次試驗,標準差大約是5次,也就是誤差相比平均值50,大約是10%。但是如果我們做10000次試驗,標準差大約只有50,因此和平均值相比,降到了1%左右。

理想與現實:成功需要更多準備

有了方差的概念,我們就能定量分析“理想”和現實的差距了。什麼是理想呢?我們進行N次伯努利試驗,每一次事件A發生的概率為p,N次下來發生了N*p次,這就是理想。那麼什麼是現實呢?由於標準差的影響,使得實際發生的次數嚴重偏離N*p,這就是現實。

比如,在生活中,很多人覺得某件事有1/N發生的概率,只要他做N次,就會有一次發生,這只是理想。事實上,越是小概率事件,理想和現實的差距越大。比如說一件事發生的概率為1%,雖然進行100次試驗後它的數學期望值達到了1,但是這時它的標準差大約也是1,也就是說誤差大約是100%,因此試了100次下來,可能一次也沒有成功。

如果你想確保獲得一次成功怎麼辦呢?你大約要做260次左右的試驗,而不是100次。這裡面的數學細節我們就不講了,大家記住這個結論就好,就是越是小概率事件,你如果想確保它發生,需要試驗的次數比理想的次數越要多得多。

比如買彩票這種事情。你中獎的概率是一百萬分之一,你如果要想確保成功一次,恐怕要買260萬次彩票。你即使中一回大獎,花的錢要遠比獲得的多得多。因此,瞭解了標準差,就該懂得人為什麼不要去賭。這算是我們今天在認知方面要了解的第一個知識點。

我們要了解的第二個知識點是,提高單次成功率要遠比多做試驗更重要。

假如你有50%的成功可能性,你基本上嘗試4次,就能確保成功一次,當然理想狀態是嘗試兩次。為了保險起見,要多做100%的工作。但是如果你只有5%的成功可能性,大約需要50次才能確保成功一次,而不是理想狀態中的20次。為了保險起見,要多做150%的工作。

很多人喜歡賭小概率事件,覺得它成本低,大不了多來幾次,其實由於誤差的作用,要確保小概率事件發生,成本要比確保大概率事件的發生高得多。

關於概率論和統計學的規律,還有很多和大家直覺不相符的地方。比如我們前面所說的各種大量的隨機試驗,需要在相同條件下進行,而且前後各次試驗是彼此不會相互影響的。這兩件事在現實中,還真不容易滿足。

就拿擲骰子來說吧,看似擲N次不過是擲一次的多次重複,但實際上擲的次數多了骰子會磨損,桌面也會砸出坑,這些細微的差異累積下來就會產生不同的結果,我們原以為試幾次就能發生的事情,可能沒有發生,這就要我們事先考慮更多的餘量。

要點總結:

我們從概率論上證明了,凡事做好充足的準備,爭取一次性成功,這要遠比不斷嘗試小概率事件靠譜得多。同時涉及到隨機性的問題時,只有通過大量可重複性的試驗,才能看到規律性,而數量較少的試驗,更多地體現出來的是隨意性和偶然性,而非規律性。

歡迎你把文章轉發給你的家人朋友,幫他們正確理解隨機性。我們下一講增加一個維度,還討論這個問題。下一講見。——吳軍《數學通識五十講》


分享到:


相關文章: