01.11 等待中的悖論:概率分佈簡介

我必須等多長時間才能上車?

等待中的悖論:概率分佈簡介

Photo by Jerry Zhang on Unsplash

誰不知道這種感覺:您步行去公交車站,等公共汽車,然後…等。 然後您再等一會。 還有更多。 有人告訴您,巴士平均每10分鐘一班。 現在您已經等了10分鐘。 公共汽車現在不應該到嗎? 還有一個更緊迫的問題:您要等待多長時間?

答案是:持續10分鐘。 如果您假設任意兩輛公交車到來之間的時間都呈指數分佈,則需要10分鐘。

這是矛盾的,令人驚訝,但這是事實。 它被稱為等待悖論。 這是我最喜歡的數學悖論之一。 我非常喜歡它,以至於在我們在公交車站等車的時候,有時我會隨機地把它告訴隨機的陌生人。

他們通常認為我瘋了。

沒關係。

要了解等待悖論,我們首先需要了解概率分佈。 什麼是概率分佈?

(連續)概率分佈

隨機變量是一個變量,其值不是確定性的,而是取決於隨機性。 概率分佈是描述此類隨機變量X的所有可能值以及該變量可能採用的這些值的概率的函數。

我們通常可以將概率分佈分為兩類:

  • 離散 和
  • 連續

離散意味著我們的隨機變量只能採用有限多個或至少可計數的無限多個值。 在連續的情況下,隨機變量可以取無數個無限數量的值。 在大多數情況下,這基本上意味著離散隨機變量採用的數字為1、2、3…,而連續隨機變量可以為任何實數。

離散隨機變量的一個很好的例子是投幣或擲骰子,人口規模等。

連續隨機變量的一個很好的例子是距離,身體高度,體重等等-基本上,任何可能是任何實數值或實數子集的東西。

等待中的悖論:概率分佈簡介

Photo by Riho Kroll on Unsplash

在這個故事中,我們將只討論連續概率分佈。

可以使用累積概率分佈函數(通常用F(x)表示)來描述(連續)概率分佈。 如果F(x)是可微的,即存在該函數F(x)的導數,則該導數稱為概率密度函數,並用f(x)表示。

旁註:實際上,F(x)幾乎在任何地方都需要可微,但是對於我們將使用的示例,我們可以說F(x)需要可微,而f(x)是F的導數 (X)。

累積分佈函數(cdf F(x))

隨機變量X(也稱為cdf)的累積概率分佈函數F(x)= P(X≤x)主要具有兩個屬性:

  • 它在單調增加
  • 它採用0到1之間的值。
等待中的悖論:概率分佈簡介

Some examples of cdfs for three very popular probability distributions.

概率密度函數(pdf f(x))

概率密度函數f(x),也稱為pdf,主要具有兩個屬性:

  • 它只需要正值
  • f(x)與x軸之間的區域為1。
等待中的悖論:概率分佈簡介

Some examples of pdfs for three very popular probability distributions.

概率分佈的pdf不一定存在,而cdf總是存在,即使我們可能不總是能夠使用已知的標準函數將其寫下來。 一個很好的例子就是正態分佈,人們通常會知道著名的鐘形曲線,即它的pdf,但是對於cdf,我們通常只寫pdf的積分而不是明確地寫它。

如果pdf存在,我們可以用它來計算隨機變量X的期望值。

期望值E(X)

連續隨機變量X的期望值E(X)然後由

等待中的悖論:概率分佈簡介

期望值的解釋是什麼?

好吧,這個名稱有點讓人誤解,因為它不是您期望的值,而是如果我們僅經常重複進行一次實驗,隨機變量將取的平均值! 實際上,我們可能永遠也觀察不到期望值。

讓我舉一個例子來理解這一點。 假設我們進行了一個(離散的)實驗,其期望值為0.5,即1000次。 如果我們將所有觀測值相加併除以1000,它將非常接近我們的期望值0.5。 這是由於一個定理稱為大數定律。

例如,假設您扔了一枚硬幣1000次。 如果獲得正面評價,您將獲得1分。 如果是反面,您將獲得0分。 隨機變量X描述了您扔硬幣一次時獲得的分數。

如果它是一個公平的硬幣,它的期望值是

E(X)= 0.5 * 1 + 0.5 * 0 = 0.5,

使用期望值的真實定義來計算。

另外,在將硬幣投入1000次之後,您應該在獲得1000次投入後獲得500點積分,因此期望值將為500/1000 = 0.5,但這是我們在拋硬幣時永遠無法達到的值!

指數分佈

讓我們看一下指數分佈。 這是我最喜歡的概率分佈。 為什麼? 因為它簡單,美觀且充滿驚喜。

參數λ> 0的指數分佈的cdf由下式給出

等待中的悖論:概率分佈簡介

pdf由

等待中的悖論:概率分佈簡介

然後我們可以通過

等待中的悖論:概率分佈簡介

Calculating the expected value of E(X) for an exponentially distributed random variable X using integration by parts.

我們還可以為幾個不同的參數λ(例如,對於λ= 0.3,λ= 1和λ= 3)繪製pdf,以瞭解其行為。

等待中的悖論:概率分佈簡介

等待的悖論

現在讓我們回到等待悖論。 我們假設任何兩個到達之間的時間是獨立的,並且以λ= 0.1分鐘呈指數分佈。 這意味著兩次到達之間的預期時間為

E(X)= 1 /λ= 1 / 0.1 = 10

分鐘或平均每10分鐘一班。

令X為描述兩次到達之間時間的隨機變量。

現在,我們說,自從最後一班車到達以來已經過了幾分鐘。 我們必須再等待t分鐘的概率是多少,即兩次到達之間的時間為s + t或以數學術語表示的概率是多少?

P(X> s + t | X> s)?

好吧,我們可以計算一下。 答案是,就像我們從未等待過而必須等待t分鐘一樣,即P(X> t)。

等待中的悖論:概率分佈簡介

From (I) to (II), we use the definition of the conditional probability. If X is both greater than s+t and greater than s, it simplifies to X being greater to s+t since both s and t are positive (III). We then use P(X >s)=1-(P ≤ s) in (IV), so we can use the cumulative distribution function (V). We then insert the distribution function of the exponential distribution (VI) and simplify (VII). We then do steps (III)-(VI) backward.

起初這很矛盾,令人驚訝!

這個屬性也是為什麼無論我們什麼時候到達公交車站,如果公共汽車平均每10分鐘一班,我們仍然不得不再等十分鐘(至少平均)。 為了使這一點更加明顯,我們還可以在X大於s的情況下計算X的條件期望值,即在已經等待s分鐘的情況下計算期望的總等待時間。

然後舉行

E(X | X> s)= E(X)+ s。

再次,解釋是相同的,無論我們已經等待了多少時間,我們仍然有望再等待1 /λ分鐘。

計算起來有些棘手,所以可以跳過這一部分(如果您有興趣,可以放縱一下)。

我們要計算

等待中的悖論:概率分佈簡介

其中帶有雙線的1是所謂的指標函數。 為此,我們首先計算提名者。

等待中的悖論:概率分佈簡介

In line 1, we use the fact that the indicator function is 1 on the given interval and 0, else. We then solve the integral by integration by parts and simplify the equation.

然後我們得到期望的結果

等待中的悖論:概率分佈簡介

From line 1 to line 2, we use the result from the above calculation. We then simplify and use that the expected value of X is 1/λ.

就是如此

為什麼Waiting-Paradox僅適用於指數分佈?

由於矩陣呈指數分佈,因此"等待悖論"起作用。 實際上,指數分佈是唯一適用的連續分佈。

對於所有其他發行版,它將不起作用。 有一個直觀的解釋。 使用指數分佈,任意兩個到達之間的時間不是均勻分佈,而是指數分佈。 這意味著有時兩次到達之間的時間可能很大,但通常會非常小。

等待中的悖論:概率分佈簡介

因此,更有可能我們陷入了漫長的等待期而不是短暫的等待期。

例如,如果我們生活在一個理想的世界中,公交車每10分鐘到達一次(即不再有隨機性),而我們到達的時間是隨機的,即在最後一輛公交車到達後的0到10分鐘之間均勻分佈,那麼我們 平均會等待5分鐘。

等待中的悖論:概率分佈簡介

Pdf of the uniform distribution between 0 and 10 with expected value of 5.

這是因為任意兩個到達點之間的距離均勻。 如果我們隨機地到達公交車站,那麼趕上一個很大的等待間隙的機會就會相對較小。 而且,與指數分佈相比,兩輛公交車緊挨著到達的機會要小得多。

但是,等等,現實生活如何?

這是數學,誰在乎現實生活中真正發生的事情? 好吧,我只是在開玩笑。 當然,當公共汽車按時間表到達(或多或少)時,我們當然不能假設兩次到達之間的時間呈指數分佈。 在理想的情況下,公交車可以按計劃到達。

但是,在我的故鄉柏林,假設指數分佈可能並不遙遠。 因為有時我到達公交車站,所以我等了10分鐘。 然後,同一條線上的三輛公交車緊接著又到達。 這些時刻使我相信,在對這個問題建模時,指數分佈可能不是最差的選擇。

下次您等在公共汽車站等閒聊時,這裡有個故事要講。


(本文翻譯自Maike Elisa的文章《The Waiting Paradox: An Intro to Probability Distributions》,參考:https://medium.com/cantors-paradise/the-waiting-paradox-an-intro-to-probability-distributions-97c0aedb8c1)


分享到:


相關文章: