03.08 貝葉斯統計為什麼優於頻率統計?

這句話導致了丹尼斯林德利對克倫威爾規則的定義,這提出瞭如果一個先驗概率等於零(我知道某些事情不是真的)或一個(我知道某事是真的)的想法,然後,儘管向你展示了什麼證據,你的信念也不會被動搖。

在本文中,我們通過形象舉例深刻剖析頻率統計與貝葉斯統計之間的區別,深入探討貝葉斯統計的神秘世界,以及它的一些原則,如克倫威爾規則、伯恩斯坦 - 馮米塞斯定理、伯努利審判,有助於分析現實世界的機器學習問題。

貝葉斯統計為什麼優於頻率統計?

貝葉斯縮小了範圍、指明瞭方向

拿例子說話。

我把手機放在了家裡的某個地方。我可以使用儀器底座上的電話定位器來定位電話,當我按下電話定位器時,電話會開始發出嗶嗶聲。

問題:我應該搜索我家的哪個區域?

頻繁推理

我能聽到手機發出的嗶嗶聲。我還有一個心理猜測模型,即根據聲音來確定區域。因此,在聽到嗶嗶聲後,我推斷出我家的區域,我必須遍歷搜索來找到手機。

貝葉斯推理

我能聽到手機發出的嗶嗶聲。現在,除了幫助我識別聲音來自哪個區域的心理模型之外,我還知道過去經常放錯電話的位置。因此,我結合我的推論使用了嗶嗶聲和我之前關於我過去放錯電話的位置的先驗信息,以確定我必須搜索以找到手機的區域。

從這個例子,可以看出兩者的區別,貝葉斯推理比頻繁推理應用了更多的經驗,縮小了範圍、避免盲目。

貝葉斯統計捕獲真正關心的信息:逆概率

假設在醫院,患者健康(H)或生病(S),我們將對患者進行測試,結果將為陽性(+)或陰性(- )。如果患者生病,他們將始終獲得陽性結果。我們稱之為正確的(Correct)結果。

P(+ | S)= 1

也就是說:

P(Correct | S)= 1

如果患者健康,95%的時間測試將是陰性,但會有一些誤報。

P(- | H)= 0.95

P(+ | H)= 0.05

對於健康人來說,測試正確的概率是95%。

因此,該測試要麼100%準確,要麼準確率為95%,具體取決於患者是健康還是生病。總之,這意味著測試至少95%準確。

到現在為止這些還是頻率論者的陳述。這些陳述很容易理解。

但是,當你試圖換一種方式,讓事情變得有趣。鑑於測試結果,你可以瞭解患者的健康狀況。如果測試結果為陰性,患者顯然是健康的,因為沒有假陰性。

但我們也必須考慮測試是陽性的情況。是因為患者實際上病了,還是假陽性?這是頻率論者和貝葉斯派的分歧。每個頻率論支持者都會同意目前無法回答這個問題。他們會拒絕回答。貝葉斯將準備給你一個答案,貝葉斯先生告訴它患病的比例是多少。

總結一下,以下陳述是正確的:

  • 對於健康人,測試很準確。
  • 對於病人,測試非常準確。

如果您對此類陳述感到滿意,那麼你事實上在使用頻率統計的解釋。

但如果讓你做出不同的陳述並回答以下問題:

  • 對於那些測試結果為陽性的患者,測試的準確度如何?

這需要先驗和貝葉斯定理。另注意,這是醫生唯一感興趣的問題。醫生會說“我知道患者會得到陽性結果或陰性結果。陰性結果意味著患者健康並且可以送回家。現在我感興趣的是獲得陽性結果的人- 他們生病嗎?”

總之,在這樣的例子中,貝葉斯將同意頻率論者所說的一切。但貝葉斯認為,頻率論者的陳述雖然是真實的,但並不是很有用

頻率論者將依次考慮參數(H或S)的每個可能值,並詢問“參數是否等於該值,我的測試正確的概率是多少?

相反,貝葉斯將反過來考慮每個可能的觀測值(+或- )並詢問“如果我剛剛觀察到這個值,那麼它告訴我健康(H)和生病(S)的條件概率是什麼?

從這個例子,可以看出兩者的區別,貝葉斯統計(推理)能夠獲得逆概率的信息,這個是貝葉斯定理公式中一目瞭然的。為什麼這個很重要呢?觀察值(測量者)往往不一定是準確的,而真正的實際情況的條件概率才是我們關心的,才是最重要的。

貝葉斯統計的作用過程

極小概率問題:日出問題

“不管發生了什麼,太陽第二天仍然會照常升起”,你對這個真理的堅信來源於你從來沒碰見過一天,太陽沒有升起。但是...

貝葉斯統計為什麼優於頻率統計?

想象一下,有一天早上你醒來,太陽決定休息一天。這不僅會(最有可能)破壞你的一天並搞砸你的生物鐘,這也會直接改變你對太陽昇落的感覺。你不再堅信太陽永遠會第二天升起來的真理了!更有可能預測到第二天太陽也不會升起。或者說,你對太陽將再次休息一天的期望將會比以前高很多。

貝葉斯統計的作用過程就是:我們根據新證據改變了對事件發生概率的先有的、固有的看法。這是所有貝葉斯統計數據的關鍵。

更數學的描述一下,貝葉斯規則:

貝葉斯的規則告訴我們,我們必須從一些關於事件發生可能性的固有概率開始(事前)。我們稱之為先驗概率。逐漸地,隨著我們獲得新的觀察和證據,我們查看證據,決定我們當前立場的可能性基礎上更新我們的信念。這種更新的信念稱為後驗概率(事後)。

貝葉斯統計為什麼優於頻率統計?

回到我們的日出問題,我們每天都觀察到太陽昇起,每當它發生時我們都會更確定它會在第二天再次升起。但是,如果有一天我們發現太陽沒有上升,這將根據新的證據對我們的後驗概率產生巨大影響。

這在數學上以下面的形式表達,起初看起來令人生畏但可以被抽象:我們更新的信念是基於我們最初的信念和基於我們當前信念(可能性)呈現的新證據

。有多少新的證據,我們的信念有有多少可能是正確的。如果最初信念是太陽明天不上升的概率是百萬分之一,如果某一天(僅僅是如果)太陽沒有照常升起,那麼我的信念錯誤的可能性非常高,後驗概率會更新以預測它是更有可能再次發生。

貝葉斯統計為什麼優於頻率統計?

先驗至上主義:克倫威爾規則

奧利弗·克倫威爾(Oliver Cromwell)是英國曆史上的傑出人物,1658年在蘇格蘭教會大會上引用了一句名言:

"“我懇求你們,以基督的同情心想一想,你們可能錯了。”

貝葉斯統計為什麼優於頻率統計?

這句話導致了丹尼斯林德利對克倫威爾規則的定義,這提出瞭如果一個先驗概率等於零(我知道某些事情不是真的)或一個(我知道某事是真的)的想法,然後,儘管向你展示了什麼證據,你的信念也不會被動搖。

這向我們展示了在觀察可以經驗觀察的事物時絕對主義觀點的危險性。如果我堅信一種信念,我確信我是對的,沒有人會說或做任何事情都不會說服我。這是無知的高度,而不是我們想要融入機器學習模型的東西。如果我們回顧貝葉斯定理,我們可以看出為什麼會出現這種情況,

如果我們的先驗概率為零,那麼將它乘以任何東西仍然會給我們一個後驗概率為零。

原則上,沒有可能將某種概率設置為零,因為物理世界中的任何東西都不應該被認為是完全不可能的 - 即使與所有觀察的和當前的理論相反。

可能發生這種情況的一個理想例子是神經網絡。當你啟動神經網絡時,節點會以某些固有值開始。如果將這些節點全部分配為權重為零,則節點將無法自行更新,因為梯度下降算法的所有迭代都將乘以零。而是進行隨機初始化(通常對用戶不可見),這通常可以防止諸如此類的問題。

貝葉斯定理的另一個有趣的特性來自於我們觀察在無數次觀察之後發生的事情,通常稱為伯恩斯坦 - 馮米塞斯定理。

伯恩斯坦 - 馮米塞斯定理

簡單來說,伯恩斯坦 - 馮米塞斯Bernstein-von Mises定理告訴我們,當我們獲得更多數據時,我們的後驗估計將漸近地獨立於我們的初始(先驗)信念 - 當然,它假設它遵循克倫威爾規則。這在某些方面類似於頻率統計中的數字法則,它告訴我們樣本的平均值最終將與總體相同,因為我們獲得的數據越來越多。

機器學習中貝葉斯統計與頻率統計

以硬幣翻轉為例 - 不公平硬幣(不均勻)出現的可能性是多少?

貝葉斯統計為什麼優於頻率統計?

頻率統計解釋

翻轉不公平硬幣時看到頭部的概率是在重複翻轉硬幣時看到頭部的長期相對頻率。

也就是說,當我們進行更多的硬幣翻轉時,作為總翻轉的比例獲得的頭數傾向於硬幣作為頭部出現的“真實”或“物理”概率。特別是運行實驗的個人並沒有結合他們自己對其他硬幣公平性的看法。

貝葉斯統計解釋

在任何翻轉硬幣之前,個人可能認為硬幣是公平的。幾次翻轉後,硬幣不斷上升。因此,對硬幣公平性的先前信念進行了修改,以解釋三個頭已經連續出現的事實,因此硬幣可能不公平。在500次翻轉後,有400個頭,個人更強烈的認為硬幣不太可能公平。後驗信念在很大程度上修改先前對公平硬幣的信念。

在機器學習中,貝葉斯方法和頻率方法之間的根本區別在於隨機性存在的位置。在頻率範疇中,數據被認為是隨機的,而參數(例如,均值,方差)是固定的。在貝葉斯範疇中,參數被認為是隨機的而數據是固定的。這是因為相比於數據,我們更關心產生這些數據的系統(參數)。

伯努利審判:機器學習更加關注產生數據的參數

對於硬幣試驗,以機器學習的視角來審視貝葉斯統計的魅力!

伯努利試驗是一項隨機試驗,只有兩種結果,通常標記為“成功”或“失敗”,其中每次試驗時成功的概率都完全相同。成功的概率由θ給出θ,這是0和1之間。

在進行一些硬幣翻轉實驗(重複伯努利試驗)的過程中,我們將生成一些數據D,關於頭或尾。

一個自然的例子問題是“給出一個公平的硬幣(θ=0.5),在8次翻轉中看到3個頭的概率是多少?”。

模型幫助我們確定給定參數θ的值,此數據D的概率。表示為:P(D | θ )。

但是,如果你考慮一下,我們實際上對另一個問題感興趣,“考慮到我看到了特定的頭尾序列,硬幣是公平的的概率是多少?”

因此,我們對P(θ | D )概率分佈感興趣,這反映了我們對θ的不同可能值的信念。鑑於我們已觀察到一些數據D,可得P(D | θ )。那麼我們如何在這兩個概率之間得到什麼呢?事實證明,貝葉斯的規則是允許我們在兩種情況之間進行的鏈接。

貝葉斯統計為什麼優於頻率統計?

貝葉斯統計推理的規則:

P(θ | D )= P(D | θ )P(θ )/P(D )

  • P(θ )是先驗這是我們對θ的信念的力量,不考慮證據D。我們之前關於硬幣有多公平的可能性的看法。
  • P(θ | D )是後驗這是一旦證據D已被考慮在內,我們對θ的信念的力量θ。在看到8次翻轉中的4個頭之後,比如說,這是我們關於硬幣公平性的最新觀點。
  • P(D | θ )是可能性這是由具有參數θ的模型生成數據D的概率。如果我們知道硬幣是公平的,這就告訴我們在特定數量的翻轉中看到許多頭的數據D的概率。
  • P(D )是證據這是通過對所有可能的θ值求和(或積分)確定的數據的概率,其中加權我們對θ的特定值的相信程度。如果我們對硬幣的公平性有多種看法(但不確定),那麼這就告訴我們看到一系列翻轉的可能性,以便我們相信硬幣的公平性。

貝葉斯推斷的整個目標是為我們提供一個合理的,數學上合理的程序,以便將我們先前的信念與手頭的任何證據結合起來,以產生更新的後驗信念。使其成為如此有價值的技術的原因在於後驗信念本身可以用作新數據生成的先驗信念。因此,貝葉斯推理允許我們通過反覆應用貝葉斯規則來不斷調整我們在新數據下的信念。

我們什麼時候應該使用貝葉斯統計?

貝葉斯統計包含可用於機器學習的特定類型的模型。通常,由於各種原因中的一個或多個原因,人們會使用貝葉斯模型,例如:

  • 數據點相對較少
  • 具有強大的先前直覺(來自預先存在的觀察/模型)關於事物是如何工作的
  • 具有高度不確定性,或強烈需要量化特定模型或比較模型的不確定性水平
  • 想要對替代假設的可能性提出一些要求,而不是簡單地接受/拒絕零假設

我們可以清楚地看到,頻率論和貝葉斯方法之間存在很大的協同作用,特別是在當今大數據和預測分析變得如此突出的世界中。我們為各種系統提供大量數據,我們可以不斷地對系統進行數據驅動的推斷,並在越來越多的數據可用時不斷更新。由於貝葉斯統計提供了更新"知識"的框架,實際上它在機器學習中使用了很多。


分享到:


相關文章: