機器學習入門第1章:監督學習和樸素貝葉斯分類-第1部分(理論)


機器學習入門第1章:監督學習和樸素貝葉斯分類-第1部分(理論)

歡迎來到監督學習的墊腳石。 我們首先討論一個小的場景,它將成為將來討論的基礎。 接下來,我們將討論一些關於後驗概率的數學,也稱為貝葉斯定理。 這是樸素貝葉斯分類器的核心部分。 最後,我們將探索python的sklearn庫,並在Python的樸素貝葉斯分類器上編寫一小段代碼,以解決我們在開始時討論的問題。

本章分為兩個部分。 第一部分描述了樸素貝葉斯分類器的工作原理。 第二部分包括使用sklearn庫的Python編程練習,該庫提供了樸素貝葉斯分類器。 稍後,我們將討論我們訓練的程序的準確性。

樸素貝葉斯分類器

樸素貝葉斯分類器計算每個因素的概率(對於電子郵件示例,給定輸入功能將是Alice和Bob)。 然後選擇概率最高的結果。

該分類器假定功能(在這種情況下,我們有單詞作為輸入)是獨立的。 因此,Naive這個詞表示該假設。 即使這樣,它還是用於

· 實時預測

· 文字分類/垃圾郵件過濾

· 推薦系統

因此在數學上我們可以寫成

如果我們有某個事件E和測試參與者x1,x2,x3等。

我們首先計算P(x1 | E),P(x2 | E)…[作為事件E發生時x1的概率讀取],然後選擇具有最大概率值的測試參與者x。

機器學習入門第1章:監督學習和樸素貝葉斯分類-第1部分(理論)

我希望這能很好地解釋什麼是樸素貝葉斯分類器。 在下一部分中,我們將在Python中使用sklearn並實現Naive Bayes分類器以將電子郵件標記為垃圾郵件或火腿。 如果您需要任何幫助或有任何建議,請在下面的部分中進行評論。

想象一下兩個人Alice和Bob的單詞用法模式。 為了使示例簡單,我們假設Alice經常使用三個單詞[愛,偉大,美妙]的組合,而Bob經常使用單詞[狗,球,美妙]。

假設您收到了匿名電子郵件,發件人可以是Alice或Bob。 可以說電子郵件的內容是"我沙灘。 此外,海灘的日落美妙景色盡收眼底"

您能猜出誰是發件人嗎?

好吧,如果您猜到它是Alice,那您是正確的。 也許您的推理將是內容包含愛麗絲(Alice)使用的愛,偉大和美好的詞。

現在,我們在已有的數據中添加一個組合和概率。假設Alice和Bob使用以下帶有概率的單詞,如下所示。 現在,您能猜出誰是該內容的發件人:"美妙的愛"。

機器學習入門第1章:監督學習和樸素貝葉斯分類-第1部分(理論)

Probability of word usage of Alice and Bob

現在您怎麼看?

如果您猜是Bob,那是對的。 如果您瞭解其中的數學知識,對您有好處。 如果沒有,請不要擔心,我們將在下一部分中進行操作。 這就是我們應用貝葉斯定理的地方。

貝葉斯定理

機器學習入門第1章:監督學習和樸素貝葉斯分類-第1部分(理論)

它告訴我們給定B發生時A發生的概率,記為P(A | B),當我們知道給定B發生時B發生的概率,記為P(B | A),以及A和B各自發生的可能性 。

· P(A | B)是"給定B的A的概率",即給定B發生的A的概率

· P(A)是A的概率

· P(B | A)是"給定A時B的概率",即給定A發生時B的概率

· P(B)是B的概率

如果P(火)表示發生火災的概率,而P(煙)表示發生煙霧的概率,則:

P(火|煙)表示當我們看到煙霧時發生火的概率。 P(Smoke | Fire)表示發生火災時我們看到煙霧的概率。

因此,當我們知道"向後"時,公式的類型會告訴我們"向前"(反之亦然)

示例:如果因工廠發生的危險火災很少(1%),但煙霧相當普遍(10%),並且90%的危險火災會冒煙,則:

P(火|煙)= P(火)P(煙|火)= 1%x 90%= 9%P(煙)10%

在這種情況下,有9%的時間預計煙霧將意味著危險的火災。

現在,您可以將其應用於Alice和Bob的示例嗎?


(本文翻譯自Savan Patel的文章《Chapter 1 : Supervised Learning and Naive Bayes Classification — Part 1 (Theory)》,參考:https://medium.com/machine-learning-101/chapter-1-supervised-learning-and-naive-bayes-classification-part-1-theory-8b9e361897d5)


分享到:


相關文章: