03.06 樸素貝葉斯-01

樸素貝葉斯

 該算法在機器學習的領域文本分類效果是很好的。

例子:

樸素貝葉斯-01

早霧晴,晚霧陰:   這就是通過概率來說的,這裡明顯可以看到早上是霧天和今天一天是晴天,這兩者是存在先後的概率關係的,或者說早上是霧天的條件下今天一天是晴天的概率很大。

1、貝葉斯公式

概率和條件概率、聯合概率:

樸素貝葉斯-01

條件概率:   A條件下B發生的概率(紅色的部分是P(AB)):

樸素貝葉斯-01

全概率公式:

樸素貝葉斯-01

  紅色部分表示P(A1B),剩下的顏色也可以表示為P(A2B)、P(A3B),那麼B的發生概率就等於三者之和了,又因為P(B|A)=P(AB)/P(A),就可以得到全概率公式了。 貝葉斯公式(逆概公式):

樸素貝葉斯-01

  先驗概率推後驗概率。 貝葉斯在機器學習中的使用:

樸素貝葉斯-01

樸素貝葉斯的獨立假設才是在機器學習中被廣泛使用的算法:

樸素貝葉斯-01

  1:在機器學習中,樸素貝葉斯分類器是一系列以假設特徵之間強獨立(樸素)下運用的貝葉斯定理為基礎的簡單概率分類器。   2:高度可擴展的,求解過程知識花費線性時間。   3:目前來說,樸素貝葉斯在文本分類的領域運用比較多,無論是sklearn還是Spark Mlib中,都只定制化實現文本分類領域的算法。 那麼公式會變成:

<code>P(Xi|Y)=P(Y)*P(X1|Y)*P(X2|Y)....
/<code>

因為X1、X2之間是強獨立的,所以說本來的全概率公式作為分母就都是1了。(這種強獨立性,到底還是得看具體案例,不是每種情況都是這種理想假設的強獨立)


分享到:


相關文章: