03.02 機器學習:監督學習的三類問題

有監督學習是指通過既有的樣本數據,找到潛在規律。解決的問題通常分為三類:

分類問題:這類問題也是監督學習核心問題,當輸出可以分為有限個離散值的問題。比如通過個人的信貸記錄判定信譽是好還是不好,通過質量的特徵來判定產品是否合格等等。這裡問題非常常見,用概率來描述就是通過學習得到P(Y|X)的概率分佈,P(Y|X)也是一個分類器。評價分類結果的好壞有個幾個指標:TP:正確的將正確的結果分出的個數;FN:假陰性(將正確的結果判定為錯誤);FP:假陽性(將錯誤的結果判斷正確);TN:正確的將不對的分類分出的個數。通常用精確率、召回率和F1值來評價分類的結果:精確率=TP/TP+FP,召回率=TP/TP+FN,F1=2TP/(2TP+FP+FN)。所以當假陰性和假陽性比較低(錯誤比較少)時,上述幾個指標都會比較高。

標註問題:可以理解為對輸入序列進行標識,比如詞性標註問題,輸入是一個句子輸出是對這個句子每個成分(主謂賓、定狀補)的標註。標註問題也可以看作是對輸入序列的結構發現,通過標註發現輸入成分之間的關聯。本質上是求P(Y1,Y2...YN|X1...XN),所以標註問題也可以看作是分類問題的複雜版本。

迴歸問題:當我們需要找到輸入和輸出之間的關係的時候,這類問題我們就可以看成是一個迴歸問題,迴歸問題本質上是求y=f(x),看成是一個函數擬合的過程。所以這類問題通常我們會將理想輸出和實際輸出的差距作為訓練效果的評價(平方損失函數),目的是使得這個差距最小化。最著名的就是最小二乘法。通常按照輸入的分類可分文線性和非線性迴歸、一元和多元迴歸,還可以組合一下比如一元或多元線性迴歸。

上述三個是針對問題的類型,通常不同類型的問題會採用不同的方法,如分類我們會考慮如最近鄰、支持向量機、貝葉斯分類、決策樹等方法;而對於標註問題我們會考慮:條件隨機場、隱馬爾可夫模型;對於迴歸問題:logistic迴歸和最大熵、神經網絡等等。


機器學習:監督學習的三類問題


分享到:


相關文章: