分類是指解決預測樣本所屬類別的一類問題,即對於給定樣本x,輸出x所屬的類別。
當供選擇的類別只有2個時,稱為二分類,反之稱為多分類。而多分類的問題也可以通過二分類來解決。具體來說包含one-vs-one和one-vs-rest兩種方案。
- one-vs-one:進行多輪的二分類,每次比較兩個不同的分類,枚舉所有的所有的兩個分類的組合;理想情況下應該有且僅有一個類別在每一次比較中都被選中,成為預測結果。
- one-vs-rest:進行多輪的二分類,每次比較某個類別和非該類別,枚舉所有的類別;理想情況下應該有一個類別被模型賦予的費數是最高的,成為預測結果。
由此可見,只要有效實現了二分類,就可以應用於多分類的結果。
在NLP領域,分類問題的應用包括:
- 本文分類:天然的分類問題
- 新詞發現、關鍵詞提取:判斷每個單詞是否屬於新詞或關鍵詞
- 指代消解:判斷每個代詞是否和實體存在指代關係
- 近義詞替換:判斷兩個單詞是否是近義詞可以替換
- 語言模型:語言模型中,也可以將每個單詞視作一個類別,給定上文預測接下來要出現的單詞。
學習參考文獻:《自然語言處理入門》(何晗):5.1
閱讀更多 數據藝術家 的文章