學習NLP的第15天——序列標註

序列標註指的是給定一個序列,找出序列中每個元素對應標籤的問題。其中,標籤的所有可能的取值集合稱為標註集。

舉一個最簡單的例子:輸入自然數序列,輸出它們是否是質數,若是質數則標註為1,若不是則標註為0,並按順序排列為另一個序列。

<code>原始: 1  2  3  4  5  6  7  8
標註: 0 1 1 0 1 0 1 0/<code>

此時每個數字的判斷只取決於當前的元素,而不用考慮前後其他因素的情況。但是在自然語言處理領域的絕大部分序列標註則都是需要綜合考慮當前元素以及其前後元素的標籤才能決定當前標籤。

求解序列標註問題的模型一般稱為序列標註器,通常由模型從一個標註數據集中學習後,再用學習的結果進行預測。

下面我們主要討論序列標註在自然語言處理領域的應用:

中文分詞

最簡單的一種將中文分詞轉換為序列標註的方法,是將中文分詞視作對句子的一次次切割,只有切或不切兩種選擇,即標註集為{切,不切}。

<code>桃 花 簾 外 東 風 軟 , 桃 花 簾 內 晨 妝 懶
不 切 切 切 不 切 切 , 不 切 切 切 不 切 切/<code>

這樣的序列標註方法相對簡單,並不能有效區分一個詞語的結尾和單字成詞的區別。而且很多詞語的開始詞也有著共性,例如“桃花”、“桃樹”、“桃核”等。

基於此,就有了當前最流行的{B,M,E,S}標註集。其中B為詞語開頭、M為詞語中部、E為詞語結尾,S為單字成詞。

<code>桃 花 簾 外 東 風 軟 , 桃 花 簾 內 晨 妝 懶
B E S S B E S , B E S S B E S/<code>

詞性標註

詞性標註就是輸入句子中的詞語序列,輸出它們對應的詞性序列。

<code>桃花   簾    外   東風   軟  ,  桃花  簾    內   晨妝   懶
名詞 名詞 介詞 名詞 形容 , 名詞 名詞 介詞 名詞 形容/<code>

詞性標註集也不是唯一的,常見的有863標註集和北大標註集。同樣,詞性標註也需要綜合考慮當前詞前後詞語的詞性才能決定當前詞語的詞性。

命名實體識別

命名實體識別,就是識別句子中包含的人名、地名和機構名。

命名實體識別可以在中文分詞的基礎上,使用BMES標註集再次標註已經分好的詞語,由此來識別由多個不同詞語組成的命名實體。

學習參考文獻:《自然語言處理入門》(何晗):4.1


分享到:


相關文章: