序列標註指的是給定一個序列，找出序列中每個元素對應標籤的問題。其中，標籤的所有可能的取值集合稱為標註集。

舉一個最簡單的例子：輸入自然數序列，輸出它們是否是質數，若是質數則標註為1，若不是則標註為0，並按順序排列為另一個序列。

<code>原始: 1  2  3  4  5  6  7  8
標註: 0  1  1  0  1  0  1  0/<code>

此時每個數字的判斷只取決於當前的元素，而不用考慮前後其他因素的情況。但是在自然語言處理領域的絕大部分序列標註則都是需要綜合考慮當前元素以及其前後元素的標籤才能決定當前標籤。

求解序列標註問題的模型一般稱為序列標註器，通常由模型從一個標註數據集中學習後，再用學習的結果進行預測。

下面我們主要討論序列標註在自然語言處理領域的應用：

中文分詞

最簡單的一種將中文分詞轉換為序列標註的方法，是將中文分詞視作對句子的一次次切割，只有切或不切兩種選擇，即標註集為{切,不切}。

<code>桃 花 簾 外 東 風 軟 ， 桃 花 簾 內 晨 妝 懶
不 切 切 切 不 切 切 ， 不 切 切 切 不 切 切/<code>

這樣的序列標註方法相對簡單，並不能有效區分一個詞語的結尾和單字成詞的區別。而且很多詞語的開始詞也有著共性，例如“桃花”、“桃樹”、“桃核”等。

基於此，就有了當前最流行的{B,M,E,S}標註集。其中B為詞語開頭、M為詞語中部、E為詞語結尾，S為單字成詞。

<code>桃 花 簾 外 東 風 軟 ， 桃 花 簾 內 晨 妝 懶
B   E  S   S  B   E   S ， B   E  S   S  B  E   S/<code>

詞性標註

詞性標註就是輸入句子中的詞語序列，輸出它們對應的詞性序列。

<code>桃花   簾    外   東風   軟  ，  桃花  簾    內   晨妝   懶
名詞 名詞 介詞 名詞 形容 ， 名詞 名詞 介詞 名詞 形容/<code>

詞性標註集也不是唯一的，常見的有863標註集和北大標註集。同樣，詞性標註也需要綜合考慮當前詞前後詞語的詞性才能決定當前詞語的詞性。

命名實體識別

命名實體識別，就是識別句子中包含的人名、地名和機構名。

命名實體識別可以在中文分詞的基礎上，使用BMES標註集再次標註已經分好的詞語，由此來識別由多個不同詞語組成的命名實體。

學習參考文獻：《自然語言處理入門》(何晗)：4.1

分享到:

閱讀更多 數據藝術家 的文章

關鍵字: 序列原始自然語言處理

學習NLP的第15天——序列標註

中文分詞

詞性標註

相關文章:

學習NLP的第15天——序列標註

中文分詞

詞性標註

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

婚前男方擁有個人房產，婚後將這房產賣出用這房產的錢來買房，怎麼算個人財產？

男方出首付，婚後一起還房貸，房產證名字怎麼寫？

女兒離婚，婆家有3套房產，但都是婚前財產，父母應該怎麼樣為女兒爭取利益？

三星低端A40S以及中高端A80值得購買嗎？

如何看待今年高考報考人數超過一千萬人？

97分！利物浦成五大聯賽最高分亞軍，與衛冕冠軍曼城只有“一分之差”，是不是太苦了？

榮耀20值得等待嗎？還是入手榮耀v20？謝謝？

曼聯0-2卡迪夫，博格巴謝場時遭球迷辱罵，其豎大拇指+雙手合十回應，你怎麼評價？

泰迪一定要吃狗糧嗎？

銀行職員將存款500元打成500萬元，儲戶把錢用完了需要擔法律責任嗎？為什麼？

拉布拉多和金毛犬養哪一個比較好？

貝爾本賽季表現並不差，為什麼會遭齊祖徹底放棄？

在取款機裡取到假幣該怎麼辦？

如果有張（J036519610）紙幣，能否認定年號鈔嗎？聽聽大家的看法？

2019版人民幣將要發行，那麼99版和05版現在值得去收藏嗎？

不流通的舊人民幣值多少錢，該如何處理？

第四套人民幣豹子號值錢嗎？

第四套人民幣豹子號值錢嗎？

怎麼分辨902綠幽靈？

EXCEL如何把數值批量轉換成文本？

閬中古城離廣元市多遠？

宜賓：情感糾紛女子背幼子欲跳橋，路過民警救下, 你怎麼看？

Excel中，有哪些激動人心的功能？

Word有什麼技巧是讓你相見恨晚的？

excel中的數據有效性怎麼用？

excel中如何設置excel表格到期後不能使用？

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪