ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

號外!又一撥頂會論文乾貨來襲!

據芯君瞭解,本次預講會在學術圈的火爆程度完全超出了主辦方的想象,開放報名的短短几天就全面滿額了,以至於主辦方不得不設定條件篩選參會者。

讀芯君作為本次預講會的活動媒體,將全程跟隨大會,為大家全程紀錄活動中最前沿的觀點,最有價值的成果,並特邀預講會論文報告者聯合為讀者朋友們推出預講會系列組文,向你展示頂會最新論文成果。

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

ACL 2018

用於中文事件檢測的區塊提議網絡

Nugget Proposal Networks for Chinese Event Detection

中國科學院軟件所

Institute of Software, Chinese Academy of Sciences

【摘要】基於神經網絡的模型通常把事件檢測看作是一個詞級別的分類任務,因此通常會受到詞與觸發詞之間不匹配問題的影響,這種問題在沒有自然詞分隔符的語言(例如中文)中更加明顯。在本文中,我們提出了區塊提議網絡(NPNs)的方法,該模型直接在每個字上預測出完整的觸發詞塊而不考慮詞邊界的限制,從而避免了詞-觸發詞塊之間的不匹配問題。具體而言,NPNs將事件檢測任務視為一個字級別的分類問題。模型首先學習得到一個字與詞的混合表示,該表示能夠捕獲觸發詞的結構信息以及語義信息。然後基於該表示,區塊提議網絡利用中文事件觸發詞的組合語義結構來直接預測出完整的觸發詞塊及其類別。在ACE2005和TAC KBP 2017數據集上的實驗表明,NPNs顯著優於當前最好的方法。

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

1 引言

事件抽取是信息抽取中的一個重要任務。事件檢測,旨在識別特定類型的事件觸發器,是事件抽取中的一個關鍵步驟。例如,從句子“Henry was injured, and then passed away soon”當中,一個事件檢測系統需要識別出“injured”觸發了一個“傷害”事件,而“passed away”則觸發了一個“死亡事件”。

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

圖1 詞與觸發詞的不匹配問題

現有的神經網絡模型大多數將事件檢測轉化為了一個詞級別的分類問題。然而,這類模型通常受到觸發詞與詞之間不匹配問題的影響。具體而言,一個事件觸發詞既可以是詞的一部分,也可以是多個詞。圖1中分別展示了一個觸發詞是詞的一部分以及多個詞的情況。表1中展示了ACE2005和KBP數據集上的觸發詞與詞的不同匹配關係的佔比。我們可以看到,在KBP數據上,有將近25%的觸發詞與詞之間是不匹配的。而在ACE2005上,這一比例也達到了將近15%。由此我們可以看出,觸發詞與詞之間的不匹配問題顯著地影響了現有的基於詞的觸發詞檢測模型的性能。

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

表1 觸發詞和詞之間的匹配佔比

基於此,本文提出了一種區塊提議網絡(NPNs) 的方法。它通過建模觸發詞的字級別組合結構來識別觸發詞,這一識別的過程並不依賴於詞的邊界。圖2展示了NPNs的整體架構。給定一個句子,NPNs 將字作為基本的檢測單元,並且通過建模觸發詞的內在組合結構來直接在每個字上預測整個完整的觸發詞塊。同時,通過學習字與詞的混合表示,NPNs能夠學習到更加精確的結構以及語義信息,從而能更有效地完成觸發詞塊的分類。

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

圖2 區塊提議網絡架構

同先前的方法相比,NPNs主要由以下兩點優勢:

1)通過直接在每個字上預測一整個完整的觸發詞塊,NPNs可以非常有效地解決詞與觸發詞塊不匹配的問題。因為NPNs使用字作為基本的檢測單位,因此詞與觸發詞的不匹配問題不會影響NPNs的性能。除此之外,通過建模觸發詞的內部組合結構,NPNs相比於傳統的字級別模型對於字級別分類錯誤有著更好的容錯率。

2)通過同時建模字級別和詞級別的語義信息,我們的混合表示可以有效地捕捉字的內部組合結構以及更精確的語義信息,從而得到更好的觸發詞檢測以及分類結果。

我們在ACE2005和TAC KBP2017中文事件檢測數據集上進行了實驗。實驗結果表明相比於現有最好的模型,NPNs可以有效地解決觸發詞與詞之間的不匹配問題,從而顯著地提升了事件檢測模型的效果。

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

2 混合表示學習

給定一個句子,NPNs為每一個字學習一個向量表示。該表示之後被送入下游模塊進行事件檢測。我們觀察到字級別和詞級別的信息都對中文事件檢測非常重要:字級別的信息解釋了觸發詞內部的組合結構;而詞級別的信息則包含有更精確的語義。因此,我們提出學習一個混合了字級別和詞級別信息的向量化表示。

我們首先使用了兩個基本模型來分別學習字級別和詞級別的表示,然後使用三種不同的方式來得到最終的混合表示。我們的基本模型類似於Chen等人提出的DMCNN模型,如圖3所示。

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

圖3 基本模型

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

圖4 三種混合方式

在字級別序列以及詞級別序列中分別使用該模型以後,我們可以得到一個字級別的特徵表示以及詞級別的特徵表示,然後我們使用如圖4所示的三種不同的策略將他們混合起來:

1)連接混合:即直接將字級別表示與詞級別表示連接。

2)通用混合:即使用一個Gate來建模字級別與詞級別的特徵的相對重要程度,從而得到一個通用的向量化表示用於下游的兩個模塊。

3)任務相關混合:使用兩個Gate來分別建模字級別與詞級別特徵對下游兩個模塊分別的重要性,從而得到兩個任務相關的向量表示分別用於兩個不同的下游模塊。

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

3 區塊提議網絡

在得到混合表示之後,區塊提議網絡主要分兩個步驟來完成事件檢測。首先是由觸發詞塊生成器在每個字上生成完整的潛在觸發詞塊,然後一個事件類別分類器被用來決定該觸發詞塊的具體類別。

3.1 觸發詞塊生成器

中文的觸發詞塊通常有內部的字級別的組合結構,例如“受了傷”是有“動詞+副詞+名詞”的結構,而“槍殺”“砍殺”則符合“工具+動詞”的模式。因此,如果模型可以捕捉這種組合語義結構,就可以直接在每個字上預測得到完整的觸發詞塊(例如在“殺”字預測整個“槍殺”詞塊)。近期的相關工作表明,卷積神經網絡可以非常好地捕捉這種局部區域的語義信息。因此,我們使用一個神經網絡來作為觸發詞塊生成器。在每個字的層級上,它不僅僅可以判斷這個字是否屬於某個觸發詞塊,還可以指出這個字在觸發詞塊中的位置,從而預測得到整個觸發詞塊。

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

圖5 觸發詞塊生成器

圖5展示了我們的觸發詞塊生成器。先前學習到的混合表示被送入了一個全連接層來計算得到不同的、包含有當前字的觸發詞塊的得分。每個觸發詞塊的定義是該觸發詞塊的長度以及當前字在該觸發詞塊中的位置。由於數據中98.5%的觸發詞塊的長度均小於等於3個字符,因此對於每個字,共有6個觸發詞塊可能包含有這個字。加上NIL標記(即該字不屬於任何觸發詞塊),一共有7個可能的觸發詞塊類別。計算得到這個打分之後,我們通過一個Softmax層來歸一化打分,從而得到每個類型觸發詞塊的分類概率。

3.2 事件類別分類器

一旦一個觸發詞塊被檢測到,當前詞的混合表示被送入另一個分類器來決定該觸發詞塊的具體類別。同先前的工作一樣,我們也直接將事件分類它的小的子類別,從而忽略了事件與事件之間的拓撲結構。

同觸發詞塊生成器一樣,我們的事件類別分類器也是通過一個全連接層來計算得到每個類別的打分,之後使用Softmax層來對打分進行歸一化,從而最終得到每個事件類別的概率。

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

4 實驗

4.1 實驗設置

我們在ACE2005與TAC KBP 2017中文事件檢測數據集上都進行了實驗。我們將我們的方法同如下幾組基線系統進行了比較:

1)字級別的神經網絡模型,包含有C-BiLSTM、FBRNN、以及字級別的DMCNN模型。

2)詞級別的神經網絡模型,包含有DMCNN、HNN、FBRNN等。為了緩解詞與觸發詞塊的不匹配問題,我們使用了errata replacing的方式來增強了上述基線系統。

3)特徵增強的當前最優模型,包含有CLUZH(KBP2017冠軍系統)以及Rich-C。

4.2 實驗結果

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

表2 實驗結果

表2展示了我們的實驗結果。我們可以看到:

1)在兩個數據及上,NPNs都顯著地優於所有的Baseline模型。

2)通過建模觸發詞的內部組合結構,我們的觸發詞塊生成器可以有效地解決詞與觸發詞塊之間的不匹配問題。

3)學習混合的字詞表示對於事件檢測來說是非常有效的。

4.3 同傳統的字級別模型對比

我們同時還將我們的模型與傳統的基於IOB的字級別模型進行了對比,實驗結果如表3所示。

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

表3 同字級別模型的對比

我們可以看到,NPNs要顯著的優於傳統的基於IOB的字級別標註模型。這是由於傳統的IOB模型中,正確標記一個觸發詞塊需要對其中的所有字都給出正確的標記,而這在很多時候非常困難(例如“受了傷”的“了”)。而在NPNs當中,每個觸發詞塊只有有一個字能夠給出正確的預測結果,剩下的字即使全部被分為NIL也不會影響到最終的結果。這使得NPNs模型有了更好的容錯能力。

ACL 2018|中科院軟件所:用於中文事件檢測的區塊提議網絡

5 總結

在本文中,我們提出了區塊提議網絡(NPNs)的方法,該模型直接在每個字上預測出完整的觸發詞塊而不考慮詞邊界的限制,從而避免了詞-觸發詞塊之間的不匹配問題。具體而言,NPNs將事件檢測任務視為一個字級別的分類問題。模型首先學習得到一個字與詞的混合表示,該表示能夠捕獲觸發詞的結構信息以及語義信息。然後基於該表示,區塊提議網絡利用中文事件觸發詞的組合語義結構來直接預測出完整的觸發詞塊及其類別。在ACE2005和TAC KBP 2017數據集上的實驗表明,NPNs顯著優於當前最好的方法。

由於檢測單元與詞的不匹配問題在信息抽取當中廣泛存在,在未來我們希望將NPNs應用到更多的信息抽取問題當中,例如命名實體識別。


分享到:


相關文章: