ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

ACL 2018

用於信息抽取中檢測任務的自適應縮放

Adaptive Scaling for Sparse Detection in Information Extraction

中國科學院軟件所

Institute of Software, Chinese Academy of Sciences

【摘要】本文關注於信息抽取中的檢測任務。在這類任務中,正例樣本通常非常稀疏並且模型通常使用F-Measure進行評價。這些特性使得傳統的神經網絡在檢測任務上無法得到最優的結果。在本文中,我們提出了自適應縮放(adaptive scaling),該算法可以處理正例樣本的稀疏問題並且直接針對F-Measure進行優化。為此,我們借鑑了經濟學中的邊際效用的概念,提出了一個用於衡量實例重要性的框架並且沒有引入任何額外的超參數。實驗結果表明我們的算法能夠得到更有效並且更穩定神經網絡檢測模型。

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

1 引言

檢測任務的目的是識別某些類別(例如實體、關係或者事件)信息在文檔當中的出現,該問題在信息抽取中廣泛存在。例如一個事件檢測系統應當能夠從句子“He was shot”中識別出一個“Attack”事件的觸發詞“shot”。

近年來,隨著基於神經網絡方法的發展,人們常常將事件檢測轉化為一個詞級別的分類問題來對待。例如,在句子中“亨利受傷 了”中,一個事件檢測系統通過將上述句子中的三個詞分別分類為“空”,“傷害事件”以及“空”,從而完成事件檢測任務。這類的模型對先驗信息的依賴較小,並且已經在事件檢測領域取得了較大的進展。

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

表1:分類問題與檢測問題對比

然而,與傳統分類問題不同的是,事件檢測任務有著顯著的類別不平等問題。這種類別不平等主要表現在數據分佈以及使用的評價指標上,如表1所示。在數據分佈上,被標記為“空”的樣本數量要顯著性地多於被標記為特定類別事件樣本的樣本數量。在評價指標上,我們通常使用在正類別上的F值作為評價標準,而在“空”類別上的正確預測結果常常被忽略。由於上述類別不平等的問題的存在,直接使用傳統的分類模型進行事件檢測常常得不到好的結果。儘管基於採樣的啟發式方法可以緩解這一問題,但是這些方法通常會丟失掉負例類內部的信息,或者是使得模型過擬合在整理樣本上,因此導致了訓練結果的不穩定。

由此,先前也有一些方法嘗試直接優化F指。Parambath等人證明了F值的優化可以通過代價敏感學習(cost-senstive learning)來完成。在這一學習過程當中,每個類別的樣本被賦予了一個重要性的權重。然而最優的權重(超參)通常是未知的,因此需要在開發集上使用各種各樣的搜索算法得到,這對於神經網絡來說代價非常大。

為了解決類別不平等問題,本文提出了一個用於度量樣本在訓練過程中的重要性的理論框架。我們引入了經濟學中的邊際效用的概念,並且講優化目標(通常是F值)視為效用函數。基於此,一個樣本的重要性取決於正確預測它所帶來的效用函數的邊際增量。對於使用正確率評估的傳統分類問題,我們證明了正負例樣本有著相同的邊際效用,因此所有樣本的權重是相同的。但是對於使用正類別上的F值作為評價標準的檢測問題,我們證明了正負例樣本有著不同的邊際效用,並且這一邊際效用隨著模型的擬合過程不斷地變化。這表明了樣本的重要性不僅僅取決於數據分佈,還取決於當前模型對於樣本的擬合程度。

基於上述框架,我們提出了自適應縮放,一個動態的代價敏感學習算法。該算法通過動態縮放不同類別樣本在訓練中的權重來使得模型的擬合過程與評價指標相一致。同時,我們提出了該算法的一種基於批處理的版本,使得我們的方法可以直接作為批處理神經網絡優化算法的一部分。同先前的方法相比,自適應縮放算法沒有引入任何額外的超參數,這使得我們的方法可以快速地在不同的模型和數據集之間遷移。

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

2 背景

2.1 正確率與交叉熵之間的聯繫

近年來的神經網絡分類模型大多數使用交叉熵作為損失函數。如果樣本個數趨向無窮,我們有

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

這表明了最小化交叉熵損失函數本質上是在最大化訓練數據上的分類器。

2.2 F-Measure同交叉熵之間的背離

然而,檢測任務通常使用正類上的F值進行評價,這使得它並不適合使用交叉熵作為目標函數。一個很簡單的例子就是將所有樣本均分為負類,這時候模型的準確率很高但是F值確是0.

為了更好地分析這一差異來自哪裡,我們觀察F值和準確率的公式

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

顯而易見的是,在準確率中,正確預測正例和負例(TP和TN)之間是對稱的,這意味著正例和負例有著一樣的重要程度。但是在F值裡,這種對稱性不復存在,這意味著正例和負例對於F值的影響是不同的。由此,要使得模型的訓練更加符合F值的標準,將這種不同納入考慮是必要的。

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

3 用於稀疏檢測的自適應縮放

3.1 基於邊際效用的重要性度量

邊際效用是一個經濟學中的概念,代表的是每增加消費一單位的某種商品或者服務能夠給總體效用帶來的增加量。我們借用這一概念來計算模型每預測對一個正例類別樣本以及負例類別樣本給最終評價準則帶來的提升。具體地,考慮事件檢測中常用到的微平均F值評價準則,我們使用它對正確預測正例樣本數量TP以及正確預測的負例樣本數量TN的偏導數來分別計算其對正負例樣本的邊際效用:

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

其中P與N代表訓練數據中正例樣本以及負例樣本的總的數量,PE表示正例與正例之間的預測錯誤。上述邊際效用即可以被視為是正例樣本以及負例樣本的相對重要性。

3.2 自適應縮放算法

基於上述重要性計算機制,我們將負例樣本的重要性與正例樣本的重要性的比值作為負例樣本在模型訓練中的權重,即

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

在此基礎上,在模型最優化的每一輪迭代當中,我們將使得模型的參數動態地朝著使用上述權重縮放後的交叉熵損失函數的梯度方向前進一步,即局部損失函數為:

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

3.3 自適應縮放算法的性質

性質1: 正例與負例的相對重要性與每個類的實例數量的比率以及當前模型如何適合每個類相關。這與先前類別不平衡問題以及F值最優化問題上的實證研究結果是一致的。

性質2:對於微平均的F值,所有的正例有著一樣的重要性無論其樣本數量的大小。這與微平均F值的定義是一致的。

性質3:負例的重要性隨著正類別準確性的提高而增加。這是一個非常直觀的結論因為如果模型對正例有很好的擬合結果了,那麼它應該把擬合的重點專項負例。

性質4:負例的重要性隨著負類別準確性的提高而增加。這可以使得整個訓練過程更加關注於較難的負例,這同Focal Loss是中的結論是一致的。

性質5:負例的重要性隨著對Precision的關注度上升而上升。這與我們實證研究中的結果是一致的。即如果模型更加關注於Precision而不是Recall,那應該通過增大負例的權重來保證召回的都是高置信度的正例。

3.4 批處理自適應縮放算法

為了使得動態重要性縮放方法能適用於基於批處理的神經網絡梯度優化算法,我們提出了一種基於梯度的方法來近似上述的動態重要性縮放方法。該方法使用如下的統計量來近似計算TP與TN

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

然後我們使用下述方法來近似計算

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

其中PB與NB為該批處理數據中正例樣本與負例樣本的個數。

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

4 實驗

4.1 實驗設置

我們在TAC KBP 2017事件檢測數據集上驗證了我們的方法。我們的實驗中包含有兩種模型(DMCNN和LSTM)以及兩個不同的數據集(中英文)。我們的基線系統包括有:

1) 原始模型,即不對類別不平等問題進行任何額外處理。

2) 下采樣,即通過採樣的方式僅保留一部分負例樣本。

3) 靜態縮放,即給負例樣本設置一個靜態權重。

4) Focal Loss,即根據樣本擬合的難易程度來動態調節樣本權重。

5) Softmax-Margin Loss,為不同類別的分類錯誤設置了不同的額外誤分類代價。

4.2 實驗結果

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

表2:實驗結果

表2給出了總體的實驗結果。我們可以看到:

1) 類別不平等問題對於檢測任務來說非常關鍵,需要特別的對待。我們可以看到,對比於原始模型,所有對該問題進行特殊處理的方法都得到了實驗結果的增長。

2) 正負例樣本需要被分別考慮。即使Focal Loss調低了易學習樣本的權重,它仍然難以得到很好的實驗結果,這是因為它沒有區分正負例樣本在訓練中的不同作用。

3) 基於邊際效用的框架為衡量實例重要性提供了堅實的基礎,從而使我們的自適應縮放算法穩步超越所有啟發式基線。

4) 我們的自適應縮放算法不需要額外的超參數,並且可以動態估計實例的重要性。這是的我們的方法成為了一個更穩定且可遷移的檢測模型訓練方法。

ACL 2018|中科院軟件所:用於信息抽取中檢測任務的自適應縮放

5 總結

在本文中,我們提出了自適應縮放(adaptive scaling),該算法可以處理正例樣本的稀疏問題並且直接針對F-Measure進行優化。為此,我們借鑑了經濟學中的邊際效用的概念,提出了一個用於衡量實例重要性的框架並且沒有引入任何額外的超參數。實驗結果表明我們的算法能夠得到更有效並且更穩定神經網絡檢測模型。

訓練目標和評價指標的差異廣泛存在於各類NLP以及機器學習任務當中。在未來,我們希望將我們基於邊際效用的框架應用到更多的評價指標上,例如MAP。


分享到:


相關文章: