05.20 4900篇NIPS 2018提交論文難評審?北京大學學術論文自動評分模型

近兩日,NIPS 2018 8000 多篇投稿(後經 Hugo Larochelle 澄清,為 4900 篇)、使用本科畢業生做同行評審的信息刷爆朋友圈。在人工智能火熱的今天,頂級大會收到的論文是越來越多,對同行評審的人數、要求也越來越高。恰好,機器之心發現一篇北京大學被 ACL 2018 接收的論文,提出使用模塊化分層卷積神經網絡來對學術論文的 LATEX 源文件進行自動評分。由於之前並沒有相關研究,為此作者構建了包含 19218 篇人工智能領域學術論文的新數據集。

每年都會有數千篇學術論文被提交給會議和期刊。對所有論文進行專家評分是相當費時費力的,有時候評審員的個人因素也會對評分的分值產生影響,導致不公平問題。因此,自動化的學術論文評分是一項迫切需求。在本文中,研究者提出瞭如何基於論文的 LATEX 源文件和元信息自動地對學術論文進行評分,並稱該任務為自動化學術論文評分(AAPR)。

和 AAPR 相似的任務是自動化的短文評分(AES)。AES 已經被研究了很長時間。Project Essay Grade(Page, 1967, 1968)是最早的嘗試解決 AES 的研究,它通過在專家制作的文本特徵上使用線性迴歸來預測分數。大多數隨後的研究使用了類似的方法,在包含語法、詞彙和風格(Rudner and Liang, 2002; Attali and Burstein, 2004)的更加複雜的特徵上使用多種分類器。這些傳統方法幾乎可以達到人類評分員的程度。然而,它們都需要大量的特徵工程,即需要大量的專業知識。

近期研究轉向使用深度神經網絡,並稱深度學習模型可以使系統從繁重的特徵工程中解放出來。Alikaniotis 等人在 2016 年提出了使用 LSTM 結合線性迴歸輸出層來預測分數。他們添加了一個分數預測損失到原始的 C&W 嵌入上(Collobert and Weston, 2008; Collobert et al., 2011),因此詞嵌入和短文的質量相關。Taghipour 和 Ng 在 2016 年也應用 RNN 來處理短文,但他們使用了卷積神經網絡(CNN)來提取局部特徵。Dong 和 Zhang 在 2016 年提出應用一個兩層 CNN 來對短文建模。第一層用於編碼語句,第二層用於編碼整個短文。Dong 等人在 2017 年進一步提出了添加註意力機制到池化層上來自動化地決定哪些部分對於確定短文質量更加重要。

雖然有很多處理 AES 任務的研究,目前仍未有聚焦於 AAPR 任務的工作。和 AES 任務中對短文的語言能力測試不同,學術論文包含更長的文本和更多的信息,除了書寫以外,其整體質量還被很多因素所影響。因此,研究者提出了考慮一篇學術論文的整體信息的模型,包括標題、作者、摘要和論文的 LATEX 源文件主要內容。

本研究的主要貢獻:

  • 提出了自動化學術論文評分的任務,併為該任務構建了新的數據集;

  • 提出了模塊化的分層卷積神經網絡,其考慮了源論文的整體信息。實驗結果表明該方法遠遠超越了基線。

2 本文提出的方法

一份源論文通常由幾個模塊組成,如摘要、標題等。每個模塊還具有從單詞級到句子級的分層結構。結構信息可能有助於作出更準確的預測。此外,還可以通過考慮源論文各部分貢獻的差異來改進模型。在此基礎上,研究者提出了一種模塊化的分層 CNN,模型概要如圖 1 所示。作者假設源論文具有 l 個模塊,包含 m 個詞且過濾器大小為 h(詳細說明可參見第 2.1 節和第 2.2 節)。為簡單起見,在圖 1 中將 l、m 和 h 分別設置為 3、3、2。

4900篇NIPS 2018提交論文難評審?北京大學學術論文自動評分模型

圖 1:模型概述。ACNN 表示基於注意的 CNN,其基本結構如(b)所示。AP 表示注意池化。

2.1 模塊化的分層 CNN

在給定一篇完整源論文 r 的基礎上,首先根據論文的總體結構(摘要、標題、作者、引言、相關研究、方法和結論)將其劃分為幾個模塊(r_1、r_2……r_l)。對於每個模塊,第 i 個單詞 w_i 的 one-hot 表徵通過嵌入矩陣嵌入到密集向量 x_i 中。對於以下模塊(摘要、引言、相關研究、方法、結論),研究者使用基於注意的 CNN(如 2.2 節所示)在單詞級上得到第 i 句的表徵 s_i。另一個基於注意的 CNN 層用於將句子級表徵編碼到第 i 個模塊的表徵 m_i 中。

源論文標題中只有一個句子,因此在單詞級上僅使用基於注意的 CNN 來獲得標題的模塊化表徵是合理的。此外,由於作者之間是相互獨立的,因此可以採用加權平均法通過方程(1)來獲得作者的模塊化表徵。

4900篇NIPS 2018提交論文難評審?北京大學學術論文自動評分模型

在γ=(γ_1,……,γ_A)的轉置是權重參數。a_i 是第 i 個作者在源論文中的嵌入向量,它是隨機初始化的,可以在訓練階段學習。A 是作者序列的最大長度。

所有模塊的表徵 m_1、m_2……m_l 被彙集到一起,以利用注意池化層獲得源論文的論文級表徵 d。使用 softmax 層將 d 作為輸入,並預測論文被接收的概率。在訓練階段,把被廣泛應用於各種分類任務中的交叉熵損失函數作為目標函數進行優化。

4900篇NIPS 2018提交論文難評審?北京大學學術論文自動評分模型

2.2 基於注意的 CNN 的細節

基於注意的 CNN 由卷積層和注意池化層組成。卷積層用於捕獲局部特徵,注意池化層可以自動確定單詞、句子和模塊的相對權重(理論細節請參見源論文)。

3 實驗

arXiv 學術論文數據集:由於沒有可直接使用的現有數據集,研究者通過從 website 2 收集關於人工智能領域的學術論文來創建數據集。該數據集包括 19218 篇學術論文。每篇源論文的信息包含標記該論文是否被接收的的會議和期刊,以及源 LATEX 文件。作者將數據集劃分為訓練、驗證和測試三個部分。詳情見表 1。

4900篇NIPS 2018提交論文難評審?北京大學學術論文自動評分模型

表 1:arXiv 論文數據集的統計信息。Positive 和 Negative 表示源論文是否被接收。

4900篇NIPS 2018提交論文難評審?北京大學學術論文自動評分模型

表 2 報告了多個模型的實驗結果。如表 2 所示,本文提出的模型 MHCNN 超越了上述所有的基線模型。

4900篇NIPS 2018提交論文難評審?北京大學學術論文自動評分模型

表 2:本文提出模型(MHCNN)和基線模型在測試集上的性能對比。

如表 3 所示,當注意力機制被移除的時候,模型的準確率下降了 0.9%。這表明不同文本內容有不同的貢獻。

4900篇NIPS 2018提交論文難評審?北京大學學術論文自動評分模型

表 3:控制變量研究。符號*表示在 t 測試下,和 MHCNN 相比有顯著性差異(p≤0.05)。

如表 4 所示,模型的性能在移除不同的源論文模塊時會有不同程度的下降。這表明源論文的不同模塊對論文接收的貢獻是不同的,也進一步證實了使用模塊化分層結構和注意力機制的合理性。

4900篇NIPS 2018提交論文難評審?北京大學學術論文自動評分模型

表 4:控制變量研究。符號*表示在 t 測試下,和完整數據相比有顯著性差異(p≤0.05)。

論文:Automatic Academic Paper Rating Based on Modularized Hierarchical Convolutional Neural Network

4900篇NIPS 2018提交論文難評審?北京大學學術論文自動評分模型

  • 論文地址:https://arxiv.org/abs/1805.03977

  • 項目地址:https://github.com/lancopku/AAPR

隨著越來越多的學術論文被提交到會議和期刊上,讓專家來評估所有的論文變得很耗時間,並可能由於評審者的個人因素導致不公平現象。為了協助專家評估學術論文,我們在本文中提出了一種新的任務類型:自動化學術論文評分(AAPR),即自動地確定接收還是拒絕學術論文。我們為該任務構建了一個新的數據集,並提出了新的模塊化分層卷積神經網絡來獲得自動化的學術論文評分。評估結果表明,該模型的性能遠遠超越了基線模型。


分享到:


相關文章: