驚人突破!谷歌大腦AI實現文本摘要生成

想更及時獲取科技資訊和乾貨,不妨關注​“「創科前沿」

”吧


如今,人們被海量信息淹沒,有調查估計,人們每天至少花2.6小時閱讀信息。為了節省時間,人們寄希望於AI能夠自動生成文本摘要,即只要輸入文檔,AI就能總結出準確、簡潔、語言流暢的摘要。然而,由於AI語義理解的困難性,這不是一項簡單的任務。

驚人突破!谷歌大腦AI實現文本摘要生成

最近,上述願景或許正在成為現實。12月18日,谷歌人工智能研究部門谷歌大腦(Google Brain)和帝國理工學院(Imperial College London)研究團隊發佈論文,稱已構建了一個AI系統Pegasus(Pre-training with Extracted Gap-sentences for Abstractive Summarization利用提取的間隙句進行抽象摘要的預訓練),該系統充分利用了Google的Transformers架構,並結合了為生成抽象文本量身定做的預訓練目標。

Pegasus在12個摘要任務中取得了最先進的結果,任務文本涵蓋新聞、科學、故事、說明書、電子郵件、專利和立法法案。在低資源摘要生成上,Pegasus神奇地超過了此前在6個數據集上(1000個例子)生成的的最優結果!

這次研究人員設計了一項訓練任務,在該任務中,文件中完整的、被認為重要的句子都被遮蔽了。AI不得不利用網絡和新聞文章來填補空白。實驗中,研究小組選擇了表現最好的Pegasus 模型(擁有5.68億個參數或從歷史數據中學習的變量),他們或從3.5億個網頁(Common Crawl)中提取的750 GB文本上進行訓練,或在HugeNews(研究人員彙編的新語料庫)上進行訓練,HugeNews包含從新聞和類似新聞的網站收集的15億篇文章,總計3.8TB。

根據研究人員的說法,Pegasus 生成的文本摘要不論在流利性還是連貫性上都質量很高,不再需要額外的糾正流利度之類的舉措。此外,在僅有100篇示例文章的低資源環境下,它生成的摘要質量可與在2萬至20萬篇完整數據集上進行培訓的模型相媲美。

值得注意的是,當AI能夠理解一段話的意思,其應用領域將不僅限於文本摘要,還可能給多個行業帶來變革。

早在2016年,谷歌人工智能部門負責人,被稱為“谷歌大腦背後的大腦”的Jeff Dean就曾表達了用AI系統總結文件內容的願望。他在採訪中稱,“我們不僅能理解詞語,我們也已經快要能夠理解兩個句子互為同義句。這一點是新的語言理解水平的起點,在新的水平上,我們將能夠以機器學習的方式理解長得多的文本。我們對未來幾年的一個良好目標是,我們希望實現:輸入數百或數千份文件,然後可以就這些文件的內容進行對話。或許系統將會總結文件的內容,或許系統將對文件內容進行提問或回答。我認為,這才是真正能展現高水平語言理解的東西。”

但文本摘要的實際難度很大,2017年4月發表、2018年被國際學習表徵會議(ICLR)錄取的一篇論文指出了這項技術的難點所在:計算機生成的句子很簡短;他們缺乏由人編寫的文本的創造性天賦和節奏。

谷歌的許多人工智能創新都圍繞著語言,無論是從網絡中讀取和理解事物,還是從事智能對話或理解文本,在文本摘要生成上的努力一直沒有停止。除上述成果外,谷歌在NLP領域還曾取得諸多舉世矚目的突破。

2017年,谷歌 在“Attention is all you need” 論文中提出Transformer,之後被稱為“萬用NLP模型”,引起了相當大的反響,業內有“每一位從事 NLP 研發的同仁都應該透徹搞明白 Transformer”的說法。Transformer是一種神經網絡架構。和其他深度神經網絡一樣,它們包含的功能(神經元)被佈置在相互連接的層中,這些層傳遞輸入數據的信號,並緩慢地調整每個連接的突觸強度(權重)——這是所有AI模型提取特徵和學習做出預測的方式。不過Transformer的獨特之處在於,每個輸出元素都連接到每個輸入元素,並動態地計算它們之間的權重。之後Transformer進行了升級,有了Transformer-XL,使自然語言的理解超出了固定長度的上下文。

2018年,谷歌公開BERT模型(一款開源代碼的NLP預訓練模型),BERT模型以其雙向、深層等特點,成功在11項NLP(自然語言處理)任務中取得state of the art(技術發展最先進水平)的結果,這是自然語言處理領域中最具突破性的發展,曾被認為是自然語言處理領域的ImageNet。BERT模型公開一個月後,谷歌一鼓作氣發佈了包括BERT模型TensorFlow代碼、BERT-Base與BERT-Large模型的預訓練檢查點、微調實驗結果的自動化復現TensorFlow 碼、預訓練數據生成和數據訓練的代碼在內的BERT模型大禮包。

BERT 是一種對語言表徵進行預訓練的方法,換句話說,是經過大型文本語料庫(如維基百科)訓練後獲得的通用語言理解模型,該模型可用於我們最在乎的NLP下游任務(如問答)。BERT之所以表現得比過往的方法要好,是因為它是首個用於進行NLP預訓練的無監督、深度雙向系統。無監督意味著BERT僅使用文本語料庫進行訓練;預訓練表徵可能無上下文語境,也可能有上下文語境,有上下文語境的系統可以進一步劃分成單向的或者雙向的。BERT的方法很簡單:一開始先屏蔽掉輸入詞彙的15%,然後通過深度雙向的Transformer 編碼器運行整個序列,最後預測屏蔽的單詞。

與傳統的自然語言處理模式相比,BERT層次最高,是具有革命性意義的自然語言處理模式。BERT是開源的,任何人只要懂得機器學習知識,就能輕鬆地建立起一個NLP模型,且無需使用訓練模型的大量源數據集。這給很多現有的計算機邏輯框架、訓練方法、語言模型帶來了啟發。在BERT的基礎上,Facebook開發了RoBERTa和XLM;HuggingFace開發了DistilBERT;而谷歌聯合豐田技術研究所開發了ALBERT,一種用於自我監督語言表徵學習的精簡型BERT,接替BERT。




分享到:


相關文章: