速度更快,準確度更高!MIT新技術教你如何找到一本好書

速度更快,準確度更高!MIT新技術教你如何找到一本好書

大數據文摘出品

編譯:lin


互聯網上有著過億級別的書,新聞,文獻等,再沒有比現在更好的時間去閱讀他們了,如果你有時間將所有的選擇都篩選一遍的話。


“互聯網裡有著成噸的文檔,” MIT的助理教授Justin Solomon說,“任何一種可以輔助篩選所有這些內容的技術都是極其有用的。


最近,Solomon通過與MIT-IBM Watson AI實驗室以及他自己在MIT的幾何數據處理小組合作,在神經信息處理系統大會(NeurIPS)上展示了一種用於截取大量文本的新技術。他們的方法結合了三種流行的文本分析工具——主題建模Topic Modeling,單詞嵌入word embeddings和最優傳輸optimal transport,可以提供比其他同樣符合流行的文檔分類評估標準的方法更好,更快的結果


如果某個算法知道你過去喜歡什麼,它可以掃描上百萬的可能性去尋找相似的內容。隨著自然語言處理技術的進步,“你也許會喜歡”這樣的推薦正變得更加快速和相關。


在NeurIPS提出的方法中,算法會根據收藏集中的常用單詞,將一個收藏集,比如書籍,彙總為各種主題,然後將每本書分為5至15個最重要的主題,基於估算每個主題對該書的總體貢獻值。


為了比較書籍,研究人員使用了另外兩種工具:單詞嵌入Word embeddings(一種將單詞轉換成數字列表以反映其在常用用法中的相似性的技術)和最優傳輸Optimal trasnsport(一種用於在多個目的地之間計算移動物體或數據點的最有效方式的框架)。


速度更快,準確度更高!MIT新技術教你如何找到一本好書


單詞嵌入Word embeddings使得應用兩次最優傳輸optimal transport成為可能:首先在整個收藏集中對比主題,然後,在任兩本書之間比較常見主題間的重疊程度。


這個技術在掃描大型書籍收藏集以及冗長文檔時特別奏效。在這項研究中研究人員提供了一個樣例:弗蘭克·斯托克頓(Frank Stockton)的“大戰辛迪加”,這是一本19世紀的美國小說,它預言了核武器的興起。如果你正在尋找一本類似的書,主題模式會協助識別出與其他書籍共享的主要主題,在這個例子中則是航海、自然、軍事。


但是,僅憑主題模型並不能識別出托馬斯·赫胥黎(Thomas Huxley)在1863年的演講“有機自然的過去條件”是一個很好的匹配。作家本人是查爾斯·達爾文(Charles Darwin)進化論的擁護者,他的演講充斥著化石和沉積物,反映了關於地質學的新興思想。當赫胥黎演講中的主題通過最優傳輸方式與斯托克頓的小說相匹配時,就會出現一些交叉的主題:赫胥黎的地理,動植物以及知識主題分別與斯托克頓的航海,自然和軍事主題密切相關。


通過書籍的代表性主題而不是單個單詞對書籍進行建模,可以使得高端比較成為可能。該項研究的主要作者、IBM研究員Mikhail Yurochkin說:“如果你要求某人比較兩本書,他們會將每一本書分解為易於理解的概念,然後對概念進行比較。”


研究表明結果是更快,更準確的比較。研究人員1秒鐘時間比較了Gutenberg項目數據集中的1720對書籍,比第二好方法快了超過800倍。這項技術在精準文檔排序上面也比其他方法表現更好,比如,Gutenberg數據集中按作者名來排序書籍,亞馬遜中按部門排序產品評價,BBC中按體育排序的體育故事等。在一系列可視化實例中,該研究論文的作者們認為他們的方法可以按類型對文檔進行整齊地聚類。


除了可以快速更準確的分類文檔之外,該方法還提供了一個窗口用於進入模式決策處理。通過顯現的主題列表,使用者可以看到為什麼該模式正在推薦某一個文檔。


相關報道:

http://news.mit.edu/2019/finding-good-read-among-billions-of-choices-1220


分享到:


相關文章: