第二屆Byte Cup來襲,贏得2萬美元獎金,登上字節跳動面試直通車

2018 Byte Cup國際機器學習競賽(以下簡稱Byte Cup)是一項面向全球的機器學習競賽,由

中國人工智能學會字節跳動聯合主辦,數據競賽平臺biendata.com承辦,旨在促進機器學習的學術研究和具體應用。2016年,首屆Byte Cup舉辦,共吸引全球1000多支隊伍參賽,共同完成“為頭條問答的問題在今日頭條專家用戶中尋找潛在的答案貢獻者”這一競賽任務。2018年Byte Cup發佈的新任務是“自動為文章生成標題”。

第二屆Byte Cup來襲,贏得2萬美元獎金,登上字節跳動面試直通車

主辦:中國人工智能學會

聯合主辦:字節跳動

聯合組織:IEEE中國代表處、Biendata.com

我們正處於一個信息爆炸的時代。據IDC統計,互聯網數據量已躍至ZB級別(1ZB=240GB),預計2020年達到35ZB。我們每天也能看到大量的信息,包括新聞快訊、社交網絡更新、事件評論,以及專業教程等等。此外,搜索引擎並不能徹底信息過載問題,而移動設備的普及和碎片化的閱讀方式讓這個問題更加嚴重。因此,如果可以開發出自動提取文本摘要的機器學習模型,就可以幫助消化海量的信息。

文本摘要一直都是機器學習領域一個重要的熱點,但是卻有很大的難度。例如,給單篇文章起標題/摘要的時候,很難有詞頻作保證,而是需要模型可以理解內容,甚至做一些推理。在很多地方,摘要生成和機器翻譯有類似之處。然而,和機器翻譯不同的是,自動文本摘要的輸入和輸出很不平衡,此外機器翻譯任務的輸入輸出的序列通常有一些詞義層面上的直接對應,這種對應在摘要任務中卻沒那麼明顯。

第二屆Byte Cup來襲,贏得2萬美元獎金,登上字節跳動面試直通車

字節跳動於2012年成立,旗下有大量產品可以讓用戶閱讀、消費和創作內容,包括大家熟悉的今日頭條和抖音短視頻,以及很多海外產品,如TopBuzz和Tik tok。此外,字節跳動還在2016年成立了AI實驗室,實驗室覆蓋了很多不同的領域,包括機器學習、自然語言處理、計算機視覺、語音識別、數據挖掘、人機交互等,而自然語言處理領域又有機器寫作、機器翻譯、NLP基礎、問答、對話以及推薦/搜索等方向。

競賽任務

Topbuzz是字節跳動為北美和巴西的用戶創造的一站式內容消費平臺,它利用機器學習算法為用戶提供個性化視頻、GIF圖、本地新聞及重大新聞。目前,Topbuzz每天都會發布大量的文章,利用人工智能為創作者提供更好的標題選擇,是Topbuzz優化用戶體驗的探索方向之一。此次競賽任務便是為Topbuzz提供的英文文章自動生成標題。

第二屆Byte Cup來襲,贏得2萬美元獎金,登上字節跳動面試直通車

本次比賽邀請了數十位學界和業界的頂尖學者作為顧問

比賽獎勵

前10名的隊伍將獲得證書和字節跳動招聘面試直通車的機會。周冠軍將獲得周冠軍證書。

1.總獎金2萬美元

一等獎1名:10,000美金

二等獎2名:每名3,000美金

三等獎4名:每名1,000美金

2. 周冠軍 自2018年8月27日起,評測系統將選出周冠軍。周冠軍由過去7天內的提交成績決定。

比賽時間

8月17日:比賽正式開始,開放比賽隊伍註冊,同步發佈訓練集和驗證集。

11月17日(23:59p.m UTC):發佈測試數據,要求提交測試集預測結果。

11月22日(23:59p.m UTC):測試集提交階段結束。

11月23日:比賽截止,計算排名。

11月23日:公佈比賽排名,排名前10的隊伍必須在一週內提交一篇不超過4頁的參賽方法說明(ACM雙列標準模板,中英文皆可)。

數據集

本次競賽使用的訓練集包括了約130萬篇文本的信息,每篇文本都是一個類似json格式的行,如以下內容:

{"content": "Being the daughter of Hollywood superstar Tom Cruise and America's sweetheart Katie Holmes...",

"id": 1198440,

"title": "Suri Cruise 2018: Katie Holmes Bonds With Daughter During Dinner Date While Tom Cruise Still MIA"}

文檔一共包含三類信息:

1)文章id(id):每篇文本對應一個unique id;

2)文章內容(content):即文章的內容字符串;

3)文章標題(title):文章的標題,參賽選手需要自己生成驗證集和測試集的標題。

驗證集和測試集格式和訓練集相似,但是沒有title,需要參賽選手預測。

說明:

訓練集用於模型的學習,驗證集用於在線實時評估算法效果,測試集用於最終的效果評測。

相關研究

目前,自動文檔摘要技術主要分為抽取式(extractive)和摘要式(又叫生成式)(abstractive)兩種。

抽取式摘要相對較為成熟。這種方法利用如text rank這樣的排序算法,對處理後的文章語句進行排序。不過抽取式摘要在語義理解方面考慮較少,無法建立文本段落中的完整的語義信息。

相較而言,生成式技術需要讓模型理解文章語義後總結出摘要,更類似人類的做法。不過這種技術需要使用機器學習技術,長期以來並不成熟。轉折點出現在2014年。這一年,Bengio等人發表論文Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation,正式引入了sequence-to-sequence模型。這一模型通過兩個循環神經網絡,分別把輸入文本轉化成向量,再把向量轉成輸出序列。這種模型在論文中主要用來完成機器翻譯任務,並且後來被應用在谷歌翻譯中,但後續在文摘生成任務中也產生了廣泛的應用。此後,這種利用深度學習的sequence-to-sequence方法不斷被改進,在一些標準的評測數據集(如DUC-2004)上,已經超過了傳統的抽取式方法。

例如,2016年,Facebook AI實驗室(FAIR)的學者發表論文A Convolutional Encoder Model for Neural Machine Translation,在編碼的時候用CNN取代RNN,獲得不錯的效果。Salesforce的研究人員2017年發表的論文A Deep Reinforced Model for Abstractive Summarization中,使用了增強學習,在CNN/Daily Mail數據集上的ROUGE-1分數達到41.16分。同年,又是FAIR發表了論文Convolutional Sequence to Sequence Learning,引入attention機制,不僅提高了評測分數,還極大地提升了速度。

2016年,來自IBM沃森的研究人員發表論文Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond,和之前的論文不同,這篇論文把機器翻譯和文本摘要任務完全分開,專門針對文本摘要提出了更合適的模型,除此之外,文章還發布了兩個新的數據集。

中國也有許多學者在從事相關工作,例如北大的萬小軍老師。他和姚金戈的綜述《自動文摘研究進展與趨勢》把摘要技術框架總結成4個步驟:內容表示 → 權重計算 → 內容選擇 → 內容組織,並對每個步驟都作了介紹。

詳見:http://qngw2014.bj.bcebos.com/zhuankan/12/%E8%87%AA%E5%8A%A8%E6%96%87%E6%91%98%E7%A0%94%E7%A9%B6%E8%BF%9B%E5%B1%95%E4%B8%8E%E8%B6%8B%E5%8A%BF.pdf

參賽方式

點閱讀原文鏈接或掃描參賽二維碼可直達賽事頁面,註冊網站-下載數據,即可參賽。

友情提示,因涉及到數據下載,強烈建議大家登錄 PC 頁面報名參加~~

大賽頁面地址:

https://biendata.com/competition/bytecup2018/


分享到:


相關文章: