逆天語言模型GPT-2最新開源:345M預訓練模型和1.5B參數都來了

銅靈 發自 凹非寺

量子位 出品 | 公眾號 QbitAI


逆天語言模型GPT-2最新開源:345M預訓練模型和1.5B參數都來了


逆天的語言模型GPT-2又有最新開源進展了!

GPT-2,這個造假新聞編故事以假亂真,能完成閱讀理解、常識推理、文字預測、文章總結等多種任務的AI模型,從誕生開始就引起大量關注。

但因一開始只放出了117M的小型預訓練模型,OpenAI還被網友調侃為“ClosedAI”。OpenAI表示,不是不開源,而是時候未到。

剛剛,OpenAI宣佈將其345M的預訓練模型開源,外加其Transformer的1.5B參數。

這一次,你也可以將最強語言模型,用到自己的項目中了。


逆天語言模型GPT-2最新開源:345M預訓練模型和1.5B參數都來了


稱霸各大語言建模任務

語言模型GPT-2在語言建模任務中,簡直是逆天般的存在。

作為一個沒有經過任何領域數據專門訓練的模型,它的表現比那些專為特定領域打造的模型還要好,橫掃各大語言建模任務。


逆天語言模型GPT-2最新開源:345M預訓練模型和1.5B參數都來了


GPT-2在不同語言建模任務上的測試結果(從左到右:數據集名稱、指標類型、GPT-2測試結果、此前最好結果、人類水平)

一經問世就獲得了Hinton等大牛的強推和關注。

簡單來說,GPT-2就是基於Transformer架構的大規模模型。

GPT-2是GPT算法“進化版”,比GPT參數擴大10倍,達到了15億個,數據量擴大10倍,使用了包含800萬個網頁的數據集,共有40GB。

這個龐大的算法使用語言建模作為訓練信號,以無監督的方式在大型數據集上訓練一個Transformer,然後在更小的監督數據集上微調這個模型,以幫助它解決特定任務。


逆天語言模型GPT-2最新開源:345M預訓練模型和1.5B參數都來了


上圖左部分,是研究中使用的Transformer架構以及訓練目標。右邊部分,是針對特定任務進行微調。將所有結構化輸入轉換為token序列,由預訓練模型處理,然後經過線性+softmax層處理。

就GPT-2而言,它的訓練目標很簡單:根據所有給定文本中前面的單詞,預測下一個單詞。

幾天前,在此架構基礎上改進得到的模型MuseNet,也能預測一段音樂中下一個音符是什麼了,還用貝多芬的曲風續寫阿黛爾的Someone Like You,讓莫扎特續寫披頭士。

不來了解一下?

讓莫扎特“續寫”披頭士的音樂,OpenAI的新AI作曲能力強丨Demo可玩

傳送門

最後,附上GitHub代碼地址:

https://github.com/openai/gpt-2

GPT-2數據集地址:

https://github.com/openai/gpt-2-output-dataset

OpenAI介紹主頁:

https://openai.com/blog/better-language-models/#update

— 完 —

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: