銅靈 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
逆天的語言模型GPT-2又有最新開源進展了!
GPT-2,這個造假新聞編故事以假亂真,能完成閱讀理解、常識推理、文字預測、文章總結等多種任務的AI模型,從誕生開始就引起大量關注。
但因一開始只放出了117M的小型預訓練模型,OpenAI還被網友調侃為“ClosedAI”。OpenAI表示,不是不開源,而是時候未到。
剛剛,OpenAI宣佈將其345M的預訓練模型開源,外加其Transformer的1.5B參數。
這一次,你也可以將最強語言模型,用到自己的項目中了。
稱霸各大語言建模任務
語言模型GPT-2在語言建模任務中,簡直是逆天般的存在。
作為一個沒有經過任何領域數據專門訓練的模型,它的表現比那些專為特定領域打造的模型還要好,橫掃各大語言建模任務。
△ GPT-2在不同語言建模任務上的測試結果(從左到右:數據集名稱、指標類型、GPT-2測試結果、此前最好結果、人類水平)
一經問世就獲得了Hinton等大牛的強推和關注。
簡單來說,GPT-2就是基於Transformer架構的大規模模型。
GPT-2是GPT算法“進化版”,比GPT參數擴大10倍,達到了15億個,數據量擴大10倍,使用了包含800萬個網頁的數據集,共有40GB。
這個龐大的算法使用語言建模作為訓練信號,以無監督的方式在大型數據集上訓練一個Transformer,然後在更小的監督數據集上微調這個模型,以幫助它解決特定任務。
上圖左部分,是研究中使用的Transformer架構以及訓練目標。右邊部分,是針對特定任務進行微調。將所有結構化輸入轉換為token序列,由預訓練模型處理,然後經過線性+softmax層處理。
就GPT-2而言,它的訓練目標很簡單:根據所有給定文本中前面的單詞,預測下一個單詞。
幾天前,在此架構基礎上改進得到的模型MuseNet,也能預測一段音樂中下一個音符是什麼了,還用貝多芬的曲風續寫阿黛爾的Someone Like You,讓莫扎特續寫披頭士。
不來了解一下?
讓莫扎特“續寫”披頭士的音樂,OpenAI的新AI作曲能力強丨Demo可玩
傳送門
最後,附上GitHub代碼地址:
https://github.com/openai/gpt-2
GPT-2數據集地址:
https://github.com/openai/gpt-2-output-dataset
OpenAI介紹主頁:
https://openai.com/blog/better-language-models/#update
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
閱讀更多 量子位 的文章