深度學習了40萬個表情,一大波AI 表情包來了

深度学习了40万个表情,一大波AI 表情包来了

新智元報道

自從有了表情包,跟人聊天時的第一反應,就是去找找看有什麼適合的表情。

有一類表情包,形式是文字+圖,尤其能夠精妙地抒發和傳遞感情。

深度学习了40万个表情,一大波AI 表情包来了

在這一點上,可能全世界的網友都一樣。

深度学习了40万个表情,一大波AI 表情包来了

好用的表情永遠不嫌多,而且似乎總是不夠用。

怎麼辦?

好在我們有深度學習。

表情包,一個天然的圖說生成問題

斯坦福大學的Abel L. Peirson V和E. Meltem Tolunayl,在這一期斯坦福深度學習自然語言處理課程CS224n的期末作業中,提交了一個表情包生成器,使用深度學習,製作“圖片+文字”型的表情包。

下面這些都是他們的系統自動生成的結果。不得不說,深得表情包製作精髓。

深度学习了40万个表情,一大波AI 表情包来了深度学习了40万个表情,一大波AI 表情包来了
深度学习了40万个表情,一大波AI 表情包来了

這個表情包生成器的基本的框架是一個編碼器-解碼器圖說生成系統,先進行CNN圖像嵌入,然後用一個LSTM RNN進行文字生成。

其中,編碼器的目標是要給出一個有意義的狀態,讓解碼器開始進行文字生成。他們使用在ImageNet上預訓練的Inception-v3做為編碼器模型,並將最後一層隱藏CNN作為編碼器的輸出。當表情包模板進入Inception模型後,輸出是一組長度固定的向量,也即圖像嵌入,能夠反映圖像的內容。這個圖像嵌入之後會被投射到詞嵌入空間裡,方便後續文字生成。

他們一共嘗試了3種不同的編碼器模型,最簡單的一種只輸入圖像,另一種輸入圖像和標籤,最後一種的輸入也是圖像和標籤,但使用了注意力機制。至於解碼器,都是一個單向LSTM。這樣搭配組合成了3種編碼器-解碼器方案。下圖展示了第二種方案的模型。

深度学习了40万个表情,一大波AI 表情包来了

學習40萬個表情,幽默程度媲美人類

數據集是這個表情包生成器的精髓。他們的數據集由大約40萬張帶標籤和圖說的圖片組成。其中有2600個獨特的圖像-標籤對,是他們寫Python腳本從Memegenerator.net中獲取的。一張圖片對應一個標籤,標籤是對這幅圖的簡單描述,而每張圖都與很多不同的圖說(大約160個)相關聯。

下圖展示了數據的樣本:

深度学习了40万个表情,一大波AI 表情包来了

在訓練前,他們還針對圖說中的標點、格式和某些詞出現的頻率等進行了預處理。

訓練的結果,深度學習生成了各種表情:

深度学习了40万个表情,一大波AI 表情包来了

系統看過的圖像(左邊4張)的輸入標籤是來自訓練集的標籤,而對於沒見過的圖像(右邊4張),我們使用的句子是“AI是新的電力”。

從語法、搞笑程度和可區分性(分辨是人制作的還是深度學習生成的)幾個維度判斷,深度學習表情包生成器取得了不錯的效果。尤其是搞笑程度,因為這一點是製作表情包的初衷,普通表情包的搞笑程度7分(滿分10分),深度學習生成的表情包最高達到了6.8。

兩位作者指出,幽默是很難評判的事情,本身就是一個很深的研究領域。他們的這項工作十分基礎,接下來如果能構建出能夠自動斷句的表情包生成器(就是自動判斷圖片上方和下方兩行文字從哪裡斷開),將會是一個很大的進步。(因為使用的都是網絡熱圖,因此數據含有性別歧視和不文明的成分。)此外,探索視覺注意力機制在表情包生成中的作用,也是一個不錯的研究方向。

相關論文和代碼

  1. Dank Learning: Generating Memes Using Deep Neural https://arxiv.org/pdf/1806.04510v1.pdf

  2. Github:https://github.com/alpv95/MemeProject


分享到:


相關文章: