深度學習了40萬個表情，一大波AI 表情包來了教育頭條網

深度學習了40萬個表情，一大波AI 表情包來了

2018-06-18 12:57:14 陳永東

新智元報道

自從有了表情包，跟人聊天時的第一反應，就是去找找看有什麼適合的表情。

有一類表情包，形式是文字+圖，尤其能夠精妙地抒發和傳遞感情。

在這一點上，可能全世界的網友都一樣。

好用的表情永遠不嫌多，而且似乎總是不夠用。

怎麼辦？

好在我們有深度學習。

表情包，一個天然的圖說生成問題

斯坦福大學的Abel L. Peirson V和E. Meltem Tolunayl，在這一期斯坦福深度學習自然語言處理課程CS224n的期末作業中，提交了一個表情包生成器，使用深度學習，製作“圖片+文字”型的表情包。

下面這些都是他們的系統自動生成的結果。不得不說，深得表情包製作精髓。

這個表情包生成器的基本的框架是一個編碼器-解碼器圖說生成系統，先進行CNN圖像嵌入，然後用一個LSTM RNN進行文字生成。

其中，編碼器的目標是要給出一個有意義的狀態，讓解碼器開始進行文字生成。他們使用在ImageNet上預訓練的Inception-v3做為編碼器模型，並將最後一層隱藏CNN作為編碼器的輸出。當表情包模板進入Inception模型後，輸出是一組長度固定的向量，也即圖像嵌入，能夠反映圖像的內容。這個圖像嵌入之後會被投射到詞嵌入空間裡，方便後續文字生成。

他們一共嘗試了3種不同的編碼器模型，最簡單的一種只輸入圖像，另一種輸入圖像和標籤，最後一種的輸入也是圖像和標籤，但使用了注意力機制。至於解碼器，都是一個單向LSTM。這樣搭配組合成了3種編碼器-解碼器方案。下圖展示了第二種方案的模型。

學習40萬個表情，幽默程度媲美人類

數據集是這個表情包生成器的精髓。他們的數據集由大約40萬張帶標籤和圖說的圖片組成。其中有2600個獨特的圖像-標籤對，是他們寫Python腳本從Memegenerator.net中獲取的。一張圖片對應一個標籤，標籤是對這幅圖的簡單描述，而每張圖都與很多不同的圖說（大約160個）相關聯。

下圖展示了數據的樣本：

在訓練前，他們還針對圖說中的標點、格式和某些詞出現的頻率等進行了預處理。

訓練的結果，深度學習生成了各種表情：

系統看過的圖像（左邊4張）的輸入標籤是來自訓練集的標籤，而對於沒見過的圖像（右邊4張），我們使用的句子是“AI是新的電力”。

從語法、搞笑程度和可區分性（分辨是人制作的還是深度學習生成的）幾個維度判斷，深度學習表情包生成器取得了不錯的效果。尤其是搞笑程度，因為這一點是製作表情包的初衷，普通表情包的搞笑程度7分（滿分10分），深度學習生成的表情包最高達到了6.8。

兩位作者指出，幽默是很難評判的事情，本身就是一個很深的研究領域。他們的這項工作十分基礎，接下來如果能構建出能夠自動斷句的表情包生成器（就是自動判斷圖片上方和下方兩行文字從哪裡斷開），將會是一個很大的進步。（因為使用的都是網絡熱圖，因此數據含有性別歧視和不文明的成分。）此外，探索視覺注意力機制在表情包生成中的作用，也是一個不錯的研究方向。

相關論文和代碼