魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
看著這樣一張抽象的人臉素描,你能猜出真人長什麼樣嗎?
現在,有一隻GAN,不僅能夠完美突破次元壁,復現真實人臉:
△左:素描;右:CSAGAN生成
甚至不畫嘴,也不會生成無嘴怪人。效果真實,畫面高清,連臉上的皺紋,都刻畫得清清楚楚。
相比之下,Pix2pix這樣的著名選手黯然失色。困難模式下簡直AV畫質。
製造如此神奇魔法的GAN,名叫CSAGAN,即有條件的自注意力機制生成對抗網絡(conditional self-attention generative adversarial network)。誕生於中科大類腦智能技術及應用國家工程實驗室。
世上的GAN千千萬,CSAGAN為什麼這麼秀?
兩大秘訣
CSAGAN的獨特之處,是在保持面部結構不確實的同時,生成高質量的人臉圖像。
首先立功的,是條件自注意力模塊(CSAM)。
在模型框架中,研究人員採用了掩碼殘差單元(MRU),並在最後一個MRU之前加入了條件自注意力模塊。
條件自注意力機制能夠建模人臉不同區域之間的長期依賴關係,也就是說,即使素描圖裡沒畫清楚鼻子嘴巴,CSAGAN一樣能生成五官齊全的一張臉。
MRU和條件自注意力模塊的輸入是處理過的黑白線條圖。
△稀疏線條圖的密集距離場表示
給定來自上一層的線條圖和特徵圖,條件自注意力模塊會以自注意力機制計算輸出新的特徵圖。
而另一個秘訣,是多尺度鑑別器。它能保證生成的人臉具有更加完整的結構和真實的紋理。
鑑別器由不同深度的子網組成,深度不同,最後一層接收域的大小自然也不一樣。最深子網絡最後一層中的接收域和捕獲全局結構的整個圖像大小一致。這些子網在前幾層彼此共享權重。
這樣,大尺度鑑別器會注意面部整體結構的完整性,而小尺度鑑別器則專注於細節,增強生成面部圖像的真實感。
△最後一排是真實照片
中科大團隊
這篇論文的第一作者,是來自中國科學技術大學類腦智能技術及應用國家工程實驗室的Yuhang Li。
論文的通訊作者,是該實驗室的陳雪錦副教授。陳老師專注於計算機圖形學、計算機視覺研究,在中科大讀博期間,師從沈向洋教授,2010年從耶魯大學計算機系博士後出站。
論文的另外兩位作者,是中科大信息科學技術學院執行院長吳楓教授和該實驗室副主任查正軍教授。
傳送門
論文地址:
https://arxiv.org/abs/1910.08914
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
閱讀更多 量子位 的文章