人臉合成效果媲美StyleGAN,而它是個自編碼器

機器之心報道

參與:魔王

自編碼器(AE)與生成對抗網絡(GAN)是複雜分佈上無監督學習最具前景的兩類方法,它們也經常被拿來比較。人們通常認為自編碼器在圖像生成上的應用範圍比 GAN 窄,那麼自編碼器到底能不能具備與 GAN 同等的生成能力呢?這篇研究提出的新型自編碼器 ALAE 可以給你答案。目前,該論文已被 CVPR 2020 會議接收。

論文地址:https://arxiv.org/pdf/2004.04467.pdf

GitHub 地址:https://github.com/podgorskiy/ALAE

自編碼器是一種無監督方法,它通過同時學習編碼器-生成器圖將「生成性」和「表徵性」結合起來。關於自編碼器有兩個疑問尚未得到解決:

自編碼器是否具備和 GAN 同等的生成能力?

自編碼器能否學習解耦表徵(disentangled representation)?

最近,來自美國西弗吉尼亞大學的研究者提出一種新型自編碼器 Adversarial Latent Autoencoder (ALAE),試圖解決以上問題。ALAE 是一個通用架構,它能夠利用近期 GAN 在訓練方面的改進。研究者表示 ALAE 具備與 GAN 相當的生成能力,且能夠學習解耦表徵。

利用 ALAE 通用架構,該研究設計了兩個自編碼器:一種基於 MLP 編碼器,另一種基於 StyleGAN 生成器,即 StyleALAE。

研究者對這兩個架構的解耦能力進行了驗證,發現 StyleALAE 不僅能夠生成與 StyleGAN 生成質量相當的 1024x1024 人臉圖像,在同樣分辨率條件下,它還可以基於真實圖像生成人臉重建和操縱結果。

研究者認為,ALAE 是首個性能匹配甚至超過生成器架構的自編碼器

ALAE 到底效果如何呢?我們來看展示圖:

人臉合成效果媲美StyleGAN,而它是個自編碼器

人臉合成效果媲美StyleGAN,而它是個自編碼器

人臉合成效果媲美StyleGAN,而它是個自編碼器

StyleALAE 的風格混合效果。

感興趣的讀者可以自己運行 demo,不過你需要 CUDA capable GPU、v1.3.1 及以上版本的 PyTorch 和 cuda/cuDNN 驅動,詳情參見 GitHub 地址。

新型通用自編碼器 ALAE

研究者觀察到每個 AE 方法都使用同樣的假設:潛在空間的概率分佈應與先驗相關,自編碼器應該與之匹配。而 StyleGAN 相關論文證明,中間潛在空間應當具備更好的解耦能力。

於是研究者通過修改原始 GAN 範式設計了一種新型 AE 架構:

允許基於數據學得的潛在分佈解決耦合問題 (A),並使用對抗策略學習輸出數據分佈 (B),以保留 GAN 的生成能力;為了實現 (A) 和 (B),該研究提出將 AE reciprocity 置於潛在空間中 (C),以避免使用在數據空間中運行的基於簡單 l_2 範數的重建損失(對於圖像空間來說它們通常是次優選擇)。

如下圖 1 所示,研究者將生成器 G 和判別器 D 分別分解成兩個網絡:F、G 和 E、D。

人臉合成效果媲美StyleGAN,而它是個自編碼器

圖 1:ALAE 架構。

此外,研究者還展示了 ALAE 與其他自編碼器的關聯,詳見下表:

人臉合成效果媲美StyleGAN,而它是個自編碼器

StyleALAE

研究者使用 ALAE 構建了一個自編碼器,該自編碼器使用的是基於 StyleGAN 的生成器。具體架構如下圖 2 所示:

人臉合成效果媲美StyleGAN,而它是個自編碼器

圖 2:StyleALAE 架構。StyleALAE 編碼器中的實例歸一化(IN)層用來提取多尺度風格信息,並通過可學習的多重線性映射(multilinear map)將它們組合成為一個潛在代碼 w。

實現

ALAE 的算法訓練過程參見下圖:

人臉合成效果媲美StyleGAN,而它是個自編碼器

ALAE 效果如何?

該研究在多個數據集上評估了 ALAE 的性能,實驗代碼和數據參見 GitHub 地址。

在 MNIST 上的性能

研究者使用 MNIST 數據集訓練 ALAE,並使用特徵表示來執行分類、重建和分析解耦能力的任務。

人臉合成效果媲美StyleGAN,而它是個自編碼器

表 2:不同方法在 MNIST 分類任務上的性能。

人臉合成效果媲美StyleGAN,而它是個自編碼器

圖 3:MNIST 重建效果。

StyleALAE 學習風格表徵的能力

研究者在 FFHQ、LSUN 和 CelebA-HQ 數據集上評估 StyleALAE 的性能。

人臉合成效果媲美StyleGAN,而它是個自編碼器

表 3:不同方法在 FFHQ 和 LSUN 數據集上的 FID 分數。

人臉合成效果媲美StyleGAN,而它是個自編碼器

表 4:不同方法的感知路徑長度(PPL),表示表徵解耦程度。

人臉合成效果媲美StyleGAN,而它是個自編碼器

圖 5:FFHQ 重建結果。StyleALAE 對未見過的圖像的 1024×1024 重建結果。

人臉合成效果媲美StyleGAN,而它是個自編碼器

圖 6:StyleALAE 的 FFHQ 生成結果(1024 × 1024 分辨率)。

人臉合成效果媲美StyleGAN,而它是個自編碼器

圖 9:StyleALAE 的風格混合效果。「coarse styles」從 Source 圖像中複製了高級特徵,如姿勢、大致髮型和臉型,從 Destination 圖像中複製了所有顏色(眸色、髮色和光照);「middle styles」從 Source 圖像中複製了較小型的面部特徵例如髮式、眼睛睜/閉,從 Destination 圖像中複製了臉型;「fine styles」從 Source 圖像中複製了顏色和微結構。

人臉合成效果媲美StyleGAN,而它是個自編碼器

圖 8:不同方法在 CelebA-HQ 數據集上的重建結果。第一行是真實圖像;第二行:StyleALAE;第三行:Balanced PIONEER;第四行:PIONEER。

從圖中可以看出,StyleALAE 的生成結果更加清晰,失真度也最低。


分享到:


相關文章: