訓練了一個名為 instagan 的無監督跨域轉換模型?看看吧!

目前圖像到圖像轉換的應用已經非常廣泛,包含從衛星圖像生成地圖到只從輪廓生成完整的服裝圖像。這篇論文研究將長頸鹿轉變為鳥實際上非常具有挑戰,由於兩種動物有不同的大小、紋理和形態。他們訓練了一個名為 instagan 的無監督跨域轉換模型,讓它接受了非常多長頸鹿和鳥的圖片訓練。


訓練了一個名為 instagan 的無監督跨域轉換模型?看看吧!


最後鳥類成品保留原始圖片的佈局和背景,只是將長頸鹿直接轉換成鳥類;需要強調的是,生成的鳥並不存在,這之後是 instagan 生造的結果。
此次論文的創新點,用作者自己的話說就是,我們此次沒有把蘋果變成橘子,而是把大象變成了香蕉;由於以前沒有監督的圖像到圖像轉換,例子絕大部分是將站著的獅子轉換為趴著,將貓轉化為狗,馬變成斑馬等,可這些訓練在比例、形狀都非常類似,因此難度有所差別。

訓練了一個名為 instagan 的無監督跨域轉換模型?看看吧!


鳥類圖片用於訓練
用於訓練 gan 和生成相關的圖像有兩個數據集:coco(common objects in context) 和 caltech-ucsd birds 200;coco 數據集有超過 91 種類型的 328000 張圖片,作者們從中選了 2546 張和 101 張的長頸鹿圖片分別用於訓練和驗證,又從另一個主要覆蓋 200 多個種類的鳥數據集 caltech-ucsd birds 200-2011 中,八二分,選擇 80% 也就是 9414 張的鳥類圖片用於訓練,20% 也就是 374 張用於驗證。
每張圖片都可以看到長頸鹿和鳥的輪廓;牛津大學的研究人員開發了一種AI系統,一是把長頸鹿變成鳥,乃至能夠讓圖片裡的人開口說話。
接下來開始訓練;絕大部分參數與 instagan 初始論文中一致;經過雙線性插值(bilinear interpolation)將長頸鹿和小鳥數據集的圖像大小調整為 256x256 ,gpu 訓練花費了將近 3 周時間(假如用 2 個英偉達 rtx 2080 gpu,時間能減少到一週半)。

訓練了一個名為 instagan 的無監督跨域轉換模型?看看吧!


綜上,該論文結論是,FakeSet 達成了接近真實數據集的檢測和分割結果,固然大部分圖像並不完全真實,可是正確轉化的比例也非常高,檢測和分割結果也是高可信的(高於80%)。這說明生成的圖像非常逼真,不論是肉眼非常難以察覺,也經得起最先進的深層神經網絡的檢驗。


分享到:


相關文章: