02.29 孫富春教授團隊CVPR 2020發文提出無監督圖像轉換任務新框架

以下文章來源於CAAI認知系統與信息處理專委會 ,作者陳潤髮,黃文炳

孫富春教授團隊CVPR 2020發文提出無監督圖像轉換任務新框架

CAAI認知系統與信息處理專委會

中國人工智能學會認知系統與信息處理專業委員,由清華大學孫富春教授於2014年創立。專委會每年召開認知系統和信息處理國際會議(ICCSIP),同時創辦了“Cognitive Computation and Systems”國際期刊。

導讀

2月24日,2020 IEEE國際計算機視覺與模式識別會議(IEEE Conference on Computer Vision and Pattern Recognition,簡稱CVPR)公佈接收論文結果。清華大學計算機系“類腦計算與認知”團隊提交的論文《Reusing Discriminators for Encoding Towards UnsupervisedImage-to-Image Translation》被成功接收。論文第一作者為陳潤髮,是清華大學計算機系碩士二年級研究生;指導老師為孫富春教授(中國人工智能學會副理事長,清華大學教授,IEEE/CAAI Fellow)等。

孫富春教授團隊CVPR 2020發文提出無監督圖像轉換任務新框架

據悉,本屆CVPR 的評審陣容包括 198位領域主席和3664位審稿人。近三年來,CVPR 的論文投稿量都在持續大漲(CVPR 2018有 3300 篇有效投稿、CVPR 2019有 5160 篇有效投稿、CVPR 2020有效投稿達6656),然而在接收率方面,已是“二連降”(CVPR 2018 收錄論文 979 篇、接收率為 29%左右;CVPR 2019 收錄論文 1300 篇,接收率為25%左右;CVPR 2020 收錄論文 1470篇、接收率為 22%左右)。

孫富春教授團隊CVPR 2020發文提出無監督圖像轉換任務新框架

論文背景

隨著近幾年對抗生成網絡(GAN)的快速發展,無監督圖像轉換任務成為計算機視覺領域的一個熱門方向。近幾屆人工智能領域頂級學術會議上(如CVPR、ECCV、ICCV、NIPS、ICLR等)有關對抗生成網絡和圖像轉換任務的論文數量也呈現爆炸增長的趨勢。


當我們回顧當前成功的圖像轉換框架時(例如CycleGAN),大多數都由三個部分組成:1、將輸入圖像嵌入到低維隱層空間的編碼器;2、將隱層編碼轉換為其他域圖像的生成器;3、使用對抗訓練進行域對齊的判別器。儘管這種堆疊方式是標準的,但我們仍然好奇這樣的問題:是否有可能重新考慮每個組件在轉換框架中的作用?是否還有更緊湊更有效的網絡框架?


新的網絡框架

這篇文章提出了一個新穎的思路。眾所周知,在圖像轉換任務中,當網絡訓練完成後,當前的網絡框架將丟棄判別器。而在論文提出的新框架中,判別器賦予了雙重角色——編碼和分類:通過複用目標域判別器的前幾層網絡來替代目標域圖像的編碼器。作者將這個新的體系結構稱為NICE-GAN。實際上,判別器的編碼潛力在DCGAN這篇文章中就已經被討論。


孫富春教授團隊CVPR 2020發文提出無監督圖像轉換任務新框架

圖1 類似CycleGAN的框架與作者的NICE-GAN框架之間的主要差異


與以前的方法相比,NICE-GAN具有兩個優勢:首先,由於不需要獨立的編碼組件,因此結構更緊湊,同時在訓練完成後,其編碼部分仍保留用於推斷。其次,傳統的編碼器是通過生成器的梯度傳播進行間接訓練的。在這裡,通過將其插入判別器中,可以直接利用判別損失(Discriminative Loss)進行訓練,如果應用了多尺度判別器結構,則它將擁有更多的信息量和更高的訓練效率。


解耦訓練策略

NICE-GAN框架中的主要問題是編碼器上的轉換構造(translation)與判別(discrimination)之間存在矛盾的耦合——當我們通過GAN玩min-max遊戲時,編碼器與生成器一起訓練以最小化對抗損失,而與判別器一起訓練則為了使對抗損失最大化,這會導致訓練目標的衝突。為了解決這個問題,作者提出了一種解耦訓練策略,使編碼器的訓練僅與判別器相關聯,而與生成器無關通過該策略——僅在最大化對抗損失(Discriminative Loss)的時候對編碼器進行訓練,否則將其凍結。


孫富春教授團隊CVPR 2020發文提出無監督圖像轉換任務新框架

圖 2. NICE-GAN前向傳播和後向傳播示意圖。解耦的訓練方式:在最小化對抗損失、重構損失和循環一致性損失時,編碼器凍結權重,而在最大化對抗損失時訓練編碼器。


實驗驗證

作者在四個流行的基準上進行的廣泛實驗證明,在FID,KID以及人類感知偏好等指標上,NICE-GAN的性能優於最新方法。此外,作者還進行了全面的消融研究,以驗證每個組件的有效性。

孫富春教授團隊CVPR 2020發文提出無監督圖像轉換任務新框架

圖3 轉換效果圖。從上到下依次為:狗貓,冬天夏天,普通照片梵高作品,斑馬綜馬

孫富春教授團隊CVPR 2020發文提出無監督圖像轉換任務新框架

表 1. 在四個流行的基準上的FID和KID指標。NICE-GAN的性能優於最新方法。


孫富春教授團隊CVPR 2020發文提出無監督圖像轉換任務新框架

表2 模型大小和浮點運算量。表明NICE-GAN體系結構更加緊湊,模型複雜度更低。

分析與結論

通過t-SNE可視化隱層編碼,並利用Maximum Mean Discrepancy(MMD)以計算隱層空間兩個編碼分佈的差異。有趣的是,通過NICE的訓練,兩個域的隱層空間分佈變得更加聚集和緊密,但彼此依然可分。這種現象解釋了為什麼NICE-GAN表現出色。基於共享隱層空間假設構建的NICE-GAN,通過縮短低維隱層空間中域之間的轉換路徑,可能會促進高維圖像空間的域的轉換。同時進一步支持了一個重要觀點:對比由通過最大似然訓練的編碼器網絡學習的特徵,由經過判別訓練的網絡學習到的特徵往往更具表現力,也更適合推理。在NICE-GAN中,編碼器也成為分佈距離度量函數的一部分,而生成器只需要從隱層分佈中提取循環一致性信息並擬合目標域分佈。這種簡單解耦的明確分工,有望引起人們對判別器實際作用的重新思考,它可能會刷新基於GAN的諸多任務的實現框架。

孫富春教授團隊CVPR 2020發文提出無監督圖像轉換任務新框架

該論文得到了國家科技部科技創新2030“新一代人工智能”重大項目的資助支持。後續工作中,清華大學計算機系“類腦計算與認知團隊”將會繼續關注機器人感知中的表徵學習的基礎理論問題,致力於尋找更有效的算法,實現更好的機器人學習效果。


本文由CAAI認知系統與信息處理專委會供稿


分享到:


相關文章: