08.28 NVIDIA研究人員提出新的風格遷移算法,可大幅提高風格遷移的效率,同時實現任意圖片的風格轉換

NVIDIA研究人員提出新的風格遷移算法,可大幅提高風格遷移的效率,同時實現任意圖片的風格轉換

來源:arxiv NVIDIA 整理:T.R

藝術風格轉換算得上是AI最有趣的應用之一了,你可以將梵高的名畫風格添加到自己的照片中,也可以個自己的頭像來一幅映像派的油畫。它同時處理風格圖像和內容圖像來進行合成,使得生成的結果在保持了內容的前提下獲得了風格圖像的質感與美學特徵。但目前的算法模型實現比較龐大,同時會消耗很大的計算資源,在一定程度上限制了人工智能對於美的創造。

近日,來自英偉達的研究人員與加州大學默塞德分校的研究人員們共同提出了一種新的風格遷移算法,不僅大幅提高了風格遷移的效率,同時實現了任意圖片的風格轉換,這使得AI對於圖像的創造邁向了更廣闊的天地。

(文章作者之一是來自Nvidia的SifeiLiu研究員,瞭解她的更多工作請進傳送門>>回顧 | NVIDIA研究員劉思飛:空間傳播網絡)

對於提供的隨機圖片,這一算法可以將參考圖片中的任意風格進行抽取並基於內容圖片進行合成輸出。近來的任意風格轉換算法主要通過內容圖片特徵與預先計算得到的轉化矩陣相乘。但這些算法十分消耗計算,同時合成的圖像有時也不盡如人意。為了解決這些問題,研究人員們從理論上得到了遷移矩陣的表達形式,並給出了一種利用兩個輕型的卷積神經網絡來學習獲取任意遷移矩陣的方法,這種基於學習的遷移矩陣可以通過不同層次的風格損失來控制,在保持內容圖像的情況下靈活地結合多層次風格。同時,算法的實現具有很高的效率。

這一工作的主要貢獻在於以下三個方面:

1.提出了一種線性遷移的通用方法,其優化過程同時可以最小化風格重建損失;

2.提出了一種速度高達140fps的遷移矩陣學習方法,可靈活的在單一遷移矩陣中結合多層次風格,並在遷移過程中保持內容特徵;

3.基於上述靈活性,這一方法可以廣泛用於包括美學風格遷移、視頻圖像實際風格遷移以及領域遷移等很多任務中。

NVIDIA研究人员提出新的风格迁移算法,可大幅提高风格迁移的效率,同时实现任意图片的风格转换

在這一研究中,研究人員提出的模型包括兩個前向卷積網絡、一個對稱的編碼、解碼圖像重建結構以及遷移學習模塊和損失模塊等四個部分。

NVIDIA研究人员提出新的风格迁移算法,可大幅提高风格迁移的效率,同时实现任意图片的风格转换

其中編碼器和解碼器主要用於重建輸入的圖像,事先訓練好後就固定下來作為網絡的基礎用於後續的訓練過程。(編碼器用於抽取輸入圖像中的特徵,分別對內容和風格圖像提取特徵圖FcFs

,而解碼器則用於從抽取重建圖像。)

遷移模塊主要包含了兩個小卷積網絡,用於從前面的編碼器輸出中抽取特徵,並輸出遷移矩陣T. 隨後圖像遷移通過內容圖像與遷移矩陣的線性乘法來實現,隨後利用解碼其重建合成圖像。在網絡的最後,一個與訓練並固定的VGG-19網絡用於計算多層次的風格損失以及內容損失。整個網絡是純粹的前向傳播卷積神經網絡,對於GPU的運算十分友好,可以實現高達140fps的高效率風格遷移。

在網絡中,只有藍色的壓縮和解壓模塊,以及綠色的遷移單元是可以學習的,而其他的模塊都是固定的。

研究人員先從理論上探討了風格轉換、學習轉換矩陣的模型、高效計算的模型以及無損風格轉換的表達。對於風格轉換來說,其目標就是最小化遷移後的特徵Fc和期望的虛擬特徵phis之間的中心協方差,所以風格損失函數可以寫為下面的形式:

NVIDIA研究人员提出新的风格迁移算法,可大幅提高风格迁移的效率,同时实现任意图片的风格转换

但絕對值中的兩項差為0時可以實現最小化。同時可以利用線性約束和分解計算出風格遷移矩陣T

NVIDIA研究人员提出新的风格迁移算法,可大幅提高风格迁移的效率,同时实现任意图片的风格转换

其主要用內容和特徵圖像的特徵的協方差決定的。為了計算出T,需要選擇合適的模型來進行學習。

T矩陣是由內容和風格圖像共同決定的,研究人員認為一種可能的方法便是利用神經網絡同時將輸入的兩張圖像轉換為C*C

T矩陣輸出。在這一工作中,主要利用了兩個相互隔離的CNNs來實現。為了獲取這一輸出,其輸入包含了三種不同的形式:內容和風格圖像、內容和風格特徵圖、內容和風格特徵圖的協方差。下圖是三種不同輸入的情況下的風格轉換結果,可以看到將編碼器特徵圖的協方差作為全連接輸入進行風格遷移的效果更好:

NVIDIA研究人员提出新的风格迁移算法,可大幅提高风格迁移的效率,同时实现任意图片的风格转换

研究人員選擇了利用協方差來生成C*C的中間矩陣,隨後得到

T矩陣。首先T矩陣與輸入的維數不相干,並在不同分辨率下保持一致。同時需要全連接層在卷積的頂部進行處理。利用協方差作為模型的輸出將對更一般地風格遷移得到更好的結果。

為了實現高效的模型,研究人員們將以往算法中耗時的矩陣分解工作用前向網絡代替,將耗時的計算從GPU中移除。研究顯示T可以通過CNNs模塊和一個全連接層方便的訓練得到。同時利用學習的方法得到了包含多層次特徵單個T矩陣。T可以通過與不同風格重建損失的結合來實現豐富的表達。

NVIDIA研究人员提出新的风格迁移算法,可大幅提高风格迁移的效率,同时实现任意图片的风格转换

基於線性遷移的風格轉換還具有較強的內容保留特性,通過這種特性和淺層自編碼器,可以實現較好的無失真圖像遷移。保證了在風格遷移的過程中內容圖像的內容不會產生畸變。

NVIDIA研究人员提出新的风格迁移算法,可大幅提高风格迁移的效率,同时实现任意图片的风格转换

在深入研究了各個方面後,研究人員按照前述的架構構建了神經網絡,並在不同任務上進行了驗證。其數據集來自於MS-COCO和WikiArt進80000張圖像。利用Pytorch在TitanXP上訓練需要約2小時。下圖是本文提出算法與不同算法的比較結果:

NVIDIA研究人员提出新的风格迁移算法,可大幅提高风格迁移的效率,同时实现任意图片的风格转换

其中視頻和照片的實際場景風格遷移,將拍攝到的圖像遷移到期望的場景中區,具有十分廣闊的應用,這將會生成更為有效的濾鏡和產品。

NVIDIA研究人员提出新的风格迁移算法,可大幅提高风格迁移的效率,同时实现任意图片的风格转换NVIDIA研究人员提出新的风格迁移算法,可大幅提高风格迁移的效率,同时实现任意图片的风格转换

研究人員表示這將給內容生產者提供更多的創意,並將在實際生活中產生更多有趣的應用,將周圍的場景實時渲染成期望的樣子。

最後,研究人員們還驗證了這種方法在不同領域間遷移的有效性。通過將Cityscapes中的圖像作為風格圖,GTA遊戲場景數據中的圖作為內容圖,並利用在Cityscapes上訓練的PSPNet來進行語義風格。研究結果顯示,進行風格遷移後的圖像具有比原圖更好的語義分割效果。

NVIDIA研究人员提出新的风格迁移算法,可大幅提高风格迁移的效率,同时实现任意图片的风格转换

這也為低成本獲取語義分割數據集訓練提供了可行的手段。

更多內容請參考:

https://arxiv.org/pdf/1808.04537.pdf

https://news.developer.nvidia.com/new-ai-style-transfer-algorithm-allows-users-to-create-millions-of-artistic-combinations/

https://www.sifeiliu.net/publication

-The End-

將門是一家以技術創新為切入口的早期創新發掘機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門投資基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

NVIDIA研究人员提出新的风格迁移算法,可大幅提高风格迁移的效率,同时实现任意图片的风格转换

點擊右上角,把文章朋友圈

將門創投

讓創新獲得認可!

[email protected]


分享到:


相關文章: