05.29 CVPR 2018:騰訊圖像去模糊、自動人像操縱最新研究

CVPR 2018:騰訊圖像去模糊、自動人像操縱最新研究


新智元報道

【新智元導讀】即將在6月美國鹽湖城舉行的計算機視覺頂級會議CVPR 2018,騰訊優圖的其中兩篇入選論文,由於其較高的應用價值,受到學術界和產業界的關注。

CVPR 2018:騰訊圖像去模糊、自動人像操縱最新研究

作為計算機視覺領域最高級別的會議之一的CVPR,其論文集通常代表著計算機視覺領域最新的發展方向和水平。

騰訊優圖多篇論文被CVPR2018收錄,其中基於尺度迭代深度神經網絡的圖像去模糊算法(“Scale-recurrentNetwork for Deep Image Deblurring”),介紹了AI技術在處理非特定場景圖片去模糊中的應用,和通過Facelet-Bank進行快速肖像處理(Facelet-Bank for Fast Portrait Manipulation),介紹了用AI技術快速處理肖像的應用,這兩項技術,解決了長期困擾圖片處理中的一些難題,因為極大的應用價值而受到產業界和關注。

解密運動模糊:走向實用的非特定場景圖片去模糊技術

在慢速曝光或快速運動拍攝照片時,圖像模糊常常困擾著照片拍攝者。優圖實驗室的研究人員開發了可以恢復模糊圖像的有效新算法。

在此之前,圖像去模糊一直是圖像處理中困擾業界的難題。 圖像模糊產生的原因可能非常複雜。比如,相機晃動,失焦,拍攝物體高速運動等等。現有的圖片編輯軟件中的工具通常不盡如人意,例如,Photoshop CC中的“相機抖動還原”工具,只能處理簡單的相機平移抖動模糊。 這種類型的模糊在計算機視覺業內被稱為“均勻模糊”。而大部分模糊圖片並不是“均勻模糊”的,因而現有圖片編輯軟件的應用十分有限。

CVPR 2018:騰訊圖像去模糊、自動人像操縱最新研究

模糊的照片

CVPR 2018:騰訊圖像去模糊、自動人像操縱最新研究

去模糊後的照片

騰訊優圖實驗室的新算法,可以處理非特定場景中的圖片模糊。算法基於一種被稱為“動態模糊”的模糊模型假設。它為每個像素的運動單獨建模,因而可以處理幾乎所有類型的運動模糊。比如,上圖中,由於相機抖動而產生的平移和旋轉,每個人物的運動軌跡都不相同。經過騰訊優圖實驗室的新算法處理後,圖片已經恢復到幾乎完全清晰,甚至背景中的書籍上的字也清晰可辨。

據騰訊優圖實驗室的研究員介紹,騰訊優圖採用的方法採用的基本技術是深度神經網絡。在經歷了對數千對模糊/清晰的圖像組的處理訓練後,強大的神經網絡自動學習瞭如何將模糊的圖像結構清晰化。

儘管使用神經網絡進行圖片去模糊並不是一個新想法,但騰訊優圖實驗室別出心裁的將物理直覺結合進來以促進模型訓練。在騰訊優圖實驗室新算法的論文中,其網絡模仿了一種被稱為“由粗到精”的成熟的圖像恢復策略。該策略首先將模糊圖像縮小成多種尺寸,然後從比較容易恢復的較小而偏清晰的圖像出發,逐步處理更大尺寸的圖片。每一步中產生的清晰圖像則可以進一步引導更大的圖像的恢復,降低了網絡訓練的難度。

AI肖像藝術家:以乾淨優雅的方式快速處理人像屬性

修改人像照片中的臉部屬性(不僅是美化)非常困難。藝術家通常需要對人像做很多層面上的處理才能使得修改後的圖像自然美觀。 AI可以接管這些複雜的操作嗎?

來自賈佳亞教授領導的騰訊優圖實驗室的研究人員提出了“自動人像操縱”的最新模型。藉助此模型,用戶只需簡單地提供所需效果的高級描述,模型就會根據命令自動呈現照片,例如,使他變年輕/變老等。

CVPR 2018:騰訊圖像去模糊、自動人像操縱最新研究

完成這項任務,面臨的主要挑戰是,無法收集到“輸入-輸出”的樣本用於訓練。因此,無監督學習中流行的“生成對抗”網絡通常用於此任務。然而,優圖團隊提出的這種方法並不依賴於生成對抗網絡。它通過生成帶噪聲的目標來訓練神經網絡。由於深度卷積網絡的去噪效果,其網絡的輸出甚至優於所學習的目標。

“生成對抗網絡是一個強大的工具,但它很難優化,我們希望找到更簡單的方法來解決這個問題,我們希望這項工作不僅能減輕藝術家的負擔,還能減輕訓練模型的工程師的負擔。”騰訊的研究人員說。

據介紹,該模型的另一個吸引人的特點是它支持局部模型更新,也就是說,當切換不同的操作任務時,只需要替換模型的一小部分。這對系統開發人員十分友好。而且,從應用層面,也使得應用可以“增量更新”。

即使相片中的人臉沒有裁剪並且很好地對齊,該模型也可以隱式地參加正確的面部區域。在很多情況下,用戶僅僅將原始照片輸入給模型就足以產生高質量的結果。甚至將視頻一幀一幀地輸入模型中,也可以處理整段視頻中人臉的屬性。

附:除以上兩篇,騰訊優圖實驗室其餘入選CVPR2018的文章簡介

1、Referring Image Segmentation via Recurrent Refinement Networks

通過循環神經網絡進行指定圖像指定區域的語義分割

根據自然語言的描述來分割圖片的指定區域是一個充滿挑戰的問題。此前的基於神經網絡的方法通過融合圖像和語言的特徵進行分割,但是忽略了多尺度的信息,這導致分割結果質量不高。對此,我們提出了一種基於循環卷積神經網絡的模型,在每一次迭代過程中加入底層卷積神經網絡的特徵來使得網絡可以逐漸捕獲圖片不同尺度下的信息。我們可視化了模型的中間結果並且在所有的相關公開數據集中都達到了最佳水平。

2、Weakly SupervisedHuman Body Part Parsing via Pose-Guided Knowledge Transfer

通過由姿態引導的知識遷移進行弱監督及半監督的人體部位分割

人體部位解析,或稱人類語義部位分割,是許多計算機視覺任務的基礎。在傳統的語義分割方法中,我們需要提供手工標註的標籤,以便使用全卷積網絡(FCN)進行端到端的訓練。雖然過去的方法能達到不錯的效果,但它們的性能高度依賴於訓練數據的數量和質量。

在本文中,我們提出了一種獲得訓練數據的新方法,它可以使用容易獲得的人體關鍵點的數據來生成人體部位解析數據。我們的主要想法是利用人類之間的形態相似性,將一個人的部位解析結果傳遞給具有相似姿勢的另一個人。使用我們生成的結果作為額外的訓練數據,我們的半監督模型在PASCAL-Person-Part數據集上優於強監督的方法6個mIOU,並且達到了最好的人類部位解析結果。我們的方法具有很好的通用性。它可以容易地擴展到其他物體或動物的部位解析任務中,只要它們的形態相似性可以由關鍵點表示。我們的模型和源代碼將在之後公開。

3、Learning DualConvolutional Neural Networks for Low-Level Vision

基於雙層卷積神經網絡處理低層視覺的方法

本文提出了一個雙層卷積神經網絡來處理一些低層視覺問題,比如圖像超分辨率、保邊緣的圖像濾波、圖像去雨、圖像去霧等。這些低層視覺問題通常涉及到目標結果的結構和細節部分的估計。受此啟發,本文提出的雙層卷積神經網絡包含兩個分支,其中這兩個分支可端到端的估計目標結果的結構和細節信息。基於估計的結構和細節信息,目標結果可分別通過特定問題的成像模型來得到。本文所提出的雙層卷積神經網絡是一個一般性的框架,它可以利用現有的卷積神經網絡來處理相關低層視覺問題。大量的實驗結果表明,本文所提出的雙層卷積神經網絡可以應用於大多數低層視覺問題,並取得了較好的結果。

4、GeoNet: Geometric Neural Network for Joint Depth and Surface Normal Estimation

GeoNet:通過幾何神經網絡進行聯合的深度和平面法向量估計

在這篇論文中,我們提出了幾何神經網絡,用於同時預測圖片場景的深度和平面法向量。我們的模型基於兩個不同卷積神經網絡,通過對幾何關係的建模來循環迭代更新深度信息和平面法向量信息,這使得最後的預測結果有著極高的一致性和準確率。我們在NYU數據集上驗證了我們提出的幾何神經網絡,實驗結果表明我們的模型可以精確預測出幾何關係一致的深度和平面法向量。

5、Path AggregationNetwork for Instance Segmentation

通過路徑聚合網絡進行實例分割

在神經網絡中,信息傳遞的質量是非常重要的。在本文中,我們提出了路徑聚合神經網絡,旨在提升基於區域的實例分割框架中信息傳遞的質量。具體來講,我們構建了自下而上的通路來傳遞儲存在低層神經網絡層中精確的定位信息,縮短了底層網絡和高層網絡之間的信息傳輸距離,增強了整個特徵層級的質量。我們展示了適應性特徵池化,它連接了區域特徵與所有的特徵層級,進而使得所有有用的信息都能夠直接傳遞到後面的區域子網絡。我們增加了一個互補的分支去捕捉每個區域不同的特性,最終提升了掩膜的預測質量。

這些改進十分易於實現,而且增加了較少的額外計算量。這些改進幫助我們在2017 COCO實例分割競賽中取得第一名,在物體檢測競賽中取得第二名。而且我們的方法也在MVD和Cityscapes數據集中取得最好成績。

6、FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors

FSRNet:基於先驗信息的端到端訓練的人臉超分辨率網絡

本文由騰訊優圖實驗室與南京理工大學主導完成,併入選Spotlight文章。人臉超分辨率是一個特定領域的超分辨率問題,其獨特的人臉先驗信息可以用來更好超分辨率人臉圖像。本文提出一種新的端到端訓練的人臉超分辨率網絡,通過更好的利用人臉特徵點熱度圖和分割圖等幾何信息,在無需人臉對齊的情況下提升非常低分辨率人臉圖像的質量。具體來說,本文首先構造一個粗粒度超分網絡恢復一個粗精度的高分辨率圖像。其次把該圖像分別送入一個細粒度超分編碼器和一個先驗信息估計網絡兩條分支。細粒度超分編碼器抽取圖像特徵,而先驗網絡估計人臉的特徵點和分割信息。最後兩條分支的結果匯合送入一個細粒度超分解碼器重構出最終的高分辨率圖像。

為了進一步生成更真實的人臉,本文提出人臉超分辨率生成對抗網絡,將對抗思想融入超分網絡中。另外,我們引入人臉對齊和人臉分割兩種相關任務,作為人臉超分的新的評估準則。這兩種準則克服了傳統準則(比如PSNR/SSIM)在數值和視覺質量不一致的問題。大量實驗顯示,本文提出的方法在處理非常低分辨率人臉圖像時,在數值和視覺質量兩方面都顯著優於以往超分方法。

7、Generative AdversarialLearning Towards Fast Weakly Supervised Detection

基於生成對抗學習的快速弱監督目標檢測

該論文提出一種面向快速弱監督目標檢測的生成對抗學習算法。近年來弱監督目標檢測領域有著大量的工作。在沒有人工標註包圍盒的情況下,現有的方法大多是多階段流程,其中包括了候選區域提取階段。這使得在線測試的速度比快速有監督目標檢測(如SSD、YOLO等)慢一個數量級。該論文通過一種新穎的生成對抗學習算法來加速。在這過程中,生成器是一個單階段的目標檢測器,引入了一個代理器來挖掘高質量的包圍盒,同時用判別器來判斷包圍盒的來源。最後算法結合了結構相似損失和對抗損失來訓練模型。實驗結果表明該算法取得了明顯的性能提升。

8、GroupCap: Group-based Image Captioning with Structured Relevance andDiversity Constraints

基於組群的帶結構化相關性和差異性約束的圖像自動描述

該論文提出了一種基於組群圖像結構化語義關聯性分析的圖像自動描述方法(GroupCap),對圖像間的語義相關性和差異性進行建模。具體而言,該論文首先利用深度卷積神經網絡提取圖像的語義特徵並利用提出的視覺解析模型構建語義關聯結構樹,然後在結構樹基礎上採用三聯損失和分類損失對圖像間語義關聯性(相關性和差異性)進行建模,最後將關聯性作為約束來引導深度循環神經網絡生成文本。該方法新穎且有效,很好解決了當前圖像自動描述方法對於生成結果精確度不高且判別性不強的缺陷,並在圖像自動描述的多項指標上取得較高的性能。


分享到:


相關文章: