CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域


近日,計算機視覺領域“奧斯卡”CVPR 2020官方公佈論文收錄結果,伴隨投稿數量激增,接收率開始經歷了一個持續下降的過程。今年,在6656篇有效投稿中,共有1470篇論文被接收,接收率為22%左右,相較去年25%的入選率,同比下降3%。在論文接收率下降的同時,中國科技企業被錄取論文數量卻不降反增,百度作為 AI 代表企業今年中選22篇,比去年的17篇增加了5篇。

近年來,CVPR 蓬勃發展的重要原因,很大一部分是源自於中國科技公司的貢獻。本次會議中,百度入選論文22篇,全面涵蓋視覺領域下的人臉檢測&識別、視頻理解&分析、圖像超分辨、及自動駕駛中的車輛檢測、場景實例級分割等眾多熱門子領域,也向國際領域展示了中國視覺技術水平的深厚積累。

除了多篇論文被收錄,百度還將在本屆 CVPR 中聯合悉尼科技大學、南開大學等單位共同主辦弱監督學習研討會(The 2nd Workshop on Learning from Imperfect Data),以及中科院等單位共同主辦活體檢測研討會(The 4th Workshop on Media Forensics)與更多頂尖學者進行深入交流。

如下為百度入選 CVPR 2020的部分論文展示:

人臉檢測&識別

HAMBox: Delving into Online High-quality Anchors for DetectingOuter Faces


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

近期,關於人臉檢測器利用錨點構建一個結合分類和座標框迴歸的多任務學習問題,有效的錨點設計和錨點匹配策略使得人臉檢測器能夠在大姿態和尺度變化下精準定位人臉。本次論文中,百度提出了一種在線高質量錨點挖掘策略 HAMBox, 它可以使得異常人臉(outer faces)被補償高質量的錨點。HAMBox 方法可以成為一種基於錨點的單步驟人臉檢測器的通用優化方案。該方案在 WIDERFACE、FDDB、AFW 和 PASCAL Face 多個數據集上的實驗表明了其優越性,同時在2019年 WIDER Face and Pedestrian Challenge上,以 mAP 57.13%獲得冠軍,享譽國際。

FaceScape: a Large-scale High Quality 3D Face Dataset and DetailedRiggable 3D Face Prediction


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

該論文發佈大尺度高精度人臉三維模型數據庫 FaceScape,並首次提出從單幅圖像預測高精度、可操控人臉三維模型的方法。FaceScape 數據庫包含約18000個高精度三維面部模型,每個模型包含基底模型和 4K 分辨率的置換圖及紋理貼圖,能夠表徵出面部極細微的三維結構和紋理。與現有公開的三維人臉數據庫相比,FaceScape 在模型數量和質量上均處於世界最高水準。

在 FaceScape 數據庫的基礎之上,本文還探索了一項具有挑戰性的新課題:以單幅人臉圖像為輸入,預測高精度、表情可操控的三維人臉模型。該方法的預測結果能夠通過表情操控生成精細的面部模型序列,所生成的模型在新表情下仍然包含逼真的細節三維結構。據悉,FaceScape 數據庫和代碼將於近期免費發佈,供非商業用途的學術研究使用。


Hierarchical Pyramid Diverse Attention Network for FaceRecognition


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

目前主流的人臉識別方法很少考慮不同層的多尺度局部特徵。為此,本文提出了一個分層的金字塔多樣化注意力模型。當面部全局外觀發生巨大變化時,局部區域將起重要作用。最近的一些工作應用注意力模塊來自動定位局部區域。如果不考慮多樣性,所學的注意力通常會在一些相似的局部塊周圍產生冗餘的響應,而忽略了其他潛在的有判別力的局部塊。

此外,由於姿態或表情變化,局部塊可能以不同的尺度出現。為了緩解這些挑戰,百度團隊提出了一種金字塔多樣化注意模塊,以自動和自適應地學習多尺度的多樣化局部表示。更具體地說,開發了金字塔注意力模塊以捕獲多尺度特徵;同時為了鼓勵模型專注於不同的局部塊,開發了多元化的學習方法。其次,為了融合來自低層的局部細節或小尺度面部特徵圖,可以使用分層雙線性池化來代替串聯或添加。


目標檢測&跟蹤

Associate-3Ddet: Perceptual-to-Conceptual association for 3D Point Cloud Object Detection


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

目標檢測技術是機器人和自動駕駛領域中最重要的模式識別任務之一。本文提出了一種領域自適應的方法來增強稀疏點雲特徵的魯棒性。更具體地說,是將來自真實場景的特徵(感知域特徵)和從包含豐富細節信息的完整虛擬點雲特徵(概念域特徵)進行了關聯。

這種域適應特徵關聯的方法實際上是模擬在人腦進行物體感知時的聯想關聯功能。

這種三維目標檢測算法在訓練過程中增強了特徵提取能力,在推理階段不需要引入任何額外的組件,使得該框架易於集成到各種三維目標檢測算法中。


NeuralMessage Passing and Attentive Spatiotemporal Transformer for Point Cloud Based3D Video Object Detection


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

基於單幀點雲的 3D 目標檢測器通常無法應對目標遮擋、遠距離和非均勻採樣等情況,而點雲視頻(由多個點雲幀組成)通常包含豐富的時空信息,可以改善上述情況下的檢測效果,因此本文提出一個端到端的在線 3D 點雲視頻目標檢測器。

論文中的 Pillar Message Passing Network(PMPNet),可將點雲俯視圖下的非空柵格編碼為圖節點,並在節點間進行信息傳遞以動態改善節點感受野,PMPNet 可以有效結合圖空間的非歐特性和 CNN 的歐式特性;在時空特徵聚合模塊中,還提出空間和時間注意力機制來強化原始的 Conv-GRU 層,空間注意力機制對 new memory 進行前景增強和背景抑制,時間注意力機制用以對齊相鄰幀中的動態前景目標。該3D點雲視頻目標檢測器在 nuScenes 大型基準集上達到了領先效果。


A UnifiedObject Motion and Association Model for Efficient Online Multi-object Tracking


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

利用單目標跟蹤器(SOT)作為運動預測模型執行在線多目標跟蹤(MOT)是當前的流行方法 ,但是這類方法通常需要額外設計一個複雜的相似度估計模型來解決相似目標干擾和密集遮擋等問題。本文利用多任務學習策略,將運動預測和相似度估計到一個模型中。

值得注意的是,該模型還設計了一個三元組網絡,可同時進行 SOT 訓練、目標 ID 分類和排序,網絡輸出的具有判別力的特徵使得模型可以更準確地定位、識別目標和進行多目標數據關聯;此外,論文中提出了一個任務專屬注意力模塊用於強調特徵的不同上下文區域,進一步強化特徵以適用於 SOT 和相似度估計任務。該方法最終得到一個低存儲(30M)和高效率(5FPS)的在線 MOT 模型,並在 MOT 2016和 MOT 2017標準測試集上取得了領先效果。


視頻理解&分析

ActBERT: Learning Global-Local Video-Text Representations


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

受到 BERT 在自我監督訓練中的啟發,百度團隊對視頻和文字進行類似的聯合建模,並基於敘述性視頻進行視頻和文本對應關係進行研究。其中對齊的文本是通過現成的自動語音識別功能提供的,這些敘述性視頻是進行視頻文本關係研究的豐富數據來源。

ActBERT 加強了視頻文字特徵,可以發掘到細粒度的物體以及全局動作意圖。百度團隊在許多視頻和語言任務上驗證了 ActBERT 的泛化能力,比如文本視頻片段檢索、視頻字幕生成、視頻問題解答、動作分段和動作片段定位等,ActBERT 明顯優於最新的一些視頻文字處理算法,進一步證明了它在視頻文本特徵學習中的優越性。


Memory Aggregation Networks for Efficient Interactive Video ObjectSegmentation


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域


該論文目的是設計一個快速的交互式視頻分割系統,用戶可以基於視頻某一幀在目標物上給出簡單的線,分割系統會把整個視頻中該目標物分割出來。此前,針對交互式視頻分割的方法通常使用兩個獨立的神經網絡,分別進行交互幀分割、將分割結果傳導至其他幀。

本文將交互與傳導融合在一個框架內,並使用像素 embedding 的方法,視頻中每一幀只需要提取一次像素 embedding,更有效率。另外,該方式使用了創新性的記憶存儲機制,將之前交互的內容作用到每一幀並存儲下來,在新的一輪交互中,讀取記憶中對應幀的特徵圖,並及時更新記憶。該方式大幅提升分割結果的魯棒性,在 DAVIS 數據集上取得了領先的成績。


ActionSegmentation with Joint Self-Supervised Temporal Domain Adaptation


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域


儘管最近在完全監督的領域上,動作分割技術方面取得了進步,但是其性能仍有不足。一個主要的挑戰是時空變化的問題(例如不同的人可能以各種方式進行相同的動作)。因此,該論文中利用未標記的視頻來解決此問題,方法是將動作分割任務重新設計為跨域(domain)問題,而且該跨域問題主要針對時空變化引起的域差異。

為了減少差異,論文提出了“自我監督的時域自適應(SSTDA)”,其中包含兩個自我監督的輔助任務(binary 和 sequential 的域預測),以聯合對齊嵌入不同規模時域動態的跨域特徵空間,從而獲得比其他域適應(DA)方法更好的效果。在三個具有挑戰性的公開數據集(GTEA、50Salads和Breakfast)上,SSTDA 遠遠領先於當前的最新方法,並且只需要65%的標籤訓練數據即可獲得與當前最新方法可比的性能,這也表明該方法可以有效利用未標籤目標視頻來適應各種變化。


圖像超分辨

Channel Attention based IterativeResidual Learning for Depth Map Super-Resolution


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

隨著深度信息的應用範圍越來越大,深度圖像超分辨問題引起了廣泛研究者的關注。深度圖像超分辨率是指由低分辨率深度圖像為基礎,獲取高質量的高分辨率深度圖像。本文提出的是一種深度圖像超分辨率方法,同時對低分辨率深度圖像的產生方式進行分析,並提出兩種模擬低分辨率深度圖像生成的方式:

伴隨噪聲的非線性插值降採樣產生方式及間隔降採樣產生方式。

針對不同類型的低分辨率深度圖像,本文使用迭代的殘差學習框架以低分辨率深度圖像為輸入,以 coarse-to-fine 的方式逐步恢復高分辨率深度圖像的高頻信息;同時,使用通道增強的策略加強包含高頻信息較多的通道在整個學習框架中的作用;另外,還使用多階段融合的策略有效複用在 coarse-to-fine 過程中獲得的有效信息;最後,通過 TGV 約束和輸入損失函數進一步優化獲得的高分辨率深度圖像。此次提出的方法可以有效處理深度圖像超分辨率問題,與目前已知的方法相比,效果顯著,優勢明顯。


車輛識別

3D PartGuided Image Editing for Fine-grained Object Understanding


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

在自動駕駛場景中,準確地感知“特殊”狀態的車輛對行駛安全至關重要(例如:車門打開可能有乘客下車,尾燈閃爍意味著即將變道)。針對此難題,本文提出了一個全新的數據合成(增強)方法,即通過對齊的部件級三維模型對二維圖像中的車輛進行編輯,自動生成大量“特殊”狀態(例如:開啟的車門、後備箱、引擎蓋,閃爍的前照燈、尾燈)的車輛圖像與語義標註結果。針對生成的訓練數據,本文設計了一個雙路骨幹網絡使得模型可以泛化到真實的測試數據,與傳統的模型渲染方法相比,本方法平衡了域差異的問題並且更加輕量便捷。

為了驗證方法的有效性,本文構建了 CUS (Cars in Uncommon States)數據集,標註了約1400張真實街景下車輛處於特殊狀態的圖像。實驗結果表明:本文提出的方法可以有效地對“特殊”狀態的車輛進行檢測、整車的實例級分割、部件的語義分割以及狀態描述,對自動駕駛的安全決策有著重要的意義。


神經網絡架構搜索

GP-NAS: Gaussian Process based Neural Architecture Search


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域


通過對深度神經網絡進行模型結構自動搜索, NAS(Neural Architecture Search)在各類計算機視覺的任務中都超越了人工設計模型結構的性能。

本論文旨在解決 NAS 中的三個重要問題:

(1)如何衡量模型結構與其性能之間的相關性?

(2)如何評估不同模型結構之間的相關性?

(3)如何用少量樣本學習這些相關性?

為此,本論文首先從貝葉斯視角來對這些相關性進行建模。

首先,通過引入一種新穎的基於高斯過程的 NAS(GP-NAS)方法,並通過定製化的核函數和均值函數對相關性進行建模。並且,均值函數和核函數都是可以在線學習的,以實現針對不同搜索空間中的複雜相關性的自適應建模。此外,通過結合基於互信息的採樣方法,可以通過最少的採樣次數就能估計/學習出 GP-NAS 的均值函數和核函數。

在學習得到均值函數和核函數之後,GP-NAS 就可以預測出不同場景,不同平臺下任意模型結構的性能,並且從理論上得到這些性能的置信度。在 CIFAR 10和 ImageNet 上的大量實驗證明了我們算法的有效性,並且取得了 SOTA 的實驗結果。


BFBox: Searching Face-appropriate Backbone and FeaturePyramid Network for Robust Face Detector


本文提出的 BFBox 是基於神經網絡架構搜索的方法,同時搜索適合人臉檢測的特徵提取器和特徵金字塔。動機是我們發現了一個有趣的現象:針對圖像分類任務設計的流行的特徵提取器已經在通用目標檢測任務上驗證了其重要的兼容性,然而在人臉檢測任務上卻沒有取得預期的效果。同時不同的特徵提取器與特徵金字塔的結合也不是完全正相關的。

首先,本文對於比較好的特徵提取器進行分析,提出了適合人臉的搜索空間;其次,提出了特徵金字塔注意力模塊(FPN-attention Module)去加強特徵提取器和特徵金字塔之間的聯繫;最後,採取SNAS的方法同時搜出適和人臉的特徵提取器和特徵金字塔結構。多個數據集上的實驗表明了 BFBox 方法的優越性。


結構設計

Gated ChannelTransformation for Visual Recognition


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域


本文針對深度卷積神經網絡提出了一種常規的、易應用的變換單元,即 Gated Channel Transformation (GCT) 模塊。GCT 結合了歸一化方法和注意力機制,並使用輕量級的、易於分析的變量來隱式地學習網絡通道間的相互關係。這些通道量級的變量可以直接影響神經元間的競爭或者合作行為,且能方便地與卷積網絡本身的權重參數一同參與訓練。

通過引入歸一化方法,GCT 模塊要遠比 SE-Nets 的 SE 模塊輕量,這使得將 GCT 部署在每個卷積層上而不讓網絡變得過於臃腫成為了可能。本文在多個大型數據集上針對數種基礎視覺任務進行了充分的實驗,即 ImageNet 數據集上的圖片分類,COCO 上的目標檢測與實例分割,還有 Kinetics 上的視頻分類。在這些視覺任務上,引入 GCT 模塊均能帶來明顯的性能提升。這些大量的實驗充分證明了GCT模塊的有效性。


表徵學習

Label-IsolatedMemory for Long-Tailed Visual Recognition


實際場景中的數據通常遵循“長尾”分佈。大量類別都是數據較少,而有少數類別數據充足。為了解決類不平衡問題,本文引入了類別隔離記憶結構(LIM)用於長尾視覺識別。首先,LIM 增強了卷積神經網絡快速學習尾部類別特徵的能力。通過存儲每個類的最顯著的類別特徵,獨立更新存儲單元,LIM 進一步降低了分類器學偏的可能。其次,本文為多尺度空間特徵編碼引入了一種新穎的區域自注意力機制。為了提高尾類識別通用性,合併更多區別性強的特徵是有好處的。

本文提出以多個尺度對局部特徵圖進行編碼,同時背景信息也被融合進來。配備 LIM 和區域自注意力機制,該方法在5個數據集上都取得了最好的性能。


CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

CVPR 是計算機視覺領域的國際頂級會議,百度能夠在 CVPR 中保持多年的優勢,背後是百度 AI 技術多年積累和業務實踐的集大成者——百度大腦。

百度大腦 AI 開放平臺對外開放240項核心 AI 能力,除了在國際領域中屢獲佳績的視覺技術,其語音、人臉、NLP、OCR 等技術也有不俗的成績,調用量均為中國第一。未來,百度還將不斷打磨、創新人工智能技術,從頂尖的學術研究、前瞻的技術佈局、深入行業的落地應用,為全球科技發展出一份力。


分享到:


相關文章: