廈大、深度賦智提指向性目標實時聯合檢測分割網絡

機器之心發佈

上個月,計算機視覺頂會 CVPR 2020 接收論文結果已經正式公佈。在 6656 篇有效投稿中,最終有 1470 篇論文被接收,錄取率約為 22%。廈門大學媒體分析與計算實驗室共有 11 篇論文接受,其中兩篇為 Oral。本文將介紹一篇CVPR 2020 Oral 論文,作者來自廈門大學、深度賦智和西安電子科技大,其提出的單階段協同學習網絡在目標檢測和目標分割任務中均實現了新的SOTA性能。


CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡


  • 論文鏈接:https://arxiv.org/abs/2003.08813
  • 論文代碼:https://github.com/luogen1996/MCN


該論文名為《Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation》,其首次提出單階段的協同學習網絡來同時解決指向性目標檢測(Referring Expression Comprehension)和指向性目標分割(Referring Expression Segmentation)兩個任務,而且在性能超越了 SOTAs 的條件下,達到了實時檢測和協同檢測的目的。

論文的共同一作為廈門大學媒體分析與計算實驗室(紀榮嶸 團隊)碩士生羅根和博士後周奕毅,並由廈門大學媒體分析與計算實驗室(紀榮嶸團隊)和深度賦智合作指導完 成。以下是論文一作羅根對該論文做出的解讀:

背景

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡


給定一句語言描述,Referring Expression Comprehension (REC) 旨在檢測出與該描述相關的目標 bounding box,而 Referring Expression Segmentation (RES) 旨在分割出對應目標。REC 和 RES 長期以來被當成兩個不同的 任務來看待並被設計出了大量的單任務網絡,例如將語言模塊嵌入到語義分割網絡(RES)或者利用語言來檢索目標(REC)。儘管其中有一些基於目標檢索的多階段網絡,例如 MAttNet,能得到兩個任務的結果,但究其本質仍是單任務的檢索(ranking)網絡,其多任務的結果歸根於後端的 mask-rcnn。

與此同時,這種依賴於預訓練目標檢測器先提特徵後利用語言特徵和其進行交互檢索的方式不僅僅費時費力,而且有如下弊端:1)兩個任務無法在多模態學習中相互促進;2)frcnn/mrcnn 特徵丟失了預訓練 CNN 網絡的關係先驗和空間先驗;3)當 proposals 中沒有候選目標,檢索網絡將毫無疑問會失敗。

動機

我們認為過去的方法不是解決這兩個任務的最佳範式。實際上,這兩個任務之間高度趨近且能夠互相促進。比如,RES 任務詳細的標籤能指導視覺和文本之間的對齊而 REC 任務得到更好的定位能力也能幫助 RES 確定目標。因此,很自然地能想到把這兩個任務放到一個單階段網絡裡學習,在保證速度和精度的同時,又能使兩個任務的學習互相促進。並且這樣的多任務嘗試在計算機視覺領域已經非常成功,即實例分割(Instance Segmentation)。

但與實例分割不同,這樣的聯合訓練仍存在一個重大問題,即預測分歧 (Prediction Conflict). 預測分歧其實也會存在於實例分割當中,比如框出來的物體沒有被分割出來,但對於任務本身的目的而言,這個問題不會顯得那麼嚴重。而這個問題在語言指導下的 RES 和 REC 中則會尤為突出:

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

如上圖所示,這樣的錯誤放在 RES 和 REC 中是不可接受的。因此,在解決多任務學習的同時,我們還要考慮兩個任務之間的協同性的問題,就此本文首次提出了一種高效且有效的單階段協同學習網絡。


方法

方法上可以分為網絡結構和解決預測分歧的設計兩塊內容,整體框架如下圖所示:

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡


1)網絡結構:

網絡結構上,我們要儘可能保證兩個任務之間能相互促進,同時各個部分的設計要複合兩個任務的屬性。首先我們對視覺特徵和語言特徵進行多模態多尺度的 fusion。在 REC 部分,我們採用了單尺度的預測並通過一條通路將淺層的多模態特徵回傳過來。這樣的設計一方面考慮到淺層特徵帶有更多的紋理、顏色信息並且受到 RES 任務的直接監督因而能夠促進語言語義的理解,另一方面由於 REC 任務中的 targets 較少,多尺度的預測往往在訓練中會帶來巨大的負樣本數。而 RES 部分,則需要大的分辨率的感受野,因此網絡的輸出尺度增大同時配備了 ASPP 來增加感受野。

此外,兩個任務分支間的多次交互保證了在訓練過程中能夠互相促進。訓練階段,REC 分支迴歸出 bounding box 以及預測對應的 confidence score,其過程類似於 Yolov3。而 RES 分支則預測出關於目標的概率圖,具體細節可以參見論文或者代碼。


2)解決預測分歧問題:

預測分歧問題的出現,一方面是由於 RES 定位能力弱造成的(RES 無法精確定位特定的目標而只能得到分割像素的集合,但這不能保證該集合就只包含或者完整包含了指向性物體),另一方面也是由於 RES 的任務更加複雜(在目標不夠顯著的情況下,REC 仍能得到正確的 bounding box 而 RES 卻不能),對訓練和學習的要求更高。因此從這兩個角度出發,我們考慮如何增強兩個任務間的共同關注,同時減少兩者之間的分歧。

對此我們提出了協同能量最大化 (Consistency Energy Maximization) 的自監督方法來最大化兩者在訓練階段的協同,同時提出了自適應軟非定位區域抑制(Adaptive Soft Non-Located Suppression)來在測試階段利用 REC 的定位能力幫助 RES 更好地定位和區分目標。以上兩種方式幾乎不會帶來任何的額外訓練/測試成本,同時能夠大大增強兩個任務的共同關注。


協同能量最大化 (Consistency Energy Maximization) :


CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡


首先考慮訓練的問題就需要明確優化的目標,很顯然我們要優化兩個任務分支的共同關注,但由於兩個任務的特徵以及性質上有所差異,直接優化兩路特徵往往會很大程度上影響性能。一個更好的選擇則是優化 Attention 特徵。一方面 Attention 特徵能夠更直接地反映出兩個任務的關注,另一方面通過殘差連接作為額外信息也不會影響原有信息。

這裡的 Attention 可以為任意的 Attention,文中我們採用了過去的工作(GARAN Attention)來得到 RES 和 REC 的 Attention 特徵分別定義為

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

。接著我們將 Attention 特徵投影到平面空間來獲得 RES 和 REC 的空間關注(能量幅值):


CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡


CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

經過 Softmax 進行歸一化後得到

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

。接著我們考慮

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

之間的關係(能量夾角),這裡我們用餘弦相似度來刻畫:


CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡


其中

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

為常數項用於歸一化。最終協同能量

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

可以被定義為:


CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡


最終我們通過最大化

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

來使得兩個任務在訓練中協同,其中前三項能夠最大化共同關注的能量,後兩項能夠約束非共同關注的能量。


自適應軟非定位區域抑制(Adaptive Soft Non-Located Suppression)

為了在測試階段能夠更好的幫助 RES 定位目標,一個自然地想法是採取傳統目標檢測/實例分割中的 box crop 的方式,利用 REC 檢測出來的 box 對 RES 預測出的概率分割圖進行裁剪,接著再將其二值化。然而,這種硬性裁剪的方式及其容易將目標的部分也裁剪掉,從而導致性能的下降:


CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡


對此,我們提出了一個 Soft 的方式來對框內和框外的分割圖概率分佈進行重新加權/抑制。給定一個 RES 分支預測的 mask

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

, 以及 REC 預測的 bounding box

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

,中的每個元素

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

會按下式更新:


CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡


其中

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

and

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

為加權因子和衰減因子,最後我們再對

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

進行二值化,這樣的結果比直接的裁剪方式具有更強的魯棒性。更進一步地,要如何針對每個不同的樣本確定

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

呢?我們通過 bounding box 的 confidence score

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

來對其進行建模。理由也很直觀,

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

隱式地建模了框內特徵的顯著性,通過

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

我們能很好地得到不同樣本的加權因子和衰減因此。文中我們採用瞭如下簡單有效的線性關係建模:


CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡


其中

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

,

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

,

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

and

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

為超參,來調節加權和衰減的幅度。

實驗

實驗設計上,為了量化地衡量 prediction conflict,我們設計了一個新的評價指標 Inconsistency Error(IE)。它用於計算 REC 結果與 RES 結果不一致的比例。簡單來說,IE 計算了 REC 正確時 RES 錯誤以及 RES 正確時 REC 錯誤這兩種情況在所有樣本中的比例。

實驗部分,我們首先比較了網絡結構,將我們設計的結構與幾種可能的搭配以及單任務的網絡進行比較,結果顯示我們的網絡設計在兩個任務的性能上是最優的:

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

接著,我們比較了不同的推理階段後處理的方式,結果顯示 Soft-NLS 以及 ASNLS 具有更好的魯棒性,同時夠大大降低 IE score。


CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

然後我們進行了控制變量實驗,可以看到各個部分都能有效地改進性能,同時我們提出的兩個設計能夠大大降低 IE score。


CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡


最後我們在兩個任務上和目前的 SOTAs 進行了比較,結果顯示,在兩個任務上性能均領先於 SOTAs 的情況下,我們的模型還達到了實時的檢測。


CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡


展望

實際上,RES 和 REC 只是 language+vision 任務中的一個重要分支,包括另外一些多模態任務在內,過去大家都非常青睞於 FRCNN 的特徵,直覺上它可能會表現更好,但很多的事實表明它具有一些劣勢並且性能上不會優於 Grid 特徵。有興趣的可以看一下 CVPR 2020 的一篇文章《In Defense of Grid Features for Visual Question Answering》(實驗設計堪稱典範)。

因此 single-stage 可能會成為一個趨勢。除此之外,很多多模態任務之間都有著千絲萬縷的關係,如何求同存異可能會是比 bert 這一類預訓練模型更值得研究的方向。這兩點同時也是本文的兩個非常重要的支撐點,也可能是未來進一步發展的方向。


分享到:


相關文章: