代替Mask R-CNN,BlendMask欲做實例預測任務的新基準?

「免費學習 60+ 節公開課:投票頁面,點擊講師頭像」

作者 | Hao Chen、Kunyang Sun、Zhi Tian、Chunhua Shen、Yongming Huang、Youliang Yan

譯者 | 劉暢

出品 | AI科技大本營(ID:rgznai100)

【導讀】實例分割是一種基礎視覺任務。在今天要為大家介紹的工作中,作者通過有效地將實例級信息與具有較低級細粒度的語義信息結合起來,提升了掩碼預測精度。本文的主要貢獻是提出了一個Blender模塊,該模塊從自上而下和自下而上的實例分割方法中汲取了靈感。由於該方法簡單且有效,作者希望本文的BlendMask可以作為各種實例預測任務的基準。

代替Mask R-CNN,BlendMask欲做实例预测任务的新基准?

論文地址:

https://arxiv.org/abs/2001.00309

最近,全卷積實例分割方法引起了眾多研究者的關注,因為它們通常比Mask R-CNN這樣的兩階段方法更簡單,更有效。迄今為止,當模型具有相似的計算複雜度時,這些方法幾乎都在Mask精度上落後於兩階段Mask R-CNN方法,但這也側面證明該類方法有很大的提升空間。

本文提出的BlendMask可以通過很少的通道有效地預測密集的像素位置敏感實例特徵,並且僅使用一個卷積層就可以為每個實例學習注意力圖,從而進行快速推理。BlendMask可以輕鬆地與最新的一階段檢測框架結合使用,並且在相同的訓練策略下,其性能優於Mask R-CNN,且速度提高了20%。輕量級的BlendMask版本在單張1080Ti GPU卡上可以達到25 FPS,34.2%的mAP。

引言

性能最好的目標檢測器和分割器通常都遵循兩階段模式。它們由全卷積網絡,區域提升網絡(RPN)組成,用於對最可能的感興趣區域(RoI)進行密集的預測。Mask生成的質量和速度與Mask的頭結構緊密相關。另外,獨立的頭部網絡很難與諸如語義分割的相關任務共享特徵,這給網絡架構優化帶來麻煩。

One-stage目標檢測的最新進展證明,諸如FCOS之類的方法可以在精度上勝過two-stage方法。採用這樣的one-stage檢測框架執行實例分割任務是非常必要的,因為1)僅由常規操作組成的模型對於跨平臺部署而言更簡單,更容易;2)統一的框架為多任務網絡架構優化提供了便利和靈活性。

密集的實例分割方法可以追溯到DeepMask,這是一種自頂向下的方法,可以使用滑動窗口生成密集的實例mask。Mask的表示在每個空間位置被編碼為一維向量。儘管結構簡單,但是在訓練中有幾個問題會阻礙它獲得出色的性能:1)失去了特徵和mask之間的局部一致性;2)特徵表示是多餘的,因為在每個前景特徵處會重複地對掩模進行編碼;3)在使用大步卷積進行下采樣後,位置信息會消減。

在本文這項工作中,作者考慮將自上而下和自下而上的方法進行混合。這裡不得不提兩個重要的工作,即FCIS和YOLACT。他們預測實例級別的信息(例如邊界框位置),並將其與分別使用裁剪(FCIS)和加權求和(YOLACT)的單像素預測結合起來。作者認為這些過度簡化的組裝設計可能無法在頂層和底層特徵的表示能力之間取得良好的平衡。

較高層語義的特徵對應於較大的感受野,並且可以更好地捕獲有關實例(如姿勢)的整體信息,而較低級別的特徵則會保留更好的位置信息並可以提供更好的細節。本文工作的重點之一是研究在全卷積實例分割中更好地合併這兩種方法。更具體地說,本文通過豐富實例級信息與更細粒度的掩碼預測來泛化了基於建議(proposal-based)的掩碼組合。本文進行了廣泛的消融研究,以發現最佳尺寸,分辨率,對齊方法和特徵位置。具體而言,本文實現了以下目標:

  • 本文為基於建議(proposal-based)的實例mask生成設計了一種靈活的方法,稱為Blender,該方法將豐富的實例級信息與準確的密集像素特徵結合在一起。在頭部處理器的比較中,本文的混合器在COCO數據集上的mAP分別比YOLACT和FCIS中的相應技術高1.9和1.3點。

  • 本文提出了一種簡單的架構BlendMask,該架構將大的計算開銷添加到已經很簡單的FCOS框架中。

  • BlendMask的一個明顯優勢是,其推理時間不會像傳統的two-stage方法那樣隨著預測次數的增加而增加,這使其在實時場景中更加穩健。

  • 在COCO數據集上,使用ResNet-50作為backbone網絡,BlendMask的性能可達到37.0%mAP,使用ResNet-101的性能達到38.4%的mAP,在準確性上優於Mask R-CNN,而速度提高了約20%。本文創造了全卷積實例分割的新記錄,在mask mAP中僅以一半的訓練次數和1/5的推理時間就超過TensorMask 1.1個點。

據本文介紹,BlendMask可能是第一個在mask AP和推理效率方面均能勝過Mask R-CNN的算法。

  • BlendMask可以自然地解決全景分割,因為BlendMask的底部模塊可以同時分割“things and stuff”。

  • 與Mask R-CNN的mask頭部(通常為28×28分辨率)相比,BlendMask的底部模塊能夠輸出分辨率更高的mask,這是因為其靈活性強,並且底部模塊不受FPN的束縛。因此,BlendMask能夠產生具有更精確邊緣的mask,如圖4所示。對於圖形等應用程序,這可能非常重要。

  • 提出的BlendMask是一種通用且靈活的算法。僅使用少量的修改,就可以應用BlendMask解決其他實例級別的識別任務,例如關鍵點檢測。

方法

代替Mask R-CNN,BlendMask欲做实例预测任务的新基准?

BlendMask由一個檢測器網絡和一個mask分支組成。Mask分支包括了三個部分,一個是用於預測分數圖的底部模塊;一個是用於預測實例注意力的頂層,以及一個用於將分數圖與注意力合併的混合(Blender)模塊。整個網絡如圖2所示。

底部模塊 與其它基於proposal的全卷積方法類似,本文添加了一個稱為base(B)的底部模塊去預測分數圖。這個模塊的輸入可以是分割網絡的主幹特徵圖,也可以是像YOLACT之類的特徵金字塔。

頂層(Top layer)本文在每個檢測塔的頂端單獨添加了一個卷積層去預測頂層的注意力信息A。其相較於YOLACT,多了一個注意力圖。

代替Mask R-CNN,BlendMask欲做实例预测任务的新基准?

Blender模塊是BlendMask的核心部分,它結合了位置相關的注意力信息去生成最終的預測結果。該模塊的輸入就是底層模塊B,頂層注意力信息A和bounding box的迴歸P。

首先是使用ROIPooler以p_d的大小去剪切base,然後resize到一個固定的RxR大小。

代替Mask R-CNN,BlendMask欲做实例预测任务的新基准?

接下來將注意力信息圖從M插值到R。

代替Mask R-CNN,BlendMask欲做实例预测任务的新基准?

然後使用softmax把它歸一化到K維。

代替Mask R-CNN,BlendMask欲做实例预测任务的新基准?

最後點乘區域R和分數S,得到最後的mask logit。k是base的索引,圖1是K=4時的blending過程。

代替Mask R-CNN,BlendMask欲做实例预测任务的新基准?

這裡面有幾個超參,作者在實驗部分做了相應的消融實驗來確定這類參數。

  • R,底層ROI的分辨率

  • M,頂層預測圖的分辨率

  • K,base的數量

實驗

  • 實驗細節

訓練方面,採用了基於ImageNet預訓練的ResNet-50模型。通道數為128的DeepLabv3+作為底部模型。訓練裡面的超參數與FCOS設置的差不多。在測試時間時,是在1080Ti單卡上,batch為1來測試模型的時間。

作者做了詳細的消融實現,來說明本文算法的有效性,其中包括融合方法(Blender vs YOLACT vs FCIS)、Top- bottom- 分辨率、base的數量、底部特徵的位置(backbone vs FPN)、插值方式(最近鄰和雙線性)等等。

  • 實驗結果

作者主要與Mask RCNN, Tensor Mask等方法做了相應的對比,如表格8所示,在僅使用一半訓練次數的情況下,BlendMask的結果優於修改過的Mask RCNN和TensorMask。

代替Mask R-CNN,BlendMask欲做实例预测任务的新基准?代替Mask R-CNN,BlendMask欲做实例预测任务的新基准?

作者還設計了一個實時版本的BlendMask,並與YOLACT相比較。結果如表格9所示。下圖展示的是基於ResNet101骨幹網絡的YOLACT、Mask RCNN幾種算法間的可視化比較。

代替Mask R-CNN,BlendMask欲做实例预测任务的新基准?

結論

本文為實例級密集預測任務設計了一種新的混合器模塊,該模塊同時使用高級實例和低級語義信息。與不同的主流檢測網絡集成起來既高效又容易。

本文的框架BlendMask是優於精心設計的Mask R-CNN,沒有花裡胡哨的東西,將速度提高了20%。此外,實時版本的BlendMask-RT在單個1080Ti GPU卡上,可達到25 FPS,34.2%的mAP。作者認為本文的BlendMask可以代替Mask R-CNN進行許多其他實例級識別任務。

所有CSDN 用戶都可參與投票抽獎活動

加入福利群,每週還有精選學習資料、技術圖書等福利發送


分享到:


相關文章: