用邊線代替邊框

基於bbox的方法在目標檢測領域取得了巨大的成功,但是某些距離較遠、差距較大的目所造成的較大方差影響了目標檢測定位的精度。目前基於迭代和逐級處理等方法又引入了複雜的處理流程和較大的計算開銷。

為了有效解決目標檢測中精確定位的問題,來自 港中文、南洋理工、浙大、中科大和商湯 的研究人員們提出了一種 基於邊線的邊框定位方法(Side-Aware Boundary Localization, SABL) 。

這種方法 基於 目標周圍上下文特徵 來確定包圍框的四條邊線,通過為每條邊線進行 特徵分桶(bucketing)抽取 ,經過 基於分類的粗定位基於迴歸的精確定位 兩個步驟,實現了更為精確的目標檢測定位。 通過將目標檢測框架的bbox迴歸分支替換為SABL,實現了兩到三個點的AP提升。

用邊線代替邊框

基於邊線感知的邊框定位

大多數基於bbox的目標檢測方法都集中於訓練如何將邊框精確地迴歸到目標上,基於RoI的區域特徵模型將通過迴歸分支預測出目標基於錨框的中心偏移量以及長寬尺寸變化。雖然基於這種設計的檢測方法在目標檢測任務中取得了巨大的成功,但對於與錨框位置方差過大的目標來說,精確預測其位置還面臨著一系困難,這同時也降低了目標檢測模型的性能。

為了在不引入過多計算開銷的情況下解決此類目標的精確定位問題, 實現輕量化高性能的檢測模型 變得尤為重要。

受到圖像標註過程的啟發,研究人員發現人類在對目標進行標註時,分別匹配標註目標的每一條邊線比直接移動和調整bbox更為容易和準確。基於這樣的觀察和想法,科研人員提出了

邊緣感知的邊框定位方法(SABL)

來實現目標檢測,為目標檢測提供了除bbox外更為準確的定位方法。

用邊線代替邊框

輸入圖像首先通過主幹網絡獲取ROI特徵,隨後通過特徵抽取模塊得到邊線感知特徵; 隨後通過兩步特徵分桶機制實現邊框定位。 首先粗略估計邊線所屬的分桶位置,而後進一步通過迴歸到邊線更為精確的位置; 分桶估計的執行概率同時輔助分類評分,最終特徵匹配優化模塊可以進一步提高定位精度。

SABL的框架流程如上圖所示,其中包含了4個主要的模塊,分別是

  • 負責邊緣感知特徵的抽取模塊(side-aware feature extraction,SAFE)
  • 基於分桶特徵的定位模塊(boundary localization with bucketing,BLB)
  • 基於分桶特徵引導的評分模塊(bucking-guided rescoring,BGR)
  • 用於進一步優化定位精度的特徵匹配優化模塊(feature aligned refinement,FAR)

邊線感知特徵抽取

為了檢測出目標bbox的邊線,需要抽取出與邊線有關的模式特徵。模式特徵的抽取從RoI特徵圖開始,本研究中針對每個候選區域的RoI特徵圖,首先經過兩個3x3的卷積分別得到計算了7x7的特徵圖F。而後利用兩個不同的卷積和x、y方向上歸一化機制分別計算出X方向與Y方向上的注意力;這一注意力圖與特徵圖F相作用,聚合得到了沿X方向和沿Y方向的特徵Fx和Fy;這一特徵通過卷積進一步優化並上採樣得到了水平方向和垂直方向上的特徵。在x方向的特徵上剖分得到了左右邊線的特徵,在y方向特徵上剖分得到了上下邊線的特徵。

特徵的抽取流程如下圖所示,清晰的分成了水平與垂直兩個方向。有了這些邊線特徵,就可以利用相應的機制計算出對應的邊線位置了。

用邊線代替邊框

基於分桶機制的邊框定位

每個目標的候選邊線位置在水平方向和豎直方向上進行了分桶操作,第一步需要估計出邊線所在的桶,第二步則對桶中的邊線進行更為精確的優化。

分桶機制的兩步操作是這樣進行的——針對一個候選框(Bleft,Bright,Btop,Bdown),首先通過弛豫因子σ來放大使之儘可能覆蓋整個目標。而後將這一候選區域在水平方向和豎直方向上分別分為2k個部分,每個部分的寬度通過下式計算:

l x = (σB right − σB left )/2k

l y = (σB down −σB top )/2k

在粗定位的過程中,研究人員利用二值分類器基於邊線特徵來確定某個部分包含或者最為靠近某條邊線。而在優化過程中,則基於粗定位選擇出的部分預測出邊線與分桶中線間的位移差值來進一步提升精度。

對於粗定位的標註來說,包含或者與目標基準框邊線最近的部分將被標註為1,而其他則被標註為0。同時為了減少訓練過程的模糊性,與基準邊線第二臨近的分桶部分則被標記為忽略,這是由於這部分在訓練過程中較難與最鄰近的部分區分開來。為了提高魯棒性,在訓練過程中將忽略部分和最鄰近部分都納入了考慮。模型的訓練目標是預測出對應部分的中線與基準邊線間的位移。

用邊線代替邊框

三種標註結果和邊線的優化迴歸過程

基於分桶預測引導的評分機制

基於分桶機制的粗略估計結果為預測定位的可靠性提供了有效的指標。為了在非極大值抑制過程中保證定位精度,研究人員使用了定位可靠性來引導進行重新評分,而SABL天然具有四邊分桶估計的平均置信度。將多分類預測評分與平均置信度相乘,並重新評分用於非極大值預測的計算,可以幫助算法在保持高分類置信度和定位精度的情況下得到最好的包圍框。

特徵匹配優化

雖然通過了兩步的定位和優化,但目標邊線的定位精度還可以通過 特徵對齊 的方式得到更好的優化。在先前邊緣特徵的基礎上,可以根據上一步優化結果通過插值的方式得到與位置對應的新特徵,而後基於這一插值得到的位置更為準確的特徵進行分類和定位迴歸計算,進一步抑制不太精確的定位框。

用邊線代替邊框

根據位置通過插值得到與位置更為匹配的特徵

對這種方法稍加改動就可以集成到單階段檢測框架中去。下圖顯示了單階段方法與SABL集成的流程。由於單階段模型沒有RoI特徵,這裡使用了卷積來獲取每邊對應的特徵,隨後利用分桶機制來對邊線位置進行估計和優化。

用邊線代替邊框

優異的實驗結果

為了驗證這種方法的有效性,研究人員在COCO 2017數據集上進行了訓練,並給出了test-dev上的測試結果。實驗中,研究人員將SABL與Faster R-CNN,RetinaNet和Cascade R-CNN結合進行了訓練,並與原始網絡進行了比較。實驗表明在輕微增加計算開銷的情況下,模型性能得到了大幅提升。

用邊線代替邊框

可以看到針對Faster R-CNN,RetinaNet和Cascade R-CNN模型性能APbox提升了3.0%,1.6%和0.9%。

同時對於模型中每個模塊研究人員也進行了詳細的研究,針對SAFE,BLB,BGR,FAR(見前文/論文table2)等模塊的性能進行了分析。

用邊線代替邊框

可以看到各個模塊對對於整個模型的性能貢獻,其中邊線感知特徵抽取模塊為整個模型貢獻了1.2%的AP提升。

為了確定各個模塊中的超參數,研究人員還對特徵抽取的卷積數量進行比較,並確認了兩個二維卷積+一個一維卷積的方案:

用邊線代替邊框

對於特徵聚合也比較了不同的池化與注意力機制:

用邊線代替邊框

同時針對特徵圖的尺寸和上採樣的倍數也進行了深入分析,並確定了7x7的尺寸和二倍上採樣:

用邊線代替邊框

下表還展示了候選區域擴大系數的比較,實驗發現1.7是比較好的擴大因子:

用邊線代替邊框

針對分桶機制的實驗表明,這種方法的偏移分佈更為穩定,減小回歸難度的同時也提升了定位精度:

用邊線代替邊框

除此之外,研究人員還針對迴歸標註方法、分桶數量和特徵匹配優化等方法進行了分析和討論,詳盡系統的展示了系統的有效性和參數選擇的實驗過程。


分享到:


相關文章: