CVPR 2019:精確目標檢測的不確定邊界框迴歸

本文由AI科技評論讀者 BBuf 投稿

來稿見文末說明

CVPR 2019:精确目标检测的不确定边界框回归
CVPR 2019:精确目标检测的不确定边界框回归

大規模的目標檢測數據集(例如MS-COCO)在進行Ground Truth框標註時仍然存在歧義。這篇論文提出了新的邊界框迴歸損失針對目標框的移動以及位置方差進行學習,這種方法在幾乎不增加計算量的基礎上提高不同結構定位的準確性。另一個關鍵點是,由於學習了bounding box的分佈,可以將其應用在NMS階段合併相鄰目標框,進一步提升定位的準確性。代碼已開源。

1.研究背景

在大規模目標檢測數據集中,一些場景下目標框的標註是存在歧義的,這種情況如果直接使用以前目標檢測的邊界框迴歸損失,也即是Smooth L1Loss會出現學習很不穩定,學習的損失函數大的問題。Figure 1展示了哪些場景可能存在目標框標註不準確的情況:

CVPR 2019:精确目标检测的不确定边界框回归

(a,c)框的標記不準確。(b)由遮擋引起的歧義。(d)圖片物體不完整,不明確物體的邊界在哪裡。目標檢測包含分類以及定位,是一個多任務的學習問題。Faster R-CNN,Cascade R-CNN及Mask R-CNN依靠邊界框迴歸來進行目標定位。

然而,傳統的邊界框損失即Smooth L1損失並沒有考慮到groundtruth模糊的情形。一般來說,分類的分數越高,其邊界框的迴歸應該更加準確,然而,這種情況不是總是發生,如Figure2所示:

CVPR 2019:精确目标检测的不确定边界框回归

(a)兩個候選框都是不準確的。大的過大,小的過小。(b)具有較高分類分數的邊界框的左邊界是不準確。(顏色更容易觀察)

2. 相關工作

雙階段檢測器單階段檢測雖然高效,但是state-of-art仍然基於雙階段檢測。雙階段首先會生成proposal,進而產生大量重疊的邊界框,標準的NMS會將類別分數較低,但是較為準確的框給剔除掉。本文的var voting嘗試利用相鄰的邊界框來進行更好的定位。

目標檢測損失函數UnitBox引入IoU loss函數用於邊界框的預測,Focal Loss通過修改標準的交叉熵損失用於處理類別不平衡問題,對於容易分類的樣本其權重更低。KL損失可以在訓練時調整每個物體的邊界方差,可以學習到更多差異的特徵。

NMSsoftNMS及learning NMS用於改進NMS,相比刪除所有類別分數較低的邊界框,soft NMS將衰減其他相鄰框的檢測分數來作為與更高分數框重疊率的連續函數,leaningNMS,提出學習一個新的網絡只對boxes及分類分數進行NMS處理。

邊界框精煉MR-CNN首次提出在迭代定位中將框進行merge操作。IoU-Net提出學習預測框與ground truth框之間的IoU,然後,根據學習到的IoU應用IoU-NMS,與IoU-Net不同,論文從概率分佈的角度對位置方差進行單獨學習。因此,本文可以對四個座標的方差進行單獨的學習,而不只是IoU。var voting 通過由KL損失學習到的相鄰邊界框的方差來對選擇的框產生新的位置。

3. 解決方法

為了解決上訴定位不精確問題,論文提出了新的邊界框損失函數-KL損失,可以同時學習邊界框的迴歸以及定位的不準確性。特別的,為了捕捉邊界框預測的不確定性,首先將邊界框的預測以及ground truth框分別看做高斯分佈函數和狄克拉分佈函數。則新定義的迴歸損失可以看作是預測分佈和真實分佈之間的KL散度。我們知道KL有3個優點:(1)可以成功捕獲數據集中的模糊。邊界框迴歸器從模糊的邊界框中獲得較小的損失。(1)在後處理過程中,所學的方差是有用的。論文提出了VaR投票(方差投票)方法,即在非最大抑制(NMS)過程中,利用相鄰位置的預測方差加權,對候選框的位置進行投票。(3)所學概率分佈反映了邊界框預測的不確定性水平。

3.1邊界框參數化

基於雙階段的目標檢測網絡如Faster-RCNN,MaskR-CNN。網絡結構如Figure 3所示:

CVPR 2019:精确目标检测的不确定边界框回归

從圖中看出,模型有3個分支,分別為Class代表圖像的類別,Box代表預測的框,Box std是預測框的四個座標(左上角和右下角兩個點的四個座標)與真實框之間的標準差,即座標之間的距離。通過Box std計算得到的KL損失函數反向傳播修改Box中的座標點位置和預測框的大小。這裡用(x1,y1,x2,y2)代表預測邊界框左上角和右下角的座標。(x1*,y1*,x2*,y2*)表示真實的邊界框左上角和右下角的座標。(x1a,x2a,y1a,y2a,wa,ha)是Anchor。那麼預測邊界框和真實邊界框分別與Anchor的偏差如公式1所示:

CVPR 2019:精确目标检测的不确定边界框回归

同樣,不帶*號的t表示預測邊框與Anchor的偏差,帶*號的t表示真實邊框和Anchor的偏差。

論文的重點在於評估位置的置信度。所以,論文在預測邊界框位置的基礎上又預測了一個位置的分佈,這裡假設座標是獨立的,為了簡單起見,使用了單變量的高斯函數,如公式2所示:

CVPR 2019:精确目标检测的不确定边界框回归

式子中邊界框座標表示為x,因為我們可以獨立地優化每個座標,Θ是一組可以學習的參數,是我們預測的邊界框的位置。標準差σ測量估計的不確定度。當σ趨近於0時,表示網絡對估計的位置非常有信心。地面真實邊界框也可以表示為高斯分佈,由於是真實的框,我們讓σ趨近於0,這就變成了狄克拉函數,如公式(3)所示:

CVPR 2019:精确目标检测的不确定边界框回归

其中xg是地面真實邊界框信息。

3.2 基於KL損失的邊界框迴歸

論文目標定位的目標是通過在N個樣本最小化CVPR 2019:精確目標檢測的不確定邊界框迴歸

CVPR 2019:精確目標檢測的不確定邊界框迴歸之間的KL散度來評估CVPR 2019:精確目標檢測的不確定邊界框迴歸,如公式(4)所示:

CVPR 2019:精确目标检测的不确定边界框回归

使用KL散度作為邊界框迴歸的損失函數Lreg。分類損失Lcls保持不變。對於單個樣本,有公式5:

CVPR 2019:精确目标检测的不确定边界框回归

公式使用分步積分展開得到。我們來觀察一下Figure 4:

CVPR 2019:精确目标检测的不确定边界框回归

圖中,藍色和灰色的高斯分佈是我們的估計。橙色中的狄克拉函數是地面真值邊界框的分佈。當位置估計不準確時,我們期望網絡能夠預測更大的方差σ²從而使Lreg更低(藍色)。從公式可以看出CVPR 2019:精確目標檢測的不確定邊界框迴歸

CVPR 2019:精確目標檢測的不確定邊界框迴歸不依賴於估計參數,所以有公式(6):

CVPR 2019:精确目标检测的不确定边界框回归

特殊的,當σ=1時,KL損失退化為標準歐幾里得損失:

CVPR 2019:精确目标检测的不确定边界框回归

損失函數是可微的,對於和σ分別求偏導如公式(8)所示:

CVPR 2019:精确目标检测的不确定边界框回归

然而,由於σ是分母,有時會在訓練開始時梯度爆炸。為了避免梯度爆炸,網絡在實際中預測α=㏒(σ²)而不是σ。如公式9所示:

CVPR 2019:精确目标检测的不确定边界框回归

在測試過程中我們將α轉回σ。對於|xg-xe|>1,我們採用類似於fast R-CNN中定義的Smooth L1 的損失。最後迴歸損失函數定義為公式10:

CVPR 2019:精确目标检测的不确定边界框回归

用隨機高斯分佈對FC層進行初始化,標準偏差及均值分別設置為0.0001及0,因此,KL損失在訓練的剛開始時與smoothL1損失相似。

3.3 方差投票

在得到預測位置的方差後,根據已知的相鄰邊界框的方差對候選邊界框位置進行投票。如Algorithm1所示,用三行代碼更改NMS,實際上這裡為soft nms:

CVPR 2019:精确目标检测的不确定边界框回归

可以看到,這裡不僅使用了softnms,使得同一類靠很近的目標漏檢降低,還提出了var voting思想。即對於iou大於閾值的那些boxes,可以通過他們各自學到的方差(box的一對角點 x1,y1,x2,y2,四個值的方差 δx₁,δy₁,δx₂,δy₂,加權以更新box座標,使得定位更準。新座標的計算方式如Figure 11所示:

CVPR 2019:精确目标检测的不确定边界框回归

CVPR 2019:精確目標檢測的不確定邊界框迴歸是變量表決的可調參數。當

CVPR 2019:精確目標檢測的不確定邊界框迴歸越大,pi越大,即“距離”越近或交併比越大的兩個框產生的pi值越大。對剩下的3個座標值也進行同樣的操作。以下兩種類型的相鄰邊界框在投票時會得到較低的權重:(1)方差較大的框。(2)帶有所選框的小IOU的框。分類分數不參與投票,因為得分較低的框可能具有較高的信心。在Figure 5中,提供了方差投票的可視化說明。通過方差投票,有時可以避免Figure2中提到的檢測結果偏差很大的幾種情況。

CVPR 2019:精确目标检测的不确定边界框回归

4. 結果

Table5和Table6在MS-COCO和PSCALL VOC2007數據上用各種目標檢測網絡和論文提出的方法進行測試,可以看到一些AP值都獲得了較大的提升。

CVPR 2019:精确目标检测的不确定边界框回归CVPR 2019:精确目标检测的不确定边界框回归

5. 意義

綜上,大規模目標檢測數據集中的不確定性會阻礙最先進的目標檢測算法的性能。分類置信度並不總是與定位置信度密切相關。本文提出了一種新的具有不確定性的邊界盒迴歸損失方法,用於學習更精確的目標定位。通過訓練KL損失,網絡學習預測每個座標的定位方差。由此產生的差異使方差投票成為可能,它可以通過方差投票來優化選定的邊界框。使用MS-COCO和Pascal VOC 2007數據集,在vgg-16 Fast r-cnn、resnet-50 fpn和mask r-cnn上應用我們論文的方法得到了令人信服的結果。

郵箱:jiawei@leiphone.com


分享到:


相關文章: