01.11 國科大提出新型錨框匹配機制,基於學習配準的靈活方法大幅提升目標檢測性能

國科大提出新型錨框匹配機制,基於學習配準的靈活方法大幅提升目標檢測性能 | 將門好聲音

From: NeurIPS 2019 編譯:T.R.

本文為將門好聲音28 期,也是NeurlPS 2019系列分享第·7·

本文作者是來自將門機器學習主題社群、中國科學院大學的張小松

,本次將分享其團隊發表在今年NeurlPS上的工作——FreeAnchor可學習錨框機制。

如果你也想與廣大群友分享自己的研究工作、文章觀點、出坑經驗,點擊“閱讀原文”或聯繫將門小姐姐!只要內容合適,我"門"送你頭條出道!

本文一作張小松來自於中國科學院大學電子電氣與通信工程學院模式識別與智能系統開發實驗室,研究主要集中於計算機視覺、機器學習,特別是視覺目標檢測與特徵學習方面。

個人主頁:

https://zhangxiaosong18.github.io/XiaosongZhang.htm

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

隨著技術的飛速發展,錨機制已經成為了目標檢測算法中重要的手段。通過將物體分配給特定的錨框使得後續的特徵提取和分類定位變得更加高效而準確。但當遇到比較細長或者代表性特徵偏離中心時,先前固定的錨框模式就無法獲取物體足夠的特徵從而造成性能下降。

為了解決這一問題,來自國科大、廈門大學和鵬城實驗室的研究人員們系統地探索了不同情況下物體與錨的匹配關係,提出了一種名為FreeAnchor的可學習錨框機制,並通過極大似然估計的機制來訓練錨框匹配過程。這種更為自由的匹配機制打破了IoU匹配機制的限制,提高了物體錨框匹配的靈活性。同時基於似然優化的實現方法可以便捷地集成到多種CNN檢測器中,在COCO數據集上的實驗也證明了這種機制對於目標檢測性能提升的有效性。

基於手工規則進行錨框分配的侷限

在目標檢測過程中,算法需要為圖像中的物體預測出在圖像中的位置框及其對應的分類。隨著SSD,YOLO等算法的成功,錨框機制開始成為了目標檢測算法中的重要手段。通過手工設計的IoU規則為每個物體分配錨框,使得物體匹配到合適的特徵,同時也對檢測框的迴歸進行了良好的初始化。隨後通過與基準框的比較,錨框被歸為背景或目標區域。

儘管這種方法取得了良好的效果,但在某些情況下卻限制了目標檢測器的性能。一方面對於主要特徵不在中心的物體來說,手工設計的錨框分配機制會錯過物體最具代表性的特徵;另一方面,當圖像中存在大量的物體時,利用IoU機制來為每一個物體匹配合適的錨框也是不現實的。

為如此豐富多樣的場景目標設計出通用的錨匹配機制十分困難,研究人員們漸漸開始探索各種錨框/特徵分配規則以及錨框的優化方法。雖然目前針對錨框出現了一系列基於學習機制的探索,但卻還缺乏對於錨與目標間匹配機制進行系統性的分析研究工作,在實現可學習的錨框匹配機制過程中,不可避免的需要進行特徵選擇與特徵學習的優化研究。

在這篇文章中,研究人員從個角度探討了目標檢測中實現可學習的匹配機制。首先為了達到較高的召回率,檢測器需要保證對於每一個物體至少有一個錨的預測結果與基準值接近;其次為了達到較高的精度,檢測器需要將定位較差的錨框歸到背景中去;最後錨框的預測機制應該與非極大值抑制(

non-maximum suppression, NMS) 相兼容,例如更高的分類精度也要對應著更準確的定位精度。否則具有很高定位精度但分類精度較低的錨也會被NMS歸類為背景。

為了滿足這些條件,研究人員將目標與錨框匹配的過程轉換為了極大似然估計(maximum likelihood estimation,MLE) 問題,針對每一個物體將從“錨袋”中選取最具表示能力的錨;同時將“錨袋”的似然概率定義為其中錨最大置信度,最大化這一似然保證了至少存在一個錨同時具有較高的分類精度與定位精度;此外還將具有較大分類誤差或定位誤差的錨歸為背景。在訓練過程中將似然概率轉換為了損失函數的一部分,使得模型可以學會如何實現有效地目標-錨框匹配機制。下面讓我一起來看看算法的具體實現過程。

FreeAnchor

與先前基於IoU的錨框匹配機制不同,FreeAnchor中提出了“錨袋”的概念,訓練算法從中為目標尋找最具表示能力的錨。

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

先前的手工錨框和本文提出可學習的錨框匹配機制進行對比。可點擊放大查看大圖

為了讓檢測器學會如何匹配目標與錨,研究人員首先引入了極大似然估計的方法來處理這一問題。

我們首先從基於CNN的單階段檢測器出發,在訓練過程中基於IoU的人工指標決定了錨框是否與物體匹配。如果錨框aj與基準框bi之間的IoU大於閾值,那麼bi就與aj相匹配,對應的匹配矩陣Cij=1,否則Cij為0。如果有多個物體的IoU大於閾值,則保留最大IoU對應的物體以保證每個錨最多對應一個物體。目標檢測過程中的損失函數從而可以定義為三個部分的和,包含了分類損失、定位損失以及背景分類損失:

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

其中A+和A-代表了匹配物體和被歸為背景錨框的集合,而B則代表了基準框的集合。在此基礎上,可以將損失函數轉換為似然的表達形式:

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

三個部分的損失分別被轉換為了目標及背景的分類置信度、定位置信度,最小化損失函數L(theta)就意味著最大化上面的似然函數。這個式子嚴格地從似然函數的角度定義了定位與分類的訓練過程。但最主要的問題是如何學習有效的匹配矩陣Cij呢?現有的方法直接利用IoU的評價手段來進行手工分配,而忽視了錨與目標間匹配的優化機制。為了對這一匹配機制進行更好的優化,研究人員針對目標檢測任務對似然函數進行了改造。

為目標檢測量身定做似然函數

目標檢測中的似然函數不僅需要滿足召回率與準確率的條件,同時還要與非極大值抑制的方法相兼容。為了實現這一目標,針對每個物體bi將其對應IoU最大的n個錨框抽取出來構成“錨袋”,而後學習出如何在最大化似然的情況下匹配最好的錨框。

針對召回率需要保證每一個物體至少有一個錨框的預測結果與基準值接近,將前面公示中的分類與定位置信度連立起來構建了下面的公式,最大化以實現較高的召回率:

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

針對精度提升,需要將定位不良的錨歸為背景,精度的公式用下式表示,其中錨被歸為背景的概率P{aj E A-} = 1-maxiP{aj-bj},意味著剔除了最為準確的預測框,剩下的都被歸為背景。

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

最後還需要與非極大值抑制相匹配。這裡提出了一個分段函數來滿足隨IoU單調遞增、有上下閾值邊界條件,用於計算P{aj->bj}的值,下圖也展示了分段函數的趨勢:

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音
国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

經過改造的目標檢測似然函數就可以表示為前面精度與召回率的乘積:

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

通過最大化這一似然函數,可以同時最大化召回率與精度 ,同時保證了與非極大值抑制的兼容,打破了錨框匹配機制的限制,實現更為靈活的匹配。在似然函數的基礎上就可以整合到檢測器的訓練過程中,讓檢測器學習如何更好地進行錨框匹配了。

錨框匹配學習機制

將上面經過改造的目標檢測似然函數轉化為損失函數,可以得到下面的表達式,其中的max用來選擇最佳的匹配框:

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

訓練過程中,最佳的錨被從“錨袋”中選取出來,隨後用於更新網絡參數。但在訓練過程中還有一些問題需要處理。

在訓練的早期階段,所有錨的置信度都會很小,使用最大置信度的錨並不有利於訓練過程,所以研究人員提出了平均最大函數的概念來解決這一問題。下圖中顯示了在訓練不充分時,幾乎所有的錨都參與訓練,而隨著訓練的深入越來越接近最大值,使得最好的錨被篩選出來用於訓練。

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

最終通過改進的最大值公示和約化調整,上面的損失函數被改寫為了下面的形式,其中Xi表示錨分類與定位置信度的乘積:

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

算法的流程如下所示,主要包含了前傳計算錨的特徵參數、構建錨袋、篩選錨、計算損失、更新參數等過程:

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

實 驗

實驗結果展示了這種基於學習的錨框匹配方法帶來的優勢,與手工方法相比這種方法可以更為有效的選擇出錨框來表示物體特徵,針對非中心物體、細長物體和擁擠的多物體情況都有良好的表現。下圖展示了對於筆記本電腦,手工方法和學習方法選擇錨框的不同。

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

與RetinaNet的比較中也展示了這種方法的有效性,這是由於前面的機制保證了每個物體至少有一個有效錨框,包含物體用於分類和定位最具代表性的特徵,同時學習機制能夠更靈活地為物體選取更為適合的錨框。

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

從指標上也可以明顯看到這種方法為基準RetinaNet模型帶來的性能提升:

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

與多個先進的算法相比FreeAnchor加持下的錨框分配機制都具有明顯了優勢,在ResNeXt-101的主幹網絡上取得了47.3的AP

国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

FreeAnchor方法對針對檢測問題改造的似然函數進行極大似然估計,加強了檢測器對有利於分類與定位的卷積特徵進行學習,為目標檢測的訓練方法和錨框匹配機制提供了新的思路,如果想了解更多理論細節和訓練實驗過程請參看論文:

https://arxiv.org/pdf/1909.02466.pdf

如果想上手試試,可以在下面的地址找到代碼:

https://github.com/zhangxiaosong18/FreeAnchor

將門好聲音·NeurlPS系列

<table><tbody>

1

看AI玩桌遊,如何調兵遣將,合縱連橫

2

牛津大學研究人員提出3D-BoNet—3D點雲實例分割新框架

3

普林斯頓高研院, 浙大, CMU和MIT聯合提出圖核函數與圖神經網絡的融合方法

/<tbody>/<table>国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型

創投機構,旗下涵蓋

將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務

專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群

專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括

機器智能、物聯網、自然人機交互、企業計算。

在近四年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]国科大提出新型锚框匹配机制,基于学习配准的灵活方法大幅提升目标检测性能 | 将门好声音


分享到:


相關文章: