開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構


今天我們介紹MatrixNets(xNets),這是一種用於對象檢測的新的深層體系結構。xNets將具有相似大小和高寬比的對象映射到許多專門的層中,從而使xNets可以提供可感知比例和高寬比的體系結構。作者利用xNets來增強單階段對象檢測框架。

首先,將xNets應用於基於錨的對象檢測,為此可以預測對象中心並回歸左上角和右下角。

其次,我們通過預測左上角和右下角,將MatrixNets用於基於角的對象檢測。每個角預測對象的中心位置。


作者還通過將嵌入層替換為中心迴歸來增強基於角點的檢測,最終架構在MS COCO上實現了47.8的mAP,比其CornerNet同類產品高+5。6 mAP,同時也縮小了單級和兩級檢測器之間的距離。


開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構

圖1:(a)顯示了FPN架構,其中在每個比例尺上分配了不同的輸出層。請注意,為簡單起見,我們沒有顯示跳過連接。(b)顯示了MatrixNet架構,其中5個FPN層被視為矩陣中的對角層。我們通過對這些層進行下采樣來填充矩陣的其餘部分

介紹

對象檢測是計算機視覺中研究最廣泛的任務之一,在對象跟蹤,實例分割和圖像字幕等任務中有許多應用。對象檢測架構可以分為兩類:兩級檢測器和單級檢測器。

兩級檢測器利用區域提議網絡來查找固定數量的對象候選對象。然後,使用第二個網絡預測每個候選人的得分並完善其邊界框。


此外,一階段檢測器也可以被分成兩類:基於錨的檢測器和拐角(或關鍵點)基於檢測器。基於錨的檢測器包含許多錨框,它們預測每個錨的偏移量和類別。

另一方面,基於拐角的檢測器預測左上角和右下角的熱圖,並使用特徵嵌入將它們匹配在一起。

在不同尺度上檢測物體是物體檢測的主要挑戰。規模感知架構的最大進步之一是功能金字塔網絡FPN。通過使多層具有不同接收場的FPN設計為尺寸不變的,以便將對象映射到具有相關接收場的層。小對象映射到金字塔的較早層,而較大對象映射到較後的層。由於對象的大小相對於該層的下采樣在金字塔層之間幾乎保持一致,因此可以在所有層之間共享單個輸出子網。儘管FPN提供了一種優雅的方式來處理不同大小的對象,但它們並沒有為不同長寬比的對象提供任何解決方案。高塔,長頸鹿或小刀之類的物體會給FPN帶來設計上的困難:有沒有人根據它們的寬度或高度將這些對象映射到圖層?根據其較大的尺寸將對象分配給圖層會導致由於主動下采樣而導致沿較小的尺寸丟失信息,反之亦然。

開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構

圖2:盒子數量的直方圖與對象的最大尺寸與最小尺寸之比。


這些問題在MS-COCO等數據集中非常普遍。圖2示出了對象數量與對象的最大邊的值除以最小邊的直方圖。我們發現50%的對象的最大/最小值大於1.75,而14%的最大/最小值大於3。因此,有效地對這些矩形對象建模對於良好的檢測性能至關重要。在這項工作中,我們介紹了MatrixNets(x Nets),這是一種新的比例和長寬比感知的CNN架構。如圖1所示,x Nets 具有多個矩陣層,每個層處理特定大小和長寬比的對象。X網絡將不同大小和長寬比的對象分配給各層,以使它們分配的層內的對象大小接近統一。通過這種分配,平方輸出卷積核可以平等地收集有關所有縱橫比和比例的對象的信息。x Nets可以應用於任何骨幹網,類似於FPN。我們通過在主幹上附加一個“ -X”來表示這一點,即ResNet50-X [ 7 ]。作為x Nets 的應用程序,我們首先將x Nets用於基於錨的一級對象檢測。我們決定不考慮每個要素圖只有一個方框的情況,而不是每個要素圖使用多個錨定框,從而使其類似於免錨架構。在第二個應用程序中,我們使用x Net用於基於角點的對象檢測。我們展示瞭如何利用 x Net來改進CornerNet架構。在MS-COCO上,我們為人工設計的單級檢測器設定了新的最先進性能(47.8 mAP)。


相關工作


  • 兩級探測器

兩階段檢測器通過首先提取RoI,然後在第二階段對每個RoI 進行分類和迴歸來生成最終檢測結果。R-CNN首次引入了兩階段目標檢測範例

。R-CNN使用選擇性搜索方法提出RoI,然後使用CNN網絡對RoI進行評分和優化。Fast-RCNN和SPP通過從特徵圖而非輸入圖像中提取RoI來改進R-CNN。Faster-RCNN 引入了區域提議網絡(RPN),它是一種可訓練的CNN,可生成RoI,從而可以對兩級檢測器進行端到端訓練。


  • 單階段檢測器

基於錨的檢測是單級對象檢測器最常見的框架。基於錨的檢測器通過直接分類和迴歸預定義錨來生成檢測。一個所述第一單級檢測器,YOLO,仍然被廣泛使用,因為它能夠實時運行。與兩級檢測器相比,一級檢測器的速度往往更高,但性能卻落後。


這是縮小兩個範式之間差距的首次嘗試。RetinaNet提出了焦點損失,以幫助糾正正負錨框的類不平衡。RetinaNet使用手工製作的啟發式算法,通過“交叉點聯合”(IOU)將錨分配給地面真實對象。最近,已經發現,改進對地面真相對象分配的錨點會對性能產生重大影響。


此外,無特徵選擇錨點(FSAF)將基於錨的輸出與無錨輸出頭集成在一起,以提高性能。AnchorFree通過將問題公式化為最大似然估計(MLE),改進了地真匹配過程的錨點。


用於單階段檢測的另一個框架是基於角點(或基於關鍵點)的檢測器,它是由CornerNet首次引入的。CornerNet會預測左上角和右下角的熱圖,並使用特徵嵌入將它們匹配在一起。CenterNet通過預測對象中心以及拐角,大大改善了CornerNet架構。


MATRIXNETS


如圖1所示,MatrixNets(xNets)使用圖層矩陣對不同大小和縱橫比的對象進行建模,其中矩陣中的每個條目i,j代表圖層li,j。每個層li,j的寬度向下採樣為2i-1,高度向下採樣為2j-1。矩陣的左上層(基礎層)為l1,1。對角線層是不同大小的正方形層,相當於FPN,而對角線層是xNets獨有的矩形層。l1,1層是最大的層,向右的每一步將其寬度減小一半,而每減小一層,其高度將減小一半。例如,Width(l3,4)= 0.5Width(l3,3)。對角層模擬具有正方形長寬比的對象,而非對角層模擬具有更極端長寬比的對象。矩陣模型對象的右上角或左下角附近的圖層,其縱橫比非常高或非常低。這樣的對象是稀缺的,因此可以為提高效率而修剪這些層。


  • 圖層生成

生成矩陣層是至關重要的一步,因為它會影響模型參數的數量。參數越多,模型的表達性就越高,但是優化問題就越困難。在我們的方法中,我們選擇引入儘可能少的新參數。可以從主幹的不同階段或使用特徵金字塔主幹[11]獲得對角線層。


通過在對角線層上應用一系列步幅為1x2的共享3x3卷積來獲得較高的三角形層。類似地,使用步幅為2x1的共享3x3卷積獲得左底層。這種共享有助於減少矩陣層引入的其他參數的數量。

  • 圖層範圍

我們定義分配給矩陣中每一層的對象的寬度和高度範圍,以使每一層都可以專門化。該範圍需要反映矩陣層的特徵向量的接受場。矩陣中向右的每一步都有效地使水平方向的接收場加倍,而向下的每一步均使垂直方向的接收場加倍。因此,當我們在矩陣中向右或向下移動時,寬度或高度的範圍需要加倍。一旦範圍為第一層定義了l1,1後,我們可以使用上述規則為其餘矩陣層生成範圍。例如,如果第l1,1層(基礎層)的範圍是H∈[24px,48px],W∈[24px,48px],則第l1,2層的範圍將是H∈[24,48],W ∈[48,96]。我們在消融研究中顯示了多層範圍。

在這些範圍的邊界上的對象可能會破壞訓練的穩定性,因為如果對象大小略有變化,則圖層分配將會更改。為避免此問題,我們通過在兩個方向上擴展它們來放鬆層邊界。這種放鬆是通過將範圍的下限乘以小於1的數字,以及將上限乘以大於1的數字來實現的。在所有實驗中,我們分別使用0.8和1.3。

  • 矩陣網絡的優勢

MatrixNets的主要優勢在於,它們允許平方卷積核准確地收集有關不同縱橫比的信息。在傳統的對象檢測模型(例如RetinaNet)中,需要平方卷積核來輸出不同縱橫比和比例的盒子。使用正方形卷積核是違反直覺的,因為不同縱橫比和比例的盒子需要不同的上下文。在MatrixNets中,由於上下文在每個矩陣層中都發生變化,因此相同的平方卷積核可用於檢測不同比例和縱橫比的框。由於對象大小在它們分配的層中幾乎是均勻的,因此寬度和高度的動態範圍比其他架構(例如FPN)要小。因此,迴歸對象的高度和寬度成為一個更容易的優化問題。最後,MatrixNets可以用作任何對象檢測體系結構的主幹,無論是基於錨點還是基於關鍵點的一級或二級檢測器。


MATRIXNETS應用


在本節中,我們展示了MatrixNets可以用作兩個單發對象檢測框架的骨幹。基於中心和基於角點的對象檢測。在基於中心的對象檢測中,我們在迴歸左上角和右下角的同時預測對象的中心。在基於拐角的對象檢測中,我們預測對象的拐角並回歸對象的中心。預測同一中心的角將匹配在一起以形成檢測。


開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構

圖3:Centers-xNet架構。

  • 基於中心的對象檢測

基於錨的對象檢測是用於單階段對象檢測的通用框架。使用MatrixNet作為骨幹自然可以處理不同比例和長寬比的對象。儘管使用多個不同比例的錨可能會改善性能,但我們決定通過在每個位置使用一個錨來簡化其架構,以簡化其架構。因此,可以在訓練過程中將地面真實對象分配到最近的中心位置。


  • 使用MatrixNets的基於中心的對象檢測

如圖3所示,我們的Centers-xNet架構包括四個階段。

(ab)我們使用第3節中定義的xNet主幹。

(c)使用共享的輸出子網,對於每個矩陣層,我們預測對象的中心熱圖,左上角迴歸和右下角迴歸在他們的層次。

(d)我們將所有層的輸出與非最大軟抑制[1]結合起來,以獲得最終輸出。


中心熱圖訓練期間,首先將地面真值對象根據其寬度和高度分配給矩陣中的各層。在圖層內,對象被分配到最近的中心位置。為了處理不平衡的類,我們使用焦點損失。角點回歸對象大小受矩陣圖層限制,這使得對對象左上角和右下角進行迴歸變得可行。如圖3所示,對於每個中心,Centers-xNet會預測相應的左上角和右下角。在訓練期間,我們使用平滑的L1損失進行參數優化。


訓練我們將23個批次的批次用於所有實驗。在訓練期間,我們使用640x640大小的作物,並且使用0.6-1.5的標準比例抖動。為了進行優化,我們使用Adam優化器並將初始學習率設置為5e-5,並在進行250k次迭代後將其降低1/10,總共訓練了350k次。對於矩陣層範圍,我們將l1,1設置為[24px-48px] x [24px-48px],然後按第3節所述縮放其餘部分。


推理對於單比例推理,我們將圖像的最大寬度調整為900px。我們使用原始圖像和水平翻轉的圖像作為網絡的輸入。對於網絡中的每個層,我們選擇前100箇中心檢測。使用左上角和右下角的迴歸輸出來計算角。原始圖像的邊界框和翻轉的邊界框混合在一起。Soft-NMS層用於減少冗餘檢測。最後,我們根據其得分選擇前100個檢測作為檢測器的最終輸出。

開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構

圖4:Corners-xNet架構。

  • 基於角點的對象檢測

CornerNet被提出作為基於錨的檢測器的替代方案,CornerNet將邊界框預測為一對角:左上角和右下角。對於每個角,CornerNet都會預測熱圖,偏移量和嵌入。從熱圖中提取左上角和右下角候選。嵌入用於對屬於同一對象的左上角和右下角進行分組。最後,使用偏移量優化邊界框,從而生成更緊密的邊界框。


這種方法有三個主要侷限性。


  1. CornerNet使用單個輸出層處理大小和縱橫比不同的對象。結果,預測大物體的拐角帶來了挑戰,因為關於拐角位置處的物體的可用信息並不總是通過常規卷積獲得。為了解決這一挑戰,CornerNet引入了拐角池化層,該層在水平和垂直維度上使用max操作。左上角池化層將掃描整個右下圖像,以檢測是否存在角。儘管從實驗上可以看出,轉角池可以穩定模型,但我們知道最大操作會丟失信息。例如,如果兩個對象在頂部邊緣共享相同的位置,則只有具有最大特徵的對象才有助於漸變。因此,由於角落池層,我們可以預期會看到誤報。
  2. 通過功能嵌入來匹配左上角和右下角。在此設置中使用嵌入會引起兩個問題。首先,在訓練過程中需要優化成對距離,因此,隨著圖像中對象數量的增加,成對數量呈二次方增加,這在處理密集對象檢測時會影響訓練的可伸縮性。第二個問題是學習嵌入本身。CornerNet嘗試學習以對象另一角的外觀為條件的每個對象角的嵌入。現在,如果對象太大,由於兩個角之間的距離,兩個角的外觀可能會非常不同。結果,每個角的嵌入也可以不同。同樣,如果圖像中有多個外觀相似的對象,則它們角落的嵌入可能會相似。這就是為什麼我們看到CornerNet合併人員或交通信號燈的示例。
  3. 由於前兩個問題,CornerNet被迫使用Hourglass-104主幹來實現最新性能。Hourglass-104的參數超過200M,訓練非常緩慢且不穩定,需要10個具有12GB內存的GPU,以確保足夠大的批處理量以實現穩定的收斂。
  • 使用MatrixNets的基於角點的對象檢測

圖4顯示了我們提出的用於基於角點的對象檢測的架構Corners-xNet。Corners-xNet包含4個階段。

(ab)我們使用第2節中定義的xNet主幹。

(c)使用共享的輸出子網,對於每個矩陣層,我們預測左上角和右下角的熱圖,角偏移和中心預測圖層中的對象。

(d)我們使用中心預測來匹配同一層內的角,然後將所有層的輸出與軟非最大抑制相結合以實現最終輸出。


使用xNets的角部熱圖可確保層內對象所需的上下文受該層中單個要素圖的接受域的限制。結果,不再需要轉角池。常規的卷積層可用於預測左上角和右下角的熱圖。類似於CornerNet,我們使用焦點損失來處理不平衡的類。


角點回歸由於圖像向下採樣,精煉角點對於擁有更緊密的邊界框很重要。將角按比例縮小到圖層中的x,y位置時,我們會預測偏移量,以便可以將角按比例縮放到原始圖像大小而不會損失精度。我們將失調值保持在-0.5至0.5之間,並使用平滑L1損耗來優化參數。

開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構

表1:Centers-xNet和Corners-xNet之間的性能比較。

開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構

圖5:當使用resnet152-X作為骨幹網時,基於中心的對象檢測器(頂部)和基於角點的對象檢測器(底部)的樣本檢測結果。刪除任何概率小於0.4的檢測。


中心迴歸

由於匹配是在每個矩陣層內完成的,因此可以確保對象的寬度和高度在一定範圍內。因為中心的範圍很小,所以對象的中心可以輕鬆迴歸。在CornerNet中,中心的動態範圍很大,嘗試在單個輸出層中迴歸中心可能會失敗。一旦獲得了中心,就可以通過將回歸中心與兩個角之間的實際中心進行比較來將角匹配在一起。在訓練期間,與學習嵌入的情況下的二次增長相比,中心迴歸與圖像中對象的數量成線性比例。為了優化參數,我們使用平滑的L1損耗。


角匹配對於任何一對角,正確的中心是它們的x和y位置的平均值。如果兩個角屬於同一對象,則正確的中心與每個角之間的相對距離是兩個角的中心迴歸的正確值。因此,如果兩個角都以30%或更低的錯誤率預測中心,則可以將這些角匹配在一起。


訓練我們將23個批次的批次用於所有實驗。在訓練期間,我們使用尺寸為512x512的農作物,並使用0.6-1.5的標準比例抖動。為了進行優化,我們使用Adam優化器並將初始學習率設置為5e-5,並在進行250k次迭代後將其降低1/10,總共訓練了350k次。對於矩陣層範圍,我們將l1,1設置為[24px-48px] x [24px-48px],然後按第3節所述縮放其餘部分。


推理對於單比例推理,我們將圖像的最大寬度調整為900px。我們使用原始圖像和水平翻轉的圖像作為網絡的輸入。對於網絡中的每一層,我們選擇左上角和右下角的前50個角。使用拐角迴歸輸出精煉拐角位置。然後,如上所述,每對角點都匹配在一起。原始圖像的邊界框和翻轉的邊界框混合在一起。Soft-nms [1]層用於減少冗餘檢測。最後,我們根據其得分選擇前100個檢測作為檢測器的最終輸出。


Corners-xNet解決了CornerNets的問題(1),因為所有矩陣層都表示不同的比例和寬高比,而不是將它們全部都放在單個層中。這也使我們擺脫了角落合併操作。(2)得到解決,因為我們不再預測嵌入。相反,我們直接回歸中心。通過解決CornerNets的前兩個問題,我們將在實驗中表明,我們可以獲得比CornerNet高得多的結果。


實驗

我們在配備8個Titan XP GPU的服務器上訓練所有網絡。我們的實現是在PyTorch中完成的。為了進行評估,我們使用了MS COCO檢測數據集。我們使用MS COCO的“ train-2017”集訓練了模型,並在“ val-2017”上進行了驗證,並在“ test-dev2017”集上進行了測試。為了比較我們的模型和消融研究,我們報告了“ val-2017”數據集上的數字。為了與其他檢測器進行比較,我們在“ test-dev2017”上報告了這些數字。


我們將對Centers-xNet和Corners-xNet檢測器的性能進行比較。然後,我們將檢測器與其他檢測器進行比較。最後,我們通過一組用於評估模型不同部分的實驗來進行消融研究。


  • CENTERS-XNET VS CORNERS-XNET

在此實驗中,我們想比較Centers-xNet和Corners-xNet的性能。據我們所知,這是兩個框架之間的首次公平比較,因為它們都共享相同的主幹(Resnet-152-X),訓練和推理設置。


表1顯示了兩種架構在不同測試圖像大小下的性能。mAP編號在MS COCO的“ val-2017”集中報告。Centers-xNet在1000px的測試圖像尺寸上表現最佳,而Corners-xNet在900px的測試圖像尺寸上表現最佳。


總體而言,就mAP數量而言,Corners-xNet的性能優於Centers-xNet。Corners-xNet似乎對於更改圖像大小更為健壯,並且在將測試圖像大小更改為±100px時,mAP會降低<0.2 mAP。另一方面,Centers-xNet對測試圖像大小非常敏感,並且將測試圖像大小改變±100px時,性能下降<1.3 mAP。在Centers-xNet情況下性能下降的原因是,如果同一對象的兩個中心在同一位置碰撞,則可能會完全丟失該對象。由於Centers-xNet等效於每個位置使用一個錨點,因此隨著測試圖像尺寸的減小,發生碰撞的可能性也會增加。因此,隨著我們減小測試圖像尺寸,我們可以看到性能下降。對於Corners-xNet,如果兩個拐角處都發生碰撞,則可能會丟失對象,與Centers-xNet案例相比,這種可能性要低得多。


根據推斷時間,在所有測試圖像尺寸下,Centers-xNet架構比Corners-xNet快100毫秒。Corners-xNet比Centers-xNet使用更多的預測輸出。同樣,角點匹配使用GPU和CPU時間。因此,使用Corners-xNet會產生100毫秒的開銷。


表1的另一項觀察結果表明,測試圖像的大小直接影響小,中,大物體的AP。此觀察結果可用於調整我們主要感興趣的一組對象上的mAP。為了保持一致性,從現在起到本文結束,我們將測試圖像的大小固定為900px。

開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構

開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構

表2:在COCO test-dev2017集上的最新比較。空白表示無法獲得結果的方法


除了mAP數量和推斷時間,我們還研究了基於視覺檢查的基於中心和基於角點的對象檢測在性能上的差異。如圖5所示,通過檢查兩個檢測器的檢測結果,我們發現了三個主要差異。首先,基於角點的檢測器通常會產生更好的檢測,而基於中心點的檢測器有時會丟失圖像內的可見對象。圖5a展示了證明這種差異的一些示例。其次,如圖5b所示,基於角的檢測器與基於中心的檢測器相比,具有圍繞對象的更緊密邊界框的精確檢測。最後,基於中心的檢測器在檢測被遮擋的對象時性能更好,而基於角的檢測器則傾向於將檢測結果分成較小的邊界框。例如,在圖5c的第一個圖像中,總線被樹木遮擋,但基於中心的檢測器仍能夠正確檢測到總線。另一方面,基於拐角的檢測器將檢測結果分成兩個較小的邊界框。

  • 與其他探測器的比較

我們將Centers-xNet和Corners-xNet的最佳檢測器與其他單級檢測器進行了比較。我們在MS COCO的“ test-dev2017”集中報告了mAP編號。表2展示了在將單比例和多比例輸入圖像用於其餘的一級檢測器時,我們最出色的人為架構的全面比較。Corners-xNet在單比例和多比例輸入圖像上都居於首位。它還縮小了單級和兩級檢測器之間的距離。Centers-xNet與其他基於錨的體系結構具有同等性能,而每個錨僅使用單個比例,並且不使用任何對象到錨的分配優化。這些結果證明了使用MatrixNet作為對象檢測架構的骨幹的有效性。

  • MatrixNet設計

5層MatrixNet等效於FPN,因此我們將其用作評估向主幹添加更多矩陣層的基準。表3a列出了矩陣層編號的不同選擇的mAP編號。與FPN(5層MatrixNet)相比,使用19層MatrixNet可將性能提高5.1點。19層MatrixNet中的額外層比FPN層小得多,因為矩陣中向右或向下的每一步都會將寬度或高度減少一半。結果,19層MatrixNet中的錨點總數是FPN的2.5倍。

開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構

開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構

開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構

表3:MS-COCO驗證集上的設計選擇消減。

開源MatrixNets:用於對象檢測的新的比例和長寬比感知體系結構

圖6:使用FPN(a)和19層MatrixNet(b)作為主幹時,基於中心的對象檢測框架的示例檢測結果。MatrixNet產生更緊密的邊界框,特別是對於矩形對象。

我們還對兩個檢測器的檢測結果進行了目視檢查。圖6顯示了使用FPN(5層MatrixNet)與使用19層MatrixNet作為主幹相比,基於中心的檢測器的定性示例。通常,我們觀察到使用MatrixNet可以更好地處理矩形對象。

  • 圖層範圍

在此實驗中,我們要研究基礎層(l1,1)範圍選擇對檢測器性能的影響。我們使用Centers-xNet架構來評估此超參數的效果。表。圖3b顯示使用24px-48px的範圍更有效。選擇此範圍的目標是為所有矩陣層分配平衡的對象。選擇比24px-48px(例如32px-64px)更大的範圍將需要使用更大的訓練圖像裁剪,以具有足夠的示例來訓練矩陣的右下層。這將需要更多的GPU和更長的培訓時間。我們還發現,對於Corners-xNet架構,層範圍的選擇與Centers-xNet一樣重要。

  • 訓練圖像裁剪尺寸

在訓練過程中,我們使用縮放抖動來隨機縮放圖像,然後使用固定大小的作物來訓練模型。作物大小的選擇主要影響MatrixNet右下角的層。較小的農作物大小將阻止這些圖層具有足夠覆蓋整個範圍的對象。對於Centers-xNet,訓練作物的尺寸會影響角點回歸輸出的性能,從而影響檢測器的整體性能。表3c顯示了作物大小對Centers-xNet體系結構總體性能的影響。對於Corners-xNet,訓練作物的大小將影響中心迴歸輸出的性能。由於中心迴歸輸出僅影響角點匹配,並且由於我們允許30%的誤差,因此我們發現選擇圖像裁剪對Corners-xNet的性能影響很小。

  • Backbones

Backbones充當特徵提取器。因此,更好,更大的主幹通常會導致體系結構更好的整體性能。表3d顯示了使用Resnet50,Resnet101和Resnet152對Centers-xNet和Corners-xNet體系結構的整體性能的影響。

結論

作者介紹了MatrixNet,這是一種用於對象檢測的比例和長寬比感知體系結構。 作者使用MatrixNets解決了基於角點的對象檢測的基本限制。我們還使用MatrixNet作為基於錨的對象檢測的主幹。在這兩種應用中,均顯示出mAP較基線有顯著改善。


作者將MatrixNet視為對FPN的改進的骨幹。我們展示了使用MatrixNet進行一階段對象檢測的影響,該對象將來可以擴展到兩階段對象檢測。MatrixNets還可以在其他計算機視覺任務(例如實例分割,關鍵點檢測和全景分割任務)中替代FPN。


論文地址:

https://arxiv.org/pdf/2001.03194v1.pdf

源碼地址:

https://github.com/arashwan/matrixnet


分享到:


相關文章: