無需預訓練分類器，清華&曠視提出專用於目標檢測骨幹網絡DetNet

2018-04-19 16:30:06 機器之心

基於當前用預訓練分類器開發目標檢測器的方法的固有缺陷，來自清華大學和曠視的研究者提出了專用於目標檢測的骨幹網絡 DetNet。DetNet 可在保持高分辨率特徵圖和大感受野的同時，高效地執行目標檢測任務，並可以自然地擴展到實例分割任務上。在 MSCOCO 數據集的目標檢測和實例分割任務上，DetNet 都取得了當前最佳的結果。

目標檢測是計算機視覺中最基礎的任務之一。由於深度卷積神經網絡（CNN）的快速發展，目標檢測的性能也隨著顯著提升。

近期的基於 CNN 的目標檢測器可以被分類為 1 階段檢測器（例如 YOLO、SSD 和 RetinaNet），以及 2 階段檢測器（例如 R-CNN、R-FCN、FPN）。它們都是基於在 ImageNet 分類任務上預訓練的骨幹網絡。然而，圖像分類和目標檢測問題之間有一個顯著的區別，後者不僅僅需要識別目標實例的類別，還需要對邊界框進行空間定位。具體來說，使用分類骨幹網絡對於目標檢測任務有兩個問題：（1）近期的檢測器如 FPN，包含額外的階段以在不同尺度上進行目標檢測；（2）傳統的骨幹網絡基於大的下采樣因子可以生成更高的感受野，這對於視覺分類很有幫助。然而，這卻犧牲了空間分辨率，從而使網絡難以準確地定位大型目標和識別小型目標。

一個設計良好的檢測骨幹應該解決以上所有問題。在此論文中，研究者提出了 DetNet，這是專門來做目標檢測的全新骨幹。更特別的是，因為不同的物體尺度，DetNet 具體來說，由於不同的目標尺度，DetNet 包含了額外的階段，在其它目標檢測器中的作用類似於 FPN。和傳統的利用在 ImageNet 分類任務上預訓練的模型不同，即使包含了額外的階段，DetNet 也能保持特徵的空間分辨率。然而，由於計算和內存開銷，高分辨率的特徵圖給建立深度神經網絡帶來了更大的挑戰。為了保持 DetNet 的效率，研究者部署了一個低複雜度的擴張瓶頸結構。通過整合這些改進，DetNet 不僅保持了高分辨率的特徵圖，還保持了大的感受野，兩者對目標檢測任務都很重要。

本研究的貢獻如下：

本文首次分析了傳統的將 ImageNet 預訓練模型微調來開發目標檢測器的固有缺陷。
本研究通過保持空間分辨率和擴大感受野，提出了一種新型的專為目標檢測任務而設計的骨幹網絡 DetNet。
作者利用基於低複雜度的 DetNet59 骨幹網路，在 MSCOCO 目標檢測和實例分割追蹤任務上取得了當前最佳結果。

圖 1：FPN（特徵金字塔網絡）中使用的不同骨幹網絡的對比。（A）FPN 結合傳統骨幹網絡；（B）傳統圖像分類網絡；（C）本文提出的 DetNet 骨幹網絡，其擁有更高的空間分辨率，和 FPN 有完全相同的各階段。由於圖像尺寸限制，圖中沒有顯示階段 1 的特徵圖（步幅=2）。

3.2 DetNet 設計

這部分介紹 DetNet 的結構細節。研究者使用 ResNet-50 作為基線模型，其作為骨幹網絡廣泛用於大量目標檢測器中。為了公平地與 ResNet-50 進行對比，研究者使 DetNet 的階段 1、2、3、4 與原始 ResNet-50 的階段保持一致。

創建高效的目標檢測骨幹網絡存在兩項挑戰：保持深度神經網絡的空間分辨率需要耗費大量時間和內存；降低下采樣因子等於減少有效的接受野，這對很多視覺任務都是有害的，如圖像分類和語義分割任務。

DetNet 經過仔細設計以解決這兩項挑戰。具體來說，DetNet 遵循 ResNet 的 4 個階段。區別從第 5 個階段開始，用於圖像分類的 DetNet 圖示詳見圖 2D。下面我們來看從 ResNet50 擴展而來的 DetNet59 實現細節。類似地，DetNet 可以使用深度層（正如 ResNet101）輕鬆擴展。DetNet59 的設計細節如下：

研究者引入了額外的階段，例如 P6，其在骨幹網絡中的作用與 FPN 中一樣。同時，研究者固定空間分辨率為 16x 下采樣，即使在第 4 階段之後也是如此。
由於第 4 階段後的空間分辨率是固定的，為了引入新的階段，研究者在每個階段剛開始時使用了擴張 [29,30,31] 瓶頸和 1x1 的卷積投影（圖 2B），並發現圖 2B 中的模型對於多階段檢測器（如 FPN）非常重要。
研究者使用擴張瓶頸作為基礎網絡模塊，以高效擴大感受野。由於擴張卷積仍然消耗大量時間，階段 5 和階段 6 保持與階段 4 相同的通道（瓶頸模塊有 256 個輸入通道）。這與傳統的骨幹網絡設計不同，後者會在後面的階段中將通道數量擴展為之前的 2 倍。

將 DetNet 和任意具備／不具備特徵金字塔的檢測器整合到一起是很容易的。在不損害代表性的前提下，研究者採用檢測器 FPN 作為基線網絡，來驗證 DetNet 的效用。由於 DetNet 只改變了 FPN 的骨幹網絡，因此研究者不改變 FPN 的其他結構（除了骨幹網絡）。由於在階段 4 之後並未減少 Resnet-50 的空間分辨率大小，因此只需按照自上而下的路徑將所有階段的輸出相加即可。

4 實驗

圖 2：DetNet（D）和基於 DetNet 的 FPN（E）的細節結構。（A,B）展示了 DetNet 中使用的不同的瓶頸模塊。（C）展示了原始瓶頸模塊。在階段 4 之前，DetNet 和 ResNet 的設計是相同的，而在階段 4 之後將保持空間分辨率（例如階段 5 和 6）。