ECCV 2018｜邁向完全可學習的物體檢測器：可學習區域特徵提取方法科技頭條網

ECCV 2018｜邁向完全可學習的物體檢測器：可學習區域特徵提取方法

物體檢測是計算機視覺領域的重要問題之一，現今大部分計算機視覺應用都依賴於物體檢測模塊，例如無人車應用中對於周圍環境的感知，安防支付等應用中的人臉識別，新零售應用中的商品識別等等的第一步都是提取圖像或視頻中的感興趣物體，也就是物體檢測。

這一次人工智能的浪潮很大程度上來自於數據驅動方法的進展，也就是將人工智能系統中的各個模塊和步驟從手工設計轉變為可以從數據中學習。數據驅動方法不僅提高了系統的準確率，也增強了系統對於不同場景的適應性。在物體檢測領域，圖像特徵提取、候選框生成、後處理方法等等同樣經歷了從手工設計到可學習的轉變，但是對於區域特徵提取，至今仍舊主要採用手工設計的方法，例如RoI Pooling方法。

近日，來自微軟亞洲研究院和北京大學的研究者們針對物體檢測中的區域特徵提取步驟提出了一種統一現有區域特徵提取方法的視角，並據此設計了一種新的可端到端學習的區域特徵提取方法。新的方法在COCO檢測任務上的表現普遍超過RoI Pooling及其變種，並且有望啟發研究者們進一步探索完全可學習的物體檢測系統。該論文已被ECCV 2018接收。

區域特徵提取的一般化視角

先進的基於區域的物體檢測方法由五個步驟組成，分別是圖像特徵生成、候選區域（proposal）生成、區域特徵提取、區域識別和重複檢測去除。圖像特徵生成會輸出空間大小為H×W和通道數為C_f的特徵圖x。候選區域生成會輸出一定數量的關注區域（Rol），每個RoI用四個座標的邊界框b表示。通常，區域特徵提取會從圖像特徵x和關注區域b生成區域特徵y(b)，如

一般地，y(b)的維度為K×C_f，通道數保持和圖像特徵x一樣為C_f，而K表示區域中空間子區域（spatial part）的個數。上述概念可以被泛化。一個子區域（part）未必有規則的形狀，子區域的特徵y_k (b)無需從圖像特徵x上固定的空間位置得來。甚至，子區域的並集未必是關注區域本身。在一般化的表達式中，子區域的特徵被視為圖像特徵x在採樣區域Ω_b（support region）上的加權和，如

其中，Ω_b是採樣區域，它可以是RoI本身，也可以包含更多語境（context）信息，甚至是全圖；p枚舉了Ω_b內的所有空間位置；w_k (b,p,x)是對應於位置p處的圖像特徵x(p)的加權權重；⊙表示逐元素乘法（element-wise multiplication），這裡的權重假定是歸一化的，即∑_(p∈Ω_b) w_k (b,p,x)=1。

研究證明各種關注區域池化方法都是上述觀點的特例。在這些方法中，採樣區域Ω_b和權重w_k (⋅)的具體形式各異，並且大多是人為定義的。

1. 普通的區域池化

普通的區域池化（Regular RoI Pooling）的採樣區域Ω_b是RoI本身。它被規則地劃分為網格（比如7×7）。每個子區域的特徵y_k (b)是所有圖像特徵x(p)的最大或平均值，其中p位於第k個統計區內部。

以 averaging pooling 為例，公式(2)中的權重是

其中，R_bk是第k個統計區內部所有位置的集合。

Regular RoI Pooling 存在一個缺陷：由於神經網絡的空間下采樣，它無法區分非常近的若干關注區域。

2. 對齊的區域池化

對齊的區域池化（Aligned RoI Pooling）通過對每個R_bk中的採樣點進行雙線性插值，彌補了普通的區域池化中的量化缺陷。簡單地說，假定每個統計區只採樣一個點，比如統計區的中心(u_bk,v_bk)。設位置p=(u_p,v_p)，公式(2)中的權重可以表示為

其中，g(a,b)=max(0,1-|a-b|)表示一個維度上線性插值的權重。注意公式(4)中的權重只有在採樣點(u_bk,v_bk)周圍最近的四個座標才非零。

3. 可形變的區域池化

可形變的區域池化（Deformable RoI Pooling）通過對每一個統計區學習一個偏移(δu_bk,δv_bk)，並作用於統計區中心，泛化了對齊的區域池化。公式(4)中的權重可以擴展為

偏移是通過一個作用於圖像特徵x的可學習的子模塊產生的。特別地，這個子模塊從對齊的區域池化提取的特徵出發，通過額外的全連接層（fully connected layer）迴歸偏移。

權重和偏移依賴於圖像特徵，而且可以端到端學習，物體的形變可以被更好地根據圖像內容進行建模。另外，由於位移原則上可以任意大，所以採樣區域Ω_b不再侷限於關注區域內部，而是能夠覆蓋全圖。

數據驅動的區域特徵學習

普通的和對齊的區域池化是完全由人工設計的，可形變的區域池化引入了可學習的模塊，但它的形式仍然限制在規則的網格。在本文中，我們嘗試用最少的人工設計學習公式(2)中的權重w_k (b,p,x)。

影響權重的因素有兩個：第一是位置p和關注區域框b的幾何關係。例如，在關注區域框b中的位置應該比離得較遠的位置貢獻更大；第二，圖像特徵x是否被適應性地使用。

所以，權重被建模成與兩個因素的和的冪指數相關

公式(8)中的第一項G_k (b,p)刻畫了幾何關係。

公式(8)本質上是一個注意力模型，注意力模型是建模遠距離的或者性質各異的元素間依賴關係的利器，比如不同語言中的單詞，位置/大小/比例不同的關注區域等。大量的實驗表明，注意力模型可以很好地對區域和圖像位置間的幾何關係進行建模。

公式(7)中的第二項A_k (x,p)適應性地使用圖像特徵。它在圖像特徵上作用一層卷積，

其中W_k^app代表可學習的卷積核的權值。

整個區域特徵提取模塊的結構如圖1所示。在訓練中，圖像特徵x和模塊參數(W_k^box, W^im, 和W_k^app)都是同時更新的。

圖1 所提出的區域特徵提取模塊中關於公式(2)和公式(7)的圖示

為了降低計算量，我們提出了一種高效的實現方式——對Ω_b中的位置進行稀疏採樣。直觀上，關注區域內的採樣點應該更密，而其外應該較稀疏。因此，Ω_b被劃分為兩個集合Ω_b=Ω_b^In∪Ω_b^Out，分別包含了關注區域內外的位置。Ω_b^Out代表了關注區域的語境（上下文）信息。它可以是空集，也可以覆蓋全圖。通過指定在Ω_b^In和Ω_b^Out中的最大采樣數（通常，兩者都設為196），複雜度可以被控制。給定關注區域b，Ω_b^In中的位置分別以stride_x^b和stride_y^b的步長，沿x和y兩個方向採樣。實驗表明稀疏採樣的準確度與樸素的密集採樣相差無幾。

實驗

我們在COCO檢測數據集上對該方法進行實驗。實驗過程遵循COCO 2017的數據集劃分：訓練集的115k張圖像用於訓練；驗證集中的5k張圖片進行驗證；並在測試集的20k張圖像上進行測試。

我們使用最先進的R-CNN和FPN物體探測器，使用ResNet-50 和ResNet-101用作圖像特徵提取器的骨幹（backbone）。默認情況下，使用基於ResNet-50的Faster R-CNN進行對比實驗。交併比（IoU）閾值為0.5的標準非極大值抑制（NMS）被用於去除重複檢測。

1. 採樣區域的影響

實驗發現，我們的方法勝過了其它兩種池化方法。同時，隨著採樣區域的增大，新方法的表現也穩步提高，表明了利用語境信息是有幫助的。

表2 不同採樣區域的三種區域特徵提取方法比較。在COCO驗證集上報告準確性mAP。* 目前尚不清楚如何利用整個圖像進行普通和對齊的目標區域池化方法，因此相應的準確數字被省略。

2. 稀疏採樣的影響

由於稀疏採樣實現，計算開銷可以顯著降低。默認情況下，對Ω_b^In和Ω_b^Out指定最多196個採樣位置。實際中，面積較大的關注區域對於Ω_b^Out將具有較少的採樣位置，而面積較小的關注區域對於Ω_b^In將具有比最大采樣數更少的採樣位置。對於Ω_b^In和Ω_b^Out，實際的平均採樣位置數分別在114和86左右，如表3所示。相應的計算開銷是4.16G FLOPS，粗略地等於兩個全連接層的檢測頭的計算量（大約3.9G FLOP）。

對於之後的實驗，稀疏採樣實現對於Ω_b^In和Ω_b^Out都最多選取196個位置。

表3 不同採樣位置數下的檢測準確度和計算量。均採樣個數|Ω_b^Out |_avg 和|Ω_b^In |_avg是在COCO的驗證集上以ResNet-50 RPN生成的300個候選區域為樣本計算而得的。

3. 幾何關係和圖像特徵使用方法的影響

公式(7)中幾何關係和圖像特徵使用對於所提出的區域特徵提取模塊的影響。在COCO的驗證集上彙報結果。

4. 不同檢測網絡的比較

表5不同檢測網絡上不同方法的比較。在COCO的測試集上彙報結果。

5. 學到了什麼？

下面具體看一下本文的區域特徵提取算法到底學到了什麼樣的特徵。公式(7)中的權重w_k (*)表示的是圖像每個位置的特徵對於最終區域特徵的貢獻。圖2(a)顯示了訓練前後權重w_k (*)的變化，可以看出，訓練伊始，權重w_k (*)很大程度上是隨機的。在訓練之後，不同部分的權重自動學習到區域的特徵要關注區域上的不同位置，並主要集中在前景物體上。圖2(b)分別顯示了學習到的幾何權重和表觀權重，可以看出，幾何權重主要集中在感興趣區域，而表觀權重則對應到所有前景物體上。