目標檢測-Training with Online Hard Example Mining

2019-08-10 21:52:03 半杯茶的小酒杯

1.解決的問題

圖像分類和目標檢測是計算視覺領域的兩個基礎任務，Region-based ConvNet將目標檢測問題轉化為圖像分類問題，使得目標檢測領域出現了巨大的技術突破，同時也引入了難以處理的heuristics和hyperparameters問題。OHEM(Online Hard Example Mining)算法的思想很簡單：在訓練數據集中往往存在大量的簡單樣本(easy examples)和少量的困難樣本(hard examples)，easy examples對於模型的訓練貢獻較小，hard examples更加有助於提升模型訓練的效率和效果，OHEM算法將hard examples自動化的篩選出來運用到模型訓練中去，從而獲得較好的模型效果。

在RCNN、Fast RCNN算法中，訓練集標註數據和背景數據之間存在極大的不平衡狀況(負樣本數量遠遠大於正樣本數量, 即背景數據大於標註數據)。在sliding-window object detectors(如deformable parts model,DPM)中，負正樣本比例大約在10000:1；在object-proposal-based detectors中，負正樣本比例大約在70:1。如何處理樣本類別不平衡，並且得到更快的訓練速度和更高的訓練精度是一個技術領域的一個開放問題。

但是處理樣本不均衡的問題不是一個新的挑戰，20年前就存在一個標準的解決方法叫bootstrapping或者hard negative mining，該方法的核心思想如下:

Their key idea was to gradually grow, or bootstrap, the set of background examples by selecting those examples for which the detector triggers a false alarm. This strategy leads to an iterative training algorithm that alternates between updating the detection model given the current set of examples, and then using the updated model to find new false positives to add to the bootstrapped training set.

Bootstrapping的方法廣泛用於目標檢測領域，經常用於訓練目標檢測的SVM，也成功應用於淺層神經網絡、boosted決策樹等。甚至基於深度神經網絡的R-CNN和 SPPnet也採用hard negative mining訓練的SVM。

然而目前最新的Object Detector(比如Fast R-CNN以及變體)並沒有使用Bootstrapping，可能的原因是將Bootstrapping技術轉換為純在線學習算法是困難的，尤其是在幾百萬個樣本中進行SGD訓練深度卷積網絡的情況下。Bootstrapping有時需要固定模型尋找新樣本，有時需要固定樣本訓練模型，SGD訓練深度卷積網絡需要幾十萬次SGD迭代，在迭代中固定模型會極大的減慢訓練速度。

本文中提出了一種在線的bootstrapping算法online hard example mining(OHEM)用來訓練基於深度神經網絡的目標檢測模型。本文將OHEM應用於Fast RCNN，得到以下收益:

1) 移除了幾個region-based ConvNets常用的heuristics和hyperparameters；

2) 穩定、顯著的提升了目標檢測的mAP;

3) 數據集越大，數據難度越大，效果提升越明顯。如MS COCO數據集；

OHEM結合其它目標檢測改進策略(比如multiscale testing、iterative bounding-box regression等)，OHEM在PASCAL VOC 2007和PASCAL VOC 2012上分別給出了78.9% and 76.3%的mAP。

2.Fast RCNN OverView

如下圖所示，Fast RCNN分為兩部分:Convolutional Network和ROI Network。Convolutional Network由許多Convolution Layer和Max Pooling Layer組成；ROI Network由一個RoI Pooling Layer、多個Fully Connected Layer和兩個Loss Layer組成。

在inference過程中，對Input Image使用Convolutional Network得到Feature Map；RoI-pooling層將每一個Object Proposal投影到Feature Map，然後提一個fixed-length的Feature Vector，將Feature Vector輸入給FC Layer，最終得到兩個輸入結果:1）softmax，所有類別和背景的概率分佈；2) bounding-box重定位的迴歸座標。

有許多原因使得我們把Fast RCNN作為base object detector：

1）Fast RCNN是一個快速的端到端的系統；

2）Conv and RoI兩個網絡的基礎設置也廣泛應用於其它detectors(比如SPPnet、MR-CNN)；

3) FRCN允許Trainning整個Conv Network，而SPPnet、MR-CNN需要fix Conv Network；

4）SPPnet和MR-CNN需要緩存RoI network輸出的Feature，用來訓練SVM分類器；FRCN使用ROI Network本身來訓練期望的分類器，後文會證明在統一系統中使用SVM分類器是沒必要的。

目標檢測-Training with Online Hard Example Mining

2.1 Fast RCNN Training

FRCN採用SGD(stochastic gradient descent)的方法進行訓練。每個ROI的loss是classification log loss和localization loss和總和。classification log loss用於鼓勵準確預測目標的類別；localization loss用於預測精確的bounding box位置。

在訓練過程中，對於每一個mini-batch，首先從Dataset中選取N副圖片，每一幅圖片選取B/N個ROI，在實踐中，N=2，B=128。ROI採樣過程使用了許多heuristics，本文的重要貢獻是去除一些heuristics和hyperparameters。

Foreground RoIs:與Ground Truth Bounding Box的IOU>0.5的ROI被標記為Foreground；這是PASCAL VOC目標檢測基準數據集的評估標準，相同的標準也用在R-CNN、SPPnet、MR-CNN等模型中SVM的hard mining，本文也同樣使用該標準設置。

Background RoIs:與Ground Truth Bounding Box的IOU介於[bg_lo, 0.5]的ROI被標記為Background；在FRCN和SPPnet中，bg_lo=0.1。儘管這個heuristic可以提升Object檢測精度，但是它是次優的，因為它忽略了一些低頻、重要的、困難的背景區域。本文中的方法移除了該heuristic。

Balancing fg-bg RoIs:為了解決數據分類不平衡的問題，在每個mini-batch中，通過對background patches進行隨機採樣balance foreground-to-background ratio來保證Foreground RoIs的比率大於25%。foreground-to-background ratio是Fast RCNN中的一個重要的heuristic，移除或者修改foreground-to-background ratio，都會導致Fast RCNN的精度下降約3%。使用本論文中的方法，可以移除該heuristic，並且不會帶來網絡精度的下降。

3.Online Hard Example Mining Approach

原始的hard example mining algorithm流程如下:

a) for some period of time a fixed model is used to find new examples to add to the active training set;

b) then, for some period of time the model is trained on the fixed active training set;

在SVM-based object detectors(如R-CNN、SPPnet)中，Hard Example Mining算法的流程如下:

a) 篩選圖像到active training set直到達到閾值上限；

b) 在active training set上訓練SVM直至收斂；

a)和b)重複交替進行，直至active training set包含所有的support vectors。由於篩選樣本數據的過程並不會更新模型，因此整個過程降低了模型的訓練速度。

OHEM(online hard example mining)的過程如下:

1.針對input image運用卷積神經網絡，得到Feature Map；

2.ROI Network使用Feature Map和所有的ROI作為輸入，所有ROI經過RoI Pooling、FC Layer、Loss Computation得到Loss值；

3.對所有的ROI按照Loss排序，然後選擇前B/N個樣本作為Hard Example；由於只選擇了一部分ROI更新模型，反向傳播的成本也相對降低了；

通常情況下，Overlap較大的ROI的Loss也比較相似，它們往往是同一個Object，所以論文中採用NMS(non-maximum suppresison)移除Overlap較大的ROI：選取Loss最大的ROI，然後剔除所有與選擇區域Overlap>0.7的ROI。

OHEM的過程不需要設置fg-bg比率，因為任何一個類別被遺漏，它的Loss就會不斷增加，然後該類別被採樣的概率就越大。

3.1 實現細節

OHEM的實現方法很多，一種最直接的方式就是修改Loss Layer實現Hard Example Selection。Loss Layer計算所有ROI的Loss值，按照Loss排序選取Hard ROI，然後將Non-hard Example的Loss設置為0。這種方法的缺陷在於雖然Loss=0的Example對於模型更新沒有任何作用，ROI Network仍然需要對所有的ROI進行內存分配和反向傳播。

為了解決上述問題，論文中提出了兩份ROI Network，其中一份是Readonly的。在一次的SGD迭代中，Readonly RoI Network只負責前向傳播，計算所有ROI的Loss(如上圖綠色箭頭所示)。Hard RoI Sampling模塊負責選擇Hard Example，然後作為另一個ROI Network的輸入，進行前向反向傳播和梯度更新(如紅色箭頭所示)。

記Input image數量為N，Readonly ROI Network的輸入ROI的數量為R，有效的ROI數量為|R|，Hard Example的數量為B。論文中，N=2，|R|≈4000，B=128。

4.online hard example mining實驗分析

4.1 PASCAL VOC07數據集上的測試效果：

表中1~2行: Standard Fast R-CNN with bg_lo=0.1的效果；

表中3~4行: 為了驗證heuristic的重要性，設置bg_lo =0，結果表明，VGGM模型的mAP降低2.4個點，VGG16模型mAP幾乎保持不變；

表中11~13行: Fast R-CNN with OHEM相對於Standard Fast R-CNN with bg_lo=0.1的mAP提升了2.4個點，相對於Standard Fast R-CNN with bg_lo=0的mAP提升4.8個點。表明OHEM消除了heuristic的影響。

N=1時，單張圖片的ROI可能相關性較大；當N=2時，由於相關性問題，可能引發梯度不穩定和收斂減緩的問題。5~6行可以看出當N=2時，Standard Fast R-CNN的mAP降低了約1個點；而Fast R-CNN with OHEM幾乎沒有收到影響。

OHEM選擇Hard Example作為訓練樣本，但是如果用所有的Examples作為訓練樣本時，是否會因為Easy Examples的Loss較小，對梯度的貢獻較少，從而使得Training過程自動聚焦在Hard Examples上。6~7行表明即使經過精心的參數調整，採用所有Example訓練的效果仍比OHEM低1個點以上。

上圖表明，OHEM方法在所有的方法中獲得的Taining Loss最小。

4.2 PASCAL VOC and MS COCO數據集上的測試效果

4.3 Multi-scale與Iterative bounding-box regression

OHEM結合Multi-scale和Iterative bounding-box reg策略，在VOC07數據集上得到了State-Of-Art的75.1%的結果。

儘管論文中一直在使用Fast R-CNN，但是OHEM可以用來Train任何Region-Based的卷積網絡檢測算法。

更多文章見微信公眾號: 「半杯茶的小酒杯」

分享到:

閱讀更多 半杯茶的小酒杯 的文章

關鍵字: 簡單人工智能技術

Keras使用總結：構建圖像分類模型（針對小數據集）

LeetCode44，Hard，從搜索到動態規劃的詳細推導

體驗O365中的EXOPSV2 之一初識Exchange Online PowerShell V2

03.05 KNN代碼實例操作分享

TensorFlow2學習三、Keras 構建複雜模型

Spring Boot項目中如何定製PropertyEditors

TensorFlow v2.0實現邏輯斯諦迴歸

TensorFlow 2.0 Tutorial: 3

監聽器實慄在線人數統計

Hard Disk Manager Mac磁盤管理工具 v1.3（最新破解版）

菜鳥學人工智慧，簡單神經網絡train&test程序，python源碼

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"