What？你還搞不懂什麼是物體檢測?

2020-03-19 18:17:09 博菲盛科技

計算機視覺在上一個世紀60年代脫胎於人工智能與認知神經科學，並旨在通過設計算法來讓計算機自動理解圖像的內容。

於是為了“解決”這類機器視覺的問題，麻省理工在1966年正式將這個問題作為一個夏季項目，然而事實驗證，要解決這個問題可能還需要更長時間。

轉眼間，距離麻省理工最初提出這個項目已過去50多年，一般的圖像理解任務仍舊是不能得到完美解決。

不過也已取得顯著進展，並且隨著機器視覺算法商業化的成功，機器視覺產品已經開始擁有廣泛的用戶，包括圖像分割（例如微軟office中去除圖片背景的功能）、圖像檢索、人臉檢測對焦和Kinect的人體運動捕捉等。

物體檢測是計算機視覺與模式識別領域的核心問題，一直以來受到學術界與工業界的廣泛關注。當前物體檢測最大的難點是如何對場景中多種尺度的物體進行有效表徵，進而進行更為高效、更為準確、更為魯棒的物體檢測。

物體檢測對於人眼來說並不困難，我們可以通過對圖片中不同顏色、紋理、邊緣模塊的感知很容易定位出目標物體，但對於計算機來說，面對的是RGB像素矩陣，很難從圖像中直接得到狗和貓這樣的抽象概念並定位其位置，再加上物體姿態、光照和複雜背景混雜在一起，使得物體檢測更加困難。

於是人們在不斷探索的過程中，湧現出用以解決各類問題的算法、框架，例如決策樹、Fast R-CNN、Mask R-CNN等，今天小天將主要講講Mask R-CNN。

Mask R-CNN是一個實例分割（Instance segmentation）算法，由何凱明等人在2017年發表的論文中提出，可以用來做“目標檢測”、“目標實例分割”、“目標關鍵點檢測”。

Mask R-CNN是一個非常靈活的框架，可以通過增加不同的分支來完成不同的任務，例如可以用來完成目標分類、目標檢測、語義分割、實例分割、人體姿勢識別等多種任務！

Mask R-CNN算法建立在Faster R-CNN架構的基礎之上，我們可以將Mask R-CNN架構可視化如下圖所示：

相較於Faster-rcnn，Mask R-CNN擁有更高速、高準確率（高的分類準確率、高的檢測準確率、高的實例分割準確率等）、簡單直觀、易於使用的特性。即便如此，Faster-rcnn與Mask R-CNN這兩個算法都是對應領域中的經典之作。

Mask R-CNN比Faster-rcnn複雜，但是最終仍然可以達到5fps的速度，這和原始的Faster-rcnn的速度相當。

此外，由於發現了ROI Pooling中所存在的像素偏差問題，提出了對應的ROIAlign策略，加上FCN精準的像素MASK，使得其可以獲得高準確率。縱觀整個Mask R-CNN，它的算法的思路很簡單，就是在原始Faster-rcnn算法的基礎上面增加了FCN來產生對應的MASK分支。即Faster-rcnn + FCN，更細緻的是 RPN + ROIAlign + Fast-rcnn + FCN。

分享到:

閱讀更多 博菲盛科技 的文章

關鍵字: 麻省理工學院電腦人工智能

國產巨頭海外發布新機！價格感人：比國內售價還低，搞不懂

一文搞懂激光位移傳感器的原理、應用、選型

搞不懂，小米9剛說要全款預售3周發貨，剛又宣佈明天現貨開售

大數據商業模式探索｜人工智慧：數據+物體=智能（深度推薦）

確保物聯網持續成功的技術