09.10 ECCV 2018丨YOLO遇上OpenPose,近200FPS的高幀數多人姿態檢測

伊瓢 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

在高幀數下,如何實現人體姿態檢測?

這是今年ECCV上的一篇名為《Pose Proposal Networks》的論文,作者是日本柯尼卡美能達公司的関井大気(Taiki SEKII),結合了去年CVPR上的YOLO和CMU的OpenPose,創造出的新方法,能夠實現高幀數視頻中的多人姿態檢測。

高幀數,無壓力


ECCV 2018丨YOLO遇上OpenPose,近200FPS的高幀數多人姿態檢測


ECCV 2018丨YOLO遇上OpenPose,近200FPS的高幀數多人姿態檢測

而其他方法,比如NIPS 2017 的AE(Associative embedding)、ICCV 2017的RMPE(Regional multi-person pose estimation)、CVPR 2017的PAF(Realtime multi-person 2D pose estimation using part affinity fields),都無法實現高幀數尤其是100以上幀數視頻的姿態檢測。

ECCV 2018丨YOLO遇上OpenPose,近200FPS的高幀數多人姿態檢測

在COCO數據集上也不虛,相比谷歌PersonLab能在更高幀數下運行。

ECCV 2018丨YOLO遇上OpenPose,近200FPS的高幀數多人姿態檢測

來看下具體數據,在頭、肩、肘部位和整體上半身識別中超過了其他方法,整體得分也不虛。

神奇“體位”大冒險

另外,常規的姿態檢測十分容易出錯的“體位”中,該方法也可以規避。

比如從天上跳傘下來這種奇怪的姿勢:

ECCV 2018丨YOLO遇上OpenPose,近200FPS的高幀數多人姿態檢測

人數過多的擁擠場景:

ECCV 2018丨YOLO遇上OpenPose,近200FPS的高幀數多人姿態檢測

還有,兩個人重疊的圖像。

ECCV 2018丨YOLO遇上OpenPose,近200FPS的高幀數多人姿態檢測

注意,右側站立的女子和她前面在瑜伽墊上的人,完完全全分開了,不會鬧出下面這種胳膊腿兒搞錯的笑話。

ECCV 2018丨YOLO遇上OpenPose,近200FPS的高幀數多人姿態檢測

原理

ECCV 2018丨YOLO遇上OpenPose,近200FPS的高幀數多人姿態檢測

這是基於ResNet-18的PPN對多人姿勢檢測的過程:

a) 輸入圖像;

b) 從輸入圖像中檢測部分邊界框;

c) 檢測出肢體;

d) 區分圖中每個人。

ECCV 2018丨YOLO遇上OpenPose,近200FPS的高幀數多人姿態檢測

這篇論文的方法是先將圖片分割為較小的網格,使用較小的網絡對每一幅網格圖片進行單次物體檢測範例,之後通過區域提議(region proposal)框架將姿態檢測重定義為目標檢測問題。

之後,使用單次CNN直接檢測肢體,通過新穎的概率貪婪解析步驟,生成姿勢提議。

區域提案部分被定義為邊界框檢測(Bounding Box Detections),大小和被檢測人身材成比例,並且可以僅使用公共關鍵點註釋進行監督。

整個架構由單個完全CNN構成,具有相對較低分辨率的特徵圖,並使用專為姿勢檢測性能設計的損耗函數直接進行端到端優化,此架構稱為姿態提議網絡(Pose Proposal Network,PPN)。PPN借鑑了YOLO的優點。

傳送門

http://taikisekii.com/PDF/Sekii_ECCV18.pdf

Poster:

http://taikisekii.com/PDF/Sekii_ECCV18_pos.pdf

至於code嘛,暫時沒有。

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: