CVPR 2020丨基於點雲的3D物體檢測新框架


CVPR 2020丨基於點雲的3D物體檢測新框架

本文介紹的是CVPR2020入選論文《HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection》,作者來自元戎啟行。

作者 | 元戎啟行

CVPR 2020丨基於點雲的3D物體檢測新框架

論文地址:https://arxiv.org/abs/2003.00186

3D目標檢測是當前自動駕駛感知模塊重要的一個環節,如何平衡3D物體檢測的精度以及速度更是非常重要的一個研究話題。本文提出了一種新的基於點雲的三維物體檢測的統一網絡:混合體素網絡(HVNet),通過在點級別上混合尺度體素特徵編碼器(VFE)得到更好的體素特徵編碼方法,從而在速度和精度上得到提升。與多種方法相比,HVNet在檢測速度上有明顯的提高。在KITTI數據集自行車檢測的中等難度級別(moderate)中,HVNet 的準確率比PointPillars方法高出了8.44%。

CVPR 2020丨基於點雲的3D物體檢測新框架

圖1 3D物體檢測

在KITTI數據集上,HVNet網絡在KITTI數據集上提交結果的所有已有方法中獲得了最好的mAP,並且實時推理速度可以達到31Hz。

CVPR 2020丨基於點雲的3D物體檢測新框架

圖2 KITTI測試集上的速度-精度對比圖,其中O為HVNet

1 研究背景

在當前點雲檢測模塊,格網化(voxelization)是一個重要的方式。許多已有的方式都是通過格網化,然後進行離散的卷積操作。但是,在應對大規模的場景下,一個關鍵參數是格網voxel的大小:較小的voxelscale捕獲更精細的幾何體特徵,並更好地定位對象,但需要較長的推理時間。較大的voxel scale導致較小的特徵圖和較快的推理速度,但性能較差,特別是對於較小的物體。

CVPR 2020丨基於點雲的3D物體檢測新框架

圖3 常見的體素特徵提取網絡(VFE)

為了應對上面問題帶來的挑戰,我們通過多尺度的點雲信息,利用注意力機制(attention),提取更加細粒度的點雲特徵,然後映射到更大格網粒度上,從而保證速度跟精度的平衡。傳統體素特徵提取網絡(VFE)方法通常包含三個步驟:1.體素化:將點雲指定給二維體素網格。2.體素特徵提取:為每個點計算依賴於網格的逐點特徵,並將其送入PointNet風格的特徵編碼器。3.投影:將逐點特徵聚合到體素級特徵,並投影回其原始網格,形成偽圖像特徵圖。HVNet中提出的HVFE方法則將混合比例尺度下的點級別的特徵聚合到全局上下文中,然後投影到動態目標尺度中的特徵圖上。

CVPR 2020丨基於點雲的3D物體檢測新框架

圖4 本文提出的HVFE方法

2 算法設計

整個HVNET包括:HVFE特徵提取模塊;2D卷積模塊;以及檢測的head模塊,用來輸出最後的預測結果。下圖中第一行是HVNet的整個結構。第二行是混合體素特徵提取器的結構,由四部分組成:a) x-y平面多尺度預體素化;b)並行多流的注意力機制體素特徵編碼層(AVFE)編碼多尺度點雲特徵;c) 編碼特徵聚合;d)注意力機制體素特徵編碼輸出層(AVFEO)層結合聚合特徵和目標尺度信息進行動態特徵投影。

CVPR 2020丨基於點雲的3D物體檢測新框架

圖5 網絡框架圖

1.HVFE layer方面,我們提取了不同尺度的voxel下點雲的特徵,為了融合不同尺度下的點雲的特徵,我們提出了attentive layer,利用原始的geometry信息,對不同尺度的點雲進行特徵映射以及融合,形成最終的2.5D上的特徵圖。在整個過程,我們提出了index-based的高效操作,使得整個聚集(scatter),以及分散(gather)的操作能夠充分利用GPU並行,相比與之前方法的操作,我們的方式可以有效減少信息的損失以及GPU顯存的使用。

CVPR 2020丨基於點雲的3D物體檢測新框架

圖6 AVFE和AVFEO層。索引張量用於索引操作:聚集(Gather)和分散(Scatter)

2.2D 卷積部分,我們利用HVFE layer提出的多尺度的feature map,在特徵圖上面也進行多尺度的融合。由於點雲的稀疏性和偽特徵圖的低分辨率性,我們提出了尺度融合金字塔網絡(FFPN)來進行進一步的特徵融合。多尺度特徵首先在主幹網絡中淺層融合,然後在提出的FFPN網絡中進行深度融合。

CVPR 2020丨基於點雲的3D物體檢測新框架

圖7主幹網絡

3.detection head部分,我們利用不同層的featuremap感受野不同的特性,對不同的層設計相應的anchorbox進行預測。具體來說,對於不同層的feature map,在detection head部分只會對相對應的尺度的類別進行預測,這樣的方式可以有效減少類別間的混淆。

3 結果

KITTI數據集是自動駕駛是目前自動駕駛領域最重要的測試集之一,我們在KITTI上進行了實驗驗證。實驗結果證明了我們方法的有效性,我們的算法在KITTI上做到了Cyclist當時的最好成績,並且在當時的leaderboard上超越了第二名2個點,同時在Car上面我們做到了第六名。

CVPR 2020丨基於點雲的3D物體檢測新框架

圖8 HVNet 在KITTI 測試上的BEV成績(自行車,2019年11月)

CVPR 2020丨基於點雲的3D物體檢測新框架

圖9 HVNet 在KITTI 測試上的BEV成績(汽車,2019年11月)

值得注意的是,很多方法在處理多類別物體檢測中訓練多個模型來檢測不同的類別,我們僅通過單一的網絡完成輸出。在KITTI的多類別檢測任務中,我們取得了當時最好的mAP(平均精度),同時保證了實時的效率。相比於PointPillars、Second等算法,HVNet在效率也有很大的突破。

CVPR 2020丨基於點雲的3D物體檢測新框架

圖 10 KITTI test上的BEV成績

相比於PointPillars、Second等算法,我們調整了Voxel的尺度,對比了和這些方法在相似的Voxel尺度下的效率和準確率。結果表明我們的方法在性能和效率方面都超過了現有方法。

CVPR 2020丨基於點雲的3D物體檢測新框架

圖 11 KITTI val數據集中BEV上的不同Voxel設置下結果對比

4 思考總結

在這項工作中,我們提出了一種新型的單級三維目標探測網絡HVNet。HVNet將混合尺度體素聚合成統一的逐點特徵,然後在注意力特徵的引導下將其投影成不同尺度的偽圖像特徵。HVNet的關鍵是對特徵提取尺度和偽圖像投影尺度進行解耦。此外,特徵融合金字塔網絡的主幹獲取偽圖像並融合特徵,以生成不同類別的緊湊表達。實驗研究表明,該方法取得了目前最先進的效果,並且具有較高的實時性。


CVPR 2020丨基於點雲的3D物體檢測新框架



分享到:


相關文章: