從雙目視覺到三維目標的端到端重建,哈工大、商湯等頂尖研究員共同提出最先進的重建水平

從雙目視覺到三維目標的端到端重建,哈工大、商湯等頂尖研究員共同提出最先進的重建水平

From: arxiv 編譯: T.R

近年來,基於單張RGB圖像重建三維形狀的任務在深度學習的幫助下取得了一系列突破性進展,但這種方法在很大程度上受限於訓練數據集的種類,在針對未知物體的重建中模型的性能會發生大幅度退化。好在雙目視覺天然包含了物體的深度信息,在雙目信息的補充下將極大地提升三維重建的效果。當今多鏡頭智能手機的普及也讓雙目信息更容易獲取。

為了探索基於雙目視覺的三維重建方法,來自哈工大、商湯、廈門大學和鵬城實驗室的研究人員們共同提出了一種直接從雙目圖像中重建目標三位結構的端到端方法,通過探索雙邊時差和兩個視角下圖像特徵的對應關係來重建目標的三維點雲/體素表示,在多個指標上達到了最為先進的的重建水平。

基於雙目圖像重建三維形狀的端到端方法

雖然近年來單視圖恢復三維形狀的工作取得了一系列突破,但針對這一病態重建問題,具有視差信息的雙目圖像會更為可靠。在這一研究中,研究人員充分利用了雙目圖像間的雙邊視差信息及特徵的對應關係,通過三個模塊的學習重建出了目標的三維結構。

模型的結構如下圖所示,根據最終輸出三維形狀的格式不同,分別得到了Stereo2Point 和Stereo2Voxel 兩個子模型。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

模型一共由三個功能子模塊構成,分別是從雙目圖像進行視差圖重建的DispNet-B模塊進行特徵編碼的RecNet-Encoder解碼獲取三維信息的Decoder,以及從圖像特徵中獲取對應兩個視角下對應關係的CorrNet。

下面就讓我們來深入網絡內部探索它是如何從雙目圖像重建高質量三維結構的。

整個模型的輸入是兩個視角下的雙目RGB圖像,而輸出則是對應目標的三維結構,包括點雲和體素兩種形式對應著兩種不同的解碼器。首先,雙目圖像輸入到了DispNet-B中得到各個視角對應的雙邊視差圖。它由UNet結構構成,將輸入的雙目圖像編碼成1/8x1/8的尺寸,而後通過三個上採樣輸出兩個視角對應的、與輸入相同大小的視差圖。與原始版本的DispNet不同,本方法中使用的視差網絡DispNet-B可以在一個前傳中計算出雙邊視差圖。同時減少了每一層的通道數量,使得模型縮小為了原來的6%,大大提升了運算效率。

在得到視差圖後,每個視角下對應的RGB圖像和視差圖像被分別送入到各自的編碼器RecNet中,以便獲取圖像中特徵的對應關係重建目標的三維模型。為了加速模型的收斂,這一模塊使用了殘差塊作為基本的卷積模塊。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

在編碼器部分,RecNet利用每個視角下各自的視差圖和RGB圖提取出8192維的特徵向量。在解碼器部分,兩個視角下的特徵向量與CorrNet生成的特徵對應關係一起送入並重建出最後的三維表示。點雲和體素兩種形式對應著兩種不同的解碼器。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

重建三維體素的情況下,解碼器包含了9個上採樣部分來從特徵圖生成32x32x32的體素空間,並在網絡的最後添加sigmoid層來為每個三維柵格生成概率。在反捲積間添加了殘差連接提高了訓練的效率。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

在重建點雲的情況下,解碼器包含了八個Fire模塊和一個全聯接層得到1024個點。其中Fire模塊由序列1x1卷積和後續的1x1及3x3混合卷積構成,利用1x1代替了大量的3x3層。與PSGN模型相比,RecNet僅僅是前者的28%。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

雙視圖間的對應關係是三維重建的關鍵所在。研究人員利用兩個視角下RecNet的特徵圖構建了特徵空間,並從中學習出了特徵間的對應關係來獲取立體視覺的幾何信息。利用左右兩個視圖的平移堆疊使得網絡可以在空間和視差維度對兩個視角的特徵進行充分的比較。在實現過程中,使用了3D-CNN結構通過九個三維卷積構成,並通過全聯接輸出4096維的關係特徵向量。

在模型的訓練過程中,使用了來自中間視差圖的MSE作為視差損失,同時在三維重建階段為體素和點雲分別使用了體素的二進制交叉熵和點雲的Chamfer距離來獲得損失。

數據和實驗結果

由於目前缺乏包含雙邊視差的雙目三維數據集,研究人員基於ShapeNet數據集,通過開源軟件Blender計算出了實驗所需的雙目圖像、視差圖和深度圖,併為每個三維模型生成了32x32x32的體素和16,384個點,最終得到了1,052,976個數據樣本。

在對模型進行充分訓練後,可以看到在體素重建和點雲恢復上都取得了十分優異的效果,對於細節表示地更為清晰,同時對於平面也不會出現異常的噪點。除了在性能上超過了先前的深度學習方法,與額外輸入相機外參的多視角方法LSM相比也有著大幅度的提升。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

最後研究人員還在真實數據Driving上進行了實驗。通過bbox將圖像中待重建目標區域剪切送入模型來進行重建。可以看到幾個對比的模型算法重建的結果十分相似,無法區分出不同的形狀,而本文的方法則有效重建出了三種不同類型的車輛。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

如果想要詳細瞭解模型的實現,可以參考論文:

https://arxiv.org/pdf/1910.08223.pdf

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

謝昊哲author:https://infinitescript.com

pix2vox:http://arxiv.org/abs/1901.11153

蘇昊組 PSGN:https://github.com/fanhqme/PointSetGeneration

atlasnet:https://arxiv.org/pdf/1802.05384v1.pdf

Matryoshka Networks: https://arxiv.org/abs/1804.10975

三維體素化軟件binvox:http://www.patrickmin.com/binvox/

在線數據集:http://www.hdrlabs.com/sibl/archive.html

LSM:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2017/EECS-2017-199.pdf

點雲方向博客:https://cloud.tencent.com/developer/user/5926470

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平
从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

-The End-

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋

將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業
公司。

將門創新服務

專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群

專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金

專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括

機器智能、物聯網、自然人機交互、企業計算。

在三年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業

公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: bp@thejiangmen.com从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

將門創投

讓創新獲得認可!

bp@thejiangmen.com


分享到:


相關文章: