最小二乘迴歸代替卷積操作—賓夕法尼亞大學提出深度補全新方法還原深度圖纖毫細節

最小二乘迴歸代替卷積操作—賓夕法尼亞大學提出深度補全新方法還原深度圖纖毫細節

From:PennU 編譯:T.R

深度補全問題(Depth Completion)作為深度估計問題的延伸,一直以來都具有重要的理論研究意義和現實作用,廣泛應用於自動駕駛感知、環境三維重建、精細形貌恢復等領域。典型的深度補全問題利用RGB圖像和稀疏的深度採樣點作為輸入,模型在RGB圖特徵的引導下,基於稀疏的輸入重建出稠密的深度輸出。先前的模型都是通過對倒數第二層的多通道特徵進行融合與計算得到最終的單通道結果。

來自賓夕法尼亞大學的研究人員提出了一種全新深度補全視角,將深度補全任務中最後一層1x1卷積層替換為了基於最小二乘方法的擬合(least squares fit,LSF)模塊通過擬合預測結果與係數的測量結果來計算模塊的權重。這種顯式的、依賴於輸入數據的迴歸方式可以使得網絡學習到更為複雜的表達形式,並最終預測出與測量結果更為接近的深度,大幅提高算法的性能。

深度補全問題

深度補全問題的學習過程可以通過下面的公式來描述,最小化預測深度結果與實際深度之間的差距。其中X為輸入的圖像,S為稀疏深度測量結果、\\theta為模型f的參數,D為基準深度結果:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

本方法最大的不同在於將最後一層實現深度迴歸的卷積層替換為了最小二乘模塊,而其他結構則保持不變。整個模型的結構如下圖所示,其中虛線顯示了先前得到結果的卷積方法,而中間直連則表示本研究提出的最小二乘化深度補全方法。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

在開始之前我們需要回答三個問題:如何將非線性映射轉化為最小二乘問題來處理?如何處理測量中噪聲的影響?如何進行多尺度重建以實現更好的深度補全性能?

非線性問題的最小二乘解法

針對一個深度補全神經網絡來說,研究人員將倒數第二層的特徵視為深度基函數,最後一層進行迴歸計算本質上可以視為將M個通道的特徵B轉化為單個通道的深度結果L。由於預測深度有一定的取值範圍,最終結果還需要非線性映射函數g來進行計算。在深度補全任務中一般使用下面的非線性激活函數:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

在此基礎上,通過將倒數第二層的M個特徵進行加權,隨後利用非線性函數就可以估計出對應位置i處的深度:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

基於上式模型最後一層的權重可以利用網絡的基礎特徵B和足夠的稀疏測量結果通過最小二乘的方法計算出來。這一最小二乘擬合方法的目標函數是儘可能地在預測結果上與稀疏測量的深度接近,可以表示為下面的殘差形式。其中r為預測結果的殘差,N為稀疏測量的數目、M為特徵層B的通道數:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

由於非線性激活函數g的存在這一殘差函數是非線性的,研究人員利用擬函數的方法將上式轉為了線性形式,從而目標函數也可以改寫為典型的線性方程:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

上式中B為Nx(M+1)的矩陣,包含了M+1個堆疊特徵,對應N個採樣點,而t則表示轉換後的稀疏深度向量。通過偽逆的計算方式可以得到上面這一線性表達式的解,也就是LSF模塊的權重:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

與卷積方法不同,它與基本特徵B和係數測量值相關。值得注意的是,用於這一計算的方法是可差分的,使得模塊的權重可以通過端到端訓練方式得到。對於網絡的重新訓練使得模型可以充分利用自適應擬合層的優勢,得到更好的預測結果。

對抗噪聲的魯棒性

上一部分的方法闡明瞭如何利用最小二乘模塊代替深度補全最後一部分的卷積層,但我們需要得到一個穩定、魯棒的系統以便有效處理真實世界中的數據。對於典型噪聲和局外點的建模與去除十分複雜。這些噪聲一般來源於測量誤差、誤匹配誤差、目標運動以及透明/高反射表面。為了處理這一問題並與最小二乘方法相適應,研究人員選擇了M-estimator的方法來對噪聲進行處理。

根據最小二乘的目標函數,對其進行差分並忽略高階項將得到下面的形式,其中J為雅可比矩陣用於計算目標函數相對於權重的偏導數。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节
最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

其中W為反比於每次測量的噪聲。通過計算出Δw對前一部分計算出的初始值權重進行不斷的優化:

w w + Δw

在實際使用過程中,為了減小計算資源並控制計算時間這裡採用了固定的迭代週期,通過實驗確定了優化兩次來實現更為魯棒的深度計算結果。

多尺度融合提升預測結果

為了處理深度圖預測中的人工痕跡,研究人員利用利用了多尺度的訓練方法來進行融合與優化。與先前在解碼器不同尺度上直接預測出深度圖不同的是,這一方法中從解碼器特徵不同層級中預測出了多尺度的基準特徵,而後將這些基準特徵進行融合,每一層級都融合了上一層級特徵,使得對應的圖像表現出有限帶寬的特徵。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

最終的深度可以由下面的公式計算得出,其中K代表不同尺度的特徵,對不同尺度特徵進行融合得到最終全分辨率的深度圖。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

這種思想十分類似傅里葉級數或小波的概念,將多個不同頻段針對不同尺度的部分組合起來構建起完整的信號。

實驗結果

實驗在KITTI Depth Completion,Virtual KITTI,Synthia以及NYU Depth v2上展開。首先驗證了LSF 方法的有效性,其中lsf-代表在預訓練模型上應用LSF 模塊,而lsf則在原有模型上對LSF 模塊進行了重新訓練。可以看到這種方法大幅度提升了模型的性能。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

同時通過迭代的方法證明了參數優化方法對噪聲數據的有效性,其中lsf2 代表了兩次迭代的結果,lsf2+ 代表了lsf2 魯棒性歸一化的結果。在0.05m的噪聲下,迭代優化的方法得到了較好的結果,同時所有的lsf方法都取得了實驗中最好的性能。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

下圖中可以清晰的看到本方法中對於細節的恢復性能超過了基於卷積迴歸的方法:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

對於多尺度細節的重建也可以看到相互融合提升的效果,隨著融合深度不斷加深得到的深度圖細節恢復也越來越好。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

如果想要了解更多理論推導細節和實驗結果,請參看論文

https://arxiv.org/pdf/1912.10336.pdf

ref:

https://www.grasp.upenn.edu/people/chao-qu

https://www.kumarrobotics.org/people/chao-qu/

https://www.cis.upenn.edu/~cjtaylor/RESEARCH/research.html

https://www.grasp.upenn.edu/people?field_person_type_tid%5B0%5D=21

https://github.com/wvangansbeke/Sparse-Depth-Completion

https://github.com/ShreyasSkandanS/DFuseNet

https://github.com/fangchangma/self-supervised-depth-completion

https://github.com/search?utf8=%E2%9C%93&q=Depth+Completion&type=

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋

將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務

專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群

專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括

機器智能、物聯網、自然人機交互、企業計算。

在近四年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节


分享到:


相關文章: