中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

魚羊 乾明 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

一位程序員小哥,正在Facebook食堂愉快地準備喝咖啡。

突然,就被水淹了。

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

而另一位正好好坐著玩手機的同學,則猝不及防地遭遇了屋頂漏雪事件。

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

不過幾秒鐘的時間,不僅頭髮上覆上了一層雪,腳面都被積雪埋住了。

遭遇“靈異事件”的還有一隻無辜的小貓咪。

它本乖乖坐在小桌板上專心賣萌,房間卻突然暗了下來,還有奇怪的小光球開始繞著它轉圈圈!

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

當事貓表示:當時我心裡害怕極了。

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

看著受害貓驚(dan)慌(ding)的表情,兼此事件一時引得物議沸騰:

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

我們決定:走進科學。

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

而當我們剝開事實的真相,發現,這一切事件的“始作俑者”竟是——

來自華盛頓大學和Facebook的最新單目深度估計算法,已中SIGGRAPH 2020,將於下週在GitHub上開源。

單目視頻深度估計

算法的核心思路,是結合單圖像深度估計網絡和傳統的結構-運動重建法,使網絡學會為指定視頻生成幾何一致的深度。

該方法整體設計架構如下。

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

輸入單目視頻,對一對相機位置不同的幀進行採樣,然後,用預先訓練好的單圖像深度估計模型估計深度,得到初始深度圖。

對這對圖像,使用光流法前後向一致性檢查建立對應關係。

接著,利用這些對應關係和相機位置提取三維幾何約束。

將三維幾何約束分解為兩個損失:

  • 空間損失
  • 視差損失

通過標準反向傳播,用這兩個損失對深度估計網絡的權重進行微調,以最小化多幀幾何不一致性誤差。

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

如此,只需要對視頻中任意幀進行配對採樣,就可以將這一過程擴展到整個視頻,對單目視頻中的所有像素進行幾何一致的深度重建。

在研究人員的實驗中,對於一個244幀的視頻,用4個英偉達Tesla M40 GPU訓練下來需要40分鐘。

超過此前SOTA,各個數據集上表現穩定

在評估深度重構方法方面,已經有了很多數據集。

但論文作者認為,這些數據集或多或少存在一些問題——要麼是合成的,要麼是針對自動駕駛等特定領域的,要麼是針對單幅圖像或靜態場景的視頻的,並不能完美地評估他們方法有效性。

於是他們用手持攝像機做了一個自定義3D數據集,來進行評估。數據集由靜態和物體運動量很小的動態場景組成,視頻的分辨率為1920x1440像素,長度從119幀到359幀不等。

對比的對象是此前最先進的深度估計模型:傳統的多視角立體視覺系統COLMAP、單圖像深度估計模型Mannequin Challenge和MiDaS-v2、基於視頻的深度估計模型WSVD(兩幀)和 NeuralRGBD(多幀)。

評估的指標一共有三個,覆蓋模型的“測光誤差”(Es)、“(不)穩定性”(Ed)、“漂移程度”(Ep),都是反向指標,數值越小,證明模型效果更好。

從下圖中可以看出,無論是靜態場景還是動態場景,論文中提出的深度估計算法,在各個指標上都是最優。

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

從直觀的結果中也能夠看出效果的差異:

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

不僅精度和幾何一致性更高,視覺效果也更加穩定。

此外,為了評估的完整性與公平性,他們還在三個公開數據集上,與這些模型進行了定量比較,分別是:TUM數據集、ScanNet數據集和KITTI 2015數據集。

下表展示的是ScanNet數據集上結果,論文中提出的方法雖然不是最優,但與最優算法的差距並不算大。

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

來自中國女學霸,本科畢業於上海交大

這一研究成果來自華盛頓大學、Facebook等研究機構,一共有5名學者參與。

一作名為羅璇,是華盛頓大學在讀博士,2015年畢業於上海交大ACM班,是戴文淵等大神的直系學妹。

中國女博士的「水淹食堂」大法:單目視頻重建3D場景,毫無違和感

本科畢業之後,先後拿到加州伯克利大學、華盛頓大學等高校Offer,為了追求“虛擬視覺”而選擇了華盛頓大學,這也是她從高中就開始關注的領域。

去華盛頓大學讀博之後,她先後在迪士尼、谷歌等知名企業實習,當前的這一研究成果,是她在Facebook實習期間的研究成果。

第二作者是Jia-Bin Huang,弗吉尼亞理工學院助理教授,本科畢業於臺灣國立交通大學。論文的其他三位作者, 都來自Facebook,分別是Richard Szeliski、Kevin Matzen、Johannes Kopf。

關於這一研究,他們在結論部分提到了不足之處——比較依賴此前的研究成果,比如用COLMAP估計單目視頻中攝像機的姿態,依賴FlowNet2建立幾何約束等等。

這些方法的不足,也直接影響到了羅璇等人的研究。

另一個值得改進的地方在於,它不支持在線處理,訓練244幀的視頻需要約40分鐘,如果想要實際的生活中,還需要進一步優化。

但從廣大網友的山呼海嘯般的反響中,也能夠看到算法一旦實現,用戶是肯定有的~

你期待嗎?

傳送門

論文地址:

https://arxiv.org/abs/2004.15021

項目地址:

https://roxanneluo.github.io/Consistent-Video-Depth-Estimation/

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態


分享到:


相關文章: