AR 走向普及的關鍵,視覺 SLAM 的挑戰與前景

天空上的無人機,地上的無人⻋,AR/VR的頭盔。這些看似不相關的事物,都用到了同一種技術—SLAM。

SLAM 全稱是 Simultaneous Localization and Mapping(同時定位與地圖構建),是機器人和計算機視覺領域的關鍵技術,可以在未知環境中確定自身方位並同時構建環境三維地圖,有著非常廣泛的應用場景,比如說增強現實、虛擬現實、機器人、自動駕駛等。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

SLAM 包括激光 SLAM、視覺 SLAM等。早在 2005 年的時候,激光 SLAM 就已經被研究得比較透徹,框架也已基本定型。

隨著計算機視覺的迅速發展,視覺 SLAM 因為無需預先佈置場景、適用範圍廣和硬件成本低廉等優點受到廣泛關注。顧名思義,視覺 SLAM 以視覺攝像頭為主,結合其他傳感器,比如手機上比較廉價的 IMU(慣性測量單元)、GPS 或深度攝像頭。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

10 月 25 日,2019 TIC PRO 科技創新大會在杭州召開,浙江大學教授、浙大-商湯三維視覺聯合實驗室副主任章國鋒帶來演講《視覺SLAM在AR領域的創新突破》,詳解視覺 SLAM 面臨的挑戰和解決方案。

(章國鋒演講視頻)

視覺 SLAM 的挑戰與解決方案

“經過幾十年的發展,視覺 SLAM 在理論上已經比較成熟,但是在實際產品應用中,往往會面臨兩方面的挑戰。”章國鋒說。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

一是關於精度和穩定性。實際場景中,難免會存在動態變化,而且很多區域沒有足夠的紋理,或有相似的重複紋理。這些都會導致匹配比較困難,從而導致優化計算不穩定。

二是實時性,在一些非常大尺度的場景下,甚至是城市級的場景下,SLAM的計算複雜度會非常高。要在一個低功耗的移動設備上做到實時計算,這個難度非常大的。

“為了解決這兩方面的挑戰,我們近幾年做了不少的研究工作。總結起來主要三方面:提升穩定性,提高計算效率以及通過雲-邊-端結合的方式來實現大規模場景的高精度定位與重建。”章國鋒說。

提升穩定性的主要思路是如何讓目標函數優化變得穩定。SLAM 計算其實就是一個目標函數的優化問題,因此優化方程的正確性和充分性就顯得非常重要。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

章國鋒解釋道:“我們儘可能去將錯誤的匹配剔除掉,然後引入額外的約束。比如,為相鄰幀之間增加運動的約束,引入場景的結構先驗,比如平面結構,另外可以採用多傳感器信息融合的方式增加約束提高求解的穩定性。”

要提高計算效率,一方面是採用分治求解,提高大場景的求解效率。另一方面通過增量式計算,充分利用上一次優化計算的結果,減少冗餘計算,從而大幅提高計算效率。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

“基於這些研究成果,我們和商湯科技聯合研發了SenseSLAM。”章國鋒說,“目前可以支持單目、雙目、RGB-D和IMU等多種傳感器組合,支持6DoF實時位姿恢復,精度與ARCore相當。”

AR 走向普及的关键,视觉 SLAM 的挑战与前景

為了實現大規模場景的高精度定位與重建,章國鋒團隊提出了雲-邊-端結合的方式。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

這種實現方式將預先重建好的高精度地圖存儲在雲端。需要用的時候,通過雲和邊強大的計算能力,結合預先存儲的高精度地圖數據,將雲或邊優化的結果和三維地圖信息反饋到移動端。

移動端接收到的信息,可以耦合到SLAM的優化裡面去,從而實現低功耗設備在大尺度甚至城市級的這樣場景下的高精定位,支撐起室內外定位導航和多人共享AR這樣一些應用。

高精度地圖是這種方法的基礎。在採集高精度三維地圖上,章國鋒團隊原來是用手機去拍,後來改用全景相機。

在接受 PingWest 品玩採訪時,章國鋒說:“手機拍攝效率不是很高,穩定性也不是非常好。我們後來改用全景相機去拍,效率非常高,也非常穩定,基本上只要拿著走一圈就行了。”

視覺 SLAM 應用於室內 AR 導航

傳統的定位導航方案是GPS,而且只適合於室外,精度通常只有10米級別。

室內一般較常採用的方案有WiFi、藍牙,通常定位精度也基本上只能到米級, 而且要預先去佈置設備,工程量比較大、成本比較高。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

相比而言,基於視覺的方案定位,精度可以達到分米甚至釐米級別,而且不需要額外佈置設備,成本相對比較低。

章國鋒說,“當然,視覺定位的挑戰還是比較大的,因為室內容易缺乏視覺特徵,環境改變要及時更新,而且計算量相對也比較大。”

基於視覺的定位與AR導航,主要分為三大模塊,分別是稀疏地圖重建、稠密地圖重建和視覺定位與跟蹤。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

稀疏地圖重建,首先從拍攝圖象序列或者視頻數據中抽取視覺特徵,並恢復三維結構。

“我們可以進一步重建出稠密三維幾何模型。這個模型可以用來處理碰撞檢測和遮擋等。”章國鋒說。

基於重建的高精度三維地圖,用戶可以基於手機拍攝一張或若干張照片,甚至視頻序列,跟地圖進行比對查詢,得到若干二維和三維點的對應,從而求解出對應的位姿, 再結合SLAM技術可以實現連續跟蹤和導航。

稀疏地圖構建,面臨著不少挑戰,比如場景可能存在大量的弱紋理區域,存在視覺歧義以及通過雲-邊-端結合的方式來實現大規模場景的高精度定位與重建。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

“我們可以通過拍攝全景視頻,將SLAM與 SfM(Structure from motion)結合,以及採用分而治之的求解策略,來提升求解效率和穩定性。”章國鋒解釋道。

稠密三維重建也面臨類似的問題,解決辦法是通過精準的稠密深度圖估計和融合,特別是結合多層次特徵的精準匹配,來提高重建的穩定性。對於大型場景,可通過外存處理技術,來實現可拓展的大規模稠密網格重建。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

基於視覺的定位與跟蹤,主要挑戰是如何在各種環境下保持高定位的成功率,特別是視點變化、光照、外觀變化帶來的影響,以及⻓距離、⻓時間的穩定跟蹤。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

“我們發現基於學習的視覺特徵可以提高定位的成功率,通過將基於高精地圖的重定位和SLAM做緊耦合,可以實現⻓距離的穩定跟蹤。”章國鋒說。

松耦合模式是直接使用雲端重定位的位姿,並沒有加入到SLAM的優化裡。而緊耦合是在定位初始化完成之後,頻繁地向雲端發送請求,把雲端相應的地圖信息數據跟移動端拍攝圖像提取的特徵點進行匹配,並把獲得的三維先驗約束加入到SLAM目標函數優化裡面去,從而能夠減少誤差。松耦合的誤差累積很明顯,緊耦合的精度明顯更高一些。

除了誤差累積的問題之外,松耦合也可以頻繁調用重定位,但它不是放在目標函數里面優化,如果頻繁調用,求解的位姿就會頻繁抖動。但緊耦合因為是通過把高精度地圖的三維先驗約束加入到SLAM的目標函數里面優化,所以它在抑制誤差累積的同時,也會保證恢復的位姿依舊很平滑。

AR 的未來

“我覺得AR未來會跟AI技術深度融合,藉助AI帶來的智能化,可以進一步提升AR應用的想象空間,融入到人們生活和工作的方方面面。 ”章國鋒說。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

AR場景的規模會越來越大,未來甚至會出現整個地球級的虛實融合。

一方面,需要對大規模的物理世界進行高效的三維數字化,然後提取出不同粒度的語義信息。如果物理世界發生了改變,需要對它重新進行數字化和及時的更新。

除了物理世界的三維數字化的重建之外,還需要對人的行為進行三維數字化,包括運動的行為、消費的行為,社交行為等等。

AR 走向普及的关键,视觉 SLAM 的挑战与前景

“5G很快就要到來,甚至要普及了。基於空間計算的AR應用,我相信也很快會流行起來。”在演講最後,章國鋒說道,“因為5G有著高帶寬和低時延,得益於快速高效的數字化重建和雲端高精度地圖與移動終端SLAM的緊耦合,我們未來可以做到⻓時間甚至城市級場景的精準定位。”

AR 走向普及的关键,视觉 SLAM 的挑战与前景


分享到:


相關文章: