07.16 斯坦福AI實驗室CVPR成果:機器人導航平臺Gibson Env,1:1模擬真實環境

雷鋒網 AI 科技評論按:本文作者為夏斐和何志揚,首發於公眾號“ 心有麟熙”,AI科技評論獲授權轉載,並做了不改動原意的修改。

很高興給大家介紹我們入選 CVPR2018 年的項目 Gibson Environment。這是一個主要適用於機器人導航任務的模擬平臺。我們在傳統的圖形學渲染管線基礎上進行了創新,使用神經網絡作為渲染引擎 (neural network rendering engine),達到了近乎真實環境的渲染效果。通過和物理引擎的融合,我們可以做到在計算機裡1:1地模擬真實環境:

效果圖:我們動態地模擬了斯坦福計算機系 (Gates Building) 一樓的真實場景,讓虛擬機器人可以在其中進行探索,學習真實世界。我們在Gibson Environment裡可以同時“激活”大量類似的機器人。喜歡電影黑客帝國的讀者可能對這個概念並不陌生。

通過Gibson Environment,我們可以把真實的場景 (例如家庭住宅,學校,辦公室) 虛擬化,以節約大量在真實環境訓練機器人的資源。另一方面,我們可以把虛擬環境中訓練出來的機器人部署到真實環境。這為實現真實的強化學習提供了有力的基礎。目前Gibson Environment已經完全開源,正在Beta測試階段。有興趣的讀者可以在項目網站上使用我們的源代碼。

斯坦福AI实验室CVPR成果:机器人导航平台Gibson Env,1:1模拟真实环境

項目網址:http://gibson.vision

論文:http://gibson.vision/Gibson_CVPR2018.pdf

Github地址:https://github.com/StanfordVL/GibsonEnv

視頻介紹:https://www.youtube.com/watch?v=KdxuZjemyjc

一、背景

2016年起,伴隨深度強化學習的興起,計算機視覺領域的研究重心從靜態圖片開始轉向動態的控制。大量的仿真模擬平臺湧現而出 (例如虛擬駕駛平臺Carla, 虛擬無人機平臺Airsim)。

傳統機器人領域傾向於將一個複雜的任務分成感知 (perception) 模塊和決策(planning) 模塊,而強化學習讓我們可以端到端地學習到更復雜的控制 (end to end control/sensorimotor control),即輸入為傳感器信息,直接輸出控制信號。

目前最前沿的強化學習算法已經在很多端到端任務上獲得了的成功,例如在遊戲中學會解迷宮,在不平的路面上學會行走。在自動駕駛中,從攝像頭拍到的畫面,我們可以直接預測方向盤的轉角和油門剎車。

斯坦福AI实验室CVPR成果:机器人导航平台Gibson Env,1:1模拟真实环境

這樣的任務無法在靜態的數據集(例如 ImageNet)中學習。我們需要在一個可交互式的動態環境種訓練智能體。

斯坦福AI实验室CVPR成果:机器人导航平台Gibson Env,1:1模拟真实环境

這張圖涵蓋了目前主流的模擬環境,包括遊戲類的毀滅戰士(VIZdoom),俠盜獵車(GTA),駕駛類的CARLA,物理類的Roboschool。之前提到的解迷宮、行走智能體就出自這些環境。有了這些成果,我們能不能將智能體運用於實際生活中,解決駕駛、機器人行走的問題呢?

事實告訴我們,部署到實際中的智能體往往會因為觀測到的像素不同而導致結果不理想,甚至失靈。

例如在俠盜獵車手中訓練的自動駕駛汽車到了真實世界中,看到從沒有見過的場景,會不幸成為馬路殺手。

針對這個問題,我們設計了Gibson Environment,以解決模擬平臺不夠真實(photorealisitic) 的問題。目前大部分的模擬平臺都是基於計算機圖形學的方法(例如 THOR, House3D, Carla),而使用這種方法通常很難遷移到真實環境。在我們的工作中,我們使用基於圖片的渲染 (IBR) 方法,接合神經網絡,達到了高效和真實的渲染。

Gibson Environment的名字來源於美國認知心理學之父James J. Gibson。他提出認知 (perception) 和 行動 (action) 具有非常緊密的聯繫,嬰兒需要通過主動玩耍才能學會識別各種物品。對於人工智能也是一樣。Gibson Environment的科研價值在於它正是這樣一個環境,讓智能體可以同時學習認知和行動。

二、方法

為了能渲染出看起來更加真實的畫面,計算機圖形學領域主要有兩條主要的技術線路,一種是通過更仔細的建模和更好的光線追蹤算法來實現渲染。這種方法在電影製作中十分常見,通常需要消耗大量的計算資源和資金,不適合用於實時 (real time) 的模擬環境。

另一種方法是直接從真實環境中採集圖片,把渲染的問題定義為“視角合成”問題,即給定幾個從已有的視角採集的圖片,合成一個新的視角。

我們採用了這種方法作為我們的渲染方法,這個方法的示意圖如下:

斯坦福AI实验室CVPR成果:机器人导航平台Gibson Env,1:1模拟真实环境

方法的輸入是環境的3D模型(比較粗糙)和一系列視角採集到的圖片。對於要渲染的任意一個視點,我們選取周圍的k個視點,將每個視點的每個像素投射到3D模型上,得到一個三維點雲。之後,我們對3D點雲進行簡單的雙線性插值,得到一個初步的渲染結果。

不同於常見3D模型材質渲染的方法,我們對於不同的視點選取材質的方法是自適應的(更近的視點採樣更多)。在此之上為了還原更多微細節(例如植物,無法被實景掃描捕捉),我們使用一個卷積神經網絡對渲染進行後處理。具體技術細節可以參考原論文。

我們項目的另一個創新是把像素級別域遷移 (pixel level domain adaptation) 的機制嵌入到渲染引擎當中。我們的後處理網絡 f 可以讓渲染看起來像真實世界中的照片,與此同時我們還訓練了另外一個網絡 u,讓真實世界中的圖片看上去像我們的渲染。

這樣做簡化了機器人在真實世界的部署:只需要在機器人的傳感器上接入我們的網絡,就像給機器人戴上了一副虛擬的“眼鏡” (goggles) 。

斯坦福AI实验室CVPR成果:机器人导航平台Gibson Env,1:1模拟真实环境

三、數據集

近年來隨著實景掃描技術的進步,有大量的樓房,住宅,真實場所被掃描並保存成了虛擬檔案。最初,這樣的檔案主要被應用於房地產網絡銷售。

斯坦福AI实验室CVPR成果:机器人导航平台Gibson Env,1:1模拟真实环境

斯坦福視覺實驗室(Stanford Vision Lab)是最早將這樣的數據應用於科研的實驗室。在 Stanford 2D3DS (鏈接:http://buildingparser.stanford.edu/dataset.html) 項目中,研究院將斯坦福大學6棟主要建築進行了掃描,並取得了一系列突破。在此之後,被應用於科研的實景掃描數據量呈指數式增長。

Gibson Environment可以模擬任何被掃描過的真實環境,這是它的一個巨大優點。你完全可以掃描自己的房子,然後用Gibson Environment為之生成一個虛擬的環境,訓練你的掃地機器人。

在我們CVPR18的論文中,我們收集並開源了572個建築物(1440層)的掃描。作為現有最大的數據集,我們比同類數據集(例如matterport3D)大一個數量級。

目前我們已經在https://github.com/StanfordVL/GibsonEnv發佈了一小部分數據集作為環境Beta測試的一部分,主要的數據集將會在近期發佈。

四、討論

在文中,我們對我們的渲染做了各種測試,包括速度,和真實圖像的差距,以及域遷移能否成功實現等,有興趣的讀者可以參考我們的文章。不過由於時間的限制,在CVPR的文章裡我們並沒有在機器人上做實驗,近期我們正在進行這些實驗,包括語義導航、語義建圖、目標驅動的三維重建等任務。

五、ROS Demo

由於面向的是機器人的應用,我們集成了Gibson模擬環境和機器人操作系統,ROS的用戶可以方便地使用Gibson Env作為模擬器,來模擬攝像頭或者kinect輸入。下圖是用Gibson模擬器模擬機器人建圖 (mapping) 的一個簡單的demo。

斯坦福AI实验室CVPR成果:机器人导航平台Gibson Env,1:1模拟真实环境


分享到:


相關文章: