05.23 一看就會!英偉達新研究教機器人僅通過觀察人類行為完成任務

一看就會!英偉達新研究教機器人僅通過觀察人類行為完成任務


新智元編譯

來源:news.developer.nvidia.com

翻譯:肖琴

【新智元導讀】NVIDIA的研究人員開發了第一個可以教機器人僅通過觀察人類的行為來完成任務的深度學習系統。該方法利用合成數據來訓練神經網絡,是第一次在機器人上使用以圖像為中心的域隨機化方法。

論文地址:https://arxiv.org/abs/1805.07054

一看就會!英偉達新研究教機器人僅通過觀察人類行為完成任務

來自NVIDIA的研究人員開發了一個基於深度學習的系統,該系統可以教機器人僅通過觀察人類的行為來完成任務。該方法旨在加強人與機器人之間的交流,同時進一步研究如何使人類無縫地與機器人一起工作。這是第一個這樣的系統,研究由Stan Birchfield和Jonathan Tremblay領導。

“要想讓機器人在現實世界中執行有用的任務,必須要能很容易地將任務傳達給機器人。這包括預期的結果以及任何關於達到該結果的最佳方法的提示。”研究人員在他們的研究報告中指出。“通過演示,用戶可以將任務傳達給機器人,並向機器人提供如何以最佳的方式執行任務的線索。”

研究人員使用NVIDIA TITAN X GPU訓練了一系列神經網絡來執行與感知、程序生成和程序執行相關的任務。結果顯示,機器人能夠通過觀察現實世界的單個演示來學習任務

一看就會!英偉達新研究教機器人僅通過觀察人類行為完成任務

該方法的工作方式:一個攝像機被用來捕獲場景的實時視頻流,並且通過兩個神經網絡實時地對場景中對象的位置和關係進行推斷。由此產生的知覺被輸入到另一個網絡中,該網絡生成一個解釋如何重建這些感知的計劃。 最後,一個執行網絡讀取該計劃併為機器人生成動作,同時考慮到當前場景的狀態,以確保對外部干擾的穩健性。

一旦機器人得到一個任務,它就會生成一個人類可讀取的關於重新執行該任務所需步驟的描述。該描述讓用戶能夠在機器人執行之前快速識別和糾正機器人對人類演示的解釋中的問題。

實現這種能力的關鍵是利用合成數據來訓練神經網絡。目前訓練神經網絡的方法需要大量有標記的訓練數據,這對這類系統來說是一個瓶頸。通過合成數據生成,不用太費力就可以生成幾乎無限的標記訓練數據。

這也是第一次在機器人上使用以圖像為中心的域隨機化方法。域隨機化(domain randomization)是一種產生大量多樣性的合成數據的技術,然後愚弄感知網絡將真實世界的數據看作是其訓練數據的另一種變體。研究人員選擇以圖像為中心的方式處理數據,以確保網絡不依賴於攝像機或環境。

研究人員說:“如描述所示,這個感知網絡適用於任何固態的現實世界物體,這些物體可以通過其3D邊界立方體(bounding cuboid)來模擬。”“儘管訓練過程中從未觀察到真實的圖像,但感知網絡能夠在真實圖像中可靠地檢測到物體的bounding cuboid,即使在有嚴重的遮擋的情況下也是如此。”

在他們的演示中,研究團隊用幾個彩色積木和一輛玩具汽車訓練目標檢測器。系統被教授“塊”(blocks)的物理關係,不管這些“塊”是堆疊在一起還是彼此相鄰放置。

在上面的演示視頻中,人類操作員向機器人展示了一組立方塊。系統然後推斷一個適當的程序並按正確的順序將立方塊正確地放置好。因為它在執行過程中會考慮當前世界的狀態,因此係統能夠實時地從錯誤中恢復過來。

研究人員將在本週於澳大利亞布里斯班舉行的機器人與自動化國際會議(ICRA)上發表他們的研究論文和工作。

該團隊表示,他們將繼續探索使用合成訓練數據進行機器人操縱,以將他們的方法擴展到其他場景。

論文地址:https://arxiv.org/abs/1805.07054


分享到:


相關文章: