谷歌提出Sim2Real:讓機器人像人類一樣觀察世界

由視覺輸入控制的機器人非常依賴於固定視角的攝像頭,這意味著它們難以在活動的情況下精確完成任務。近日,谷歌研究人員提出了一種結合卷積神經網絡和 LSTM 的新架構,可通過強化學習等方法在接收多個攝像頭、不同視角圖像輸入的情況下控制機械臂準確完成任務。研究人員稱,新方法可以擴展到任何類型的自動自校準任務上。

人們非常擅長在不將視點調整到某一固定或特殊位置的情況下操縱物體。這種能力(我們稱之為「視覺動作整合」)在孩童時期通過在多種情形中操縱物體而習得,並由一種利用豐富的感官信號和視覺作為反饋的自適應糾錯機制控制。然而,在機器人學中,基於視覺的控制器很難獲得這種能力,目前來看,這種控制器都基於一種用來從固定安裝的攝像頭讀取視覺輸入數據的固定裝置。在視點大幅變化的情況下快速獲取視覺運動控制技能的能力將對自動機器人系統產生重大影響——例如,這種能力對於參與救援工作或在災區作業的機器人來說尤其必要。

在本週的 CVPR 2018 會議中,谷歌提交了一篇名為《Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control》的論文。在這篇論文中,谷歌研究了一種新的深度網絡架構(包含兩個全卷積網絡和一個長短期記憶單元),該架構從過去的動作和觀測結果中學習自我校準。其視覺適應網絡(visually-adaptive network)利用由演示軌跡和強化學習目標組成的各種模擬數據,能夠從各種視點控制機械臂到達視覺指示的各種目標,並且獨立於攝像機校準。

谷歌提出Sim2Real:讓機器人像人類一樣觀察世界

用物理機械臂實現視覺指示目標的視點不變操作。新方法學習了一種單一策略,通過從截然不同的攝像機視點捕獲的感官輸入來到達不同的目標。第一行顯示了視覺指示的目標。

挑戰

從未知視點捕獲的單一圖像中探索可控自由度(DoF)如何影響視覺運動可能不夠明確和具體。確定動作對圖像-空間運動的影響併成功地執行預期任務需要一個對過去動作記憶的保持能力進行增強的魯棒感知系統。要解決這個具有挑戰性的問題,必須解決以下基本問題:

  • 如何提供適當的經驗,讓機器人在模擬終身學習模式的純視覺觀察的基礎上學習自適應行為?
  • 如何設計一個將魯棒感知和自適應控制整合起來並能快速遷移到未見環境中的模型?

為了解決以上問題,研究人員設計了一種新的操縱任務,給一個七自由度機械臂提供一個物體的圖像,並命令它在一系列干擾物中拿到特定的目標物體,同時每一次嘗試的視點會發生劇烈變化。採用這種做法,研究人員能夠模擬複雜行為的學習以及向未知環境的遷移。

谷歌提出Sim2Real:讓機器人像人類一樣觀察世界

用物理機械臂和各種攝像機視點完成到達視覺指示目標的任務。

利用模擬來學習複雜行為

收集機器人經驗數據費時費力。在過去的一篇博文(https://ai.googleblog.com/2016/03/deep-learning-for-robots-learning-from.html)中,谷歌展示瞭如何通過將數據收集和試驗分配給多個機器人來擴展學習技能。儘管該方法加快了學習進度,但它仍然不適合擴展到複雜行為的學習中(如視覺自校準),後者需要將機器人置於一個包含各種視點的大型空間中。因此,研究人員選擇在模擬環境中學習此類複雜行為,在模擬中可以收集無限的機器人試驗數據,並輕鬆將攝像頭移動到各個隨機視點。除了在模擬中快速收集數據之外,該方法還可以突破需要在機器人周圍安裝多個攝像機的硬件限制。

谷歌提出Sim2Real:讓機器人像人類一樣觀察世界

谷歌研究人員在模擬環境中使用域隨機化技術來學習可泛化的策略。

為了學習足以遷移到未知環境的視覺魯棒特徵,研究人員使用了 Sadeghi 與 Levine 在 2017 年提出的域隨機化技術(即模擬隨機化),它可令機器人完全在模擬環境中學習基於視覺的策略,並可以推廣到現實世界。該技術在諸如室內導航、物體定位、拾取和放置等多種機器人任務上效果良好。此外,為了學習像自校準這樣的複雜行為,研究人員利用模擬能力生成合成示例,並結合強化學習目標來學習魯棒的機械臂控制器。

谷歌提出Sim2Real:讓機器人像人類一樣觀察世界

使用模擬的 7 自由度機械臂實現視覺指示目標的視點不變操作。新方法學習了一種單一策略,可以通過不同相機視角捕捉的感官輸入實現不同的目標。

在控制中解構感知

為了更快地將知識遷移到未知環境中,谷歌研究人員設計了一個深度神經網絡,將感知和控制相結合,並同時進行端到端訓練,且在必要情況下允許二者分別進行訓練。感知與控制之間的分離使遷移到未知環境的難度減小,也讓模型更加靈活和高效,因為每個部分(即「感知」和「控制」)都可以單獨適應僅有少量數據的新環境。另外,雖然神經網絡中的控制部分完全由模擬數據進行訓練,但感知部分經過物體邊界框收集的少量靜態圖像補充了輸入,無需讓物理機器人收集完整的動作序列軌跡。在實踐中,谷歌研究人員只用了來自 22 張圖像的 76 個對象邊界框來微調網絡的感知部分。

谷歌提出Sim2Real:讓機器人像人類一樣觀察世界

真實世界的機器人和移動攝像頭設置。第一行展示了場景佈置,第二行顯示了機器人接收到的視覺感官輸入。

早期結果

谷歌研究人員在物理機器人和真實物體上測試了視覺適應版本的網絡,這些物體的外形與模擬環境中使用的完全不同。在實驗中,桌子上會出現一個或兩個物體:「見過的物體」(如下圖所示)用於視覺適應,實驗中使用的是小型靜態真實圖像集。在視覺適應期間不會看到「未見過的物體」。在測試中,機械臂被引導從各個視點到達視覺指示目標物體。對於雙對象實驗,第二個對象用於讓機械臂產生「混淆」。因為純模擬網絡具有良好的泛化能力(因為它是在域隨機技術之上進行訓練的),模型的網絡架構非常靈活,因此雖然實驗中僅收集了非常少量的真實靜態視覺數據用於視覺適應,但控制器的表現仍然有了很大提升。

谷歌提出Sim2Real:讓機器人像人類一樣觀察世界

在視覺特徵和少量真實圖像進行適應之後,模型性能提高了 10% 以上。其中所有用到的真實物體都與模擬中看到的截然不同。

谷歌研究人員認為,學習在線視覺自適應是一個重要而具有挑戰性的問題,這一方向的目標是學習到可在多樣化和非結構化的現實世界中運行的機器人所需要的通用化策略。新方法可以擴展到任何類型的自動自我校準上。


分享到:


相關文章: