06.03 機器人,給我來一瓶82年的農夫山泉

MIT計算機科學和人工智能實驗室(CSAIL)和多倫多大學的研究人員開發一個虛擬家園“VirtualHome” ,不僅讓虛擬機器人成功做家務,還創建了一個用自然語言描述的家庭任務數據庫,將來可能有助於亞馬遜的Alexa等系統執行更復雜的任務。

“機器人,給我來一瓶82年的農夫山泉。”

收到這個指令,機器人肯定一臉懵逼。

先不說82年的農夫山泉肯定找不到,更現實的問題是,即便是有一瓶現成的農夫山泉,機器人也需要人類更明確、程序化的指令才能完成這個任務,他們不能輕易推斷和推理。

MIT計算機科學和人工智能實驗室(CSAIL)和多倫多大學的研究人員受《模擬人生》(The Sims)啟發,開發一個虛擬家園“VirtualHome” ,不僅讓虛擬機器人成功地製作了咖啡、打開烤麵包機、在沙發上休息,研究人員還創建了一個用自然語言描述的家庭任務數據庫,將來可能有助於亞馬遜的Alexa等系統執行更復雜的任務。

VirtualHome:模擬家庭八個場景中的1000個交互

VirtualHome是一個3D環境,它允許模擬和生成活動的視頻,並將它們作為動作和交互的序列。

VirtualHome基於三個主要模塊:

家庭任務的知識庫,包含如何執行某些公共任務的指令;

VirtualHome環境,一個模擬和生成這些任務的視頻的3D模擬器,以及允許從描述或視頻演示生成程序的腳本生成模型

機器人,給我來一瓶82年的農夫山泉

團隊使用了近3000個不同活動的程序來訓練這個系統,這些活動被進一步細分為計算機的子任務來理解。這是因為機器人與人類不同,它們需要更明確的指令來完成簡單的任務,不能輕易地推斷和推理。

例如,一個人可能會告訴另外一個人:“打開電視,在沙發上看吧。”在這句話中,像諸如“拿遙控器”和“坐/躺在沙發上”這樣的動作被省略了,因為它們是人類常識的一部分。

為了更好地向機器人演示這類任務,需要更詳細地描述操作。

機器人,給我來一瓶82年的農夫山泉

僅看電視這個任務,就分了多個步驟

為此,研究團隊首先收集了家庭活動的口頭描述,然後將它們翻譯成簡單的代碼。像“打開電視,在沙發上看吧”這樣的指令可能包括以下步驟:

走到電視前,打開電視,走到沙發前,坐在沙發上,看電視。

機器人,給我來一瓶82年的農夫山泉

機器人,給我來一瓶82年的農夫山泉

一旦這些程序被創建,這個團隊將它們輸入到VirtualHome 3-D模擬器,然後將它們轉換成視頻,虛擬代理將執行程序定義的任務,無論這些任務是看電視、將鍋放在爐子上,還是打開和關閉烤麵包機。

該團隊的虛擬機器人可以在VirtualHome的世界中執行1000個這樣的交互,其中有八個不同的場景,包括客廳、廚房、餐廳、臥室和家庭辦公室。

程序的

獨特之處:包含了執行活動所需的所有步驟

來看一看是具體怎麼操作的。

團隊收集了一個專門針對機器人的家庭活動的大型知識庫,數據集包含活動以及程序的自然語言描述,以一系列步驟的形式表示活動的正式符號。這些程序的獨特之處在於它們包含了執行活動所需的所有步驟。

每個任務都有一個高級名稱和一個自然語言指令,然後團隊為這些任務收集“程序”(下圖左中),標註者(annotators)將指令“翻譯”為簡單的代碼。

機器人,給我來一瓶82年的農夫山泉

接著,團隊在VirtualHome-3D模擬器中執行最頻繁的(內部)操作,能夠驅動代理執行由程序定義的任務。團隊提出了從文本(上圖頂部)和視頻(上圖底部)自動生成程序的方法,從而通過語言和視頻演示驅動代理。

機器人,給我來一瓶82年的農夫山泉

上圖描述在VirtualHome中,代理根據描述執行生成的程序。注意,最上面的代理使用他的左手打開冰箱和抓取一個物品,因為他右手已經拿了一個物體。另外,代理還有一些限制,例如,在第三排,代理穿著衣服坐在馬桶上。此外,有時攜帶的物品會由於對撞機的不精確而輕微地穿透代理的身體。

未來:機器人可能擺脫製造商編寫的任務,從YouTube上也能學習

該項目由CSAIL和多倫多大學等高校的研究人員共同開發,將在本月在鹽湖城舉行的CVPR會議上present。

亞利桑那州立大學藝術媒體和工程系的研究助理Qiao Wang說:“這一工作將有助於未來真正的機器人個人助理,機器人都可以通過聆聽或觀察身邊的特定人員來學習任務,而不是製造商編寫的每項任務。這使得機器人可以以個性化的方式完成任務,甚至有一天可以通過這種個性化的學習過程調用情感聯繫。“

此外,研究的結果不僅僅是完成一個訓練機器人做家務的系統,它還是一個使用自然語言描述的家庭任務的大型數據庫。像亞馬遜這樣的公司正在努力在家裡開發類似Alexa的機器人系統,最終可以使用這些數據來訓練他們的模型來完成更復雜的任務。

未來,該團隊希望使用實際視頻來訓練機器人,而不是《模擬人生》這樣風格的模擬視頻,這將使機器人通過觀看YouTube視頻來學習

。該團隊還致力於實施獎勵學習系統,讓代理在正確執行任務時得到積極的反饋。


分享到:


相關文章: