英偉達「千人摩擦計劃」:幾千個智能體互相玩耍,學習跑酷更輕鬆

摩擦慄 發自 凹非寺 量子位 出品 | 公眾號 QbitAI

聽說,互相摩擦,有助於快速學習。

如果,模擬器裡只有一個強化學習智能體,它可能活得很自在。

英偉達“千人摩擦計劃”:幾千個智能體互相玩耍,學習跑酷更輕鬆

天大地大,虛擬機器人做個空翻、迴旋踢之類,都不是稀有的技能,只是需要艱苦訓練罷了。

那麼,要是讓幾千個人形智能體,一起在模擬器裡跑呢?

它們就會相互摩擦,親暱地扭打在一起,形成一幅不可開交的美妙圖景。

英偉達“千人摩擦計劃”:幾千個智能體互相玩耍,學習跑酷更輕鬆

這不是重點,關鍵是智能體在摩擦的過程中,學起技能來,會比孤獨的時候快很多

英偉達就想用這種方法來加速學習,於是開發了自己的物理模擬器。

在那裡,人類跑步的姿勢,智能體不用20分鐘便可解鎖。且只要一個CPU核心,不要成百上千。

相互摩擦,是最美的

英偉達開發的是一個GPU加速模擬器,支持千百隻人形智能體,在同一個世界愉快地互動。

並且,只要一個Tesla V100 GPU,加上一個CPU核,就夠了。

英偉達“千人摩擦計劃”:幾千個智能體互相玩耍,學習跑酷更輕鬆

為了智能體更好地學習人類技能,團隊為四種技能設定了Benchmark,由易而難:

一是,只用兩條腿、但是像螞蟻那樣跑步 (不是說好的人類技能啊) :

英偉達“千人摩擦計劃”:幾千個智能體互相玩耍,學習跑酷更輕鬆

二是,依然用兩條腿、但像人類那樣跑步:

英偉達“千人摩擦計劃”:幾千個智能體互相玩耍,學習跑酷更輕鬆

三是障礙跑,遇到球球會站不穩,重點是重新找到平衡,不要摔倒:

英偉達“千人摩擦計劃”:幾千個智能體互相玩耍,學習跑酷更輕鬆

四也是障礙跑,不過地形複雜,還是要在站不穩的時候努力保持平衡:

英偉達“千人摩擦計劃”:幾千個智能體互相玩耍,學習跑酷更輕鬆

在複雜地形下訓練過的智能體,會擁有隨機應變的能力。

即便是在從未見過的環境裡,從超過一人高的平臺跳下也能迅速站穩,繼續奔跑。

英偉達“千人摩擦計劃”:幾千個智能體互相玩耍,學習跑酷更輕鬆

放進現實裡,大概就是這個樣子:

英偉達“千人摩擦計劃”:幾千個智能體互相玩耍,學習跑酷更輕鬆

一個頂一千個?

現在,來和前輩們對比一下時間硬件成本:

英偉達“千人摩擦計劃”:幾千個智能體互相玩耍,學習跑酷更輕鬆

一個CPU核心,抵得上一千個?

是有了GPU加持之後,模擬器

每秒可以生成6萬幀,幀時間 (Frame Time) 能降到0.02毫秒以下。也就是說,幀延遲小到幾乎可以忽略。

那麼,就算智能體的數量從5個增加到5,000個,也不會有什麼壓力。

由此,即便只用一個CPU核心,學習效率也可以得到保障。

英偉達“千人摩擦計劃”:幾千個智能體互相玩耍,學習跑酷更輕鬆

這項研究,是在英偉達的物理引擎

FleX裡面完成的。

很快,團隊就要在CoRL 2018大會上,介紹研究成果了。

在那之前,大家可以欣賞一下論文:

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

https://arxiv.org/pdf/1810.05762.pdf

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: