視頻|進化策略讓AI開掛,玩遊戲不斷給自己續命

视频|进化策略让AI开挂,玩游戏不断给自己续命

這裡是,雷鋒字幕組編譯的Two minutes paper專欄,每週帶大家用碎片時間閱覽前沿技術,瞭解AI領域的最新研究成果。

翻譯 | 孫啟超 整理 | 凡江

视频|进化策略让AI开挂,玩游戏不断给自己续命

強化學習會通過在系統中選擇一系列的行為,把分數提到最高水平。我們可以將這類技術運用於訓練一種可以打爆各種各樣遊戲的人工智能,例如在 Q bert 遊戲中,人工智能每走一步,都要計算出合適的操作來控制這個橙色的光標,並在不碰到紫色敵人的情況下,點亮所有的立方體。

針對部分具有挑戰性的深度強化學習問題,比如雅達利遊戲,已經有研究表明,進化策略(Evolution Strategies)是強化學習的可行替代方案。本期論文所提出的進化策略,目標不僅是訓練一個代理 而是並行訓練所有代理,這種方法效率很高,就像大自然的進化那樣,優勝劣汰,表現最好的代理產生新的後代。

Open AI 最近的研究結果表明,比起深度強化學習的各種通用手段,自然進化策略也不失為一種好的替代手段。本期論文使用的進化策略證明了,即便是年代久遠的進化策略,最後的成績也非常喜人。

视频|进化策略让AI开挂,玩游戏不断给自己续命

更酷的是,在經過 5 個小時的訓練後,我們發現該算法不僅能掌控遊戲,還能通過很多有創造性的方式完勝 Q bert 中的機器人玩家。

當它下落犧牲自己來引誘紫點時,出了個小故障,令我們驚喜的是,當從這個位置下落的時候,它應該是丟一條命,但因為這是個 BUG,所以沒有死掉。

视频|进化策略让AI开挂,玩游戏不断给自己续命

厲害~ AI 給自己續命

還有一個非常酷的技術就是為了等待對手它會在那個位置來回跳,然後突然跳到另外一條路徑上。

它發現並利用了另一個很嚴重的 BUG,據我所知這個 BUG 以前從來沒有發生過,在完成第一階段後。它開始以一種看似隨機的方式在周圍跳躍。過了一會 我們看到遊戲並沒有進入下個階段,那些方格開始閃爍,人工智能可以想要多少分就拿多少分。

视频|进化策略让AI开挂,玩游戏不断给自己续命

分數蹭蹭往上漲

通過進化策略,AI 可以輕輕鬆鬆搞定諸如像雅達利這樣的遊戲,甚至還能發現 Bug,簡直是開了掛一般的存在。

視頻原址:https://www.youtube.com/watch?v=wm8tK91k37U&t=105s

論文原址:

https://arxiv.org/pdf/1802.08842.pdf

對了,我們招人了,瞭解一下?

视频|进化策略让AI开挂,玩游戏不断给自己续命

BAT資深算法工程師獨家研發課程

最貼近生活與工作的好玩實操項目

班級管理助學搭配專業的助教答疑

學以致用拿offer,學完即推薦就業

┏(^0^)┛歡迎分享,明天見!


分享到:


相關文章: