“血洗”人類的AI登上Nature,你輸明白了嗎?

AlphaStar最初從觀看人類玩耍中學習,接著它通過自我對抗來磨練各方面的技能。一兩個星期的培訓結束後,AlphaStar相當於玩了200年的《星際爭霸2》。

“血洗”人類的AI登上Nature,你輸明白了嗎?|賽先生

(圖源:sc2.blizzard.cn)


撰文 | 李薇達

今年年初,由谷歌旗下的前沿人工智能企業DeepMind所研發的最新人工智能系統AlphaStar以兩個5:0連續血洗《星際爭霸2》德國職業選手TLO和波蘭職業選手MaNa。在總共公開的11場對決中,人類僅在現場直播的一場表演賽中獲勝。

今天,DeepMind的研究人員在Nature上發表了題為“Grandmaster level in StarCraft II using multi-agent reinforcement learning”的論文,詳細介紹了這個把世界排名24和22的選手按在地上摩擦的系統是如何運作的。

“血洗”人類的AI登上Nature,你輸明白了嗎?|賽先生

AlphaStar和人類職業選手一樣華麗的操作。藍色為AlphaStar,紅色為人類職業選手。(圖源:sc2.blizzard.cn)

為何選擇《星際爭霸2》

長久以來,遊戲都被認為是評估人工智能策略性思維的一個理想載體。近幾年,AI已經掌握了一些超級複雜的遊戲,比如圍棋,《超級馬里奧》、《雷神之錘3競技場》,以及《DOTA2》。那麼這次AI挑戰的這款遊戲有何特別之處?

《星際爭霸2》(以下簡稱星際2)是一款發生在科幻世界裡的即時戰略類遊戲。通常情況下,玩家從三個種族(人族、蟲族、神族)中選擇一個和另一個玩家進行1V1。這三個種族都有不同的單位和建築以及不同的機制,在對戰時需要不同的策略。玩家從一個小基地和幾個工人單位開始,收集資源來建造更多的單位和建築,偵察對手,研究新技術。如果一個玩家失去了所有的建築,他就輸了。

星際2由於它的複雜性一直沒有受到AI的挑戰,而恰恰又因為它“足夠難”, DeepMind和星際2的遊戲公司暴雪於2016年達成合作協議,通過這款遊戲進行人工智能研究。

這款遊戲究竟有多複雜?

首先,遊戲理論方面,就像石頭剪刀布一樣,星際2沒有一個最佳致勝策略。因此,人工智能在培訓過程中需要不斷探索和拓展策略相關知識。

其次,因為戰爭迷霧的存在,星際2不像圍棋那樣可以讓玩家縱覽整個遊戲局面。關鍵信息被隱藏了, AI需要學會使用不完善的信息以及主動“偵查”來進行操作。

再次,遊戲大約需要1個小時才能完成。在此期間,玩家不斷採取行動來執行整體策略。初期採取的行動可能要到後期才會看到回報。在給定的時間內,人工智能需要通過大量的學習來做出長遠來看的最優選擇,而不僅僅侷限於採取能夠立即產生收益的行動。

另外,遊戲是實時的。回合制遊戲或者下棋都是對方完成一步玩家再進行下一步,而星際玩家必須隨著遊戲時間的推移不斷執行動作。

最後,星際2的操作空間比19X19格的圍棋要大得多得多。玩家可以從超過 300 種行為中做選擇。在此之上,遊戲中的行為是層級的,能夠進行調整、增強,有很多遊戲單位需要點擊屏幕控制。即使一個 84x84 的小屏幕,大概也存在 1 億種可能的行為。

以上這些挑戰在許多戰略遊戲中也有,但都不是星際2這樣的量級。所以為了完全掌握這個遊戲,DeepMind需要不同的策略。

“血洗”人類的AI登上Nature,你輸明白了嗎?|賽先生

比賽截圖(圖源:DeepMind)

AlphaStar是如何學習的

根據DeepMind的論文,AlphaStar結合使用了新的技術與通用方法:比如神經內網絡架構(neural network architectures)、模擬學習(imitation learning)、強化學習(reinforcement learning)和多智能體學習(multi-agent learning)等等。

總結起來就是:AlphaStar最初從觀看人類玩耍中學習,接著它通過自我對抗來磨練各方面的技能。

AlphaStar通過觀看玩家的遊戲重播創建最初的迭代。暴雪剛開始時挑選出十萬份匿名玩家的天梯比賽錄像,以此來作為AI模仿訓練的數據支撐。AI學習微觀策略(比如有效控制單位)和宏觀策略(比如搞經濟運營和長期目標)。有了這些知識,即便是最困難的情況下,它也可以在95%的時間裡擊敗遊戲中的電腦對手。

不過研究人員會告訴你,這些都是小兒科,真正的工作才剛剛開始。

“血洗”人類的AI登上Nature,你輸明白了嗎?|賽先生

簡單的實時迷你遊戲可以讓研究人員測試AI在特定任務上的性能(圖源:DeepMind)

因為星際2不可能僅用一種策略就取勝,所以AlphaStar被分成數百個版本,每一個版本都有一個稍微不同的任務或策略。一種可能不惜一切代價要獲得空中優勢;另一種可能專注於技術升級;還有一種則像藍軍滿廣志一樣,專門負責擊敗紅軍——那些已經成功的戰略版本。這就是DeepMind所稱的AlphaStar聯賽。

這其實是一個神經網絡訓練程序,不同版本的AlphaStar會在一週內不停地跟彼此打來打去。

這是現代機器學習的核心。DeepMind為這些AI設置成功的參數,比如“贏得比賽”。然後這些AI就會各自做出決定來實現目標。最後獲勝的AI繼續進行比賽。DeepMind還通過設置某些條件,比如只能用某種種族或某個單位,來使訓練更加深入。

最後DeepMind採用獲勝最多的版本的特徵。這個過程非常高效,因為AI 能夠連續快速進行多場比賽。一兩個星期的培訓結束後,AlphaStar相當於玩了200年的《星際爭霸2》。

“血洗”人類的AI登上Nature,你輸明白了嗎?|賽先生

DeepMind研究出了多款AlphaStar,這些AlphaStar最先通過研究上百萬份《星際爭霸2》玩家天梯錄像來學習,接著再通過一種“AlphaStar聯賽”的互相訓練方式來學習。(圖源:DeepMind)

AlphaStar會作弊嗎

很多玩家對電腦控制的對手會持懷疑態度。為了解除疑慮,DeepMind對一些大家關注的問題給出瞭解釋。

AlphaStar不是通過代碼,也不是像人類那樣通過移動“視角”來看這個遊戲世界。它看到的是一個放大的地圖,不過它也看不透被戰爭迷霧遮擋的部分。它看到的只有地圖上有單位的部分。

“血洗”人類的AI登上Nature,你輸明白了嗎?|賽先生

AlphaStar和MaNa的第二場比賽。從AlphaStar的角度來看遊戲:對神經網絡的原始觀察輸入,神經網絡的內部激活,agent考慮採取的一些的行動,例如點擊哪裡和建造什麼,以及預測的結果。(圖源:DeepMind)

人類每分鐘能執行的動作數量(APM,又稱“手速”)在生理上是有限的。為了公平起見,DeepMind限制了AlphaStar的“手速”:在每5秒的時間窗口中,AI最多隻能執行22個非重複操作。

AlphaStar也沒有超人的反應時間。DeepMind測試了它對事物的反應速度。從它觀察到發生了什麼,然後開始處理,到把它選擇的內容傳達給遊戲的時間接近350毫秒,其實比人還慢。

遊戲之外

雖然《星際爭霸》只是一個遊戲,但研究人員認為AlphaStar背後的技術可以用來解決許多問題:例如,它的神經網絡結構能夠根據不完全的信息來模擬非常長的可能動作序列——遊戲通常持續一個小時,動作數萬次。這可以用於天氣預測、氣候建模、語言理解等等。

另外, AlphaStar的一些訓練方法有助於研發安全可靠的AI。比如它創新的聯賽培訓流程有利於提高人工智能系統的安全性和魯棒性,特別是在能源等十分強調安全的領域。

“血洗”人類的AI登上Nature,你輸明白了嗎?|賽先生

(圖源:sc2.blizzard.cn)

DeepMind的研究人員表示,AlphaStar是第一個在《星際爭霸》中達到頂級(grandmaster)水平的AI,也是第一個在不降低遊戲難度的情況下,通過廣泛的職業電子競技達到人類玩家最高聯賽等級的AI。

今年7月,暴雪公司宣佈AlphaStar已匿名登陸歐服天梯。如果你想與這位大名鼎鼎的AlphaStar切磋一番,可前往歐服一戰,為人族挽回點尊嚴。

[1] https://www.nature.com/articles/s41586-019-1724-z

[2] https://liquipedia.net/starcraft2/2019_StarCraft_II_World_Championship_Series_Circuit/Standings

[3] http://sc2.blizzard.cn/articles/46042/78710

[4] https://deepmind.com/blog/article/alphastar-mastering-real-time-strategy-game-starcraft-ii

[5] https://deepmind.com/blog/announcements/deepmind-and-blizzard-open-starcraft-ii-ai-research-environment

[6] https://venturebeat.com/2019/01/24/alphastar-deepmind-beats-starcraft-pros/

https://news.blizzard.com/en-us/starcraft2/22933138/deepmind-research-on-ladder


分享到:


相關文章: