《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

昨天還剛說和瘋狂電腦55開的AlphaGo要和人類實戰還很遠,今天早上起來看新聞就被實力打臉了。

DeepMind開發的全新AI程序AlphaStar,在今天凌晨放出的《星際爭霸2》人機大戰節目視頻中,AlphaStar以10-1的戰績,擊潰了人類職業高手。這兩人是:MaNa,以及TLO。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

看來我還必須得喊出黃旭東那句:是我太淺薄!是我太狂妄了! T_T

在此給大家帶來鵝廠的分析,因為寫的很詳細了,我就直接轉了(比賽鏈接在文末):


人工智能在《星際爭霸2》上的進步速度,遠遠超過了此前外界的預期。畢竟與下圍棋這件事相比,星際2要難得多。

在圍棋世界,動作空間只有361種,而星際2大約是1026。

與圍棋不同,星際玩家面對的是不完美信息博弈。“戰爭迷霧”意味著玩家的規劃、決策、行動,要一段時間後才能看到結果。

這意味著,AI需要學到長遠的佈局謀篇的策略能力。

即便如此,AlphaStar最終還是學會了如何打星際2。即便此次黃旭東保持克制、誰也沒奶,但既定的事實已經無法更改。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

直播進行到一半,就有網友在他的微博下留言:比國足輸伊朗還慘。


為什麼AI這麼強?別的先不展開講,這裡只說一個點。其實在比賽之前,AlphaStar的訓練量,相當於打了200年實時對抗的星際2。

AlphaStar:10-1

實際上,今天的人機大戰主要內容並不是直播,而是回顧人機大戰的結果。簡單交待一下相關信息,比賽在Catalyst地圖上進行,這張地圖中文名叫“匯龍島”。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

圖上設置了很多隘口和高地,網友說,這張圖群龍盤踞,大戰一觸即發,官方稱“能創造出許多有意思的進攻路徑和防守陣形”。

遊戲版本是去年10月的4.6.2,雙方都使用神族(星靈)。

  • 第一場比賽,發生在去年12月12日。

AlphaStar對TLO。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

第一局人類選手TLO開局兩分鐘後就率先發難,不過AlphaStar扛下來,並且逐漸扭轉了戰局,迅速累積起資源優勢。

5分鐘左右,AlphaStar以追獵者為主要作戰單位,開始向TLO發起試探性的攻擊。並且在隨後的時間裡,持續對TLO展開騷擾,直至取勝。

DeepMind介紹,比賽中,實際上AlphaGo的APM比TLO要低。AlphaStar的APM中值是277,而TLO的APM中值是390。而大部分其他bot的APM,都高達幾千甚至數萬。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

前三局基本都是這樣。TLO說第四局就像換了個AI一樣,打法完全變了,很接近典型神族打法。

當然,他又輸了。這個感覺沒錯,其實他每次對陣的AI都不一樣……

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

最後的結果是0-5,TLO一局沒贏。不過他說:如果我多練練神族,我能輕易打敗這些AI。畢竟TLO這些年一直主要在練蟲族。

五局比賽打完,DeepMind團隊為了慶祝喝了點酒,產生了一個大膽的想法:

再訓練訓練,和玩神族的職業選手打一場。

於是,快到聖誕節的時候,他們請來了Liquid的神族選手MaNa。

  • 第二場比賽,發生在去年12月19日。

據說,MaNa五歲就開始打星際了。

在對戰MaNa之前,AlphaStar又訓練了一個星期。雙方展開較量之前,MaNa只知道TLO輸了,不知道是5-0,而且,明顯沒有TLO上次來那麼緊張。

面對神族最強10人之一,DeepMind認為比賽會很精彩,但對勝利沒什麼自信。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

雙方第一局對決,AlphaStar在地圖的左上角,MaNa在右下。4分鐘,AlphaStar派出一隊追獵者,開始進攻。基本上算是一波就推了MaNa。

正如開始所說,5分36秒,MaNa打出GG。

然後第二局也輸了。這時候MaNa緊張起來,第三局決心翻盤。7分30秒,AlphaStar出動了一支大軍打到MaNa家,MaNa GG。

最精彩的是第四局,MaNa的操作讓現場解說歎為觀止,他自己賽後也坦言”真是盡力了“。但最後,他的高科技軍團在一群追獵者的360度包圍下,全滅。MaNa打出了GG。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

而且,AlphaStar完成360度包圍這一高難度操作時,APM只有250左右。

第四局全程:

需要說明的是,其實在這局比賽中,AlphaStar的APM幾乎已經失控,幾度飆到1000多。量子位抓到了一些這樣的瞬間。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

MaNa說,輸了好失望,我能出的單位都出了,最後輸給了一群追獵者?他還說,AlphaStar的微操太厲害了。incredible。跟AI學東西,這種經歷挺好。

  • 人類扳回一城

今天的直播的最後,是現場的表演局(Exhibition game),直播MaNa對戰AlphaStar。

在這場比賽中,MaNa採用了一種更激進的打法,一開局就造了更多的農民(探機),這說不定是上個月剛剛跟AlphaStar學來的戰術。

12分鐘後,MaNa一路拆掉AlphaStar的各種建築,擊敗了無法打出GG的AlphaStar。

總算是幫人類挽回一些顏面。

另外DeepMind也放出了全部11局對決的視頻,有興趣可以前往這個地址查看:

https://deepmind.com/research/alphastar-resources/

之前的10局比賽,DeepMind還拍成了一個紀錄片。


解讀AlphaStar

DeepMind和暴雪週三發出預告後,熱情的網友們就已經把各種可能的技術方案猜了一遍。

現在答案揭曉:

AlphaStar學會打星際,全靠深度神經網絡,這個網絡從原始遊戲界面接收數據(輸入),然後輸出一系列指令,組成遊戲中的某一個動作。

再說得具體一些,神經網絡結構對星際裡的那些單位,應用一個Transformer,再結合一個深度LSTM核心,一個自動迴歸策略(在頭部),以及一個集中值基線(Centralised Value Baseline)。

DeepMind團隊相信,這個進化了的模型,可以為許多其他機器學習領域的難題帶來幫助:主要針對那些涉及長期序列建模、輸出空間很大的問題,比如語言建模和視覺表示。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

AlphaStar還用了一個新的多智能體學習算法。

這個神經網絡,經過了監督學習和強化學習的訓練。

最開始,訓練用的是監督學習,素材來自暴雪發佈的匿名人類玩家的遊戲實況。

這些資料可以讓AlphaStar通過模仿星際天梯選手的操作,來學習遊戲的宏觀和微觀策略。

最初的智能體,遊戲內置的精英級(Elite)AI就能擊敗,相當於人類的黃金段位(95%)。

而這個早期的智能體,就是強化學習的種子。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

在它的基礎之上,一個連續聯賽(Continuous League)被創建出來,相當於為智能體準備了一個競技場,裡面的智能體互為競爭對手,就好像人類在天梯上互相較量一樣:

從現有的智能體上造出新的分支,就會有越來越多的選手不斷加入比賽。新的智能體再從與對手的競爭中學習。

這種新的訓練形式,是把從前基於種群(Population-Based)的強化學習思路又深化了一些,製造出一種可以對巨大的策略空間進行持續探索的過程。

這個方法,在保證智能體在策略強大的對手面前表現優秀的同時,也不忘怎樣應對不那麼強大的早期對手。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

隨著智能體聯賽不斷進行,新智能體的出生,就會出現新的反擊策略(Counter Strategies),來應對早期的遊戲策略。

一部分新智能體執行的策略,只是早期策略稍稍改進後的版本;而另一部分智能體,可以探索出全新的策略,完全不同的建造順序,完全不同的單位組合,完全不同的微觀微操方法。

早期的聯賽裡,一些俗氣的策略很受歡迎,比如用光子炮和暗黑聖堂武士快速rush。

這些風險很高的策略,在訓練過程中就被逐漸拋棄了。同時,智能體會學到一些新策略;比如通過增加工人來增加經濟,或者犧牲兩個先知來來破壞對方的經濟。

這個過程就像人類選手,從星際爭霸誕生的那年起,不斷學到新的策略,摒棄舊的策略,直到如今。

除此之外,要鼓勵聯賽中智能體的多樣性,所以每個智能體都有不同的學習目標:比如一個智能體的目標應該設定成打擊哪些對手,比如該用哪些內部動機來影響一個智能體的偏好。

而且,智能體的學習目標會適應環境不斷改變。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

神經網絡給每一個智能體的權重,也是隨著強化學習過程不斷變化的。而不斷變化的權重,就是學習目標演化的依據。

權重更新的規則,是一個新的off-policy演員評論家強化學習算法,裡面包含了經驗重播(Experience Replay),自我模仿學習(Self-Imitation Learning)以及策略蒸餾(Policy Distillation)等等機制。

為了訓練AlphaStar,DeepMind用谷歌三代TPU搭建了一個高度可擴展的分佈式訓練環境,支持許多個智能體一起從幾千個星際2的並行實例中學習。每個智能體用了16個TPU。

智能體聯賽進行了14天,這相當於讓每一個智能體都經歷了連打200年遊戲的訓練時間。

最終的AlphaStar智能體,是聯賽中所有智能體的策略最有效的融合,並且只要一臺普通的臺式機,一塊普通的GPU就能跑。

  • AlphaStar打遊戲的時候,在看什麼、想什麼?
《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

上圖,就是DeepMind展示的AI打遊戲過程。

原始的觀察裡數據輸入到神經網絡之中,產生一些內部激活,這些激活會轉化成初步的決策:該做哪些操作、點擊什麼位置、在哪建造建築等等。另外,神經網絡還會預測各種操作會導致的結果。

AlphaStar看到的遊戲界面,和我們打遊戲時看到的小地圖差不多:一個小型完整地圖,能看到自己在地圖上的所有單位、以及敵方所有可見單位。

這和人類相比有一點點優勢。人類在打遊戲的時候,要明確地合理分配注意力,來決定到底要看哪一片區域。

不過,DeepMind對AlphaStar遊戲數據的分析顯示,它觀察地圖時也有類似於人類的注意力切換,會平均每分鐘切換30次左右關注的區域。

這,是12月打的10場遊戲的情況。

今天直播中和MaNa對戰的AI,就略有不同。

連勝之後,DeepMind團隊總會有大膽的想法冒出來——他們迭代了第二版AlphaStar,這一版和人類觀察地圖的方式是一樣的,也要不停選擇將視野切換到哪,只能看到屏幕上視野範圍內的信息,而且只能在這個範圍內操作。

視野切換版AlphaStar經過7天訓練,達到了和第一版差不多的水平。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

不過,這個版本的智能體原型還是在今天的直播中輸給了MaNa,成為了10-1裡的1。

DeepMind對他們的AI仍然充滿信心,他們在博客中說,這個智能體只訓練了7天,希望能在不久的將來,能測試一個完全訓練好了的視野版智能體。

現在,AlphaStar還只能玩神族。DeepMind說,他們為了在內部測試中減少訓練時間和變量,決定先只玩一個種族。

不過,這不代表它就學不會其他種族。同樣的訓練流程,換個種族還是一樣用。


星際界的樊麾和帶路黨

這次人機大戰背後,有很多人的努力,我們這次重點介紹三個人。

首先是AlphaStar的兩個人類對手。

TLO是一位德國職業星際2選手,原名Dario Wünsch,1990年7月13日出生。現在效力於職業遊戲戰隊Liquid。

之前TLO有個稱號:隨機天王。星際2的公測階段,他使用哪個種族都得心應手,不過後來,TLO開始逐漸專攻於蟲族。

根據官方公佈的數據,TLO在2018 WCS Circuit排名:44。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

國內關於TLO的資料,不少都是幾年前的對戰,現在TLO應該已經在自己職業生涯的末期,可以算是一位久經沙場的老將。

MaNa是一位出生于波蘭的職業星際2選手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力於Liquid。

與TLO相比,MaNa是一個正值當打之年的選手。

而且,他更擅長的是神族。儘管他打出GG的速度更快……

MaNa去年獲得WCS Austin的第二名。根據官方公佈的數據,他在2018 WCS Circuit排名:13。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

MaNa和TLO和AlphaStar的對戰,發生在去年12月。地點在倫敦,就是DeepMind的總部。這不禁讓人想起當年AlphaGo的故事。

AlphaGo名不見經傳時,也是悄悄把樊麾請到了倫敦,然後把樊麾殺得有點懷疑“棋”生。然後開始向全世界公佈突破性的進展。

TLO和MaNa,應該就是星際2界的樊麾了吧。

第三個是AlphaStar的教父:Oriol Vinyals。

他是DeepMind星際2項目的核心負責人。我們在此前的報道里介紹過他。1990年代,十幾歲的Oriol Vinyals成了西班牙《星際爭霸》全國冠軍。

他之所以玩這款科幻策略遊戲,是因為比其他打打殺殺的遊戲更需要動腦子。維紐斯說:“沒上大學之前,這款遊戲就讓我在生活中懷有更強的戰略思維。”

Vinyals的戰略思維的確獲得了回報:在巴塞羅那學習了電信工程和數學之後,維紐斯去過微軟研究院實習,獲得了加州大學伯克利的計算機博士學位,接著加入谷歌大腦團隊,開始從事人工智能開發工作,然後又轉入谷歌旗下DeepMind團隊。

他又跟“星際爭霸”打起了交道。

但這一次不是他親自玩,而是教給機器人怎麼玩。在人工智能成為全球最優秀的圍棋選手後,星際成為了下一個攻克目標。


AI打星際的意義

早在2003年人類就開始嘗試用AI解決即時戰略(RTS)遊戲問題。那時候AI還連圍棋問題還沒有解決,而RTS比圍棋還要複雜。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

直到2016年,“阿爾法狗”打敗了李世石。DeepMind在解決圍棋問題後,很快把目光轉向了《星際2》。

與國際象棋或圍棋不同,星際玩家面對的是“不完美信息博弈”。

在玩家做決策之前,圍棋棋盤上所有的信息都能直接看到。而遊戲中的“戰爭迷霧”卻讓你無法看到對方的操作、陰影中有哪些單位。

這意味著玩家的規劃、決策、行動,要一段時間後才能看到結果。這類問題在現實世界中具有重要意義。

為了獲勝,玩家必須在宏觀戰略和微觀操作之間取得平衡。

平衡短期和長期目標並適應意外情況的需要,對脆弱和缺乏靈活性的系統構成了巨大挑戰。

掌握這個問題需要在幾個AI研究挑戰中取得突破,包括:

  • 博弈論:星際爭霸沒有單一的最佳策略。因此,AI訓練過程需要不斷探索和拓展戰略知識的前沿。
  • 不完美信息:不像象棋或圍棋那樣,棋手什麼都看得到,關鍵信息對星際玩家來說是隱藏的,必須通過“偵察”來主動發現。
  • 長期規劃:像許多現實世界中的問題一樣,因果關係不是立竿見影的。遊戲可能需要一個小時才能結束,這意味著遊戲早期採取的行動可能在很長一段時間內都不會有回報。
  • 實時:不同於傳統的棋類遊戲,星際爭霸玩家必須隨著遊戲時間的推移不斷地執行動作。
  • 更大的操作空間:必須實時控制數百個不同的單元和建築物,從而形成可能的組合空間。此外,操作是分層的,可以修改和擴充。

為了進一步探索這些問題,DeepMind與暴雪2017年合作發佈了一套名為PySC2的開源工具,在此基礎上,結合工程和算法突破,才有了現在的AlphaStar。

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

下一步

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

今天AI搞定了《星際2》,DeepMind顯然不滿足於此,他們的下一步會是什麼?

哈薩比斯在賽後說,雖然星際爭霸“只是”一個非常複雜的遊戲,但他對AlphaStar背後的技術更感興趣。其中包含的超長序列的預測,未來可以用在天氣預測和氣候建模中。

他還透露將在期刊上發表經過同行評審的論文,詳細描述AlphaStar的技術細節。一起期待吧~

《星際爭霸2》職業選手真的敗了!AlphaSTAR的超級進化

比賽鏈接(最後一場是直播表演賽,Mana1:0戰勝AlphaStar)

https://www.bilibili.com/video/av41622564/?p=7


分享到:


相關文章: