騰訊王者榮耀AI論文首次曝光:五AI王者局開黑與人類戰隊打成平手

王者峽谷可能馬上要被AI支配了!

騰訊剛剛發佈的一篇論文顯示,王者榮耀AI在不聲不響間,又掌握了新的技能:組團開黑。而且戰績不俗。

5個各自獨立的王者榮耀AI學會開黑技能後,5v5對陣《王者榮耀》王者段位人類玩家,大戰250局,一舉拿下48%的勝率,幾乎可算戰成平手。

不得了。

上個月,王者榮耀體驗服開啟了困難等級的人機練習模式測試,據說機器人只有鉑金段位的水平,然而已經讓一票大牛覺得不好打。

現在王者段位水準的AI已經出現了,就問你怕了沒。

王者榮耀AI難在哪裡

騰訊去年就隱隱約約的透露在搞王者榮耀AI。

有時說得“明目張膽”,有時又顯得有點“遮遮掩掩”。去年,騰訊高管就曾透露下圍棋的絕藝,正在嘗試學打王者榮耀。

在最新披露的論文裡,騰訊表示雖然AlphaGo已經是AI里程碑,但下圍棋與現實世界相比,仍然是一個非常簡單的問題。

更復雜的問題是實時戰略(RTS)遊戲,而其中最受歡迎的分支是MOBA遊戲,包括Dota、英雄聯盟以及王者榮耀等等。

騰訊王者榮耀AI論文首次曝光:五AI王者局開黑與人類戰隊打成平手

一局王者榮耀平均時長20分鐘,大約相當於2萬幀。

圍棋一局通常不超過361手。

在每一幀畫面中,玩家需要在數十個選項中作出決定,包括有24個方向的移動鍵,以及一些技能鍵,有的技能鍵還有方向。及時經過大幅簡化和離散化,以及把響應時間增加到200ms,動作空間的數量級仍有101500。

而圍棋的動作空間約為10250。

至於狀態空間,王者榮耀地圖的分辨率是130000×130000像素,每個英雄的大小是1000像素。在每一幀,每個英雄都有不同的狀態,如血量、等級、經濟等等。即便經過大幅簡化,狀態空間仍有1020000。

總結如下表,兩個字:複雜。

騰訊王者榮耀AI論文首次曝光:五AI王者局開黑與人類戰隊打成平手

王者局5v5開黑戰績亮眼

即便這麼複雜,騰訊還是取得了突破。

來看看AI是怎麼打農藥的。

先看看開局,這是最重要的階段之一。下面的四張注意力分佈圖,這些代表著AI學會的不同開局策略。四張圖從左到右,分別是:貂蟬(法師)、韓信(刺客)、亞瑟(坦克)和後裔(射手)。

騰訊王者榮耀AI論文首次曝光:五AI王者局開黑與人類戰隊打成平手

可以看到,AI貂蟬在開局階段重點關注中路外塔,AI韓信關注本方上路野區藍Buff,AI亞瑟和AI後裔關注本方下路野區紅Buff。沒有列入的第五個英雄AI宮本武藏,會去守衛本方上路的外塔。

這就是一個王者榮耀的常見開局。

隨著遊戲的推進,AI對走位的注意力也會逐漸發生變化。通過下面這個圖表可以看到,隨著時間的推移,AI各個英雄之間的走位也會越來越近。

騰訊王者榮耀AI論文首次曝光:五AI王者局開黑與人類戰隊打成平手

這種分工聯動是這次王者榮耀AI最大的提升之處。

說結果。升級之後的王者榮耀AI,為了驗證自己的實力,開始找人類練手。五個AI組隊開黑,與人類玩家5v5大戰250局。最後,AI戰隊的勝率達到了48%。

這些玩家都是王者段位,屬於人類玩家中Top 1%那一部分。

騰訊在論文中表示,AI戰隊取得的人頭數,比人類戰隊少15%;而在推塔、團戰率和經濟獲取方面,與人類戰隊相當。

在開局前10分鐘,AI戰隊比人類戰隊要多推掉2.5個塔。10分鐘之後,由於團戰能力較弱,雙方的推塔數量逐漸接近。這個特點被騰訊歸納為:AI在宏觀戰略的制訂方面,已經接近甚至優於人類高手。

騰訊王者榮耀AI論文首次曝光:五AI王者局開黑與人類戰隊打成平手

王者AI背後的算法

AI逼平人類王者,靠的是什麼手段?

答案是,一個基於學習的分層宏觀策略(Hierarchical Macro Strategy)模型。經過這個模型的薰陶,控制每個英雄的智能體就既能獨立做出決策又不忘與隊友溝通,成為頂尖選手。

名字裡的“分層”,指的是這個模型分為注意力層(Attention Layer)和時期層(Phase layer),前者用來預測英雄該去哪兒,後者負責識別遊戲進行到了什麼階段,是前期、對線還是後期。

騰訊王者榮耀AI論文首次曝光:五AI王者局開黑與人類戰隊打成平手

我們先看注意力層,也就是AI怎樣判斷它的英雄該去哪兒。

培養這項能力,首先要有合適的訓練數據,而在王者榮耀裡,想判斷英雄“到了這兒”,最合適的標準莫過於“在這兒打起來了”。

於是,騰訊在標註訓練數據時,把下一次攻擊發生的地點,定為英雄現在該去的地點。

騰訊王者榮耀AI論文首次曝光:五AI王者局開黑與人類戰隊打成平手

比如說上圖就以韓信為例,展示了遊戲開局時英雄該往哪走。其中左側顯示的是遊戲在初始階段s-1時的狀態,中間和右側紅框標出的ys、ys+1顯示的是韓信進行第一、二次攻擊的位置,也就是他在s-1、s兩個階段該去的位置。

AI的目標,就是學會在s-1階段該準備去y位置,在s階段該去ys+1位置。

用這樣的數據訓練注意力層,就能讓AI掌握英雄移動的奧義。

知道了該去哪還不夠,要想上王者,還得會判斷局勢,調整策略。這就是時期層的工作了。

想知道遊戲進行到了前期、對線期還是後期,只靠時間當然不夠。好在遊戲裡主要資源的狀況和階段密不可分。比如說,如果英雄還在以推外塔打暴君(小龍)為目標,那遊戲一定剛剛開局;如果打到了敵方家裡,那當然是後期了。

所以,教AI判斷局勢,根據的也是對敵方主要資源的打擊狀況,包括塔、暴君、主宰(大龍)和水晶(base)。

騰訊王者榮耀AI論文首次曝光:五AI王者局開黑與人類戰隊打成平手

上圖顯示的就是時期層關注的敵方主要資源,模型要從中學會的,是根據資源狀況來判斷現在該打擊什麼主要資源了,並進一步判斷要完成哪些小目標。

比如下圖顯示的偷藍buff(野怪)、清下路兵線,就都是推一塔這個時期的小目標。

騰訊王者榮耀AI論文首次曝光:五AI王者局開黑與人類戰隊打成平手

能分析局勢、確定目標,還知道該往哪兒走,剩下的就是隊友之間的溝通配合問題了。

不過要學溝通,真的沒什麼人類對戰的數據能拿來訓練。

於是,騰訊設計了一種全新的跨智能體溝通機制,用隊友的注意力標籤來訓練AI,讓它學會預測隊友要往哪走,並據此做出決策。

就這樣,一支隊伍中的5個智能體就可以協作了,也算是一種“溝通”機制吧。騰訊稱之為模仿跨智能體溝通(Imitated Crossagents Communication)。

論文

這篇論文名為:Hierarchical Macro Strategy Model for MOBA Game AI地址:https://arxiv.org/abs/1812.07887v1作者:Bin Wu、Qiang Fu、Jing Liang、Peng Qu、Xiaoqian Li、Liang Wang、Wei Liu、Wei Yang、Yongsheng Liu,來自騰訊AI實驗室。

關於第一作者Bin Wu,量子位查了一下,他現在是騰訊AI實驗室的高級研究員,也是王者榮耀AI算法設計和開發的技術負責人。

此前,他還還是騰訊一個量化交易項目的核心成員,負責機器學習算法的設計和開發。這個團隊搞的模型,已經獲取了70%的淨收益,2017年在A股市場的回報率為5%。

公開的資料顯示,Bin Wu於2016年12月加入騰訊至今。此前,他曾在百度供職一年,負責Duer相關的項目。

2011年,Bin Wu本科畢業於上海交大,2015年在香港科技大學獲得博士學位。

好了,王者榮耀AI的故事就講到這裡。


分享到:


相關文章: