OpenAI血虐Dota2准職業戰隊,人類被逼到使「陰招」才能挽尊

郭一璞 栗子 夏乙 假裝發自 舊金山

量子位 出品 | 公眾號 QbitAI

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

北京時間早上5點58分,人類半職業Dota高手隊對戰OpenAI Five第二局接近尾聲,被稱為“大老師”的dota plus大數據對人類戰隊宣判了死刑。

它說,AI勝率100%。

6點整,人類第二次打出GG(good game,投降),AI宣告勝利。

這是OpenAI Five首次在5v5戰局中,對上職業選手。今天的人類代表隊由職業和半職業選手組成,在舊金山和AI展開三局兩勝的廝殺。

一方是“從未輸給過人類職業選手”的OpenAI Five,另一邊,人類戰隊中的現役職業選手MoonMeander也在Twitter上高調宣佈“從未輸給過bot,這次也不會”。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

事實證明,這個Flag立得太高。

AI以碾壓之勢,連勝兩局。加上正賽前,AI已經碾壓了兩局現場觀眾玩家,整個對戰AI的過程中,人類陣營可謂一敗塗地。

最後一局,改了規則。AI一方的英雄,由現場觀眾共同選出,最後得到一個奇葩陣容。人類玩家靠這種方式,勉強扳回一局。但這也無法改變AI大獲全勝的事實。

總有人把OpenAI的勝利,歸功於已經退出董事會的Elon Musk。對於今天的勝利,鋼鐵俠怎麼說?我們最後揭曉,先說正事兒。

4局被碾壓,1局挽尊

正式比賽之前先進行了兩場OpenAI Five對觀眾的娛樂賽,毫無懸念,均以人類失敗告終,AI拆塔如入無人之境。其中第二場比賽9:28分人類上路高地塔告破,不到14分鐘,觀眾隊就輸給了AI。人類先折兩陣。

不過,後面職業選手的比賽也沒有強多少。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

正賽第一局

由於只有18個英雄,正式的比賽雖然有BP,但大家只是象徵性的BAN了一些18個英雄之外的英雄。夜魘的人類選了小牛、瘟疫法師、冰女、剃刀和影魔,天輝的AI選了巫妖、飛機、火槍、DP和萊恩。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

一開始,merlini的剃刀越塔送了一血,AI在各路拿下5個人頭後,人類終於拿下一個,此時AI勝率94%。一波團戰後,人頭變為AI 9:3,勝率給到了AI勝99%,象徵性的給人類留下了1%的尊嚴。

之後,AI開始了瘋狂的推塔進程,四一分帶,巫妖一人推掉上路一塔,其餘4人滅掉人類對手,推掉下路一塔。隨後,野區爆發一波團戰,AI前後夾擊,將被包圍在中間的三人統統滅掉,旁邊的一人也殘血逃命不及被補刀,此時已進行到13分鐘,人頭數22:4,AI經濟領先5k。

1分鐘後,下路2塔告破。隨後,人類終於認真配合,四人包圍抓了一個巫妖,然而就在此時,AI隊其餘4人推掉了上路高地塔,人類趕回家救塔,blitz的影魔完成本場人類唯一亮點操作,完成雙殺。然而無濟於事,AI已經開始醞釀最後一波團戰了,他們衝上中路高地塔前,越過人類小牛的阻礙,越塔拿下2個人頭後,淡定拆塔。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

最終,人類gg,以8:30慘敗。

這一場彷彿人類完全沒有配合,彷彿被割韭菜一樣推掉。惹得直播間彈幕驚歎:這哪是排名1000名左右的高手,簡直像新手一樣被虐。

正賽第二局

這次人類在天輝一方,選擇了巫醫、影魔、小牛、死亡先知(DP)和隱刺,夜魘AI選擇的是巫妖、火槍、萊恩、冰女和飛機。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

第二局的人類似乎稍微有出息了一點,拿下一血,人頭屬於影魔,甚至還推掉了一個塔。AI的勝率成功被堅強抵抗的人類壓低了……1個百分點,降到了98%,甚至開始時,人類經濟都領先了1k。

AI被人類拖到了20分鐘才開始推中路高地塔。然而這點“優勢”沒有持續多久,AI如拆遷隊一般,推完中路後迅速去推下路,緊接著趕去了上路,開局25分鐘,上路塔被拆,人類本局終於沒有機會了。

三局兩勝下,也意味著這場比賽人類還是輸給了AI。而且人類和AI之間的差距,實在是太大、太明顯。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

正賽第三局

既然AI已獲兩勝,第三場就變成了娛樂局,由人類觀眾來“刁難”OpenAI Five,為他們選出5個英雄。人類選手MoonMeander為了一雪前恥,號召大家選5個脆皮來噁心一下它們。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

所以,人類觀眾們給AI選出了小魚、斯溫、斧王、隱刺和痛苦女王這樣的陣容,而人類則拿到了絕對優勢的死靈法、萊恩、飛機、DP和巫妖。

這套陣容勝率怎麼樣?

沒開打之前,預測勝率為2.9%……

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

一開場,5個脆皮的劣勢陣容果然很有用,至少在經濟上人類狠狠地壓過了AI。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

綠色為人類的經濟

可憐的AI斧王辛苦賺錢養家,不但沒有突破經濟限制,甚至還從全場第三掉到了全場第四。

開始的十幾分鍾裡,AI還在努力的拿人頭,取得了比分上的暫時領先。不過很快,被人類選了5脆皮陣容的AI自知團戰打不過,只好選擇猥瑣帶線,悄悄偷塔。

比賽進行到14分鐘,人類終於追評了比分,14:14平;2分鐘後,人類在草叢堵死了一隻小魚,終於獲得了優勢比分16:15,AI勝率跌到了8%。

22分鐘,人類27:16,AI終於被大老師判了死刑,勝率只有1%,而經濟也被人類壓了8k。

絕望的AI拼死一搏,無腦帶線,以1人換1塔的精神,義無反顧衝上人類的塔下,被人類狠狠的包圍,群毆一頓。

29分鐘,人類終於開始推高地;5分鐘後,人類推掉中路高地塔,AI還不放棄,悄咪咪搏命偷塔(未果);2分鐘後,人類終於推掉AI的基地,以絕對壓制的陣容取得了唯一的一場勝利。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

整個比賽過程中,不斷有圍觀群眾質疑著人類選手的段位。

這支被AI虐殺的人類隊伍,按照OpenAI的描述是99.95%以上。如果看MMR(匹配分,約等於天梯積分),都在6500以上,天梯排名最低的也只有1000名出頭。

他們是:

  • William “Blitz“ Lee:Dota2解說,前職業選手、教練。
  • Austin “Capitalist“ Walsh,簡稱Cap:Dota2解說,曾經與Gamer University、Vegetables Esports Club等戰隊打過半職業比賽。
  • Ioannis “Fogged“ Loucas:曾經是職業戰隊Steak Gaming、半職業戰隊Vegetables Esports Club選手。
  • Ben “Merlini“ Wu:前職業選手,退休解說。
  • David “MoonMeander“ Tan,加拿大戰隊compLexity Gaming的職業選手。MoonMeander是本次人類戰隊中的唯一一名現役職業選手,也是OpenAI Five對戰的第一個職業選手。
OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

AI一日200萬場比賽訓練

OpenAI一路贏得輕鬆,現場觀眾的呼聲幾乎全是送給AI的。

看直播的小夥伴裡,則有人對AI全程摩擦人類的贏法表示失望。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

“懷疑”OpenAI請了群演的,不止一人。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

可被按在地上摩擦的人類,也很絕望啊。

來自人類戰隊的MoonMeanderated發推說,AI一天能打200萬場比賽呢。

人肉訓練的強度,真的沒有那麼大。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

與此遙相呼應,中國網友的表達,就更直接一點。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

大意可能是,AI學了180年,每天200萬把,比人類厲害不意外,比人類菜就是真菜了。

另外,關於賽前OpenAI宣佈把智能體的反應速度,降到與人類接近的200毫秒,這件事……

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

看了比賽的觀眾,似乎並不買賬,強烈質疑官方宣傳的反應速度有假。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

Reddit也這樣說。

對於同胞的戰敗,人類心有不甘。

也有人擔心,DotA終究會是AI的天下。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

好在第三局贏了,雖說有些“小人得志”。刷彈幕的小夥伴們已如願,可以洗洗睡了。

AI挑戰職業選手靠什麼?

目前已知的情報是這樣的:

OpenAI訓練Dota選手的方式,是讓AI從隨機狀態開始,依靠自我對局來優化。

這支AI隊伍長這樣:

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

簡單來說,每個選手,也就是每個智能體(agent),都是一個包含1024個節點的單層LSTM(長短時記憶網絡),能夠通過V社(Valve)的Bot API觀察當前遊戲狀態,控制英雄去移動、攻擊、施放技能、使用道具。

智能體能夠觀察到的信息和人類差不多,包括自身、隊友和敵人的狀況,比如位置、血量、攻擊力、護甲、攜帶物品、能力等等。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

這些信息,對於智能體來說是一個包含20000數值的列表,而它判斷之後發出的行動指令,是8個值的列表。

選手們的訓練,使用的是擴展版的近端策略優化(PPO)方法,這也是OpenAI現在默認的強化學習訓練方法。這些智能體的目標是最大化未來獎勵的指數衰減和。

去年訓練1v1 AI的時候,OpenAI針對卡兵的操作專門設置了獎勵,在5v5版本中取消了。不過,5v5模型還是藉助其他獎勵信號學會了卡兵。

AI選手們在訓練中飯量驚人,承載它們需要256塊P100 GPU和12.8萬個CPU核心。

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

上面的5v5版本與1v1版本對比,有一個令人欣慰的結果:OpenAI Five需要的CPU和GPU計算力,與去年擊敗Dendi的1v1版相比,並沒有翻到5倍。

OpenAI說,AI每天的訓練量,都相當於人類打180年遊戲。來自人類戰隊的MoonMeanderated說,AI們每天要打200萬局Dota。

5個智能體訓練出來,它們之間又是怎樣配合的呢?總不能像我們人類開黑一樣互相喊話吧?

答案是,他們之間沒有那種人類可以理解的溝通渠道,而是由一個“團隊精神”超參數來統一控制。這個超參數的範圍在0到1之間,決定了選手對與自身獎勵函數和隊友平均獎勵函數的關注程度分配。

OpenAI操作也一樣是通過bot API,能夠移動位置、攻擊、使用道具,根據獲勝、血量和補刀情況得到獎勵。

從誕生到對戰職業選手,這隻AI走過了一年半的成長之路。

從1v1版本算起的話,它最早誕生於2017年3月,去年8月在TI7上一鳴驚人。只訓練了兩週的AI,影魔中單1v1完敗頂級職業選手Dendi。

質疑之聲也不少,最核心的吐槽在於,1v1的難度根本不能和5v5相提並論,而且這個AI會用的英雄,也只有一個。

當然,AI進化得比人類選手快得多。

時隔不到一年,AI在今年6月掌握了5v5技能。6月26日,OpenAI Five出現了,它掌握了5個英雄,能在做了各種限制的5v5 Dota裡,擊敗MMR 4000-6000分的強大路人隊,但面對MMR 4000-5500分、有團隊訓練的隊伍,就沒能取勝。

過了一個月,這個AI掌握的英雄數量增加到了18個,遊戲的限制也只剩下沒有召喚單位和幻象、沒有聖劍和瓶子、沒有掃描、依然需要5只無敵信使。

另外,OpenAI還把AI的反應時間從原來的80毫秒拉長到了200毫秒,不在反射弧上占人類便宜。

7月24日,離直播還有不到兩週,OpenAI Five和5位MMR在5000到6500的選手打了4場,2勝2負。

gdb說,他們的團隊分析了比賽中的失誤原因,在AI的訓練中做了一些調整。比如說,去掉那些1v1時代遺留的腳本寫下來的邏輯,除一除bug,增加一些隨機選擇。

然後就有了今天這場對決。

向AI圈的世界盃進發!

這場對戰之後,OpenAI Five就邁進了下一個階段:向著Dota圈的世界盃,頂級賽事TI8(The International)進發。

之前,GDB說想通過這次比賽,看看有沒有希望在8月底之前達到TI(The International)大賽上頂級職業選手的水平。

現在看來,我們只能寄希望於頂尖人類戰隊,來與AI一戰了。

沉默的鋼鐵俠

每次OpenAI取得進展,AI在Dota2戰場斬獲勝利,總有人將其歸功於伊隆·馬斯克。中外概莫能外。畢竟,馬斯克是OpenAI的創始人之一。

不過今年2月,鋼鐵俠已經退出OpenAI董事會。

2015年,馬斯克與YC董事長Sam Altman、天使投資人Peter Thiel等一起創立了OpenAI,對標DeepMind。然而眾所周知,馬斯克對於AI發展的態度,十足悲觀,是地球上知名的“AI威脅論”持有者。

對於今天的勝利,Sam等公開表達了祝賀。

而馬斯克看起來內心毫無波瀾,甚至都沒有想笑一下。話癆一般的他,沒在Twitter上主動提一句這件事,只是悶頭說特斯拉Model 3。

當然,有人問他支持誰,馬斯克只是簡單地回覆了兩個字:

“人類”

OpenAI血虐Dota2準職業戰隊,人類被逼到使“陰招”才能挽尊

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: