AI的崛起!Dota 2五對五團戰中首次戰勝人類

《星際爭霸》這類即時戰略類遊戲顯然已經不能滿足AI的“求勝欲”了!這次,5種不同的 AI 算法像人類一樣“組隊”,在 Dota 2遊戲中完虐人類玩家!

今天,由馬斯克和 Sam Altman 創立的著名人工智能非營利組織 OpenAI 宣佈這一重大里程碑:他們開發的 AI 已經能夠組隊在 5V5 對戰中戰勝 Dota 2 頂尖業餘玩家,平均天梯分數超過4200分。

雖然這次與 AI 對戰的是來自 OpenAI 的員工,並非頂尖職業玩家,而且 AI 也只會使用遊戲所提供的 115 位可選英雄中的5位,並且人類玩家不能使用真假眼,魔瓶等道具,但我們有理由相信這僅僅是個開始。此次開發的 AI 也將在今年秋季參加頂級 Dota 2 賽事 The International,到時候會與 5 名專業選手組成的戰隊一決高下。

AI的崛起!Dota 2五對五團戰中首次戰勝人類

圖丨OpenAI 的 AI 團隊擊敗了OpenAI的員工團隊,但前方還有更大的挑戰

OpenAI 開發了一套名為“ OpenAI Five”的算法,如果獨立的看這種算法,其實並沒有什麼特別的,就是一種學會了如何玩 Dota 2 的神經網絡,而且此前也有AI算法在一對一 Dota 2 比賽中勝過人類玩家的先例。但 AI 的這次勝利卻有著完全不同的意義,因為5套算法間已經學會了如何與“隊友”協作。

OpenAI 創建人工智能時使用的是機器學習的一種,強化學習。這種技術看似簡單,但是能讓 AI 習得非常複雜的行為。讓 AI 學習的過程是,把 AI 放到虛擬環境中,並通過自我嘗試學會實現目標。具體來說,程序員設定獎勵機制(比方說在AI 殺掉敵人後獎勵機器系統),然後讓 AI 一遍遍進行遊戲。

這些 Dota 機器人的自我訓練量驚人,每一天機器人用相當於180年遊戲的量進行訓練,連續訓練時間達幾個月。研究人員說:“它開始時在地圖上亂走,但是,幾個小時後,它開始具備基本技能。如果一個人需要花1.2萬到2萬小時才能成為專業遊戲玩家,那AI的速度要快得多,因為每天積累的遊戲經驗是一個人一生積累經驗的100倍。”

AI的崛起!Dota 2五對五團戰中首次戰勝人類

圖丨在2017年時,在1V1 被 AI 打敗的 Dota2 頂尖人類選手 Dendi

與技術戰略類遊戲不同,Dota 這種 MOBA(多人聯機在線競技遊戲)類遊戲有著更為複雜的遊戲機制,還需要隊友間完美的配合才能取得最終的勝利。而這次的 5 位AI“玩家”完美的證明了人工智能也懂得相互配合。

這無疑是 AI 技術的又一里程碑,因為人們認知中的AI通常獨立運行的,多AI間的相互配合,除了在遊戲中擊敗人類,我們很容易聯想到這種“協作型” AI 技術更多的商業應用場景,比如多種 AI 算法可以在在線交易或廣告競價排名中相互配合拿下訂單,或者在生產線上“組隊”完成多樣化的製造任務。當然,合作型算法將導致AI技術與人類更“親密無間”的協作。

AI的崛起!Dota 2五對五團戰中首次戰勝人類

其實即便是科技高度發展的今天,AI 和機器人技術還是兩個相對獨立的領域,人類也一直在嘗試將 AI 技術與機器人相結合,來顛覆現有的生產及倉儲模式,這無疑會將 AI 帶入全新的時代。

此前,OpenAI 已經開發出了一種算法,能在一對一的 Dota 2 比賽中戰勝人類頂級玩家,基於這套算法,OpenAI 進一步開發出了能評估自身表現與隊伍獲勝間的微妙關係。OpenAI Five 作為相互獨立的5種算法,它們之間並不存在主動交流機制,除非它們處於同一局遊戲中,所以大可不必擔心出現電影《終結者》中的“天網”。

“我們從比賽中能感受到,AI算法間的協作意圖似乎是一種非常自然的本能表現。” OpenAI 創始人之一的 Greg Brockman 表示。在 Dota 2 的 5V5 團隊賽中,他們甚至嘗試了用一位人類玩家頂替 5 位“ AI 玩家”中的一個,而這位替補上場的人類玩家的感覺是:“我能體會到AI隊友對我的支援!”

AI的崛起!Dota 2五對五團戰中首次戰勝人類

圖丨Greg Brockman

Dota2 是一個複雜的戰略遊戲,遊戲中各自由五名玩家組成的隊伍之間開展對戰,在廣袤的地圖上推倒對方的防禦塔和遺蹟,才能獲得最終的勝利。玩家們使用的英雄有各自的強項、弱項、技能和屬性。在遊戲裡,玩家需要獲得金錢,購買和升級裝備,思考戰略,還要和對手廝殺。

用 AI 程序來玩電腦遊戲逐漸成為衡量 AI 能力的常用手段。圍棋是著名的高難度遊戲,Alphabet 的子公司 DeepMind 曾因為開發出能學習下圍棋的軟件而聲名大噪。另一個相關的成績則是 AI 通過與自己對戰從零開始直到掌握了下圍棋和國際象棋的能力。

雖然玩 Dota 2 所需的戰略不像國際象棋和圍棋那樣有更多自由發揮的空間,但是要掌握這款遊戲仍然相當困難。對於機器來說更是巨大的挑戰,因為機器不能隨時能看到對手的舉動,而且這款遊戲需要團隊合作。

目前 OpenAI Five 還只能在有限條件下打 Dota 2。 OpenAI Five 不隨機從115個可用英雄中選擇,而是限定了5個英雄,因為每個英雄都有自己的特點。 他們的選擇是:Necrophos、Sniper、Viper、Crystal Maiden、Lich。

一些決策過程是硬編碼的,比如在商店買哪些物品,以及選擇用遊戲積累的經驗值提高哪些技能。此外,遊戲中一些決策棘手的操作也被禁用,比如隱形和召喚。這些技能可以讓玩家擁有觀察遠方的功能,就像有一個遠程相機,幾乎是高級遊戲玩家必備。

儘管如此,OpenAI Five 繼承了計算機的優勢,反應時間比人類短,不會錯過點擊,可以即時和精確地獲取數據,如物品清單、英雄的健康狀況以及地圖上物體之間的距離。而人類玩家必須手動檢查或者憑本能判斷。

OpenAI Five 通過與自己的不同版本對戰來學習遊戲戰略。隨著時間推進,程序習得的戰略與人類玩家所使用的戰略很類似,比如通過 “打錢” 找到獲取金錢的方法,以及採用遊戲中特定的戰略角色,並學習如何分路,Gank 和支援隊友等策略。

人工智能專家表示,這一成就意義重大。匹茲堡卡內基梅隆大學的研究員 Noam Brown 說:“ Dota2 是一個極其複雜的遊戲,能打敗強大的業餘玩家就已經很不容易了,而且, 處理 Dota2 這種大型遊戲中的隱藏信息是一個很大的挑戰。”

Brown 之前研究過一種玩撲克的算法,撲克是另一種非完整信息博弈遊戲,玩家需要有高超的技巧。Brown 說,如果 OpenAI 五人組能夠一直打敗人類,那將是人工智能的一個重大成就。然而,他也指出,只要有足夠的時間,人類可能就會找出人工智能團隊的遊戲風格弱點。

Brown 說,其他遊戲也可以進一步推動人工智能。“下一個重大挑戰將是涉及到交流的遊戲,例如《強權外交》和《卡坦島》,在這些遊戲裡,玩家需要平衡合作與競爭才能勝利。”


分享到:


相關文章: