谷歌的阿爾法狗要花5年進化,將挑戰你從未聽說過的紙牌遊戲

還記得2016年3月,谷歌的DeepMind AI AlphaGo在圍棋比賽中,AlphaGo以五場四勝的成績擊敗了18次世界圍棋冠軍李世石嗎?2017年5月又再次在烏鎮擊敗中國圍棋天才柯潔嗎?當初谷歌承諾不再將AlphaGo用在圍棋比賽中,現在它回來了,

它的下一個挑戰是你從未聽說過的紙牌遊戲:Hanabi。

谷歌的阿爾法狗要花5年進化,將挑戰你從未聽說過的紙牌遊戲

Hanabi

AlphaGo下一個挑戰是什麼呢?根據Alphabet和牛津大學的研究人員的說法,答案是“Hanabi。”如果你感到疑惑,這很正常。

谷歌的阿爾法狗要花5年進化,將挑戰你從未聽說過的紙牌遊戲

Hanabi,日語中的花火,是一種合作紙牌遊戲,玩家一起合作,按特定順序建立一系列卡片,以引發“花火”表演。獨特的方式是每個玩家都可以看到每個人的牌,但他們自己的牌。該遊戲僅持續了十年,在2013年贏得了德國年度遊戲的最佳棋盤遊戲獎。

谷歌的阿爾法狗要花5年進化,將挑戰你從未聽說過的紙牌遊戲

為什麼Hanabi是谷歌人工智能的下一個挑戰?

牛津大學的博士生福爾斯特曾在DeepMind實習,說:“例如,你可以想象國際象棋,撲克和星際爭霸,大多數遊戲都專注於不同玩家之間的競爭。在這些遊戲中,通常沒有充分的理由讓玩家彼此合作或交流。然而,溝通與合作無處不在,是人類生活的基本特徵。人類花費大量時間在各種環境中相互溝通,無論是在個人層面還是通過媒體。”

AI代理人如何學會彼此溝通和合作以及最終與人類進行交流非常有挑戰性。Hanabi為這一領域的重大挑戰提供了一個獨特的機會,因為它要求玩家推理其他參與者的意圖,策略和觀點,這些都是合作和交流的基本特徵。

在Hanabi中,玩家必須相互溝通,以找出他們應該玩哪些牌以及應該丟棄哪些牌。固有的挑戰是通信僅限於昂貴的提示操作。這些消耗了遊戲中可用的有限數量的提示令牌。成功的玩家必須通過商定慣例,以及對遊戲中其他玩家的意圖,策略和觀點的推理來傳達額外信息。

“圍繞溝通,思想理論和合作的這些方面使得Hanabi與其他遊戲相比具有獨特性,”福爾斯特繼續說道。

谷歌的阿爾法狗要花5年進化,將挑戰你從未聽說過的紙牌遊戲

點燃導火線

在最近發表的一篇論文中,DeepMind的研究人員為玩Hanabi的人工智能提出了兩個挑戰。其中第一個是學會用自己的副本成功地玩遊戲。這將需要在機器學習方法方面進行大量創新。即使只是計算可用移動的數量在50張卡片組中也很棘手,並且有大量可能的牌在計算上非常具有挑戰性。挑戰的第二部分包括AI代理人需要學習如何適應新隊友的設置。

更艱鉅的挑戰是讓AI與未知的隊友和人類一起玩。這將需要諸如理解他人的意圖和觀點以及適應他們的方法等能力。人類通常在很小的時候就會學習並不是每個人都以完全相同的方式思考,但對於機器來說,這是一個哲學上難以理解的想法。

“我們基本上可以認為第一部分是'搜索慣例',這在技術上很難,但至少在原則上可以寫下來,”DeepMind研究科學家諾蘭巴德說,“相比之下,在第二部分,人工智能系統可能必須理解'搜索慣例',換句話說隊友如何決定採取哪些行動。”

諾蘭巴德說:“雖然我們開始使用AI學習與一組固定隊友交流的設置,但挑戰的第二部分包括代理需要學習適應新隊友的設置。雖然所有這些都是AI代理的重要方面,以便與人類和其他代理平穩地交互,但它們目前沒有在AI基準中表示。我們希望Hanabi學習環境在填補這一空白方面發揮重要作用。”

谷歌的阿爾法狗要花5年進化,將挑戰你從未聽說過的紙牌遊戲

研究人員聲稱人工智能現在正處於可接受的挑戰之中,但這並不容易,並且需要在強化學習,博弈論等領域取得重大進展。為了推動研究向前發展,該團隊為其他研究人員創建了一個開源的Hanabi環境,作為他們工作的基礎。研究人員表示這個研究至少要花費5年左右的時間才有成效。

谷歌的阿爾法狗要花5年進化,將挑戰你從未聽說過的紙牌遊戲


分享到:


相關文章: