一家胡三家的人工智能來了

在今日舉行的世界人工智能大會上,微軟發佈了一個「雀神AI」——Suphx,

在專業的麻將競技平臺上,實力勝過了頂級人類選手的平均水平。

Suphx,全稱是 Super Phoenix (超級鳳凰),於 2019 年 3 月登陸日本專業的麻將競技平臺「天鳳」。

一家胡三家的人工智能来了

微軟全球執行副總裁沈向洋現場介紹 Suphx

在這個最知名的麻將平臺上, AI 能夠參與的公開競技「特上房」中,Suphx 與人類選手展開了 5000 餘場四人麻將對局,逐漸打出了自己的實力和水準。

到了 6 月份, Suphx 達到了特上房的最高段位十段,而限制 Suphx 沒能問鼎最十一段位「天鳳位」的,只是平臺還不允許 AI 系統進入最高級的房間對戰。

天鳳平臺自 2006 年推出以來,四人麻將達到過十段的選手約有 180 位,而現役的十段人類選手也不過十幾位。但在衡量實力水平的穩定段位上,Suphx 達到了 8.7 段,遠遠高出人類十段選手的 7.4 段。

一家胡三家的人工智能来了

Suphx 是天鳳平臺上所有 AI 裡的最高水平

此前,天鳳平臺還活躍著另外兩個麻將 AI 系統,分別是 2015 年由東京大學發佈的「爆打」,以及 2018 年由 Dwango 發佈的「NAGA25」,但二者的穩定段位均低於 6.5,被 Suphx 遠遠地甩在了身後。

千年歷史的麻將:緩慢演進的大眾休閒

麻將,也稱「麻雀」或「雀牌」等,是正宗的國粹。

有關麻將起源的說法五花八門,至於其真相也無從考證,但可以確定的是,麻將自從問世後,作為全民娛樂項目,麻將一直流行於民間,經久不衰。

一家胡三家的人工智能来了

麻將的前身,最早可追溯到漢代的葉子戲牌

而麻將牌的符號和製作也歷經了多次變遷,最早的麻將牌竹子和動物骨頭製作,此後還有過紙牌的時期。

在達官貴人中,還曾用犀牛角,象牙,金銀銅,青花瓷來製作,彼時的麻將牌由精工巧將們一張張雕刻而來。

一家胡三家的人工智能来了

LV、Prada、愛馬仕這些國際品牌,都曾推出過高級定製麻將

直到 1960 年以後,塑料用品的普及,以及機械化的發展,使得麻將逐漸以材料被大量生產。

但除了製作工藝上的變化,麻將裡的最高科技,除了 AI,可能就是自動麻將機了。

AI 胡牌:全靠推理

在 AI 研究之前,很多人一度認為麻將中,運氣是決定性的因素。但其實麻將的競技規則,其實是很複雜的問題。

136 張麻將的排列組合有許多種結果,同一玩家兩次出牌之間,夾雜了其他 3 位玩家的出牌,還有自己的摸牌,而且還有「吃」、「碰」、「槓」都會讓牌局產生動態變化。

其次這是一個非完美信息問題。每個玩家只能知道自己的 13 張手牌,以及被打出的牌,而其他人的牌和剩餘底牌都是未知,這些隱藏信息導致了變數眾多。

一家胡三家的人工智能来了

幾種牌類遊戲的複雜度對比

即便是很有經驗的玩家,也難以理清已知牌面和最佳打法之間的邏輯關係,豐富的隱藏信息會導致遊戲的複雜度加劇。

這需要在整個過程中,做好策略的規劃,比如在局勢不利的情況下,戰略性地「放炮」讓第四名玩家獲勝,以防止被總分第二名的反超。

因此,想要打造一個高手麻將 AI ,只有強大的算力是不夠的,更需要的還在於,讓 AI 具有直覺、預測、推理模糊決策的能力。

成為雀神 離不開深度學習

針對上述難點,微軟利用深度強化學習打造的 Suphx,通過最新的算法,一步步在學習和調試中,晉升成了競技麻將的最強雀神。

一家胡三家的人工智能来了

雀神 Suphx 是這麼做到的

首先是「初始化」階段,利用「天鳳」平臺的公開數據,研究人員通過有監督學習,得到一個初始模型,並在模型基礎上,用自我博弈的方式進行強化學習訓練。

隨後,針對非完美信息博弈的挑戰,Suphx 創新性地嘗試了先知教練技術來提升強化學習的效果。

在訓練階段,利用不可見的隱藏信息,引導 AI 模型的訓練方向,讓它的學習路徑更加清晰、貼近完美信息意義下的最優路徑,從而促使 AI 模型深入理解可見信息,從中找到有效的策略。

一家胡三家的人工智能来了

經典的搜索樹結構,AI 希望最小化對手的最大收益

但不適用於麻將遊戲

此外,對於麻將複雜的牌面表達和計分機制,他們利用全盤預測技術,搭建起每輪比賽和 8 輪過後的終盤結果之間的橋樑。

通過精巧設計的預測器,模型能夠理解每輪比賽對最終結果的影響,從而有全局性的決策視角。

研究團隊還引入了新的機制,能夠對牌局的過程進行動態調控,讓 Suphx 在推理階段根據最新信息進行策略調整,作出自適應的決策。

最後就是進入實戰,通過不斷參與到人類玩家的對局中,讓 AI 不斷學習以提升自己的技能。

一家胡三家的人工智能来了

該局中,Suphx 不僅胡牌還是大三元

自 3 月進入天鳳平臺之後,Suphx 一直在不斷的自我進化。目前,在平衡攻擊和防禦方面,Suphx 能夠實現比頂尖人類玩家更明智的策略,戰略性地完成短期損失與長期收益之間的權衡,並根據已有的模糊信息進行快速決策。

麻將 AI:不止牌桌上的勝負

得益於其新算法和訓練技巧, Suphx 在打法和風格上獨樹一幟。

天鳳平臺上的的頂級人類玩家,就在社交媒體上盛讚 Suphx,他覺得自己看了很多 Suphx 的比賽,學到了很多不曾見過的技術。

此外,還有很多玩家都說在 Suphx 的對戰中,學到了實用的對戰技巧,因此也紛紛將其稱為「麻將教科書」、「Suphx 老師」。

一家胡三家的人工智能来了

136 張的麻將帶來的技術啟示

對於麻將的輸贏,市井百姓享受的是運氣和經驗的快感,而高手享受的是智力的較量

這樣一個「雀神」 AI ,除了打造一個無敵的麻將教練,還能打開全新的視角,讓我們從數據算法的維度,去解析這項娛樂。

不再像一個賭徒般依賴於運氣,而在腦力的光環之下,逐漸拋下那些隨機的不定的東西,探索出一套勝利的規律。

這不正是 AI 發展之路上,最迷人的一束光嗎?

一家胡三家的人工智能来了

內容參考:微軟研究院 AI 頭條《微軟超級麻將 AI Suphx,破解非完美信息遊戲》(https://mp.weixin.qq.com/s/S-axCx41WKDJG2BiGGTZfg)

一家胡三家的人工智能来了


分享到:


相關文章: