在今日舉行的世界人工智能大會上,微軟發佈了一個「雀神AI」——Suphx, 在專業的麻將競技平臺上,實力勝過了頂級人類選手的平均水平。
Suphx,全稱是 Super Phoenix (超級鳳凰),於 2019 年 3 月登陸日本專業的麻將競技平臺「天鳳」。
![一家胡三家的人工智能来了](http://p2.ttnews.xyz/loading.gif)
微軟全球執行副總裁沈向洋現場介紹 Suphx
在這個最知名的麻將平臺上, AI 能夠參與的公開競技「特上房」中,Suphx 與人類選手展開了 5000 餘場四人麻將對局,逐漸打出了自己的實力和水準。
到了 6 月份, Suphx 達到了特上房的最高段位十段,而限制 Suphx 沒能問鼎最十一段位「天鳳位」的,只是平臺還不允許 AI 系統進入最高級的房間對戰。
天鳳平臺自 2006 年推出以來,四人麻將達到過十段的選手約有 180 位,而現役的十段人類選手也不過十幾位。但在衡量實力水平的穩定段位上,Suphx 達到了 8.7 段,遠遠高出人類十段選手的 7.4 段。
![一家胡三家的人工智能来了](http://p2.ttnews.xyz/loading.gif)
Suphx 是天鳳平臺上所有 AI 裡的最高水平
此前,天鳳平臺還活躍著另外兩個麻將 AI 系統,分別是 2015 年由東京大學發佈的「爆打」,以及 2018 年由 Dwango 發佈的「NAGA25」,但二者的穩定段位均低於 6.5,被 Suphx 遠遠地甩在了身後。
千年歷史的麻將:緩慢演進的大眾休閒
麻將,也稱「麻雀」或「雀牌」等,是正宗的國粹。
有關麻將起源的說法五花八門,至於其真相也無從考證,但可以確定的是,麻將自從問世後,作為全民娛樂項目,麻將一直流行於民間,經久不衰。
麻將的前身,最早可追溯到漢代的葉子戲牌
而麻將牌的符號和製作也歷經了多次變遷,最早的麻將牌竹子和動物骨頭製作,此後還有過紙牌的時期。
在達官貴人中,還曾用犀牛角,象牙,金銀銅,青花瓷來製作,彼時的麻將牌由精工巧將們一張張雕刻而來。
LV、Prada、愛馬仕這些國際品牌,都曾推出過高級定製麻將
直到 1960 年以後,塑料用品的普及,以及機械化的發展,使得麻將逐漸以材料被大量生產。
但除了製作工藝上的變化,麻將裡的最高科技,除了 AI,可能就是自動麻將機了。
AI 胡牌:全靠推理
在 AI 研究之前,很多人一度認為麻將中,運氣是決定性的因素。但其實麻將的競技規則,其實是很複雜的問題。
136 張麻將的排列組合有許多種結果,同一玩家兩次出牌之間,夾雜了其他 3 位玩家的出牌,還有自己的摸牌,而且還有「吃」、「碰」、「槓」都會讓牌局產生動態變化。
其次這是一個非完美信息問題。每個玩家只能知道自己的 13 張手牌,以及被打出的牌,而其他人的牌和剩餘底牌都是未知,這些隱藏信息導致了變數眾多。
幾種牌類遊戲的複雜度對比
即便是很有經驗的玩家,也難以理清已知牌面和最佳打法之間的邏輯關係,豐富的隱藏信息會導致遊戲的複雜度加劇。
這需要在整個過程中,做好策略的規劃,比如在局勢不利的情況下,戰略性地「放炮」讓第四名玩家獲勝,以防止被總分第二名的反超。
因此,想要打造一個高手麻將 AI ,只有強大的算力是不夠的,更需要的還在於,讓 AI 具有直覺、預測、推理和模糊決策的能力。
成為雀神 離不開深度學習
針對上述難點,微軟利用深度強化學習打造的 Suphx,通過最新的算法,一步步在學習和調試中,晉升成了競技麻將的最強雀神。
雀神 Suphx 是這麼做到的
首先是「初始化」階段,利用「天鳳」平臺的公開數據,研究人員通過有監督學習,得到一個初始模型,並在模型基礎上,用自我博弈的方式進行強化學習訓練。
隨後,針對非完美信息博弈的挑戰,Suphx 創新性地嘗試了先知教練技術來提升強化學習的效果。
在訓練階段,利用不可見的隱藏信息,引導 AI 模型的訓練方向,讓它的學習路徑更加清晰、貼近完美信息意義下的最優路徑,從而促使 AI 模型深入理解可見信息,從中找到有效的策略。
經典的搜索樹結構,AI 希望最小化對手的最大收益
但不適用於麻將遊戲
此外,對於麻將複雜的牌面表達和計分機制,他們利用全盤預測技術,搭建起每輪比賽和 8 輪過後的終盤結果之間的橋樑。
通過精巧設計的預測器,模型能夠理解每輪比賽對最終結果的影響,從而有全局性的決策視角。
研究團隊還引入了新的機制,能夠對牌局的過程進行動態調控,讓 Suphx 在推理階段根據最新信息進行策略調整,作出自適應的決策。
最後就是進入實戰,通過不斷參與到人類玩家的對局中,讓 AI 不斷學習以提升自己的技能。
該局中,Suphx 不僅胡牌還是大三元
自 3 月進入天鳳平臺之後,Suphx 一直在不斷的自我進化。目前,在平衡攻擊和防禦方面,Suphx 能夠實現比頂尖人類玩家更明智的策略,戰略性地完成短期損失與長期收益之間的權衡,並根據已有的模糊信息進行快速決策。
麻將 AI:不止牌桌上的勝負
得益於其新算法和訓練技巧, Suphx 在打法和風格上獨樹一幟。
天鳳平臺上的的頂級人類玩家,就在社交媒體上盛讚 Suphx,他覺得自己看了很多 Suphx 的比賽,學到了很多不曾見過的技術。
此外,還有很多玩家都說在 Suphx 的對戰中,學到了實用的對戰技巧,因此也紛紛將其稱為「麻將教科書」、「Suphx 老師」。
136 張的麻將帶來的技術啟示
對於麻將的輸贏,市井百姓享受的是運氣和經驗的快感,而高手享受的是智力的較量。
這樣一個「雀神」 AI ,除了打造一個無敵的麻將教練,還能打開全新的視角,讓我們從數據算法的維度,去解析這項娛樂。
不再像一個賭徒般依賴於運氣,而在腦力的光環之下,逐漸拋下那些隨機的不定的東西,探索出一套勝利的規律。
這不正是 AI 發展之路上,最迷人的一束光嗎?
內容參考:微軟研究院 AI 頭條《微軟超級麻將 AI Suphx,破解非完美信息遊戲》(https://mp.weixin.qq.com/s/S-axCx41WKDJG2BiGGTZfg)
閱讀更多 七牛雲 的文章