科技|微軟麻將AI超越人類,研究團隊還稱有意出教材提升人類牌技

人類以後想提升自己的麻將技能,可能要拜人工智能為師了。

微軟亞洲研究院研發的麻將AI系統Suphx在國際知名專業麻將平臺“天鳳”上榮升十段,且超越99.99%的人類後,研究團隊在接受澎湃新聞採訪時稱,有日本出版社有意聯繫,準備把Suphx打的牌譜出一本書,如果對麻將感興趣的,大家可以通過這本書來學怎麼打麻將。

4月9日,微軟亞洲研究院Suphx研發團隊通過線上直播,詳細介紹了Suphx的技術細節,其論文近日在arXiv平臺上發佈。直播結束後,微軟亞洲研究首席研究員秦濤、微軟亞洲研究院高級研究工程師李俊傑在接受澎湃新聞採訪時表示,團隊目前正在和天鳳平臺協商,看是否考慮推出類似提升人類牌技的服務。例如,通過輸入一個人當前的牌面,Suphx會告訴這人該打哪張牌,以及它為什麼打那張牌。

有意思的是,據兩位研究員透露,有日本出版社在聯繫,希望Suphx打的牌譜出一本書。“因為有麻將愛好者將 Suphx 稱作麻將教科書、Suphx老師,如果對麻將感興趣同學們,他們可以通過這個書來學怎麼打牌。”

科技|微軟麻將AI超越人類,研究團隊還稱有意出教材提升人類牌技

圖片來源:pixabay

Suphx如何提升牌技

去年8月,微軟亞洲研究院在世界人工智能大會上正式宣佈由其研發的麻將AI系統Suphx成為首個在國際知名專業麻將平臺“天鳳”上榮升十段的AI系統。

在過去半年多的時間裡,研究團隊對Suphx又進行了調整。具體來說,一是把整個系統架構進行了重新的優化,使它更快、更好。另一個是,在算法上也做了改進,比如“先知教練”。從博弈論的角度來看,麻將是多人非完美信息博弈。麻將一共有136張牌,每一位玩家只能看到很少的牌,包括自己的13張手牌和所有人打出來的牌,更多的牌是看不到,包括另外三位玩家的手牌以及牆牌。面對如此多的隱藏未知信息,麻將玩家很難僅根據自己的手牌做出一個很好的決策。

但通過先知教練,Suphx可以可以看到所有的信息,包括(1)玩家自己的私有手牌,(2)所有玩家的公開牌,(3)其他公共信息, (4)其他三個玩家的私有手牌,(5)牆牌。只有(1)(2)和(3)是正常的玩家可以獲得的,而(4)和(5)是隻有“先知”才能獲得的額外的 "完美 "信息。

在Suphx中,Suphx研發團隊首先使用包括完美信息在內的所有特徵來對“先知”進行強化學習訓練,在這一步中控制“先知”的學習進度,不能讓其過於強大。然後,通過對完美特徵增加mask逐漸使“先知”最終過渡到正常AI。接著,繼續訓練正常AI並進行一定數量的迭代,採用衰減學習率和拒絕採樣的技巧來調整訓練過程,讓AI的技術不斷精進。

正如AlphaGO一開始以人為師,升級後,開始自己“左右互博”,不斷提升。秦濤在採訪中表示,Suphx也嘗試過完全不用人的數據做訓練,直接用self-play,是可以做好的,只不過是訓練速度會慢一些,這也涉及到背後算法要做一些新的改動,讓計算機學得更快。

未來可用在股票操盤上

Suphx會打麻將只是第一步。兩位研究員稱,團隊正在金融行業和物流行業做一些嘗試,讓Suphx技術落地實際應用場景。

在金融領域裡,如果我們能提前知道明天股票行情是,那麼今天的投資肯定會做得很好,這在某種程度上就是完美信息。例如,今天A股已經閉盤了,那麼我們就知道了今天所有的股票信息,當我們再回頭看昨天,假設昨天做決策的時候就知道了今天股票的信息,那對股票操作來說就是完美信息。研究員認為,在這種情況下可以利用完美信息,幫助我們把模型訓練得更好。實際應用的時候就像麻將裡面一樣,通過完美信息,我們可以得到一個非常強大的老師——Teacher model,這樣學生模型student model也會學的很好。

在機器翻譯領域中,完美信息也很有幫助。比如在機器翻譯中,如果知道一句話的上下文,可能它翻譯得更好,即完美信息。但實際中不一定每句話我們都知道它的上下文,但是訓練中我們可以拿到完美信息,就可以幫助我們將翻譯做得更好。

還有哪些不足

從此次發表的論文看,Suphx的技術表現堪稱完美。但在兩位研究員看來,未來Suphx還有進步的空間。

“比如我們現在很多時候還是用了高手的數據訓練一個模型,然後再到強化學習,但是我們有不同的麻將平臺及規則,不一定所有的平臺都能拿到人類的數據,在這種情況下怎麼能不用人的數據直接從0開始,這是我們在做的一件事情。”秦濤說。

相比圍棋、象棋以及DOTA遊戲,麻將的隨機因素很多,這對模型的訓練和測試都會帶來很大的影響。據研究團隊透露,他們的模型在測試的時候基本上會跑100萬場遊戲,才能明確地知道誰更厲害,這就跟圍棋很不一樣,圍棋五局三勝,麻將不同。這種情況下如何更快地完成對弈,得出可信賴的結果,也是團隊在研究的一個問題。

最後,團隊還在考慮,Suphx能針對性地,面對不同的對手採取一些自適應策略。

本文轉自:澎湃新聞記者:王心馨

立足亞洲 面向世界

傳遞論壇最新動態 促進亞洲深度合作

全球重要對話的傳達者 亞洲共同發展的瞭望者


分享到:


相關文章: