探祕超級麻將AI的煉成方式 進來看神仙打麻將了

一句話形容super phoenix(超級鳳凰)

:神仙打法,毫無章法的丟牌,幾乎是神仙咋打都對的代表。打法不容易被推理是這個AI最大的特點,對於人類來說謎一樣的無序出牌,這些都不是一個正常高段位玩家能摸得清的。

探秘超級麻將AI的煉成方式 進來看神仙打麻將了

B站有創作者傳過一個麻將系列的視頻,視頻的主角就是名為 Suphx(意為 Super Phoenix)的超級 AI。同時有部分創作者整理了Suphx所有牌譜,引起了不少麻將愛好者的討論。

探秘超級麻將AI的煉成方式 進來看神仙打麻將了

多數愛好者對Suphx的評論都是:怪物,神仙,最強麻將人工智能。事實上不管是國內還是國外,它的名聲已經傳遍了世界。

探秘超級麻將AI的煉成方式 進來看神仙打麻將了

神秘麻將AI是如何煉成的

麻將的種種特點決定了,很難直接利用 AlphaGo 等棋盤遊戲 AI 常用的

蒙特卡洛樹搜索算法,在經過一年左右的摸索期後,製作團隊基於深度強化學習技術,並且引入三項新技術來提升強化學習的效果。深度強化學習是深度學習和強化學習的結合。這項技術集合了深度學習在感知問題上強大的理解能力,以及強化學習的決策能力,通常用於解決現實場景中的複雜問題。

在深度強化學習的基礎上,針對非完美信息遊戲的特點,製作團隊嘗試用“先知教練”技術來提升強化學習的效果。

先知教練技術的基本思想是在自我博弈的訓練階段,利用不可見的一些隱藏信息來引導 AI 模型的訓練方向,使其學習路徑更加清晰、更加接近完美信息意義下的最優路徑,從而倒逼 AI 模型更加深入地理解可見信息,從中找到有效的決策依據。

另外,對於日本麻將複雜的獎勵機制,製作團隊加入了全盤預測技術

探秘超級麻將AI的煉成方式 進來看神仙打麻將了

這個預測器通過精巧的設計,可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導,並使得 Suphx 可以學會一些具有大局觀的高級技巧

AI麻將技術背後的衍生

AI與遊戲,從AI誕生之際就已有著千絲萬縷的聯繫,最近幾年更是執手共生。最早在1949年就已經有了AI與遊戲的第一次碰撞:讓計算機與人類比拼國際象棋、雙陸棋、國際跳棋、國際象棋、圍棋等棋盤類遊戲。

探秘超級麻將AI的煉成方式 進來看神仙打麻將了

AI遊戲技術發展到不完美信息遊戲的麻將上,這種隨機性正是現實許多問題的映射,AI將會分析對方大量的隱藏信息。用歷史交易數據訓練的AI模型,到真正市場上會面臨完全不一樣的數據,所以要動態地適應實際場景並做出改變,這個和Suphx是一脈相承的。

雖然 Suphx 面世不久,背後的技術還沒有全部應用到實際問題中,但部分技術已經在做嘗試。


分享到:


相關文章: