圍棋統計學1:AlphaGo Zero進化史

圍棋統計學1:AlphaGo Zero進化史

在《關於劉超疑似AI作弊事件,蘑菇的最後一文》文中,蘑菇大致介紹瞭如果利用勝率數據來進行分析。以下是用到的方法原理的太長不看版(雖然還是很長):

1. 勝率趨勢曲線:反應一局棋的走勢,曲線平滑度與對局者水平、棋局激烈程度正相關。

2. 勝率變化曲線:反應一局棋每手棋和AI判斷的差異,水平低和棋局激烈,會導致峰變多變高。

3. 平均勝率差異與方差:與每手棋發揮的穩定性、對局者水平以及棋局激烈程度相關。發揮越穩定、對局者水平越高、局勢一邊倒,都會讓雙方這兩個值變小。

4. 吻合度:與AI招法的吻合度,可以作為作弊的判定標準之一。

以上述四個數據,可以建立相當多的數學模型,來進一步分析。本期希望通過探討AlphaGo-Zero進步過程中,不同時期的20盤棋,來進一步探討這些數據的用途。

一、勝率趨勢分析

這是20局棋勝率趨勢圖的合集,1-20局的順序按照從左到右、從上到下的順序排列。所有的勝率趨勢圖,均來自於弈客鷹眼自動生成。

圍棋統計學1:AlphaGo Zero進化史

Zero自戰20局勝率趨勢圖

第一張圖是AlphaGo-Zero的第一局對弈,懵懵懂懂的嘗試反應在勝率圖上就是激烈的波動。

圍棋統計學1:AlphaGo Zero進化史

Zero自戰第一局勝率趨勢圖

放大一下觀看,請自行體會。

可以看到,在水平較低的時候棋局進行的反覆較多,勝率即便到80%以上,也會有各種逆轉時刻。隨著水平的提升,只有兩種情況:① 一方緩慢的提升勝率,達成一盤艱苦的完勝;② 勝率圍繞50%劇烈波動,一方在最後時刻險勝。並且,在較高水平下,從未出現高勝率被翻盤的情況。

對優勢局面的把控能力,是水平高低的重要體現。這一點,勝率趨勢圖可以給出一定的反饋。

二、統計學參數

弈客鷹眼給出了20局棋,總計40個數據點的平均勝率差異與方差。

圍棋統計學1:AlphaGo Zero進化史

Zero自戰20局統計學參數

做平均勝率差異-方差散點圖,為了方便展示,縱橫座標均作了對數處理,並做逆序座標。取x=2,y=10做參考線,將圖分割為四個象限。

圍棋統計學1:AlphaGo Zero進化史

Zero自戰20局統計學數據散點圖

圖中右下角色度帶,按照紅-藍-綠的顏色漸變,標註不同對局的數據點,紅色端為訓練早期,綠色端為訓練後期。由於座標軸區間限制,上圖中無第一局的兩個點:(1269.77, 29.25 ) 與 ( 1281.29, 29.6 )。可以看到,隨著水平的提升,數據點逐漸從左下角第三象限向右上角第一象限移動。進入到中後期之後,數據點又逐漸向左平移,最終穩定在大約 ( 20, 1.8 )附近。

究其原因,我們可以認為在達到某一個較高水平之前,棋力因素佔據了首位:棋力與平均勝率差異和方差呈負相關,水平越高平均勝率差異和方差越小。在達到之後,棋局的激烈程度佔據了主導。可以預料,在達到一定水平之後的AlphaGo Zero與分析用的ELF相比,每手棋勝率的差異並不會很大。在之前勝率趨勢圖中,也可以看到訓練後期的AlphaGo Zero自戰對局勝率圍繞50%波動十分激烈,這是導致方差略微變大的關鍵因素。

圍棋統計學1:AlphaGo Zero進化史

AlphaGo-Zero水平增長曲線

反應到上圖上,數據點向右上角快速移動的過程,可能是前期較為快速的增長過程。達到上圖拐點之後,數據點開始在某個中心點附近穩定下來。

圍棋統計學1:AlphaGo Zero進化史

平均勝率差異數據擬合

做對局編號-平均勝率差異的散點圖,並做數據擬合。結果表明,符合公式:

圍棋統計學1:AlphaGo Zero進化史

對局編號-平均勝率差異擬合公式

其中A=1.9354,B=4.2535,k=0.4509。R^2=0.96679,相關度非常好。擬合公式表明,在本方法下,平均勝率差異存在一個極限值A=1.9354,標準差σ=0.21794。

圍棋統計學1:AlphaGo Zero進化史

方差數據擬合

做對局編號-方差的散點圖,並做數據擬合。結果表明,符合公式:

圍棋統計學1:AlphaGo Zero進化史

對局編號-方差擬合公式

其中A=22.49,B=4345.5406,k=1.24818。R^2=0.95209,相關度非常好。擬合公式表明,在本方法下,方差存在一個極限值A=22.49,標準差σ=10.54696。

兩項極限值的存在,與水平後期增長大幅放緩相容,提示可能存在一個訓練的極限水平。此外,我們可以認為AlphaGo Zero在本方法下,是以 ( 22.49, 1.9354 ) 為中心的分佈,分佈可能符合高斯分佈或者泊松分佈,需要進一步數據的驗證。

三、吻合度分析

弈客鷹眼給出了20局棋,總計40個數據點的吻合度。

圍棋統計學1:AlphaGo Zero進化史

Zero自戰20局吻合度

做對局編號-吻合度的散點圖,並做數據擬合。

圍棋統計學1:AlphaGo Zero進化史

吻合度數據擬合

結果表明,符合公式:

圍棋統計學1:AlphaGo Zero進化史

吻合度-方差擬合公式

其中A=61.94971,B=-82.72247,k=0.32915。R^2=0.90839,相關度還不錯。擬合公式表明,在本方法下,方差存在一個極限值A=61.94971,標準差σ=1.28109。結果表明,在本方法下,AlphaGo Zero與ELF的吻合度存在一個極限值,也就是61.95%。只有1.28的標準差,提示AlphaGo Zero與ELF的吻合度是一個比較窄的分佈,主要集中在一個非常窄的區間內。

本項吻合度結果也表明了另一個事實,不同AI之間也相似度也並不是特別高。如果吻合度過高,提示被測試對象很可能與分析工具一致。

(毒奶菇)


分享到:


相關文章: