AlphaGo Zero都是手下敗將!DeepMind新AI擊敗全球三大棋藝AI

Alphabet的人工智能子公司DeepMind上週五(12/7)公佈了人工智能系統AlphaZero的完整評估報告,並刊登於《科學》(Science)期刊上,各路棋藝高手則稱讚AlphaZero發展出自己的風格,不但具備創造力,還可能成為重要的教學工具。

AlphaZero與其它傳統AI棋藝引擎最大的不同在於它並非仰賴眾多的規則,或是自專家的棋戲中學習,而是透過深度神經網絡(Deep Neural Network)與通用目的算法展開自我學習,頂多只知道各種棋藝的基本規則。

AlphaGo Zero都是手下敗將!DeepMind新AI擊敗全球三大棋藝AI

AlphaZero挑戰的對象是全球最強大的西洋棋程序Stockfish、將棋程序Elmo,以及同樣由DeepMind所打造的圍棋程序AlphaGo。它花在西洋棋的訓練時間為9小時,將棋為12小時,圍棋為13天,訓練完畢之後,它在4個小時之後就勝過了Stockfish,在2小時之後便凌駕Elmo,並於30小時之後擊敗了AlphaGo。

研究人員解釋,在學習每一款棋藝的過程中,AlphaZero從一個完全未經訓練的神經網絡,經由與自己對戰數百萬回合進行強化學習(Reinforcement Learning),一開始它完全是隨機地下子,但它會從贏家與輸家的走法中學習,同時調整其神經網絡參數,而訓練時間則取決於各種棋藝的風格及複雜程度。

AlphaGo Zero都是手下敗將!DeepMind新AI擊敗全球三大棋藝AI

現今世上最優秀的日本將棋棋士羽生善治(Yoshiharu Habu)指出,AlphaZero的某些走法,例如把王將(King)移到棋盤中央,根本有違將棋理論,從人類的角度來看,這讓AlphaZero處於險惡之地,但令人難以置信的是,AlphaZero依然掌控著棋局,它的獨特風格向大家展示了該遊戲新的可能性。

經過完整訓練的AlphaZero在與Stockfish、Elmo及AlphaGo競賽時,展現了它的強大,在與Stockfish對戰時,在1,000盤的棋戲中贏了155盤,只輸了6盤;與Elmo對戰的勝率更敢達91.2%,與AlphaGo對戰的勝率則是61%。

而令棋士們感到最有趣的部份在於自我學習的AlphaZero並沒有受到傳統的遊戲智能規範,而發展自己的直覺與策略,帶來新鮮的想法,顛覆了幾個世紀以來人們或專家對這些棋藝的思考。

西洋棋大師Matthew Sadler指出,他率先注意到的就是AlphaZero的風格,它有目的地以大量的棋子有力地圍繞著國王,儘可能提高自己的行動力與移動性,同時最大限度地減少對方棋子的活動力及移動性,它完全不像傳統的遊戲程序,而好似獲得了一本武林秘籍。

AlphaGo Zero都是手下敗將!DeepMind新AI擊敗全球三大棋藝AI

Sadler還說,傳統的遊戲程序幾乎很少犯下明顯的錯誤,但在缺乏沒有具備或可計算的解決方案時即會遊移不定,然而,AlphaZero卻會在此時發揮它的感覺、洞察力或直覺。

另一名西洋棋大師Natasha Regan則說,AlphaZero的走法不管是與遊戲程序或國際級專家都不同,可望成為強大的教學工具。

DeepMind的研究人員則認為,AlphaZero展現一個單一的算法如何能在一系列的設定中挖掘新知識,儘管目前仍處於早期開發階段,但AlphaZero具備創意的見解再加上諸如AlphaFold等專案的結果讓他們有信心能夠建立一個通用的學習系統,有朝一日將可協助人們以新方法來解決重要及複雜的科學問題。


分享到:


相關文章: