AlphaGo Zero都是手下敗將！DeepMind新AI擊敗全球三大棋藝AI 科技頭條網

AlphaGo Zero都是手下敗將！DeepMind新AI擊敗全球三大棋藝AI

Alphabet的人工智能子公司DeepMind上週五（12/7）公佈了人工智能系統AlphaZero的完整評估報告，並刊登於《科學》（Science）期刊上，各路棋藝高手則稱讚AlphaZero發展出自己的風格，不但具備創造力，還可能成為重要的教學工具。

AlphaZero與其它傳統AI棋藝引擎最大的不同在於它並非仰賴眾多的規則，或是自專家的棋戲中學習，而是透過深度神經網絡（Deep Neural Network）與通用目的算法展開自我學習，頂多只知道各種棋藝的基本規則。

AlphaGo Zero都是手下敗將！DeepMind新AI擊敗全球三大棋藝AI

AlphaZero挑戰的對象是全球最強大的西洋棋程序Stockfish、將棋程序Elmo，以及同樣由DeepMind所打造的圍棋程序AlphaGo。它花在西洋棋的訓練時間為9小時，將棋為12小時，圍棋為13天，訓練完畢之後，它在4個小時之後就勝過了Stockfish，在2小時之後便凌駕Elmo，並於30小時之後擊敗了AlphaGo。

研究人員解釋，在學習每一款棋藝的過程中，AlphaZero從一個完全未經訓練的神經網絡，經由與自己對戰數百萬回合進行強化學習（Reinforcement Learning），一開始它完全是隨機地下子，但它會從贏家與輸家的走法中學習，同時調整其神經網絡參數，而訓練時間則取決於各種棋藝的風格及複雜程度。

現今世上最優秀的日本將棋棋士羽生善治（Yoshiharu Habu）指出，AlphaZero的某些走法，例如把王將（King）移到棋盤中央，根本有違將棋理論，從人類的角度來看，這讓AlphaZero處於險惡之地，但令人難以置信的是，AlphaZero依然掌控著棋局，它的獨特風格向大家展示了該遊戲新的可能性。

經過完整訓練的AlphaZero在與Stockfish、Elmo及AlphaGo競賽時，展現了它的強大，在與Stockfish對戰時，在1,000盤的棋戲中贏了155盤，只輸了6盤；與Elmo對戰的勝率更敢達91.2%，與AlphaGo對戰的勝率則是61%。

而令棋士們感到最有趣的部份在於自我學習的AlphaZero並沒有受到傳統的遊戲智能規範，而發展自己的直覺與策略，帶來新鮮的想法，顛覆了幾個世紀以來人們或專家對這些棋藝的思考。

西洋棋大師Matthew Sadler指出，他率先注意到的就是AlphaZero的風格，它有目的地以大量的棋子有力地圍繞著國王，儘可能提高自己的行動力與移動性，同時最大限度地減少對方棋子的活動力及移動性，它完全不像傳統的遊戲程序，而好似獲得了一本武林秘籍。

Sadler還說，傳統的遊戲程序幾乎很少犯下明顯的錯誤，但在缺乏沒有具備或可計算的解決方案時即會遊移不定，然而，AlphaZero卻會在此時發揮它的感覺、洞察力或直覺。

另一名西洋棋大師Natasha Regan則說，AlphaZero的走法不管是與遊戲程序或國際級專家都不同，可望成為強大的教學工具。

DeepMind的研究人員則認為，AlphaZero展現一個單一的算法如何能在一系列的設定中挖掘新知識，儘管目前仍處於早期開發階段，但AlphaZero具備創意的見解再加上諸如AlphaFold等專案的結果讓他們有信心能夠建立一個通用的學習系統，有朝一日將可協助人們以新方法來解決重要及複雜的科學問題。

分享到:

閱讀更多 IT情報局菊長 的文章

關鍵字: 三大棋藝人工智能