AlphaGo Zero又上《Science》封面!谷歌的人工智能又幹翻人類了

在回顧2018年的時候,發現居然遺漏了一個“知識點”——在2018年的最後一個月,

AlphaGo Zero登上了世界頂級學術期刊《科學》雜誌的封面。

AlphaGo Zero又上《Science》封面!谷歌的人工智能又幹翻人類了

Google設計了AlphaGo(圍棋機器人)的事早已經家喻戶曉了,都9102年了,它怎麼又出現了?

說到這,盧sir就先帶大夥回顧一下AlphaGo的發展歷程吧。迄今為止,AlphaGo一共有四個版本:AlphaGo Fan、AlphaGo Lee、AlphaGo Master和AlphaGo Zero。

2016年,AlphaGo Fan以5比0的戰績戰勝了歐洲圍棋冠軍樊麾後,登上了國際學術期刊《自然》的封面,成功引起了人類的注意。

AlphaGo Zero又上《Science》封面!谷歌的人工智能又幹翻人類了

緊接著AlphaGo Lee又以4比1的比分戰勝了圍棋世界冠軍、職業九段棋手李世石,成為了世界上第一個戰勝圍棋世界冠軍的人工智能機器人。

愈戰愈勇的AlphaGo又以“AlphaGo Master”的身份與中日韓數十位圍棋高手進行快棋對決,創造了連續60局全勝的戰績,甚至連人類排名第一的棋手柯潔也被打成3比0。

不得不說,AlphaGo的勢頭的確挺猛的,僅一年的時間,就戰勝了大量的世界頂尖的圍棋高手,甚至還引發了“機器人打敗人類開始佔領地球”的言論。

不過機智的盧sir早已看破其中的奧秘,“Fan、Lee和Master”看起來是人工智能,實際上卻是“人工智障”。

因為它們在比賽前就會從對手的棋局裡進行全方位的學習,比如說:在任意一步時,它們就會把下一步所有可能性都羅列出來,然後一步步往後推,然後選取勝率最高的方法。

說來也搞笑,誰能想到一群圍棋精英會輸給一個連圍棋規則都不懂的機器人呢?所以說,AlphaGo只能打有準備的仗,讓它臨場發揮的話,可能它連我盧sir都下不贏,更別提它能“佔領地球”了。

直到2017年10月19,Deepmind(谷歌下屬公司)在國際學術期刊《自然》上發表的一篇研究論文中就提到了AlphaGo的全新版本——AlphaGo Zero。

AlphaGo Zero又上《Science》封面!谷歌的人工智能又幹翻人類了

AlphaGo Zero與前三代的最大不同是,它能從空白狀態學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋。

也就是說,這次AlphaGo Zero是真的自己學會了圍棋規則,系統學會漸漸從輸、贏以及平局裡面調整參數,讓自己更懂得選擇那些有利於贏下比賽的走法,而不再去分析對手的特徵了。

都說新官上任三把火,AlphaGo Zero僅經過了3天的訓練(自學),就以100比0的絕對優勢戰勝了AlphaGo Lee;經過40天訓練後又把AlphaGo Master給秒殺了。

高呼著“拋棄人類經驗”和“自我訓練”問世的AlphaGo Zero的本領當然不只是欺負“老人家”啦,它強大的reinforcement learning(強化學習的算法)可以讓它輕鬆的掌握國際象棋、日本將棋和中國圍棋,而且每項都能當世界第一。

訓練2個小時,AlphaZero就碾壓了日本將棋世界冠軍程序Elmo;訓練4個小時,AlphaZero就戰勝了國際象棋世界冠軍程序Stockfish。
AlphaGo Zero又上《Science》封面!谷歌的人工智能又幹翻人類了

其中,盧sir就發現了一個細節,由於AlphaGo Zero的機制從“知己知彼”變成了“百戰百勝”,它下棋能力也出現相應的成長式變化,而不是一味的獲勝。話不多說,直接看一組數據:

AlphaGo Zero在挑戰國際象棋世界冠軍Stockfish時,1000場輸了155場;在挑戰日本將棋世界冠軍Elmo時,勝率為91.2%;在挑戰AlphaGo的前三代時,勝率僅有61%。

那為什麼AlphaGo Zero不選擇和人類一較高下,而是和機器人打起了內戰?

因為早在AlphaGo把人類精英棋手虐一遍之後,就宣佈不再參與任何人機之間的下棋比賽,典型的裝完逼就跑。

其實機器人也是不忍心了,因為早在1997年5月,人類棋手就已經被機器人血虐了——超級計算機“深藍”打敗了國際象棋棋王,世界冠軍卡斯帕羅夫,這件事轟動了整個世界。

AlphaGo Zero又上《Science》封面!谷歌的人工智能又幹翻人類了

雖然盧sir覺得AlphaGo Zero已經有了質的突變,但還是有不少人懷疑它的真實性和可行性。

直到2018年12月,AlphaGo Zero登上世界頂級學術期刊《科學》雜誌封面後,《科學》雜誌官方為其正名:“能夠解決多個複雜問題的單一算法,是創建通用機器學習系統,解決實際問題的重要一步。”

那AlphaGo Zero到底是憑什麼用短短一年時間從“知己知彼”變成“百戰百勝”的呢?

首先,AlphaGo Zero做了一個全新的定位:重在學習,而不是急於求勝。

Deepmind採用了5000個TPU(可以簡單的理解為電腦的CPU),再結合深度神經網絡、通用強化學習算法和通用樹搜索算法來打造了一個全能棋手。

AlphaGo Zero的學習能力也是一個動態成長的過程,每次學習一種新的棋類或者遊戲都會根據難易程度來展開一段自我博弈,產生的超參數再通過貝葉斯優化進行調整。

與此同時,AlphaGo Zero的“自學”過程還有一項特別重要的任務——

對自身進行神經網絡訓練。

訓練好的神經網絡,可以精準地指引一個搜索算法,就是蒙特卡洛樹搜索 (MCTS) ,為每一步棋選出最有利的落子位置。每下一步之前,AlphaGo Zero的搜索對象不是所有可能性,而只是最合適當下“戰況”的一小部分可能性,這就大大提升了精確性和效率性。

關於神經網絡的優勢,Deepmind在論文中也例舉了例子。

AlphaGo Zero又上《Science》封面!谷歌的人工智能又幹翻人類了

上圖展示的是在AlphaGo Zero執白、Stockfish執黑的一局國際象棋裡,經過100次、1000次……直到100萬次模擬之後,AlphaZero蒙特卡洛樹的內部狀態。每個樹狀圖解都展示了10個最常訪問的狀態。

不怕機器人會下棋,就怕機器人產生意識和情感。

其實對於AlphaGo Zero的人工智能性質,棋手們最大的感受就是:這個傢伙不按套路出牌。因為AlphaGo Zero自己學習了每種棋類,所以它並不受人類現有套路的影響,產生了獨特的、且富有創造力和動態的棋風。

國際象棋世界冠軍卡斯帕羅夫也在《科學》上撰文表示:“AlphaGo Zero的棋風跟我一樣,具備動態、開放的風格。”


分享到:


相關文章: