Atari聯合創始人去世，為什麼遊戲對AI很重要？

2018-06-05 12:52:26 新智元

Ted Dabney（左一）和Pong遊戲機

新智元報道

【新智元導讀】雅達利（Atari）公司的聯合創始人Ted 逝世。“雅達利”這個名字，是人工智能歷史上一個不可忽視的關鍵詞。

那個花了250美元創辦Atari（雅達利）的人，Ted Dabney，上個月去世了。

Ted Dabney（全名Samuel F. "Ted" Dabney）可能沒有與他一起創辦雅達利的諾蘭·布什內爾（Nolan Bushnell）出名，但當年風靡世界的經典遊戲Pong，就是出自Ted Dabney等人之手。

https://v.qq.com/x/page/m1341yu9x4u.htmlPong（視頻鏈接）

Pong開創了街機視頻遊戲的歷史，也讓Atari成為一代遊戲的巨人，甚至還吸引了喬布斯等人的加入。

更重要的是，Atari系列遊戲不僅豐富了幾代人的童年生活，在計算機史上也功不可沒：DeepMind已經能夠操作49款雅達利遊戲，OpenAI強化學習遊戲庫中也包含了大量的雅達利遊戲。

Atari：AI發展史上的關鍵詞

“Atari”是AI發展史上一個不可繞過的關鍵詞。AI達到乃至超越人類水平的領域，最開始便來自雅達利。

Ted Dabney幫助發明的Atari遊戲Pong！，是被AI攻克的遊戲的常客，你能在網上搜到很多構建玩Pong！的AI的教程。

2013年12月，DeepMind宣佈他們研發的AI玩Atari遊戲Breakout（見下）超過了人類水平，這是DeepMind取得的首個突破之一。與Pong！類似，Breakout是一款單人的乒乓遊戲，也即對著牆打乒乓。在Breakout當中，人類玩家或者AI，用橫板（屏幕底部的紅色粗線條）左右移動接住球（中間的紅點），並用這個球撞擊並消除屏幕上方像素構成的“牆”，消除完畢後過關。

Breakout，最先被AI攻克的Atari遊戲之一

Breakout的動作簡單，而且能即時得到反饋，非常適於神經網絡，也因此，DeepMind的AI玩Breakout的成績，是專業人類玩家能達到的最好成績的十倍以上。

Atari遊戲，蒙特祖瑪的復仇（montezuma revenge）

而其他遊戲就沒有那麼簡單。在另一款Atari遊戲“蒙特祖瑪的復仇”（見上）中，目標是找到埋在充滿危險機關的金字塔裡的寶藏。要達到目標，玩家必須達成許多個次級的小目標，例如找到打開門的鑰匙。

這個遊戲的反饋也不像“Breakout”那麼即時，比如在一個地方找到的鑰匙，也有可能打開另一個地方的門。最終找到寶藏的獎勵，是之前的數千次動作的結果。這意味著網絡很難將原因和結果聯繫起來。與玩“Breakout”的突出表現相反，神經網絡目前在“蒙特祖瑪的復仇”遊戲中進展艱難。

DeepMind的啟示：智能應該完全從經驗中學習

視頻遊戲對 AI 的作用並非只是作為現實世界的模擬。不同的遊戲需要不同的技能，這一事實有助於研究人員理解智能問題。

不過，這又帶來了一個難題——神經網絡只能一次玩一個遊戲。例如，為了玩“Breakout”，必須要忘掉玩“Pong！”時學會的所有知識。這種遺忘是人工神經網絡本身的性質，也是人工神經網絡與真正的人類大腦相區別的地方。

人工神經網絡通過在全系統調整組成它們的虛擬神經元之間連接的強度來學習。一旦改變了要學習的任務，舊的網絡連接就會逐漸被重寫。

但是，進展也在發生，DeepMind 在2017年3月份發表論文，稱已經解決了DNN“災難性遺忘”的問題，DeepMind研究員讓網絡就像真正的人類大腦一樣，能一次掌握許多個遊戲。這是遷移學習——在一個上下文中使用從另一個上下文學會的行為模式的能力——這是 AI 研究中的一個熱門話題。

DeepMind研究，學習兩項任務過程的示意圖：使用EWC算法的深層神經網絡能夠學習翫一個遊戲，然

但即便掌握了遷移學習，構建可以用的人工智能仍然是一些零散的活動。研究人員真正希望得到的，是如何系統地進行這些活動的一種基本的理論。這種理論的一個候選，被稱為具身認知（embodied cognition）的理論認為，智能應該完全從經驗中學習，而不是試圖將智能從頭開始設計到一個程序裡。

現實世界是最大的遊戲場

DeepMind 的創始人 Demis Hassabis 認為，重要的事情是得確保虛擬機器人不會作弊。它只能使用虛擬的傳感器可以收集到的信息進行導航。如果一個機器人要在“蒙特祖瑪的復仇”或者“俠盜獵車手”遊戲中學習度過重重危險，它必須得自己弄明白自己在遊戲環境裡的位置，處理當時“看到”的事情，而不能問運行遊戲的計算機它在那個座標。這是 DeepMind 教程序學習翫遊戲採用的方式。

在虛擬世界裡的AI可以做很多事情，虛擬機器人是沒有重量的，也沒有各種部件，因此不需要維護。要改變它的技術參數也不需要拆開它，敲幾下鍵盤就可以了。它的環境也可以輕鬆改變。一臺計算機，一次就可以運行數千個這樣的模擬，讓大量虛擬機器人一次又一次地嘗試任務，每次嘗試都是在學習。這是一種大規模的測試，而且允許學習過程被監視和理解，根本就不使用真實的機器。