從 AlphaGo 到具有人類智慧的 AI 究竟有多遠?François Chollet 有了一些新想法

從 AlphaGo 到具有人類智慧的 AI 究竟有多遠?François Chollet 有了一些新想法

圖片來自Alex Castro / The Verge

測量人工智能的「智慧」是計算機科學領域中最棘手但最重要的問題之一。如果你不明白你今天製造的機器是否比昨天更聰明,那你怎麼知道你在進步?

乍一看,這似乎不是問題。其中一個回答是:「顯然人工智能越來越聰明」。僅從所有湧入這一領域的資金和人才就可以看出來。也可以回顧一下 AI 領域實現的一系列里程碑,例如 AI 在圍棋上打敗人類,以及像圖像識別等在十年前根本不可能落地的應用現在開始變得無處不在。我們怎麼能說 AI 這個領域不是在進步?

另一個回答是,這些成就並不是衡量「智慧」的良好標準。AI在國際象棋和圍棋中擊敗人類確實令人印象深刻,但是如果在解決一般的問題時,一個正在蹣跚學步的孩子甚至一隻老鼠都能讓最聰明的計算機「不知所措」,AI 又有什麼用?

這是人工智能研究人員、谷歌軟件工程師、機器學習界知名人士François Chollet 對當下的 AI 做出的評論。Chollet 是 Keras 庫的作者,而 Keras 則是一個被廣泛應用的開發神經網絡的程序,是當代人工智能的脊柱。他還編寫了大量關於機器學習的教科書,並在 Twitter 開設了專欄分享自己對於 AI 領域的觀點,廣受歡迎。

在最近一篇題為《測量智慧》的論文中,Chollet 還提出了一個論點,即人工智能世界需要重新定義什麼是「智慧」以及什麼不是「智慧」。Chollet 指出,如果研究人員想在通用人工智能方面取得進展,他們需要回顧過去流行的基準,如電子遊戲和棋類遊戲,並開始思考讓人類變得聰明的技能,比如我們所具有的概括和適應的能力。

在接受 The Verge 雜誌的電子郵件採訪時,Chollet 闡述了他對這個問題的看法,談到了他為什麼認為人工智能目前的成就被「歪曲了」,以及我們將來如何衡量「智慧」,為什麼關於超級人工智能的恐怖故事(如 Elon Musk 和其他人所說)會毫無根據地把控住公眾的想象力。

从 AlphaGo 到具有人类智慧的 AI 究竟有多远?François Chollet 有了一些新想法

FrançoisChollet是AI框架Keras的發明者,也是Google的軟件工程師

為了將Chollet 的觀點表述得更為清晰,本文對採訪做了一定編輯。

問:在您的論文中,您描述了塑造人工智能領域的兩個不同的「智慧」概念:一種「智慧」表現為能夠勝任廣泛的任務的能力,另一種則優先考慮適應能力和泛化能力,即人工智能應對新挑戰的能力。現在哪個框架的影響力更大,帶來了什麼樣的影響?

Chollet:該領域發展的頭 30 年裡,最有影響力的觀點是前者:「智慧」是一套靜態的程序和顯性的知識庫。現在,觀點則向另一個相反的方向偏倚:AI 社區定義「智慧」的主流方法還是一張「白紙」,或者用一個更確切的比喻來說,是「新初始化的深層神經網絡」。然而不幸的是,這是一個基本上沒有受過挑戰、甚至幾乎沒有經過檢驗的框架。這些問題有著很長的學術歷史(確切地說是幾十年的歷史),我認為即便是現在,AI 領域對「智慧」也沒有太多認識,也許是因為現在在做深度學習的人,大多數都是在 2016 年之後才加入這個領域的。

這種知識壟斷現象從來都不是什麼好事,尤其是在回答這些理解尚不足的科學問題時。它對於領域內的研究者提出一系列的問題帶來了很大的限制,也限制了人們追求的思想空間。我認為現在研究者們逐漸開始意識到了這個現象。

問:在您的論文中,您還提出,人工智能需要更好地定義「智慧」才能進步。您提到,現在研究人員專注於在靜態測試(例如在電子遊戲和棋類遊戲中獲勝)中對性能進行基準測試。為什麼您覺得這種測量「智慧」的方式是不足夠的呢?

Chollet:是這樣的,一旦你選擇了一個衡量標準,你將會為了實現這一標準而採取任何可以採用的捷徑。例如,如果你把下棋作為衡量「智慧」的標準(我們從 20 世紀 70 年代到 90 年代都是這麼做的),你最終會得到一個下棋的系統,僅此而已。而根本沒有理由去思考這個系統到底對其他事情有什麼益處。你最終讓系統實現了樹狀搜索和極小化極大算法,但這並不能教會系統任何關於人類智能的知識。如今,研究者們在 Dota 或 StarCraft 等電子遊戲中追求高超技能,將此作為實現了通用「智慧」的典型代表,則陷入了完全相同的智力陷阱。

這也許並不明顯,因為在人類看來,技能和「智慧」是密切相關的。人類的大腦可以利用它的通用「智慧」來獲得完成特定任務的技能。一個真正擅長象棋的人可以被認為是相當聰明的,因為,我們隱約知道他們必須用自己的通用「智慧」來從零開始學習下棋。他們不是為下棋而生的。所以我們知道,他們可以把這種通用「智慧」指向許多其他任務上,並學會同樣很高效地完成這些任務。這就是所謂的「通用性」。

但是機器沒有這樣的限制,機器完全可以為下棋而設計。因此,我們對人類所做的推論——「會下棋,因此一定很聰明」,就失效了,我們的擬人假設不再適用。通用「智慧」可以產生完成特定任務的技能,但絕對不能反過來說,完成特定任務的技能可以產生通用「智慧」。所以對於機器而言,技能和智慧是完全正交的。你可以獲得針對任何特定任務的特定技能,只要你可以用無限數據作為這種任務的樣例(或者花費無限的工程資源),但這仍然不能讓機器更接近通用「智慧」。

我最主要的觀點是,在任何一項任務中獲得超高技能,都不能作為「智慧」的標誌。除非這項任務實際上是一項元任務,它涉及讓機器在一系列以前未知的問題上獲得新技能。這正是我所提倡的「智慧」的基準。

从 AlphaGo 到具有人类智慧的 AI 究竟有多远?François Chollet 有了一些新想法

人工智能實驗室的研究人員在《星際爭霸2》中觀察他們的人工智能AlphaStar如何對付人類玩家。圖片來自DeepMind

問:如果當前的這些基準無法幫助我們發展擁有更通用、更靈活的「智慧」的人工智能,那麼為什麼它們如此受歡迎?

Chollet:毫無疑問,AI在特定的知名電子遊戲中擊敗人類冠軍的成就很大程度上是由報道這些項目的媒體所推動的。如果公眾對這些浮躁的,而且很容易被誤解為通往超人類通用人工智能的重要進步的「里程碑」不感興趣,那麼研究人員將做些別的事情。

我覺得這有點可悲,因為研究應該回答開放的科學問題,而不是產生公關效應。如果我開始用深度學習以超人類的水平「解決」《魔獸爭霸 3》,你可以肯定的是,只要我有足夠的工程人才和計算能力(對於這樣的任務來說,這大約需要幾千萬美元),我就一定能達到目的。然而一旦我做到了,我能學到關於「智慧」和泛化能力的什麼東西嗎?坦白說,什麼也學不到。充其量,我會掌握有關擴展深度學習的工程知識。所以,我並不真正將其視為科學研究,因為它沒有教給我們任何我們不知道的東西,也沒有回答任何開放性的問題。如果問題是,「我們能在超人類的水平上玩 X 遊戲嗎?」答案是肯定的:「可以,只要你能夠生成足夠密集的訓練環境的樣本,並將其輸入到一個有效表達的深度學習模型中」,早在前一段時間,我們就已經知道了這一點。(事實上,在 AIs 達到 DOTA2 和 StarCraft II 的冠軍級別之前的一段時間,我就表達過這樣的觀點。)

問:您認為這些項目的實際成果是什麼?這些項目的結果在多大程度上被誤解或歪曲

Chollet:我看到的一個明顯錯誤的陳述是,這些高技能的遊戲系統代表著「可以處理現實世界的複雜性和不確定性的人工智能系統的真正進步」。(正如 OpenAI 在給用來玩 DOTO2 的程序 OpenAI 5 發佈的新聞稿中所宣稱的那樣)。它們並不能代表人工智能的進步。如果它們真的可以,這將是一個非常有價值的研究領域,但事實並非如此。以 OpenAI 5 為例,它最初不能處理 Dota2 的複雜性,因為它是用 16 個字符來訓練的,不能泛化到整個遊戲中,整個遊戲有超過 100 個字符。它經過了 45,000 年的遊戲訓練,然後再一次注意到對於訓練數據的需求如何隨著任務的複雜度增長。而即便經過這麼長時間的訓練,得到的模型依舊被證明是非常脆弱的:在這種 AI 對外發布能供人類與之對戰後,即便是非冠軍的人類玩家,也能夠找到能十拿九穩地打敗它的策略。

如果你希望有一天能夠處理現實世界的複雜性和不確定性,你就必須開始問一些問題,比如什麼是泛化?如何衡量和最大化學習系統的泛化能力?這與向一個大的神經網絡投入 10 倍的數據並進行計算完全是正交的,這樣它的技能就能提高一點點。

問:那麼,對於這個領域來說,什麼是更好的測量「智慧」的標準呢?

Chollet:簡而言之,我們需要停止評估針對事先已知的任務的技能(比如象棋、Dota 或 StarCraft),而是開始評估「技能獲得能力」。這是指只使用系統事先不知道的新任務,來測量系統開始執行任務的先驗知識並測量系統的樣本效率(即完成任務所需的數據量)。系統需要的信息(先前的知識和經驗)越少,它就越聰明,而今天的人工智能系統真的一點也不聰明。

此外,我認為我們對「智慧」的衡量應該使「似人性」更加明確,因為可能存在不同類型的「智慧」,而我們實際上就是在隱含地談論類人的「智慧」,這包括試圖理解人類與生俱來的先驗知識。人類的學習是極其高效的,他們只需要很少的經驗就可以獲得新技能,但他們並不是從頭開始學習:除了一生積累的技能和知識外,他們還利用與生俱來的先驗知識來學習。

我最近的論文提出了一個新的基準數據集 ARC(「Abstraction and Reasoning Corpus」,意為「抽象和推理語料庫」),它看起來很像智商測試。ARC 是一組推理任務,其中每個任務都通過一小段演示(通常是三個演示)進行解釋,你應該從這幾個演示中學習如何完成任務。ARC 採取的立場是,你的系統所評估的每一項任務都應該是全新的,而且應該只涉及符合人類先天知識的知識。例如,它不能以語言作為特徵。目前,ARC 完全可以在沒有任何口頭解釋或先前訓練的前提下由人類完成,但它完全不能被任何我們已經嘗試過的人工智能技術所解決。這是一個巨大且明顯的信號,表明了有一些事情正在發生,也表明我們需要新的想法。

从 AlphaGo 到具有人类智慧的 AI 究竟有多远?François Chollet 有了一些新想法

Chollet 為他的新 ARC 基準數據集提出的「智慧」測試的一個例子。圖片來自 François Chollet

問:您認為只通過在這些問題上投入更多的計算能力,人工智能世界能夠繼續進步嗎?有人認為,從發展歷史上看,這是提高績效的最成功的方法,而其他人則認為,如果我們沿著這條路走下去,我們很快就會看到收益遞減。

Chollet:如果你在做一個特定的任務,這種觀點是絕對正確的:在垂直任務上投入更多的訓練數據和計算能力將提高針對該任務的能力。然而在幫助你理解如何實現人工智能的通用性方面,它會讓你一無所獲。

如果你有一個足夠大的深度學習模型,並且針對一個特定任務在跨輸入輸出空間的密集採樣上訓練它,那麼它將學習解決這個任務,不管是什麼——不論是 Dota 還是 StarCraft,凡是你能想到的。這是非常有價值的,並且在機器感知問題中有著幾乎無限的應用。這裡唯一的問題是,你需要的數據量是一個任務複雜度的組合函數,所以即使是稍微複雜的任務,計算也會變得非常昂貴。

以自動駕駛汽車為例。數以百萬計的訓練環境也不足以讓一個端到端的深度學習模型學會安全駕駛汽車。首先,這就是L5 自動駕駛還沒有完全實現的原因。其次,最先進的自動駕駛系統主要是符號模型,它們使用深度學習將這些人工設計的模型與傳感器數據連接起來。所以如果深度學習可以泛化的話,我們在 2016 年就應該擁有了 L5 自動駕駛,並且它採用一種大型神經網絡的形式。

从 AlphaGo 到具有人类智慧的 AI 究竟有多远?François Chollet 有了一些新想法

自動駕駛汽車的發展比許多人預測的要慢得多。圖片來自Vjeran Pavic / The Verge

問:最後,考慮到您所說的當前人工智能系統的限制,似乎有必要問一下對於「一個非常強大的 AI 在未來將會給人類帶來毀滅性的傷害」的「超級智能恐懼論」,您認為這種擔憂合理嗎?

Chollet:不,我認為關於超級智能的論述是沒有根據的。我們從未創造過一個自主的智能系統,也絕對沒有跡象表明我們能夠在不遠的將來創造一個。(這也並不是當前人工智能的發展方向。)而且如果我們真的在遙遠的未來創造了一個這樣的系統,我們也完全沒有辦法推測它會具備什麼特徵。用一個比喻來說,這有點像在 1600 年問:「彈道學進展很快!所以,如果我們有一門可以摧毀整個城市的大炮會怎麼樣呢,我們如何確保它只會殺掉壞人?」這是一個相當畸形的問題,在對我們所討論的系統尚缺乏任何知識的情況下進行辯論,這個問題充其量只是一個哲學爭論。

這種「超級智能恐懼論」有一個很大的問題是它們掩蓋了今天人工智能有可能變得相當危險這一事實。並非AI 系統實現了超級智能才能證實 AI 應用潛藏著危險。我此前寫過關於使用人工智能來實現算法宣傳系統的文章,也有其他人寫過算法偏見、在武器系統中使用人工智能,或者把人工智能當作極權主義的控制工具的文章。

有一個關於 1453 年君士坦丁堡被圍困的故事,講的是當這座城市與奧斯曼軍隊作戰時,它的學者和統治者卻在爭論天使的性別。這個故事告訴我們,我們投入越多的精力和注意力討論天使的性別,或者假設超級人工智能的價值取向時,我們處理人工智能技術當下存在的現實而緊迫的問題的精力和注意力就越少。現在,有一個出名的技術領導者喜歡把超級人工智能描繪成對人類生存的威脅。好吧,雖然這些想法能夠極大地吸引媒體的注意,但卻並沒有討論在我們的道路上那些部署不夠準確的、會導致交通事故和生命損失的自動駕駛系統所引發的道德問題。

問:如果一個人接受這些評論,即目前這些恐懼還沒有技術基礎作為支撐,那麼您認為為什麼超級智能的論述如此受歡迎呢?

Chollet:最後我只能說,這是一個好故事,而人們往往會被好故事所吸引。它與末世宗教的故事相似並不是巧合,因為宗教故事會隨著時間的推移而不斷演變並且會經過人們一再挑選,以與人們產生強烈的共鳴並有效傳播。出於同樣的原因,你也可以在科幻電影和小說中找到這種論述。這種論述被用在小說裡,與它跟宗教故事相似以及作為一種理解人工智能發展方向的方式而流行起來的原因都是一樣的:它是一個好故事,而人們需要故事來理解這個世界。人們對這些故事的需求,遠遠超過對理解「智慧」的本質或理解推動技術進步的因素的需求。

via https://www.theverge.com/2019/12/19/21029605/artificial-intelligence-ai-progress-measurement-benchmarks-interview-francois-chollet-google雷鋒網雷鋒網雷鋒網


分享到:


相關文章: