混合智能系統正在悄悄解決深度學習問題

隨著深度學習的成熟以及它從炒作高峰到幻滅低谷的轉變,它所缺少的一些基本組成部分漸漸浮出水面。

過去幾年中,深度學習技術重新燃起了人們對人工智能的興趣,它幫助解決了 計算機視覺、自然語言處理以及語音識別領域中的許多關鍵問題。然而,隨著深度學習的成熟以及它從炒作高峰到幻滅低谷的轉變,它所缺少的一些基本組成部分漸漸浮出水面。

在去年,深度學習和其主要技術,人工神經網絡 的眾多先驅者在多個人工智能大會上都承認了這一事實。三位“深度學習的教父”,Geoffrey Hinton、Yann LeCun,以及 Yoshua Bengio 都提起過神經網絡的侷限性。

現在問題來了,我們路在何方?

Bengio 在 NeurIPS 2019 上討論了 深度學習 2 號系統,這是一種新一代的神經網絡,可以處理組合性、無序分佈和因果結構。在 AAAI 2020 大會上,Hinton 討論了 卷積神經網絡(CNN)的缺點 以及向膠囊網絡發展的需求。

但是對於認知主義科學家 Gary Marcus 來說,開發神經網絡與 符號人工智能(在深度學習興起之前曾經主導該領域的人工智能分支)二者相結合的混合模型才是問題的解決之道。在題為《人工智能的下一個十年:邁向強健人工智能的四個步驟》的論文中, Gary Marcus 對混合人工智能如何解決當今深度學習面臨的一些基本問題做了探討。

延伸閱讀:[深度學習的進步促進了計算機視覺的發展,但是仍然存在明顯的侷限性]

連接主義者作為純粹基於神經網絡方法的支持者,拒絕任何迴歸符號人工智能的提議。Hinton 曾將混合智能類比為 電動機與內燃機的組合體,Bengio 也曾在多個場合迴避過混合人工智能的探討。

但是 Gary Marcus 認為,前進的道路在於化干戈為玉帛,將這二者的優勢結合起來。

深度神經網絡中缺少了什麼?

關於 深度學習的侷限 已經有很多深入的討論了,但在這篇文章中我更想談談一個在過去幾月中被反覆提及的話題,那就是知識的泛化。雖然人工智能還需要幾十年才能到達 類人的程度,但眼下我們仍然可以努力打造更強大的智能技術。

Gary Marcus 這樣定義“強人工智能”,“這種智能不一定要超越人類或可以自我改善。它可以藉助人工智能所擁有的知識,以其系統且可靠的方式處理更廣泛的問題,綜合不同來源的信息讓這種智能可以靈活、動態地對世界進行推理,就像正常成年人一樣,將它在某個環境中學習到的知識轉移到另一個環境中。”

目前的深度學習系統中還缺乏一些關鍵的特性。深度神經網絡可以吸收大量的數據並利用強大的計算資源解決某些棘手的問題,例如檢測某些特定種類的對象,或者是 在特定條件下打電子遊戲。

然而這些智能在泛用它們技能方面表現並不是很好。“如果實際環境和訓練環境有哪怕一丁點的偏差,它們基本就指望不上了,”Gary Marcus 如是寫道。

舉例來說,經受過上千次椅子圖片訓練的人工智能在沒有見過倒立椅子圖片的情況下會 認不出來一把顛倒的椅子。經歷數萬小時《星際爭霸 2》遊戲訓練 的超級人工智能可以擁有職業玩家的水平,但也僅限在一定的條件下。一旦遊戲中的地圖或者單位改變,它的性能就會直線下降。而且你也不能指望它能理解其他類似的遊戲,諸如《魔獸爭霸》或者《命令與征服》等。

混合智能系統正在悄悄解決深度學習問題

職業選手級別深度學習算法會打星際爭霸不代表會打其他類似遊戲。同樣,如果遊戲設定變動,哪怕知識出現小小的改變,都會讓 AI 無法繼續保持它的遊戲水準。

目前智能泛化問題的解決方法是擴展模型:搭建更大的神經網絡,收集更多的數據集,使用更大的服務器集群,以及對加強後的學習算法訓練更長的時間。

“雖然這種方法能看到成效,但我們仍然需要從根本開始重新思考,”引自 Gary Marcus 的論文。

事實上,“越大越好”的方法 在充其量帶來一定程度優化的同時,還會引出其他尚未解決的問題。其中一件就是,開發訓練如此大型的神經網絡需要鉅額的成本,而 這些資源幾乎都掌握在這一領域中的那些資金雄厚的科技公司 手上。

當涉及到語言處理任務時,神經網絡的弱勢就更加明顯了。諸如 OpenAI GP-2 以及 谷歌的聊天機器人 Meena 等語言模型都擁有超過十億個參數(神經網絡的基本單位),並通過以 GB 為單位的文本數據訓練。即使如此,它們還是會犯一些非常愚蠢的錯誤,正如 Gary Marcus 在他 今年早些時候發佈的文章 中指出的一樣。

“當純粹的計算能力被應用於開放領域(例如對話語言的理解和對世界的推理)時,計劃永遠趕不上變化。得到的結果總是會過於零碎且參差不齊,完全無法依靠。”Gary Marcus 如是寫道。

這番話的重點在於“開放領域”。開放領域可以是通用型聊天機器人或者 AI 助手,AI 助理通過與道路、房屋、工廠、商店等事物交互,可以直接與人類合作。過去的經驗則證明了是神經網絡本身的僵化性質妨礙了它們解決開放領域的問題。這一點同樣在 Gary Marcus 的論文中有詳細的探討。

為什麼我們需要結合符號人工智能和神經網絡?

連接主義者認為,基於純粹神經網絡結構的方法最終會帶來強人工智能或通用人工智能。畢竟,人腦是由物理神經元組成,而不是由物理變量、類佔位符和符號組成的。

但正如 Gary Marcus 論文中提出的,“一定形式的符號操控似乎對人類的認知系統而言至關重要,比如說小孩學習某種抽象語言模式,就像“姐姐”這個可以存在於無數個家庭中的詞語,或者是成年人對他所熟悉的語言模式有了標新立異的看法,這些都不是訓練能實現的。”

Gary Marcus 的假說得到了過去幾十年來幾位認知學家的認可和支持,他自己的書《代數思維》和最近的《重新啟動人工智能》也都提到了這一點。另一本值得一讀的是史蒂芬·平克的著作《心智探奇(How the Mind Works)》的第二章,他提出了證明符號操縱是大腦功能重要組成部分的證據。

我們已經有證據表明符號系統是可行的了,它無處不在,網頁瀏覽器、操作系統、應用程序、遊戲等等,都是基於規則的程序。“諷刺的是,世界上幾乎所有的神經網絡規範和執行都在使用這一套工具”,Gary Marcus 如是說。

數十年來的計算機科學和認知科學發展證明,存儲和操縱抽象概念的能力 對任何智能系統來說都是必不可少的一部分。這也就是為什麼符號操縱也應該作為任何強健智能系統的重要部分之一的原因。

“從這一刻起,出現了對結合符號操作以及諸如深度學習等技術的混合架構的基本需求,” Gary Marcus 說。

混合智能的示例

混合智能系統正在悄悄解決深度學習問題

混合智能系統的優點在於它們使神經網絡與符號人工智能的強項相結合。神經網絡可以從真實世界中收集到的混亂信息找到規律,例如視覺以及聲音數據,大量非結構化文本、電子郵件、聊天記錄等。基於規則的 AI 系統可以對這些提取到的信息進行符號操作。

儘管混合智能飽受連接主義專家們的批判,仍有大量證據證明這些系統在工作中的優勢。正如 Gary Marcus 在他的論文中所指出的,“研究人員偶爾會在不自覺的情況下構建包含符號操作裝置的系統,他們甚至都不會認識到自己這麼做了”。Gary Marcus 還列舉了幾個證明混合智能正在悄無聲息地解決著重要問題的例子。

其中一個例子是由 MIT 和 IBM 的研究者提出的混合智能系統,“神經 - 符號概念學習器(Neuro-Symbolic Concept Learner,NSCL)”。NSCL 通過結合神經網絡解決了視覺問答(VQA)問題,而單純使用神經網絡為基礎的方式很難解決這類問題。研究者在 CLEVR 數據集(VQA 問題中使用的渲染對象圖像的數據集)上測試了 NCSL,準確率非常喜人。混合智能模型使用了更少的訓練數據來達成更清晰的結果,一舉解決了困擾深度學習的兩個基本難題。

谷歌的搜索引擎就是一種大型混合智能,它組合了諸如 Transformers 這樣的頂尖深度學習技術,及諸如知識圖譜導航工具這樣的符號智能技術。

AlphaGo,過去幾年中最具里程碑意義的人工智能成就之一,是另一個將符號智能與深度學習相結合的示例。

“通過組合符號主義優勢與機器學習見解的架構,我們得以開發出更優秀的,提取歸納有大量噪音的大型數據集中抽象信息的技術,這樣的架構搭建可以有很多的起點,”Gary Marcus 寫道。

這篇論文隨後更詳細地介紹了混合智能系統的組成部分,以及諸如變量綁定、知識表示和因果關係等關鍵要素的與統計近似的集合。

“我個人堅信,任何強健系統都需要有某種用於變量綁定,以及一旦綁定就可以對這些變量執行操作的機制。但只是紙上談兵是不夠的。”Gary Marcus 寫道。

從歷史中學習

值得一提,在過去的幾年中,Gary Marcus 幾乎是憑藉一己之力、克服所有困難,堅持將人工智能發展以來的所有成就都整合起來,用於推動整個領域的發展。而要知道當時人工智能領域中絕大部分的傑出人士都拒絕重新考慮符號控制的可能性。

Gary Marcus 堅持不懈的舉動讓人不禁聯想起 Hinton、Bengio 和 LeCun 在外界對神經網絡毫無興趣的情況下幾十年如一日地推動其發展。他們對深度神經網絡的信念最終“修成正果”,不僅引領了 2010 年代對深度學習的革命,也在 2019 年為他們獲得了圖靈獎。

而 Gary Marcus 對開發強混合智能系統的追尋最終將帶來什麼,這很讓人好奇。


分享到:


相關文章: