表徵學習、圖神經網絡、可解釋的 AI,ML & 機器人七大研究進展一覽

隨著每一年的結束,麻省理工學院電氣工程與計算機科學系博士 Gregory J Stein 都會回顧一下對其影響最大的各大研究趨勢或論文,今年亦如此。

作為該領域的研究人員,他發現深入研究其認為研究界取得的巨大進展,或找出目前可能沒有取得進展的領域,可能會很有意義。

本文中,Gregory J Stein 對機器學習和機器人研究領域的目前的發展現狀發表了他的看法。

一、從 ALPHAZERO 到 MUZERO

AlphaZero 是2017年我最喜歡的論文之一。DeepMind 的國際象棋和圍棋 AI 今年實現了重大升級,現在的版本名叫: MuZero,從而順利將 Atari 遊戲添加到了其以超越人類的表現完成的任務清單之列。

以前對於 AlphaZero 來說,Atari 遊戲是遙不可及的,因為這款遊戲的觀察空間非常大,這使得 AlphaZero 難以構建行為樹並得出決策結果。在圍棋中,由於棋盤會遵循採取某個動作後棋盤會呈現的局勢的一系列規則,因此預測行為結果是很容易的。

但對於 Atari 而言,預測行動結果原則上需要預測下一幀遊戲可能呈現的戰局。當系統試圖估計它在幾幀內的動作會對未來所造成的影響時,這種非常高維的狀態空間和難以定義的觀察模型,將極具挑戰。

  • MuZero論文地址:https://arxiv.org/abs/1911.08265

MuZero 通過學習狀態空間的潛在(低維)表示形式(包括當前幀),然後在該學習空間中規劃從而規避了此問題。有了這一轉變,智能體就可以在這個狹小的隱藏空間中採取行動,並想象許多不同行動的影響並評估可能發生的取捨,這就是 AlphaZero 和 MuZero 都基於的蒙特卡洛樹搜索(MCTS)算法的標誌性特徵。

這種方法感覺更像是我所期望的真正的智能決策系統:擁有權衡不同選擇,而不必精確地預測每個選擇對於真實世界的影響的能力。這裡的複雜之處在於他們如何同時學習潛在空間並學會在該潛在空間進行規劃,更多詳細信息可以參閱他們的論文。

這項工作真正令我吃驚的是,它是如何將個人想法組合成一個更大的工作系統。這篇論文與我見過的其它關於機器學習工作的系統論文一樣,但除了表徵特徵化神經網絡訓練這一常年慣用的技巧之外,MuZero 中提出的想法還幫助回答了關於如何為日益複雜的問題構建 AI 的深刻問題。

整個 AI 研究社區都正在努力將個人的想法彙集起來,集合個體思想以建立更強大的決策系統。AlphaZero 和 MuZero 也都朝著這個方向發展,識別 MCTS 樹結構(模擬選擇不同動作的影響)以及預測每個動作的未來優點的能力,將產生更強大的學習系統。

而 MuZero 學習緊湊表示的額外能力(系統動態模型),可以模擬規劃動作和隨後觀察來達到規劃接下來的動作的目的,這讓我相信這樣的系統可能有一天能夠解決現實世界機器人技術的問題。

然而,AlphaZero 和 MuZero 目前還缺乏解決實際問題的能力,相關討論可參考這篇文章:

  • 文章地址:http://www.cachestocaches.com/2018/12/toward-real-world-alphazero/

隨著我們努力使 AI 變得越來越智能,這項工作將推著我們往更好地理解哪些想法和工具能夠讓這些系統在現實中得以應用的方向前進。

在此領域,另一個值得一提的成果是 Facebook AI 的 Hanabi 紙牌遊戲 AI,該系統中需要讓 AI 玩一個部分可觀察的協作式紙牌遊戲。

二、表徵學習(萬能的符號 AI)

也許最讓我興奮的進展,要數表徵學習領域。

我是老式經典規劃和所謂的符號 AI 的忠實擁護者,在該方法中,智能體通過理解對象或人此類的符號與真實世界建立聯繫。

人類一直是這樣做的,但是將我們的能力轉譯給機器人或者人工智能體時,我們經常需要指明希望智能體推理出什麼對象或者其他的預測。

但一個在很大程度上難以獲得確切答案的問題是:符號從何而來?更籠統地說:我們應該如何表徵世界,以便機器人在解決複雜的現實問題時能夠快速有效地做出決策?

最近的一些工作已開始在能夠從數據中學習這種表徵的方向上取得真正的進展,使學習系統能夠自行推斷對象或建立它們能夠用以與此前未見過的位置進行交互的對象和位置的“關係圖”。

這項研究目前仍處於初級階段,但是我很渴望看到它的進展,因為我堅信朝著能力更強的機器人方向前進,需要對這個領域有更深入的瞭解和取得重大的進步。我發現了幾篇特別有趣的論文,包括:

  • Entity Abstraction in Visual Model-Based Reinforcement Learning(基於視覺模型的強化學習中的實體抽象)

  • 論文地址:https://arxiv.org/pdf/1910.12827.pdf

這篇文章是最近嘗試讓系統瞭解什麼是對象,然後使用所學的動力學正向模擬那些對象的行為來構建學習問題的少數研究之一。該篇論文表示:“ OP3 強制執行實體抽象,將潛在狀態分解為局部實體狀態,每個局部狀態均使用以通用實體作為參數的相同函數進行對稱處理。”

此工作尚處於起步階段,但我期待看到社區將如何繼續研究使用新穎的學習結構,來系統找出感興趣的實體,然後用於後續的規劃管道中。

表征学习、图神经网络、可解释的 AI,ML & 机器人七大研究进展一览

圖1 這是來自實體抽象論文的一個示例,展示瞭如何使用此方法對未來進行預測

  • Bayesian Relational Memory for Semantic Visual Navigation (語義視覺導航的的貝葉斯關係記憶)

  • 論文地址:https://arxiv.org/pdf/1909.04306.pdf

這篇論文涉及到構建一個在線拓撲圖作為尋找語義目標的智能體導航(例如找到廚房)。導航時,智能體將定期識別新的房間,並在它們變得足夠確定時將新房間添加到其不斷增長的關係圖中。這裡執行的一切處理都基於視覺,意味著系統必須處理相當大的不確定性和高維輸入。這篇文章與 ICLR 2018 上發表的一篇極具影響力的論文《 Semi-parametric Topological Memory for Navigation》的想法類似:智能體需要事先演示環境以構建它的地圖。

  • 論文地址:https://arxiv.org/abs/1803.00653

在未來幾年裡,我期望看到 AI 研究社區如何繼續將基於模型和不基於模型的技術之間的邊界模糊化。

概括而言:我希望符號 AI 和更多“現代”深度學習方法能夠交叉取得更多的進展,以解決像基於視覺的地圖構建、不確定性下的規劃和終身學習等機器人技術社區感興趣的問題。

三、監督計算機視覺領域研究

自從 Facebook 研究院的 Mask-RCNN 在 2018 年興起以來,我在監督機器視覺領域再也沒有看到尤為鼓舞人心的研究成果。這並不是說這個領域的研究不重要。

在這個領域,諸如語義分割或對象檢測之類的研究進展已經相當成熟。ImageNet 大規模視覺識別挑戰賽(ILSVRC)的對象檢測已逐漸淡出人們的視線,因為只有企業(通常擁有優質豐富的數據集或財務資源)願意在這一挑戰賽中爭取獲得好的名次。

但這不是一件壞事!事實上現在尤其是機器人研究者的好時機,因為研究社區已經發展到了這樣一個節點:在研究人員可用的數據集之外儘可能地追求更高的性能,並且開始更加關注廣泛採用機器人工具和與這一過程相關的“便利功能”。

現在研究社區在使用各種各樣的新技術來更快地訓練這些系統,並且在不影響準確性的情況下使它們更快更有效。

作為一個對真實世界感興趣和經常使用這些新技術的人,我發現我對尤其是在像智能手機和小型自動機器人等資源受限的系統上使用這些技術的研究特別感興趣,這些研究將會促使這些工具和功能得到更廣泛的應用。

在網絡蒸餾方面,一些很棒的工作十分值得關注:在訓練模型後使用優化技術刪除對整體性能影響不大的神經網絡部分,代價只不過是增加些計算量。

對於如何避免需要剪枝來初始化和訓練小型神經網絡,《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》一文提出了一些有趣的想法,儘管該成果尚未產生廣泛的實際影響。

  • 論文地址:https://arxiv.org/abs/1803.03635

同時,在下方這篇“超棒”的 GitHub 貼文提供了不同網絡剪枝方法的完整列表。

  • 貼文地址:https://github.com/he-y/Awesome-Pruning#2019

還有一些相關技術,是使用專用的硬件功能來進一步加速網絡編譯。《FastDepth:Fast Monocular Depth Estimation on Embedded Systems》一文就是在單目深度估計(monocular depth estimation)任務中結合使用這些技術的一個很好的例子。

  • 論文地址:http://fastdepth.mit.edu/

四、成熟的技術

新技術和新領域的進展讓人振奮,但這些技術研究開始放緩,同樣值得關注。隨著許多研究領域已經取得了初級的研究成果,研究本身變得越來越有趣,並且由於阻礙該領域進展的真實挑戰也變得越來越明晰,會促使研究人員對該領域進行更深層的研究。

對於機器人技術和機器學習的交叉領域的研究人員,我發現大多數人的觀點是:只有技術變得足夠強大時,人們才可能相信它們能為現實中硬件的決策提供依據。

五、圖神經網絡

我對圖神經網絡的忠實擁護者。從《 Relational inductive biases, deep learning, and graph networks》一文發表以來,我一直在深入思考如何將GNN學習集成為我自身研究工作的學習後端。

  • 論文地址:https://arxiv.org/abs/1806.01261

總體思路很簡單:構建一個圖,其中節點與各個實體(對象、空間區域、語義位置)相對應,並根據它們相互影響力將它們進行連接。簡而言之,我的想法是:在最容易定義的目標問題上採用儘可能多的架構,然後讓深度神經網絡根據該結構來學習實體之間的關係(這與我在上文中提到的表徵學習概念類似)。

圖模型在 AI 中已使用了數十年,但是如何處理高維觀測值的問題卻是一大瓶頸,在一段時間內,似乎只有手動設計特徵能夠成功解決該問題。

但隨著 GNN 的出現,高維輸入不再是一大難題。去年我們看到了使用 GNN 完成對其他表徵學習方法(如量子化學)極具挑戰的有趣目標的工具,呈爆炸式的增長。

今年,隨著用於構建和使用圖網絡的工具日趨成熟,研究人員開始將 GNN 用於解決他們自己的問題,在機器學習和機器人技術的交叉研究方向開展了一些有趣的工作。

使用 GNN 感興趣的讀者,可以訪問 DeepMind 提供的 Collaboratory Notebook ,上面有大量演示結果。

  • 相關地址:https://colab.research.google.com/

同時,我對機器人良好導航決策能力(特別是當它們僅獲取了周圍環境的不完整信息時)也十分感興趣,以及《Autonomous Exploration Under Uncertainty via Graph Convolutional Networks》和 NikoSünderhauf 發表的《Where are the Keys? 》等論文都非常引人深思,相關論文可以參考下文地址:

  • 論文地址:https://arxiv.org/abs/1803.03635

六、可解釋的 AI

儘管我對深度學習和表徵學習方法的前景感到十分興奮,但這些技術所產生的系統通常是難以理解的。由於這些系統逐漸面向人類,其難以理解的特點將成為一個問題。

幸運的是,人們對可解釋的 AI 的關注度逐漸增加並取得了一些進展,總體上正在朝著人類可能願意相信和共存的 AI 方向努力。

最近引起我關注的可解釋 AI 領域中最有趣的論文之一,是杜克大學 Cynthia Rudin 實驗室 Chenhaofan Chen 和 Oscar Li 所著的《This Looks Like That: Deep Learning for Interpretable Image Recognition 》。

  • 論文地址:https://arxiv.org/pdf/1806.10574.pdf

文中作者通過識別當前圖像的哪些區域與其他圖像中的相似區域相匹配,並匹配兩者之間的分類,建立了一個圖像分類管道。由於該分類方法專門提供了訓練集中相似圖像和特徵的直接對比,因此該分類方法比其他性能接近的技術更具可解釋性。

下圖來自論文,展示了系統如何對黏土色的麻雀圖像進行分類:

表征学习、图神经网络、可解释的 AI,ML & 机器人七大研究进展一览

圖2 《This Looks Like That: Deep Learning for Interpretable Image Recognition 》一文中圖像分類方法的示例。

今年 Cynthia Rudin 還發表了她的著作:《 Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead》。她在書中提出,我們應該停止事後“解釋”黑盒模型做出的決策,而應該構建在構造上可解釋的模型。

我不知道我是否一定認同應立即停止使用黑盒模型,但她在論文中提出了一些充分合理的觀點,對於當前以開發黑盒模型為主流的 AI 領域至關重要。

  • 論文地址:https://arxiv.org/pdf/1811.10154.pdf

過去一年中還有一些不錯的研究,例如由我的朋友和同事 Leilani H. Gilpin 和 Cecilia Testart 等人所著的《Explaining Explanations to Society》,致力於研究什麼類型的模型解釋對社會最有用,以及我們如何解決現有深度學習系統輸出結果的侷限性等相關問題。

  • 論文地址:https://arxiv.org/pdf/1901.06560.pdf

簡而言之,2019年以來,我最大收穫之一是:研究人員尤其應該意識到,我們開發模型和嘗試構建系統時,應該儘可能設計成可解釋性的。

不久前我撰寫了《Deepmind's Alphazero and the Real Word》一文,其中提到的一些應用我非常感興趣,並希望研究社區中越來越多的人能優先進行可解釋系統設計。

  • 論文地址:http://www.cachestocaches.com/2018/12/toward-real-world-alphazero/#navigation-in-unknown-environments

七、模擬工具的持續增長和模擬到現實的進展

如果數據不夠多樣化,則模擬是一種非常有用的工具,因為數據便宜且有效無限。

2018年出現了大量模擬工具,其中許多模擬工具通過模擬現實環境提供了許多逼真的圖像,目的是直接用於實現現實功能。

這些環境包括超大規模、多傳感器、逼真的室內數據集 InteriorNet 和“ 由 1447 層組成的 572 棟完整建築物,總面積 21.1 萬平方米”的 GibsonEnv 數據集。

今年,這一領域孩子持續發展,包括新交互式的 Gibson 環境和 Facebook (發佈的令人)驚豔的 AI Habitat 環境。

表征学习、图神经网络、可解释的 AI,ML & 机器人七大研究进展一览

圖3 這些圖像取材自Facebook關於AI Habitat真實模擬環境的技術報告,該技術報告於今年開源,圖像確實看起來令人難以置信。(相關閱讀參考:https://arxiv.org/pdf/1904.01201.pdf)

在現實世界中,出現了越來越多模擬工具技術並且能夠獲得良好的性能。在域隨機化中,模擬場景的元素(紋理,光照,顏色等)是隨機變化的,因此學習算法學著忽略那些通常無關的細節。誠然,我從未(完全)看好域隨機化的前景。

對於許多機器人應用而言,特定的紋理和光照實際上可能對規劃十分重要,並且特定域技術可能更合適和隨機化,例如一些數據增強處理,可能會引入自身的一些問題。話雖如此,研究人員過去一年的努力(包括《Sim-to-Real via Sim-to-Sim》這篇論文在內)和通過在各個子領域中廣泛使用這些技術來提高性能,讓我開始相信這些技術的實用性。

  • 論文地址:https://arxiv.org/pdf/1812.07252.pdf

OpenAI 還將域隨機化應用到視覺外觀和物理學上,來讓 AI 學習操作魔方,證明了機器人的手可比我們人類要靈活得多。

  • 論文地址:https://openai.com/blog/solving-rubiks-cube/

對此,2019年 RSS大會上的一篇論文《Workshop on Closing the Reality Gap in Sim2real Transfer for Robotic Manipulation》。值得一讀,閱讀地址如下:

  • 論文地址:https://sim2real.github.io/

去年,除了隨機化,致力於研究在各個領域間遷移知識的域適應性算法也取得了一些進展。我對諸如《 Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience》等工作特別感興趣,文中用一些現實世界的推理使 RL 智能體從模擬中調整它的經驗。

  • 論文地址:https://arxiv.org/pdf/1810.05687.pdf

八、苦樂參半的教訓

如果不圍繞“ 痛苦的教訓 ”進行一番討論,那對 2019 年 AI 的討論將是不完整的。

在 AI 界備受推崇、遠近聞名的研究者 Rich Sutton 在網站上發了一篇博文探討了,在 AI 的歷史發展進程和他的職業生涯中,這些由人類手工設計的基於模型的方法如何反覆被不基於模型的方法取代,如深度學習。

他列舉了用於對象檢測的“SIFT”特徵算法作為一個例子,雖然“SIFT”特徵算法已經流行了20年,但是深度學習卻能非常輕易地得到該算法所實現的所有結果。

他繼續說道:

這是一個重要的教訓。在 AI 這個領域,由於我們正繼續犯同樣的錯誤,我們仍未完全瞭解它。為了看到並有效規避這些錯誤,我們必須理解這些錯誤背後的誘因。我們必須吸取痛苦的教訓:從長遠來看,我們必須吸取沉重的教訓,即建立在我們的想法之上的思考方式是行不通的。

慘痛的教訓是基於歷史觀察得出的:1)人工智能研究人員經常試圖將知識構建到智能體中; 2)這在短期內是有幫助的,並且使研究人員滿意,但是 3)從長遠來看,這會使研究停滯不前甚至阻礙了進一步發展,並且4)然而最終的突破性進展,往往是得益於完全相反的方法即基於通過搜索和學習進行縮放計算的方法而實現的。由於算法的成功基於個人喜好和以人為中心,所以最終的成果往往充滿了苦澀並且通常無法為人們所完全接受。

從慘痛的教訓中應該學到的一件事是:通用方法(如搜索和學習兩種方法)十分強大,即使可用的計算變得很大,這些方法也會隨著計算量的增加而不斷擴展。

他的觀點引發了 AI 研究界的廣泛爭論,以及 Rodney Brooks 和 Max Welling 等人令人難以置信的反駁,相關閱讀參考下文:

  • 相關文章地址:https://rodneybrooks.com/a-better-lesson/

    https://staff.fnwi.uva.nl/m.welling/wp-content/uploads/Model-versus-Data-AI-1.pdf

我的看法呢?我們的學習算法中總是存在一些先驗假設,而我們對數據和學習特徵如何轉化為泛化能力,只是略懂皮毛。

這是我對錶徵學習和深度學習與經典規劃技術的交叉研究感到如此興奮的原因之一。只有通過代碼清晰表達如何編碼智能體重複使用知識的能力,AI系統才有希望在複雜的多序列計劃任務上獲得可信賴的泛化。我們應該期望 AI 能夠展示像人類一樣的組合泛化能力,可以實現無需指數級增長數據集的有效泛化。

九、結論

儘管在 2019年,AI 領域取得的進展很多,但未來幾年仍將會有許多成熟領域增長。我希望看到AI 技術在更多“ 部分可觀察區域”得到應用,這要求智能體對它的環境有著深刻理解從而能夠對未來進行預測,這也是我正在積極努力研究的事情。

我還樂於看到所謂的終身 AI ,即系統在花更多時間與周圍環境交互時能夠持續學習併成長的 AI 能夠取得更多進展。

目前,許多與現實世界交互的系統都很難以優雅的方式處理噪聲,並且隨著傳感器數據的增加,除了最簡單的應用之外,這些處理噪聲的方法在大多數學習模型上都會失效。

作者注:這篇文章毫無疑問只是我通過個別樣本得出的該領域進展,不可能有效全面地涵蓋所有內容。正如 Jeff Dean 在《Deep_Learning_for_Solving_Important_Problems》一文中所指出的,每天大約有 100 篇機器學習論文發表在 Machine Learning ArXiv 上。

與此同時,這些研究從哪些方面推動了該領域的進展,我的看法也可能與大家有所不同。

http://www.cachestocaches.com/2019/12/my-state-of-the-field/雷鋒網雷鋒網雷鋒網


分享到:


相關文章: