Yoshua Bengio:注意力是“有意識”AI的核心要素

Yoshua Bengio:注意力是“有意識”AI的核心要素

作者 | 蔣寶尚

注意力機制或許是未來機器學習的核心要素。

在本週舉辦的ICLR 2020 上,圖靈獎獲得者Yoshua Bengio 在其特邀報告中著重強調了這一點。

目前注意力機制已是深度學習裡的大殺器,無論是圖像處理、語音識別還是自然語言處理的各種不同類型的任務中,都很容易遇到注意力模型的身影。

借鑑於人類的注意力機制,關注注意焦點,注意力機制是作為一種通用的思想出現的。

Bengio在其報告《與意識相關的深度學習先驗》中提到,丹尼爾·卡尼曼的書《思考,快與慢》中指出人的認知系統有兩類,一類是無意識(快系統)的,關鍵詞是直覺、非語言、習慣;第二類是有意識的(慢系統),關鍵詞是語言性、算法性,推理和計劃。

Bengio指出,第二類認知系統允許對語義概念進行操縱、重組,這對於當前的人工智能和機器學習算法來說是一個非常渴望的特性。

但目前的機器學習方法還遠沒有從無意識發展到全意識,但是Bengio相信從“無”到“有”的轉變完全可能,而注意力則是轉變過程的核心要素之一。

在報告中,Bengio提到,注意力機制每次都關注其中某幾個概念並進行計算,因為意識先驗及其相關的假設中,許多高層次的依賴關係可以被一個稀疏因子圖近似地捕捉到。

最後,報告介紹了元學習,這種先驗意識和代理視角下的表徵學習,會更加有助於以新穎的方式,支持強大的合成泛化形式。

AI科技評論對演講內容做了有刪改的翻譯整理,供大家參考:

Bengio:

Yoshua Bengio:注意力是“有意识”AI的核心要素

此次報告的主題是深度學習的未來發展方向,特別是深度學習與意識的關係。其實神經科學對意識內容的研究在近幾十年裡已經有了很大的進展。

Yoshua Bengio:注意力是“有意识”AI的核心要素

所以現在是機器學習考慮這些將意識加入模型的時候了。另一方面,這對意識的研究也有好處,能夠在測試意識的特定假設功能以及正式化方面提供幫助,也能夠讓我們從意識中獲得一些魔力,並理解意識的進化優勢、計算和統計優勢。

Yoshua Bengio:注意力是“有意识”AI的核心要素

對於意識,丹尼爾·卡尼曼在《思考,快與慢》這本書中,對許多常見的現象如直覺、錯覺、偏見等給出了科學解釋,並介紹了“系統1,系統2”,描述了大腦的兩種思維模式。

對於[系統1],可以想象這樣的場景:在一條你已經非常清楚路況的公路上開汽車,這時候,你並沒有把所有的注意力都放在駕駛上,如果有人和你進行談話,你也可以輕鬆回應。

相反,[系統2]的場景描述就是:如果你在一個新的地方開車,這時候別人和你對話,你會非常煩,因為你要把精力都放在駕駛上。

所以「系統1」的任務涉及到直覺知識,它能夠很快執行,在你大腦中是不知不覺一步一步發生的。「系統1」通常涉及隱性知識,很難用語言解釋,但是人工神經網絡卻擅長存儲隱性知識,這也是現在深度學習表現非常好的原因。

而「系統2」的任務更多的需要以一種有意識的方式,按照順序並能夠用語言來描述,這也是所謂的顯性知識,涉及到了推理和規劃的算法。

所以「系統2」在做任務執行的時候可能非常慢,但裡面的涉及的關鍵確是我們想給深度學習進一步擴展的功能。

簡單而言,「系統2」任務的一個有趣的特性是允許操縱高級語義概念,這些概念可以在新的情況下使用,並與分佈外的泛化相聯繫,而未來的深度學習需要的正是種“操縱”功能。

Yoshua Bengio:注意力是“有意识”AI的核心要素

認知角度來說,我們大腦中關於世界的知識認知可以分為兩類:隱性知識和顯性知識。能夠語言化的其實是一種特殊的知識,我們應該試著去描述和刻畫,這樣才能把它放在模型的訓練框架中。而且,這些知識是圍繞著我們可以用語言命名的概念來組織的。因此,這些研究和建立更好的自然語言理解之間有很強的聯繫。

Yoshua Bengio:注意力是“有意识”AI的核心要素

將意識加工到深度學習需要先驗知識。那麼什麼樣的先驗知識能夠幫助擴展深度學習,並使其融入高級概念和「系統2」任務存在的那種結構?

第一個前提是有些高級別之間的聯合分佈的結構,也稱為語義變量。聯合分佈可以用圖形模型來描述,特別是因子圖,因為它是稀疏的,每個知識涉及的很少。此外,這些變量往往與因果關係有關。還有一個假設,是關於高層次變量的,即思想和單詞和句子之間有一種簡單的關係,以便可以表達有意識的想法。

例如,在編程或邏輯思維中,有些知識是可以重用的,可以將它們視為跨多個實例應用的規則,當然也可以視為類似於函數的參數。

還有一個重要的問題,是考慮變量中的數據類型如何隨時間變化,概率分佈如何隨時間變化。搞清楚這些非常重要,因為這些變量可能是因果關係的閃光符。這裡面涉及的假設是:當分佈發生變化時,其餘的聯合分佈大多不會隨著關係的變化而變化。

還需要注意的一點是,我們的觀察、感官數據、低級動作和高級變量,當有干預時,唯一會改變的是高水平變量的某些性質,而不是它們與低水平知覺的關係。

最後一個假設是關於推理和計劃,以及什麼對這些變量進行分配(Credit Assignment),這裡的假設是:在此進行的信用分配涉及較短的成本變化。

符合以上假設的先驗知識能夠幫助擴展深度學習。

Yoshua Bengio:注意力是“有意识”AI的核心要素

然後看一下「系統 2 」的任務涉及的有趣性質,也就是所謂的系統概括能力,專業的語言學已經對此做了非常多的研究,這些研究發現人類可以動態的重新組合現有的概念來形成一個新的概念。

這些概念可以是口頭的,也可以是視覺的,如上圖所示,不同類型的車輛組合在一起形成了一個新的概念,這種概念的重組能夠解釋我們從未見到過的觀測結果,即使是在訓練分佈概率為零的條件下也可以。對於此種現象,到目前為止,我們在多篇論文中實驗觀察到的是,當分佈發生這樣的變化時,當前的深度學習系統表現不是很好,而且他們往往會發生過擬合。

Yoshua Bengio:注意力是“有意识”AI的核心要素

顯然,AI並不能像人類做的那樣好,經典的人工智能程序想要兩全其美,就要避免經典的基於人工智能規則的符號操作的陷阱。

這就需要把通過深度學習取得的一些成果保留,如高效-大規模學習,語義基礎、以及「系統1」中的知識表達、以及機器學習正確處理不確定性的能力。

但是,我們想要的是一些與「系統2」相關優勢,即將知識分解之後,我們可以操縱變量、實例以及引用。

Yoshua Bengio:注意力是“有意识”AI的核心要素

接下來看一下注意力機制,在過去的幾年裡,在深度學習方面,soft attention此類的工具已經取得了進展,這可能是我們過渡到“未來深度學習”的關鍵,即獲得從處理向量到能夠“操縱”的功能。

從機器翻譯開始,soft attention已經對自然語言處理產生了巨大的影響,一些有趣的神經科學表明,這種注意力在就像是內部的一種肌肉運動。

Yoshua Bengio:注意力是“有意识”AI的核心要素

上面是神經科學中關於意識的幾個理論的核心,尤其是全局工作空間理論,大多數是由Baars提出,涉及了意識過程的瓶頸問題。

當前通常認為信息是用注意力來選擇的,即從多種可能的方式和輸入的部分中選擇信息,然後將選擇的信息廣播到大腦的其他部分,並存儲在短期記憶中,以適應短期內的感知和行動。

這裡有一個有趣的事情要注意,如果我們認為大腦的大腦皮層是一個大的模擬引擎,那麼就要假設一次只能運行一次“全”模擬,區別於每一步只涉及幾個抽象的概念的“電影模式”。

Yoshua Bengio:注意力是“有意识”AI的核心要素

從人們的口頭報告中,我們就可以判斷某些事件是有意識的還是無意識的。其實,不光是口頭報告,理解也非常重要,因為它能將高級別的示與較低級別感知聯繫在一起。但也有很多關於這個世界的知識不能用我剛才談到的那些強有力的假設來代表。

Yoshua Bengio:注意力是“有意识”AI的核心要素

2017年的時候,我在論文中曾經提到過意識先驗,如果用因果圖來表示的話,可以把每個因子像句子一樣看成是涉及幾個變量的聯合分佈。

高級語言會有一個驚人的特性,那就是我可以在一句話中做出隱蔽性的預測。例如,“如果我扔一個球,這個球會掉在地上”

另外還可以做一個只涉及少數幾個概念的強有力的預測,不同於通常的邊際獨立假設,我們假設高級變量是獨立的。

這些都與我剛才談到的注意力的概念有關,因為當你想要對這樣一個稀疏的圖表進行推理時,一個合理的方法是一次只關注一個或幾個因素。

Yoshua Bengio:注意力是“有意识”AI的核心要素

關於事物在分佈上可能如何變化的假設也非常重要,因為它能夠提供了一些“意識處理”的強大力量。

想象這樣一個畫面:有一個原始數據,它有一個非常複雜的聯合分佈,我們將用兩個層次來表示它。然後將四分之一的原始數據映射到抽象空間,根據這個假設,當分佈發生變化時會發生什麼?

其實,在抽象空間中,更改是局部化的,可能只需要修改一個變量、一個條件或一個因素。因此,學習如何適應修改後的分佈變得容易得多,如果以正確的方式表示信息,就可以快速傳輸。

Yoshua Bengio:注意力是“有意识”AI的核心要素

這些變化是怎麼造成的呢?很可能是因為一個Agent在全局中做了一些事情。由於物理行為在空間和時間上都是局部化的,Agent只能以局部化的方式做事情。

例如,如果我戴上墨鏡,在較高的水平上,只能看到一點點變化,但在較低的水平,變化非常大,因為所有的像素都有不同的聯合分佈。

分佈變了之後會發生什麼呢?一般機器學習模型訓練都假設使用的數據是服從獨立同分布,但這顯然不符合實際情況。於是,我們使用一個元學習目標來學習如何將獲得的知識模塊化,並找到其中的因果關係。

具體而言,我們在簡單的設置中嘗試了這個想法,首先,用兩個變量a和b,通過改變分佈來學習,對其中一個變量的干預,在這種情況下,我們發現了學習的速度。

這個發現是一個很好的線索,意味著你是否有正確的假設,是否有正確的高級變量集。關於A和B誰是誰的原因,我們最近在理論方面擴展了這項工作,證明了什麼時候可以收斂到正確的因果假說。譯者注:論文是《一個元轉移的目標學習解開因果機制》

地址:https://openreview.net/forum?id=ryxWIgBFPS

Yoshua Bengio:注意力是“有意识”AI的核心要素

最後,提一下我想提的工作,一篇叫做《Recurrent Independent Mechanisms》的論文裡面重新定義了一個新的recurrent neural net架構,在這個架構中,把recurrent net 分解成更小的模塊,在每個模塊裡面,它是完全連接在一起的,並不是一個同質的網絡。模塊之間,有一個注意力機制,當然,你也可以認為這是意識的集中地。

Yoshua Bengio:注意力是“有意识”AI的核心要素

總結一下,在前面的演講中,我試圖為深度學習勾勒出一個研究方向,為深度學習捕捉「系統1」的知識。我發現這裡面有很多有趣的研究方面,例如系統之外的東西、事物的分佈、知識的呈現方式......

解決這些問題,知識先驗是一個非常好的想法,可以讓知識分解重組然後對應依賴性的知識,並且能夠涉及非常少的變量。顯然,這非常有趣,因為它允許一個Agent能夠快速的適應分佈的變化。

(雷鋒網)、(雷鋒網)(雷鋒網)


分享到:


相關文章: