張鈸院士:走向真正的人工智慧|CCF-GAIR 2018

雷鋒網按:2018 全球人工智能與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流盛會,旨在打造國內人工智能領域最具實力的跨界交流合作平臺。

张钹院士:走向真正的人工智能|CCF-GAIR 2018

CCF-GAIR 2018 程序主席朱曉蕊:大家好,我們大會第一個環節的題目是「AI 前沿技術」。最近幾年 AI 一直都很熱,很多人都會問,這個 AI 到底能熱多久?我想其中一個很重要的因素就是 AI 的前沿技術到底能做得有多麼深入。因此我建議大家今天不妨仔細聽聽下面幾位嘉賓的演講,或許大家能從中得到一些答案。

首先有請清華大學張鈸院士為我們作大會報告。張院士是中國科學院院士、清華大學教授,現任清華大學人工智能研究院院長,張院士主要是從事人工智能理論、人工神經網絡、遺傳算法、分形和小波等理論研究,以及把上述理論應用於模式識別、知識工程、智能機器人與智能控制等領域的應用研究,他今天的報告題目是「走向真正的人工智能」,有請張院士。

张钹院士:走向真正的人工智能|CCF-GAIR 2018

張鈸:各位領導、各位專家,今天給我 45 分鐘的時間,我講 40 分鐘,因為會議的議程已經延遲了。

我今天要講的中心思想就是:我們現在離真正的人工智能還有一段很長的路。為了講清這個思想,我必須回答下面三個問題:第一,什麼叫做真正的人工智能?我們的目標是什麼?第二,為什麼我們需要真正的人工智能?第三,我們如何走向真正的人工智能?我現在回答這三個問題。

首先我們如何評價目前人工智能取得的成果,我們的評價很簡單,針對這 5 件事:

大家一致認為這 5 件事之所以成功,是由於前面三個因素,一是大數據,二是計算能力提高,第三是有非常好的人工智能算法。這三個因素大家都討論得非常多了,沒必要我再來說,我現在要說的最後一個因素是被大家所忽略的,這個因素是說,這所有的成果必須建立在一個合適的應用場景下。這 5 件事雖然領域很不一樣,但是它們都滿足完全一樣的條件,或滿足下面的 5 個限制,首先你必須有豐富的數據或者豐富的知識,如果這兩件東西沒有,或者很少,你不用來談人工智能,因為你無法實現無米之炊。人工智能唯一的兩個資源,一個是數據,一個是知識。還有確定性信息、完全信息、靜態的、單任務和有限領域。這 5 個條件裡面任何一個條件不滿足,現在的人工智能做起來就非常困難了。

大家想想這 5 個限制條件下的應用場景是什麼樣的應用場景?就是照章辦事,不需要任何靈活性,這顯然不是智能的核心。

我們現在分析一下上述 5 個場景。下象棋是完全信息博弈,信息完全和確定,沒有問題。其次,它遵循著完全確定的遊戲規則演化,我們把這種情況也叫做靜態。Watson 機器人也是這樣,Watson 是什麼樣的對話問題呢?它為什麼選擇知識競賽呢?我們知道知識競賽提的問題都沒有二義性,都是明確的,它的答案總是唯一性的。所以這樣的問答對機器人來講是非常容易的。它涉及的領域雖然比較寬,但也是有限的,包括大家覺得很玄乎的圍棋,也完全符合上面 5 個條件,所以對計算機來說也是很容易的。目前計算機打麻將就不行,因為牌類是不完全信息博弈,所以比棋類要難。總之,我們對目前人工智能取得的成果要有一個正確的評價。

目前的人工智能技術在以下領域都可以找到它的應用,它們是交通、服務、教育、娛樂等等,但我要強調是這些領域裡面只有滿足上述 5 個條件的事情,計算機做起來才會容易,如果不滿足這些條件,計算機就做起來就困難了。大家常常關心什麼樣的工作會被機器所替代,我可以明確告訴大家,滿足這 5 個條件的工作,總有一天會被計算機取代,就是那些照章辦事,不需要任何靈活性的工作,

比如說出納員、收銀員等等。在座的所有工作都不可能被計算機完全代替,但不排斥你的工作中有一部分會被計算機取代,老師、企業家等的工作不可能被計算機完全代替。

為什麼有這 5 個限制?原因在於我們現在的人工智能是沒有理解的人工智能。

我們先看符號模型,理性行為的模型,舉 Watson 的例子,它是個對話系統,我們現在所有做的對話系統都跟這個差不多,但是 Watson 做得更好些,它裡面有知識庫,有推理機制。沃森除了專家知識之外,還有大量互聯網上大眾的知識,還運用了多推理機制。請看,這就是 Watson 系統的體系結構。它裡面有哪些知識呢?有很多,包括百科全書、有線新聞、文學作品等等。所有的知識用紙質來表示有 2 億頁,用存儲量表示達到了 4TB。它能回答什麼問題呢?用它的例子來說明。第一個問題,1974 年 9 月 8 日誰被總統赦免?這對美國人來講很好回答,同樣對計算機來講也很好回答,你用這幾個關鍵字「1974 年 9 月 8 日」、「被總統赦免」,就能在文獻裡頭查出來是誰,他就是尼克松。也就是說根據問題中的關鍵字,可以在已有的文獻裡頭直接找到答案,這就是一般的網絡檢索方法。

第二個問題,熒光粉受到電子撞擊以後,它的電磁能以什麼方式釋放出來?我們用「熒光粉」、「電子撞擊」、「釋放電磁能」等關鍵詞,也可以找到答案:「光或者光子」。這種方法就是平時網絡搜索的原理,應該說沒有什麼智能。

回答下面的問題就需要「智能」了,跟智利陸地邊界最長的是哪個國家?跟智利有陸地邊界的國家可以檢索到,它們是阿根廷和玻利維亞,但是誰的邊境長?通常查不到。Watson 具備一定的推理能力,它從邊界間發生的事件、邊界的地理位置等等,經過分析推理以後就可以找出答案,它就是阿根廷。下一個問題也屬於這種性質,跟美國沒有外交關係的國家中哪個最靠北,跟美國沒有外交關係的國家有 4 個,只要檢索就行了,但是哪個國家最靠北,沒有直接答案,但可以從其它信息中推導出來,比如各個國家所處的緯度、氣候寒冷的程度等等分析出來,答案是北朝鮮。

智能體現在推理能力上。但是很不幸,現在的對話系統推理能力都很差。Watson 系統好一些,但也很有限。換句話說,我們現在的對話系統離真正的智能還很遠。

我們通過索菲亞機器人就可以看出來,索菲亞的對話是面向開放領域,你可以隨便提問,問題就暴露出來了。大家在電視上看到索菲亞侃侃而談,問什麼問題都能答得很好,這裡面有玄機,如果你的問題是預先提出來的,因為裡頭有答案,因此回答得非常好,在電視上給大家演示的都是這種情況。

為什麼會這樣?也就是說我們現在的人工智能基本方法有缺陷,我們必須走向具有理解的 AI,這才是真正的人工智能。我這裡提出的概念跟強人工智能有什麼區別?首先我們說它在這點上是相同的,我們都試圖去準確地描述人類的智能行為,希望人工智能跟人類的智能相近,這也是強人工智能的一個目標,但是強人工智能只是從概念上提出來,並沒有從方法上提出怎麼解決。大家知道強人工智能提出了一個最主要的概念,就是通用人工智能。怎麼個通用法?它沒有回答。我們現在提出來的有理解的人工智能是可操作的,不只是概念,這是我們跟強人工智能的區別。

人機對話的時候,機器為什麼不能理解人們提的問題。我們看一個例子就知道了,我們在知識庫裡把「特朗普是美國總統」這個事實,用「特朗普-總統-美國」這三元組存在計算機裡面,如果你提的問題是「誰是美國總統」?機器馬上回答出來:「特朗普」。但是你如果問其它有關的問題,如「特朗普是一個人嗎」?「特朗普是一個美國人嗎」?「美國有沒有總統」?它都回答不了。它太傻了,任何一個小學生,你只要告訴他特朗普是美國總統,後面這幾個問題他們絕對回答得出來。機器為什麼回答不了後面的三個問題呢?就是這個系統太笨了,沒有常識,也沒有常識推理。既然特朗普是美國的總統,美國當然有總統,但是它連這一點常識的推理能力都沒有。所以要解決這個問題,必須在系統中加上常識庫、常識推理,沒有做到這一步,人機對話系統中機器不可能具有理解能力。但是大家知道,建立常識庫是一項「AI 的曼哈頓工程」。大家想想常識庫多麼不好建,怎麼告訴計算機,什麼叫吃飯,怎麼告訴計算機,什麼叫睡覺,什麼叫做睡不著覺,什麼叫做夢,這些對人工智能來說都非常難,美國在 1984 年就搞了這樣一個常識庫的工程,做到現在還沒完全做出來。可見,要走向真正的人工智能,有理解的人工智能,是一條很漫長的路。

這裡介紹一點我們現在做的工作,加入常識以後,對話的性能會不會有所改善。我們的基本做法是建立一個常識圖譜,用這個圖譜幫助理解提出的「問題」,同時利用常識圖譜幫助產生合適的答案。

下面就涉及到具體怎麼做了,我不詳細說了,我就說結果,結果是有了常識以後,性能有了顯著的改善,對話的質量提高了。這篇文章已經發表,有興趣可以去閱讀。

另外是準符號模型,深度學習、神經網絡主要用來模擬感性行為,感性行為是一般很難採用符號模型,因為感性(感覺)沒法精確描述。比如「馬」,怎麼告訴計算機什麼叫做馬?你說馬有四條腿,什麼叫做腿?你說細長的叫做腿,什麼叫細?什麼叫做長?沒法告訴機器,因此不能用符號模型。目前用的辦法就是我們現在說的神經網絡或者準符號模型,也就是用人類同樣的辦法,學習、訓練。我不告訴機器什麼叫做馬,只是給不同的馬的圖片給它看,進行訓練。訓練完以後,然後再用沒見過的馬的圖片給它看,說對了,就是識別正確了,說不對就是識別不正確,如果 90% 是對的,就說明它的識別率是 90%。後來從淺層的神經網絡又發展到多層的神經網絡,從淺層發展到多層有兩個本質性的變化,一個本質性的變化就是輸入,深層網絡一般不用人工選擇的特徵,用原始數據就行。所以深度學習的應用門檻降低了,你不要有專業知識,把原始數據輸進去就行了。第二個是它的性能提高很多,所以現在深度學習用得很多,原因就在這個地方。

通過數據驅動建立的系統能不能算是有智能呢?必須打一個很大的問號,就是說你做出來的人臉識別系統甚至識別率會比人還高,但是我們還不能說它有智能,為什麼呢?這種通過數據驅動做出來的系統,它的性能跟人類差別非常大,魯棒性很差,很容易受干擾,會發生重大的錯誤,需要大量的訓練樣本。我們剛才已經說過,給定一個圖像庫我們可以做到機器的識別率比人還要高,也就是說它可以識別各種各樣的物體,但是這樣的系統,我如果用這個噪聲輸給它,我可以讓它識別成為知更鳥,我用另外的噪聲輸給它,可以讓它識別成為獵豹。換句話講,這樣的系統只是一個機械的分類器,根本不是感知系統。也就是說它儘管把各種各樣動物分得很清楚,但是它不認識這個動物,它儘管可以把獵豹跟知更鳥分開,但是它本質上不認識知更鳥和獵豹,它只到達了感覺的水平,並沒有達到感知的水平,它只是「感」,沒有上升到「知」。我們的結論是,只依靠深度學習很難到達真正的智能。這是很嚴峻的結論,因為如果有這樣的問題,在決策系統裡頭是不能用這樣的系統,因為它會犯大錯。我在很多場合講過,

人類的最大的優點是「小錯不斷、大錯不犯」,機器最大的缺點是「小錯不犯,一犯就犯大錯」。這在決策系統裡頭是不允許的,這就顯示人跟機器的截然不同,人非常聰明,所以他做什麼事都很靈活,這就使得他很容易犯各種各樣的小錯。但是他很理性,很難發生大錯。計算機很笨,但是很認真,小錯誤絕對不會犯,但是它一犯就是天大的錯誤。剛才把那個把噪聲看成知更鳥,這不是大錯嗎?你把敵人的大炮看成一匹馬,不是大錯嗎?但是人類不會發生這種錯誤,人類只會把騾看成驢,但是計算機的識別系統會把驢看成一塊石頭。原因在哪兒?原因還是 AI 的理解能力問題。

我們看這個自動駕駛,過去講得很多,而且講得很樂觀,我們看看問題在什麼地方。我們現在是這樣做,我們通過數據驅動的學習方法,學習不同場景下的圖象分割,並判別是車輛還是行人、道路等,然後建立三維模型,在三維模型上規劃行駛路徑。現在用硬件已經可以做到實時,請問大家,這樣能不能解決問題?如果路況比較簡單,行人、車輛很少,勉強可以用。複雜的路況就用不了。什麼原因?非常簡單,好多人總結出這個經驗,行人或者司機都會有意無意破壞交通規則,包括外國人也一樣,中國人更嚴重一點。這就使得數據驅動方法失效,比如說我們可以用數據驅動方法來了解各種各樣行人的行為,我們可以通過大量進行訓練,都訓練完以後,如果出現新的情況呢?計算機能理解這是人從底下鑽過來,很危險嗎?所以你不可能把所有情況都訓練到。自動駕駛不可能對付突發事件,如果這個突發事件它沒見過,它就解決不了。

怎麼來解決這個問題呢?實際上就是要解決從「Without」到「With」理解的問題。人工智能現在有兩種基本方法,一種是用符號模型來模擬理性行為,符號模型可以表達信息的內容,所以它是在一個語義的符號空間裡頭,但是非常不幸,這個離散的符號表示,數學工具很難用,很多數學工具用不上去,所以它發展很慢。在模擬感性行為的時候,我們用的是特徵空間的向量,向量就是數,可以把所有的數學工具都用上,優化的工具、概率統計的工具全部用上。所以數據驅動方法這幾年發展非常快,再難的問題,下圍棋非常難吧,計算機也可以「算」出來。但是它有一個非常大的缺陷,它是在特徵空間裡,缺乏語義。我們用數據去訓練一個模型,所謂「黑箱學習法」,加上你的數據質量不高,很難學出有用的東西。什麼叫概率統計?重複多了就是真理。如果數據質量差,充滿了「謊言」。謊言重複多了,就變成真理了。

我們現在想出的解決辦法是這樣的,就是把這兩個空間投射到一個空間去,這個空間叫做語義的向量空間。也就是說我們把符號變成向量,同時把特徵空間的向量變成語義空間的向量。怎麼做?一是通過 Embedding(嵌入)把符號變成向量,儘量保持語義不變,可惜現在的方法都會引起語義的丟失,我們只能在投射的過程中讓語義丟失得少。第二方面做的工作比較少,就是 Raising(提升),把特徵空間提升到語義空間去,這主要靠學科交叉,靠跟神經科學的結合。只有這些問題解決以後,我們才能夠建立一個統一的理論,因為過去的感知和認知是不同的處理方法,大家說不到一塊,如果我們能夠投射到同一空間去,我們就可以建立一個統一的理論框架,這是我們的目標。在語義空間處理就可以解決理解問題,但是這項工作是非常艱鉅的。

介紹一項我們現在做的工作。人工神經網絡為什麼不能得到語義信息呢?人腦的神經網絡為什麼可以呢?差別就在這裡,我們現在用的人工神經網絡太簡單了,我們正想辦法把腦神經網絡的許多結構與功能加進去,我們這裡只用了「稀疏發電」這一性質,就可以看出一些效果,人臉、大象或者鳥的輪廓,神經網絡可以把它提取出來。

還有一個辦法就是把數據驅動跟知識驅動結合起來。剛才講了,人的智能沒法通過單純的大數據學習把它學出來,那怎麼辦?很簡單,加上知識,讓它有推理的能力,做決策的能力,這樣就能解決突發事件。我們現在做的工作就是把這些結合起來,這是我們的基本思路,知識也好,數據也好,都投射到同一空間,然後都用同樣的數學方法進行處理,這方面我們已經做了不少工作。

最後做一個總結,我們從這個座標看人工智能,橫軸代表領域的寬窄,從單領域到多領域、到開放領域。縱軸代表信息的確定性與完全性,從完全到不完全、從確定到不確定。在左下角代表最容易的,就是剛才講的符合 5 個條件的,現在人工智能在這部分解決得非常好,我們用白色來表示它,AlphaGo 在這裡,深藍在這裡,工業機器人在這裡。現在我們正在向灰色地區去走,打牌,信息不完全,現在打德州撲克,一人對一人,計算機能戰勝人類,多人對弈,計算機還不行,這是灰色地帶,我們還可以做,為什麼可以做?儘管打牌是不確定的,但是它在概率意義下是確定的,你拿的這副牌的概率,可以算出來,同花的概率是多少,排成順的概率是多少,既然概率能算出來,最終人類肯定會被計算機打敗。Watson 在右邊,它的領域比較寬,但是它是確定性的,所以是在灰色的區域。往右上方去就比較難了,自動駕駛、服務機器人、大數據分析,它是一個大框,有的簡單,有的困難,就自動駕駛來講,專用道、行車很少,路況簡單等,在白色或者灰色區,如果路況複雜就到了黃色區域,黃色區現在計算機還解決不好。最遠的在哪兒呢?右上角,圖靈測試。大家對圖靈測試有很多誤解,其實圖靈測試是開領域問答,很難!索菲亞做得怎麼樣?很糟糕。自然語言理解也在這裡,複雜環境下的決策在偏左一點的地方,這也是很難的。所以我們人工智能現在是從左下角往右上角走,我們現在處在出發點附近。有的人想把它用一些名詞來區分人工智能的不同發展階段,有專家問我,你的看法怎麼樣?我建議不要用新詞,用新詞往往說不清,很麻煩,有的人說現在是弱人工智能,以後是強人工智能,也有人說現在叫增強智能(Augmented Intelligence)也是 AI……概念太多說不清,還是簡單一點,

「我們正在通往真正 AI 的路上」,現在走得並不遠,在出發點附近,人工智能永遠在路上,大家要有思想準備,這就是人工智能的魅力。大家為什麼這麼重視人工智能?因為我們永遠在路上,這就吸引我們去解決這些問題,這些問題一旦解決了,人類的社會進步、人類的生活就會發生本質上的改變。

最後我用中文寫最後一段作為總結,可惜我翻譯不了。

周穆王西巡狩,路遇匠人名偃師。翌日偃師謁見王,偕來一個假人。「趨步俯仰,信人也」。「領其顱,則歌合律;捧其手,則舞應節。千變萬化,惟意所適。王以為實人也,與盛姫內御並觀之,技將終,倡者瞬其目而招王之左右侍妾。王大怒,要殺這個偃師。偃師大懾,立剖其倡者以示王,皆傅會革、木、膠、漆、白 、黑、丹、青之所為。穆王始悅,詔貳車載之以歸。

這是 3000 年前我們古人對機器人的想象,看看現在的人工智能做得怎麼樣呢?索菲亞是我們現在達到的水平,可是她不會唱歌、不會跳舞,只會說英文,周王也聽不懂,肯定沒有印象。現在我們假設索菲亞「瞬其目而招王之左右侍妾」,向周王的姨太太們送去秋波,王會如何呢?我認為沒反應,因為索菲亞是女的,他用不著吃醋。但是我們假設索菲亞「瞬其目而招王」,向大王送去秋波,王會大悅,立即神魂顛倒,墜入愛河?我認為不會,因為索菲亞根本不像人,它最近才剛剛安上手腳,走路都不利索,怎麼行呢?所以我的結論是,「索菲亞通不過穆王的測試,當然它更通不過圖靈測試」。

我們的結論是什麼?人工智能剛剛起步,離真正的 AI 還很遙遠,大家共同努力吧,我們任重道遠。

更多 CCF-GAIR 2018 資訊,敬請關注雷鋒網。


分享到:


相關文章: