中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》

8月29日至30日,由中國科學技術協會、中國科學院、南京市人民政府為指導單位,中國人工智能學會、南京市建鄴區人民政府、江蘇省科學技術協會主辦的主題為“智周萬物”的2020中國人工智能大會(CCAI 2020)在新加坡·南京生態科技島舉辦。在30日大會主旨報告環節,

中國科學技術大學機器人實驗室主任陳小平教授為我們帶來了題為《圖靈假說70年:兩類AI與封閉性挑戰》的精彩演講。

中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》

陳小平

中國科學技術大學機器人實驗室主任、教授

以下是陳小平教授的演講實錄:

今年可以說是人工智能70週年,因為從圖靈(A. Turing)提出圖靈測試到今年正好70年。今天我和大家分享對人工智能70年發展的一些總結性思考,包括四個部分:

①著名的圖靈測試背後的圖靈假說及兩類AI;

②AI的兩種經典思維——強力法和訓練法,給出它們的能力邊界——封閉性準則,並以“阿法狗”四代為典型案例加以分析(兩類經典思維的集成並符合封閉性準則);

③封閉性的嚴格定義,並在定義基礎上討論封閉性給人工智能帶來的科學挑戰、技術挑戰和工程挑戰;

④介紹中科大機器人團隊為應對封閉性挑戰,在過去10年中所做的部分努力和進展。

70年來,人工智能技術有很大發展,主流技術現在能解決什麼問題?我們總結以後給出一個條件,叫做“封閉性準則”:對於所有滿足封閉性或者能夠被封閉化的場景來說,用現有人工智能技術就能實現大規模產業化應用。這個結論不是我在實驗室裡憑空想出來的,過去五年我到各種代表性企業去調研,包括全球最大的製造業企業像華為、富士康、聯想等,一直到10人以下的企業,而且對其中部分企業反覆去調研,實地考察他們的生產線,瞭解相關的各種情況。經過調研和分析發現,可以用“封閉性”描述現有人工智能技術大規模產業應用的條件,滿足封閉性的場景就能應用,不滿足就不保證能應用。另一方面,不滿足這個條件的應用還有很多,怎麼辦?所以我們要想辦法超越封閉性。

關於人工智能技術進展,過去幾年很多人往往只關注一類技術,其實值得關注的不止一類。考慮到人工智能技術種類太多,我只總結了其中的兩種AI經典思維,而這兩種經典思維都符合封閉性準則。今天我重點講封閉性給我們帶來的挑戰,定義這種挑戰到底是什麼。中科大機器人團隊為了超越封閉性,提出了一條稱為“開放知識”(openknowledge)的技術路線,我會簡要介紹過去10年中我們在這個方向上的主要工作和進展情況。

1 圖靈假說和兩類人工智能

首先回顧一下人工智能的史前基礎研究,我只講和今天內容相關的兩條線索。一條線索是公元前約300,歐幾里得完成了《幾何原本》,其核心成果是一個幾何學的實質公理系統。這本書經過多人努力,寫了100多年,直到歐幾里得才寫完。又經過了2 000多年,到了1899年,Hilbert發表了《幾何基礎》,從實質公理系統進化到形式公理系統,現代邏輯誕生了。這條線索和我今天講的第四部分內容有關(我們的開放知識技術路線實際上採用了實質公理系統的思想)。

另外一條線索是1651年Hobbes在《利維坦》中指出,推理和計算是可以相互轉化的。哲學家的論證可能不被科技界接受為證明,但是至少他提出了這個與人工智能有關的觀點。1931年,Godel在證明著名的不完備性定理的過程中,得到了一箇中間結果:他定義了一個形式算數系統KN及KN可表示性,還定義了一個計算系統——遞歸函數,證明了KN可表示與遞歸函數的等價性。這就很有意思了,KN是典型的推理,而遞歸函數是純粹的計算,Godel嚴格證明了二者的等價。1936—1937年間,圖靈提出了圖靈機模型,並形成了Church-Turing論題,標誌著計算機科學的誕生。上述這些成果包含著Godel-Turing推論(雖然文獻中沒有看到這個名稱):大量複雜推理是圖靈可計算的。這裡的複雜推理包括命題演算可表達的推理(比如第一個NP完全問題SAT)、一階謂詞演算K可證的形式推理、KN可表示的推理等,這些推理問題都在圖靈機上可計算,所以都是計算問題。注意這個推論是得到嚴格證明的。

1950年,圖靈在Mind上發表的論文裡提出了圖靈測試[1],至今已經70年了。圖靈測試想證實或證偽的假說是什麼?就是圖靈假說,雖然文獻裡也沒有看到“圖靈假說”的名稱,但圖靈在1950年論文裡寫得非常清楚,他試圖證實的假說是:不僅推理,而且決策、學習、理解、創造等人類智力活動都可以在圖靈機上實現。顯然,這個假說是Godel-Turing推論的實質性推廣,是人類科技史上最偉大的假說之一,而圖靈測試是其驗證手段。其現實意義是,如果圖靈假說成立,這些種類的智能都可以在計算機上實現,當時第一批電子數字計算機已經在使用了。

圖靈假說與任何假說一樣,有一個預期的有效範圍。這個範圍是什麼?看這張圖(見圖1)。我覺得人工智能涉及三層空間,最下面一層是現實世界,中間一層是數據層,再上面一層是知識層。用三層空間可以區分出兩種典型的人工智能,一種可稱之為“信息處理AI”,它只關心上面兩層,對下面一層是不關心的,它的應用領域主要是信息產業,但信息產業滲透到別的產業,這種AI也滲透到別的產業中。可是信息處理AI不能解決一切問題,比如不能解決涉及感知和行動的問題。同時考慮三層空間的人工智能,我稱之為“機器人AI”,它的應用領域包括工業、農業、物流、服務業等,顯然比信息處理AI更加廣泛。二者的主要區別是:機器人AI一定涉及感知和行動,而信息處理AI不涉及感知和行動。除了這兩種典型的AI,還有一些非典型的,比如只涉及感知,不涉及行動的AI。

中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》

圖1 圖靈假說與兩類典型AI

圖靈假說的預期範圍,就是信息處理AI(也就是圖靈所說的thinking machines)。

下面的例子中,兩類AI在同一個問題中的表現相同,但用戶的反應完全不同,這說明了信息處理AI和機器人AI之間的區別。假設有一臺聊天機器人,用戶說“請幫我端飯”,機器人說“自己端”;用戶說“有智能”。用戶又說“請幫我端湯”,機器人還說“自己端”。這時用戶就不太滿意了,說“你會的句型太少了”,但總體上還是接受這臺機器人的。我們再假設有一臺家庭服務機器人,能當保姆的那種,用戶對機器人說,“請幫我端飯”,機器人說“自己端”,用戶說“有個性”。用戶心想,你是一個服務機器人,是在家裡幹活的,居然不幫我端飯,還讓我自己端,真有個性。用戶又說“請幫我端湯”,機器人還讓用戶“自己端”,這時用戶什麼反應?用戶會說:你只會聊天,我要退貨!用戶顯然不能接受這樣的家庭服務機器人。這兩類AI是非常不一樣的,因為它們的應用目標不同,從而劃分為兩類不同的AI(參見文獻[2]第二章)。

兩類AI的劃分以前好像沒有明確提過,其實這個劃分最初是圖靈給出的。1948年,圖靈親自打印了一篇論文,到現在沒有正式發表,但在圖靈圖書館裡可以找到,我在PPT裡貼了相關的兩頁。在這篇手稿中,圖靈一開始設想的人工智能是什麼?是用機器代替一個人的所有部分,這樣的人工智能他稱為intelligent machinery,而且他分析了這種“智能機器”的一個例子——無人車。圖靈考慮到當時的技術條件,建議首先研究沒有感知和行動能力的thinking machines,注意他對兩種AI的用詞是有區別的,後者就是信息處理AI。對於這種“思維機器”,圖靈建議了一些研究課題,比如國際象棋、圍棋、語言學習和機器翻譯等。

看起來,70年來人工智能實際做過的研究,基本上都是圖靈想到的。經過70年的探索、積累和發展,現在我們是不是可以想一些新的東西了?

從上面的討論可知,早在70年前,圖靈已經把人工智能劃分為兩個階段——第一階段是信息處理AI,第二階段是機器人AI,而AI的實際發展也是這麼走過來的:20世紀50年代開始了第一個階段,70~80年代開始了第二階段,現在是兩個階段同時在推進(參見文獻[2]第一章)。

2 兩種AI經典思維

過去70年這兩個階段的推進有什麼主要成果?我總結[3]有兩種AI經典思維,一種是強力法,是需要有模型的,還要有推理機或者搜索算法。基礎性的數學工具主要有邏輯、概率和決策論規劃三種。強力法的關鍵是模型,對於機器人AI來說,模型有兩個組成部分,一個部分是知識庫,即抽象知識的符號表達;另一個部分叫做模型降射(英文是modeled grounding),這是抽象知識到現實場景的一種廣義映射。

有人說強力法到20世紀80年代以後就消失了,其實強力法從90年代開始進入一個新的賽道,我叫它“大知識”,國際上比較流行的稱呼是知識技術(knowledge technologies),剛才Gil教授在報告中就大量涉及到大知識。不過她今天的報告是關於“科學發現”的,可能會讓人以為大知識只與科學發現有關,其實不是這樣的。一般國內只關注大知識中的一個部分——知識圖譜,實際上大知識的內容非常豐富,我這裡列出了一部分代表性工作,希望大家關注。比如,有一個知識庫做了10年,蒐集了30億條常識,據估計花了67.5億美元,這是幹嗎?

推理機是一個專門研發的程序,它根據知識庫中的知識進行推理,以回答問題。知識庫一般存儲著預期應用領域的基本知識,比如在“就餐問題”中,為了讓機器人在就餐過程中為人提供幫助,就需要有一個就餐領域的知識庫(見圖2)。有了推理機和知識庫,用戶或者AI系統自身就可以向推理機提問了,比如問“碗能不能盛米飯?”注意知識庫裡沒有寫這個問題的答案,但是可以推理出結果“可以盛”;還可以問“碗能不能盛湯?”也能推出結果“可以盛”。

上面這個例子是我為說明推理而編寫的,故意做了簡化。實際應用中,可以問更復雜的問題,比如有了相關的知識庫,可以向推理機提問“本·拉登藏在什麼地方?”事實上就是這麼找到的(不過這個例子和前面就餐的例子不完全一樣,需要對推理結果進行驗證)。

中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》

圖2 模型、推理與降射

機器人AI模型的另外一部分是模型降射,比如bowl(碗)在知識庫中只是一個符號,而機器人AI只掌握符號(包括符號之間的關係)是遠遠不夠的,機器人必須能夠識別、操縱知識庫符號所代表的現實場景中的對象(如碗),這就需要建立AI模型中的符號如bowl到場景中所有碗的集合g(bowl)的降射g。

我的PPT裡給出了碗的三個例子(見圖2)。第一個例子是常規的碗,第二個例子看著不像碗,像盤子,但是專家考證這是宋代汝碗,只好也算做碗。假設一個機器人的g(bowl)恰好包含常規的碗和宋代汝碗兩個場景元素,並用這個AI模型為用戶提供就餐服務。我們考慮一種情況:在運行過程中,機器人遇到了PPT裡給出的第三個例子:一隻破碗,底兒都漏了。因為AI模型沒有把brokenbowl(代表破碗)當作一個與bowl不同的獨立變元,機器人自然地將破碗也當作碗,於是推理機從AI模型推出:用破碗也能盛湯。這就有問題了,用破碗盛湯不僅把湯都漏了,完不成任務,而且會帶來其他一系列問題。下文將把這裡的brokenbowl定義為一個“丟失變元”。

出現上述情況說明什麼?說明原來的AI模型有問題,有時用它推出的結果不正確,而且有害。只看這個例子覺得很簡單,把AI模型(知識庫和模型降射)改一改就行了。但在實際應用中,一個知識庫可以有幾百萬條知識,改了其中一條,會影響其他很多條。這還不是最難的,最難的是:改了一個反例(比如破碗)之後,還有沒有別的反例?——不知道!現在沒有辦法知道反例是否已被窮盡了。結果,我們永遠不知道一個AI系統是不是一個能夠實用的系統,這是最難的。

所以,機器人AI的核心挑戰在於降射,具體說是降射的“無盡性”。

第二種經典思維是訓練法,收集並標註一些數據,訓練一個神經網絡,然後用訓練好的網絡回答問題。在ImageNet的一項比賽中,用訓練好的神經網絡可以識別1 000類物體,包括7種魚、26種鳥、衛生紙等。表面上看,目前的訓練法不涉及知識,因而也不涉及降射問題,這不就繞過了降射難題嗎?實際上並非如此。比如衛生紙髒了,能不能用?破的能不能用?這些都是衛生紙的反例,在訓練法中所有反例的數據都要找出來,否則訓練出的神經網絡如何識別反例?可是如果我們不知道存在哪些反例,怎麼去收集數據呢?

所以,訓練法沒有繞過降射挑戰,只不過改變了降射挑戰的表現形式——怎麼找到所有代表性數據?

從80年代開始,國際人工智能在應用中一直面臨主要挑戰是脆弱性問題。脆弱性在文獻中的表述我寫在PPT裡了,現在我把它重新表達一下,分成三個子問題:第一,非典型情況是不是窮盡了?前面提到的“反例”都代表非典型情況。第二,找到的非典型情況是不是都可解?有的找到不可解。第三,如果前面兩個子問題出現了,是不是致命的?如果非典型情況是致命的,你就哭了。假如不存在失誤致命性,前面的兩個挑戰就屬於純學術追求,無論結果如何都不影響應用。

有人說,AlphaGo是怎麼回事?AlphaGo不是笑到了最後嗎?這個問題很重要,我把AlphaGo總結為一張圖(參見文獻[2]第二章),就是這張PPT。AlphaGo是根據圍棋規則建一個圍棋博弈樹(或稱搜索樹)。因為圍棋棋盤上有361個點可以落子,還有一個選項pass,總共362個落子,圍棋決策就是在這些選項中進行選擇。於是,黑棋第一步可以從362個落子中進行選擇,其中每一個落子都有對應的勝率。到白棋的第一步,因為黑棋已經走了一步,棋盤上就是少了一個選項,剩下361個落子可選,每個落子也有對應的勝率。之後的情況是類似的,黑白雙方輪流,一直走到最後下出勝負。這樣總共可以下出多少種不同的棋?大概是10300。理論上,每個棋局下的每個落子都有勝率,但實際上算不出來,因為10300的計算量太大。於是AlphaGo Zero進行了2 900萬局自博(自己和自己下棋),通過自博產生的數據反推出所有的勝率估計。這些都在我的這一張圖上表現出來了。獲得落子的勝率估計之後,AlphaGo Zero下棋時只根據勝率估計決定落子,至於對手風格、策略甚至“假摔”等,根本就不考慮。實戰效果很好,阿法狗三代戰勝了所有人類圍棋高手,四代100:0戰勝了三代。四代沒有跟人下過,因為差距太大,沒法下了。

AlphaGo Zero向我們提出很多問題,比如人工智能是不是應該模擬人的思維?柯潔說人類圍棋下了幾千年都是錯的,AlphaGo才是對的,這說明AlphaGo跟人類思維在本質上是不一樣的。另外,AlphaGo Zero用了四項核心技術,其中兩項強力法、兩項是訓練法,2017年Nature的論文裡說得非常清楚[4]。

所以,認為AlphaGo僅僅是深度學習的勝利,是完全違背事實的。如果我們對人工智能發展現狀和態勢的判斷,建立在對第三次浪潮標誌性成果的根本性誤解之上,豈不過於荒唐和危險?

我把上面的回顧和分析總結為這樣一個問題:人工智能現有技術的能力,發展到哪一步了?邊界在哪兒?2019年我得到一個結果,叫做“封閉性準則”[3]。目前封閉性準則只針對強力法和訓練法,有興趣的同行可以考慮該準則是否能夠以及如何推廣到AI的其他技術途徑。

封閉性準則對兩種AI經典思維的具體要求是不一樣的。對於強力法有三個要求:第一,要能夠用一組確定的變元,完全描述應用場景。AlphaGo Zero為什麼成功?一個根本原因在於,滿足了封閉性準則的三個條件。AlphaGo Zero滿足封閉性準則第一個條件的具體表現是:僅僅用362個落子完全描述圍棋問題(每個落子作為一個變元,這個落子在不同棋局下的勝率是該變元的取值),而圍棋的其他場景元素如對手的風格、策略等等全都不考慮。

封閉性準則對強力法的第二個要求是:這些變元要服從領域定律,並且領域定律能用AI模型表達。圍棋的領域定律就是圍棋規則,但難以把握和使用,所以AlphaGo Zero通過2 900萬局自博得到一組採樣(代表性數據),用強化學習技術和殘差網絡,從這組採樣反推出362個落子的勝率估計,並保存在殘差網絡中。之後下棋時,AlphaGo Zero每一步棋的決策完全根據落子勝率估計做選擇。

封閉性準則對強力法的第三個要求是:AI模型的預測與應用場景足夠接近。也即是說,不要求模型預測與場景情況完全一致。這個要求在AlphaGo Zero上的具體表現是:實戰效果非常好,這證明了362個落子的勝率估計與實際情況足夠接近。

封閉性準則對訓練法的三個要求是:存在完整、確定的設計和評價準則;存在足夠好的代表性數據集;神經網絡經過訓練符合評價準則。分析表明,AlphaGo Zero完全地滿足了這三個要求。其中,代表性數據集是藉助於蒙特卡洛樹搜索(一種典型的強力法技術)採集的。

總結一下兩種AI經典思維的應用條件:在封閉性和封閉場景中,強力法和訓練法的應用不存在理論上的困難;如果應用失敗了,是由別的問題引起的(如工程實現或商業模式),而不是由於強力法、訓練法理論上的侷限性。

值得注意的是,在當前的產業現狀下,滿足封閉性準則的應用場景很多!典型的應用場景包括製造業、智慧農業、物流、IT和部分服務業,這些行業部門基本上都符合封閉性準則的要求。比如智慧農業,中國到後年將建成10億畝高標準農田,依其建造標準,農業機器人和人工智能技術都能進入大田應用。

但是,大部分真實場景原本不是封閉性的,如何實現AI的產業落地?這就需要對應用場景進行封閉化、半封閉化或柔性化[5]。這張PPT是封閉化的例子。傳統的工業自動化都是封閉化,比如汽車生產線,原始的生產過程是人工完成的,當然是非封閉的,因為人工包含的大量因素是無法完全嚴格描述的,存在很多丟失變元、難解變元。將這樣的原始生產過程改造為工業自動化過程,使其所有變元都能夠完全描述並精確控制,用AI的觀點看就是封閉化。

另一條落地路徑是半封閉化,比如高鐵。高鐵系統實際上做了一個半封閉化,因為高鐵行車的過程是完全封閉化的,有圍欄封閉了行車區域。但是,站臺、候車室、車廂是非封閉化的,因為這些地方不做封閉化也可以保證應用效果。所以高鐵的總體效果是半封閉化。

第三種落地路徑叫做分治化或柔性化。對於一個複雜的生產過程或工作流程,把其中一部分單元智能化,剩下的單元暫時做不到智能化就繼續留給人工去做,但是單元之間的連接要實現智能化,這就是分治法或柔性化。可以在三個層次上做柔性化,最簡單的層次是智能工廠或智能車間;第二個層次是柔性製造鏈,在行業內部不同的企業進行連接;第三個是行業內外的柔性化,實現全生態連接,這符合工信部提出的先進製造的理想。根據我們的分析,用現有的人工智能技術,完全可以在未來15年內用柔性化實現這個理想目標。

可見封閉性準則為未來15年人工智能在產業上的大規模落地提供了某種參考依據。

3 封閉性的基礎研究挑戰

除了上面提到的應用,還有很多場景,特別是家庭服務機器人(機器人保姆),是不能封閉化的。把家裡的人和所有東西都像工廠生產線一樣封閉化,進行精確控制,是不行的。比如機器人給你洗臉,先把你夾住,然後像一個零部件一樣加載到精確定位的生產線上進行洗臉操作,這是不可行的。

那麼,這些應用場景的真正挑戰在什麼地方?這就是非封閉性。剛才我提到了脆弱性背後的三大挑戰,現在我嘗試用科學語言把問題進一步抽象化,重述這三個挑戰。第一個是科學挑戰:變元是不是窮盡了?第二個是技術挑戰:變元是不是可解?第三個是工程挑戰:失誤會不會致命?

首先討論封閉性的科學挑戰。什麼是變元?現在我給出嚴格定義。人工智能有三種主要的基礎性數學工具:邏輯、概率和決策論規劃(即基於馬爾可夫決策的各種形式化方法)。這裡我以邏輯形式化為例,給出變元的一個定義如下。邏輯演算中的個體符號指稱場景對象,謂詞符號指稱對象屬性,對象和屬性通稱場景元素。知識庫KB所包含的每一個個體符號和每一個謂詞符號稱為KB的一個變元。變元是符號系統中的東西,而現實場景中與變元對應的東西叫做場景元素。

降射是變元與其對應的所有場景元素之間的廣義映射,定義為:任給場景S和變元x,g(x)是變元x在S中對應的所有場景元素的集合。降射g被一個AI模型建模的部分,稱為模型降射,記為gm(x)。經常出現的情況是,對於某個變元x,g(x)¹gm(x),也就是在變元x上真實降射和模型降射不相等,這時稱模型降射gm是不完全的。

看我剛才舉過的那個例子。在就餐場景的例子中,AI模型中的模型降射gm(bowl)只包含兩個場景元素——常規的碗和宋代汝碗,不包括破碗。但是,真實的降射g至少包含這三種碗。所以,對應於破碗的變元brokenbowl是AI模型的一個丟失變元,故模型降射gm是不完全的。

在上述定義的基礎上,可以嚴格定義“無盡性”:如果不存在系統性的可行方法,能夠判斷場景S在AI模型M下是否存在變元x使得g(x)¹gm(x),則稱降射g是無盡的,稱S在M下是非封閉的。

注意,無盡性不是說:存在一個變元x使得不等式g(x)¹gm(x)成立;而是說:不存在一種系統性的可行方法,可以判定是否存在一個變元x使得不等式g(x)

¹gm(x)成立。直觀上,即使一個場景包含的變元數量是有限的,如果沒有辦法確定描述該場景所需的所有變元是否都包含在模型降射中了,而是在AI系統的運行過程中不斷遇到“新”變元,那麼這個場景就具有變元無盡性,簡稱無盡性。

下面我們進一步觀察和分析:針對無盡性,人工智能的基礎性數學工具提供了什麼支持?

首先看邏輯。傳統邏輯是實質公理系統,一個實質公理系統也可以看成一個知識庫,它與它描述的現實場景之間的關係沒有嚴格規定,受到Hilbert等人的嚴厲批評,所以後來才改成了形式公理系統,進入現代邏輯(回憶我第一張PPT裡對人工智能史前基礎研究的回顧)。現代邏輯由兩層組成,上面一層是形式公理系統的語法部分,也可以看成是一個知識庫;下面一層是形式公理系統的語義部分,也就是知識庫的一組“模型”,其中每一個模型是一個代數結構,還是抽象的東西。所以這兩層都和真實場景沒有嚴格定義的直接關係。可是,無盡性意味著出現這樣的情況:有些變元x沒有包含在代數結構裡,但是在現實場景中卻有對應的場景元素g(x),所以這個x是一個丟失變元,於是就導致對應的知識庫存裡沒有關於x的知識,這就是出現了丟失知識。這下我們清楚了,既然相關的知識丟失了,你用這樣的知識庫去控制一個AI系統,當然就會出問題。這樣我們就發現,無盡性是涉及三層的(從知識庫到現實場景),但傳統邏輯沒有充分、有效地把握現實場景,而現代邏輯不考慮現實場景,所以無盡性是處於邏輯學的研究範圍之外的。也就是說,邏輯學作為人工智能的一種基礎性數學工具,在無盡性問題上沒有給我們提供任何支持。

再看概率和決策論規劃,因為決策論規劃也要用概率,我就把它們放到一起分析。在概率和決策論規劃的框架下,每一個樣本點wÎW是一個變元,g (w)是w對應的場景元素。使用概率或決策論規劃總要設置一個樣本空間W,無盡性意味著:W中變元可能未窮盡真實場景的所有元素。出現這種情況會導致什麼結果?不同的概率理論太多了,但主流的概率論都遵守Kolmogoroff公理,包含以下三條:

(1) P(A) ³ 0, where A is any event in W;

(2) P(W) = 1, where W is the sample space;

(3) P(A + B) = P(A) + P(B), where A and B are mutuallyexclusive。

從三條公理可以看出,Kolmogoroff概率只考慮給定樣本空間中的概率推理;如果增加一個樣本點w’ÏW,將導致原來所有樣本點wÎW的概率值P(w)可能都要調整;換句話說,如果你設置的樣本空間和真實的場景不一致,推出來的所有概率值原理上都是沒有理論保證的。

這樣說,有人可能擔心數學家、統計學家會不會反對?據我所知他們不反對。我們團隊有統計學教授,計算機專業學生受到統計學教授最嚴厲的批評就是這一點。統計學教授說:你一開始設置的樣本空間如果不能很好地符合真實場景和研究目的,後面弄的一大堆理論、算法、數據、實驗結果等等,無論看起來多好,都沒有意義。

這也說明,Kolmogoroff概率論對無盡性沒有提供支持。

所以,人工智能的三種主要的基礎性數學工具都沒有對無盡性挑戰提供支持,而其他數學工具通常是以這三種基礎性工具為理論基礎的,繼承了三種主要工具的理論特性。這反映了封閉性的科學挑戰。

現在考慮封閉性的技術挑戰。有些變元即使能夠找到,但是未必能夠處理,這種變元我們稱之為“難解變元”。比如文獻[6]裡有一個例子:明明是一隻猴子,被深層網絡識別為人,為什麼?因為這裡有遮擋。用我們的術語來表述,遮擋是一個無限值的變元,它每一個值降射為現實場景中猴子與遮擋物之間的一種可能的相對位置組合。這種情況下,如何找出無限多種相對位置組合的有限多個代表性樣本,使之有效地代表無限多種組合,最終保證被任意遮擋的猴子總被正確識別?這是一個技術挑戰(其背後可能也存在著科學挑戰)。還有其他與遮擋類似的情況,比如“光照”,這種變元好像更難處理。

上面是人工智能發現的一些例子。統計學做了更加系統的研究,難解變元(統計學中稱為latent variables)被區分為八種常見類型,現有的解決辦法都是要針對變元出現的場景做具體分析,弄清楚面臨的變元是八類中的哪一類,然後再從對應於該類變元的幾百種方法中嘗試現有的解法,看看能不能成功求解,如果最後都不成功,那就是不可解的。由此可見,即使可解,通常也是非常困難的,所以稱為難解變元。這是技術上的挑戰。

最後簡單談談封閉性的工程挑戰,主要表現為“失誤致命性”。如果在一個場景中,丟失變元和難解變元的存在可以導致AI系統出現不可接受的結果(不一定是死人,而是出現不可接受的後果),這就叫做失誤致命性。現在的解決辦法是:通過前面提到的封閉化、半封閉化、柔性化(見第二節),以規避失誤致命性,此外沒有別的辦法。所謂封閉化,其實就是進行場景裁減或者場景改造,以排除可能引起致命性失誤的情況。

現在概括一下封閉性的定義和意義。定義是:滿足以下三個條件的場景是封閉的,①降射不是無盡的,②場景不含難解變元,③應用不存在致命性失誤。三個條件都滿足的場景就是封閉性場景,封閉性場景可以應用現有AI技術,這是好消息。只要有一個條件不滿足,就是非封閉性場景,現有AI技術不保證可應用。我們下面將要討論的是三個條件都不滿足的情況。前面說過了,這時我們面臨著科學挑戰、技術挑戰和工程挑戰這三重挑戰。

怎麼辦?

4 超越封閉性:開放知識技術路線

科大機器人團隊認為,既然基礎性數學工具沒有給我們提供支撐,我們就必須做更多的反思。其中一項反思是考察臨近學科是如何應對底層挑戰的。計算機科學體系大概像我這張PPT表現的樣子(見圖3),圖靈機和可計算性理論是整個大廈的理論基礎。對比發現,AI的理論基礎——對應於可計算性理論的智能理論,目前肯定是沒有的;作用類似於馮•諾依曼體系結構的工作原理有沒有?不太清楚。

在對比的基礎上,我們問兩個問題。第一,智能科學現有的工作原理和未來可能出現的理論基礎能不能有效應對非封閉性?因為封閉性問題用現有AI技術已經可以解決了。第二,我們的理論基礎應該起什麼作用?好像現在也不太清楚。那我們就看看計算機科學的理論基礎起什麼作用。我們分析認為,計算機科學的理論基礎所起的作用是:提供了一種計算的形式公理元語義。

中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》

圖3 對比計算機科學體系

再對比經典物理學。這是經典物理學體系的結構(見圖4)。對應到人工智能,理論基礎仍然沒有;但是現在這個對應比較好,人工智能技術對應於工程力學,這個層次上我們已經有一些成果了。針對這個對比繼續問上面的兩個問題:非封閉性能不能有效應對?理論基礎應該起什麼作用?我們看看經典力學,它的基礎理論包括牛頓力學、哈密頓力學和拉格朗日力學三種力學(通常我們學一種就可以了),其作用是為經典物理學提供了一種實質公理元語義。

中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》

圖4 對比經典物理學體系

注意計算機科學和經典物理學的理論基礎在邏輯學上的差別:前者是形式的,後者是實質的。這個區別很有道理,因為計算機科學不直接涉及現實世界,而物理學涉及。

現在回到人工智能領域,進一步分析我們面臨的挑戰,特別是機器人AI面臨的挑戰。我們發現:

場景變異無盡性是挑戰的根本來源。

通常我們是針對一些典型的場景進行建模(用強力法或訓練法),而非典型場景被我們有意無意的忽略了。為什麼會這樣?這是思維經濟學原理所要求的,任何實際的建模不可能包含所有邏輯可能的場景(相當於模態邏輯語義學中的所有“可能世界”)。於是在AI系統的運行過程中,就不可避免地會遇到“新”場景,而且新場景會包含“新”元素,這些新元素在AI模型裡沒有對應的變元。圖5描述了這種情況。我們發現:

場景變異無盡性可以解釋人工智能的很多難題。

比如昨天Bengio教授在演講中提到的幾個問題,其中之一是Credit assignment is only over short causal chains,都可以用場景變異無盡性來解釋。事實上,變元無盡性的根源是場景變異無盡性。

中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》

圖5 場景變異無盡性

基於上述觀察,我們的基本觀點概括為一句話:

“正常情況下,任何AI模型總會丟失一些變元。”目前一定會是這樣,我們只能在這個條件下找出路。

“開放知識”技術路線的基本想法是:設計AI系統時只針對一組典型場景(注意一般不是一個場景)建一個初始模型;在AI系統運行過程中,如果遇到了一個新場景,就針對該場景建一個增量模型。增量模型中的知識來自外部知識源,所有網上的知識都是我們的外部知識源,當然這個問題很有挑戰性。不過更難的是:

增量模型和初始模型往往語義不一致,沒法整合為一個同一語義下的AI模型。

怎麼辦?我們的辦法是:為AI系統提供一個統一的語義基礎,這就是一個基礎性語言常識的實質元語義。注意,我們不是提供所有語言知識,而是隻提供基礎性語言常識,就是語義辭典描述的那些知識,這些基礎性語言常識是語言學家們通過長期研究和精煉而得出的。另外,這個元語義不是一個單純的理論框架,而且是一個實用系統,實際地包含基礎性語言常識。我們完成了它大約1%的工程開發,這樣我們就知道這套辦法在工程上是可行的,而且也近似知道了這個元語義系統的工程總量大概是多大。剛才周明老師說,建立某個預訓練模型可能需要1 200萬美元,估計我們這套模型只需要1 200萬元人民幣。

開放知識(簡稱OK)系統的體系結構如圖6所示。面向不同的任務提取相關的外部知識,其中一個任務由它的任務場景和任務目標組成,所以場景改變也被視為任務改變,也會觸發外部知識的提取。本地知識包括:機器人/AI系統硬件的感知、行動等基礎能力的知識;典型場景的背景知識;降射及OK機制的元知識。AI模型還包含基礎性語言常識,用於支持外部知識提取和知識組合。知識組合之後,形成當前任務模型,然後整體性降射到任務場景。這是整個OK技術路線的系統架構,2011年開始實施工程實現和系統測試[7]。

中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》

圖6 OK體系結構

同時,我們對外部知識提取部分展開了形式化研究,在因果邏輯(causal Logic)的框架上形式化為“知識修復問題”[8],如圖7所示。假設機器人接受了一項新任務,這項任務帶有新的場景元素。如果利用本地知識庫中的初始知識解決不了,機器人就生成相應的一些要求,依據這些要求從網上尋找合適的外部知識源,從中提取一塊可以用來解決當前任務的知識,這塊知識就叫做本地知識的一個“修復”。然後在元語義之下,把知識修復與本地知識進行整合,機器人用整合後的知識做任務規劃,形成當前任務的一個解決方案(即一系列行動),由機器人去執行。

中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》

圖7 知識修復問題

我們考慮了知識修復問題的多種模式,發現它們的計算複雜性都很高[9](見表1)。不過,我們找到了一種計算上易處理的情況(a computationally tractable case),即當外部知識具有a1 Ù …Ùan Þa的表達形式時,一種模式的知識修復問題(即thecredulous rehabilitation)可以在O(n2)時間內完成。這個結果非常好,因為大量常見的外部知識源具有這種表達形式,這表明知識修復問題是實際可解的。

中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》

表1 知識修復問題的計算複雜性結果

相應地,我們的實驗測試也針對這種形式的外部知識源展開。不過,我們(暫時)假定外部知識的提取是半自動的,即先人工初選一些“合適的”知識源,然後讓機器人從中自動選擇當前任務所需的知識修復。

從2011年開始的一個系列實驗主要從兩個維度進行考察,一個維度是機器人基本能力的不同情況(包括本地知識庫中的初始知識),我們設置了不同能力;另一個維度是外部知識的不同情況,我們預選了不同的外部知識源。這些知識源的體量都很大,通常其中只有一小部分知識是當前任務相關的,讓機器人自己找。

同時,我們選擇了兩個原始任務集,它們都是由網絡用戶提供的,並由專業人士濾除語義上不合理的任務,但不考慮這些任務是否可由機器人實現。第一個原始任務集包含2萬多條用戶任務,經過語義聚類,產生11 615個不同的用戶任務作為測試集1,其中每一項任務都需要機器人執行一個完整的行動序列才可以完成任務。第二個原始任務集包含3000多條用戶願望,比如“我渴了”,這種任務不是聊天,而是要求機器人想辦法,通過執行一系列行動,讓用戶不渴。通過語義聚類,產生了467條不同的用戶願望,作為測試集2。對兩個測試集的整體性測試沒有完全在實體機器人上進行,而是通過仿真實驗,對外部知識提取、知識整合和機器人任務規劃能力進行測試。

第一類任務的實驗結果顯示,引用外部知識沒有顯著提升任務可解度,這個結果提供了非常有價值的實驗觀察。第二類任務只用本地知識連1%都解決不了,使用了兩類外部知識之後,任務可解度達到了28.69%[7],這個提升非常顯著。這項實驗給我們很大的信心,後來一直在改進並重復進行這個測試。到了2017年,兩類任務的測試效果都獲得進一步提升,第二類任務提升得更多[10]。

我們通過對試驗結果(包括提升明顯和不明顯的結果)的分析,得出開放知識技術路線對外部知識的要求如下:第一,知識的引用量很重要。比如,測試集1有1萬多個任務,而我們在實驗中使用的外部知識量與任務量在同一個量級,引用知識量明顯不足;測試集2引用的知識量和測試集1基本相同,可是隻有467個用戶任務,知識引用量明顯增加,效果也明顯提升。第二,知識的適用性具有決定性作用,不適用的知識對任務可解度改進沒有任何價值。這與剛才Gil教授和田奇博士談到的一些內容都是有關的。第三,知識協調性很重要,這裡的協調性包括外部知識之間的互補性,以及外部知識對於當前任務的適用性。

總的觀察是:如果三個條件都得到較好的滿足,利用外部知識可以幫助AI系統有效應對場景變異挑戰。

值得注意的是:開放知識技術路線不是把全世界的知識都拿來用,而是每次只拿其中很小的一部分就夠了。即使對測試集2,實際使用的知識引用量也是非常有限的。當然,必須滿足上面指出的三個條件,可見這些條件的必要性。

下面看一些實體機器人上的試驗測試,這些實驗還涉及我們的另一個工作,即“融差性原理”,這個原理在下面介紹的內容中表現為“融差能力”。注意,“融差”不是傳統的容錯,而是要利用差異,以更好地解決無盡性等難題。經過反覆摸索,我們發現,利用融差性原理,可以解決過去無法解決的很多深層難題。事實上,

融差性原理是開放知識技術路線的深層基礎。

第一個實驗是用我們自主研發的“可佳”機器人,在家庭環境中為用戶提供服務,比如用微波爐加熱食品。這個功能2010年就實現了(見圖8),並在當年的深圳高交會上公開演示了100多場。可是,在實驗室條件下好用,不等於在千家萬戶都好用,千家萬戶包含著各種各樣的變異場景!事實上,這個實驗是場景無盡性的一個代表性案例,反映了機器人AI遇到的普遍性挑戰。所以,10年來我們通過這個實驗不斷深化對場景無盡性的認識,摸索解決辦法。

在這個視頻中,機器人自己打開微波爐,把食品放進去加熱,摁按鈕,直到最後把加熱後的食品從微波爐裡取出來。我們的可佳機器人是用強力法+訓練法開發的,比如摁按鈕是用訓練法做的,任務規劃是強力法實現的,機器人摁按鈕之後會看顯示屏,判斷自己是不是按中了。為了體現場景變異,我們讓實驗人員給機器人搗亂,用搗亂代表場景變異,環境的其他方面不變,這樣比較容易進行試驗。大家看,可佳現在要打開微波爐的門,人又來搗亂,讓機器人的操作不成功。可佳能夠發現自己的操作不成功,然後會想辦法補救。實驗結果表明,整個任務在人搗亂的情況下仍然可以完成。

中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》

圖8 “可佳”機器人自主操作微波爐加熱食品

其實在很多現實場景中,毛病往往出在人身上,可是大家往往認為毛病主要出在機器人身上。這個觀察適用於人和機器人之間的協作。現在很多人假設,人和機器人協作中都是機器人犯錯,據我們觀察,更多的是人犯錯。

剛才這個視頻反映的是機器人如何應對場景變異。我們還有一個工作是應對對象變異,比如機器人抓取各種不同大小、形狀和表面特性的東西,這是一個很大的挑戰。為此,這些年我們嘗試將融差性原理應用於從機器人手爪硬件設計直到軟件控制,這樣做出來的柔性手爪可以抓握家庭環境中具有不同大小、形狀和剛度的常見物品(見圖9)。

中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》

圖9 不同剛度物體無力反饋的融差操作

下面播放的這個視頻中,用我們的柔性手爪抓握不同剛度、不同表面特性的物品,而且控制程序和硬件參數都不用調整,目前也沒有使用力反饋(沒有使用力傳感器),只用一個價值人民幣1 000元左右的攝像頭,放在傳送帶上方,大致看出物品的大小和形狀就行,肯定看不出材質和剛度。這個手爪大約人民幣2 000元,如果做成產品批量生產,估計100元以下。我見過7 000美元的手爪,抓不了這麼多東西,更抓不了豆腐。

現在大家看到機器人在抓豆腐。豆腐很軟,人不小心就捏碎了。右下角是硬木塊,可以用榔頭敲,都不會變形的。豆腐、蛋糕和木塊等不同剛度的物體全部放到傳送帶上,柔性手爪完全一樣地抓,都可以抓起來。

關於開放知識的未來工作,我們覺得有很多,這裡只列舉三個課題。第一,涉及降射的因果推理。昨天Bengio教授在演講中提到,因果發現需要涉及現實世界和行動。我們進一步提出:因果關係的研究需要與降射相關,因而涉及三層空間(見圖1)。第二,異質知識系統性整合的原理和方法。第三,融差性原理的理論基礎和系統性方法。

最後,對未來15年做一個展望。預期現有人工智能技術將得到大規模產業化應用,但一定要遵守封閉性準則。這種局面是過去70年中從來沒有出現過的,令人振奮。其次,基礎研究將受到更高程度的重視,並出現應用驅動、強化基礎、深化技術的發展態勢。另外,未來15年中人工智能倫理將成為人工智能的一種新的核心競爭力,值得關注。

參考文獻

[1] A. M. Turing, Computing Machinery and Intelligence. Mind 49: 433-460,1950.

[2]陳小平(主編),《人工智能倫理導引》,中國科學技術大學出版社,2020年(待出)。

[3]陳小平,人工智能中的封閉性和強封閉性——現有成果的能力邊界、應用條件和倫理風險,《智能系統學報》2020年第1期(CAAI Trans. Intelligent Systems, 15(1): 114-120).

[4]DavidSilver, Julian Schrittwieser, et al, Mastering the game of Go without human knowledge,Nature, Oct. 18, 2017.

[5]陳小平,封閉性場景:人工智能的產業化路徑,《文化縱橫》2020年第1期.

[6]Alan L. Yuilleand Chenxi Liu, Limitations of Deep Learning for Vision, and How We Might FixThem, The Gradient, 2018.

[7]XiaopingChen, Jiong kun Xie, Jianmin Ji, and Zhiqiang Sui, Toward Open KnowledgeEnabling for Human-Robot Interaction, Journal of Human-Robot Interaction, 2012,1(2): 100-117.[8]XiaopingChen, Jianmin Ji, et al, Handling Open Knowledge for Service Robots, In:Proceedings of IJCAI 13, Beijing, China, Aug 3-9, 2013: 2459-2465.

[9]JianminJi and Xiaoping Chen, A Weighted Causal Theory for Acquiring and UtilizingOpen Knowledge, International Journal of Approximate Reasoning (IJAR) 55(9):2071-2082, 2014.[10]DongcaiLu, Xiaoping Chen, et. al.,Integrating Answer Set Programming with Semantic Dictionaries for Robot Task Planning,In: Proceedings of IJCAI 2017, 4361-4367.

中科大陳小平教授:《圖靈假說70年:兩類AI與封閉性挑戰》


分享到:


相關文章: