下一隻阿爾法狗,已經會認路了

下一隻阿爾法狗,已經會認路了

文 | 王兆洋

在2014年上映的電影《她》(Her)中,男主角西奧多帶著搭載有 AI 操作系統“薩曼莎”的手機,走在擁擠的遊樂場裡。他突然心血來潮,決定閉上眼睛,讓薩曼莎來指揮他的路線。西奧多伸直手舉著手機,薩曼莎完美的指引著他避開迎面而來的人群,繞過立在廣場的柱子,抵達他的目的地——一家披薩店。

下一隻阿爾法狗,已經會認路了

放在電影的背景下這個場景很溫馨,單獨拿出來看,這個畫面很詭異。但無論如何,這樣的功能正在離我們越來越近。

想要實現 AI 的實時指路,背後需要擁有兩個關鍵技術。首先,AI 需要能夠用最高效的方式識別周圍的空間,其次,它還要能夠像人一樣,基於視線所及的圖像來“腦補”出整個空間的佈局。

而最近, AI 在這兩個能力上剛剛取得了巨大進展,帶頭的又是 Google 旗下的 AI 明星公司 DeepMind。

在週四出版的《科學》(Science)雜誌上,DeepMind 發表了一篇論文,向世界介紹了一個名叫 GQN 的新 AI 系統。

GQN的全稱為“ Generative Query Network”,直譯為“生成式查詢網絡”,它改進了現有的機器視覺研究方式:目前的機器視覺在訓練時,更多還是依賴“吃進”人為標記好標籤的圖像數據來進行訓練,大部分屬於監督式學習,而 GQN 的方法則是讓機器進行自我訓練,屬於無監督機器學習。

這是一種更接近人類行為模式的系統:當我們走進一個空間時,我們可以根據自己雙眼看到的簡單畫面,快速對所處空間有一個整體的感知。比如,眼睛看到的可能只是一個衣櫃的正面,但在我們的腦海中,這個衣櫃的全貌、它在房間所處的位置、它在陽光下的陰影的樣子,其實都已同步生成並存在於腦海中。

這對人類來說很簡單,但沒人能說清人類大腦是如何處理這些信息的。當 AI 嘗試復刻這些流程時,若依然採取輸入規則、監督式的學習方式,顯然十分困難。GQN 選擇了神經網絡的方法,決定讓機器自己學習,就像它們在圍棋、翻譯等領域做的那樣。

下一隻阿爾法狗,已經會認路了

具體來看,GQN 由兩個模型構成,一個叫做表徵網絡(representation network),另一個叫做生成網絡(generation network)。前者其實可以看作是在模仿人類的眼睛,後者則嘗試複製人類大腦對空間信息的處理方式。

表徵網絡通過圖像傳感器觀察世界,把它在一個空間中看到的二維圖像,以數據形式輸入到系統中,之後生成網絡會基於這些數據進行學習,然後嘗試對某一個陌生視角下、這個空間的樣子做一個預測,將其渲染並以三維形式呈現出來。

簡單說就是,表徵網絡看見了一個桌子的正面,包括它的構造、顏色、高低等,然後生成網絡要據此“猜出”桌子側面、底面等等其他角度的樣子。就像人類無時無刻不再做的那樣。

由於採用了無監督的學習模式,表徵網絡在“看”東西時並不知道生成網絡最後需要從哪個視角進行預測,為了更好地幫助後者完成任務,它就需要在不斷的訓練中,提升自己的觀察和記錄能力,最終保證自己對系統提供的輸入是最高效的。

過程中它慢慢積累了經驗,對整個空間中各個物體之間的透視規律、陽光陰影關係等都有了感知(事先並沒有任何人為的干預來告訴機器什麼是“顏色”、“位置”、“大小”等等這些概念,全靠機器自己“開悟”),並且最終用一種計算機能理解的、最濃縮最高效的數據形式完成對系統的輸入。

而生成網絡在一次次訓練中,將這些輸入的數據再次轉換成圖像。而且,這個圖像不再是二維的,它需要給出一個立體的空間畫面,裡面物體的尺寸、定位、光影關係、透視關係都需要準確呈現。在這個過程中,生成網絡逐漸學習成了一個有渲染能力的圖像神經網絡。

經過一段時間的自主學習後,DeepMind 對 GQN 在虛擬環境中進行了測試。測試結果驚人。

下圖是第一種測試,在一個類似小廣場的簡單的虛擬3維空間中,GQN 的表徵網絡從一個視角輸入一組二維圖像,而生成網絡實現了清晰精確的三維“還原”——包括二維圖片以外的空間。

下一隻阿爾法狗,已經會認路了

接下來,DeepMind 又做了第二種測試。這有點類似我們中學時都做過的空間感覺的測試。表徵網絡對一個多個立方體組成的“積木”進行觀察輸入,而生成網絡需要回答這個物體由幾個立方體組成。GQN 也完成了測試。

下一隻阿爾法狗,已經會認路了

而第三種測試,DeepMind 把 GQN 從開放的小廣場趕到了一個更加複雜的“迷宮”裡,這裡,視野會受到限制,但 GQN 可以來回走動,找到它認為最好的視角進行觀測,從而幫助生成網絡更好還原整個空間。

下一隻阿爾法狗,已經會認路了

可以看到,GQN 就像做拼圖一樣,隨著表徵網絡觀察角度的增多,而逐漸完美“腦補”出整個空間的全貌。

這已經和人類非常接近。近的有點嚇人。

DeepMind 的聯合創始人、CEO 德米斯·哈薩比斯(Demis Hassabis)說:“GQN 已經可以從任何角度想象和呈現場景。”

其實,如果拉長時間來看,可以發現,這次 GQN 的突破,其實是最近 DeepMind 在 AI 識別空間方面的一系列嘗試中的一環。

就在上個月,DeepMind 就曾在《自然》上發文,表示他們在 AI 身上實現了類似哺乳動物“抄近路”似的導航行為。

下一隻阿爾法狗,已經會認路了

它們在 AI 身上以計算機科學的方式復刻了類似人類大腦中實現認路功能的最神秘的“網格細胞”。研究指出,網格細胞(grid cell)在大腦裡給人類提供了一種感知矢量空間的框架,讓人們可以給自己導航。這個可能是人類上千年進化出來的細胞,被 AI 輕鬆復刻。

而今年4月,DeepMind 還在 ArXiv 上發表論文,宣佈他們使用深度學習和神經網絡代替了地圖指引,讓 AI 可以僅依靠街景圖就對整個城市的佈局有所瞭解,然後找到通往目的地的路。

DeepMind 的這些對 AI 在空間和視覺方面技能的研究,最終也很可能集合成一個類似阿爾法狗的集中體。到時候的應用場景肯定不只是走走迷宮這麼簡單。

DeepMind 就像是一個製造機器人的拼圖師傅,一點點拼著一個理想中的“超級人工智能”,然後等著人工智能在智慧上超過人類的奇點時刻的到來。

準備好向人工智能投降吧,人類。

關注“硅星人”,

讓你看到最不一樣的硅谷!

在微信裡搜索guixingren123


分享到:


相關文章: