計算機視覺如何像嬰兒一樣感知3D世界?Google最新研究結果告訴你

一個幾乎什麼信息都不知道的神經網絡,觀察到一個場景或者一兩個靜態的二維圖像,就可以重建出一個合理精準的3D圖像,而且並不是如何去從快照到3D的建模,而是模仿人類的做法,直接建立起認知出來。

如嬰兒般地建立對視覺的3D認知

大多數的人工智能中,計算機視覺系統都是基於深度神經網絡來建立的,它會消耗大量的標記數據來學習如何將圖像映射到場景中:他們會在學習中攝取大量已經被人標記好的數據,並藉助這些數據給出正確的答案,圖像中的所有內容也會被概述和命名。

他們通常的做法是,將圖像中的顯性對象分類,對場景類型進行分類,檢測物體周圍包圍的對象,或將單個像素標記為預先確定的類別。這可能也是大部分人工智能公司僱傭所謂“民工”的原因吧!

相比之下,自然界中的人類,包括剛出生的嬰兒,都可以自主學習,然後通過記憶、想象力等,快速地感知周圍的世界。

那麼,對於計算機視覺系統來說,最理想的做法就是向人學習,創建機器的“人工系統”,自主地通過建模數據來學習實際場景,而不是使用人類提供的標籤作為柺杖。

所以,GQN也是這麼想的,其工作原理如下:

計算機視覺如何像嬰兒一樣感知3D世界?Google最新研究結果告訴你

一部分是“編碼”,就是把從某個角度的觀察生成3D場景,並用複雜的數學形式進行編碼;一部分是“生成”,用早期創建起來的向量,來預測場景的不同部分到底是什麼樣子。

也就是說,不需要標籤數據,先從不同角度拍攝圖像,並創建一個抽象的場景描述,學習它的基本要素;接下來,新系統(GQN)就可以從任何一個新的、任意的視角預測場景會是什麼樣子。

計算機視覺如何像嬰兒一樣感知3D世界?Google最新研究結果告訴你

在這個框架內,機器學習只通過對他們在場景中移動時獲得的數據進行訓練來感知周圍環境。就像嬰兒和動物一樣,GQN通過嘗試理解其對周圍世界的觀察來學習。在這樣做時,GQN學習了似乎合理的場景及其幾何屬性,而沒有任何人物對場景內容的標註。

計算機視覺如何像嬰兒一樣感知3D世界?Google最新研究結果告訴你

想象一下,就像有人遞給你一些房間的照片,然後要求你畫出你所看到的,這對我們是不是很簡單?但對於缺乏想象力的計算機視覺來說,他們並沒有自然而然的能力去做到這一點,畢竟,他們也只能所見即所得,看不到桌子背後的結構啊,微笑攤手……

迷宮一樣的環境也沒問題

這樣我們就可以看出,這篇論文的驚奇之處在於,如果該系統(GQN)能夠學會這種精確而可控的方式來創建圖像,那麼它陷入就可以足夠深入地觀察,透視,甚至不需要任何人工的干預。如下圖所示,它允許系統從某個單一的視點,準確地重新創建一個3D對象:

計算機視覺如何像嬰兒一樣感知3D世界?Google最新研究結果告訴你

顯然,在圖上,任何一個單一點的觀察,並沒有任何輔助告訴GQN,有些部分會永遠地遠離攝像頭。所以這就是神奇之處,它可以自我創建一個合理的結構版本,而且無論是在任何方面都是精準的,如果增加多個觀察,那麼結構顯而易見地好。

計算機視覺如何像嬰兒一樣感知3D世界?Google最新研究結果告訴你

這種能力對於機器人來說太重要了!

想象一下,他們也必須通過感知,來對現實世界做出反應。有這樣系統的自動駕駛是不是會讓你覺得更加安全?即便他們沒有對前方某些車輛透視完全,但依然可以做出準確的判斷!

你能想象到嘛,這些科研人員已經給GQN提供了複雜的迷宮測試了!

科研人員為GQN提供了由多個通過走廊連接的房間組成的迷宮,而且每個每個迷宮的佈局和牆壁的顏色都是隨機的。在這樣的環境下,GQN僅僅觀察了五次之後,其不確定性就幾乎完全消失了!

計算機視覺如何像嬰兒一樣感知3D世界?Google最新研究結果告訴你

不過,GQN的實驗確實也還存在著侷限性:目前實驗還存在於實驗室階段,現實的環境還是更為複雜。

當然,主要作者之一S. M. Ali Eslami 也說了,還是需要更多的數據,以及更快的硬件,然後才能在現實世界中部署這種新型的系統,我們也才能更加接近於理解人類到底是如何建立自己的視覺系統的。

我們還是可以合理期待下的嘛。

論文傳送門:

《Neural scenerepresentation and rendering》

S. M. AliEslami、Danilo Jimenez Rezende、Frederic Besse 等;

http://science.sciencemag.org/content/360/6394/1204.full

以及補充材料傳送門:

www.sciencemag.org/content/360/6394/1204/suppl/DC1


-End-

加入聲學在線:[email protected]


分享到:


相關文章: