04.03 CVPR 2022大會主席、港科大教授權龍:計算機視覺的現狀與未來

近日,由雷鋒網 & AI掘金志主辦的「第二屆中國人工智能安防峰會」在杭州召開。

峰會現場,香港科技大學教授,CVPR 2022、ICCV 2011大會主席,Altizure創始人權龍教授發表了題為《三維視覺重新定義人工智能安防》的演講。

權教授表示,人工智能的核心是視覺,視覺定義了智能安防,但現在的視覺仍侷限在二維識別層面,未來三維視覺重建將會成為最重要的任務, 它也將重新定義智能安防。

權教授也談到,現在計算機視覺本質上是大數據統計意義上的分類與識別。

“我們的終極目標是對圖像的理解,也就是認知,但當前的計算機視覺只處於感知階段,我們並不知如何理解,計算機視覺一直是要探索最基礎的視覺特徵,這一輪視覺卷積神經網絡CNN本質上重新定義了計算機視覺的特徵。但人類是生活在三維環境中的雙目動物,這使得人類生物視覺的識別不只是識別,同時也包括三維感知與環境交互。”

“因此我們要和三維打交道,二維識別所能做的事,在當前眾多複雜場景中,是遠遠不夠的。但三維重建不是最終目的,而且是要把三維重建和識別融為一體。

以下為權龍教授的現場演講內容,雷鋒網作了不改變原意的編輯及整理:

CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来

我們知道,現在AI安防的核心,本質上是計算機視覺,而計算機視覺分為兩大部分,分別是識別和重建。

“識別”是現在非常熱門的方向,相比而言,大家對“重建”的理解卻並沒有那麼透徹。我們需要知道這一點,計算機視覺不止侷限於識別,三維重建在其中扮演的角色甚至更為重要

這是三維重建和安防融合的實際案例:

CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来
CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来
CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来

這些景物都是由三維構建,我們把實時視頻投影到三維,用戶在界面上也可以“前、後、左、右”拖動操作。

接下來我要講的是當前計算機視覺存在的問題,以及為何三維視覺將重新定義計算機視覺,並且重新定義人工智能安防。

人工智能的本質上是讓計算機去聽、看、讀,在所有的信息裡面,視覺信息佔了所有感官的80%,所以視覺基本上是現代人工智能的核心。

對我們來說,其實並沒有泛泛的人工智能,人工智能需要具體根據技術維度和場景維度,區分開來看,人工智能的發展、革命和應用落地,一定是取決於以及受限於計算機視覺發展、革命和應用。

而人工智能安防也同樣是伴隨著計算機視覺的發展而崛起。

2012年是非常重要的一年,當時在ImageNet比賽中,有團隊用卷積神經網絡CNN把圖像識別準確率從75%提高到了85%,這件“非常小”的事情帶動了這一輪深度學習之下的人工智能,所以我們也可把2012年稱作是這輪以深度學習為代表的人工智能元年。

這件事再回到1998年,那個年代Yann Lecun已經發表了卷積神經網絡LeNet,這個網絡呢,首先它輸入的圖像比較小,只黑白單通道32*32,只能識別出一些字符和字母;因為也沒有GPU,所以當時整個網絡也只有60萬的參數。

到了2012年卷積神經網絡復活出現了AlexNet。AlexNet和1998年LeNet的卷積神經網絡相比,它的內部結構基本不變,但可輸入的圖像尺寸不一樣:1998年的模型,輸入尺寸為32*32,且只有一個通道。新的模型輸入尺寸已經擴大到了224*224,而且有三個通道。最關鍵的是裡面有了GPU,當時的訓練用到了兩塊GPU,參數達到將近6000萬。

CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来

這麼多年來計算機視覺的卷積神經網絡,算法和結構,基本的結構變化是很小的。

但1998年到2012年這十五年來發生了兩件特別重要的事:一是英偉達研發了GPU;第二就是李飛飛創建了ImageNet,她把幾百萬張照片發到網絡上並發動群眾做了標註。也正是因為算力和數據,才創造了AlexNet的成就。

到了2015年,機器視覺的識別率基本超越了人類。其實人類在識別方面並沒有那麼強,我們的記憶非常容易犯錯誤。根據統計,人類在分類上的錯誤率達到了5%。而機器,從2015年之後你們看各種ImageNet在公開域數據集上的錯誤率已經遠遠低於5%。

但為什麼ImageNet在兩年前停止了比賽,因為現在比拼的基本上都是靠算力和數據。

2015年隨著卷積神經網絡下的人工智能技術的成熟,AI也到達了一定的巔峰,計算機視覺或者說更寬泛的安防市場也被重新定義。

也在這一時期,曠視、商湯這幾家做視覺的公司進入了安防市場。

從2012年到2019年的7年間,所有的數據又都翻了一千倍,計算速度比以前快一千倍,模型也比以前大一千倍。2012年訓練AlexNet模型需要使用兩塊GPU,花費兩個星期;今天做同樣的事情只需要一塊DGX-2,十幾分鍾就能完成。

從整個模型的參數來看,2012年的AlexNet已非常可觀,6000萬的參數非常龐大,這個數字我們當時都不敢想象。到今天這個網絡又要放大千倍,達到十億級的參數量。但是從算法、架構來說,現在基本上都是標準的卷積神經網絡,其實並沒有太大的進步。

我們也可以想一下,計算機視覺裡面的識別到底能夠達到什麼程度?其實它並沒有那麼強,它只是在一個大數據統計意義上的識別而已。

大家都聽說過無監督學習,但無監督學習的結果和應用的場景並不是太多。現在可用的、做的好的也就是可監督的,也就是CNN。

我簡要概括下,現在的計算機視覺就是基於卷積神經網絡而來,整個CNN的架構非常簡單,能做的事其實也沒那麼多,它提取了高維的特徵,然後要結合其它方法解決視覺問題。

如果你有足夠的數據並且能夠明確定義你想要的東西,CNN的效果很好,但是它有沒有智能?其實沒有。

你說它蠢,它跟以前一樣蠢。它能識別出貓和狗,但我們要知道貓和狗的分類都是我們人類自己定義的,我們可以把貓和狗分開,也可以把複雜的狗類動物進行聚合和分類,這些東西本質上來說並不是客觀的,而是主觀的。

我們做計算機視覺研究的理想,是讓機器進行理解圖像。如何讓它進行理解?這非常的困難,直到現在也沒有人知道它怎麼去進行理解。現在它能做的,只能做到認知。我們研究計算機視覺的目的是得到視覺特徵,有了視覺特徵後才能開展一系列工作。

為什麼視覺特徵如此重要?在語音識別領域,語音的特徵已經定義得非常清晰——音素。但如果我們拿來一個圖像,問它最重要的視覺特徵是什麼,答案並不明確。大家知道圖像包含像素,但像素並不是真正的特徵。像素只是一個數字化的載體,將圖像進行了數字化的表述。計算機視覺的終極目標就是尋找行之有效的視覺特徵。

在這樣一個擁有視覺特徵前提之下,計算機視覺也只有兩個現實目的,一個是識別,另一個是三維重建。

它們的英文單詞都以“re”做前綴,說明這是一個反向的問題。

計算機視覺不是一個很好定義(ill-posed)的問題,沒有一個完美的答案或方法。

這一輪的卷積神經網絡(CNN)最本質的一件事是重新定義了計算機視覺的特徵。在此之前,所有的特徵都是人工設計的。今天CNN學來的東西,它學到特徵的維度動輒幾百萬,在以前沒有這類網絡的情況下是根本做不到的。

縱使CNN的特徵提取能力極其強,但是我們不要忘記建立在CNN基礎上的計算機視覺是單目識別,而人類是雙目。我們的現實世界是在一個三維空間,我們要和三維打交道。拿著二維圖像去做識別,這遠遠不夠。

在雙目視覺下,要包含深度、視差和重建三個概念,它們基本等價,使用哪個詞彙取決你處在哪個群體。

傳統意義上,三維重建是在識別之前,它是一個最本質的問題,三維視覺裡面也要用到識別,但是它的識別是對同樣物體在不同視角下的識別,所以說它的識別是更好定義(well-posed) 的一個識別,也叫匹配。

雙目視覺對整個生物世界的等級劃分是非常嚴格的。大家知道馬的眼睛往外看,對角的部分才有可能得到一部分三維信息,但它的三維視角非常小,不像人類。魚的眼睛也是往兩邊看的,它的主要視線範圍是單目的,它能看到的雙目視區也是非常狹窄的一部分。

人類有兩隻眼睛,通過兩隻眼睛才能得到有深度的三維信息。當然,通過一隻移動的眼睛,也可以獲得有深度的信息。

獲取深度信息的挑戰很大,它本質上是一個三角測量問題。第一步需要將兩幅圖像或兩隻眼睛感知到的東西進行匹配,也就是識別。這裡的“識別”和前面有所不同,前面提到的是有標註情況下的識別,這裡的“識別”是兩幅圖像之間的識別,沒有數據庫。它不僅要識別物體,還要識別每一個像素,所以對計算量要求非常高。

在生物世界裡,雙目視覺非常重要,哺乳動物都有雙目視覺,而且越兇猛的食肉的動物雙目重疊的區域越大,用雙目獲得的深度信息去主動捕捉獵物。吃草的或被吃的動物視覺單目視覺,視野很寬,只有識別而無深度,目的是被進攻時跑得快!

在這一輪的CNN之前,計算機視覺裡面研究最多的是三維重建這樣的問題,在CNN之前有非常好的人工設計的視覺特徵,這些東西本質上最早都是為三維重建而設計,例如SIFT特徵。而在這之後的“識別”,只是把它放在一個沒有結構的圖像數據庫裡去搜索而已。 由此可見,現代三維視覺是由三維重建所定義。CNN誕生之前,它曾是視覺發展的主要動力源於幾何,因為它的定義相對清晰。

我們再來看一下當今的三維重建技術的現狀和挑戰。

三維視覺既有理論又有算法,一部分是統計,另外一部分則是確定性的,非統計,也就是傳統的應用數學。

計算機視覺中的三維重建包含三大問題:

一、定位置。假如我給出一張照片,計算機視覺要知道這張照片是在什麼位置拍的。

二、多目。通過多目的視差獲取三維信息,識別每一個像素並進行匹配,進行三維重建。

三、語義識別。完成幾何三維重建後,要對這個三維信息進行語義識別,這是重建的最終目的。

這裡我再強調下,我們要把三維場景重新捕捉,但三維重建不是最終的目的,你要把識別加進去,所以說最終的應用肯定要把三維重建和識別融為一體。

現在三維重建的主要挑戰是,算力不夠,而且採集也比較困難。我舉個例子,我們安防場景識別一個攝像頭比較容易,但如果實時重建N個攝像頭的實景,這對算力要求非常高。這些限制也使得當前的單目應用比較多,但我認為,未來雙目一定會成趨勢。

在深度學習的影響下,三維重建已經取得了比較大的成就。CNN在2012年之後的幾年內,對三維重建的影響不是很大。但是從2017年開始,CNN就對三維重建產生了重要的影響。在三維重建領域有一個數據集叫KITTI,從2017年,我們開始用三維卷積神經網絡。

以前是把它作為一個跟識別有關係的二維CNN,更現代的雙目算法都是基於完整的三維卷積神經網絡。現階段三維卷積神經網絡的表現也非常強,給任何兩幅圖像,錯誤率只有百分之2到3。

現在計算機視覺覆蓋的應用場景,被計算機視覺重新定義,但這些應用也受制於計算機視覺的技術瓶頸。

雖然計算機視覺對安防行業的推動作用很大,但基本也不外乎識別人臉、車、物體等應用,如果計算機視覺得到進一步發展,安防行業也將再度被重新定義。

而我認為,三維視覺將對安防產生非常深遠的影響。

三維重建在安防領域的應用,第一個是大規模城市級別的三維重建。

CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来

每個大型城市動輒都百萬級的攝像頭,把攝像頭融合在這樣的一個實景三維場景裡,才可達到城市級管控的效果,這是AI安防最理想化的形態。

現在政府都在通過一張實景圖對城市進行治理,這張圖以前是二維的,但今後一定是實景的,是三維的。

我們港科大的三維視覺初創公司Altizure就是一家做城市級別的實景三維重建和平臺企業,大規模重建有兩方面非常有挑戰性:

第一是因為它的數據量非常大,我們現在建模動輒百萬級的高清圖像,要有強大的分佈式以及並行算法,幾個星期才能做完。

第二就是可視化,一張實景圖的展示也特別有挑戰性,因為一張實景圖數據量非常大,即便是在任何一個端口的瀏覽實景三維都是非常有挑戰性的。

現時只有Altizure可以應對這個挑戰。

我們做的一個典型案例就是為深圳坪山區佈局了時空信息雲平臺,我們對坪山的大片住宅區域進行了三維重建,後臺用戶可在三維實景圖像上進行“上、下放大“以及”前、後、左、右”拖拽移動,來查看區域實景。

後臺用戶也可用鼠標在三維實景圖像中選取部分區域,然後這一區域的各個重點視頻監控畫面便在大屏幕中一一實時展示。坪山第一期項目的實時監控視頻顯示,與常規的視頻監控後臺呈現效果相似,總體更為傳統一些。

而在二期和三期,我們開始可以把所有的視頻在三維平臺上進行展示。

現在深圳已經有很多區在佈局這類實景三維立體時空信息平臺。

有了這樣的平臺,不僅是視頻,其實還有一些別的數據也是可以加進去應用。

這個總控系統,集成了景區的監控攝像,閘機,商店,wifi等公共設施,實時可視化人流、電瓶車位置。三維實景給景區總控和下一步遊客的導覽帶來了便利。

下圖是我們在廣州做第一個案例,對歷史建築進行保護以及城市規劃。

CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来

Altizure實景三維視覺平臺現在已經有180個國家的實景三維內容和30萬專業用戶。

CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来

我們的香港科技大學計算機視覺實驗室和初創公司Altizure 在全球引領視覺三維重建的研究與應用。我們的目的並不是為刷榜而刷榜,但在一些關鍵的三維榜單,我們從去年四月以來一直穩居榜首!

CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来

最後總結一下,計算機視覺中的“識別”定義了智能安防,但現在的“視覺”和“識別”仍侷限在二維,三維重建是未來計算機視覺中最為重要的任務,因此三維重建也將重新定義人工智能以及智能安防。

現在的視覺研究,同質化現象非常明顯。

我們在八十年代就開始做人工智能了,今天的現狀,有點像是歷史重演,計算機視覺的本質跟以往並沒什麼差別,只是大家用的硬件工具不一樣。

計算機視覺雖然正處於黃金時期 ,但它的發展還是非常有侷限性的,我認為,所謂的通用人工智能和通用計算機視覺還遙遙無期。

謝謝大家!

點擊閱讀原文,獲取 微軟亞研院 CVPR 2019 論文分享會 Poster 論文打包下載


分享到:


相關文章: