直接識別人臉?MIT、耶魯新研究:模型首先得做到反向「想象」臉

點擊上方 "程序員小樂"關注, 星標或置頂一起成長

每天凌晨00點00分, 第一時間與你相約


每日英文

Never abandon an old friend. You will never find one who can take his place. Friendship is like wine, it gets better as it grows older.

不要輕易放棄舊朋友。因你不能找別人代替他。友情就像酒,越久越好。


每日掏心話

有一個夜晚我燒燬了所有的記憶,從此我的夢就透明瞭;有一個早晨我扔掉了所有的昨天,從此我的腳步就輕盈了 。


直接識別人臉?MIT、耶魯新研究:模型首先得做到反向「想象」臉

程序員小樂(ID:study_tech)第 800 次推文 圖片來自百度


往日回顧:Linux性能調優,從優化思路說起


正文


計算機視覺是目前人工智能最成功的領域之一,但這些用來檢測物體、人臉的複雜系統,直至今日也無法與人類的視覺系統相提並論。近日,來自麻省理工學院和耶魯大學等高校研究者提出了一種名為「EIG」的深度神經網絡模型,與常用的帶標籤數據訓練出的神經系統相比,新模型的機理更接近真實的人類視覺系統。

直接識別人臉?MIT、耶魯新研究:模型首先得做到反向「想象」臉


只要我們一睜開眼,就能立刻看到周圍的環境,這個辨認過程非常快,而且即使身處一個雜亂的環境,我們的眼睛也能辨別出每一個細節。視覺系統不僅可以檢測和識別物體,而且可以推斷出深層次的場景結構。
為什麼大腦能夠迅速地形成細節如此豐富的圖像?這一直是個未解之謎。
一直以來,腦科學家們都在嘗試使用計算機視覺模型來複制大腦的這個過程,但目前最先進的模型只能完成更簡單的任務,比如從雜亂的背景中識別出面部或者物體。
此前,逆生成模型或者說「綜合分析(analysis-by-synthesis)」提出瞭解決方案,但是其效果對在線感知來說還是太慢了,並且它們對神經迴路的映射也暫不清楚。
近日,MIT 和耶魯大學的研究人員開發了一種計算機模型,可以像人類一樣從圖像中迅速生成詳細的場景描述,這一成果已經以論文的形式在《Science Advance》上發表,為我們探索大腦這一強大機制的工作原理提供了參考。

直接識別人臉?MIT、耶魯新研究:模型首先得做到反向「想象」臉


論文地址:advances.sciencemag.org/content/6/10/eaax5979
論文的主要作者是耶魯大學心理學助理教授 Ilker Yildirim,其他參與者還包括洛克菲勒大學的兩位神經科學和行為學方面的教授 Tenenbaum、Winrich Freiwald 等。
從「逆向圖(Inverse graphics)」說起
幾十年來,針對大腦視覺系統的研究已經詳細探索了視網膜上的光輸入如何轉變成連貫的場景。這種理解幫助人工智能研究者開發出可以複製該系統各個方面的計算機模型,如人臉或其他目標的識別模型。
「視覺是我們理解最深刻的大腦功能,」Tenenbaum 表示,「計算機視覺是目前最成功的 AI 領域之一。對機器識別圖像、人臉及其他目標,我們已經習以為常。」然而,即使是這些複雜的 AI 系統也無法與人類的視覺系統相提並論。
「我們的大腦不只是檢測到某處有一個目標,或者識別出這個目標並給它打上標籤,」Yildirim 表示,「我們還會看到所有這些物體的形狀、幾何、表面和紋理。我們能看到的世界非常豐富。」
一個多世紀之前,生理、物理學家、哲學家赫爾曼·馮·亥姆霍茲(Hermann von Helmholtz)提出了一個理論,認為大腦是通過逆轉圖像形成的 過程來創造這些豐富的表徵。他假設這個視覺系統包含一個圖像生成器,比如,該生成器可以生成我們在夢中看到的人臉。逆向運行該生成器可以讓大腦從圖像開始反向工作,推斷出產生該圖像的是哪種人臉或物體。


然而,問題在於:大腦為什麼能夠如此之快地執行這一名為「逆向圖」的過程?
計算機科學家曾努力嘗試創建能夠完成這一壯舉的算法,但即使是他們創造出的最好的系統也需要多輪迭代處理,所以創造一個眼前所見之景的詳細視覺表徵要比大腦多花很多時間(大腦只需要 100 到 200 毫秒)。神經科學家認為,大腦中的感知之所以進行得如此之快,是因為它是在通過幾個層次分明的神經處理層的前饋傳遞來實現的。
MIT 領導的研究小組建立了一種名為「EIG(efficient inverse graphics)」的特殊深度神經網絡模型,以展示神經層次結構如何快速推斷出場景的潛在特徵(在這篇論文中指人臉)。與計算機視覺系統中用到的標準深度神經網絡(用帶標籤的數據訓練出的神經系統)相比,EIG 是從一個模型中訓練出來的,這個模型反映了大腦針對所見人臉生成的內部表徵。
EIG 模型架構
EIG 模型學習逆轉人臉生成計算機圖形程序所執行的步驟。這些圖形程序從單個人臉的 3D 表徵開始,將其轉換為從特定視角看到的 2D 圖像。這些圖像可以被放到任意背景圖上。研究人員推斷,在你做夢或在腦海中想象某個人的人臉時,大腦視覺系統可能的運行機制可能與上述過程類似。
研究人員訓練該模型來反向執行上述步驟,即從 2D 圖像開始,然後添加紋理、曲率、光線來創建一個「2.5D」的表徵。這些 2.5D 的圖像指定了特定視角人臉的形狀和顏色。接下來將其轉換為非指定視角的 3D 表徵。

「該模型提供了大腦對人臉處理的系統級描述,使其能夠看到圖像,並通過 2.5D 圖像這個重要的中間步驟,最終生成包含形狀和紋理表徵的 3D 目標,」Yildirim 說道。

直接識別人臉?MIT、耶魯新研究:模型首先得做到反向「想象」臉

圖 1:建模框架總覽。(A)關於腹流處理功能的兩個替代假設示意圖:識別或分類的假設(頂部)和逆向圖/推理網絡假設(底部)。(B)EIG 模型的示意圖。圓角矩形的部分是表徵;箭頭或梯形的部分是表徵之間的因果變換和推理映射。


EIG 的核心是基於 DCNN 的推理網絡,但研究者首先描述了概率生成模型組件,這套組件確定了訓練目標並且為推理網絡生成訓練數據。生成模型採用潛在變量層次結構的形式,結構之間的因果關係表示了在採樣面部圖像中概率圖像程序的多個階段。

直接識別人臉?MIT、耶魯新研究:模型首先得做到反向「想象」臉

圖 2:建模框架總覽。(A)與傳統的基於 MCMC 的綜合分析方法相比,使用 EIG 網絡推斷的場景參數(層 f5)的隨機樣本觀察的基於圖像的對數似然評分。EIG 無需迭代(紅線,粉色部分指的是最大-最小區間)即可進行計算,而且比 MCMC 評分更高,方差更低。MCMC 需要數百次的迭代才能實現類似的推理質量(粗線條和細線條顯示二者單次運行之間的區別,也可參閱「材料和方法」部分)。(B)EIG 針對雜亂背景下的真實面部掃描的推斷結果示例。推斷的場景參數使用生成模型進行渲染、重置和 re-lit。(C)EIG 網絡應用於真實世界面部圖像的推斷結果示例。使用適用於潛在場景參數的生成模型以正面姿勢重新渲染了面部。


模型性能
研究人員發現,該模型與其他研究獼猴大腦中所獲得的數據一致。2010 年發表的一篇論文中,來自加州理工學院的 Freiwald 和 Doris Tsao 記錄了這些腦區域中神經元的活動,並從七個不同的角度分析了它們如何感應 25 張不同面孔的。該研究揭示了高級人臉處理的三個階段,而 MIT 的小組現在假設這些階段對應於其逆向圖形模型的三個階段:一個依賴於 2.5D 視角的階段;一個 2.5D 過渡到 3D 的階段;以及 3D 的、視角無關的面部表示階段。
「我們的結果表明,大腦三個層次的定量和定性反應特性似乎與我們所構建網絡的前三個層次非常相吻合,」Tenenbaum 說道。
研究者還對比人和模型從不同視角識別人臉的能力差異。為了增加難度,研究者選擇改變人臉紋理或形狀(每次只改變其中一個)。結果表明,與當前最佳人臉識別模型相比,新模型與人類的表現要接近得多。進一步的研究表明,這個新模型的機理可能更加接近真實的人類視覺系統。
「這項工作非常激動人心,因為它將中間表徵的可解釋階段引入到了人臉識別的前饋神經網絡模型中,」哥倫比亞大學心理學和神經科學教授 Nikolaus Kriegeskorte 表示。「他們的方法將『視覺系統反轉圖像生成模型』的經典想法與當下的深度前饋網絡結合在一起。有趣的是,這個模型能更好地解釋神經表徵和行為反應。」

研究者打算在其他圖像上繼續測試該模型,包括非人臉目標,以此來探索逆向圖是否也可以解釋大腦如何感知其他類型的場景。此外,他們還相信,將這種方法納入計算機視覺可以打造出性能更好的 AI 系統。
「如果我們找到證據證明這些模型能夠反映大腦的運行機制,那麼這項工作會讓計算機視覺的研究者更加重視這種逆向圖感知方法,並花費更多的經歷進行研究。」Tenenbaum 表示。在這個領域,「大腦仍是是金標準。」
參考鏈接:news.mit.edu/2020/computer-model-brain-vision-0304

直接識別人臉?MIT、耶魯新研究:模型首先得做到反向「想象」臉

歡迎在留言區留下你的觀點,一起討論提高。如果今天的文章讓你有新的啟發,學習能力的提升上有新的認識,歡迎轉發分享給更多人。


猜你還想看


阿里、騰訊、百度、華為、京東最新面試題彙集

必須要掌握的 InterruptedException 異常處理

Git 居然還有這麼高級用法,你一定需要

Java編程性能優化一些事兒

關注訂閱號「程序員小樂」,收看更多精彩內容
嘿,你在看嗎?


分享到:


相關文章: