朱松純:初探計算機視覺三個源頭兼談人工智慧

朱松纯:初探计算机视觉三个源头兼谈人工智能

作者 | 朱松純

轉自 | 德先生

來源 | 視覺求索

朱松纯:初探计算机视觉三个源头兼谈人工智能

朱松純教授

加州大學洛杉磯分校UCLA統計學和計算機科學教授朱松純(Song-Chun Zhu;www.stat.ucla.edu/~sczhu),對話視覺求索編輯楊志宏,從計算機視覺三位有重要貢獻的奠基人物,說到該領域現狀以及正本清源的意義。

楊志宏:朱教授,你在計算機視覺領域耕耘20餘年,獲得很多獎項,是很資深的研究人員。近年來你又涉足認知科學、機器人和人工智能。受編輯部委託,我想與你探討一下計算機視覺的起源,這個學科是什麼時候創建的,有哪些創始和代表人物。兼談一下目前熱門的人工智能。

朱松純:好,我們首先談一下為什麼需要討論這個問題。然後,再來探討一下計算機視覺的三個重要人物David Marr、King-Sun Fu、Ulf Grenander以及他們的學術思想。我認為他們是這個領域的主要創始人,或者叫有重要貢獻的奠基人物。

第一節:為什麼要追溯計算機視覺的源頭,這有什麼現實意義?

朱松純:中國有句很有名的話:“一個民族如果忘記了歷史,她也註定將失去未來。”我認為這句話對一個學科來講,同樣發人深省。我們先來看看現實的狀況吧。

首先,假設你當前是一個剛剛進入計算機視覺領域的研究生,很快你會有一種錯覺,覺得這個領域好像就是5年前誕生的。跟蹤最新發表的視覺的論文,很少有文章能夠引用到5年之前的文獻,大部分文獻只是2-3年前的,甚至是1年之內的。

現在的信息交換比較快,大家都在比一些Benchmarks,把結果掛到arXiv網上發佈。很少有一些認真的討論追溯到10年前、20年前或30年前的一些論文,提及當時的一些思想和框架性的東西。

現在大家都用同樣的方法,只是比拼,你昨天是18.3%的記錄(錯誤率),我今天搞到17.9%了。大家都相當短視,比如研究生畢業以後變成了博士,可能也會帶學生做研究,而他如果只知道這幾年的歷史和流行的方法的話,怎麼可能去傳承這個學科,讓其長期健康發展呢?特別是等當前這一波方法退潮之後,這批人就慢慢失去了根基和源創力。這是一個客觀的現象。

其次,還有一個現象是,隨著視覺與機器學習結合,再混合到人工智能這麼一個社會關注度很高的領域去以後,目前各種工業界、資本、投資界都往這裡面來炒作。

所以,你可以在互聯網上看到各種推送的文字,什麼這個大師,那個什麼牛人、達人說得有聲有色,一大堆封號。中國是有出“大師”的肥沃的土壤的,特別是在這個萬眾創新、浮躁的年代。

這些文字在混淆公眾的視聽。也有的是一些中國的研究人員、研究生,半懂不懂,寫出來一些,某某梳理機器學習、神經網絡和人工智能的歷史大事。說得神乎其神。我的大學同學把這種帖子轉發給我,讓我擔憂。

楊志宏:這大多是以學術的名義寫的軟文,看起來像學術文章,實際上就是帶廣告性質的,一般都是說創投、創業公司裡的人,帶著資本的目的,帶商業推廣性質的。

朱松純:我甚至不排除有些教授,比如與硅谷結合很緊密的、在IT公司或者風投公司兼職的,有意識地參與、引領這種炒作。

這對我們的年輕學生其實是很致命的,因為他們不瞭解這背後的動機,缺乏免疫力。而且現在年輕人和公眾都依賴短平快的社交媒體,很少去讀專業文獻。當公眾的思想被這些文字佔領了,得出錯誤的社會性的共識,變成了false common sense,對整個社會,甚至對學術界,都會產生長久的負面衝擊。

這就形成了新時代的皇帝的新裝。我們需要對這種現象發聲,做一些嚴肅的探討。所以,正本清源有著重要的現實意義。

第二節:計算機視覺和人工智能、機器學習的關係

楊志宏:談到這裡,我想先問一下計算機視覺和人工智能是什麼關係呢?還有機器學習這三個東西。

朱松純:人工智能是在60年代中後期起步的。一直到80年代,翻開它的教科書,就是一些啟發式搜索,研究最多的是下棋,從國際象棋一直到最近的圍棋,都是比較抽象的表達。棋盤的位置是有限的、下棋的動作也是有限的,沒有感知和動作執行的不確定性。所有的問題都變成一個圖搜索的問題,教科書上甚至出現了一個通用圖搜索算法號稱可以解決任何人工智能問題。

當時視覺問題還沒引起大家重視。我這裡有一份1966年7月的MIT AI實驗室的第100號報告(備忘錄memo 100),很短,題目叫做 “The Summer Vision Project”。這個備忘錄的基本意思就是暑假的時候找幾個學生構造一個視覺系統。他們當時可能就覺得這個問題基本上是不需要做什麼研究的。所以你就一個暑假找幾個人一起寫個程序,就把它幹掉算了。現在說起來,當然是個笑話。

人的大腦皮層的活動,大約70%是在處理視覺相關信息。視覺就相當於人腦的大門,其它如聽覺、觸覺、味覺那都是帶寬較窄的通道。視覺相當於八車道的高速,其它感覺是兩旁的人行道。如果不能處理視覺信息的話,整個人工智能系統是個空架子,只能做符號推理,比如下棋、定理證明,沒法進入現實世界。所以你剛才問到的人工智能和計算機視覺的關係,視覺就相當於說芝麻開門。大門就在這裡面,這個門打不開,就沒法研究真實世界的人工智能。

到80年代,人工智能,連帶機器人研究就跌入了低谷。那時候,很多實驗室都改名字了,因為拿不到經費了。客觀來說,80年代,一個微型計算機的內存只有640K字節,還不到一兆(1MB一百萬字節;我們現在一張圖像,隨便就是幾個兆的大小),根本無法讀入一張圖像,還談什麼理解呢?等到我做博士論文的時候(1992-1996 年),我導師把當時哈佛機器人實驗室最好的SUN工作站給我用,也就是32兆字節。

我們實驗室花了25萬美元構建了一個圖像採集系統,因為當時沒有數字照相機——可以這麼說,一直到90年代中期,我們基本上不具備研究視覺這個問題的硬件條件和數據基礎。只能用一些特徵點的對應關係做射影幾何,用一些線條做形狀分析。因為圖像做不了,所以80年代計算機視覺的研究,很大部分是做幾何。

楊志宏:90年代後,就是數字照相機大量生產了。

朱松純:在90年代的末期,發生了一個叫做感知器的革命,帶動了大數據和機器學習的蓬勃發展。

楊志宏:那機器學習與計算機視覺的關係呢?

朱松純:計算機視覺是一個domain,它有很多問題要研究,就像物理學。而機器學習基本是一個方法和工具,就像數學和統計學。這個名詞的興起應該還是最近的事情,在我看來,是來自於兩股人馬。

一是80年代人工智能走入低谷後,迎來了人工神經網絡的一個高潮,所謂的從符號主義到連接主義的過渡。在中國80年代與氣功、人體科學一起走紅,但這基本是曇花一現。到了90年代初退潮之後就開始搞NIPS這個會議,引入統計的方法來做。

二是做模式識別的一些工程人員EECS背景的。按道理來說,這個領域應該叫做統計學習(Statistical Learning),因為它的方法都是由概率統計領域拿來的。這些人中的領軍人物很有商業頭腦,把統計和物理的數理模型,改名叫做機器,比如**模型(model)就叫**機(machine),把一些層次模型(hierarchical model)說成是“網”(net)。這樣,搞出了幾個“機”和“網”之後,這個領域就有了地盤。

另一方面,我那些做統計的同事們也都老實、圖個清靜,不與他們去爭論,也大多無力去爭。當然,統計學領域也有不少人參與了機器學習的浪潮。簡單說,機器學習中的 “機器”就是統計模型,“學習”就是用數據來擬合模型,是由做計算機的人搶佔了統計人的理論和方法,然後應用到視覺、語音語言等domains。我在計算機和統計兩個系當教授,看得一清二楚。這個問題我以後可以專門討論。

這個機器學習的群體在2000年之後,加上大量數據的到來,很快就成長了,商業上取得很大的成功。機器學習和計算機視覺大概有百分之六七十是重合的。順便說一句,2019年我們兩個領域會一起在洛杉磯開CVPR和ICML年會,我是CVPR19的大會主席。因為學習搞來搞去,最豐富的數據是在視覺(圖像和視頻)。現在這次機器學習的一些大的動作和工程上的推廣工作,還是從計算機視覺這邊開始的。

楊志宏:謝謝你講述人工智能、計算機視覺和機器學習的關係。下面我們回到本次訪談的主題。剛才說了這個感知器革命是90年代以後,出了很多的數據要處理了。那為什麼馬爾(Marr)在70年代末思考的問題,在面對我們當今處理這個數據的時候還有意義?就是說馬爾用了什麼方法、什麼思路框架,使它有生命力?

朱松純:好,就回到1975-1980年這個時間段。我們今天的主題是想初步探討一下計算機視覺的起源。我們這個領域也沒有一個統一的教科書來談這個事情。我認為視覺的起源,可以追溯到三個人,David Marr,King-Sun Fu和Ulf Grenander。這三個人代表三個完全不同的方面,為計算機視覺這個領域奠定了基礎。

楊志宏:好, 我們逐個來介紹吧。

朱松纯:初探计算机视觉三个源头兼谈人工智能

第三節:視覺的開創者之一:David Marr的學術思想

朱松純:David Marr(1945-1980),中文音譯為馬爾,他奠定了Computational Vision計算視覺這個領域,這其實包含兩個領域:一個是計算機視覺(Computer Vision),一個是計算神經學(Computational Neuroscience)。他的工作對認知科學(Cognitive Science)也產生了很深遠的影響。

我們計算機視覺CV,第一屆國際會議ICCV始於1987年,就以David Marr的名字來命名最佳論文獎,而且一直到2007年之前的20年間,是CV唯一的獎項和最高的榮譽,兩年一次。認知科學年會(CogSci)也有一個Marr Prize給最佳的學生論文。這三個領域在80-90年代走得很近,最近十多年交叉越來越少了。就是說,原來都是親戚,表兄弟,現在很少有人在之間走動了。

1972年Marr從劍橋大學畢業,博士論文是從理論的角度研究大腦功能,具體來說,是研究的小腦,主管運動的Cerebellum。1973年受MIT人工智能實驗室主任Minsky的邀請,開始是做訪問學者(博士後)。

1977年轉為教職,可是1978年冬診斷得了急性白血病。1980年轉為正教授不久就去世了,時年35歲。他在得知來日無多後就趕緊整理了一本書,就叫“Vision:A Computational Investigation into the HumanRepresentation and Processing of Visual Information”,《視覺:從計算的視角研究人的視覺信息表達與處理》。他去世後由學生和同事修訂,1982年出版。

楊志宏:“Vision”2010年再版了,再版了以後在亞馬遜仍然是賣得很好。

朱松純:它是個經典的東西。我是1989年冬天本科三年級從中科大認知科學實驗室的老師那裡讀到這本書的中文譯本。因為缺乏背景知識,我當時基本讀不懂。因為是中文,每句話都明白,但是一段話就不知道是什麼意思了。在過去的20多年中,我每隔1-2年都會再翻一翻這本書。後來我和同事花了大約8年時間,將他的一些思路轉化成數理模型,比如primal sketch。

楊志宏:這個人生故事是可以拍電影的。

朱松純:的確。很多年前我與他的大弟子Shimon Ullman飯桌上談到這段歷史,他說當時大家到處找藥,就是救不過來。當年這是一個30多歲正值科學頂峰的、交叉學科的領軍人物。順便說一句,當年中日友好,1984播放日本電視劇《血疑》, 那是萬人空巷,感人至深。裡面的大島幸子(山口百惠飾)得的就是同樣的病。

可惜,目前計算機視覺這個領域,你如果去問學生,他們很多人都沒聽說過David Marr。“喔,想起來了,好像有個Marr獎吧。”可是你去問認知科學、神經科學的人,他們基本上對Marr非常清楚。這也是我所擔心的:計算機視覺的發展太工程化、功利化了,逐步脫離了科學的範疇。這是短視和危險的。最近又受到機器學習的衝擊。

我這裡順便說一下Marr對我的另一個間接的影響。他1973年來到MIT,就租住在Jayant Shah的房子裡,Shah與Minsky很熟,他當時是研究代數幾何(Algebraic geometry)的。而我導師Mumford也是研究代數幾何的,並獲得1974年的菲爾茲獎。他們兩人很熟,後來在Shah的影響下,Mumford轉入計算機視覺,他們從提取物體邊緣開始(boundary detection),也就是產生了著名的Mumford-Shah模型,搞圖像處理的應用數學人員基本都是從這個模型開始做。這是後話。關於這段歷史,我們以後可以展開談。

楊志宏:好,那麼Marr的學術貢獻是什麼呢?

朱松純:在我看來,David Marr對我們這個學科最主要的貢獻有三條,從而基本上可以說定義了這個學科的格局。

第一條,在60年代開始之初,已經有很多人研究視覺神經生理學、心理學問題,也有人做一些邊緣檢測的工作。但關於視覺到底要解決哪些問題、是怎麼實現的,大家莫衷一是,談不清楚,David Marr的第一個貢獻就是分出了三個層次。

他說,要解決這個問題,可以把它分成計算(其實應該說成是表達)、算法和實現這三個層次。

首先,在表達的層次,我們問一下這是個什麼問題,如何把它寫成一個數學問題,任務是什麼,輸出是什麼?這是獨立於解決問題的方法的。其次,對這個數學問題去求解時可以選擇不同的算法,可以並行或者串行。

再次,一個算法如何在硬件上實現,可以用CPU、DSP或者神經網絡來實現。很多觀察到的心理學和神經科學的現象都是跟系統硬件有關的東西,比如說人的一些注意機制、記憶力。這些應該從表達層面剔除。這樣,視覺就可以從純粹的理論、計算的角度來研究了。

我們可以參考心理學和神經科學的結論,但這不是主要的。打個比方,要造飛機可以參考鳥類的結構,但關鍵還是建立空氣動力學才能從根本上解釋這個現象,並創造各種飛行器,走得更遠。

楊志宏:他這麼一說,今天看來好像很自然地就可以理解了,但是在當時,可能沒有多少人是把問題這樣分解的。

朱松純:當時分不開。因為當時站在像神經科學和認知科學角度,是拿一些實驗現象來說事,但不知道這個現象是在哪一層出現的。

比如神經網絡和目前的深度神經網絡的學習,他們的模型(表達)、算法和實現的結構這三層是混在一起的,就變成一個特用的計算設備,算法就是由這個結構來實現的。當它性能不好的時候,到底是因為表達不對,還是算法不對,還是實現不對,這就不好分析了,目前的神經網絡,或者是機器學習、深度學習,它的本源存在這個問題。

以前我們審稿的時候,會追問論文貢獻是提出了一個新的模型還是一個新的算法、在哪一個層級上你有貢獻,這必須說得清清楚楚。2012年,我擔任國際計算機視覺和模式識別年會(CVPR)的大會主席, 就發生一個事件,收到神經網絡和機器學習學派的一個領軍人物LeCun的抱怨信,原來他的論文報告了很好的實驗結果,但審稿的三個人都認為論文說不清楚到底為什麼有這個結果,就拒稿。他一氣之下就說再也不給CVPR投稿了,把審稿意見掛在網上以示抗議。2012年是個轉折點。

現在呢?隨著深度學習的紅火,這三層就又混在一塊去了。一般論文直接就報告結果,一堆表格、曲線圖。我就是這麼做,然後再這麼做,我在某些個數據集上提高了兩個百分點,那就行了。

你審稿人也別問我這個東西里面有什麼貢獻,哪個節點代表是什麼意思,你別問,我也不知道。那算法收斂了嗎、是全局收斂還是一個局部收斂,我也不知道,但我就是提高了兩個百分點。

楊志宏:或者要用多少數據來訓練材料才能夠呢?

朱松純:對,這個也不用管,而且說不清。反正我這個數據集就提高是吧?所以從這個角度來講,它就很難是一個科學的方法。可以認為它就是一個工程或者是一個經驗的,有點像中醫。那麼要往前再發展的時候,你必須要理清楚這三層的事情。

楊志宏:對。

朱松純:他的第二個貢獻是理清視覺到底要計算什麼。Marr提出了一個系列的表達,從primal sketch(首要簡約圖),到2 ½ D sketch(深度簡約圖),到3D sketch。

這裡面還包含了紋理、立體視覺、運動分析、表面形狀等等。比如說我要估計一個物體的深度和形狀,我就估計它的光照和物理材料特性;還有,三維幾何形狀怎麼去表達?他試圖去建立一個完整的體系。

現在的視覺就基本上被很多人錯誤地看成一個分類問題,你給我一張圖像,我就說這個圖像裡有一隻狗或沒有狗,但狗在哪兒都不知道,頭在哪、腳在哪,不知道。Marr的框架是有秩序的,現在的秩序在做深度學習的人眼中還不存在,或者還沒忙過來。各人做各人的分類問題,比如說有人算這個動物分類,有人算這個傢俱的分類。各種分類以後,它們之間怎麼樣的關係呢?對這個圖像或場景要產生一個整體的語義解釋。

第三個貢獻,Marr提出了一個非常重要的概念,到現在一直還沒有一個完整的解答。他說,計算視覺是一個計算的“過程”——這是什麼意思?我們以前用貝葉斯方法(以及現在的深度網絡)認為視覺就是表達成為一個後驗概率,尋求一個最優解。

這個解就是圖像的解釋,這個求解過程就會終止。可是Marr說的這個事情,它不是單純去求一個解,而是一個連續不斷的計算過程:我給你一張圖像,你越看、越琢磨,你可能看到的東西會越多。

我給你一秒鐘,你可能看到某些東西。我給你一分鐘,你可能有另外一種理解,這兩個理解可能是不一樣的。還有一個重要的概念是你的任務決定了你怎麼去看這個圖像,比如說我在慌忙之中做飯,那麼我對這個場景只看其中很小一部分,足夠來完成我的任務就行了。裡面好多東西改變你根本沒注意到。

楊志宏:好像有些魔術就利用了這一點。

朱松純:就是。很多心理學實驗表明,你眼睛盯著這個圖片看的時候,眼睛不眨,我告訴你這個圖片在改變。你盯著看,結果它改了你都沒看見。在讓你看這個圖片的時候,把你的注意力引到某個任務需要計算的關鍵要素上,其它部分你就視而不見。視覺是受任務驅動的,而任務是時刻在改變之中。比方說,視覺求解不是打一個固定的靶子,而是打一個運動目標。

楊志宏:這聽起來是一個耳目一新的概念。

朱松純:回到人工智能這個問題,視覺,它最後的用途是要給機器人用,機器人目前面臨一個什麼任務,來決定它要計算什麼。這第三個貢獻是在算法的層面。就是說我根據我們目前面臨的任務,我才決定要計算什麼。而且人的任務是在不斷變化的,在此時此刻我的任務都在變化,那麼計算的過程中是沒完沒了地在改變。這個理念到目前——我們目前在研究這個事情——還沒有完全實現。就是說,這將是人工智能和機器人視覺的一個關鍵。

楊志宏:明白。

朱松純:我們現在很多人研究這個智能,比如說分類問題。他都是從谷歌的一些應用,比如搜索圖片、廣告投放,變成分類問題,從而忽視了更大的本質問題。如果說人工智能往前發展機器人,要從機器人的角度來用視覺的話,那麼它就有很多不同的任務——我現在做飯,我在打球,我在欣賞風景,這時候我看到的東西是完全不一樣的。

我怎樣通過這千千萬萬的任務,而不是簡單一個分類,來驅動我的計算的過程,來找到我的需求,來支持我目前的任務,這是一個巨大的研究的方向。David Marr的思想,到今天反而變得意義非常重大,因為大家現在一窩蜂去搞深度學習,把這些基本東西給忘掉了。但這才是人工智能和機器人視覺的長遠發展方向。

我前兩年給過幾個報告,說研究視覺要從一個agent(執行者)的角度,帶著任務進來的這麼一個人或機器人,主動地去激發視覺。

目前計算機視覺的研究還有一大部分是由視頻監控的應用來驅動的,比如說我檢測一些異常現象,看這個人是男還是女?那也是一種被動,就是說它只是在看而沒有去做。要去做就涉及到因果關係和更多的不確定性。所以現在的研究生覺得,他整天在做機器學習,就在調參數,就在跟別人比拼百分之幾的性能。一些公司的研究所就報道,他們在某某問題(數據集)上國際領先了,排名第一了。他們自己也覺得這研究沒多少意思。

那是因為他們沒有接觸到這些基本的問題上來。

楊志宏:他們可能還沒有發現這個問題本身是多麼有趣。

朱松純:因為作為一個科學來發展的話,就是要認認真真地來做,把這個理清楚。當前的火熱來源於工業界,工業界沒有多少耐心資助他們的研究人員去做科學研究,大家很現實。那麼,David Marr先談這麼多好不好?以後我們可能還會繼續深入談的。

楊志宏:好。那我們第二個人就談一下傅京孫。

朱松纯:初探计算机视觉三个源头兼谈人工智能

第四節:視覺的開創者之二:傅京孫(King-Sun Fu)的學術思想

朱松純:David Marr是從這個神經科學和腦科學這個方向來的。傅京孫(1930-1985),他當時代表的是計算機科學,搞人工智能的人。他是一個有領導才能的人物。

他和其他人於1973年組織了第一屆國際模式識別會議(ICPR),並擔任主席。會議後來演變成國際模式識別學會IAPR,在1976年成立,他被選為主席。他重組了另外一個IEEE學會下面的模式識別委員會,並於1974年成為其第一任主席,創辦了IEEE模式分析和機器智能(PAMI)會刊,並於1978年擔任第一任總編。這是目前計算機視覺和相關領域最權威的一本期刊了。很多中國學生現在不知道,這個領域的老大本來是華人。目前,國際模式識別學會IAPR設立了一個傅京孫獎,作為終身成就獎,是模式識別的最高榮譽。

楊志宏:可惜他1985年去世了。聽說去世前他每年都在中國舉辦講座,並於1978年擔任臺灣的中央研究院院士。

朱松純:我正要說到這一點。他去世的時候55歲,在普渡大學,據說他的實驗室是一個Chinatown。1978年中國打開國門,中國最早的一批中科院的計算機人員都到他那裡進修,在普渡。所以他對中國計算機的發展,可以說是一個貢獻非常巨大的人。我也是受到他的恩惠,從大學一二年級就開始跟著科大陳國良老師學習,他之前去普渡進修。週末我有時就到陳老師家聽他講外面的一些研究人員和工作。你想想,計算機界那時候華人在美國站住腳的可能沒幾個人。

楊志宏:對,他對中國計算機發展真的是有歷史性的貢獻的。我在科學院上研究生的時候,我們那些老師是說他過世太早了,要不然對中國的研究還會更好,他多活10來年就會好很多。

朱松純:他1985年拿到一個很大的國家項目,好像是開宴會的時候心臟病突發了。 他要是活著,華人在這個領域的話,不止是現在這個樣子。不過在他之後,稍晚一點我們有另外一個傑出華人,黃煦濤(Tom Huang)。他當時也在普渡任教,培養了大量華人研究人員。我們以後會專門介紹。

楊志宏:傅京孫的故事也可以拍電影。

朱松純:這是我們這個領域的不幸,兩個奠基人很快就走了。他們剛剛把這個地基打起來,人就沒了。

楊志宏:那傅的主要貢獻是什麼呢?

朱松純:傅京孫的貢獻,我也談三點。第一個貢獻應該就是對這個學科和學會的建設,以及工程師的培養上面,他起到了開創性的作用。一般公認他是模式識別的開山鼻祖,模式識別與計算機視覺分不開的。

第二個貢獻,是關於他的這個句法結構性的表達與計算,就是句法模式識別,Syntactic Pattern Recognition這個詞其實非常深刻。他在走之前,他那時候也沒有多少數據,那麼他只是畫一些圖,圖表性的東西,來表達他的概念,他從計算機這邊來的,你想很自然就會用到形式語言,因為計算機裡面的幾個基礎之一是形式語言。邏輯、形式語言,對吧?

楊志宏:這好像是在編譯原理裡面學到過,因為編譯的基礎是形式語言。

朱松純:我們這個世界的模式,一個最基本的組織原則是composition。一張圖像就像語言、句子符合語法結構,視頻中的一個事件也有語法結構。尋找一個層次化、結構化的解釋是計算視覺的核心問題。從傅京孫1985年丟下這個攤子後,基本很少有人去碰。差不多18年以後,我和我第一個博士生繼續做圖像解譯Image Parsing這個方向,於2003年得了Marr馬爾獎。

然後我和我導師專門於2006年寫了一本小書,總結了圖像的隨機語法。我剛才談到了,在做識別、做分類的時候,只是單獨在分類某一個東西,怎麼去把各個識別器和分類器給它整合在一起,變成一個統一的表達,就必須產生一個結構上的表達。現在機器學習界把它換了另外名字,叫做結構化的輸出,其實是一個東西。

他們提出一個新的名詞,把原創的圖像解譯名稱覆蓋住,這事現在經常發生。所以我說機器學習領域經常到別人那裡偷概念,改頭換面。數學界不允許這樣做的。我還是堅持把它叫做解譯、語法。

因為語法就是一些規則,其實語法並不見得是一個確定性的,它可以跟統計連在一塊,它也可以跟目前的一些神經網絡結合,這都沒問題。它表達了一個骨架或者支柱,形成一個統一表達。

第三個,從算法的角度來講,有一個層次化的表達以後,意義就不一樣了,比如自底向上或自頂向下的計算的過程就可以在上面體現出來,就是馬爾說的計算的過程,就可以在這裡面體現出來。視覺的計算過程應該是由大量的自底向上(bottom-up)和自頂向下(top-down)過程交互和同時進行的。順便再說一句,當前的深度神經網絡就是一個feedforward的自底向上的計算,缺乏自頂向下的過程。而在人腦計算中,自頂向下的計算佔據很大一部分。

楊志宏:那就是說,這個語法結構對計算過程有了規範和表達的途路。

朱松純:對,你的搜索的過程,這個計算的過程是什麼?馬爾提出了第二個概念,說視覺是個計算的過程,那麼這個計算過程你什麼時候算哪個,這是個調度的問題,就像操作系統。David Marr計算的過程是沒完沒了的,隨著你的任務不斷改變,就有一個調度的問題。所以說我現在要去做飯,或者我要欣賞風景,或者說我要去走路、開車,那麼它的不同的任務產生了不同的進程。這個進程,要在層次化的表達裡面的統一起來調度——從這個意義看,感知是計算一個解譯圖(parse graph),認知是對這個parse graph進一步推理擴大,而機器人的任務規劃(task planning)也是一個同樣結構的parse graph,那就更別說語言是用parse graph來表達的。所以,人工智能的一個核心表達就是隨機的語法和解譯圖。

楊志宏:對。

朱松純:這個是繞不掉的,不管誰來做,都要做這個事情。當然,現在有人千方百計想繞過去,重新發明一套名詞,讓新來的學生忘記歷史,這樣他們就可以變成社會公認的大師。有些教授、研究人員在學術上沒什麼原創貢獻,卻在網上、社會上成了當紅明星,學科代言人,用社會上的知名度再給學術界施壓。

總結一下,傅京孫三點主要貢獻:一是學科的人才和組織基礎,二是他提出這麼一個語法表達方法,三是這個表達支撐了自底向上或自頂向下的計算的過程。他去世後,這個方向一直處於一種休眠狀態,我的研究有一條線是跟著這個方向做。2011年馬里蘭大學周少華的導師有一個演講,題目叫“語法模式識別:從傅到朱(From Fu to Zhu)”。我們在繼承他的框架往前走。

楊志宏:真好!那麼咱們下面就談第三個人Ulf Grenander。

朱松純:這個人,知道的人非常少。

楊志宏:我翻看了網上資料,他是這個領域裡頭真正是大神,但絕對是個小眾人物。

朱松纯:初探计算机视觉三个源头兼谈人工智能

第五節:視覺的開創者之三:Ulf Grenander的學術思想


分享到:


相關文章: