05.31 美國人工智能協會委員楊強:AI公司怎麼做有前途?|專訪

美國人工智能協會委員楊強:AI公司怎麼做有前途?|專訪

►圖源:Pixabay.com

撰文 | 萬麗

● ● ●

國際科技巨頭對人工智能的研究已逾十多年,並且部分研究成果已經進行商業應用。同時,國內近幾年掀起AI熱,科研、資本和人才向AI靠攏的趨勢明顯。互聯網巨頭公司大力加碼推進人工智能研發。馬化騰也表示,如果只能投資一個領域,從他自身所處行業出發,他最關注的是和信息技術相關的AI產業。

那麼AI在國內研究發展現狀如何?未來推進的方向應該是怎樣的?美國人工智能協會(the Association for the Advance of Artificial Intelligence,AAAI)執行委員會唯一的華人委員、香港科技大學計算機科學及工程學系教授楊強近日接受《知識分子》訪談,他認為,國內AI研究儘管在投稿量上接近領先,但是在創新方面,國內人工智能研究還有欠缺,“很多人學會回答問題了,但是,很少有人會提出新問題”。

談到AI未來的發展方向,楊強認為,當前AI應用沒有做到讓整個行業脫胎換骨,而要做到AI驅動的“核心決策系統”的優化,算法研究的力量可能只佔其中比較小的百分比,更多的是要看市場對這個系統的態度,看生態、同盟的發展速度,是不是可以來推動整個垂直行業的躍進。

同時他還指出國內外巨頭公司佈局人工智能方面的不同之處,並對AI相關人才的培養提出了自己的看法。

以下為訪談全文。

Ai落地難,難在哪裡?

《知識分子》:人工智能不同領域,包括計算機視覺、機器學習、自然語言處理、機器人技術和語音識別技術等,國內與國外研究進展的主要差距體現在哪?

楊強:人工智能和其他的科學行業的發展規律是類似的,比方說天體物理,在一些大家已公認的題目上,像“用射電望遠鏡觀測星系”,“研究星系的發展規律”等,在大家都得到數據和資源後,就都去參與研究。中國的人工智能發展現在處於這個狀態,有一些國際上公認的熱點題目,大家都去研究,例如機器學習,有很多的學生、學者去參與。我們現在的科研文章,不管是投稿量還是被接收量,都已經接近世界的水平了,這是很可喜的事。

但是在創新方面,國內的人工智能還有欠缺。 就像在科學的領域發現一個新的星體,或是發明一個新的手段去進行科學發現,這類注重“新”的問題,需要科學家去深度思考,也是科學家們真正應該做的事情,而不僅僅是做人家定下來的題目。做別人給的題目比較容易,但提出好的、新的題目卻很難。國內人工智能研究方面,“引領”型的研究還不夠,接近國際水平,只是從量的上面看,這當然已經相當不錯了。但是從質的方面,還有不小的差距。這就像:現在很多人學會回答問題了,但是,很少有人會提出新問題。

造成這種差距的原因來自多方面,一方面可能是因為媒體的宣傳和社會對青少年的培養仍然比較傳統,即:鼓勵大家去研究人人都在做的方向,去人多的地方掘金。這種思維是整個社會和文化造成的,一時沒辦法改變。另外,某些學生、學者比較注重短期效益,比較在乎短期的成敗比如文章數。媒體上也宣傳,大家在評價大學等機構研究水平時,還是在看發表文章的數量,認為一家機構發表的文章多,這家機構就很厲害,其實,這是一個錯誤的引導。應該轉變思維,強調他們提出了幾個新的思維,這些思維被全世界多少人跟蹤,引用,發展。

美國人工智能協會委員楊強:AI公司怎麼做有前途?|專訪

美國人工智能協會委員、香港科技大學計算機科學及工程學系教授楊強。圖片由受訪者提供。

《知識分子》:如何評價當前人工智能不同領域商業化應用推進程度?落地難的主要原因是?

楊強:我們要解決人工智能落地難,首先要理解什麼叫“落地難”。我的理解就是,在實驗室理想的環境下,取得了很大的成功,但是拿到實際的生活、生產當中去,往往不能得到預期的結果。AI落地,會遇到很多的挑戰。

第一個挑戰是數據少。數據在大部分產業界都是以孤島的形式存在,以小數據的形式存在,沒有形成完整的大數據。為大數據設計的算法模型,在大多這樣場景中,就會無能為力。

第二,我們逐漸意識到AI其實並不是一個產品,不像Microsoft Office一樣,大家拿來就可以用。而是:AI的模型需要做訓練,訓練是需要數據的,需要標記好的數據,要有不斷壯大模型的經驗、需要有能力獲得好的反饋來幫助模型壯大、整合不同的數據擁有方來進行互補。所以,這些都說明,AI的落地更像是一個“解決方案”。但是,如果AI僅僅是解決方案的話,落地就會非常難,因為對於不同的問題,需要不同的方案設計,這就很難Scale up (擴展),效率會非常低下。

如何把一個通用的解決方案做成一個“落地”的解決方案呢? 這就是需要非常巧妙地做好一個垂直領域行業的“生態”,在這個行業生態裡,有很多的參與方,大家都能參與進來獲利。最好的例子就是一個開放的操作系統。而AI現在的狀況是,大家還都是各家在做各家的,沒有聯成像“操作系統”一樣的生態。我們希望,AI以後能夠發展生態,成為“珠聯璧合”的形式,那時候人工智能才能真正的落地。

《知識分子》:您覺得這幾年國內人工智能落地運用推進處於加速的狀態嗎?

楊強:應該說有很多線頭出來了。我們放眼看去,這些版圖上面的小煙筒一個一個都起來了,但是大煙筒還不多。

《知識分子》:大煙筒是指什麼?

楊強:大煙筒是“深度的”、人工智能的產業化的應用和生態,包括用人工智能來驅動一個行業,或者是加速一個聯盟的發展,AI的產業化在這方面做得還不夠。而我們看到更多的是一些“打補丁”式的AI應用。比方說一個傳統企業,以前沒有用人工智能來做人機交互,人臉識別,而現在用了,但這樣的企業還不算是人工智能企業。就像一個清朝的學者,帶上一副眼鏡,也不能稱作現代的知識分子。我們可以把AI的這種用法叫作“局部優化“,或Local Optimization,但是,這樣的AI應用沒有做到整個行業的脫胎換骨,即AI驅動的“核心決策系統”的優化。用這種“打補丁”的做法,AI的最大優勢也就沒有可能發揮出來。

一個行業下AI驅動的決策系統,在它的優化過程中,算法研究的力量可能只佔其中一個比較小的百分比,更多的是要看市場對這個系統的態度,看生態,同盟的發展速度,是不是可以來推動整個垂直行業的躍進。這和“操作系統”的發展一樣的,要建立一個大家都能受益的同盟。而建立這個同盟,不僅僅需要一個個頂尖的科學家,也需要一些Visionary,需要像成吉思汗一樣的站得很高、有視野的領袖型人才,來找到突破口,發現生態成長的機會,讓雪球滾起來。 在這個方面,我們是相當所欠缺的。

“遷移學習”前景喜人

《知識分子》:您在很多場合講到遷移學習,能否講講遷移學習的最新研究進展以及應用?

楊強:遷移學習的前景在現階段是非常喜人的。人工智能的發展分為兩個階段,第一是在本領域有數據的地方建一個好的模型,想各種方法讓這個模型越來越優化;第二是把一個已經好的模型舉一反三地推廣到周邊去,去“泛化”一個已有的模型。第二步就需要遷移學習來做了。

遷移學習最近有幾個比較值得樂觀的發展。

首先,我們發現深度學習和遷移學習可以很好地結合,深度學習的層次觀念能夠幫助遷移學習定性定量地認識哪一部分的特徵可以更好地被遷移。這個是非常好的進展。

其次,我們開始有能力把一個領域的結構和內容分開,就好像可以把一幅畫的結構、顏色的佈局和具體的顏色給分開,如此一來,對於結構的學習可以變成遷移學習,因此用很少的數據就可以學習。對於內容的學習,可以經過大量的數據來學習,這種剝離也是一種“定量”的進展,相比之前定性的認識就進步多了。

第三,現在有更多的工具,來幫助進行遷移學習的發展。比如最近出的 “生成式的對抗網絡”(GAN),它可以利用一些已有的數據,學會把數據模擬出來,就能使我們有一個很好的模擬器。“模擬”對於遷移學習來說非常重要,因為只有先學會模擬,然後才能學習修改和適配,把一個模型適配到另外一個領域去。

最後

,現在有一些比較尖端的企業、研究者逐漸在形成共識,開始把眼光放在遷移學習上了。例如DeepMind 的Hassabis說他們團隊的下一個關注點就是遷移學習,吳恩達(Andrew Ng)也說,遷移學習是下一個機器學習的熱點和爆點。Google也在推動AutoML(自動化機器學習)作為他們攻關的重點。AutoML其實就是遷移學習,即“學習如何學習”和學習一個模型裡設置超參數的辦法,自動化的設置。各個跡象來看,越來越多的AI科學家們現在都開始關注遷移學習,這個是一個很好的現象。

遷移學習目前的應用很多,舉個例子,第四範式公司利用遷移學習,為金融界建立營銷、風控等方面的解決模型。比如某個金融公司要進行大額貸款,需要對用戶畫像以找出目標客戶群。這個模型的建立,需要大量的大額貸款的數據做訓練。但是,現實中卻沒有這麼多的數據對應到大額貸款,怎麼辦呢?可以在小額貸款裡面獲得大量的用戶畫像數據,並建立模型,再把這個小額貸款的模型,通過遷移學習,適配到大額貸款的少量數據上,從而進行用戶畫像。再比如,在語音應用上,用普通話的系統,適配到四川話的小數據上,就可以理解方言。

AI芯片最好的試金石:“落地”和“生態”

《知識分子》:如何理解人工智能芯片在人工智能發展過程中的作用?可否認為,人工智能未來計算力的進一步發展,將主要取決於底層芯片的作用?

楊強:應該這麼說,人工智能不是一個單一的產品,它是一整套的解決方案,至少在現在這個階段還是這樣。那麼作為一個解決方案,它是多個系統的聯合運作。其中一個很重要的系統,就是終端系統。如何能夠讓終端也具有這個智能的能力,能夠在本地處理一些數據,讓整個系統很自然地運轉起來,就需要一個芯片,這個芯片要擁有能夠快速處理和協調各種硬件體系的能力。所以從這點上來看,如果我們要讓整個互聯網變成“智聯網”,以智能為驅動的網的話,每一個結點都需要有一定的智能學習的能力。這是為什麼大家對智能芯片特別感興趣的原因之一。

另外,最近發現人工智能平臺的發展最好的方式是分佈式的。比方說MIT的AI大師叫Marvin Minsky,他的一個觀點叫Society of Mind,就是大腦裡體現的人類智能,是由多個智能體的互相溝通形成的,而不是由單一的智能體形成的。所以我們會看到未來最好的一種智能架構,應該是千千萬萬個具有智能能力的終端聯合在一起,互相溝通,最後整個系統體現出智能的能力。所以不管從產業或者科學的角度來說,這種分佈式的智能發展也是一種發展的趨勢。

《知識分子》:您如何評價國內人工智能芯片整體發展狀況?

楊強:我覺得整體的發展和現狀,最好的試金石就是“落地”和“生態”的建立。我們可以看看大家到底能賣出多少個芯片,有多少個產業被你的芯片所改變。我覺得現在還沒有跡象表明我們接近這樣量化的成功,我們看到的報道中,大家可能講預期和願景多一些。所以我們期待接下來會看到一些落地的場景和生態的數字。

哪種AI公司更有前途?

《知識分子》:巨頭公司和創業公司在人工智能產業鏈上的佈局有何不同?國內外巨頭公司佈局又存在哪些差異?造成這些差異的主要原因是?

楊強:我覺得AI的初創公司分兩種。一種是賦能型的,能夠讓傳統企業的某些局部應用“人工智能化”。比如,某個銀行想做一套人臉識別系統來幫助風險控制。這個可以由AI初創公司來做。但這樣做的困難也很多,比如,AI賦能其實也是大公司裡面的IT團隊想做的事情,所以從資源上來說,在這方面巨頭和AI初創公司做的事情沒有很大差別的,這就為作為乙方的AI初創公司的發展,提出了挑戰。那麼是不是大公司就容易做AI了呢? 很多大公司裡面有部門牆,如果建一個單獨的人工智能團隊,往往也不太行得通的。

第二類AI的初創公司,走的是另外一條路,他們建立一個完整的鏈條,叫“端到端的AI系統”,比如無人車: 人在系統的外圍起作用,像定義目標函數,收集數據或者標註數據這些工作,而系統在做中心決策。又比如,一套以AI驅動的金融風險控制服務,可以自動化進行。我比較看好這一類AI的初創公司,因為它充分發揮AI的“複利功能”,減少人為帶來的摩擦,併為傳統行業帶來“質”的變化。

那麼國內外的巨頭有哪些區別呢?我覺得國外的巨頭不會刻意去拿“人工智能”作為一個企業口號。他們會從業務裡面發展出一套人工智能的需求,然後利用人工智能作為工具,去滿足這個需求。例如谷歌雲因已經落後於Amazon雲而在努力追趕,那麼他們是怎麼追趕的呢?他們通過AutoML來追趕,讓使用谷歌雲的人,可以很快自動建立一套垂直行業的人工智能模型,而且他們試圖做到比Amazon雲所建立的模型要快、要好。這就完全是需求驅動的。國內的巨頭會更在意提出AI平臺,希望大家來用。但是在一個生態建立起來之前,大家往往不會來用,因為生態的建立是要從需求出發的。

《知識分子》:您是第四範式的聯合創始人,能否介紹一下第四範式的模式。如何理解第四範式的機器學習平臺?

楊強:“第四範式”屬於我上面提到的初創公司中的第一種過渡到第二種的狀態,即試圖建立一個AI 驅動的企業的核心決策系統,但達到這個目標的路徑,是通過自己的機器學習平臺 (叫做“先知“),先做一個賦能者,豎起很多垂直行業的“煙筒”。比如,一個企業裡面可能有很多數據、很多業務,當業務增長很快,業務量到一個程度,用人為的形式已經不能去滿足它的時候,就一定要用機器來做。如果要建立這個系統,就需要從底層往上搭。從數據的整合到機器學習的建立,到前端、後端,端到端的系統的建立。這一套系統的建立,是需要經驗的,要做N次才能積累這個經驗。

“第四範式”的解決方案的價值來自兩方面,一是給你提供這個平臺來賦能,二是讓你可以利用這個經驗,學會自己做這件事。對於未來的企業來說,這種 “自己具有AI能力”的需求會逐漸明顯。因為隨著數字化的提升,這種技術和業務結合的需求會越來越大。

《知識分子》:在當前技術平臺期,許多創業公司搭建一個模型、利用一些數據,就能開發出一個產品,並在實際應用中完成商業變現。有的創業公司則下注人才團隊,摸索“原創”算法技術,並認為,從技術出發,站在制高點上,知道技術發展的程度,才能把握行業發展趨勢。您對此如何評價?

楊強:我覺得兩者都需要,而且是互補的。假設有的公司算法一般,但是數據很好,有的公司算法很好,但是數據一般。我更傾向於數據好的那一方,因為如果數據好到一定程度,用一個很普通的算法,其實也已經相當好了。而研究算法往往會誤入歧途。

過去人工智能在實驗室的環境下研究出來的效果往往都帶著很強的假設,比如假設“收不到某種數據”,但其實在現實中是可以收到的,那花在研究算法的時間就會被浪費。花時間去研究算法,也要花錢,有時候花那份錢還不如去買數據。

我現在接觸產業界較多,我發現解決產業界智能化問題,更多的是需要人的智慧、科學家的智慧,而不是一種智能、技能。發展AI,更重要的是利用智慧去設計一個機制,也就是我們常說的“場景”,在這個機制下數據,算法,和生態是一個有機的整體。我們所說的“智能”就像是在做題,而智慧是“出題”,正是這種區別,需要我們在數據和算法的選擇上做很好的平衡。

《知識分子》:當前AI創業公司死亡率高,您認為主要原因是什麼?人工智能細分領域非常多,每個領域還分很多個垂直領域,您對創業公司在選擇人工智能創業方向時,有何建議?

楊強:我們看現在人工智能公司的死亡率,其實我們現在還沒有這個“死亡率”的數字。大家有些人預期會死一大批,有些名人則預測說,2018年底會死一批。但是很有可能他們到時候沒有死,可能是有人在不斷給他們輸血。這些AI公司以後會發生什麼?這個就好像天氣預報一樣,本來說今天要下雨,結果今天是晴天。所以,我們應該把目光放在,AI的初創公司應該注重什麼,這樣的問題上。

初創公司往往在方向的選擇上比較盲目,而戰略方向的選擇往往是成敗的關鍵點。比如,當前不少人都認為“對話系統”這個技術很重要,某些大公司也把通用型對話系統作為下一個技術點去攻克,認為如果做出通用的對話系統,就可以擁有未來。這些,都是一些人的假設,我們並不知道對不對,需要去實踐。但是這樣的宣傳,卻引發了很多初創公司都來做對話系統,他們看不到的是,對話系統的技術門檻其實並沒有那麼高,而數據的門檻極高。要做一個普通的對話系統其實是很容易的,可以拿一些規則和數據去堆。但是做一個好的、複雜的對話系統,則需要既有AI的技術,又有實際應用場景,還要有很好的、持續的數據支持,另外還要有資金的投入。以上條件都滿足的初創公司,非常非常少。

以後AI的創業公司會發生什麼?以後這些AI初創公司有可能會被大公司收購一批,還有一批可能就死掉了,或者改變方向,還有的可能把投資人都試過一遍後,再去試老百姓——也就是上市。以上這些,都不是我們做AI的最初的理想,我們的理想是用AI的技術真正地改變社會,能夠讓生活更便利,讓社會更均衡,讓工作更有效率。AI的初創公司應該保持初心,不要忘掉這些終極目標。這就需要他們具有好的市場判別能力,要明確目標,也要了解路徑。

何為人工智能人才?

《知識分子》:人工智能人才培養方面,國內的高校設有這個研究方向的其實很少?您怎麼看目前國內人工智能相關人才的現狀?

楊強:人工智能人才分幾個方面,一個所謂“好”的AI人才,第一要有動手的能力,能編程、能夠做技術上的取捨、判斷技術的好壞、能處理大批的數據。第二個方面可能就更難得了,這個人要有“跨界”的思維,要有想象力。就像一個人看到一片好的風景,會聯想到詩歌一樣的。這樣的人才,看到一個問題會聯想到一個算法。這種能力沒法在學校裡培養,一定是在一個環境裡通過行動來獲得,這種能力在有些人身上可能會多一些,有些人身上少一些。所以人工智能的人才少,是說這種跨界的人才少。一定是和實際結合,有編程能力,另外又跨過界還活下來的人,才適合做人工智能。第三方面,是人工智能的人才需要具備市場思維,有一點商學思維,懂得建立生態的重要性,會發現各方的互補性,能把大家的需求挖掘出來。

《知識分子》:是否可以認為,未來人工智能的競爭的核心是人才?

楊強: 一開始是人才,然後就是“機器才”。 說不定以後機器人也會做人工智能,我們剛才說的AutoML就在往這方向發展。“阿爾法零”都不靠人了,人是不靠譜的,會拖累AI系統的迭代。不過言歸正傳,確實是這樣,人才決定AI的競爭勝負,而AI人才的培養是從實戰中來的,不是空降得來的,也不是高校可以成批培養的。

楊強:

香港科技大學講席教授,第四範式公司聯合創始人。楊強於1982年本科畢業於北京大學天體物理專業,分別於1985年和1987年畢業於美國馬里蘭大學的計算機系和天文學系,獲雙碩士學位,1989年獲馬里蘭大學計算機博士學位。

楊強曾任香港科技大學計算機科學及工程學系主任與大數據研究所創始主任。他曾經擔任華為諾亞方舟實驗室主任(2012-2014)。AAAI Fellow,IEEE Fellow,AAAS Fellow,IAPR Fellow和ACM傑出科學家。他的主要研究興趣是人工智能和數據挖掘,特別是遷移學習。他同時是ACM TIST期刊和IEEE大數據期刊創始主編。

本頁刊發內容未經書面許可禁止轉載及使用

[email protected]

商務合作請聯繫

[email protected]

知識分子為更好的智趣生活 ID:The-Intellectual


分享到:


相關文章: