人工智能時代,掌握這3類知識才有機遇

AlphaGo的警示


人工智能進入我們的視野,是因為下圍棋這件事。我們中國人都知道圍棋是最聰明的人才能下,但是AlphaGo居然能夠無情地碾壓我們人類,這是一個對我們自尊心打擊比較大的事情。AlphaGo一開始學人類的殘局,大概學了5萬盤以後打敗了李世石,打敗了柯潔。


後來,谷歌的工程師說能不能不學人類的經驗,完全靠自己摸索打敗原來的AlphaGo?結果7天后就做到了。


人工智能時代,掌握這3類知識才有機遇


這件事說明什麼?


人類積累了2000年的圍棋經驗一錢不值,不僅一錢不值還有害,它成為了我們的束縛。我們過去都說人工智數據越多越好,其實這是個誤區。在下圍棋這件事上數據多了反而有害,沒有數據從零開始反而更好。


這裡給我們提出一個很大的問題:會不會真的有一類知識是我們人類的小腦袋瓜根本沒法理解的?


我們回來看一下人類的知識都有哪些種類。


第一類知識——數據之間的聯繫


第一類知識,我給一個非常簡單的定義:“知識就是數據之間的關係。”萬物萬事之間關係就兩種,一種叫因果關係,一種叫相關關係。


因果關係就是吃飽了就不餓了,吃飽了是因,不餓了就是果。今天太陽很熱,我皮膚曬黑了,冰激凌也化了,但我皮膚曬黑不是冰激凌化了的原因。


它倆是一個同時發生的事情,這叫相關關係。一旦把握了事物之間的關係,你就掌握了一個知識。


人類在這件事情上爭論了整整2000年,一派叫做理性主義,一派叫做經驗主義。理性主義說萬事都有因果,給我一個原點,我就可以推出全世界所有未來要發生的事情。經驗主義說,沒有因果,只有相關。因為過去的2000年沒有人知道人類的大腦是怎麼工作的,所以哲學家們基本都是瞎猜。


我們現在知道了,人類大腦裡面有800億~1000億的神經元,每個神經元有很多突觸。每個神經元和其他神經元之間會有連接。人類所有的知識就儲存在這些連接裡面。


為什麼幼兒教育這麼重要?


舉一個例子,比如教一個孩子認識字母“O“,怎麼判斷他認識了?


兩種辦法,你發一個“O” 的音,他在紙上能畫個圓圈;或者你在紙上畫個圓圈,他能發出“O”的音。他能夠把一個聲音和圖形聯繫起來,那就說明他掌握這個知識了。經過反覆訓練,孩子的一個聽覺神經元和一個視覺神經元建立起聯繫了。


人工智能時代,掌握這3類知識才有機遇


目前我們知道所有的知識都隱藏在神經元的連接中,所以兒童教育甚至胎教都非常重要。因為大概在2、3歲前人腦的神經元是高速發展的,它的連接過了2、3歲以後基本上就不怎麼變了,所以說“3歲看老”。這時候要逗孩子,帶他到外面去玩,讓他見識各種東西,讓他練各種肌肉動作,讓他的大量神經元發生聯繫。


當然成年人神經元還繼續發生連接,但變慢了。像我到美國已經35年了,但現在說英語還有口音。如果一個10歲的孩子到美國兩年後英文比我講得好,就是因為大腦神經元的問題。


人工智能是如何學習的?


大腦神經元這個原理很簡單,可不可以用一個電子線路來模仿一個神經元?今天我們看到所有神奇的人工智能,刷人臉也好,下圍棋也好,基本就是這個概念,到今天也沒有變。


我斯坦福的博士導師1961年做出來了世界上第一個能自動變化係數的神經元,這整個黑盒子就是一個神經元。今天我們的一顆芯片上就可以有幾百萬個這樣的黑盒子,這就是過去50年摩爾定律的功勞。我們現在聽到很多東西,什麼深度學習、神經網絡,其實並不神秘,每一個方塊就是剛才那樣一個神經元,把很多方塊放一堆,把它一層一層摞起來,就是一個多層神經網絡,這個網絡就叫深度學習。


人工智能時代,掌握這3類知識才有機遇


神經網絡目前的主要功能是識別不同的圖像,比如想讓這臺機器認出汽車來,就給它看100張、1000張、10000張不同汽車的圖片,然後每看一張圖片就去調節旋鈕,一個燈亮代表這是個汽車。一開始它認不出來,然後去調這個旋鈕把燈調亮。調了幾百張以後,再給它看一張從來沒見過的汽車照片,不用調旋鈕燈自動就亮了。


這就說明這個機器已經訓練好了,所以在人工智能領域常聽到的“大數據訓練”就是這個道理,就是在調這些旋鈕。


現在認識汽車了,還想讓它認識貓,同樣的去調旋鈕,一直調到讓它認識貓。但一臺人工智能機器最多的有1萬億個旋鈕,所以不可能手工去調,需要通過偏微分方程求解的方法來計算,這個數學方法在200年前已經非常成熟了。如果以後不管給它看黑貓、白貓都能認出來,說明這個機器已經被訓練成功了。


有了這個認識以後,我們就大概知道下圍棋為什麼機器能超過人。在調這個旋鈕過程中,實際是讓這個機器的輸出和目標的差別變成最小,如果把整個目標差畫出來,就像一座山一樣,機器一開始可能在半山腰上,現在目的是讓機器走到一個山谷裡頭,也就是說讓它的誤差變成最小,這在數學上有個非常簡單的方法可以計算,叫做“最陡梯度法”。


機器學習下圍棋實際上就是這樣一個過程:找到一個最優解,就是群山中找到一個最低的地方。


過去2000年,學圍棋最有效、最安全的方法就是跟著師父學,因為你自己瞎摸索永遠都學不會,本來應該在群山裡找到最低的那個地方,但人類從一個偶然的半山腰開始,就在周圍2~3裡地的地方扎堆找了2000年。


但AlphaGo一秒鐘就可以下200局圍棋,就像有了幾百萬臺吉普車在群山裡橫衝直撞,很快找到了比人類找了2000年能找到的更低的地方。是不是最優解完全不知道,但這個解比人類要優。


人工智能的本質是什麼?


這個神經網絡——人工智能的本質就是:


第一,每個神經元都很簡單,但每個網絡都有海量的神經元,當把海量超級簡單的神經元放在一起的時候,它就會有複雜的行為。就像幾百萬只螞蟻,每隻螞蟻的行為都很簡單,遵循一種簡單的模式,但在一起時社會性的複雜就出來了。


第二,要想分析這個網絡是不可能的。從數學的角度看,它是一個高階非線性方程。非線性就是它是二次方、三次方,高階就是可以幾百次方,沒有任何解析表達,所以沒法分析出來。


我們普通人可以把這個神經網絡理解為一頭奶牛,它吃進去的是數據,擠出來的是數據間的相關性。今天的人工智能最本質的功能就是提取數據間的相關性。


人工智能時代,掌握這3類知識才有機遇


現在市場上很多大詞:深度學習、神經網絡、機器學習、人工智能,其實這些詞是一個包含的關係。


人工智能是最大的一個筐,裡面有一個小筐叫機器學習,小筐裡又有個小筐叫神經網絡,神經網絡如果有很多層的話就叫深度學習。對於我們普通人來講,這四者就是一回事,我們不用去區分它。


第二類知識——默會知識


現在我們知道神經網絡怎麼工作了,回到最初的問題:會不會有一類知識是人類無法理解的?


過去人類認為的知識就是那些可以用文字或者符號、公式或者能用計算機語言表達出來的。比如印第安部落的歷史也很長,幾十萬年來他們的瓦罐還是非常粗糙,但我們宋朝的瓷器就已經非常精美了。


因為沒有文字的時候經驗是沒法記錄、沒法傳承的。一旦有了文字以後,所有的文明都開始突飛猛進。甲骨文也好,楔形文字也好,我們過去幾千年來所有的知識就是這樣的東西。


人工智能時代,掌握這3類知識才有機遇


直到70年前,我們才發現還有第二類知識叫做默會知識。比如說我們都會騎自行車,但沒有一個人是看著手冊學會的,都是自己上去歪歪扭扭摔幾跤之後學會的。生活中大量的技能,繪畫也好,藝術也好,跳舞也好,都是這樣只可意會不可言傳的。


索羅斯說過一句話:“所有的重大決定都是靠我的胃做出來的。”如果胃疼就說明這個決定不好,身體是有反應的。過去我們否認這些東西,覺得直覺是迷信,因為說不清道不明。實際上是因為我們不理解人類的知識在大腦裡形成一種複雜的神經元連接,是我們貧乏的語言沒法表達的。


為什麼你見個人兩分鐘就知道靠譜不靠譜,因為你見的人太多了,你在身體裡已經積累了大量的因素,從他的舉手投足、著裝、談吐、遣詞造句,你都能判斷出這個人到底有什麼問題或者什麼優點。


1974年諾貝爾獎獲得者哈耶克就是基於默會知識做出了一個非常漂亮的證明——計劃經濟理論上根本不可行。證明的方式非常簡單,因為市場的供需都是默會知識,說不清道不明,既然是默會知識就無法記錄下來,既然無法記錄就沒有辦法放在國家計委的中心計算機裡,就沒法做計劃經濟,所以計劃經濟不可行。


第三類知識——暗知識


現在我提出這樣的問題,會不會有第三類知識:既不可意會,也不可言傳?


我們把人類所有的知識圖譜都畫出來,橫軸是:“是否可言傳”,縱軸是:“是否可意會”?


第一類知識就是既可以感受,也可以表達。最典型的就是阿基米德發現浮力定律,躺在浴缸裡感覺到了浮力,水溢出來了,他就光著屁股跑出來說我發現了。因為牛頓定律作用力、反作用力的緣故,現在你用拳頭敲桌子馬上手就疼。凡是和你的經驗相關的物理知識,因為有生活經驗,馬上就能懂。


第二類知識可以表達但是沒法感受,最主要的兩類:一個是相對論,一個是量子力學。


今天這兩門課在全世界所有的理工科大學裡都是最難教的課,很難有一個教授能把它教的很明白。比如我們說量子糾纏,一個貓是死的同時又是活的。引力波,我們根本感受不到。當我們無法感受的時候,這種知識就非常難理解,但它的確是通過實驗可驗證的,它在數學上是非常嚴格的。


在這個座標象限上只有一個是空的,這就是今天發現的第三類知識——暗知識。


我們人類的感官實際上能感受到的東西非常有限,比如我們聽不到超聲波,蝙蝠可以聽到。我們看不到紅外線、紫外線、無線電波,但是很多動物可以看到。我們聞不出毒品,但是狗可以聞出來。


除了感官是有限的之外,我們腦袋能力也非常有限。比如高速公路上汽車的聲音對我們就是噪聲,留不下任何印象,在大腦裡也形成不了任何連接。但如果放一臺儀器去分析的話,可以分析出來現在每秒鐘通過的車流量有多少,大概有多少卡車,有多少汽車,有多少大巴。地面的情況,摩擦力怎麼樣都能分析出來。


過去幾十萬年的進化過程讓我們人類只能處理特別簡單的信息,我們是動物中的一種,動物最重要的就兩件事,一個是生存,一個是繁殖。我們看到果子紅了趕緊吃,看見風吹草動可能是個老虎來了要趕緊逃跑。人類只能處理這種簡單的變量,變量一多以後就懵了。


所以跟領導彙報的時候最多不要超過3條,超過3條領導肯定聽不進去了。


我們眼睛每秒從外界可以接收1000萬比特信息,耳朵可以接收10萬比特,但每秒鐘只能說最多40比特左右信息,所以人類表達的障礙就是我們的舌頭嘟嘟的速度太慢了,而且生命有限。所以伊隆·馬斯克說乾脆弄個腦機接口,咱倆腦子直接通了,把這麼笨的嘴巴繞過去算了。


所以就造成了我們有一類知識是既不可感受,也沒法表達的。


人工智能時代,掌握這3類知識才有機遇


這三類知識的關係就像海洋裡的一座冰山,可以用文字符號表達出來知識就相當於冰山上水面的一角,默會知識是水面下的冰山,遠遠大於我們能說出來的,暗知識就是整個海洋。


暗知識帶來的機會和倫理困境?


人工智能發掘出來這些機器的暗知識在哲學上很有意思。上海交大的兩個教授研究做了一個研究,他們給機器看了1800張人臉,有好人有罪犯,罪犯標記上,然後讓機器最後隨便看一張它能知道是好人還是罪犯。他們就總結出來,底下這排是好人臉,上面這排是壞人臉。


這個研究在全世界引起了巨大的爭議,因為你怎麼能夠通過看臉就能看出小偷來?比如我是個小偷,我在手伸到人家兜裡那一刻金盆洗手了,我這輩子不幹小偷了,人是有自由意志的,是可以選擇的。


以色列有一家公司做一模一樣的事,他們準備用在以色列的海關找恐怖分子,他說他現在的準確率是80%。這時候就遇到一個很大的問題,如果真能以80%準確率抓到恐怖分子,那能拯救很多人的生命,但是會有很多人被冤枉怎麼辦?所以這件事並不是一個很簡單的事情,引起了很重要的倫理討論。


人工智能時代,掌握這3類知識才有機遇


自動駕駛現在已經遇到這樣的問題,軟件該怎麼設計?比如正高速開車,突然馬路上跳出幾個小孩,軟件現在有兩個選擇,一個軋過去,保證駕駛人的安全,還有一個一打方向盤撞到牆上,有可能駕駛員死,把小孩救了。你作為一個汽車自動駕駛軟件公司該怎麼設計?這是一個倫理困境,沒有那麼簡單。


現在談一下AI的產業生態,這是我們投資人的必須做的功課。我總結出來了一個AI產業的金字塔生態,在金字塔頂端就是算法,也是過去30年最重要的突破。但算法研究目前主要在大學和大公司裡,很難商業化,算法下面就是芯片。


在硅谷,大的工業革命大概每10年一次,有意思的是每次創新開始的時候中國和美國的差距是非常大的,不論哪一次都是這樣,但是經過10年左右的工夫,中國基本上可以追趕上來。因為技術不是直線前進的,它發展到一定程度後就進入一個平臺期,平臺期美國不動了,中國還在追趕,就很快追趕上去了。問題是等中國快追上來的時候,美國又啟動了新的一輪創新。


新的創新能啟動的原因就是因為有像我的斯坦福導師這樣的人,他從1959年開始做人工智能,經過了多少起起伏伏,但是這批人非常軸,他們就是喜歡,就覺得這東西對,然後一直做下去。


中國在AI火起來的前幾十年中沒有一個科學家在做神經網絡,因為拿不到國家的錢,拿不到企業的資助,所以沒人做。當沒有這種純粹為了追求知識而探索的精神就不可能在基礎研究上有任何突破,只能永遠追趕。中國一直在追趕就是這個道理,不是沒有錢,不是沒有市場,也不是沒有聰明的人,是因為這種實用文化。


人工智能會控制我們人類嗎?


人們對人工智能最主要的恐懼是:人工智能未來會不會能夠控制我們人類?


在我看來,這件事要發生的前提是人工智能要產生自我意識,但迄今為止人類依然沒有答案的三大問題:宇宙怎麼產生的?生命怎麼產生的?自我意識怎麼產生的?自我意識是把人類和所有其他幾百萬種動物區別開來的唯一的東西。


我們知道它是演化當中慢慢基因突變造成的,具體怎麼造成的,在什麼時間都不知道。如果是演化造成的,那它的概率就非常小。因為過去幾百萬年中基因突變任何一次變錯就沒有智人了,智人在最少的時候大概整個族群全世界只有2000人,如果那年冬天大雪大家沒吃的,整個人類就都餓死了。


這就是為什麼今天射電望遠鏡可以看到上百億光年遠,但找不到任何智慧生物的原因,這的確是個超級小的概率。


人工智能時代,掌握這3類知識才有機遇


如果人類的自我意識是個超級小概率,那機器產生自我意識也是超級小概率。不是不可能,而是概率低得可以忽略。


所以機器不管多能幹仍然是我們人類的警犬,它的確比我們人類鼻子要尖,能做出很多事,但仍然為我們所用,是我們的工具。


這個工具可能是人類自從文字或者火的發明以來最重要的工具之一,因為對我們的智力是一個驚人的延伸。


機器能不知疲倦的把我們周圍萬事萬物的相關性都能夠挖掘出來。第一,可以用於改進生產,提高效率,降低成本。第二,可以改善我們的生活。比如把你所有的身體的特徵指標都能夠發到雲上,然後能夠全世界做對比的話,那我就知道你這樣一個心跳、脈搏、血壓大概對應著什麼樣的疾病,這種大量數據的收集就能夠大大地改進。


如果我們把環境所有的這些知識都能夠收集起來,這個知識的總量會遠遠超過人類從文字以來到今天積累的所有知識。


分享到:


相關文章: