《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第三篇》

3.


《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第三篇》


The limit of my language, is the limit of my world.

—— Ludwig Wittgenstein

傳說中,夏目漱石在擔任英文教師時,給學生出的一篇短文翻譯,要把文中男女主角在月下散步時男主角情不自禁說出的"I love you"翻譯成日文。夏目漱石說,不應直譯成“我愛你”,而應含蓄,翻譯成“月が綺麗ですね”(今晚的月色真美)就足夠了。

【文章】第四部分提到深度學習是一個典型的黑箱算法,難以用語言解釋機器的決策過程,此為其一大缺點,可真的是這樣嗎?

我們的語言明明如此多姿多彩、風情萬種,可為何連區區模型決策過程都描述不出來呢?

在這裡我們先考察一下深度學習本身的特點,再回過來探討這個問題。

這篇【文章】因為考慮到《經濟學人》的讀者群體,所以在技術方面不可能深入,想要進一步瞭解深度學習的話可以參考三位深度學習大牛(Geoffrey Hinton,Yann LeCun, Yoshua Bengio,下圖)聯合在《Nature》上發表的綜述文章。


《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第三篇》


我們平常用機器學習做各種任務,一般需要在原始數據的基礎上做特徵工程來提取新的特徵。特徵對於最後預測的結果非常重要,有句話叫:“數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限”。

然而手工選取特徵非常費時費力,而且往往需要依賴特定領域的專家知識來做判斷,比如預測一項產品會不會成功可以從:

整體市場需求、

產品特性和需求的契合度、

產品本身的質量、

價格、

後端供應鏈的完善性、

產品對於新需求的適應性、

競爭對手的情況、

公司宣傳產品的力度、

客戶服務的質量。以及這些特徵之間相互組合篩選來進行評估,但現實中即使是人類專家要想設計出好特徵也是相當困難的。

深度學習與多數傳統的機器學習算法不同,可以進行自動特徵提取,特別是對原始特徵進行非線性(non-linear)組合,通過多層處理,逐漸將初始 的“低層“特徵表示轉化為“高層 “特徵表示,再用”簡單模型“即可完成複雜的分類等學習任務。整個過程無需人類干預,這是個很大的改變,所以深度學習也叫無監督特徵學習(Unsupervised Feature Learning)。


《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第三篇》


上圖顯示的是一條薩摩耶犬,來源於上文《Nature》裡的那篇文章,描繪的是一個卷積神經網絡(convolutional neuron network)自下而上的特徵提取過程。

下面都是由原始像素提取的邊緣信息特徵,經過一步步聚合轉換成上面的高階特徵。

而下圖(來源)更加清晰地表現出計算機學習出來的高階特徵已經包含了抽象全局信息,在此基礎上做分類就比較容易了,而如果用人工對每種事物分別設計特徵,那將是個災難。


《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第三篇》


深度學習的這種特性意味著其可以被廣為應用到各個領域,即使是不瞭解特定領域的人也可以作出比領域專家更好的結果出來(特別是很多很難提取特徵的領域)。

很多時候人們會發現深度學習有點“蠻不講理“的味道,可以充分借用海量的數據和現代計算機強大的計算能力來”硬學“(這並不是說深度學習沒有技術含量),不需要依靠領域知識。2012年9月,Kaggle 舉辦了Merck分子活動數據挖掘大賽。

各路分子生物學、醫學、化學和藥學數據科學團隊紛紛出場,激烈廝殺。

這個時候,Geoffrey Hinton 的博士生團隊拎著深度學習+GPU的大殺器闖進賽場,僅僅用了兩個星期,就把各路高手紛紛幹翻,奪得冠軍。

重要的是,這個冠軍團隊是清一色的計算機和深度學習專家,一點生物、醫學、化學背景都沒有。

【文章】第二部分提到的ImageNet計算機視覺大賽,最初由斯坦福的李飛飛教授領銜推出,下圖顯示了近年來比賽獲得第一名的誤差率,可以看到2012年引入深度學習後,誤差率一下子下降了將近10%,為最大單年下降幅度。


《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第三篇》


下圖顯示2012年之前的ImageNet冠軍還是使用傳統機器學習,但在2012年Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton等人使用了卷積神經網絡(深度學習的一種)獲得很大提升後,後面幾年的冠軍都變成了越來越複雜的深度神經網絡。


《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第三篇》



現在回到最開始的問題,深度學習的全自動特徵提取固然很好用,然而很多時候一個方面的優勢反而成了另一個方面的劣勢。

下面仍由預測一項產品的成功概率舉例 :

如果進行傳統的邏輯迴歸,y表示成功的概率,模型學習出來的結果可能是(因為是分類問題,這裡使用Sigmoid函數):


《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第三篇》


這樣就能直觀地看出新組合的“價格*質量*需求”這個特徵對產品的成功與否比較重要,也可以看出價格的重要性大約是質量或需求的2倍。

而如果採用深度學習,則最後學習出的結果可能是(這裡僅是舉例):


《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第三篇》


這樣就無法看出究竟哪個特徵對產品的成功與否比較重要,各特徵的重要性差異也是不得而知。如果這只是個產品預測問題,那至少不會是什麼性命攸關的問題,

但若如【文章】中所述,無人駕駛汽車的變量選擇和決策過程,或者AI醫生的診斷推理過程是我們人類無法掌握的話,那聽上去確實是件很可怕的事情,這等於是把性命交給了一個神秘的陌生人來決定,而我們甚至都不知道它是根據什麼來做決定的。

不過,若真要說黑箱的話,還有比量子力學更黑的嗎?

量子力學已經有100多年曆史了,如今更是被視作現代物理學的基石。

然而其原理實在太過古怪,以至量子力學的奠基人之一的玻爾曾說:“沒有被量子理論震驚的人,就是沒有理解它。”

在量子力學的世界裡,一個粒子以一定的概率處在A態,又有一定的概率處在B態,事實上在我們沒有觀測前,粒子處於一個A態和B態疊加在一起的混合狀態。

但當我們打開箱子進行觀測時,由於觀測這個行為會對系統產生影響,導致今天觀測粒子處於A態,明天觀測可能就變成了B態,整個理論構建在一種詭異的不確定性上。

因此不難想見量子力學在誕生初期也是飽受質疑,偉人如愛因斯坦都很鄙夷地說:“朋友,上帝可不會擲骰子。”

但是整個過程中就是物理學家先發現了許多與經典物理理論不符的現象,進而發展出量子力學的各種理論,這些理論得以解釋許多現象以及預言新的、無法直接想象出來的現象。

因此對照量子力學的發展過程,深度學習碰到的是類似的情況,我們不清楚模型內部是怎麼做決策的,但實踐的效果卻很好,只是亟待一種完整體系的建立。

而翻看科學技術發展的歷史,工程實踐總是先於理論理解出現:透鏡和望遠鏡先於光學理論,蒸汽機先於熱動力學,飛機先於空氣動力學,無線電和數據通信先於信息理論,計算機先於計算機科學。

或者再舉個日常點的例子: “開車時憑什麼相信踩了剎車,汽車就會慢慢停下來?” 因為有摩擦力。摩擦力這個東西本來沒有名字,但科學家發現了這種現象並經過反覆實驗後,才認識到這種力的存在,進而將其命名為“摩擦力”。

而我們大部分人認識的過程其實是先被傳授了知識,說剎車會產生一個叫摩擦力的東西,使車停止,進而在實際操作中發現果真如此,所以就慢慢相信這一套了。所以這就是一個很明顯的例子,由我們語言的改變致使我們認識世界方式的改變。

因此從另一個角度想,所謂的無法解釋機器的決策過程,其實是難以用我們人類可以理解的語言來解釋其決策過程。反過來說,可能並非是機器無法自我解釋,而是我們的語言體系本身就弱爆了。

比如上例中可以發明一個詞叫“價需多次體”來表示 ln(價格*需求),那麼ln(價格*需求^(3/2))就可以說成是“價需多次體需32”。下次人們在交流的時候,就可以說:“在這個模型中價需多次體需32比較重要,是其他變量的XX倍”。

剛開始人們可能很難適應這種解釋方式,可像開車一樣,剎車靈驗的次數多了,也就自然而然地相信並熟練應用了,並沒有人真去做實驗檢測摩擦力的存在性。

雖然現實中的深度學習問題不會像我舉的這麼簡單,但這不失為一個思路。其實可以看到幾乎所有領域都存在大量的專業術語,這是因為原來日常的語言體系無法承擔起描述領域知識的作用,所以不得不創造更多新的。

【文章】第二部分提到“遷移學習”,指系統能構建於過去習得的知識基礎之上,而不是每次都從頭開始訓練。

人類做到這一點毫不費力,計算機卻不行,但我們人類自己也無法描述是如何做到這一點的,因而可以說我們能做許多自己無法解釋的事情。

我們的大腦,說到底不過是一堆腦細胞所組成,然而這些細胞組合在一起是如何產生思維、夢境、意識和情緒的,又是如何使用這些來進行推理決策的?

現代科學對此還不是很清楚。所以在上世紀人工智能一直裹足不前,以至【文章】中都說“儘管AI間歇性地取得過一些爆發式的進步,它給人的印象卻總是承諾遠大於成果”。

因為人類自己都無法解釋自己的認知決策過程,那又該如何教機器來做這些事情?

所幸現在的機器學習可以不用靠人類編程輸入顯式的規則,而是計算機通過大量的實際數據來自我學習規則完成任務,而至於是讓機器用我們的語言來解釋其行為,還是我們改進自己的語言體系來理解機器的決策過程,這是個可以探討的問題。

不過這一切的前提是,你得有大量的數據。

【The Economist 02】(解) a.k.a 【邪惡是一種教養】(第三季)

原文: https://www.economist.com/sites/default/files/ai_mailout.pdf

翻譯: https://www.douban.com/note/651181384/


分享到:


相關文章: