08.30 機器學習=「新瓶裝舊酒」的數據統計?No!

選自towardsdatascience,作者:Joe Davison,機器之心編譯,參與:高璇、王淑婷、張倩。

最近,關於深度學習和人工智能的一個梗在社交媒體上廣為流傳,認為二者只是牆上一道鑲了嶄新邊框的裂縫,暗諷機器學習只是重新包裝過的統計學,本質上是「新瓶裝舊酒」。然而事實真的是這樣嗎?本文對這種看法提出了異議,認為機器學習 ≠ 數據統計,深度學習為我們處理複雜的非結構化數據問題做出了重大貢獻,而人工智能應該得到其應得的讚賞。

機器學習=「新瓶裝舊酒」的數據統計?No!

隨著深度學習的熱度開始消退,這個梗最近開始在社交媒體上廣為流傳,引起了互聯網上眾人的譏笑。機器學習沒什麼好激動的,它只是對統計技術的一種補充——這種觀點越來越普遍;但問題是這個觀點並不正確。

我明白,成為一個極度狂熱的深度學習傳播者並不時尚。哪怕是 2013 年試圖讓所有人都知道深度學習的機器學習專家,現在再提起這個術語也只有失望,他們現在更傾向於弱化現代神經網絡的力量,唯恐人們將他們與還認為「import keras」是萬金油的人混為一談。而他們自認為與後者相比,自己還是相當有優勢的。

雖然正如 Yann LeCun 所說,深度學習已經不再是一個時髦的詞,但這種矯枉過正的態度已經對人工智能的進步、未來和實用性產生了不良的影響。這一點在關於人工智能寒冬的討論中體現得尤為明顯,在這個寒潮裡,人工智能被預言將會像幾十年前一樣停滯多年。

機器學習=「新瓶裝舊酒」的數據統計?No!

然而這篇文章並不是對人工智能進入寒冬表示質疑,也不是想說深度學習的進步更應歸功於哪個學術團隊;相反,它只是想說,人工智能應該得到其應得的讚賞;它發展的水平已經超越超級計算機和更優的數據集;機器學習最近也在深度神經網絡和相關工作中取得了巨大成功,代表了世界上最先進的技術水平。

機器學習≠數據統計

「融資的時候, 我們講人工智能 ;找工作的時候,我們說深度學習;但做項目的時候,我們講 logistic 迴歸。」

——推特上每個人都這麼說

這篇文章的主題是,機器學習不僅是對數據統計的再包裝——這一領域有更大型的計算機和更好聽的名字。這個概念來源於統計學的概念和術語,這些概念和術語在機器學習中非常常見,像迴歸、權重、偏置、模型等等。此外,很多模型近似統計函數:分類模型的 softmax 輸出由 logits 組成,使得圖像分類器的訓練過程成為 logistic 迴歸。

儘管這種思路在技術層面是對的,但將機器學習作為一個整體看作只是統計學的一個分支還為時過早。這種比較沒有什麼意義。統計學是處理數據和解釋數據的數學領域。機器學習只不過是一種計算算法(誕生於計算機科學)。很多情況下,這些算法在幫助理解數據方面毫無用處,只能幫助某些類型的不可理解的預測建模。例如在強化學習中,算法可能都不會使用已有的數據集。另外,在圖像處理中,將圖像視為以像素為特徵的數據集,從一開始就有點牽強。

問題的關鍵當然不在於這個榮譽應該屬於計算科學家還是屬於統計學家;就像其它領域一樣,能取得今天的成功是各個學術學科的功勞,其中當然包括統計學和數學。然而,為了正確評估機器學習方法的巨大影響力和潛力,有必要先打破這個錯誤的觀念:現代人工智能的發展,無非就是古老的統計技術擁有了更強大的計算機和更好的數據集。

機器學習無需高深的統計學知識

先聽我說,入門機器學習的時候,我幸運地選了一門非常棒的課程,是專門講深度學習的。這也是我本科計算機課程的一部分。我們要完成的一個項目是在 TensorFlow 上實現和訓練 Wasserstein GAN。

當時我只修了一門必修的統計學入門課,但我很快就把大部分內容都忘了。不用說,我的統計能力並不強。然而,我卻能讀懂一篇最先進的生成機器學習模型的論文,並且從頭實現了它——通過在 MS Celebs 數據集上訓練,生成了能以假亂真的虛擬圖像。

在整個課程中,我和同學們成功地訓練了針對癌症組織的圖像分割、神經機器翻譯、基於字符的文本生成以及圖像轉換的模型,這些模型都採用了近幾年剛剛發明的尖端機器學習技術。

然而,你要是問我或者我的同學如何計算一組數據的方差,或者定義邊緣概率,我們應該會交個白卷。

這似乎與人工智能只是對古老統計技術的重新包裝的觀點有些矛盾。

的確,在深度學習課程中,機器學習專家的統計基礎可能比計算機專業的本科生更強。一般來說,信息論需要對數據和概率有很深的理解,所以我建議,所有想成為數據科學家或機器學習工程師的人最好能夠對統計概念有直觀的理解。但問題是:如果機器學習只是統計學的分支,那麼沒有統計學背景的人怎麼能對最前沿的機器學習概念有深入的理解呢?

還應該承認,許多機器學習算法對統計學與概率學背景知識的要求比多數神經網絡技術要高,但這些方法通常也被稱為統計機器學習或者統計學習,好像是想與常規的統計類別區別開。並且,近年來大多數機器學習中的的炒作性創新都來自神經網絡領域,所以這點無關緊要。

當然,機器學習並不是遺世獨立的。在現實世界中,任何想要做機器學習的人都可能在研究許多類別的數據問題,因此也需要對統計學科有較深的理解。這並不是說機器學習從不使用或構建統計概念,這說的不是一回事。

機器學習=表示+評估+優化

客觀來說,我和我的同學在算法、計算複雜度、優化策略、微積分、線性代數甚至概率論方面基礎都很好。我想說的是,比起高級統計學知識,這些與我們正在解決的問題更加相關。

機器學習是一類反覆「學習」某類函數近似值的計算算法。華盛頓大學計算科學教授 Pedro Domingos 曾列出構成機器學習算法的三大組成部分:表示、評估和優化。

表示涉及從一個空間到另一個更有效空間的輸入傳輸,解釋起來更加容易。請從卷積神經網絡的視角考慮這個問題。原始像素在區分貓和狗上是沒有用的,所以我們將其轉換為更有效的表達形式(如 softmax 輸出中的 logits),這樣就可以解釋和評估了。

評估實際上就是損失函數。你的算法如何有效地將數據轉換到另一個更有效的空間上去?softmax 輸出和 one-hot 編碼標籤(分類)到底有多麼相似?你能否正確預測展開的文本序列(文本 RNN)的下一個單詞?隱藏分佈與單位高斯分佈的偏離有多遠(VAE)?這些問題都告訴你表達函數性能如何;更重要的是,它們定義了它需要學習做什麼。

優化是整個拼圖的最後一塊。一旦有了評估部分,你就可以優化表達函數,以改進評估標準。在神經網絡中,這意味著使用隨機梯度下降的一些變體來根據給定的損失函數更新網絡的權重和偏置。你有世界上最好的圖像分類器(起碼 2012 年的 Geoffrey Hinton 有)。

在訓練圖像分類器時,除了定義適當的損失函數外,學習的表達函數是否有邏輯輸出無關緊要。像 logistic 迴歸這樣的統計學術語在我們討論模型空間時確實也有些作用,但在優化問題和數據理解問題上都沒有被重新定義。

附言:人工智能這個詞挺蠢的。人工智能問題只是計算機目前還不善解決的一個問題。在十九世紀,機械計算機也曾被認為是智能的。現在這個術語與深度學習聯繫如此緊密,我們就開始說通用人工智能(AGI)是比先進的模式匹配機制更智能的東西。然而,我們對通用智能還沒有一致的定義或理解。AI 所做的唯一一件事就是激發人們對所謂的「奇點」或類似終結者的殺手機器人的恐懼。我希望我們可以停止使用這樣一個空洞的、聳人聽聞的術語來替代真正的技術。

深度學習的技術

幾乎所有深度神經網絡的內部工作都忽略了深度學習的統計特性。全連接點由權重和偏置組成,但卷積層呢?整流激活層?批標準化?殘差層?Dropout?存儲和注意力機制?

這些創新對於高性能深度網絡的發展至關重要,但它們與傳統的統計技術並不完全一致(可能因為它們根本不是統計技術)。如果你不相信我,可以試著告訴統計學家你的模型過擬合了,然後問他們把模型的 1 億個參數砍掉一半是否行得通。

我們甚至不討論模型的可解釋性。

超過一億個變量的迴歸——沒問題嗎?

深度網絡和傳統統計模型在規模上是有差異的。深度神經網絡是巨大的。例如,卷積網絡 VGG-16 大約有 1.38 億個參數。你覺得你的普通學術導師會如何回應一個想要對 1 億多個變量進行多元迴歸的學生?這個想法很荒謬,因為訓練 VGG-16 不是多元迴歸,而是機器學習問題。

新前沿

在過去的幾年裡,你可能看了無數宣揚機器學習可以完成很酷的任務的論文、帖子、文章,所以我不再贅述了。然而,我要提醒你,深度學習不僅比以前的技術更重要,它還能幫助我們解決一系列全新的問題。

在 2012 年之前,涉及非結構化和半結構化數據的問題充其量只是一項挑戰。僅可訓練的 CNN 和 LSTM 就在這方面實現了巨大飛躍。在計算機視覺、自然語言處理、語音轉錄等領域都取得了相當大的進步,並且在人臉識別、自動駕駛和 AI 對話等技術方面有了很大的提高。

確實,大多數機器學習算法最終都要將模型擬合到數據——從這個角度看,這是個統計過程。航天飛機也不過是一個帶翅膀的飛行器,但我們並沒有看到有人嘲笑美國宇航局在 20 世紀探索太空,也沒有人認為這是對飛機進行重新包裝而已。

與太空探索一樣,深度學習的出現並沒有解決世界上所有的問題。在許多領域,特別是在「人工智能」領域,仍有很多的事情需要我們去做。也就是說,它為我們處理複雜的非結構化數據問題做出了重大貢獻。機器學習會繼續引領世界技術進步和創新的前沿,而不僅僅是牆上一道鑲了嶄新邊框的裂縫。


分享到:


相關文章: