機器學習最流行的模型是什麼?


機器學習最流行的模型是什麼?



在過去幾十年裡,機器學習領域發生了鉅變。誠然,有些方法已經存在很長一段時間,仍然是該領域的重要方法。例如,最小二乘法的概念早在19世紀早期就由Legendre 和Gauss提出。其他方法,如神經網絡,其最基本的形式是在1958年引入的,在過去的幾十年裡得到了很大的發展,而其他方法,如支持向量機 (SVMs),則是最近才出現的。

由於監督學習有大量可用的方法,所以人們經常提出一個問題:最好的模型是什麼?眾所周知,這個問題很難回答,正如George Box所言,所有的模型都是不好的,但也都有一些可取之處。而判斷模型有用與否則取決於手頭上的數據。因此,這個問題沒有統一答案。相比而言,下面這個問題要容易回答一些:最流行的模型是什麼?這是本文的關注點所在。

機器學習最流行的模型是什麼?


衡量機器學習模型的流行度


本文將採用頻率論的方法來定義流行度。更準確的說,本文將使用提及個體監督學習模型的科學出版物的數量來反映模型的流行度。當然,這個方法有如下侷限性:

· 可能有比出版物數量更準確的標準來衡量流行度。比如,出版物中對某一模型的批評並非意味該模型是流行的。

· 分析會受到使用的搜索詞的影響。為了確保較高的準確度,我們沒有使用模型的縮寫,這就有可能導致不能檢索到所有可能的結果。此外,對於那些在分析中未被考慮的搜索項引用的模型而言,靈敏度可能較低。

· 文獻數據庫並不完善:有時,出版物存儲的元數據有誤(如年份有誤)或可能存在重複的出版物,因此,出版頻率中的一些干擾是可以預測的。

本文將進行兩種分析。第一種是對出版頻率的縱向分析;第二種是比較不同領域中涉及機器學習模型的出版總量。

第一種分析通過搜索Google Scholar(收錄科學出版物的標題和摘要)中的數據來確定出版物的數量。而從Google Scholar搜索數據是出了名的困難,所以我們藉助ScrapeHero提供的實用建議來收集數據。

分析中包括了以下13種監督方法:神經網絡、深度學習、支持向量機、隨機森林、樹形判定分類法、線性迴歸、邏輯迴歸、泊松迴歸、嶺迴歸、套索迴歸、k-近鄰法、線性判別分析和對數線性模型。注意,套索迴歸考慮了套索迴歸術語和套索模型;k-近鄰法考慮了k近鄰術語。所得到的數據集顯示了從1950年至今與每個監督模型有關的出版物數量 。

機器學習最流行的模型是什麼?


從1950年至今的監督模型使用


為了分析縱向數據,我們將機器學習劃分為兩個階段:早期(1950-1980)——只有少量模型可用;形成期(1980至今)——人們對機器學習的興趣激增,開發了很多新模型。注意,以下圖像只顯示最相關的方法。

早期:線性迴歸佔據主導地位



機器學習最流行的模型是什麼?



從圖1中可以看出,線性迴歸是1950 -1980年間的主要方法。相比之下,其他機器學習模型在科學文獻中極少被提及。然而,從20世紀60年代開始,神經網絡和樹形判定分類法開始流行起來。還可以看到,邏輯迴歸尚未得到廣泛的應用,在70年代末被提及的次數也只是略有增加。

形成期:神經網絡的多樣化和興起


機器學習最流行的模型是什麼?



圖2顯示,從上世紀八十年代末開始,科學出版物中提到的監督模型變得更加多樣化。更重要的是,在2013年之前,機器學習模型在科學文獻中被提及的比率一直在穩步上升。該圖特別展示了線性迴歸、邏輯迴歸和神經網絡的普及。正如我們所見,線性迴歸在1980年以前就已經很流行了。然而,在1980年,神經網絡和邏輯迴歸的流行度開始迅速增加。儘管邏輯迴歸的流行度在2010年達到頂峰,當時幾乎與線性迴歸一樣受歡迎,但在2015年,神經網絡和深度學習(神經網絡/深度學習曲線見圖2)的流行程度甚至超過了線性迴歸。

神經網絡之所以大受歡迎,是因為它在圖像識別(ImageNet, 2012)、人臉識別(DeepFace, 2014)和遊戲(AlphaGo, 2016)等機器學習應用方面取得了突破。Google Scholar的數據表明,在過去幾年裡,科學論文中提到神經網絡的頻率略有下降(圖2中未顯示)。這可能是因為深度學習術語(多層神經網絡)在一定程度上取代了神經網絡術語的使用。使用 Google Trends亦可得出同樣的結論。

剩下的稍微不那麼流行的監督方法是樹形判定分類法和支持向量機。與前三種方法相比,這兩種方法被提到的幾率要小得多。但需要注意的是,這兩種方法在文獻中被提到的頻率波動似乎也較小。這與其他方法(如線性迴歸和邏輯迴歸)形成了鮮明對比,後者被提及的次數在過去幾年中已大大減少。而在樹形判定分類法和支持向量機之間,支持向量機似乎表現出更有利的增長趨勢——在其問世僅15年後就超越了樹形判定分類法。

上述機器學習模型被提及的次數在2013年達到頂峰(589,903篇),此後略有下降(2017年為462,045篇)。

機器學習最流行的模型是什麼?


監督學習模型在不同領域的流行度


第二種分析將研究不同的群體是否依賴於不同的機器學習技術。為此,我們參考了三個科學出版物資料庫:用於一般出版物的Google Scholar ,用於計算機科學出版物的 dblp ,用於生物醫學出版物的PubMed。在這個三個資料庫中,我們確定了13個機器學習模型的出現頻率。結果如圖3所示。


機器學習最流行的模型是什麼?



圖3表明,許多方法僅適用於特定領域。下面,我們來分析下每個領域中最流行的模型。

機器學習最流行的模型是什麼?


監督學習模型的總體使用情況


根據Google Scholar,五種最常用的監督模型是:

1. 線性迴歸:3,580,000篇論文,佔34.3%

2. 邏輯迴歸:2,330,000篇論文,佔22.3%

3. 神經網絡:1,750,000篇論文,佔16.8%

4. 樹形判定分類法:875,000篇論文,佔8.4%

5. 支持向量機:684,000篇論文,佔6.6%

總的來說,線性模型顯然占主導地位,在監督模型的出現率中佔50%以上。非線性方法緊隨其後:神經網絡以16.8%的論文提及率排名第三,接著是樹形判定分類法(8.4%)和支持向量機(6.6%)。

機器學習最流行的模型是什麼?


生物醫學領域的模型使用


根據PubMed,生物醫學領域最流行的五個機器學習模型是:

1. 邏輯迴歸:229,956篇論文,佔54.5%

2. 線性迴歸:84,850篇論文,佔20.1%

3. Cox迴歸分析:38,801篇論文,佔9.2%

4. 神經網絡:23,883篇論文,佔5.7%

5. 泊松迴歸:12,978篇論文,佔3.1%

在生物醫學中,我們可以看到線性模型被多次提及:五種最流行的方法中有四種都是線性的。這可能有兩個原因。首先,在醫療學環境中,樣本數量往往太小,無法適應複雜的非線性模型。其次,解釋結果的能力對醫學應用而言至關重要。由於非線性方法通常難以解釋,所以它們不太適合醫學應用,畢竟僅憑高預測性能通常是不夠的。

邏輯迴歸在PubMed數據中的流行可能是因為臨床研究出版物的大量發行。在這些研究中,分類結果(即治療成功率)經常使用邏輯迴歸分析,因為它非常適合解釋特徵對結果的影響。注意,Cox迴歸在PubMed數據中非常流行,因為它常被用於分析Kaplan-Meier存活數據。

機器學習最流行的模型是什麼?


計算機科學領域的模型使用


從dblp檢索計算機科學文獻中最流行的5種模型是:

1. 神經網絡:63,695篇論文,佔68.3%

2. 深度學習:10,157篇論文,佔10.9%

3. 支持向量機:7,750篇論文,佔8.1%

4. 樹形判定分類法:4,074篇論文,佔4.4%

5. 最近鄰:3,839篇論文,佔2.1%

在計算機科學出版物中提到的機器學習模型的分佈特點十分明顯:大多數出版物似乎應用最新的非線性方法(例如神經網絡、深度學習和支持向量機)。如果將深度學習包括在內,那麼檢索結果中有四分之三以上涉及神經網絡。

群體之間的鴻溝


機器學習最流行的模型是什麼?



圖4總結了文獻中提到的參數模型(包括半參數模型)和非參數模型的所佔比例。條形圖表明,機器學習研究中所研究的模型(如計算機科學出版物所示)與所應用的模型類型(如生物醫學和綜合出版物所示)之間存在很大差異。

超過90%的計算機科學出版物應用非參數模型,而大約90%的生物醫學出版物應用參數模型。這表明,機器學習的研究主要集中在最先進的方法上,如深度神經網絡;而機器學習用戶則往往依賴於更易於解釋的參數模型。

機器學習最流行的模型是什麼?


總結


通過對科學文獻中提到的個體監督學習模型的分析,可以看出人工神經網絡的高度普及。然而,我們也看到不同類型的機器學習模型被用於不同的領域。特別是生物醫學研究領域的研究人員仍然非常依賴參數模型。有趣的是,更復雜的模型是否會在生物醫學領域得到廣泛應用,或者這些模型是否不適合該領域的典型應用(例如,由於這些模型的可解釋性不足,當樣本容量很小時,通用性較低)。


分享到:


相關文章: