教程|算法太多挑花眼?教你如何選擇正確的機器學習算法

選自Hackernoon

機器之心編譯

參與:Geek AI、張倩

機器學習算法雖多,卻沒有什麼普適的解決方案。決策樹、隨機森林、樸素貝葉斯、深度網絡等等等等,是不是有時候覺得挑花了眼呢?福利來啦~本文將教你慧眼識精,快速挑選出滿意的算法!

機器學習既是一門科學,也是一種藝術。縱觀各類機器學習算法,並沒有一種普適的解決方案或方法。事實上,有幾個因素會影響你對機器學習算法的選擇。

有些問題是非常特別的,需要用一種特定的解決方法。例如,如果你對推薦系統有所瞭解,你會發現它是一類很常用的機器學習算法,用來解決一類非常特殊的問題。而其它的一些問題則非常開放,可能需要一種試錯方法(例如:強化學習)。監督學習、分類、迴歸等問題都是非常開放的,可以被用於異常檢測或建立更加廣泛的預測模型。

此外,我們在選擇機器學習算法時所做出的一些決定與算法的優化或技術層面關係並不大,而更多地與業務決策相關。下面,讓我們一起來看看有哪些因素能幫你縮小機器學習算法的選擇範圍。

數據科學過程

在你開始研究不同的機器學習算法前,你需要對自己擁有的數據、面對的問題及相關約束有清晰的瞭解。

理解你的數據

當我們決定使用哪種算法時,我們所擁有的數據的類型和形態起著關鍵性的作用。有些算法可以利用較小的樣本集合工作,而另一些算法則需要海量的樣本。特定的算法對特定類型的數據起作用。例如,樸素貝葉斯算法對處理待分類的輸入特別有效,但是對於缺失值則一點都不敏感。

因此,你需要做到:

瞭解你的數據

1. 查看總結統計和數據可視化的結果

  • 百分比可以幫助你識別大多數數據的範圍

  • 平均數和中位數可以描述集中趨勢

  • 相關係數可以指出強的關聯性

2. 數據可視化

  • 箱形圖可以識別出異常值

  • 密度圖和直方圖可以顯示出數據的散佈情況

  • 散點圖可以描述二元關係

數據清洗

1. 處理缺失值。缺失的數據對於某些模型的影響比對其它模型更大。即使是對於那些被用於處理缺失數據的模型來說,它們也可能對缺失數據很敏感(某些變量的缺失數據可能導致預測性能變差)

2. 選擇處理異常值的方法

  • 異常值在多維數據中十分常見。

  • 有些模型對異常值的敏感性比其它模型要低。通常而言,樹模型對於異常值的存在不太敏感。然而回歸模型、或者任何試圖使用方程的模型都會受到異常值的嚴重影響。

  • 異常值可能是糟糕的數據收集造成的,也可能是合理的極值。

3. 數據需要被聚合嗎?

數據增強

1. 特徵工程是從原始數據中產生能夠被用於建模的數據的過程,可以起到以下幾種作用:

  • 使模型更容易被解釋(如數據分箱(binning))

  • 捕獲更復雜的關係(如神經網絡)

  • 減少數據冗餘並降低數據維度(如主成分分析(PCA))

  • 重新縮放變量(如標準化或歸一化)

2. 不同的模型可能有不同的特徵工程的要求。有的模型有內置的特徵工程。

對問題進行分類

下一步是對問題進行分類。這是一個需要分兩步實現的過程。

1. 根據輸入分類:

  • 如果你擁有的是帶標籤的數據,那麼這就是一個監督學習問題。

  • 如果你擁有的是未標註過的數據,並且希望從中找到有用的結構,那麼這就是一個無監督學習問題。

  • 如果你想要通過與環境的交互來優化一個目標函數,那麼這就是一個強化學習問題。

2. 根據輸出分類:

  • 如果模型的輸出是一個(連續的)數字,那麼這就是一個迴歸問題。

  • 如果模型的輸出是一個類別,那麼這就是一個分類問題。

  • 如果模型的輸出是一組用輸入數據劃分出的簇,那麼這就是一個聚類問題。

  • 你想發現一個異常點嗎?此時你面對的就是一個異常檢測問題。

理解你要滿足的約束條件

  • 你需要考慮你能夠存儲數據的容量有多大?這取決於系統的存儲容量,你可能無法存儲若干 GB 大小的分類、迴歸模型或者若干 GB 的用於聚類分析的數據。例如,在嵌入式系統中,你就會面臨這種情況。

  • 對預測過程的速度是否有要求?在實時應用中,很顯然,儘快得出預測結果是十分重要的。例如,在自動駕駛問題中,應用必須儘可能快地對道路標誌進行分類,以免發生交通事故。

  • 對學習過程的速度是否有要求?在某些情況下,快速訓練模型是十分必要的:有時,你需要使用不同的數據集快速地實時更新你的模型。

尋找可用的算法

當對自己的任務環境有了一個清晰的認識後,你就可以使用你所掌握的工具確定適用於待解決的問題並切實可行的算法。一些影響你選擇模型的因素如下:

  • 模型是否滿足業務目標

  • 模型需要多少數據預處理工作

  • 模型有多準確

  • 模型的可解釋性如何

  • 模型運行的速度有多快:構造模型需要多久?模型做出預測需要多長時間?

  • 模型的可伸縮性如何

模型的複雜度是一個影響算法選擇的重要標準。一般來說,一個更復雜的模型具備下列特徵:

  • 它依賴於更多的特徵進行學習和預測(例如,使用十個而不是兩個特徵來預測目標)

  • 它依賴於更復雜的特徵工程(例如,使用多項式特徵、交互特徵或主成分)

  • 它有更大的計算開銷(例如,需要一個由 100 棵決策樹組成的隨機森林,而不是一棵單獨的決策樹)

除此之外,同樣的機器學習算法可以基於參數的個數和某些超參數的選擇而變得更加複雜。例如:

  • 迴歸模型可以擁有更多的特徵,或者多項式項和交互項。

  • 決策樹可以擁有更大或更小的深度。

將相同的算法變得更加複雜增加了發生過擬合的幾率。

教程|算法太多挑花眼?教你如何选择正确的机器学习算法

常用的機器學習算法

線性迴歸

這可能是機器學習中最簡單的算法。例如,當你想要計算一些連續值,而不是將輸出分類時,可以使用迴歸算法。因此,當你需要預測一個正在運行的過程未來的值時,你可以使用迴歸算法。然而,當特徵冗餘,即如果存在多重共線性(multicollinearity)時,線性迴歸就不太穩定。

在下列情況下可以考慮使用線性迴歸:

  • 從一個地方移動到另一個地方所需的時間

  • 預測下個月某種產品的銷售情況

  • 血液中的酒精含量對協調能力的影響

  • 預測每個月禮品卡的銷售情況,並改善年收入的估算

Logistic 迴歸

Logistic 迴歸執行二進制分類,因此輸出二值標籤。它將特徵的線性組合作為輸入,並且對其應用非線性函數(sigmoid),因此它是一個非常小的神經網絡的實例。

logistic 迴歸提供了許多方法對你的模型進行正則化處理,因此正如在樸素貝葉斯算法中那樣,你不必擔心你的特徵是否相關。該模型還有一個很好的概率化的解釋。不像在決策樹或者支持向量機中那樣,你可以很容易地更新你的模型以獲取新的數據。如果你想要使用一個概率化的框架,或者你希望在未來能夠快速地將更多的訓練數據融合到你的模型中,你可以使用 logistic 迴歸算法。logistic 迴歸還可以幫助你理解預測結果背後起作用的因素,它不完全是一個黑盒方法。

在下列情況下可以考慮使用 logistic 迴歸算法:

  • 預測客戶流失

  • 信用評分和欺詐檢測

  • 評價市場營銷活動的效果

決策樹

決策樹很少被單獨使用,但是不同的決策樹可以組合成非常高效的算法,例如隨機森林或梯度提升樹算法。

決策樹很容易處理特徵交互,並且決策樹是一種非參數模型,所以你不必擔心異常值或者數據是否是線性可分的。決策樹算法的一個缺點是,它們不支持在線學習,因此當你要使用新的樣本時,你不得不重新構建決策樹。決策樹的另一個缺點是,它很容易發生過擬合,而這就是像隨機森林(或提升樹)這樣的集成學習方法能夠派上用場的地方。決策樹也需要大量的內存空間(擁有的特徵越多,你的決策樹可能會越深、越大)

決策樹能夠很好地幫助你在諸多行動路徑中做出選擇:

  • 做出投資決策

  • 預測客戶流失

  • 找出可能拖欠銀行貸款的人

  • 在「建造」和「購買」兩種選擇間進行抉擇

  • 銷售主管的資質審核

K-均值

有時,你完全沒有數據的標籤信息,並且你的目的是根據對象的特徵來為其打上標籤。這種問題被稱為聚類任務。聚類算法可以在這種情況下被使用:例如,當你有一大群用戶,你希望根據他們共有的一些屬性將其劃分到一些特定的組中。

該方法最大的缺點是,K-均值算法需要提前知道你的數據會有多少簇,因此這可能需要進行大量的試驗去「猜測」我們最終定義的簇的最佳個數——K。

主成分分析(PCA)

主成分分析能夠對數據進行降維。有時,你擁有各種各樣的特徵,這些特徵之間的相關性可能很高,而模型如果使用如此大量的數據可能會產生過擬合現象。這時,你可以使用主成分分析(PCA)技術。

主成分分析(PCA)能夠起作用的關鍵因素是:除了低維的樣本表徵,它還提供了各種變量的一種同步的低維表徵。同步的樣本和變量的表徵提供了一種能夠可視化地找到能夠表示一組樣本的特徵的變量的方法。

支持向量機

支持向量機(SVM)是一種在模式識別和分類問題中被廣泛應用的監督機器學習技術——當你的數據恰好有兩類時。

支持向量機準確率高,對於防止過擬合很好的理論保障。當你使用一個合適的核函數時,即使你的數據在基(低維)特徵空間中是線性不可分的,他們也可以很好地工作。支持向量機在文本分類問題中非常流行,在該問題中,輸入是一個維度非常高的空間是很正常的。然而,SVM 是一種內存密集型算法,它很難被解釋,並且對其進行調優十分困難。

在下列現實世界的應用中,你可以使用支持向量機:

  • 發現患有糖尿病等常見疾病的人

  • 手寫字符識別

  • 文本分類——將文章按照話題分類

  • 股票市場價格預測

樸素貝葉斯

這是一種基於貝葉斯定理的分類技術,它很容易構建,非常適用於大規模數據集。除了結構簡單,據說樸素貝葉斯的表現甚至比一些複雜得多的分類方法更好。當 CPU 和內存資源有限時,樸素貝葉斯算法也是一個很好的選項。

樸素貝葉斯非常簡單,你僅僅是在做大量的計數工作。如果樸素貝葉斯的條件獨立假設確實成立,樸素貝葉斯分類器的收斂速度會比 logistic 迴歸這樣的判別模型更快,因此需要的訓練數據更少。即使樸素貝葉斯的假設不成立,樸素貝葉斯分類器往往也能很好地完成任務。如果你想使用一種快速的、簡單的、性能也不錯的模型,樸素貝葉斯是一個很好的選擇。這種算法最大的缺點就是它不能學習到特徵之間的相互作用。

在下列真實世界的應用中,你可以使用樸素貝葉斯:

  • 情感分析和文本分類

  • 類似於 Netflix、Amazon 這樣的推薦系統

  • 識別垃圾郵件

  • 人臉識別

隨機森林

隨機森林是一種決策樹的集成方法。它能夠同時解決具有大規模數據集的迴歸問題和分類問題,還有助於從數以千計的輸入變量中找出最重要的變量。隨機森林具有很強的可伸縮性,它適用於任何維數的數據,並且通常具有相當不錯的性能。此外,還有一些遺傳算法,它們可以在具有最少的關於數據本身的知識的情況下,很好地擴展到任何維度和任何數據上,其中最簡單的實現就是微生物遺傳算法。然而,隨機森林學習的速度可能會很慢(取決於參數設置),並且這種方法不能迭代地改進生成模型。

在下列現實世界的應用中,你可以使用隨機森林:

  • 預測高危患者

  • 預測零件在生產中的故障

  • 預測拖欠貸款的人

神經網絡

神經網絡中包含著神經元之間連接的權重。這些權重是平衡的,逐次對數據點進行學習。當所有的權重都被訓練好後,如果需要對新給定的數據點進行迴歸,神經網絡可以被用於預測分類結果或一個具體數值。利用神經網絡,可以對特別複雜的模型進行訓練,並且將其作為一種黑盒方法加以利用,而在訓練模型之前,我們無需進行不可預測的複雜特徵工程。通過與「深度方法」相結合,甚至可以採用更加不可預測的模型去實現新任務。例如,最近人們已經通過深度神經網絡大大提升了物體識別任務的結果。深度學習還被應用於特徵提取這樣的非監督學習任務,也可以在人為干預更少的情況下,從原始圖像或語音中提取特徵。

另一方面,神經網絡很難被解釋清楚,其參數設置也複雜地讓人難以置信。此外,神經網絡算法也都是資源密集型和內存密集型的。

SCIKIT 參考手冊

Scikit learning 為大家提供了一個非常深入的、解釋地很清楚的流程圖,它能夠幫助你選擇正確的算法。我認為此圖十分方便。

教程|算法太多挑花眼?教你如何选择正确的机器学习算法

結論

一般來說,你可以根據上面介紹的要點來篩選出一些算法,但是要想在一開始就知道哪種方法最好是很難的。你最好多迭代幾次選擇算法的過程。將你的數據輸入給那些你確定的潛在優秀機器學習算法,通過並行或串行的方式運行這些算法,最終評估算法性能,從而選擇出最佳的算法。

在最後,我想告訴你:為現實生活中的問題找到正確的解決方案,通常不僅僅是一個應用數學方法的問題。這要求我們對業務需求、規則和制度、相關利益者的關注點有所瞭解,並且具備大量的專業知識。在解決一個機器學習問題的同時,能夠結合並平衡這些問題是至關重要的,那些能做到這一點的人可以創造最大的價值。教程|算法太多挑花眼?教你如何選擇正確的機器學習算法

原文鏈接:https://hackernoon.com/choosing-the-right-machine-learning-algorithm-68126944ce1f

✄------------------------------------------------

廣告 & 商務合作:[email protected]


分享到:


相關文章: