如何為迴歸問題選擇一個合適的算法呢?我們先從模型的優缺點講起……

如何为回归问题选择一个合适的算法呢?我们先从模型的优缺点讲起……

「2018將門年度創新峰會」

倒計時 2天!

3月24日(本週六),我“門”將在北京舉辦首屆將門年度創新峰會,屆時將攜手科技圈的技術大咖們,並首次集結來自交通、醫療、零售、生活等領域的數十家行業引領大企業以及優秀的創業企業們,共同探討AI最新技術創新趨勢、解讀技術激活商業場景的熱點話題、深究AI落地產業發展的現在及未來,共同向創新者致敬。

編譯:T.R

任何一個機器學習問題都有著不止一種算法來解決,在機器學習領域“沒有免費的午餐”的意思就是沒有一個對於所有問題都很好的算法。機器學習算法的表現很大程度上與數據的結構和規模有關。所以判斷算法性能最好的辦法就是在數據上運行比較結果。

不過與此同時我們對於算法的優缺點有一定的瞭解可以幫助我們找需要的算法。本文將會介紹三種迴歸算法及其優缺點,將會為我們理解和選擇算法提供很好的幫助。

線性和多項式迴歸

如何为回归问题选择一个合适的算法呢?我们先从模型的优缺点讲起……

在這一簡單的模型中,單變量線性迴歸的任務是建立起單個輸入的獨立變量與因變量之間的線性關係;而多變量回歸則意味著要建立多個獨立輸入變量與輸出變量之間的關係。除此之外,非線性的多項式迴歸則將輸入變量進行一系列非線性組合以建立與輸出之間的關係,但這需要擁有輸入輸出之間關係的一定知識。訓練迴歸算法模型一般使用隨機梯度下降法(SGD)。

優點:

  • 建模迅速,對於小數據量、簡單的關係很有效;

  • 線性迴歸模型十分容易理解,有利於決策分析。

缺點:

  • 對於非線性數據或者數據特徵間具有相關性多項式迴歸難以建模;

  • 難以很好地表達高度複雜的數據。

神經網絡

如何为回归问题选择一个合适的算法呢?我们先从模型的优缺点讲起……

神經網絡由一系列稱為神經元的節點通過內部網絡連接而成,數據的特徵通過輸入層被逐級傳遞到網絡中,形成多個特徵的線性組合,每個特徵會與網絡中的權重相互作用。隨後神經元對線性組合進行非線性變化,這使得神經網絡模型具有對多特徵複雜的非線性表徵能力。神經網絡可以具有多層結構,以增強對於輸入數據特徵的表徵。人們一般利用隨機梯度下降法和反向傳播法來對神經網絡進行訓練,請參照上述圖解。

優點:

  • 多層的非線性結構可以表達十分複雜的非線性關係;

  • 模型的靈活性使得我們不需要關心數據的結構;

  • 數據越多網絡表現越好。

缺點:

  • 模型過於複雜,難以解釋;

  • 訓練過程需要強大算力、並且需要微調超參數;

  • 對數據量依賴大,但常規機器學習問題則使用較小量數據。

迴歸樹和迴歸森林

如何为回归问题选择一个合适的算法呢?我们先从模型的优缺点讲起……

優點:

  • 具有很高的複雜度和高度的非線性關係,比多項式擬合擁有更好的效果;

  • 模型容易理解和闡述,訓練過程中的決策邊界容易實踐和理解。

缺點:

  • 由於決策樹有過擬合的傾向,完整的決策樹模型包含很多過於複雜和非必須的結構。但可以通過擴大隨機森林或者剪枝的方法來緩解這一問題;

  • 較大的隨機數表現很好,但是卻帶來了運行速度慢和內存消耗高的問題。

-The End-

將門2018招聘看這裡!

企業戰略合作、投資總監/經理、財務總監、新媒體運營、技術專家、行業專家等多個崗位期待您的加入~

也歡迎您轉給身邊優秀的朋友!推薦成功、一經錄用將獲得15000元現金作為答謝!

將門是一家專注於

發掘、加速並投資技術創新激活商業價值的創業公司的創投機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門投資基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、偉景智能、Convertlab、迪英加科技等十幾傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

如何为回归问题选择一个合适的算法呢?我们先从模型的优缺点讲起……

點擊右上角,把文章朋友圈

將門創投

讓創新獲得認可!

[email protected]


分享到:


相關文章: