紙上得來終覺淺:四個你可能無法從書本中學習到的機器學習技巧

纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

在過去的幾年裡,機器學習的優異表現使得它在各領域都突飛猛進的發展。由於有充足的資金支持,激動人心和妙趣橫生的科技產出,廣闊的成長空間,越來越多的人開始涉足學習機器學習相關的知識。現在比較主流的獲取相關知識的方式是學校和在線課程。但機器學習的算法最後會用在真實世界的商業問題中,併成為為客戶創造價值的工具。機器學習模型的算法精度,可解釋性,速度和存儲能力以及最後可創造出的價值都需要考慮在內。

本文我們將要談談四個無法從學校或各種線上平臺學習到的機器學習技巧,這些技巧有助於機器學習算法應用於真實的世界中,創造實際價值。希望這篇文章能帶給你一些實踐中的啟發和價值。

銜接機器學習算法與商業目標

包括機器學習在內的軟件行業中,我們都需要注意將理論技能和商業目標聯繫起來。如果想成為領域內的專家,這兩方面的知識都是必不可少的。

在教室裡我們能學到很多理論技能方面的知識:如何編寫Python程序,機器學習和數據科學的算法,技術報告的撰寫等等,這些零碎的知識點往往與商業領域孤立脫離。當你需要在該領域內實際工作時,你工作的每一個細節問題均與實際的商業相聯繫。為什麼你的領導要你優化現在系統的精度?因為更好的精度意味著更多的價值,更好的產品,從而意味著更多的客戶和收入!

為了對問題有更好更深入的理解,我們需要抓住關鍵、聚焦重點。 當你在行業內有聲望時,你也許有機會將商業目標轉變為技術目標,為了完成這項工作,科技手段是不可或缺的途徑。當創造實際價值時,一定要注意將科技與商業聯繫思考。一定要記住理論與實際相結合是我們取得成功的有力保證!

模型選擇

纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

在學校中,我們學到了各種各樣的機器學習模型:線性迴歸模型,支持向量機,神經網絡...好像有成百上千種那麼多!那麼問題來了,我們該用哪種?你也許之前用過他們種的許多種:碰巧編寫過某幾種算法或是從TensorFlow和Scikit Learn這樣的庫中調用過。你想過為什麼要選擇這種算法嗎?現在深度學習算法十分流行,我們可以直接默認使用這種算法嗎?

正如科技和工程中的本質特徵一樣:所有的方法都需要權衡利弊。在實際應用的過程中,需要仔細權衡每種算法是否適用於該種模型。在機器學習領域裡“沒有免費的午餐”。即:沒有一種機器學習算法是萬能的,可適用於全部的問題。不同種類機器學習算法的表現強烈的依賴於數據結構和數據量。除非我們使用算法來檢驗結果,不然無法事先判別判別模型有效性。

纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

一種算法並不永遠比另外一種好用,每種機器學習的算法均有其特點,可以用來快速選擇和協調各種參數。比如:神經網絡(和深度學習)一般準確性較高但是可解釋性較差。當你需要確切的知道結果的來源時,就不適宜選擇這種方法;但是如果你只關心最後的輸出結果,那麼這種方法就非常適合!而對於某些商業問題來說,從最簡單的模型開始是一個不錯的選擇。在工程實踐中,往往都是先開發出一個最簡單的可用模型而後再逐漸優化的。一開始就使用複雜的模型想要覆蓋所有的情況,會讓你的工作陷入很多的困難中去。

模型部署

機器學習教育過程中通常傾向於深入學習機器學習算法,教導我們從技術層面上理解他們的運作方式。一旦你的模型被完全訓練,將用某些數據集來標記模型的有效性。一旦模型被驗證可以很好的完成任務,全套的軟件產品將被進行部署。

纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

站在更高的層面來理解部署的含義:將算法插入到已有的系統中去。模型的功能在於當給出輸入時能做出某種對於系統的有效預測,因此,從系統層面理解整個軟件是十分必要的。

在學校中所學的是技術層面的知識基石,在商業中應用和發現產品的價值是最終目標,將軟件系統中各個部分有機的結合起來是處於中間的必經步驟。我們需要明白系統的架構,不同區域之間的連接,然後你才能從宏觀層面上把握模型在系統中所處的地位和發揮的作用。在這樣的基礎上銜接系統中不同模塊的功能、揚長避短才能發揮出模型最大的效用。

投入與產出的平衡

當在學校或者在在線課程的學習中,我們有充分的時間進行實驗。我們甚至可以一直做研究,發現最新最好的算法。但是在現實生活中,這樣卻不是最有效的方式。商業講究在有效的時間和資源內將利益最大化,不可能花一整天都額時間來驗證手邊所有的方法中哪一種是最好的方法。我們需要找到最有效的途徑來決定最優的方法。

纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

我們需要花最少的錢取得最大的效果,也許有一種新的優秀的迴歸算法,但是它在技術上既不成熟,還可能在實施過程中消耗大量的時間。這個時候,與其花費大量的時間修改算法,不如通過輸入更多的數據來訓練現有的模型。你的算法是否比原來的算法更加精確並不是關鍵,通過各種各樣的手段,更加快速的達到結果優化的目的才是關鍵。

在學校中的慣用思維是從單方面著眼解決問題,在工作中卻需要從各方面權衡,找到最高效的方法並應用。機器學習和所有其他的軟件簡而言之都是一系列工具,花最少的錢取得最大的效果意味著如何最好的利用這些工具來解決工作中的問題。目標導向的實際工作意味著解決問題才是關鍵。

-The End-

將門是一家專注於發掘、加速並投資技術創新激活商業價值的創業公司的新型創投機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。

將門創新服務

專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門投資基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、景馳科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

點擊右上角,把文章朋友圈

將門創投

讓創新獲得認可!

[email protected]


分享到:


相關文章: