年薪30w!一文教你從零成為有競爭力的機器學習工程師

本文長度1709字

預計閱讀時間4分鐘

讓我們認清一個現實:機器學習的時代已經到來了!

對機器學習感興趣嗎?你不是一個人!機器學習已經超越金融業成為最多金的領域之一:在最近一份Kaggle對機器學習及數據科學領域的全行業深度調查中發現,從全球來看,數據科學人員的年薪中位數為已達到33.2w人民幣!單單中國也已經超過20w人民幣

在這樣的大背景下,每天都有更多的人開始對機器學習這個新興領域產生興趣。這篇文章便是要教你如何從零成為有競爭力的機器學習工程師。不必緊張,這隻需要簡單的四個步驟:

一、掌握計算機基礎知識

計算機科學的基礎知識對成為一個機器學習工程師是關鍵的。這其中就包括:

數據結構
(比如堆、隊列、多維向量、樹、圖)算法(比如搜索、排序、優化、動態規劃)可計算性和時間/空間複雜度計算機的構成

這些知識是機器學習工程師在日常的編程中必須能夠信手拈來的基礎。建議大家從推薦書目開始閱讀,並多參加編程競賽,多在LeetCode上刷題。

推薦書目:

《算法》Robert Sedgewick , Kevin Wayne《計算機程序設計藝術》Donald E.Knuth《數據結構與算法》 Aho,Hopcroft,Ullman

二、學習概率與統計知識

機器學習的半壁江山是建立在概率學上的,這其中就包括:

條件概率、貝葉斯法則、可能性、獨立事件等

以及由這些基礎知識推廣而來的:

貝葉斯網絡、馬爾可夫決策過程、隱馬爾可夫模型

這些工具是機器學習算法的核心,而與之相輔相成的是各種統計方法與技巧:

平均數、中位數、方差等一致分佈、正態分佈、二項分佈、泊松分佈假設檢驗、方差分析等這些統計方法對於建立和驗證模型是至關重要的,事實上,大多數機器學習算法都是這些統計過程的衍生。可以說,學好了概率與統計,便已掌握了機器學習的半壁江山。

推薦書目:

《統計學》賈俊平《統計學的世界(第5版)》David S. Moore《概率論與數理統計》浙江大學

三、掌握數據建模和評估方法

數據建模是估計給定數據集的基礎結構的過程,目標是找到有用的模式,比如:

相關性,聚類,特徵向量等

或發現一些表象之下的規律,比如:

分類,迴歸,異常檢測等

這個過程的關鍵是不斷評估給定模型的好壞程度,這就需要我們選擇適當的誤差函數,比如:

針對分類問題的對數誤差函數針對迴歸問題的平方誤差函數

除此之外,還需要用到一些評估策略,比如:

拆分訓練集、校驗集隨機交叉驗證

上述工具能夠幫助機器算法利用每次運行產生的錯誤來調整模型(例如神經網絡的反向傳播),因此理解這些工具非常重要。

推薦書目:

《模式分類》Richard O. Duda ,Peter E. Hart , David G. Stork《人工智能:一種現代方法》Stuart J.Russell,Peter Norvig

四、學會使用機器學習算法庫

目前已經有多款機器學習算法庫可以讓我們的想法輕而易舉的實現,比如:

scikit-learn、Spark MLlib(Python下經典的機器學習庫)Pytorch(由Facebook推出)TensorFlow (由Google推出,當前最火熱的機器學習庫)

這裡插入一則預告,當下最火熱的機器學習庫TensorFlow從零開始一步到位的簡明安裝與配置教程將在近期發佈,敬請關注本頭條號|機器學習乾貨君

機器學習算法庫在業界被廣泛使用,但是要根據自己需要的機器學習模型來選擇對應的庫。比如常見的算法有:

決策樹算法,最近鄰算法神經網絡算法,支持向量機線性迴歸,梯度下降,遺傳算法

值得注意的是,我們不僅要了解不同方法的優勢和劣勢,同時還要提防在機器學習的過程中會出現的種種難題:

偏差和方差過度擬合和欠擬合缺失數據,數據洩漏等

建議大家一邊閱讀推薦書目進行學習,一邊在Kaggle等網站上參與小型競賽磨練自己的技藝!

推薦書目:

《TensorFlow:實戰Google深度學習框架》鄭澤宇,梁博文,顧思宇《深度學習框架PyTorch:入門與實踐》陳雲

結語

機器學習入門並不難,對於正常人而言,只需要幾個月的學習就足夠了(途徑可以是網絡課程或者讀書)。重要的是在各種環境中(比如LeetCode、Kaggle)磨練、做題。希望以上四點可以幫助你快速入門機器學習領域,並能為你指明一個深造的路線!

機器學習乾貨君致力於原創易於理解的技術原理與細節文章

I Studied Hard,

So YOU Don't Have To !

歡迎大家關注: )

相關閱讀: