數據科學流行的編程語言及算法、薪酬行業現狀

此篇是介紹了ML&Data Science調查結果的國內篇,數據量較為有限,另外Kaggle作為著名的在線數據科學競賽平臺,此次調查可能是針對Kagglers對數據科學領域的回覆,本文的分析結果希望給大家作為一個參考。

筆者靈感來源於Kaggle上發佈的全球從事機器學習、數據科學領域人員的2017年深度調研數據,便決定由此入手來揭開數據科學家的神秘面紗。

2017 Kaggle ML & Data Science Survey此次調研共收到涵蓋52個國家的16,000+份問卷回覆,問卷內容包含該領域有關從業者人群基本信息、該行業現狀及業界最新動態等290個維度信息。本篇選取了包括港澳臺在內的858份國內數據,著重從數據科學從業者人物畫像、流行的編程語言及算法、薪酬行業現狀及推薦的優質開源平臺等方面分析得出相應結論。成都 ,大數據開發, ,小班教學,免費試聽。


什麼是"數據科學家"?

“數據科學家”迷人的一方面在於其工作職能的廣泛性並要求一定的熟練度,與其他大多數傳統職業不同,在大數據時代下數據科學家似乎是一種複合型人才,集成了統計分析、編程技術、商業敏感度、數學建模和可視化設計思維等能力並運用服務於企業工作的各個環節中。

數據科學流行的編程語言及算法、薪酬行業現狀

儘管我們把數據科學家定義地較為寬泛,似乎無所不能。國內相關領域涵蓋的工作非常多,此次調查中較普遍的頭銜有軟件開發工程師、數據分析師、機器學習工程師等。其中有80%掌握至少一種編程語言,且不同工作屬性對技能要求略有不同,但不言而喻數據科學家對掌握技能的數量要求最為嚴苛。

數據科學流行的編程語言及算法、薪酬行業現狀

(圖片說明:SKILLSETS SUMMARY TABLE)

數據科學家做項目時完整的生命週期包括前期準備,產品搭建到後期商業優化的全過程。一個最為簡單的基本工作流程包括數據的前期準備,模型的搭建,案例分析建模,可視化呈現,結果解釋性分析,商業後期優化六個步驟。目前所花時間36%是在前期數據的計劃籌備階段,人們常說的“大”數據不僅指體量(Volumes)上的大,還有數據類別(Variety)之大,此次調查中數據科學領域從業者接觸更多的是非結構化的數據(如文本、影視、圖像等信息),數據工程師更多是處理一些關係型數據。另外調查中關於從業者工作中遇到最具有挑戰性的問題中,對髒數據的預處理遙遙領先地排在了第一位。

數據科學流行的編程語言及算法、薪酬行業現狀

"數據科學家"的基本畫像

接著我們從人口統計學入手描繪數據領域人員的基本畫像,本次調查對象的平均年齡大約28歲,如圖可見主要集中在20-30歲區間內,近九成從事最新的這份數據領域工作不到兩年,可見更換不同工作頻率較快,另外該產業在國內發展逐漸興盛,期待更廣闊的前景。

數據科學流行的編程語言及算法、薪酬行業現狀

(圖片說明:AGE & EXPERIENCE DISTRIBUTION)

通常來講,女性依然是數據科學領域稀有的存在,數據科學從業者中最普遍的學歷是碩士,但在女性數據相關領域群體中,擁有學士學位的從事者略高於碩士學位。


流行的分析工具及算法

近些年來,Python是數據科學領域人員最推薦也是發展較快的工具,推薦人數佔75%,還有很多仍然保持著對R語言的忠誠,C/C++/C#則是程序員的有力武器。可見R,Python是兩個最熱門的開源數據分析工具,因此核心掌握這兩門語言會讓數據分析師具備更有力的競爭優勢。另外值得關注的是,在關於分析師次年想要pick的機器學習工具的問題中,解決神經網絡等深度學習的有力工具TensorFlow熱度顯著僅次於Python,以及一些大數據工具Hadoop,Hive,Spark等的推薦指數也很高。

數據科學流行的編程語言及算法、薪酬行業現狀

在數據科學領域實際工作項目中,隨著AI和機器學習的不斷滲透,神經網絡模型、CNN卷積神經網絡、隨機森林、決策樹和SVM支持向量機模型的使用逐漸趨於頻繁。另外,功能強大的集成方法、貝葉斯及數據可視化也十分受歡迎,時間序列和文本挖掘如NLP也逐漸被使用,迴歸仍是工作之中最經典的算法之一。

數據科學流行的編程語言及算法、薪酬行業現狀

(圖片說明:ALGORITHMS/ANALYTIC METHODS)




行業薪酬排行榜

數據科學流行的編程語言及算法、薪酬行業現狀

從國內數據科學領域現狀看來,相關職位的全職年薪平均值約為$47K,儘管剔除了一些極端離異值的影響,仍不排除調查誤差的存在。從薪酬排行榜的行業分佈來看,其中薪水較高的公司集中在一些高新科技企業、CRM公司、零售、金融、計算機互聯網公司等巨頭行業,其中科技公司的薪酬極差最大。從專業分佈來看,可能拿到較高薪水的專業如工程學位、計算機科學、信息管理專業、數學統計學等熱門專業,但薪酬排名前三名的專業極差也較大。相對於目前的薪酬,在工作中的項目經驗積累往往更為重要,因為在關於工作相關因素重要性的調查中,我們發現從業者對「職業發展機遇和學習機會」的重要性排序超過了對「補償和福利」的關注。

數據科學流行的編程語言及算法、薪酬行業現狀

(圖片說明:JOB FACTOR IMPORTANCE RANKNING)




優質的開源平臺

數據科學流行的編程語言及算法、薪酬行業現狀

沒有數據一切就是無稽之談,之前也提到在前期數據的準備階段最為耗時,如何找到有效且乾淨的數據用於訓練和項目開發就顯得相當重要。其中36%推薦使用數據集聚合平臺,如本文的數據來源Kaggle等社區便成為最頻繁使用的平臺。世界上最大的代碼庫GitHub也有數據的大量資源共享,另外自己通過爬蟲也是很好的獲取數據資源方法。

數據科學流行的編程語言及算法、薪酬行業現狀

(圖片說明:TIME SPENT ON SELF-IMPROVEMENT PLATFORMS)

數據科學流行的編程語言及算法、薪酬行業現狀

數據科學是一個急速發展、日新月異的領域,有很多有價值的資源可以助你一臂之力。無論是對數據領域小白還是已經在此領域中摸爬滾打的資深玩家,都能幫助你不斷充電提升競爭力,保持自己在業內的頂尖優勢。選擇自學的人數佔四成且花時間最多,其次選擇Coursera, Udemy, Edx在線課程提升自我的也佔一定比例35%,無所不能的Stack Overflow可以讓你站著巨人的肩膀上,避免踏入前人的坑。值得推薦的是,Kaggle這個數據科學愛好者組成的社群,裡面不定期發佈的機器學習競賽的實戰項目也可以讓你從實踐中收穫更多。


結論

數據科學家要求掌握編程技術、商業敏感度、數學建模和可視化設計等各種能力的綜合。在基本工作流程中大部分時間是在前期數據的計劃階段。

數據從業者平均年齡大約 28歲,男女比例基本成八二分,數據科學從業者中最普遍的學歷是碩士。

Python是機器學習者最推薦的編程語言,TensorFlow熱度也值得關注。一些CNN、隨機森林、決策樹和SVM等算法使用頻率較高。

高薪行業集中在高新科技企業、CRM公司、計算機互聯網等行業,但行業內差距也較大,可能拿到高薪的專業如工程學、計算機科學、數理統計學等。

較多人推薦使用Socrata、Kaggle等平臺蒐集原始數據,近四成使用Coursera, Udemy, Udacity, Edx在線課程保持競爭力,Stackflow/GitHub等在線社區也很值得推薦。

數據科學流行的編程語言及算法、薪酬行業現狀

此篇是介紹了ML&Data Science調查結果的國內篇,數據量較為有限,另外Kaggle作為著名的在線數據科學競賽平臺,此次調查可能是針對Kagglers對數據科學領域的回覆,本文的分析結果希望給大家作為一個參考。

作者:Yoki Zhang,統計學碩士,就職於Merkle。


分享到:


相關文章: