可視化分析最新Kaggle活躍用戶調查報告

本文使用R,Flexdashboard和Highcharter庫進可視化,用於分析Kaggle在最近進行的用戶調查。數據來源主要是Kaggle在2019年10月進行的一項用戶調查的結果。一共19,717份問卷,這是kaggle進行的最大規模的調查之一。

該調查鏈接:
https://www.kaggle.com/c/kaggle-survey-2019。

這篇文章的分析主要分為三個不同部分--基本數據展示,探索kaggle中男女生的差異和 Rvs Python在kaggle的應用差異。下面進行一一展示:


一、基本數據展示

1.在大約19,000名受訪者中,大多數是男性。



2.大多數受訪者都擁有碩士學位。



3.25-29歲是受訪者中最常見的年齡組,也就是大部分用戶都在25-29歲。



4.最多的受訪者來自印度,其次是美國。



5.在職業方面,數據科學家和軟件工程師是最常見的職業。


二、探索kaggle中男女生的差異


1.人口,教育,職稱和薪資

結論-

接受這項調查的人中有近50%擁有碩士學位。47%的女性受訪者擁有碩士學位,而男性為43%。數據科學和軟件工程師是兩個最受歡迎的稱呼。接受受訪者的學生人數幾乎等於數據科學家的人數。24%的學生為女性,而男性為20%。與男性相比,身份為學生,統計學家,產品/計劃經理,數據分析師和研究科學家的女性人數更多。與女性相比,男性更多的是數據科學家,SWE,DBA / DB工程師和數據工程師。女性失業率為6.87%,男性為4.46%。

2.工作中的機器學習

大多數受訪者正在探索ML模型,並可能在工作一天內將模型投入生產。緊隨其後的是過去兩年中將模型投入生產的人數。與男性(18%)相比,更多的女性(20.22%)在工作中不使用ML。在採用成熟的ML方法的團隊中,男性的比例更高(19.69%),而女性(16.5%)更低。絕大多數受訪者在1-2或20+以上規模的數據科學團隊中工作。大部分都是小型探索團隊或成熟團隊。與男性(23.08%)相比,在20歲以上的團隊中有更多的女性(24.48%)。在1-2人大小的團隊中,男性比例更高(22.47%),而女性比例(19.44%)更低。

3.數據科學中使用的工具和技術

結論-

MySQL和PostgresSQL是最常用的RDBMS產品。與男性(22.28%)相比,使用MySQL的女性更多(23.51%)。與女性(13.42%)相比,使用PostgresSQL的男性人數更多(15.73%)。迄今為止,Scikit-learn是最受歡迎的ML框架,將近50%的受訪者使用了它。Keras的受歡迎程度緊隨其後。與男性(22.98%)相比,在Python中使用scikit學習的女性更多(25.32%)。與男性(2.72%)相比,有更多女性(3.52%)使用Caret(R語言中的ML庫)。相比於女性,更多男性使用PyTorch,Tensorflow和Keras等深度學習框架。Matplotlib和Seaborn是最受歡迎的數據可視化庫。緊隨其後的是ggplot2庫。使用matplotlib庫的女性人數(31.47%)低於男性(34.11%)。與男性(12.71%)相比,使用ggplot2庫的女性更多(17.41%)。Jupyter是50%以上的受訪者使用的最受歡迎的編輯器。VScode和RStudio緊隨其後。Kaggle Kernels和Google Colab是最受歡迎的在線編輯器。

4.ML(NLP和計算機視覺)中使用的算法

結論-

詞嵌入是最流行的NLP技術,隨後是seq2seq模型。自動化模型選擇是緊隨數據增強技術之後最流行的工具。圖像分類是最常用的計算機視覺方法。

5.編碼經驗和建議

結論-

接近50%的受訪者有0至2年編寫代碼來分析數據的經歷。在編寫用於分析數據的代碼方面,擁有不到一年經驗的女性(28.88%)比男性(23.79%)多。與女性相比,更多的男性具有大於 1年的編寫代碼經驗。Python是最流行的編程語言,然後是SQL和R。與Python相比,更多的統計學家使用R。相比女性(73.38%),更多的男性(79.8%)推薦使用Python。與男性(8.94%)相比,更多的女性(11.4%)推薦使用R。

6.數據科學媒體和課程平臺

結論-

Kaggle是最受歡迎的數據科學媒體資源,其次是諸如Towards Data Science之類的博客。與男性相比,更多的女性在Kaggle和Blogs中進行消費。Coursera,Kaggle,Udemy和University是通過課程學習數據科學的最受歡迎資源。通過大學課程學習的女性人數(13.55%)比男性(10.77%)多。


三、R與Python

1.哪些是最流行的編程語言?

結論-

Python是緊隨SQL和R之後最流行的編程語言。與使用R相比,更多的人只使用Python。

2.在哪裡使用R / Python?

結論-

美國和印度是使用R和Python最多的國家。美國有更多R用戶,而印度有更多Python用戶。

3.誰在使用R和Python?

結論-

25-29歲年齡段的人使用R / Python最多。與其他名稱相比,數據科學家最多使用R和Python。軟件工程師比R用戶更多地使用Python。Python用戶在所有薪水範圍內始終獲得更多薪水。與Python相比,更多的統計學家使用R。擁有1-2年編碼經驗的人更多使用Python,而擁有3-5年編碼經驗的人更多使用R。與所有其他教育學位相比,擁有碩士學位的人更多地使用Python和R。

4.ML中使用的算法(NLP,AutoML和計算機視覺)

結論-

深度學習算法主要由Python用戶使用。在NLP和計算機視覺領域完成的大部分工作都在Python中完成。