可視化分析最新Kaggle活躍用戶調查報告

本文使用R,Flexdashboard和Highcharter庫進可視化,用於分析Kaggle在最近進行的用戶調查。數據來源主要是Kaggle在2019年10月進行的一項用戶調查的結果。一共19,717份問卷,這是kaggle進行的最大規模的調查之一。

該調查鏈接:
https://www.kaggle.com/c/kaggle-survey-2019。

這篇文章的分析主要分為三個不同部分--基本數據展示,探索kaggle中男女生的差異和 Rvs Python在kaggle的應用差異。下面進行一一展示:


一、基本數據展示

1.在大約19,000名受訪者中,大多數是男性。

可視化分析最新Kaggle活躍用戶調查報告



2.大多數受訪者都擁有碩士學位。

可視化分析最新Kaggle活躍用戶調查報告



3.25-29歲是受訪者中最常見的年齡組,也就是大部分用戶都在25-29歲。

可視化分析最新Kaggle活躍用戶調查報告



4.最多的受訪者來自印度,其次是美國。

可視化分析最新Kaggle活躍用戶調查報告



5.在職業方面,數據科學家和軟件工程師是最常見的職業。

可視化分析最新Kaggle活躍用戶調查報告


二、探索kaggle中男女生的差異


1.人口,教育,職稱和薪資

可視化分析最新Kaggle活躍用戶調查報告

結論-

  • 接受這項調查的人中有近50%擁有碩士學位。
  • 47%的女性受訪者擁有碩士學位,而男性為43%。
  • 數據科學和軟件工程師是兩個最受歡迎的稱呼。接受受訪者的學生人數幾乎等於數據科學家的人數。
  • 24%的學生為女性,而男性為20%。
  • 與男性相比,身份為學生,統計學家,產品/計劃經理,數據分析師和研究科學家的女性人數更多。
  • 與女性相比,男性更多的是數據科學家,SWE,DBA / DB工程師和數據工程師。
  • 女性失業率為6.87%,男性為4.46%。

2.工作中的機器學習

可視化分析最新Kaggle活躍用戶調查報告

  • 大多數受訪者正在探索ML模型,並可能在工作一天內將模型投入生產。緊隨其後的是過去兩年中將模型投入生產的人數。
  • 與男性(18%)相比,更多的女性(20.22%)在工作中不使用ML。
  • 在採用成熟的ML方法的團隊中,男性的比例更高(19.69%),而女性(16.5%)更低。
  • 絕大多數受訪者在1-2或20+以上規模的數據科學團隊中工作。大部分都是小型探索團隊或成熟團隊。
  • 與男性(23.08%)相比,在20歲以上的團隊中有更多的女性(24.48%)。
  • 在1-2人大小的團隊中,男性比例更高(22.47%),而女性比例(19.44%)更低。

3.數據科學中使用的工具和技術

可視化分析最新Kaggle活躍用戶調查報告

結論-

  • MySQL和PostgresSQL是最常用的RDBMS產品。
  • 與男性(22.28%)相比,使用MySQL的女性更多(23.51%)。與女性(13.42%)相比,使用PostgresSQL的男性人數更多(15.73%)。
  • 迄今為止,Scikit-learn是最受歡迎的ML框架,將近50%的受訪者使用了它。Keras的受歡迎程度緊隨其後。
  • 與男性(22.98%)相比,在Python中使用scikit學習的女性更多(25.32%)。與男性(2.72%)相比,有更多女性(3.52%)使用Caret(R語言中的ML庫)。
  • 相比於女性,更多男性使用PyTorch,Tensorflow和Keras等深度學習框架。
  • Matplotlib和Seaborn是最受歡迎的數據可視化庫。緊隨其後的是ggplot2庫。
  • 使用matplotlib庫的女性人數(31.47%)低於男性(34.11%)。與男性(12.71%)相比,使用ggplot2庫的女性更多(17.41%)。
  • Jupyter是50%以上的受訪者使用的最受歡迎的編輯器。VScode和RStudio緊隨其後。
  • Kaggle Kernels和Google Colab是最受歡迎的在線編輯器。

4.ML(NLP和計算機視覺)中使用的算法

可視化分析最新Kaggle活躍用戶調查報告

結論-

  • 詞嵌入是最流行的NLP技術,隨後是seq2seq模型。
  • 自動化模型選擇是緊隨數據增強技術之後最流行的工具。
  • 圖像分類是最常用的計算機視覺方法。

5.編碼經驗和建議

可視化分析最新Kaggle活躍用戶調查報告

結論-

  • 接近50%的受訪者有0至2年編寫代碼來分析數據的經歷。
  • 在編寫用於分析數據的代碼方面,擁有不到一年經驗的女性(28.88%)比男性(23.79%)多。與女性相比,更多的男性具有大於 1年的編寫代碼經驗。
  • Python是最流行的編程語言,然後是SQL和R。
  • 與Python相比,更多的統計學家使用R。
  • 相比女性(73.38%),更多的男性(79.8%)推薦使用Python。與男性(8.94%)相比,更多的女性(11.4%)推薦使用R。

6.數據科學媒體和課程平臺

可視化分析最新Kaggle活躍用戶調查報告

結論-

  • Kaggle是最受歡迎的數據科學媒體資源,其次是諸如Towards Data Science之類的博客。
  • 與男性相比,更多的女性在Kaggle和Blogs中進行消費。
  • Coursera,Kaggle,Udemy和University是通過課程學習數據科學的最受歡迎資源。
  • 通過大學課程學習的女性人數(13.55%)比男性(10.77%)多。


三、R與Python

1.哪些是最流行的編程語言?

可視化分析最新Kaggle活躍用戶調查報告

結論-

  • Python是緊隨SQL和R之後最流行的編程語言。
  • 與使用R相比,更多的人只使用Python。

2.在哪裡使用R / Python?

可視化分析最新Kaggle活躍用戶調查報告

結論-

  • 美國和印度是使用R和Python最多的國家。
  • 美國有更多R用戶,而印度有更多Python用戶。

3.誰在使用R和Python?

可視化分析最新Kaggle活躍用戶調查報告

結論-

  • 25-29歲年齡段的人使用R / Python最多。
  • 與其他名稱相比,數據科學家最多使用R和Python。軟件工程師比R用戶更多地使用Python。
  • Python用戶在所有薪水範圍內始終獲得更多薪水。
  • 與Python相比,更多的統計學家使用R。
  • 擁有1-2年編碼經驗的人更多使用Python,而擁有3-5年編碼經驗的人更多使用R。
  • 與所有其他教育學位相比,擁有碩士學位的人更多地使用Python和R。

4.ML中使用的算法(NLP,AutoML和計算機視覺)

可視化分析最新Kaggle活躍用戶調查報告

結論-

  • 深度學習算法主要由Python用戶使用。
  • 在NLP和計算機視覺領域完成的大部分工作都在Python中完成。


分享到:


相關文章: