可视化分析最新Kaggle活跃用户调查报告

本文使用R,Flexdashboard和Highcharter库进可视化,用于分析Kaggle在最近进行的用户调查。数据来源主要是Kaggle在2019年10月进行的一项用户调查的结果。一共19,717份问卷,这是kaggle进行的最大规模的调查之一。

该调查链接:
https://www.kaggle.com/c/kaggle-survey-2019。

这篇文章的分析主要分为三个不同部分--基本数据展示,探索kaggle中男女生的差异和 Rvs Python在kaggle的应用差异。下面进行一一展示:


一、基本数据展示

1.在大约19,000名受访者中,大多数是男性。



2.大多数受访者都拥有硕士学位。



3.25-29岁是受访者中最常见的年龄组,也就是大部分用户都在25-29岁。



4.最多的受访者来自印度,其次是美国。



5.在职业方面,数据科学家和软件工程师是最常见的职业。


二、探索kaggle中男女生的差异


1.人口,教育,职称和薪资

结论-

接受这项调查的人中有近50%拥有硕士学位。47%的女性受访者拥有硕士学位,而男性为43%。数据科学和软件工程师是两个最受欢迎的称呼。接受受访者的学生人数几乎等于数据科学家的人数。24%的学生为女性,而男性为20%。与男性相比,身份为学生,统计学家,产品/计划经理,数据分析师和研究科学家的女性人数更多。与女性相比,男性更多的是数据科学家,SWE,DBA / DB工程师和数据工程师。女性失业率为6.87%,男性为4.46%。

2.工作中的机器学习

大多数受访者正在探索ML模型,并可能在工作一天内将模型投入生产。紧随其后的是过去两年中将模型投入生产的人数。与男性(18%)相比,更多的女性(20.22%)在工作中不使用ML。在采用成熟的ML方法的团队中,男性的比例更高(19.69%),而女性(16.5%)更低。绝大多数受访者在1-2或20+以上规模的数据科学团队中工作。大部分都是小型探索团队或成熟团队。与男性(23.08%)相比,在20岁以上的团队中有更多的女性(24.48%)。在1-2人大小的团队中,男性比例更高(22.47%),而女性比例(19.44%)更低。

3.数据科学中使用的工具和技术

结论-

MySQL和PostgresSQL是最常用的RDBMS产品。与男性(22.28%)相比,使用MySQL的女性更多(23.51%)。与女性(13.42%)相比,使用PostgresSQL的男性人数更多(15.73%)。迄今为止,Scikit-learn是最受欢迎的ML框架,将近50%的受访者使用了它。Keras的受欢迎程度紧随其后。与男性(22.98%)相比,在Python中使用scikit学习的女性更多(25.32%)。与男性(2.72%)相比,有更多女性(3.52%)使用Caret(R语言中的ML库)。相比于女性,更多男性使用PyTorch,Tensorflow和Keras等深度学习框架。Matplotlib和Seaborn是最受欢迎的数据可视化库。紧随其后的是ggplot2库。使用matplotlib库的女性人数(31.47%)低于男性(34.11%)。与男性(12.71%)相比,使用ggplot2库的女性更多(17.41%)。Jupyter是50%以上的受访者使用的最受欢迎的编辑器。VScode和RStudio紧随其后。Kaggle Kernels和Google Colab是最受欢迎的在线编辑器。

4.ML(NLP和计算机视觉)中使用的算法

结论-

词嵌入是最流行的NLP技术,随后是seq2seq模型。自动化模型选择是紧随数据增强技术之后最流行的工具。图像分类是最常用的计算机视觉方法。

5.编码经验和建议

结论-

接近50%的受访者有0至2年编写代码来分析数据的经历。在编写用于分析数据的代码方面,拥有不到一年经验的女性(28.88%)比男性(23.79%)多。与女性相比,更多的男性具有大于 1年的编写代码经验。Python是最流行的编程语言,然后是SQL和R。与Python相比,更多的统计学家使用R。相比女性(73.38%),更多的男性(79.8%)推荐使用Python。与男性(8.94%)相比,更多的女性(11.4%)推荐使用R。

6.数据科学媒体和课程平台

结论-

Kaggle是最受欢迎的数据科学媒体资源,其次是诸如Towards Data Science之类的博客。与男性相比,更多的女性在Kaggle和Blogs中进行消费。Coursera,Kaggle,Udemy和University是通过课程学习数据科学的最受欢迎资源。通过大学课程学习的女性人数(13.55%)比男性(10.77%)多。


三、R与Python

1.哪些是最流行的编程语言?

结论-

Python是紧随SQL和R之后最流行的编程语言。与使用R相比,更多的人只使用Python。

2.在哪里使用R / Python?

结论-

美国和印度是使用R和Python最多的国家。美国有更多R用户,而印度有更多Python用户。

3.谁在使用R和Python?

结论-

25-29岁年龄段的人使用R / Python最多。与其他名称相比,数据科学家最多使用R和Python。软件工程师比R用户更多地使用Python。Python用户在所有薪水范围内始终获得更多薪水。与Python相比,更多的统计学家使用R。拥有1-2年编码经验的人更多使用Python,而拥有3-5年编码经验的人更多使用R。与所有其他教育学位相比,拥有硕士学位的人更多地使用Python和R。

4.ML中使用的算法(NLP,AutoML和计算机视觉)

结论-

深度学习算法主要由Python用户使用。在NLP和计算机视觉领域完成的大部分工作都在Python中完成。