35位数据科学家告诉你数据科学家究竟做什么?

35位数据科学家告诉你数据科学家究竟做什么?

现代数据科学出现在科技领域,从优化Google搜索排名和LinkedIn推荐到影响Buzzfeed编辑的头条新闻。 但它有望改变所有行业,从零售,电信和农业到健康,货运和刑罚制度。 然而,术语“数据科学”和“数据科学家”并不总是易于理解,它们是用于描述广泛的数据相关工作。

那么,数据科学家究竟做什么? 作为DataCamp播客DataFramed的主持人,我有幸与众多行业和学科的30多位数据科学家交流。 除此之外,我还问过他们的工作需要什么。

数据科学确实是一个多样化的领域。 我采访的数据科学家从多个角度来看待我们的话题。 他们描述了广泛的工作,包括在booking.com和Etsy进行产品开发的大量在线实验框架,Buzzfeed用于实施标题优化的多臂老虎机解决方案的方法,以及在Airbnb公司机器学习对业务决策的影响。 最后一个例子是在我与Airbnb数据科学家Robert Chang的谈话中提到的。 当Chang在Twitter时,该公司专注于增长。 现在他在Airbnb,Chang研究生产率机器学习模型。 数据科学可以以多种不同的方式使用,不仅取决于行业,还取决于业务及其目标。

但尽管种类繁多,但这些对话中出现了许多主题。 这些主题是:

数据科学家做什么。

我们现在知道数据科学如何运作,至少在科技行业。 首先,数据科学家奠定了坚实的数据基础,以便执行可靠的分析。 然后他们使用在线实验以及其他方法来实现可持续增长。 最后,他们构建机器学习管道和个性化数据产品,以更好地了解他们的业务和客户,并做出更好的决策。 换句话说,在技术领域,数据科学涉及基础设施,测试,用于决策的机器学习以及数据产品。

在科技以外的行业数据科学正在取得重大进展。我与Convoy的数据科学家Ben Skrainka谈到了该公司如何利用数据科学彻底改变北美卡车运输业。 Flatiron Health的Sandy Griffith告诉我们数据科学已经开始产生对癌症研究的影响。 Drew Conway和我讨论了他的公司Alluvium,它“使用机器学习和人工智能将工业运营产生的大量数据流转化为见解。”现任Uber自驾车主管的Mike Tamir讨论了与Takt合作以促进财富500强公司利用数据科学,包括他在星巴克推荐系统方面的工作。 这份非详尽的清单说明了跨越多个纵向的数据科学革命。

这不仅仅是自动驾驶汽车和人工智能的希望。我的许多嘉宾不仅对主流媒体对人工智能的迷恋持怀疑态度(包括VentureBeat的头条新闻“2042年将出现一个AI神并编写自己的圣经。你会崇拜吗?”),而且围绕机器学习和深度学习也是众说纷纭。当然,机器学习和深度学习是重要应用的强大技术,但是,正如所有的众说纷纭的术语一样,有益的怀疑是好的。 几乎所有的嘉宾都明白,工作数据科学家通过数据收集和数据清理来制作日常“面包”和“黄油”; 建立仪表板和报告; 数据可视化; 统计推断; 将结果传达给主要利益相 并使决策者相信他们的结果。

科学家所需的技能数据正在不断发展(深度学习的经验并不是最重要的)。在与西雅图地区帮助财富500强公司的数据科学领导者Jonathan Nolis的对话中,我们提出了一个问题,“对于数据科学家来说,哪种技能更重要:能够使用最复杂的深度学习模型,或者 制作好的PowerPoint幻灯片的能力?”他为后者提供了一个案例,因为沟通结果仍然是数据工作的重要组成部分。

另一个反复出现的主题是,如今必要的这些技能可能会在相对较短的时间内发生变化。 随着我们看到数据科学可用工具的开源生态系统和商业化,数据科学工具的快速发展,我们也看到了许多数据科学苦差事的自动化程度越来越高,例如: 数据清理和数据准备。 普遍的说法是数据科学家80%的宝贵时间用于简单地查找,清理和组织数据,只有20%用于实际执行分析。

但这不太可能持续下去。 如今,即使大量的机器学习和深度学习正在实现自动化,正如我们专门拿出一集来讲自动化机器学习时所学到的,并且从Life Epigenetics的首席数据科学家Randal Olson那里听到的。

这种快速变化的一个结果是,我的绝大多数嘉宾告诉我们,数据科学家的关键技能不是构建和使用深度学习基础架构的能力。 相反,他们有能力即时学习和沟通,以回答业务问题,向非技术利益相关者解释复杂的结果。 那么,有抱负的数据科学家应该更少关注技术而更多关注问题。 新技术来来去去,但批判性思维和定量的,针对特定领域的技能始终需要。

专业化变得越来越重要。虽然数据科学家没有明确的职业道路,对初级数据科学家的支持很少,但我们开始看到某种形式的专业化。 艾米莉·罗宾逊描述了A型和B型数据科学家之间的区别:“A型是分析 - 一种传统的统计学家 - 而B型是建立机器学习模型。”

Jonathan Nolis将数据科学分为三个部分:(1)商业智能,主要是通过仪表板,报告和电子邮件的形式“取得公司所拥有的数据并将其提供给合适的人员”; (2)决策科学,即“获取数据并用它来帮助公司做出决定”; (3)机器学习,这是关于“我们如何才能采用数据科学模型并将它们连续投入生产。”尽管许多工作数据科学家目前都是通才,并且做了所有三个,但我们看到了不同的职业道路,如 机器学习工程师的案例。

道德是该领域面临的最大挑战之一。你可能会认为该专业为其从业者提供了很大的不确定性。 当我在第一集中询问希拉里·梅森是否数据科学界面临任何其他重大挑战,她说:“你认为不精确的道德规范,没有实践标准,缺乏一致的词汇量对我们来说不是足够的挑战吗?”

这三个都是必不可少的要点,几乎每个DataFramed嘉宾都把前两个放在第一位。 在我们与世界的这么多互动都由数据科学家开发的算法决定的时代,道德起着什么作用? 正如GitHub的高级机器学习数据科学家Omoju Miller在我们的采访中所说:

我们需要有道德理解,我们需要接受培训,我们需要有类似于希波克拉底誓言的东西。 而且我们需要真正拥有适当的许可证,这样如果你真的做了一些不道德的事情,也许你会受到某种惩罚,或者取消资格,或者某种程度的追索,一些东西来指出这不是我们在该行业内要做的事,然后找出方法来修复那些脱轨并做事的人,因为那些人没有经过培训而且他们不懂。

ProPublica表示,反复出现的主题是数据科学可能带来的严重,有害和不道德的后果,例如“全国各地用于预测未来罪犯”的COMPAS累犯风险评分,并且“对黑人有偏见”。

我们正在达成共识,即道德标准需要来自数据科学本身,以及立法者,基层运动和其他利益相关者。 这一运动的一部分涉及重新强调模型中的可解释性,而不是黑盒模型。 也就是说,我们需要建立可以解释他们为什么做出预测的模型。 深度学习模型在许多方面都很出色,但它们最臭名昭着的是无法解释。 许多专注,聪明的研究人员,开发人员和数据科学家正在通过Lime这样的工作取得进展,这是一个旨在解释机器学习模型正在做什么的项目。

跨行业和整个社会的数据科学革命才刚刚开始。 数据科学家的头衔是否仍然是“21世纪最性感的工作”,将变得更加专业化,或者将成为大多数工作专业人员必须需要具备的一套技能尚不清楚。 正如希拉里·梅森告诉我的那样:“我们甚至在十年后会有数据科学吗? 我记得一个我们没有的世界,如果头衔命名为“网站管理员”,我也不会感到惊讶。

英文原文:https://hbr.org/2018/08/what-data-scientists-really-do-according-to-35-data-scientists


分享到:


相關文章: