数据科学专业有被自动化的风险吗?

编译:ronghuaiyang

导读

有质量的预测真的可以按需生产吗?这对数据科学专业意味着什么?

数据科学专业有被自动化的风险吗?

前几天,我读了一篇关于优步如何将数据科学的力量赋予每一位员工的文章。我特别注意到下面这句话:

预测平台的宏伟愿景是按下一个按钮就能提供预测。完全不需要专业知识。用户需要的惟一输入是历史数据,无论是CSV文件还是查询链接的形式,以及预测范围,你想预测多远。其他一切都是在幕后完成的—Franziska Bell, Uber的数据科学总监

这让我想到,预测真的能被商品化到这样的程度吗?微软(Microsoft)、谷歌和亚马逊(Amazon)也在努力为各自的云客户打造更“拖放”的机器学习解决方案,因此Uber肯定不是唯一一家有此抱负的公司。

Bell的这句话引出了两个截然相反的结论——要么优步的预测平台超级惊人,要么他们对预测未来的挑战过于漫不经心。为了好玩,让我们看看每种可能性:

优步的预测平台非常棒 — 优步必须要怎么做,才能够做到,按下一个按钮,其中唯一需要输入的是目标变量的历史数据就可以产生预测?他们必须能够:

  1. 有数据,并知道是否包括任何和所有相关的特征。你需要衍生变量来建立一个模型,尤其是当你试图预测一些复杂的事情时。优步不仅必须在做出预测前准备好所有可用的数据,还必须知道要包含哪些特征,以及如何转换每个特征。
  2. 它还必须能够比较和对比各种预测算法(线性回归、随机森林和神经网络)。并能够为每个特定的算法选择最优超参数。
  3. 预测还必须进行反测试(以降低模型样本外爆炸的风险),Uber需要能够向用户传达模型所依赖的假设以及模型在什么条件下可能会崩溃。

有很多事情要做。如果他们能做到这一切,那就是他们的功劳。

如果Uber太过于乐观了呢 — 相反的观点是,预测平台只是一个(ARIMA模型)或(LSTM),基于过去预测未来的观测目标。对于某些应用,这是可以的。

但是,只使用滞后的目标变量作为特征意味着可能会错过关键的衍生关系,这将使模型严重欠拟合,并可能表现得很差。

数据科学专业有被自动化的风险吗?

对此采取保留态度

我个人对优步的“预测即服务”目标持怀疑态度。我可以理解,优步是否允许员工使用预构建的模型“随需应变”的预测某些关键的业务指标 —— 这些模型已被其数据科学团队广泛研究和改进。但我不认为这是Franziska Bell的意思。似乎她的目标是能够创建一个按钮,按一下就可以预测几乎任何事情。

这是一个非常困难的问题,可能是一个不可能的问题。让我们通过预测过程的每个步骤来更好地了解什么可以容易的自动化和什么不可以很容易地自动化。

明确定义问题——需要预测什么?

如果没有一个问题需要解决,那么建立一个模型并利用它进行预测就没有多大意义。因此,第一步是弄清楚我的问题是什么,我可以预测哪些方面的问题,这样可以让问题变得更清晰。

这一点往往不像乍一看那么明显。从Uber开始,让我们继续以它为例。假设我们是优步的分析师,我们的工作是预测旧金山明年的优步需求。我们能不能给预测平台一个Uber需求的历史时间序列,然后用它来完成?

可能不会。我的意思是,我们老板所说的需求是什么意思?可以是以下任何一种:

  • 明年的乘客人数。
  • 来年的总载客量,即乘客人数乘以每位乘客的载客量。
  • 下一年乘客支付的美元数,即乘客人数乘以每位乘客乘坐的次数乘以每位乘客的平均价格。

因此,对于我们究竟需要预测什么,存在着歧义。你是否注意到,随着我们对需求定义的充实,我们需要预测的变量越来越多?

即使只是乘客的数量本身也是许多因素相互作用的结果:

  • 可用司机数量 — 司机数量和乘客数量之间存在循环效应,Uber雇佣的司机越多,使用其平台的乘客就越多(这被称为网络效应)。
  • 竞争格局(Lyft, taxis, scooters等)如何随着时间的推移而变化。这包括竞争对手的数量、每个竞争对手的营销和定价策略等。

因此,看似简单的问题最终变得相当复杂,难以自动化。正如我们上面所看到的,正确的预测模型通常是多个单独模型和预测的集合。如果我们不考虑足够的变量,我们的模型将会错过关键的影响。如果我们试图在整体中包含太多的模型和/或预测,我们将会迷失在复杂的迷宫中。

搞清楚要预测什么并不容易,对于负责充实模型的各个组件的架构师来说,经验丰富的数据科学家是非常宝贵的,这样,模型就可以跨越过于简单和过于复杂之间的界限。

识别有洞察力的数据(并找到它)

一旦我们确定了我们想要预测的变量,并为我们的模型集成绘制了一个简洁的流程图,我们就可以开始了,对吗?错了,首先我们需要弄清楚我们是否拥有所有我们需要的数据。在最乐观的情况下,我们所有的数据都是可用的、清理过的,并且随时可以进入数据库——但是在现实世界中很少会出现这样的情况。

一旦我们知道我们想要预测什么,然后我们需要决定我们的候选特征集,我们将使用它来生成我们的预测。通常,这些数据不会立即可用——相反,数据科学家的工作是弄清楚从哪里以及如何获得数据。如果无法直接观察,那么如何用实际可用的东西来代替它。

这个步骤也很难自动化。除非一个公司的数据湖像谷歌一样巨大和深,否则他们将需要数据科学家来聪明和创造性地搜索世界,寻找有洞察力的数据。

构建预测特征工程并选择合适的算法

这部分可能更容易自动化。假设我们成功地获取并清理了所有数据(这并不容易),现在就可以构建模型了。

尽管我认为,经验丰富的数据科学家或统计学家在选择正确的模型和正确设置其参数方面将是非常宝贵的专家,但我也意识到,在这里,一种蛮力、自动化的方法绝对是可能的。

你甚至可以说,我们不需要运行和测试每一个模型来选择最好的一个。相反,我们可以假设使用XGBoost或一个神经网络会给我们一个足够好的结果,前提是它们经过了适当的训练,并且没有过拟合。

此外,上述两种算法都有效地实现了特征工程过程的自动化。例如,给定足够的神经元和层,神经网络可以很容易地捕捉到我们的特征和目标之间的任何非线性关系。因此,不需要显式地包含我们的特征之间的对数和指数或交互。

当然,这种自动化是要付出代价的。低解释性——换句话说,我们不知道是什么在驱动我们的预测。例如,在线性回归中,系数a告诉我们特征a每增加1个单位对我们预测的确切影响,在神经网络中,我们不知道增加的特征a如何影响我们的预测。

在当今大而复杂的数据世界中,模型可解释性似乎是一种加分的特性,而不是一种必须具备的特性。但我认为,在一些情况下,一个更简单、更具解释性的模型并不会让你付出太多代价(就预测的准确性而言),保持模型的简单是明智的。

数据科学专业有被自动化的风险吗?

知道你的模型什么时候会挂

赋予每个人预测能力的一个被低估的风险是,没有先验预测经验的人对无效或过拟合的模型可能造成的破坏缺乏正确的认识

从行为上看,当我们看到一个精确的定量预测时,我们就会产生一种错误的安全感(我们对数字和数学的精确性感到欣慰)。但是,一个经验丰富的数据科学家会知道要质疑模型的假设,并认识到模型在什么条件下可能表现得很差。

这是不可解释模型的另一个缺点。

如果我们不能看到驱动我们预测的关键关系,我们就很难知道什么时候这些关系不再有效。

在我看来,这很难自动化。总有一份工作适合那些既了解建立模型、又了解做出预测的好处和风险的人。

结论

所有可以自动化的东西似乎最终都会自动化。因此,当数据科学和机器学习的某些方面在某种程度上实现自动化时,我们不应该感到惊讶。相反,我们应该关注那些难以自动化的数据科学方面,并在可预见的未来继续增加价值:

  • 了解业务的主要驱动力,以及影响这些驱动力的因素。
  • 知道如何正确界定和设计模型,使其既不过于简单和欠拟合,也不过于复杂。
  • 了解如何挖掘有洞察力的数据,可用于提供数据科学模型。
  • 建立“足够好”的可解释模型。
  • 能够识别出你的模型在什么时候以及在什么情况下可能会崩溃并产生糟糕的预测。

当然,这些只是我的想法。我也很想听听你的。

英文原文:https://towardsdatascience.com/is-the-data-science-profession-at-risk-of-automation-ae162b5f052f

数据科学专业有被自动化的风险吗?


分享到:


相關文章: