「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

人工智能是一个非常炙手可热的名词,且已经成功应用在语音、图像等诸多领域。但是,现在人工智能有没有达到可以简单落地的状态呢?工业界的人工智能需要什么技术呢?本篇活动家就为大家带来《人工智能工业应用痛点及解决思路》的主题分享。找人工智能大会就上活动家,欢迎分享或收藏本文。

分享嘉宾:陈雨强

以下为PPT内容:

我们先探讨一下工业界人工智能需要一个什么样的系统?人工智能的兴起是由于数据量变大、性能提升以及并行计算技术发展共同产生的结果。所以,工业界的问题都是非常复杂的。因此,我们需要一个可扩展系统,不仅在吞吐与计算能力上可扩展,还需要随着数据量与用户的增多在智能水平上可扩展。

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

怎么实现一个可扩展系统呢?其实很重要的一点是工业界需要高VC维的模型,去解决智能可扩展性的问题。怎么获得一个高VC维的模型呢?大家都知道,机器学习=数据+特征+模型。如果数据在给定的情况下,我们就需要在特征和模型两个方面进行优化。

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

特征共分两种,一种叫宏观特征,比方说年龄、收入,或是买过多少本书,看过多少部电影。另外一种是微观特征,指的是比拟细粒度的特征,你具体看过哪几本书,或者具体看过哪几部电影。每一部电影,每一本书,每一个人,都是不同的特征。书有几百万本,电影有几百万部,所以这样的特征量非常大。

模型可分为两类,一个是简单模型,比如说线性模型。还有一种是复杂模型,比如非线性模型

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

这样就把人工智能分为了四个象限。如上图,左下角是第一象限,使用宏观特征简单模型解决问题。这种模型在工业界应用非常少,因为它特征数少,模型又简单,VC维就是低的,不能解决非常复杂的问题。右下角的第二象限是简单模型加上微观特征,最有名的就是大家熟知的谷歌Adwords,用线性模型加上千亿特征做出了世界顶尖的广告点击率预估系统。左上角的第三象限是复杂模型加宏观特征,也有诸多知名公司做出了非常好的效果,例如Bing广告和Yahoo,经典的COEC+复杂模型在这个象限内是一个惯用手段。最后是第四象限,利用复杂模型加上微观特征,由于模型空间太大,如何计算以及解决过拟合都是研究的热点。

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

刚才说沿着模型和特征两条路走,那如何沿着模型做更高维度的机器学习呢

研究模型主要是在学术界,大部分的工作是来自于ICML、NIPS、ICLR这样的会议,非线性有三把宝剑分别是Kernel、Boosting、Neural Network。Kernel在十年前非常火,给当时风靡世界的算法SVM提供了非线性能力。Boosting中应用最广泛的当属GBDT,很多问题都能被很好地解决。Neural Network在很多领域也有非常成功的应用。

工业界优化模型的方法总结起来有以下几点。

首先,基于过去的数据进行思考得到一个假设,然后将假设的数学建模抽象成参数加入,用数据去拟合新加入的参数,最后用另一部分数据验证模型的准确性。

到底是深度模型好还是宽度模型好呢?这里有一个没有免费的午餐定理:不存在万能的模型

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

简单来说,世界上不存在一个优化算法对任何问题上都有效,也就是说我们总能找到一个问题,让这个优化算法表现的并不比随机的更好。更进一步的说,所有的机器学习都是一个偏执,代表了对这个世界的认知。如果数据较少,这个偏执就需要比较强。比如说科学家观测物理现象,数据并不是特别多。这种情况下,你需要大量的理论和猜想,有少量数据做拟合验证就可以了。但如果假设错的话,就可能出现错误的结论。比如用地心论研究天体物理的话,就发现结论都是错的。但是如果数据很多,我们就不需要很强的偏置,将更多的不确定性加入模型,自动的通过数据进行拟合。综合起来,工业界的机器学习里面并没有免费的午餐,不存在哪一个模型是万能的模型。所以说你一定要根据你的业务做出合适的选择,才是最好的一个方式。

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

人工智能落地的关键:提高AI的易用性

人工智能目前还远没有达到可以遍地开花的程度,即使解决了刚才讲的宽与深的问题,我们依然还有很多事情要做。如何训练出好的模型、如何去选择好的参数、如何进行特征组合,都不是一件容易的事情。

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

如何解决特征工程

如何降低这些门槛呢?这里分享一下第四范式的成果。首先特征工程是工业界应用AI的巨大的难关。特征工程的目标是针对于某个模型找出与要解决问题相关的关键属性,现在也有一些开源的项目尝试解决特征工程,下图就列出了Spark 2.2官方文档中包含的特征工程算法。那么,针对不同的业务、不同的模型,这些算子就足够我们低门槛建模了吗?

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

「干货」世界级专家陈雨强:人工智能工业应用的痛点及解决思路!

还没看够或看懂?点击右上角,关注活动家,及时获取大会嘉宾演讲干货及视频!

精彩阅读:




分享到:


相關文章: