06.12 AI之路任重道远——人工智能瓶颈所在科技頭條網

06.12 AI之路任重道远——人工智能瓶颈所在

很多人可能使用过手机上带的语音助手，比如Siri，常用的人大概可以感受到它确实越来越精准，但也还是不能尽如人意，现在我们来大致拆解下这样的一种系统。

这种语音助手基本由以下三个部分构成：

第一部分是语音识别，这相当于要求语音助手能精准地听出来用户在说什么，这部分的难点是要能适应各种嘈杂的环境，适应各种口音和方言等。如果安装了摄像头，那么这种助手获取信息的渠道就不只是听到了什么，还包含看到了什么，这就会牵涉到计算机视觉。

第二部分是语义识别，只是听清还不够，还要理解用户到底想干什么，说的是什么意思。这部分在正常情况下也要负责关联上下文进行会话，不能前言不搭后语。

第三部分则是信息获取，这和传统搜索比较相似，但要求有更高的精度，因为精度不高就会导致这种语音助手显得很傻，要说很多句话才能完成一个买东西这种本身并不太复杂的行为，一旦如此大家是不愿意用的。

那么相关的各种技术到底发展到了怎样的一种程度呢？截至2016年3月，人工智能在语音和图像上已经取得了阶段性成果，但语义上暂时还看不到能彻底解决的迹象。

语音识别

这是一个最近几年基本已经被深度学习攻克的领域，只要花足够的钱，识别精确度甚至可以达到99％。在语音识别这种领域，最后几个点精度的提升很可能比前面达成90％的精度还要费劲，但最后这几个点的精度往往正是跨越能用和不能用的关键。

深度学习应用于语音识别后，只要有足够的数据进行训练，大多数公司自己都可以训练出足够精确的语音识别模型。这项技术基本上要货品化了，越来越可以认为这是一种不要特别多的投入就可以搞定的技术。

图像识别

这也可以认为是一个基本已经被攻克的领域，但实现起来比语音要费劲一些。图像识别比语音识别要麻烦，因为语音识别的对象总是各种有限的语言。但图像里人脸和猫的识别在具体实现上还不能用一个通用的方法来处理。当前的状态是如果选定一个点比如人脸识别，砸入几十个PhD、几百块GPU，还能找到落地点不断获得数据，那么花个一两年就可以做到非常高的精度（99％以上），但这种精度眼下还没办法一下子就覆盖到其他领域，比如人脸就不能很容易地迁移到猫脸上，只能一个点一个点来搞定。像人脸这种领域因为有切实的落地场景（银行等），所以一下子就发展起来了，其他的领域要想都达到同样的水平，还需要一点时间。

语义理解

和语音识别与图像识别不一样，语义理解处在一种基本没搞定的状态。我们看演示的时候时常能看到一个机器人或智能型产品与人进行流畅的交流。达到这种状态有两种可能：一种是作弊，后面放了个人，属于人工的人工智能；另一种是对话被限定在特定的场景下，比如在汽车里打电话，让地图导航等。语义理解的难度与所要处理的概念数有关，当要处理的概念数在几千个以下的时候，针对特定场景按照基于规则的方式还是可能搞定的，会做得比较流畅。但是一旦这个范围扩大到整个社会生活，那么最多也就是Google Now和Siri那个样子。与这点密切相关的应用，一个是各种智能语音助手在对话时的智能程度，另一个则是翻译。

数据挖掘

由于这个点往往是面向企业的业务，所以大众会比较陌生，但其实在美国这是落地最多的方向。这个方向的状态和图像有点像，在每一个垂直的方向都可以优化出很有用的系统，但没办法做出通用的系统。比如有的公司会根据医疗诊断数据以及你的财务状况直接提供性价比最高的治疗方案，但这样的系统就不能扩展用来做金融欺诈检测。这个方向其实比上面所有的方向都更能吸引投资，因为它的收益往往更加直接。换个视角，这种后端数据整合工作也可以看成是在为前端的智能助手等储备能量，一旦它成熟到一定程度，并接入某个终端比如亚马逊的Echo，那么Echo的力量就会瞬间增强。

这也就意味着当前非语义识别的领域已经接近成熟，但语义识别上离成熟还比较有距离，非常多的对话程序依赖于规则匹配，也就是说查关键词来确定你到底要的是什么，这种方式解决开灯、关灯这类需求是可以的，解决帮我订杯咖啡就有点难，解决我想看赵本山2011年的小品就基本搞不定了。

所以说一般的认识是人类暂时还做不出来通用型的语义理解、对话系统，只能在特定场景下进行优化，比如车里面放音乐、打电话。如果场景变大，比如一个视频网站的所有内容，那就需要针对这个场景建立知识图谱，用这种方式就有可能建立特定场景的精确对话系统。

分享到:

閱讀更多 曉芯智能語音 的文章

關鍵字: 语音识别技术投资 Siri