思必驰副总裁初敏:人机交互是趋势 最缺应用型人才

思必驰副总裁初敏:人机交互是趋势 最缺应用型人才

题图:思必驰副总裁、北京研发院院长 初敏

初敏院长主要围绕三点介绍了语音研究的发展现状、存在问题和未来发展方向。

作者 / Joyce

近日,由联想之星&硅谷银行主办的 “未来之旅之中美人工智能的未来”论坛在北京举行。在论坛现场,思必驰副总裁、北京研发院院长初敏做了《AI产业化的关键因素》的主题演讲。

初敏曾在微软亚洲研究院有近10年的研究经历,创建和领导语音合成研究小组。2009年她加入阿里云任IDST智能语音交互方向的负责人。2017年8月初敏加入思必驰。

在本次活动上,她在演讲中主要谈到三点:

  1. 语音交互在解决了接入问题后,现在更关注人机交互的问题。她认为,今天所有语音对话系统,更多是被动响应式的,机器永远在那等待用户来唤醒并与其对话,所以现在的技术需要尝试由机器主动发起人机交互行为。

  2. 语音翻译领域场景的定制化很重要。初敏认为,目前业内机器翻译准确率很难做到97%以上,而且翻译技术并不能批量应用到各行各业,因为专有名词有太多需要机器去学习,所以,语言建模以及整个技术平台的定制能力是非常重要的。

  3. 应用型人才紧缺。各行业需要有既懂技术还理解所处行业的人才,了解如何把技术与所对接行业完美结合。

以下是演讲全文:

我今天主要讲的是从技术视角来看的产业化问题,因为我一直是做技术的,早年在微软研究院也是做研究,后来到了阿里巴巴其实就越来越偏应用,偏真正做实际的东西。

现在思必驰更是希望把能把语言的交互技术真正做到能用,我们怎么样把AI技术真正的做到可用,因为最近各种各样的AI相关的会议其实到处都有,其实关心的原因我觉得不仅是一个高大上的算法,而是大家看到产业化的机会,过去这几年我的确碰了很多壁,有很多的的经验,所以今天主要是想跟大家分享这方面的看法。

之所以会引入这样的问题,随着PC到移动互联网到现在讲的IOT物联网,其实最关紧的是连接关系的更密切的。有了IOT以后,我们已经有很大的基础了,那么到了后面,再往下物联网,每一个企业和自己的每一个客户,都有非常高维度的关联,我们都要考虑如何运营,如何把最新信息传递给客户。

1

更关注人机交互问题

其实我们前一阵关心的人工智能应用更多的是从人的视角,像语音交互前面这两年最火的,最关注的问题,不管是出音响还是车载设备,第一个要解决的就是接入问题。比如信号处理、抗噪等,这些帮我们处理的是我们怎么通过各种设备来获取后面的服务。

那在语音的问题解了以后,下一步就是自然的语言的交互,当然后面也会提到视觉和图像的交互。

这里面其实语音还是最主要的一种方式,就是以人的视觉来做生活的智能化。比如汽车空间、家庭空间、酒店空间、办公室空间,围绕这样的空间来想怎么样一个人能生活更方便。

所以通过各种设备来获取的信息,其实你就看今天的音响服务上面没有太本质的区别,当然有些人接的资源多一点,有些人接的资源少一点,但它本质上差异并没有那么大,大家了解的更多的是在设备的这一层,就是设备的接入和基础的交互。

再往下,现在更多的看是围绕企业,既然人和企业之间能有那么丰富的关联之后,其实企业也会通过各式各样的设备去和你的用户来接触,包括客服、业务拓展、市场品牌宣传,实际上我们也还是通过这个设备,但是视觉还是不一样的,其实还是站在企业的视角上要把自己的变得智能化。

所以,我觉得在这个过程中,人和企业其实越来越多的是企业提供的数据和知识的服务,是要通过各种的交互来实施的,这个交互就有基本的身份认证。比如声纹、人脸虹膜、指纹来减少以前的键盘输入方式,服务入口还是刚才说到的各种设备,从手机扩展到IOT的设备,这里面语音是最主要的交互方式,包括场景、情感周围的感知来实现交互。

但是所有的交互目的还是要让企业把自己的服务智能的提供出来,所以我觉得我们靠视角最终是通过智能的服务让用户交互的模式能感受到。因为从设备讲,这个是从语音来交互的,但只有交互是不够的,一定是背后要有很多真正能服务的东西。

思必驰成立于2007年,2012年由联想之星早期投的,就是做的致力于做语音的,早期实际上做教育,从2013、2014年做物联网的语音交互,其实一样,最早解决的问题其实我刚才前头讲的,我们围绕人的生活智能化来展开,而且主要是不同智能设备上,包括麦克风的解决方案,最近几款火爆的音响其实都是我们的技术,天猫精灵、小I机器人都用了很多思必驰的技术。

所以我们试图想通过连接的万物来帮我们沟通万事。实际上我们今天所有人看到语音的对话系统,更多的是被动响应式的,机器永远在那等着你,人来唤醒你跟你说一句,然后你来执行我要做的事情。

今天所有的交互都是这样的,但是我们转过来来看,如果你是销售,你去和你的客户沟通的时候不是等客户问问题,一定是要给客户介绍A、介绍B,但是不是从头讲到尾,我一定要关注对方的反应,

所以我们最近也在看,不能是我这么强制讲下去,但是又是主动式的。其实就是希望客户但凡会问的问题,你想拓展的可以和用户持续聊下去,那你不感兴趣我推荐的,我可以继续问你你关注的问题。

所以在交互的过程中,越来越重要的不是机器,而是从服务的角度,不是等待,而是主动的传播。其实每个企业都是知道我自己有哪些关键信息是要传播,这个地方我觉得是非常重要的视觉,我们现在就是想从这个角度来做一些尝试。

我相信未来可能会有很多的对话趋势,其实是往这个方向走的,我们今天在这个地方算一个比较早的尝试者,第二个其实刚才Face++曹总讲的有一点点相似的感觉,但是我会从不同的角度来看这个问题,就是要大规模的生产和定制。

如果我们有一个非常简单的应用方式,我觉得产业化才可能实施。如果每个企业都要自己去懂得GPU怎么去训练,懂得深度学习怎么去做,懂得怎么去采数据,那就太麻烦了。

所以我觉得我们做企业,是要把用这个AI技术要变得门槛低,变得容易。那这个所谓的产业才能真正的变成产业化,才能复制1千次、1万次、10万次,而不是像现在我们很多时候还是当项目做,就是我们把AI的落地当成一个又一个项目,其实它是在靠人力,其实换句话来说还是人力外包。

因为除了你会做,别人不会做,所以只有你派10个人的团队驻场到企业里或者20个团队给他做半年,这个事情能落地,这个模式是不够的,不可能大规模成长的。复杂的东西简单化,才能让这个东西真正产业化,能真正的爆发。

2

语音翻译场景定制化非常重要

此外我觉得是最重要的,就是场景的定制化。今天即便是人工智能,深度学习,任何的这样的算法他不存在能训练出个模型,训练出所有的场景,不能做通用。

最关键是什么?其实是语言模型的建立,计算一句话的组合出现的概率,如果我们在这个场景要说的这句话,就刚才我看到说的,比如咱们前面有个演讲者叫Jack Garza,它出不来,因为系统不知道有个人叫Jack Garza,所以他识别出来的是“价格”会更高。

但是如果系统允许我们在开会前一天把所有的资料,比如说参会嘉宾的名字,演讲的PPT,我们前一天都把PPT交过来了,所以你要是拿到PPT前一天上传了相关的内容那么最后的效果会好很多。所以其实,真正想用我们的场景的这种快速的更新、定制自适应能力是一个非常重要的能力。真的是不存在我训练一个模型放到哪里都用,这个是今天一定不存在的。

所以这也是刚才前天前面Face++讲的为什么天天训练,他也是为不同场景训练很多模型。但是基础的大模型的训练是一回事,但是刚才看识别效果的这种快速的场景,像我们开个会其实是不可能事先做好,就是从基础服务不可能,其实是要具备你的能力,让用户上传少量的资料,提前一天做一点点工作,第二天这个效果就能好很多。

但是背后的路途是很长的,因为

从数据上一直到训练,怎么和原始的大模型怎么使用,其实有很多的技术挑战。这是必须解决的问题,只要这样子的问题没有真正的解决,其实是很难用。我们永远可以看到一个非常漂亮的demo,但是不同的场景中跟我期望的差距很大。

所以在这点上我们也是刚开始,我觉得也不是做到了多么完美,但是在这上面做了很多的努力,也是做了定制的平台,那这里面其实包括你可以定制自己的新场景,定制自己的对话流程,还可以定制你的语言模型,所以定制和场景中的数据,也会同时来修整我们了语音模型。

3

更缺的是应用型人才

还有一个因素就是人才,其实今天大家所关注的就是AI所谓的高端,就是专业的,懂深度学习的,懂语音识别的,懂图像识别的,这样的人才是很少的。但是在我们看到真正产业化的过程中,其实更缺的是应用型人才,就是我们在去把它用到各种场景中,就是你把它交代清楚就很辛苦。

我们想把AI用到任何一个行业,用到任何一个企业,如果那个企业里面,没有人能懂你,没有人能配合你,还是做不成的。所以我觉得我们想形成产业化的时候,就是这种应用型人才的培训也是非常的重要。

现在大家会把技术想象的很完美,但是现实其实完全不是这样的。虽然今天像识别图像都比10年、20年前好了很多,但是它绝对没有达到一个完美的状态所以我觉得,就像刚才我们也看到很多分享的企业,有的是做核心技术的企业,有的是在做应用场景的企业,所以我觉得做核心技术的企业的任务,应该是把技术做的好用,简单,主要是用的人简单。

而真正做应用场景的人,我觉得最重要的不一定需要懂得深度学习,不一定要知道模型怎么训练,但是要知道真正人工智能每一项技术的局限性,它的长处是什么,短处是什么,在这个基础上我们去合理的设计自己的场景,去设计它

AI整个产业化的链条真的是非常的长,也不是一家公司能把所有的东西做透的,在这个场景下,的确是需要很多的合作、协作和配合,一定要有很深度的协作才能把这个技术真正广泛的应用起来。谢谢。

思必驰副总裁初敏:人机交互是趋势 最缺应用型人才


分享到:


相關文章: