被外媒热捧的微软谷歌的语音功能,却是中国公司玩剩的产品

周一开始,微软、Google 的年度开发者大会相继召开。

过去几年,随着微软从一家 Windows 公司转型到一家云优先(Cloud First)的公司,Build 大会的主角也成了公共云平台 Azure、SaaS 产品Office 365以及基于 Azure 的认知服务。今年的大会也不例外。第一天的主旨演讲里,微软 CEO 纳德拉介绍了微软在云、IoT 以及 AI 领域的诸多进展。

秉承「人工智能优先(AI First)」的 Google,也一股脑地将众多 AI 特性注入到全新的 Android Q 系统、物联网设备以及 全新的 Pixel 智能手机里。

被外媒热捧的微软谷歌的语音功能,却是中国公司玩剩的产品

撇开两家公司各自不同的领域,可以非常清晰地看到微软与 Google 都将 AI 作为提升产品体验重要支撑。以微软为例,纳德拉特别谈到了微软在 AI 领域的新产品,尤其是基于 Azure 的语言识别服务的演示引发一阵尖叫,这个名叫「Azure Speech Service」的产品可以快速识别人物对话,并实时转化成为文本,对于交谈里的专业名词以及谈话所涉及的领域,该产品也可以自动适应,从而不断优化生成的文本内容。

被外媒热捧的微软谷歌的语音功能,却是中国公司玩剩的产品

而在 Google 的场子里,介绍新一代 Google Assistant 的环节掌声不断,一方面 Google 成功展示了如何将语音识别模型从数百GB的数据量减少到半千兆字节,另一方面,Google Assistant 未来也将内置到 Google 的多个产品线里,比如 Waze,可以利用语音唤醒驾驶模式,帮助用户通过语音处理驾驶过程中的一切事物。

但在尖叫、鼓掌的同时,却也难免失落,尤其是在语音这个 AI 的关键领域,两家公司并没有带来实质性的突破,很多「黑科技」早已似曾相识。

语音在中国是一门「普通」技术

语音与文本的转换由来已久,现代计算机出现前,贝尔实验室尝试通过将电话里声音转换为文字,最终实现了识别并转换 10 个英文数字的「壮举」。随着上世纪人工智能的兴起,尤其一些学者将人工神经网络引入到语音识别领域,语音识以及转换的精准度越来越高。

如果说海外的语音文字转换还是停留在专业领域的「高科技」,那么在中国这个特殊市场,语音文本转换却从一开始就进入到寻常百姓的手掌上,那就是智能手机。

究其原因,一方面是受限于智能手机的小屏幕,过往基于键盘的输入方式逐渐「失宠」,语音输入的需求顺势而生;另一方面,则是随着中国移动互联网市场的持续下沉,无论是受教育程度还是使用门槛,语音都远胜与文字。

2014 年,百度董事长兼首席执行官李彦宏在百度世界大会上预言,未来五年语音图像的搜索将超过文字。这在当时颇为大胆的预言如今来看可谓颇具前瞻性。

被外媒热捧的微软谷歌的语音功能,却是中国公司玩剩的产品

过去的五年时间里,基于语音识别、语音转换的消费级应用层出不穷,包括语音搜索、输入法、语音转录工具等,并从软件过渡到硬件,比如大量翻译机的出现,也是基于语音识别转换后的再创新。

某种意义上说,上述这些大量基于消费市场的语音应用和硬件,也为语音识别算法的提升提供了海量的数据,进一步提升了语音应用的实用价值,使其不再局限在炫技的场景里。

比如在地图导航的场景里,2018 年的百度 AI 开发者大会上,基于语音语义化,用户可以说出一连串的导航需求,地而系统可以识别、理解,从而做出更准确的导航。

而在输入法中,2019 年 1 月,百度将流式截断多层注意力建模(SMLTA)应用到语音输入上,不仅解决了过往语音识别转录文字的高时延难题,还为离线语音识别转录文字的突破提供了技术保障。

被外媒热捧的微软谷歌的语音功能,却是中国公司玩剩的产品

从这个角度去看,无论是微软的Azure Speech Service 还是 Google Assistant 的新特性,其应用落地的速度落后于中国。

更进一步,语音不仅成为中国普通用户与设备交互的全新方式甚至是唯一方式,也正在成为各行各业数字化升级转型的助推器,这其中的一个重要代表就是百度大脑。

如何让技术价值变成行业价值

百度大脑发布于 2016 年,语音技术就作为其中的核心能力,贯穿到搜索、输入法到地图,逐步成为这些产品的「杀手锏」。而随着百度大脑在 2018 年进化到 3.0,更多的能力被开放出来,语音能力也成为推动行业转型升级的重要「技术燃料」。


被外媒热捧的微软谷歌的语音功能,却是中国公司玩剩的产品

事实上,语音赋能行业的场景非常多。

以客服行业里的电话客服为例,客服质检是一个不可缺少的工作,如何高效地进行客服质检、如何根据质检结果提高客服质量,也是全行业的共同难题。

国内已经有不少科技企业,将语音识别 API 作为一种服务供客服公司使用,不仅可以把语音转换为文本,还实现了敏感字检测,以此为模型,打造了一个质检模型,大幅度提升了客服质检的效率,也提高了电话客服质量。

更近一步,利用语音语义化带来的技术提升,电话机器人客服的能力也在快速成长中,这对各行各业提升客服效率都将是巨大的利好,这也是 Google、微软与百度共同努力的方向。

类似这样的案例还有很多,在产业互联网的大趋势下,以语音为代表的 AI 能力正在助力中国的各行各业,而诸如百度、阿里这样的行业巨头,也在不断降低语音以及其他 AI 能力的获取门槛。比如百度一直宣传的「用脑量」,即开发者、企业调用百度大脑技术能力支撑其业务的数量。参考 2017 与 2018 增长数据,百度语音技术日调用量增长了 94%,日活跃开发者增长了83%,这也从一个侧面展现出中国开发者、企业对于语音赋能的认可。

尾巴:下一个「黑科技」在哪里?

人工智能毫无疑问是当下全球科技公司追逐的焦点,而另一个毫无争议的判断则是,中美两国正在上演 AI 领域的「二人转」。

但这又是一场不匹配的战争,中国巨大的市场和丰富的场景,已然让中国拥有了独特的优势。

当 Facebook 开始用 AI 推进产品转型时,大洋彼岸的中国社交公司们,早已将 AI、机器学习应用到多个场景里;而当微软的语音转文本、Google Assitant 语音导航让美国科技媒体兴奋时,我们却也发现,语音技术以及背后的价值,早已在中国消费者日常使用的输入法、搜索、地图里,并且还正在通过诸如百度大脑这样的开放平台赋能到其他行业。毫不客气地说,此番微软、Google 的所谓「黑科技」,不过是中国科技公司早已布局的产品而已。

那么,下一个「黑科技」,尤其是 AI 领域的「黑科技」会在哪里呢?短期内的技术突破并不现实,基于丰富场景的技术落地才是「黑科技」可能扎堆的领域,这也成为中美两国 AI 领域的最大不同,当 Facebook、微软、Google 等美国公司无法在 2019 年带来技术突破时,也将舞台留给了中国公司,比如两个月后的百度 AI 开发者大会,是否继续能扛起 AI 创新的大旗呢?让我们拭目以待。


分享到:


相關文章: