实时语音翻译入围十大年度技术,百度为何成为该领域的关键玩家?

春节假期刚过,《麻省理工科技评论》(MIT Technogly Review,以下简称「MIT TR」)就发布了 2018 年「全球十大突破技术」,在这份面向未来的前沿技术榜单中,有一项技术离我们日常生活最近,那就是被称之为「巴别鱼耳塞」的实时语音翻译技术。

实时语音翻译入围十大年度技术,百度为何成为该领域的关键玩家?

之所以用「巴别鱼耳塞」来称呼该技术,原因是因为在科幻经典小说《银河系漫游指南》里,只需把一条黄色的巴别鱼塞到耳朵里,就可以听到不同语言之间的实时翻译。某种意义上说,「巴别鱼耳塞」所代表的实时语音翻译也肩负着人类建造全新「巴别塔」的希望。

而在 MIT TR 看来,随着全球化的深入发展,不同语言的隔阂依然是困扰经济、文化交流的巨大障碍。得益于以深度学习为代表的机器学习等算法的进步,以及大量低功耗芯片的出现,这个难题正在被破解。

MIT TR 将 Google 去年发布的耳塞产品 Pixel Buds 作为代表产品,其中,MIT TR在其官方版本中,还特别将百度列为该领域的关键玩家,纵观整份榜单,我们也能发现,百度也是这次唯一一个上榜的中国公司。而在针对中国发布的榜单内容中,为了避免以偏概全,也加入了来自中国本土的主要研究者,除百度外,还包括科大讯飞、腾讯、搜狗等众多玩家。

实际上,上述这些公司在硬件领域也推出很多雷同的产品,比如翻译机,如百度发布的共享 Wi-Fi 翻译机、科大讯飞的晓译翻译机、搜狗也有自己的翻译宝和翻译笔。表面看起来,这些产品功能类似,甚至样子也没有较大区分,但这些表象背后,却也是各家公司基础翻译技术研发和产品落地理念的角逐。

如果把「实时语音翻译」这个名词拆开理解,或许能更好理解这个领域的难点,这里包括三个层面:翻译、语音和实时。

1. 机器翻译-人工智能的终极目标之一

机器翻译涉及计算机、语言学、信息论等多学科,因其巨大的科学挑战,被誉为人工智能皇冠上的明珠,翻译之于人工智能的历史可谓源远流长。

早在1946年第一台计算机发明之初,就有科学家提出利用计算机自动进行语言翻译的设想。经历70多年的发展,机器翻译先后涌现出多种方法,如基于人工撰写语言规则的方法、基于大量数据学习的统计方法等,机器翻译的质量也逐步得到提高。然而,由于语言的复杂性和灵活性,机器翻译的质量与人们的期望值还有相当大的差距。

近几年,随着深度学习技术被应用到翻译领域,翻译质量大幅跃升,百度、谷歌、微软等巨头公司相继发布了一系列基于最新人工智能技术的翻译系统和产品。早在2015年,百度发布神经网络翻译(NMT)系统,为机器翻译领域带来了跨时代的技术突破,也成为世界上最先把深度学习应用到大规模线上翻译系统的公司。2016 年,Google 也在自家的翻译产品里加入了神经机器翻译系统(GNMT)。近1年以来,各家公司纷纷跟进,发布基于神经网络的翻译系统。

众所周知,神经网络翻译的核心支撑是深度学习技术,深度学习需要海量数据,而数据恰好是百度、谷歌等互联网公司的天然优势。以百度为例,作为中文互联网领域的重要入口,具有海量的中文网页数据,这就给自然语言处理以及机器翻译提供了海量的训练语料。而且,百度自 2015 年就有相关产品的布局,这种先发优势直接带来的就是用户形成的巨大惯性。考虑到百度庞大的用户群体,每天数以亿计的翻译次数反过来又会形成训练机器的新数据,从而形成了一个正向反馈,其结果就是,用户越用发现这个翻译系统也越聪明,也会更喜欢使用。

而神经网络翻译系统最大的意义在于,在翻译的过程中,神经网络翻译会先评估整个句子的意思,然后再进行翻译,这让翻译的结果更加符合这个句子的语意,让译文更加流畅自然。2017年的百度世界大会上,百度宣布机器翻译系统在大学英语六级翻译考试中得到13.6分(满分15分)。谷歌公开发表的文章中也显示,基于神经网络的翻译系统错误率降低80%以上。机器翻译的质量和体验获得全方位的提升,同时也越来越得到用户的广泛认可。

2. 当语音遇到翻译

语音是人们日常交流最自然的一种表达方式。和翻译一样,语音也是一个「古老」的人工智能难题,但是语音翻译与文字翻译相比,难度更大,这是因为机器不仅要能“译得准”,首先还要“听得清”,即AI要准确判断出说话者所说。

所以,语音翻译并不是简单的语音+翻译,简单的级联语音识别的错误会被后续的翻译放大,甚至一个字的识别错误都会导致整个句子的翻译错误。达成令人满意的翻译效果需妥善解决识别容错、智能断句与标点等一系列技术难题,这就要求一个公司具备全面的AI能力,进行语音、翻译的深度融合与技术创新,而业界具备这种能力的公司,屈指可数。

值得一提的是,百度在深度语音识别系统上有着不俗的技术积累,2016 年还被 MIT TR 列为年度「十大突破技术」。而在 2017 年百度世界大会中,李彦宏演讲时,现场不仅有实时的语音识别,更有实时翻译。李彦宏现场表示,目前百度在会场级的语音识别准确率已经达到了97%,完全可以替代一般的速记工作。

3. 实时性 – 高效交流的必然要求

第三,也是最难的一点,就是「实时」。真正意义上的实时翻译,就像科幻电影里那样,两个操着不同语言的人可以在几乎零延迟的翻译场景里实现对话,就像同声传译一样,但实现真正意义上的实时,目前还面临较大的技术挑战。

实际上,语音翻译硬件的出发点就是希望能够逐步实现实时翻译,它最吸引人的地方也恰恰在于它的便捷性和高效性——随身携带、实时翻译。但为什么实时翻译很难真正实现?这是因为,对句子识别的完整性与语音翻译的实时性之间存在一个矛盾:输入句子的信息越完整,翻译结果越准确,而这就需要等待语音识别返回一个完整的句子,才能进行翻译。目前市面上的翻译机还无法达到完全实时的翻译,所采取的策略都是等待语音识别完一个完整的句子后,再进行翻译。这显然是为了提高语音翻译的准确率。随着技术的发展,相信这一难题会很快得到解决。

出境旅游是翻译机的一个重要应用场景,不同的是,在此场景下除了翻译需求,人们还面临网络问题。目前,大部分的翻译机本身只集成了语音识别和翻译功能,使用需要额外连接网络。

以 Pixel Buds 为例,Google 虽然为这个耳机配备了人工智能助手—— Google Assitant,但依然还需要通过Pixel 手机的网络功能实现和云端的数据交换,这意味着,在没有网络的条件下,Pixel Buds 的翻译功能是不可用的。再比如国内一些公司,如搜狗2018年发布的旅行翻译宝,尽管能够摆脱网络限制,实现一定程度的离线翻译,但却是以牺牲语音翻译质量为前提的。在网络日趋发达的今天,离线这个功能似乎有些鸡肋,更何况高达1500元的售价,并不具备示范意义。

2017年,百度发布了一款共享WiFi翻译机,这款翻译机有两个重要特点,一是将共享 Wi-Fi 和翻译结合在一起,同时解决了上网和翻译两大痛点。据了解,百度共享 WiFi 翻译机自带流量,覆盖80多个地区的网络,可同时支持5台设备的WiFi接入。这意味着,用户不用担心网络问题,在享受网络的同时,快速实现不同语言的翻译需求。

二是能够自动判断用户所说的语言,实现一键翻译。其他的翻译产品需要用户使用两个按键来区分语言,操作复杂,容易混淆。百度翻译机采用先进的人工智能技术,实现自动语种判断,用户无需来回切换语种,提高了交流的效率。

4. 从技术落地到人人爱用的产品

正如上文所言,实时语音翻译技术的众多技术难点正在被努力突破,其技术落地的速度也不断加快。根据《科技日报》的报道,仅在 2017 年,翻译类的硬件产品发布数量已经超过了过去 30 年的总和。

但摆在实时语音翻译面前的难题还有很多。比如,小语种的覆盖难题,目前绝大多数的翻译硬件,都局限在几个大语种范围内。这也是百度目前正在努力的方向,据了解,百度提出的「多任务学习」的机器翻译模型,能够有效解决多语言翻译难题,被纽约时报评为“突破性技术(break through)”。

另一个则是用户体验的难题,尽管我们在 2017 年看到了如此众多的翻译硬件,但就像 MIT TR 对于 Google Pixel Buds 的评价,「虽然现有硬件并不那么好用,但 Pixel Buds 却展示了实时翻译的前景」。这个全人类的愿景还需要更多厂商去努力实现。

第三,则是一个怎么也绕不开的话题,那就是如何让实时语音翻译,或者更大概念上的翻译,成为一种平台化的资源,这既是各个公司产品商业化的考量,也是人工智能普惠化的终极目的。

在这个方面,百度和 Google 都走到了行业前列。早在 2015年,百度就开放了翻译平台,针对中小开发者,提供每月一定量级的免费翻译额度。如今,百度翻译开放平台已全新升级,包括通用翻译API、定制化翻译API、拍照翻译SDK、语音翻译SDK四项服务。而 Google 则将翻译 API 集成到 Google Cloud 里,按需付费。所以百度被列为该项技术的关键玩家,可谓实至名归。

某种意义上说,我们现在也正处在建造「巴别塔」的前夜。算法的优化、芯片的发展以及数据的增长,都在赋予人类新的能力,作为普通人的我们,也逐渐享受到语音交互、自然语言处理以及机器翻译带来的人工智能红利。百度去年曾提出一个口号:「Bring AI To Life」,这是我们活在当下的一大幸运,也是对重建「巴别塔」的再一次宣告。


分享到:


相關文章: