苹果最新语音技术揭秘!Siri延迟降60%,支持多语种“调戏”


苹果最新语音技术揭秘!Siri延迟降60%,支持多语种“调戏”

智东西(公众号:zhidxcom)编 | 韦世玮

智东西2月4日消息,据外媒VentureBeat报道,在过去的一周时间里,苹果公司在语音识别领域发表了一系列研究论文,主要研究改善语音触发检测、说话人验证以及对多个说话人进行语言识别的技术。

实际上,苹果一直非常重视语音识别领域的技术研究。目前,其跨平台虚拟助手Siri已覆盖全球5亿以上的用户。

在近期的论文中,苹果也详细介绍了自身的AI语音技术,以进一步帮助语音助手识别热门单词,以及多语种的说话人。

苹果最新语音技术揭秘!Siri延迟降60%,支持多语种“调戏”

一、说话人验证和语音触发检测

在《用于说话人验证和语音触发检测的多任务学习(MULTI-TASK LEARNING FOR SPEAKER VERIFICATION AND VOICE TRIGGER DETECTION)》论文中,苹果研究人员提出了一种经过训练后可同时执行自动语音识别、说话人识别任务的AI模型。

研究人员在论文中表示,个人语音助手识别的命令通常以触发短语为前缀,例如“Hey,Siri”,其中要检测到该触发短语需要两个步骤。

首先是语音触发检测,AI模型必须确定输入音频中的语音内容,是否与触发短语的语音内容相匹配;其次是说话人验证,AI模型必须确定说话人的语音,是否与一个或多个注册用户的语音相匹配。

这两项任务通常是独立思考的,但研究人员认为,AI模型对说话人的了解可能有助于它推断出声音信号中的语音内容,反之亦然,从而有助于估计这两种属性。

苹果最新语音技术揭秘!Siri延迟降60%,支持多语种“调戏”

▲模型左分支为语音触发检测器;右分支为说话人验证模型;实线水平箭头表示有固定重量的层;虚线箭头表示有可能有可能没有固定重量的层

基于此,研究人员设计了三套能够学习语音和说话人信息的AI模型。

他们对一组包含16000小时以上且带注释样本的音频数据集进行了训练,其中有5000小时的音频带有语音标签,其余的仅有扬声器标签。

完成训练后,有超过100名受试者在一系列声学设置中,使用智能扬声器设备进行测试,以进一步丰富语料库。其中,声学设置包括安静的房间、房间中有电视或厨房用具的外部噪音和录音机播放的音乐等。

与此同时,研究人员还添加了连续2000个小时的电视、广播和播客音频录制,均不包含触发短语,以测量AI模型的“误报率”。

结果显示,AI模型学习语音和说话人信息的能力,同时在具有相同数量的参数下(控制训练过程某些属性的变量),每个任务的准确性至少与基准模型相同。

实际上,这三种AI模型中有一种在多重设置中的表现优于说话人验证基准,和“与文本无关”的任务基准相比有7.6%的改善。

“这些结果有一个有趣的特点是,这个模型是使用不相关的数据集训练的,也就是说,每个音频样本要么有语音标签,要么有说话人标签,从来没有两者都有。”研究人员在论文中表示。

由此看出,这一测试结果验证了一种灵活的AI语音设计。在该设计中,研究人员可以通过连接不同任务的训练数据,来训练多个相关任务的模型,而不是为每个训练示例获取多个标签。

“从实际的角度看,这种在两个任务之间共享计算的设计,可以节省设备上的内存、计算时间、等待时间以及消耗的电量或电池数量。”研究人员说到。

苹果最新语音技术揭秘!Siri延迟降60%,支持多语种“调戏”

二、减少错误触发

苹果的另一项补充研究解决了减少错误触发的任务,即语音助手有意忽略像Siri这样的语音助手的语音。

研究人员表示,他们使用了一种在图结构上运行的AI模型,也就是图神经网络(GNN)。该模型的每个节点都与标签相关联,目标是在没有基础事实的情况下预测节点的标签。

“语音触发的智能助手在开始收听用户请求之前,通常依赖于对触发短语的检测……错误触发通常源于背景噪音,或听起来与触发短语相似的语音。”研究人员在论文中表示,减少误触发是构建以隐私为中心的非侵入式智能助手的重要方面。

在未来工作中,苹果研究人员计划将基于图神经网络的处理扩展到其他任务,例如用户意图分类。

三、多语种说话人识别

在《提高多语言使用者的语言识别能力(IMPROVING LANGUAGE IDENTIFICATION FOR MULTILINGUAL SPEAKERS)》论文中,苹果研究人员探索了一种针对多语言使用者量身定制的说话人语言识别系统。

研究人员表示,语言识别系统对大多数语言都具有较高的准确性,但在多重语言组合的情况下,系统的表现却不尽人意。

事实上的确如此。《华盛顿邮报》在近期进行的一项研究中显示,谷歌和亚马逊的智能音箱听懂美国本土用户的口音,比非美式口音的概率高30%。

此外,像Switchboard这样的语料库也被证明,它对来自美国特定地区的使用者存在可测量的倾斜,该语料库还是IBM和微软等公司用来评估语音模型错误率的数据集。

为了解决这一问题,苹果研究人员将有关使用模式的知识整合到一个听写系统中,该系统能够为60多个地区的说话人作出决策。

苹果最新语音技术揭秘!Siri延迟降60%,支持多语种“调戏”

▲声学模型现场元精度

声学子模型基于语音信号传达的信息进行预测,并且上下文感知的预测组件会考虑各种交互上下文信号。模型通过这两方面的预测,以选择最佳的单语种自动语音识别系统。

其中,上下文信号包括发出命令的条件信息、已安装的命令语言环境、当前选择的命令语言环境,以及用户发出命令前是否切换命令语言环境的信息。

重要的是,它们可以在语音信号太短而无法通过声学模型产生可靠预测的情况下提供帮助。例如,如果用户同时安装了英语和德语,像“naIn”这样较短的歧义语句,在德语中可能是表否定的“nein”,在英语中则是表数字“nine”。

为了评估该系统,研究人员还开发了一个名为“平均用户准确度”(Average User Accuracy,AUA)的自定义指标,能够更好地反映模型中的“人口水平”使用模式。

在多语种说话人内部语料库中进行训练的128000口述话语,且带有相应的交互上下文信息的所有语言组合中,它的平均准确率为87%,若与基线相比,其最坏的情况下准确率也提高了60%以上。

此外,在研究团队调整参数以平衡在设备上运行模型的计算量准确度和延迟后,其平均延迟从2秒减少到了1.2秒,并对AUA的影响不超过0.05%。

结语:语音识别技术有待进一步完善和成熟

如今,语音识别已逐渐成为人们手机、电脑、智能音箱、可穿戴设备等多平台和设备中的一个重要应用“窗口”,它对语音和语言识别的准确性也越来越重要,影响着用户的产品使用体验。

但从目前的技术发展看,语音识别技术的应用仍存在着许多局限性,如错误触发、多语种识别准确率低等。苹果作为语音识别领域的重要玩家,其对语音识别进行的种种研究也在一定程度上推进了这项技术的改进和完善。

未来,随着技术的不断成熟和创新,智能语音助手也许将成为人们日常生活、工作中媲美人类管家和助理的重要应用。

论文链接:1、《用于说话人验证和语音触发检测的多任务学习(MULTI-TASK LEARNING FOR SPEAKER VERIFICATION AND VOICE TRIGGER DETECTION)》https://arxiv.org/pdf/2001.10816.pdf2、《提高多语言使用者的语言识别能力(IMPROVING LANGUAGE IDENTIFICATION FOR MULTILINGUAL SPEAKERS)》https://arxiv.org/pdf/2001.11019.pdf


分享到:


相關文章: