在我们日常交流中,你是不是经常遇到这样一种情况,有些人跟你沟通习惯性使用中英结合的方式,这对于英文不太熟悉的小伙伴来说,在沟通情景中难免费力。
这其实是一种叫语种混杂(Code-mix)的语言现象,也是当前语音识别技术面临的重要挑战之一。
前段时间,由Mobvoi AI Lab负责人、IEEE Fellow黄美玉博士和出门问问CTO雷欣博士领衔的出门问问的语音识别团队在ASRU 2019中英混杂语音识别挑战赛中,「智」夺Track1和Track2两个赛道的第一名。
11月23日,2019 ASRU中英混杂语音识别挑战赛线下技术交流会在北京召开。
由西北工业大学计算机学院教授、中国计算机学会语音对话与听觉专业组常务委员谢磊教授致开幕词,并对前段时间ASRU 2019中英混杂语音识别挑战赛进行总结告。
出门问问语音团队(MobvoiASR)就凭借在语音技术上长时间的积累和优化经验,在Track1(传统语音识别-固定语言模型)和Track2(传统语音识别-开放语言模型)两个赛道上夺取第一名。
这也是本次挑战赛唯一一支MER(中英文混合识别错误率)低于5%的团队,从而成为本次大赛中英混合识别任务上最好的语音识别系统。
黄美玉博士专程由西雅图回到了北京来参加此次会议,并在现场同大家分享了出门问问在语种混杂语音识别方向上取得的成果以及对未来方向的展望。
可能部分T粉对于ASRU中英混杂语音识别挑战赛稍感陌生,接下来的内容可以好好了解一下。
什么是 ASRU 2019中英混杂语音识别挑战赛
ASRU 2019中英混杂语音识别挑战赛是由数据堂主办并提供数据,联合中国计算机学会语音对话与听觉专业组、西北工业大学音频语音与语言处理研究组举办,旨在促进国内外语种混杂语音识别方面的研究。
本次竞赛总共吸引了来自国内及海外71个团队报名,包括国内大部分高校研究团队和从事语音技术研发的知名企业,在很大程度上反映了目前中英文混合识别技术的最高水平。
出门问问语音竞赛系统你知道多少
众所周知,多语种混杂识别是目前语音识别领域面临的重要挑战,也是业界近年来普遍关注的问题。
涉及到的技术难点主要包括了非主体语种的口音现象、不同语言之间的音素差异、训练数据分布严重偏倚等问题 ,这些问题都给混合语种的语音识别带来了极大的挑战。
为了针对性解决多语种混杂识别问题,出门问问语音团队在声学模型建模上做了以下几方面的工作:
1.合并音素集
不同语种的建模单元千差万别,所包含的语言学信息也是不一样的。
为了解决中英文混杂的问题,我们采取的做法是将两种语言的音素建模单元根据语言学的规则合并到一起。
具体做法是在词典里面抽取出26个英文独有的音素、58个中文独有的音素和16个中英文共享的音素,然后把这些音素集合用作声学模型建模。针对某些不常见的英文单词我们还引入了g2p生成发音。
2.优化声学模型建模能力
声学模型采用了LF-MMI和交叉墒的多任务联合训练机制,同时引入数据增强、说话人自适应等技术。
为了进一步提升声学模型,我们创新性地在LF-MMI目标函数中引入了基于最大似然概率路径的正则化。
3.语言模型的改进
由于中英混杂的文本语料数据非常稀缺,我们根据语义规则人工生成了大量的中文混杂文本数据用作语言模型的建模。
出门问问语音识别团队了解一下
出门问问的语音识别团队由黄美玉博士和雷欣博士领衔,成员来自CMU,华盛顿大学,华中科技大学,西北工业大学等知名高校。
自2012成立以来,团队针对工业界的各种语音交互场景的不同需求,自主研发一系列核心技术,为公司的手表TicWatch,音箱TicHome,耳机TicPods等C端产品以及车载智能系统和8K采样率的企业电话服务场景提供了高质量的语音识别服务。
关于黄美玉博士
黄美玉博士于1993年12月获得美国卡耐基梅隆大学计算机科学博士学位,是卡内基梅隆 CMU SPHINX 语音识别系统的主要奠基人。
她于 1992 年提出的基于决策树的马尔可夫状态聚类算法,至今仍是主流语音识别系统的重要基础之一。黄美玉博士曾任微软研究院资深科学家,在微软参与过BING机器翻译、CORTANA小娜等产品的研发,主导了微软在中国的语音识别和语意解析研究、SKYPE从语音到语音的翻译功能的声学建模、微软研究院牛津计划中语音识别语言模型的自适应及中文语意理解的自适应模型。
2019年入选 IEEE FELLOW。
最后,出门问问发力中英文混合识别是为了满足自身业务的发展以及国际化的需求,这也让我们在设计语音识别系统的时候优先考虑的是怎么样在具体业务场景下落地。
本次比赛出门问问所采用的是一套支持实时解码的语音识别系统,这也意味着我们的产线系统将很快就能用上这次比赛所积累的成果!