語音識別領域再發力,科大訊飛C端版圖未來可期

5月4日,科大讯飞再传捷报,在国际多通道语音分离和识别大赛(CHiME)比赛最新一届CHiME-6中,科大讯飞联合中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)创下三连冠的好成绩,其中语音识别错误率从CHiME-5的46.1%降至30.5%,刷新了该项目最好纪录。

语音识别领域再发力,科大讯飞C端版图未来可期

  科大讯飞夺得CHiME-6冠军 (Track1:Ranking A)

语音识别领域再发力,科大讯飞C端版图未来可期

  科大讯飞夺得CHiME-6冠军 (Track1:Ranking B)

  聚焦实用性,科大讯飞将赋能进行到底

  由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构于2011年所发起的CHiME(Computational Hearing in Multisource Environments),至今已成功举办六届,比赛的目的是希望学术界和工业界针对高噪声、高混响、自由讨论场景提出全新的语音识别解决方案,从而进一步提升语音识别的实用性和普适性。

  技术的突破是是应用落地的底气。在2018年的CHiME-5比赛中,最优的参赛系统语音识别错误率仍高达46.1%,距离实用仍有较大差距。所以,今年USTC-NELSLIP联合团队在早前的技术基础上,进一步探索复杂场景语音识别实用化的可能性。通过团队的技术攻关,将该任务上的语音识别错误率从原来的46.1%降至30.5%。这一研究成果无疑将进一步拓展语音识别的应用空间,以远距离会议场景为例,相比于CHiME-6的比赛任务,其说话风格随意性减少、声音叠加现象减少、训练数据大幅增加,错误率势必大幅下降。可想而知,本次比赛的技术成果无疑将进一步增促进会议场景语音识别的实用化。

  人工智能下半场,科大讯飞实现多应用落地

  随着技术的发展,人工智能进入应用落地的下半场,如何让技术服务于理念,落地于现实,是科大讯飞“以人工智能建设美好生活”的愿景。用行动践行“技术顶天,产品立地”发展战略的科大讯飞,正在逐步将领先行业的语音识别技术落地C端。

语音识别领域再发力,科大讯飞C端版图未来可期

  2019年联合国教科文组织(UNESCO)在法国举办的“人工智能促进可持续发展”会议、在瑞士举办的2019信息社会世界高峰会议(WSIS)论坛、2019年全国两会等重大国际及国内会议现场均使用了讯飞听见智能会议系统提供的英文及中文转写服务,而这背后,就是科大讯飞积累多年的语音识别核心源头人工智能技术。基于核心源头技术优势,去年9月份,科大讯飞正式成为北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商,为奥运会提供自动语音转换与翻译技术和服务。如今,讯飞听见智能会议系统已成为国内外大型会议的得力助手,仅2019年就服务了国内外2000多场高规格大会。

  除了讯飞听见智能会议系统,在实际的应用场景中,科大讯飞的语音识别和多麦克风阵列信号处理技术还广泛应用在不同的C端产品和服务中,比如搭载八麦克风阵列的讯飞智能录音笔、能完整记录会议内容的讯飞智能办公本、月活1.4亿且能免切换识别中英文及23种方言的讯飞输入法等,这些办公和生活应用已触手可达,为广大用户解决不同场景下的语音识别需求。

  目前,科大讯飞正在大力拓展多语种语音识别方面的技术研究,通过长期的智能语音技术积累及研发攻关,已为华为新发布的旗舰手机P40提供多语种语音技术。随着本次技术难题的再突破,科大讯飞还将带来怎样的惊喜应用,我们拭目以待。


分享到:


相關文章: