定制化成语音交互新风口,机械声音将越来越有温度

在智能交互系统中,语音合成是实现人机交互的关键技术。智能语音2.0时代,场景的重要性不言而喻,在不同场景中实现不同声音的交互,使得机器语音更加生动和贴切,而如何实现这种不同场景的语音切换,语音定制化合成就派上用场了。

定制化成语音交互新风口,机械声音将越来越有温度

想象一下,车载服务中是您喜欢的某位明星为你做导航播报,或者在每日的清晨叫醒你,为您播报天气情况;呆萌可爱的童声应用在儿童玩具上,陪伴您的孩子讲故事、唱儿歌,又或者应用于智能家居中家电的控制上,给它指令,它用或呆萌或可爱的声音回复你,生活是不是更加有趣好玩;这就是在语音交互的未来,定制化即将成为新风口。谁能赋予声音更多的表现力和个性化,谁就能将技术适配到非标准化的广阔场景中,赢得智能语音市场的未来。

科技巨头看到这一趋势,纷纷祭出语音合成“定制化”的大旗,包括谷歌、苹果、微软、科大讯飞等企业都在抢占市场,语音合成技术正式进入定制化的2.0时代。那巨头混战的局面下,哪家技术比较强些呢?

微软是智能语音行业的领先企业之一。今年5月份的Build 2018 大会上,其在公有云平台上推出了语音合成定制服务产品Custom Voice。将语音和对应文本(500句)上传,Custom Voice即可对声音进行模拟,并在线测试模拟效果。CustomVoice采用全程可视化操作界面,普通用户可快速上手,显示出微软打造定制化、平民化产品的用意。

谷歌人工智能实验室成立的Lyrebird(琴鸟)公司,也推出了自己的定制语音合成系统。同微软的CustomVoice类似,30句英文声音录入后,系统就能在“倾听”中“掌握”每个人说话时字母、音位和单词的发音特点,通过推理并模仿声音中的情感、语调,“说”出全新语句。目前Lyrebird还存在一些缺陷,如合成语音夹杂电流声,中文语句的录入与合成表现都不理想等。

在国内,唯一能与微软、谷歌同台竞技的就是科大讯飞。去年2017年11月,科大讯飞推出名为“讯飞留声”的测试版本,比微软的CustomVoice还要早半年时间。经过不断优化,讯飞留声制作完整音库只需10句话声音录入,远低于微软采集的500句,亦低于谷歌的30句,采集量只有行业平均的百分之一,合成效果更好。

随着人工智能的不断发展,越来越多的领域开始智能化,众多企业也争先布局抢占先机。而语音的定制化合成,让机械的声音越来越有了温度,让更多机器语音在场景化应用中表现非常亲切,自然。


分享到:


相關文章: