新模型、新工具,Facebook在语音识别领域的新动作!

新模型、新工具,Facebook在语音识别领域的新动作!

From:Facebook 编译:T.R

在语音识别领域先进的神经网络一般使用rnn来构建声学或者语言模型,并基于特征抽取的方式来进行抽取梅尔滤波器特征或者倒谱系数。但在最近的研究工作中,Facebook的研究人员提出了完全基于卷积神经网络的全卷积语音识别模型,充分利用了在声学模型和语言模型方面的最新进展。这一全卷积神经网络通过端到端的训练可以直接从原始波形预测出语言字符,移除了特征抽取的过程。同时利用一个外部的卷积语言模型来进行单词解码。这一模型在多个数据集上都取得了优异的表现。

模型

整个模型由四部分组成,分别是卷积前端、声学模型、语言模型和集束搜索的解码器(Beam-search)组成,如下图所示。

新模型、新工具,Facebook在语音识别领域的新动作!

在可学习的前端中,原始音频首先输入到一个宽度为2的卷积中,用于模仿梅尔滤波器特征中的前处理步骤。随后应用了宽度为25ms的k复卷积滤波器。随后利用平方取绝对值并通过低通滤波器,其宽度为25ms步长为10ms。最后利用对数压缩,并对每个通道进行了均方归一化。

紧随其后的是声学模型,包含了线性门的卷积神经网络,同时使用了dropout来实现正则化。这一模型的目的在于直接预测出字母。

在随后的语言模型中,研究人员利用了GCNN-14B,其中包含了14个卷积残差模块和逐渐增长的通道数,并利用了线性门控单元作为激活函数。语言模型的主要目的在于为备选的句子输出打分,这一模型允许更大的上下文。

最后,基于集束搜索的解码器用于生成最合适的句子输出。

新模型、新工具,Facebook在语音识别领域的新动作!

其工作的过程在于最大化上面的表达式。

工具

这一模型的实现使用了Facebook最新开源的两个工具:其中使用了wav2letter建立声学模型,fairseq建立了语言模型。

新模型、新工具,Facebook在语音识别领域的新动作!

fairseq 原理图

同时推出的升级版深度学习自动语音识别工具框架wav2letter++,在之前wav2letter的基础上进行和很多的改进和优化。

新模型、新工具,Facebook在语音识别领域的新动作!

wav2letter++ 工具包架构

这一版的工具箱由C++实现,并利用了ArrayFire张量库来提高了运算效率。研究团队表示,在某些情况下wav2letter++在训练端到端的语音识别神经网络时将提速2倍。

新模型、新工具,Facebook在语音识别领域的新动作!

wav2letter++ 与其他语言工具的性能比较

端到端的语音识别使得其在多语言上的大规模应用变得可行。同时直接从原始音频上进行学习可以充分发挥高质量音频的效果。端到端的算法加上高效的工具框架,将有效促进这一领域的研究,希望全卷积神经网络的语音识别和wav2letter工具为小伙伴们的研究带来新的帮助。

ref:

https://arxiv.org/abs/1812.06864

https://arxiv.org/pdf/1812.07625.pdf

https://github.com/facebookresearch/wav2letter

https://github.com/facebookresearch/flashlight

https://github.com/facebookresearch/fairseq

https://t.co/iNM8R403GZ

-The End-

将门是一家以技术创新为切入口的早期创新发掘机构,旗下设有将门创新服务、将门技术社群以及将门投资基金。

将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门投资基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在两年的时间里,将门投资基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: [email protected]

新模型、新工具,Facebook在语音识别领域的新动作!

点击右上角,把文章朋友圈

将门创投

让创新获得认可!

[email protected]


分享到:


相關文章: