準確率高達96.04%!阿里開源自研語音識別模型 DFSMN

近日,阿里巴巴達摩院機器智能實驗室開源了新一代語音識別模型DFSMN,將全球語音識別準確率紀錄提高至96.04%(這一數據測試基於世界最大的免費語音識別數據庫LibriSpeech)。

準確率高達96.04%!阿里開源自研語音識別模型 DFSMN

對比目前業界使用最為廣泛的LSTM模型,DFSMN模型訓練速度更快、識別準確率更高。採用全新DFSMN模型的智能音響或智能家居設備,相比前代技術深度學習訓練速度提到了3倍,語音識別速度提高了2倍。

語音識別模型 DFSMN

開發語言:C/C++

操作系統:跨平臺

GitHub地址:https://github.com/tramphero/kaldi

語音識別技術一直都是人機交互技術的重要組成部分。有了語音識別技術,機器就可以像人類一樣聽懂說話,進而能夠思考、理解和反饋。近幾年隨著深度學習技術的使用,基於深度神經網絡的語音識別系統性能獲得了極大的提升,開始走向實用化。基於語音識別的語音輸入、語音轉寫、語音檢索和語音翻譯等技術得到了廣泛的應用。

準確率高達96.04%!阿里開源自研語音識別模型 DFSMN

目前主流的語音識別系統普遍採用基於深度神經網絡和隱馬爾可夫(Deep Neural Networks-Hidden Markov Model,DNN-HMM)的聲學模型,其模型結構如圖所示。聲學模型的輸入是傳統的語音波形經過加窗、分幀,然後提取出來的頻譜特徵,如 PLP, MFCC 和 FBK等。

而模型的輸出一般採用不同粒度的聲學建模單元,例如單音素 (mono-phone)、單音素狀態、綁定的音素狀態 (tri-phonestate) 等。從輸入到輸出之間可以採用不同的神經網絡結構,將輸入的聲學特徵映射得到不同輸出建模單元的後驗概率,然後再結合HMM進行解碼得到最終的識別結果。

據瞭解,DFSMN模型就是在國際聲學會議 ICASSP 2018 上做oral報告的 DFSMN(深度前饋序列記憶網絡)。DFSMN使用基於BLSTM的統計參數語音合成系統作為基線系統,採用廣泛使用的跳躍連接技術,在執行反向傳播算法時,梯度可以繞過非線性變換。

著名語音識別專家,西北工業大學教授謝磊表示:“阿里此次開源的DFSMN模型,在語音識別準確率上的穩定提升是突破性的,是近年來深度學習在語音識別領域最具代表性的成果之一,對全球學術界和AI技術應用都有巨大影響。”


分享到:


相關文章: