新模型、新工具,Facebook在語音識別領域的新動作!

新模型、新工具,Facebook在语音识别领域的新动作!

From:Facebook 編譯:T.R

在語音識別領域先進的神經網絡一般使用rnn來構建聲學或者語言模型,並基於特徵抽取的方式來進行抽取梅爾濾波器特徵或者倒譜系數。但在最近的研究工作中,Facebook的研究人員提出了完全基於卷積神經網絡的全卷積語音識別模型,充分利用了在聲學模型和語言模型方面的最新進展。這一全卷積神經網絡通過端到端的訓練可以直接從原始波形預測出語言字符,移除了特徵抽取的過程。同時利用一個外部的卷積語言模型來進行單詞解碼。這一模型在多個數據集上都取得了優異的表現。

模型

整個模型由四部分組成,分別是卷積前端、聲學模型、語言模型和集束搜索的解碼器(Beam-search)組成,如下圖所示。

新模型、新工具,Facebook在语音识别领域的新动作!

在可學習的前端中,原始音頻首先輸入到一個寬度為2的卷積中,用於模仿梅爾濾波器特徵中的前處理步驟。隨後應用了寬度為25ms的k復卷積濾波器。隨後利用平方取絕對值並通過低通濾波器,其寬度為25ms步長為10ms。最後利用對數壓縮,並對每個通道進行了均方歸一化。

緊隨其後的是聲學模型,包含了線性門的卷積神經網絡,同時使用了dropout來實現正則化。這一模型的目的在於直接預測出字母。

在隨後的語言模型中,研究人員利用了GCNN-14B,其中包含了14個卷積殘差模塊和逐漸增長的通道數,並利用了線性門控單元作為激活函數。語言模型的主要目的在於為備選的句子輸出打分,這一模型允許更大的上下文。

最後,基於集束搜索的解碼器用於生成最合適的句子輸出。

新模型、新工具,Facebook在语音识别领域的新动作!

其工作的過程在於最大化上面的表達式。

工具

這一模型的實現使用了Facebook最新開源的兩個工具:其中使用了wav2letter建立聲學模型,fairseq建立了語言模型。

新模型、新工具,Facebook在语音识别领域的新动作!

fairseq 原理圖

同時推出的升級版深度學習自動語音識別工具框架wav2letter++,在之前wav2letter的基礎上進行和很多的改進和優化。

新模型、新工具,Facebook在语音识别领域的新动作!

wav2letter++ 工具包架構

這一版的工具箱由C++實現,並利用了ArrayFire張量庫來提高了運算效率。研究團隊表示,在某些情況下wav2letter++在訓練端到端的語音識別神經網絡時將提速2倍。

新模型、新工具,Facebook在语音识别领域的新动作!

wav2letter++ 與其他語言工具的性能比較

端到端的語音識別使得其在多語言上的大規模應用變得可行。同時直接從原始音頻上進行學習可以充分發揮高質量音頻的效果。端到端的算法加上高效的工具框架,將有效促進這一領域的研究,希望全卷積神經網絡的語音識別和wav2letter工具為小夥伴們的研究帶來新的幫助。

ref:

https://arxiv.org/abs/1812.06864

https://arxiv.org/pdf/1812.07625.pdf

https://github.com/facebookresearch/wav2letter

https://github.com/facebookresearch/flashlight

https://github.com/facebookresearch/fairseq

https://t.co/iNM8R403GZ

-The End-

將門是一家以技術創新為切入口的早期創新發掘機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門投資基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

新模型、新工具,Facebook在语音识别领域的新动作!

點擊右上角,把文章朋友圈

將門創投

讓創新獲得認可!

[email protected]


分享到:


相關文章: