Facebook開源CNN語音識別算法:C++編寫,詞錯率5%,訓練超快

夏乙 發自 麥蒿寺量子位 出品 | 公眾號 QbitAI


Facebook開源CNN語音識別算法:C++編寫,詞錯率5%,訓練超快


第一個全卷積語音識別工具包wav2letter++開源了。

出品方Facebook稱之為現有“最快的、頂尖水平的”語音識別系統。

拋開廣告法不談,我們來全面瞭解一下wav2letter++,看看Facebook哪來的勇氣口出狂言。

wav2letter++由Facebook AI研究院(FAIR)的語音團隊推出,以C++寫成,使用了ArrayFire張量庫和flashlight機器學習庫。

Facebook還說,它是第一個完全由C++寫成的語音識別系統,也是第一個全卷積語音識別系統。

所謂“全卷積”,指的是wav2letter++在從聲波到文本的處理過程中,所有可學習的部件都是由卷積層構成的,聲音建模、語言建模任務全部由CNN完成。


Facebook開源CNN語音識別算法:C++編寫,詞錯率5%,訓練超快


一般來說,在聲音和語言建模任務上,循環網絡架構才是更常用的。不過,CNN構成的wav2letter++在性能上也不輸那些RNN模型。

Facebook團隊在論文中,將他們的wav2letter++和其他主流開源語音識別系統做了比較。

他們說,某些情況下,wav2letter++訓練語音識別端到端神經網絡速度是其他框架2倍還多,而且用1億個參數的模型測試,使用從1到64個GPU,訓練時間是線性變化的。


Facebook開源CNN語音識別算法:C++編寫,詞錯率5%,訓練超快


其實,wav2letter++還有個不帶加號的前身,叫做wav2letter,用Lua語言寫成。現在,新版佔用了原版的GitHub倉庫地址,而原來的wav2letter被放到了wav2letter-lua分支下。

想要復現wav2letter++也不難。因為它使用的機器學習庫flashlight也同時開源了。這個機器學習庫用現代的C++即時編譯,CPU、GPU都可用,以求效率和規模的最大化。

最後,附上傳送門~

GitHub地址:

https://github.com/facebookresearch/wav2letter

論文:


Facebook開源CNN語音識別算法:C++編寫,詞錯率5%,訓練超快


wav2letter++: The Fastest Open-source Speech Recognition System

Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert

https://arxiv.org/pdf/1812.07625.pdf

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: