出門問問智奪ASRU挑戰賽第一名!中英混雜語音識別難度你知多少?

在我們日常交流中,你是不是經常遇到這樣一種情況,有些人跟你溝通習慣性使用中英結合的方式,這對於英文不太熟悉的小夥伴來說,在溝通情景中難免費力。

這其實是一種叫語種混雜(Code-mix)的語言現象,也是當前語音識別技術面臨的重要挑戰之一

前段時間,由Mobvoi AI Lab負責人、IEEE Fellow黃美玉博士和出門問問CTO雷欣博士領銜的出門問問的語音識別團隊在ASRU 2019中英混雜語音識別挑戰賽中,「智」奪Track1和Track2兩個賽道的第一名。

出門問問智奪ASRU挑戰賽第一名!中英混雜語音識別難度你知多少?

11月23日,2019 ASRU中英混雜語音識別挑戰賽線下技術交流會在北京召開。

由西北工業大學計算機學院教授、中國計算機學會語音對話與聽覺專業組常務委員謝磊教授致開幕詞,並對前段時間ASRU 2019中英混雜語音識別挑戰賽進行總結告。

出門問問語音團隊(MobvoiASR)就憑藉在語音技術上長時間的積累和優化經驗,在Track1(傳統語音識別-固定語言模型)和Track2(傳統語音識別-開放語言模型)兩個賽道上奪取第一名。

出門問問智奪ASRU挑戰賽第一名!中英混雜語音識別難度你知多少?

出門問問智奪ASRU挑戰賽第一名!中英混雜語音識別難度你知多少?

這也是本次挑戰賽唯一一支MER(中英文混合識別錯誤率)低於5%的團隊,從而成為本次大賽中英混合識別任務上最好的語音識別系統。

出門問問智奪ASRU挑戰賽第一名!中英混雜語音識別難度你知多少?

黃美玉博士專程由西雅圖回到了北京來參加此次會議,並在現場同大家分享了出門問問在語種混雜語音識別方向上取得的成果以及對未來方向的展望。

出門問問智奪ASRU挑戰賽第一名!中英混雜語音識別難度你知多少?

可能部分T粉對於ASRU中英混雜語音識別挑戰賽稍感陌生,接下來的內容可以好好了解一下。

什麼是 ASRU 2019中英混雜語音識別挑戰賽

ASRU 2019中英混雜語音識別挑戰賽是由數據堂主辦並提供數據,聯合中國計算機學會語音對話與聽覺專業組、西北工業大學音頻語音與語言處理研究組舉辦,旨在促進國內外語種混雜語音識別方面的研究。

本次競賽總共吸引了來自國內及海外71個團隊報名,包括國內大部分高校研究團隊和從事語音技術研發的知名企業,在很大程度上反映了目前中英文混合識別技術的最高水平

出門問問語音競賽系統你知道多少

眾所周知,多語種混雜識別是目前語音識別領域面臨的重要挑戰,也是業界近年來普遍關注的問題

涉及到的技術難點主要包括了非主體語種的口音現象、不同語言之間的音素差異、訓練數據分佈嚴重偏倚等問題

,這些問題都給混合語種的語音識別帶來了極大的挑戰。

為了針對性解決多語種混雜識別問題,出門問問語音團隊在聲學模型建模上做了以下幾方面的工作:

1.合併音素集

不同語種的建模單元千差萬別,所包含的語言學信息也是不一樣的。

為了解決中英文混雜的問題,我們採取的做法是將兩種語言的音素建模單元根據語言學的規則合併到一起。

具體做法是在詞典裡面抽取出26個英文獨有的音素、58箇中文獨有的音素和16箇中英文共享的音素,然後把這些音素集合用作聲學模型建模。針對某些不常見的英文單詞我們還引入了g2p生成發音。

2.優化聲學模型建模能力

聲學模型採用了LF-MMI和交叉墒的多任務聯合訓練機制,同時引入數據增強、說話人自適應等技術。

為了進一步提升聲學模型,我們創新性地在LF-MMI目標函數中引入了基於最大似然概率路徑的正則化。

3.語言模型的改進

由於中英混雜的文本語料數據非常稀缺,我們根據語義規則人工生成了大量的中文混雜文本數據用作語言模型的建模。

出門問問語音識別團隊瞭解一下

出門問問的語音識別團隊由黃美玉博士和雷欣博士領銜,成員來自CMU,華盛頓大學,華中科技大學,西北工業大學等知名高校。

自2012成立以來,團隊針對工業界的各種語音交互場景的不同需求,自主研發一系列核心技術,為公司的手錶TicWatch,音箱TicHome,耳機TicPods等C端產品以及車載智能系統和8K採樣率的企業電話服務場景提供了高質量的語音識別服務。

關於黃美玉博士

黃美玉博士於1993年12月獲得美國卡耐基梅隆大學計算機科學博士學位,是卡內基梅隆 CMU SPHINX 語音識別系統的主要奠基人。

出門問問智奪ASRU挑戰賽第一名!中英混雜語音識別難度你知多少?

她於 1992 年提出的基於決策樹的馬爾可夫狀態聚類算法,至今仍是主流語音識別系統的重要基礎之一。黃美玉博士曾任微軟研究院資深科學家,在微軟參與過BING機器翻譯、CORTANA小娜等產品的研發,主導了微軟在中國的語音識別和語意解析研究、SKYPE從語音到語音的翻譯功能的聲學建模、微軟研究院牛津計劃中語音識別語言模型的自適應及中文語意理解的自適應模型。

2019年入選 IEEE FELLOW。

最後,出門問問發力中英文混合識別是為了滿足自身業務的發展以及國際化的需求,這也讓我們在設計語音識別系統的時候優先考慮的是怎麼樣在具體業務場景下落地。

本次比賽出門問問所採用的是一套支持實時解碼的語音識別系統,這也意味著我們的產線系統將很快就能用上這次比賽所積累的成果!


分享到:


相關文章: