百度語音的「一小步」,可能是語音技術「登月計劃」的一大步

語音作為人機交互的全新入口,已經在過去幾年席捲全世界。語音技術的進步,不僅體現在各式各樣的智能設備裡,還在不斷賦能移動設備輸入法的變革,依託語音便捷的交互方式,輸入法里語音輸入也在悄然改變著用戶與設備交互的模式。

在技術領域,某些影響深遠的技術研發往往被稱為「登月計劃」。本週,百度在語音領域的「一小步」,也實現了人類語音「登月」的一大步。

在百度輸入法發佈會上,百度公佈了語音領域的四項重大技術突破。這其中,在線語音領域全球首創的流式多級的截斷注意力模型(SMLTA,全稱為「Streaming trancated multi-layer attention」)成為焦點,這也意味著,學術界談論多年的注意力模型終於實現了大規模在線商用。

百度語音的「一小步」,可能是語音技術「登月計劃」的一大步

此舉意義重大。一方面,這是業界第一個基於注意力模型的在線語音產品,凸顯出百度在語音技術研發的領先;另一方面,作為 AI 的基礎功能,語音技術在百度 AI 技術賦能產品創新的作用越來越大,這也是當下百度 AI 戰略落地的重要觀察窗口。

接下來,本文將從此次公佈的流式多級的截斷注意力模型入手,揭秘這項技術背後的意義,同時結合語音技術賦能百度其他產品線的案例,進一步探討這家公司的 AI 戰略方向。

<strong>01 . 技術突破:學術界一大難題的落地

過去幾年,AI 被詬病的一大原因就是技術落地困難,一項實驗室的技術即便再怎麼先進,倘若無法再商業化的場景裡得以應用,多少都有些當代「屠龍術」的意味。

比如語音領域的注意力模型(Attention模型)。

注意力模型是一種基於對一句話裡每個音節或漢字音頻特徵的機器學習模型。通過機器學習的方法,將音頻特徵自動挖掘出來。也就是說,這種方法下的語音識別過程,變成了一個字一個字的滾動生成過程。

百度語音的「一小步」,可能是語音技術「登月計劃」的一大步

由於擺脫了傳統語音識別的狀態建模和按語音幀進行解碼,該模型可以直接實現語音和文本一體化的端到端建模,擁有學術界公認的建模精度。

但這個技術長期以來無法得以大規模應用。一方面,無法解決流式解碼的問題,傳統的注意力模型大都是基於整句的建模,比如 Google 的 LAS 模型就是其中的代表。整個建模過程需要通過雲端/服務器的解碼能力。這也意味著,當用戶通過語音交互時,語音需要上傳到雲端,這對於移動設備的用戶體驗影響非常大。

另一方面,如上文所言,在傳統的注意力模型裡,一般是通過機器學習提取整句音頻信息,也就是說語音輸入的句子越長,進行特徵選擇的難度越大。出錯的概率越高,而一旦某個環節出現錯誤,錯誤的傳導還會進一步增加錯誤率,最終反映在用戶體驗上的感受則是,用戶語音說完一段話後,機器完全理解不了。

這也是此次百度流式多級的截斷注意力模型 SMLTA 所要解決的難題。主要包括兩個重要的技術突破,其一,利用 CTC 語音識別算法,對連續語音進行自動截斷,然後在這一系列語音小段的基礎上搭建注意力模型。其二,引入一種特殊的多級Attention機制,實現特徵層層遞進的更精準的特徵選擇。

根據百度官方的說法,由於所有計算通過 CPU 實現,不需要額外增加GPU,整個雲端的計算資源消耗與此前的語音模型持平。而在輸入法精度上,大量數據測試結果顯示,相對於早先的模型,相對準確率提升了 15%。

更重要的是,這不僅是業界第一次提出了流式多級的截斷注意力模型 SMLTA,也在全球範圍內,實現了基於注意力模型的在線語音識別服務的首次規模化應用。百度已成功將這種注意力模型部署上線到語音輸入法全線產品,服務中國數億用戶,也因此,此次技術突破不再僅僅是一個實驗室技術的展現,而是成為一個個普通用戶都可以享受的技術紅利。

<strong>02 . 賦能:從內到外

一年前,基於 Deep Peak 2模型的語音模型,大幅提升了不同場景下語音識別的準確率。而此次輸入法升級還帶來了離線語音、中英混合輸入、普通話方言混合輸入的升級。

這其中,離線語音識別的場景最特殊。由於語音識別需要網絡的支持,當沒有網絡或者網絡穩定的時候,常常出現語音識別成功率低、識別速度慢等情況。

雖然通過離線語音已解決一部體驗問題,但過去離線語音與在線語音相比,準確率相差懸殊,體驗得不到根本解決。針對這一場景,百度語音技術團隊優化了輸入法上嵌入式識別的 deep peak2系統,大幅提升了離線語音識別準確率。目前百度輸入法離線語音輸入準確率已高於行業平均水平35%,使得用戶可以在沒有網絡的場景裡流暢快速使用。

百度語音的「一小步」,可能是語音技術「登月計劃」的一大步

上述注意力模型等一系列創新也是百度語音技術推動產品創新的一個縮影。

比如地圖,去年 12 月的新版本里,百度地圖也將語音作為一個重要的交互方式,涵蓋了導航路線、地點查找以及小度助手等等,打造更具個性化、智能化的地圖。

再比如翻譯,去年 10 月,百度研發了具備預測能力和可控延遲的即時機器翻譯系統,可實現兩種語言之間的高質量、低延遲翻譯。在語音識別方面,百度提出了上下文無關音素組合的中英文混合建模單元,該方法具有泛化性能好、對噪聲魯棒、中英文混合識別等特點。

與此同時,正如百度高級副總裁、AI技術平臺體系(AIG)總負責人王海峰在百度大腦論壇上所言,「百度大腦既帶動了百度業務的升級,也在推動社會智能化升級」。百語音技術不僅是百度多個產品線創新的動力,也已經並正在通過百度大腦向行業賦能。

以遠場識別算法為例,通過麥克風陣列前端處理算法,可以識別目標說話人 3-5米距離的說話。目前,基於語音遠場方案技術的「小度機器人人機語音交互點餐」已在上海肯德基旗艦店投入應用。

2018 年的百度世界大會上,百度大腦也帶來多個語音技術升級。比如「一次喚醒連續交互」的技術突破,用戶只需喚醒一次就可以連續多輪對話,機器能夠準確識別用戶說話時的猶豫停頓、能夠區分並跟隨首次喚醒的用戶等,用戶的體驗更自然、流暢,為語音交互提供了更多想象空間。

<strong>03 . 寫在最後

作為當下 AI 的一個單項技能,語音技術依然有巨大的突破空間。一方面,語音識別在安靜環境、普通話識別的準確率的確已經比較高了,但在複雜環境以及口音、方言等環境裡的準確率還不盡如人意。

另一方面,語音技術不僅是聲音與文字之間的轉換問題,也不是單純的軟件或硬件問題,面向未來的語音技術是硬軟一體、語音語言一體、識別和交互一體。

百度這次推出的流式多級的截斷注意力模型SMLTA,無疑是中文在線語音識別歷史上的又一次突破。

而未來,百度語音的重要著力點是向下朝低端芯片發展,向上超語音語義一體化和交互發展。最終,百度語音將建立從硬件底層芯片、到上層的智能硬件系統,再到系統軟件,語音客戶端,語音服務器及後端交互一體化的全鏈路語音交互技術。

基於百度龐大的用戶和豐富的產品,這些技術將讓用戶享受 AI 的福利,而透過百度大腦,還將持續賦能各行各業。(完)

百度語音的「一小步」,可能是語音技術「登月計劃」的一大步


分享到:


相關文章: