什麼是“自定義語音模型”?

什麼是“自定義語音模型”?

用戶藉助語音服務可以根據自己的聲學和語言數據採用合適的基準模型,形成可同時用於語音轉文本和語音翻譯的自定義語音模型。

什麼是語言模型,為什麼要對其進行自定義?

語言模型是詞語序列的概率分佈。語言模型幫助系統根據詞語序列本身發生的可能性,從發音類似的單詞序列中做出選擇。例如,“recognize speech”和“wreck a nice beach”發音類似,但前者的可能性要高得多,因此語言模型會給“recognize speech”分配更高的分值。如果希望應用程序的語音查詢包含特定詞彙項(例如日常語言中少用的產品名稱或專用術語),那麼很可能可以通過自定義語言模型獲得更好的效果。例如,假如你正在構建通過語音搜索 MSDN 的應用,那麼相較於一般語音應用程序,該應用用到“面向對象”、“命名空間”或“.Net”等術語的幾率則很可能提升。自定義語言模型能讓系統掌握這種差異。

什麼是聲學模型,為什麼要對其進行自定義?

在每種語言中,聲學模型是一個分類器,將短小聲音片段標識為若干不同音素或聲音單位中的一種。這些音素可以結合形成詞語。例如,“speech”由四個音素“s p iy ch”組成。這些分類約按每秒 100 次的速度進行。自定義聲學模型使系統能夠學習更好地識別非典型環境中的語音。例如,如果研製了一款面向倉庫或工廠工人的應用,那麼相應的自定義聲學模型可以在這類嘈雜的環境中更準確地識別語音。


什麼是“自定義語音字體”?

語音服務可以多語言提供多種默認聲線(也就是語音字體),幫助將文本轉化為音頻。雖然虛擬助理和各種語音類應用程序日益豐富,但很多公司更需要能夠代表他們的企業,並且經過精細設計,契合自己的品牌身份的獨特聲線。例如,如果你要為客戶關懷服務設計一款聊天機器人,可以為它設計代表公司品牌的獨特聲音,從而營造客戶歸屬感。同樣,車內導航軟件的開發人員也可以啟用不同自定義聲線的文本轉語音服務,以豐富用戶體驗。

通過使用自己的音頻數據(已按相關念稿收錄好的人聲),可以生成自定義語音字體,並能通過你所用的 API 插入到應用程序中。


什麼是“自定義語音模型”?


分享到:


相關文章: