蘋果最新語音技術揭祕!Siri延遲降60%,支持多語種“調戲”


蘋果最新語音技術揭秘!Siri延遲降60%,支持多語種“調戲”

智東西(公眾號:zhidxcom)編 | 韋世瑋

智東西2月4日消息,據外媒VentureBeat報道,在過去的一週時間裡,蘋果公司在語音識別領域發表了一系列研究論文,主要研究改善語音觸發檢測、說話人驗證以及對多個說話人進行語言識別的技術。

實際上,蘋果一直非常重視語音識別領域的技術研究。目前,其跨平臺虛擬助手Siri已覆蓋全球5億以上的用戶。

在近期的論文中,蘋果也詳細介紹了自身的AI語音技術,以進一步幫助語音助手識別熱門單詞,以及多語種的說話人。

蘋果最新語音技術揭秘!Siri延遲降60%,支持多語種“調戲”

一、說話人驗證和語音觸發檢測

在《用於說話人驗證和語音觸發檢測的多任務學習(MULTI-TASK LEARNING FOR SPEAKER VERIFICATION AND VOICE TRIGGER DETECTION)》論文中,蘋果研究人員提出了一種經過訓練後可同時執行自動語音識別、說話人識別任務的AI模型。

研究人員在論文中表示,個人語音助手識別的命令通常以觸發短語為前綴,例如“Hey,Siri”,其中要檢測到該觸發短語需要兩個步驟。

首先是語音觸發檢測,AI模型必須確定輸入音頻中的語音內容,是否與觸發短語的語音內容相匹配;其次是說話人驗證,AI模型必須確定說話人的語音,是否與一個或多個註冊用戶的語音相匹配。

這兩項任務通常是獨立思考的,但研究人員認為,AI模型對說話人的瞭解可能有助於它推斷出聲音信號中的語音內容,反之亦然,從而有助於估計這兩種屬性。

蘋果最新語音技術揭秘!Siri延遲降60%,支持多語種“調戲”

▲模型左分支為語音觸發檢測器;右分支為說話人驗證模型;實線水平箭頭表示有固定重量的層;虛線箭頭表示有可能有可能沒有固定重量的層

基於此,研究人員設計了三套能夠學習語音和說話人信息的AI模型。

他們對一組包含16000小時以上且帶註釋樣本的音頻數據集進行了訓練,其中有5000小時的音頻帶有語音標籤,其餘的僅有揚聲器標籤。

完成訓練後,有超過100名受試者在一系列聲學設置中,使用智能揚聲器設備進行測試,以進一步豐富語料庫。其中,聲學設置包括安靜的房間、房間中有電視或廚房用具的外部噪音和錄音機播放的音樂等。

與此同時,研究人員還添加了連續2000個小時的電視、廣播和播客音頻錄製,均不包含觸發短語,以測量AI模型的“誤報率”。

結果顯示,AI模型學習語音和說話人信息的能力,同時在具有相同數量的參數下(控制訓練過程某些屬性的變量),每個任務的準確性至少與基準模型相同。

實際上,這三種AI模型中有一種在多重設置中的表現優於說話人驗證基準,和“與文本無關”的任務基準相比有7.6%的改善。

“這些結果有一個有趣的特點是,這個模型是使用不相關的數據集訓練的,也就是說,每個音頻樣本要麼有語音標籤,要麼有說話人標籤,從來沒有兩者都有。”研究人員在論文中表示。

由此看出,這一測試結果驗證了一種靈活的AI語音設計。在該設計中,研究人員可以通過連接不同任務的訓練數據,來訓練多個相關任務的模型,而不是為每個訓練示例獲取多個標籤。

“從實際的角度看,這種在兩個任務之間共享計算的設計,可以節省設備上的內存、計算時間、等待時間以及消耗的電量或電池數量。”研究人員說到。

蘋果最新語音技術揭秘!Siri延遲降60%,支持多語種“調戲”

二、減少錯誤觸發

蘋果的另一項補充研究解決了減少錯誤觸發的任務,即語音助手有意忽略像Siri這樣的語音助手的語音。

研究人員表示,他們使用了一種在圖結構上運行的AI模型,也就是圖神經網絡(GNN)。該模型的每個節點都與標籤相關聯,目標是在沒有基礎事實的情況下預測節點的標籤。

“語音觸發的智能助手在開始收聽用戶請求之前,通常依賴於對觸發短語的檢測……錯誤觸發通常源於背景噪音,或聽起來與觸發短語相似的語音。”研究人員在論文中表示,減少誤觸發是構建以隱私為中心的非侵入式智能助手的重要方面。

在未來工作中,蘋果研究人員計劃將基於圖神經網絡的處理擴展到其他任務,例如用戶意圖分類。

三、多語種說話人識別

在《提高多語言使用者的語言識別能力(IMPROVING LANGUAGE IDENTIFICATION FOR MULTILINGUAL SPEAKERS)》論文中,蘋果研究人員探索了一種針對多語言使用者量身定製的說話人語言識別系統。

研究人員表示,語言識別系統對大多數語言都具有較高的準確性,但在多重語言組合的情況下,系統的表現卻不盡人意。

事實上的確如此。《華盛頓郵報》在近期進行的一項研究中顯示,谷歌和亞馬遜的智能音箱聽懂美國本土用戶的口音,比非美式口音的概率高30%。

此外,像Switchboard這樣的語料庫也被證明,它對來自美國特定地區的使用者存在可測量的傾斜,該語料庫還是IBM和微軟等公司用來評估語音模型錯誤率的數據集。

為了解決這一問題,蘋果研究人員將有關使用模式的知識整合到一個聽寫系統中,該系統能夠為60多個地區的說話人作出決策。

蘋果最新語音技術揭秘!Siri延遲降60%,支持多語種“調戲”

▲聲學模型現場元精度

聲學子模型基於語音信號傳達的信息進行預測,並且上下文感知的預測組件會考慮各種交互上下文信號。模型通過這兩方面的預測,以選擇最佳的單語種自動語音識別系統。

其中,上下文信號包括髮出命令的條件信息、已安裝的命令語言環境、當前選擇的命令語言環境,以及用戶發出命令前是否切換命令語言環境的信息。

重要的是,它們可以在語音信號太短而無法通過聲學模型產生可靠預測的情況下提供幫助。例如,如果用戶同時安裝了英語和德語,像“naIn”這樣較短的歧義語句,在德語中可能是表否定的“nein”,在英語中則是表數字“nine”。

為了評估該系統,研究人員還開發了一個名為“平均用戶準確度”(Average User Accuracy,AUA)的自定義指標,能夠更好地反映模型中的“人口水平”使用模式。

在多語種說話人內部語料庫中進行訓練的128000口述話語,且帶有相應的交互上下文信息的所有語言組合中,它的平均準確率為87%,若與基線相比,其最壞的情況下準確率也提高了60%以上。

此外,在研究團隊調整參數以平衡在設備上運行模型的計算量準確度和延遲後,其平均延遲從2秒減少到了1.2秒,並對AUA的影響不超過0.05%。

結語:語音識別技術有待進一步完善和成熟

如今,語音識別已逐漸成為人們手機、電腦、智能音箱、可穿戴設備等多平臺和設備中的一個重要應用“窗口”,它對語音和語言識別的準確性也越來越重要,影響著用戶的產品使用體驗。

但從目前的技術發展看,語音識別技術的應用仍存在著許多侷限性,如錯誤觸發、多語種識別準確率低等。蘋果作為語音識別領域的重要玩家,其對語音識別進行的種種研究也在一定程度上推進了這項技術的改進和完善。

未來,隨著技術的不斷成熟和創新,智能語音助手也許將成為人們日常生活、工作中媲美人類管家和助理的重要應用。

論文鏈接:1、《用於說話人驗證和語音觸發檢測的多任務學習(MULTI-TASK LEARNING FOR SPEAKER VERIFICATION AND VOICE TRIGGER DETECTION)》https://arxiv.org/pdf/2001.10816.pdf2、《提高多語言使用者的語言識別能力(IMPROVING LANGUAGE IDENTIFICATION FOR MULTILINGUAL SPEAKERS)》https://arxiv.org/pdf/2001.11019.pdf


分享到:


相關文章: