11.29 百度大腦語音再升級:最新端到端算法+自研芯片,錯誤率降低超30%

曉查 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

2019年,NLP和語音技術取得了多項技術突破,但是科技公司考慮更多的是AI的“場景”,如何在各種場景中都能方便地集成語音功能。

10月,谷歌在Pixel手機發佈會上宣佈,將語音識別模型壓縮到50M集成在手機中,實現離線的語音轉寫。

而國內的幾家語音技術公司想得更遠,將語音技術的接口提供給更多的開發者和企業,讓AI的應用場景更廣闊。百度就是其中一家。

“生物在物競天擇的環境中進化,而AI在應用場景中進化。”在今天的百度大腦語音能力引擎論壇上,百度CTO王海峰如是說。

百度大腦語音再升級:最新端到端算法+自研芯片,錯誤率降低超30%

王海峰也透露,百度大腦的語音能力日均調用量超100億次,居國內第一。擁有國內最大的AI開放平臺的百度大腦,目前已接入開發者超過150萬,開放228項技術能力。

就在同一天,權威調研機構IDC發佈的《2019中國AI雲服務市場廠商評估》報告顯示,百度智能雲憑藉著在AI技術、市場和商業上的表現,在中國排名第一。這也從側面反映了百度AI在市場中的影響力。

除了語音技術外,百度在其他AI技術上也全面開花。9月,百度在CCKS 2019“知識圖譜問答”大賽中奪冠;11月,Forrester發佈報告顯示,百度智能雲的計算機視覺能力在8大維度獲得第一。

這主要是由於百度智能雲入局AI最早,也是國內唯一擁有完全自主深度學習框架的雲服務商,搶佔了AI落地的先機。

因此用上百度語音技術的開發者越來越多,這些數字的背後,有百度大腦語音技術團隊的研發實力作為支持。

團隊的領頭人,就是今年8月在朋友圈宣佈迴歸百度的技術大牛賈磊。他介紹了百度語音軟硬件技術獨一無二的“秘籍”。

百度大腦語音再升級:最新端到端算法+自研芯片,錯誤率降低超30%

新算法降低30%錯誤率

據Canalys等第三方統計機構的數據,小度音箱在國內市場的佔有率在今年登上了第一,賈磊認為這是市場對百度大腦技術的肯定。

百度語音首席架構師賈磊表示,百度大腦的語音技術在今年又取得了一項突破性進展,可以將未來小度音箱的技能進一步提升。

這項新技術全稱為“基於複數CNN的語音增強和聲學建模一體化端到端建模技術”。賈磊表示,這項技術顛覆了傳統的語音識別算法。

百度大腦語音再升級:最新端到端算法+自研芯片,錯誤率降低超30%

目前,市面上主流的智能音箱採用的語音識別算法,是先將音頻轉化為文字,再對文字進行語義理解。

這就好比兩個人相互交流,先把語音寫成文字,然後通過閱讀文字來理解內容。這種識別方式與人相差甚遠,而且也存在著諸多問題。

首先,這種方式只有在喚醒識別後才能確定語音的方向,如果噪聲與聲音方向相同,則會導致識別率很低。而且無法應對說話者邊走邊說的情形。

百度大腦語音再升級:最新端到端算法+自研芯片,錯誤率降低超30%

而百度大腦提出的基於複數CNN的端到端模型,可以直接將聲音轉換成語義,更接近於人的語音交互方式,對噪聲的抵抗力更強。

賈磊表示,這項技術讓遠場語音識別的錯誤率降低了30%以上,對語音識別性能的提升幅度屬業內最大,是一項革命性、顛覆性的技術。

這種模型完全不依賴於數字信號處理等技術學科,用機器學習將最初的音節和最終語義直接打通,實現數字信號處理和語音識別一體化。

有了複數CNN的端到端模型,智能音箱難以解決的幾大使用場景問題都會得到解決。

百度大腦語音再升級:最新端到端算法+自研芯片,錯誤率降低超30%

比如,我們很難一邊走動一邊和智能音箱不間斷多輪對話;在大聲播放電視或音樂時,智能音箱也無法聽清我們。

這些常見場景過去一直是智能音箱難以使用的痛點,未來都有望被複數CNN的端到端模型所化解。

未來的讓模型結構能成功落地,百度還研發了一種利用近場數據來模擬生成遠場訓練數據的方法。利用該方法,百度成功訓練出可以達到落地水平的一體化聲學模型。

為語音造“芯”

只有語音的軟件算法還不夠,近年來國內AI公司越來越多地涉獵芯片製造,一方面是出於自主可控的考慮,另一方面也是為了讓硬件與軟件之間更好地配合。

例如,在語音識別的場景中,如何快速加載模型,與輸入信號進行快速運算,成了最大的難點之一。傳統通用芯片難以解決。

為此,百度專門開發了一款遠場語音AI芯片“鴻鵠”,在今年7月的百度AI開發者大會上發佈。百度AI技術生態部總經理喻友平今天發佈了基於百度鴻鵠芯片的4款硬件模組、開發板和針對智能家居、智能車載、智能IoT設備的3大場景解決方案。

百度大腦語音再升級:最新端到端算法+自研芯片,錯誤率降低超30%

鴻鵠在功耗方面有著巨大的優勢,ARM芯片在處理語音時待機功率超過1W,而鴻鵠的待機功耗僅是其他芯片的不到1/10,這讓智能家居集成語音喚醒成為可能。

百度鴻鵠芯片預置語音算法,可與多種不同的主芯片搭配使用。而且,百度大腦研發的複數CNN的網絡體系很小,可以內置到百度鴻鵠芯片中。

通過軟硬件的結合,百度下一款智能音箱在技術上可能將會有更大的突破。

百度的目光也不僅僅在智能音箱領域。據賈磊介紹,百度鴻鵠芯片還是一款車規級芯片,可承受巨大的溫溼度變化,未來也能集成在汽車中,作為車載語音硬件使用。

賈磊表示,百度大腦要用最高規格做硬件、最廣規格做軟件,以適配不同的應用場景。

他還預測,遠場語音識別的諸多問題3年後將得以解決,屆時準確率將達到近場識別的水平。這會讓遠場識別技術更普及,成為智能家居、智能手機等設備的標配。百度鴻鵠芯片也有著更廣闊的應用前景。

開放語音技術

從7年前,百度就開始以深度學習技術為依託,研發智能語音技術。

如今這項技術已經遍佈百度內部各種產品,從近場語音識別的輸入法、百度搜索,到遠場語音識別的智能音箱、車載語音,再到語音合成的地圖導航、信息流播報。

如今,百度不僅將語音技術用在自家的產品上,也向其他開發者和企業用戶開放。

百度大腦語音再升級:最新端到端算法+自研芯片,錯誤率降低超30%

喻友平表示,在這一輪科技變革浪潮中,AI是一個普遍的生產力基礎,百度大腦要做的,就是把自己的技術以更低的門檻釋放出來,給開發者使用。

喻友平將之稱為“全棧語音引擎”,這個引擎中的技術已經廣泛用於語音播報、語音指令、語音記要、語音質檢等領域。

多款第三方打車、支付App上已經用上了百度的語音合成技術。而且百度為了豐富合成語音的應用場景,推出了音質更好、準確率更高的音庫給開發者使用。

“百度大腦強大的技術,加上開放的態度,可以釋放巨大的能量。”喻友平說。

在本次論壇上,家電企業創維、科技信貸公司瓴嶽、農業科技公司華智等公司將百度的語音技術集成到自己的產品中,實現了生產力的提高。

最後喻友平宣佈了百度大腦語音公益計劃,面向為視障、聽障等人士提供服務的科技公司,百度將免費提供語音識別與合成技術,以最低價提供硬件模組。

百度大腦希望將語音技術的“朋友圈”不斷擴大,把AI技術與醫療、農業、金融、物聯網乃至公益事業聯繫起來。

正如王海峰在大會開場所說,“AI技術的進化和產業賦能正向循環,相互促進,讓AI在應用場景中不斷進化。”

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態


分享到:


相關文章: