日均 10 億次語音請求,探究百度輸入法領跑行業的底層密碼

過去幾年,語音技術迎來大爆發,不僅為海量物聯網設備提供了新入口,還在不斷推動移動設備輸入法的變革,依託語音的便捷的交互方式,輸入法里語音輸入正悄然改變著用戶與設備交互的模式。

這個趨勢也體現在百度輸入法本週公佈的一份數字裡,根據其透露的數字,自 1 月 25 日春節假期以來,百度輸入法日均語音請求量已破10億次大關

如果翻一下歷史,百度輸入法的語音請求數量過去一年多的時間裡幾乎實現了一倍的增長。2018 年年底,百度輸入法語音日均請求量峰值為 5.5億次,一年後的 2019 年年底,這個數字變成了 8.6 億次,僅僅三個月,這個數字變成了 10 億次。

日均 10 億次語音請求,探究百度輸入法領跑行業的底層密碼

這一系列數字所反映的,不僅有用戶對於語音輸入的熱情,也有百度輸入法的受歡迎程度。與此同時,這些數字也給行業留下幾個命題,比如,當眾多公司開始踏入語音和語音輸入,百度輸入法為何能脫穎而出?再比如,百度在 AI 領域的技術積累和產品佈局,如何推動這款億級用戶產品成為輸入法領域的領先者?

本文也將試著一一回答這些問題。

1. 技術攻關:破解語音識別的注意力模型難題

在語音領域,注意力模型(Attention模型)長期以來被認為是破解語音難題的關鍵技術,這是一種基於對一句話裡每個音節或漢字音頻特徵的機器學習模型,通過機器學習的方法,將音頻特徵自動挖掘出來。

換句話說,這種方法下的語音識別過程,變成了一個字一個字的滾動生成過程。相比於傳統語音識別的狀態建模和按語音幀進行解碼,該模型可以直接實現語音和文本一體化的端到端建模,是學術領域認為最具精度的模型。

但這個技術長期以來無法得以大規模應用。

究其原因,一方面,搭建這個語音模型無法擺脫雲端/服務器的解碼能力,這意味著,當用戶通過語音交互時,語音需要上傳到雲端,這對於移動設備的用戶體驗影響非常大。另一方面,傳統的注意力模型無法應對語音識別的錯誤傳導,反映在用戶體驗上的感受則是,用戶用語音說完一段話後,機器由於一個詞或一句話沒識別出來而完全理解不了,同樣嚴重影響用戶體驗。

2019 年,百度提出了流式多級的截斷注意力模型 SMLTA (全稱為「Streaming trancated multi-layer attention」),正是要解決這個問題。

日均 10 億次語音請求,探究百度輸入法領跑行業的底層密碼

技術層面,百度利用 CTC 語音識別算法,對連續語音進行自動截斷,然後在這一系列語音小段的基礎上搭建注意力模型,與此同時,還創新性地引入了一種特殊的多級 Attention 機制,可以實現特徵層層遞進的更精準的特徵選擇。

而在行業層面,百度不僅是在業界第一次提出了流式多級的截斷注意力模型 SMLTA,也在全球範圍內,實現了基於注意力模型的在線語音識別服務的首次規模化應用

百度將這種注意力模型部署上線到語音輸入法全線產品,對於提升百度輸入法的語音輸入體驗有重要意義。

其一,利用精準度更高的語音模型,極大提升了在線語音輸入的準確度,官方透露的數字是,2019年百度輸入法在線語音相對準確率提升15%,超越行業最優競品15%;其二,SMLTA 也同時應用於離線語音識別,提升其離線語音的識別精準度至在線語音同樣水平,這意味著,用戶在沒有網絡的情況下也可以實現同等的語音輸入準確度,目前百度輸入法「離線語音」輸入準確率已高於行業平均水平35%。

2.AI 賦能產品:從語音、自然語言到圖像提升體驗

在單語言語音輸入之外,各個輸入法產品還會提供中英文混合語音輸入,不過由於中英文語音識別機制的不同,這個功能會一定程度影響中文識別準確率,而百度輸入法則通過「中英自由說」解決了用戶的這個痛點。

日均 10 億次語音請求,探究百度輸入法領跑行業的底層密碼

這個功能基於百度在語音語義的技術積累,可以精準識別出中英文混合輸入過程中的中文與英文,然後根據語義進行斷句,從而可以準確生成用戶語音輸入的內容。

與之類似的一個功能就是「方言自由說」,百度輸入法將普通話和六大方言融合成一個語音識別模型,實現了方言與方言、方言與普通話的混合語音輸入。目前也是首個實現方言免切換語音輸入的輸入法產品。

如果說領先業界的語音模型為百度輸入法語音功能提供了最底層的技術支撐,那麼在用戶體驗與產品功能上,百度的自然語言與圖像技術積累也在持續賦能百度輸入法的創新。

首先是自然語言,百度不斷嘗試將自然語言技術應用到輸入法場景裡,其研發的「智能預測」,也成為業內首家實現多場景整句智能預測的輸入法。這個功能的核心是利用深度神經網絡對輸入文本進行建模推出的預測,可以根據用戶的使用習慣,在已輸入詞語的基礎上進行長句補全。

目前「智能預測」已經在微信、QQ、淘寶、王者榮耀、絕地求生等場景實現整句預測推薦,還可以根據不同應用與不同場景,提供不同的預測,用戶只需打出開頭幾個字,輸入法就能夠幫你「輸完」整句話,有效提升輸入效率。

其次是圖像技術,百度輸入法裡的「拍立活」與「秀場」充分展現了百度在圖像領域的技術實力,前者利用對人、動物臉部關鍵點識別後建立模型,進而通過貼圖等技術構建 3D 模型;而後者,則將圖像分割技術應用到輸入法中,能夠將人物置身於虛擬場景之中,兩個產品都極大豐富了用戶輸入的方式。

值得一提的是,百度還利用普通的RGB攝像頭,創新性地發佈了「凌空手寫」功能,這個功能採用指尖跟蹤和文字識別兩個神經網絡模型,整體上接近觸屏手寫方式的順滑、流暢,整體識別率已達到大規模應用的要求,目前已經與小天才/小尋手錶達成了合作,未來將解決智能手錶文字輸入體驗差的行業難題。

3. 市場認可:數據與產品覆蓋

從語音、圖像到自然語言技術,在 AI 的加持下,百度輸入法的 2019 堪稱「開掛」,無論是市場份額還是月活用戶增速,都位居行業前列。

日均 10 億次語音請求,探究百度輸入法領跑行業的底層密碼

艾媒諮詢《2019中國第三方手機輸入法市場年度專題研究報告》

這些技術突破所帶來的用戶體驗與產品影響力,也體現在百度輸入法的一系列重磅合作中,作為國內智能手機出貨量第一的華為,也將百度輸入法作為其旗艦手機的默認輸入法。

2019 年,華為 Mate 30 搭載的百度輸入法,來自百度與機械鍵盤巨頭 Cherry 的合作,通過結合智能手機 X 軸線性馬達的特性,這款輸入法為華為 Mate 30 系列手機帶來了可媲美 Cherry 機械鍵盤的輸入體驗。

上月,針對華為全新發生的摺疊屏手機 Mate Xs 的特殊形態,百度輸入法邀請多名用戶手持與摺疊屏同尺寸的產品電子設備參與測試實驗,模擬真實輸入場景,絕大部分常用按鍵都落在舒適區,在集中鍵位佈局減少手指移動距離的同時,又為左右兩邊留出足夠空間避免手指誤觸設備邊緣。

日均 10 億次語音請求,探究百度輸入法領跑行業的底層密碼

華為發佈Mate Xs預裝百度輸入法使用展示

此外,百度輸入法還將空格鍵拆分為左右兩個,以便左右手輕鬆點擊,如若用戶選擇9鍵分離鍵盤,也可根據個人情況選擇左手或右手的佈局模式。

4. 寫在最後,當輸入法進入百度擅長的 AI 賽道

很長一段時間裡,中國科技公司對於工具類產品的評價都不高,認為其技術含量和用戶粘性不高,但輸入法既是用戶每天使用的高頻工具,具備相當大的用戶粘性,同時也是特定階段行業技術的集大成者。

從 PC 時代單純拼詞庫到移動互聯網時代主要拼體驗,再到如今 AI 時代全面拼技術,輸入法競爭的背後,儼然也成為 AI 技術實力的比拼

站在用戶角度去看,他們需要更豐富多元化的輸入功能,同時還要更簡單的用戶體驗;而在行業發展的視角,智能手機之外,大量全新形態的計算設備——無論是沒有屏幕的物聯網設備還是多屏幕形態的智能手機——都需要全新的輸入方式。

這是行業發展帶來的新機遇,對於百度輸入法而言,10 億次日均語音請求的成績是過去高速發展的縮影,依託百度在語音、自然語言處理、圖像等領域的技術積累和產品佈局,在百度所擅長的 AI 賽道上,百度輸入法如何在 2020 年代領跑行業,令人期待。(完)


分享到:


相關文章: