語音識別技術發展以及其應用

語音識別是十年來發展最快的技術之一,隨著AI的不斷髮展,深度學習讓語音識別技術得到了質的飛躍,開始從實驗室走向市場,並逐步走到人們的生活中。我們現在所用的語音輸入法,以及以語音為智能交互入口的智能家居,背後都涉及到語音識別技術。

語音識別技術發展以及其應用

語音識別技術的發展歷程

語音識別技術是指機器自動將人的語音的內容轉成文字,又稱 Automatic Speech Recognition,即ASR技術。

語音識別是一門交叉的、非常複雜的學科,需要具備生理學、聲學、信號處理、計算機科學、模式識別、語言學、心理學等相關學科的知識。

語音識別的研究是個漫長而且艱難的過程,它的發展可以追溯到20世紀50年代,1952年貝爾實驗室首次實現Audrey英文數字識別系統,這個系統當時可以識別單個數字0~9的發音,並且對熟人的準確度高達90%以上。在同時期,MIT、普林斯頓相繼推出少量詞的獨立詞識別系統。

1971年美國國防部研究所(DARPA)贊助了五年期限的語音理解研究項目,推動了語音識別的一次大發展。DARPA在整個科技的發展過程中扮演了非常重要的角色,它專門給高科技研究項目提供資金支持,包括無人機、衛星等等。

語音識別技術發展以及其應用

在DARPA的支持下,IBM、卡內基梅隆大學(CMU)、斯坦福等學術界和工業界非常頂級的研究機構也都加入到語音識別的研究中去。

其中,卡耐基梅隆大學研發出harpy語音識別系統,該系統能夠識別1011個單詞,在這個時期大詞彙量的孤立詞識別取得實質性進展。

到了1980年,語音識別技術已經從從孤立詞識別發展到連續詞識別,當時出現了兩項非常重要的技術:隱馬爾科夫模型( HMM )、N-gram語言模型。

1990年,大詞彙量連續詞識別持續進步,提出了區分性的模型訓練方法MCE和MMI,使得語音識別的精確度日益提高,尤其適用於長句子的情況下,與此同時,還提出了模型自適應方法MAP和MLLR。

在工業方面,劍橋推出首個開源的語音識別訓練工具HTK,在商業方面,Nuance發佈了首個消費級產品Dragon Dictate。

到了21世紀,隨著深度學習的不斷髮展,神經網絡之父Hinton提出深度置信網絡( DBN ),2009年, Hinton和學生Mohamed將深度神經網絡應用於語音識別,在小詞彙量連續語音識別任務TIMIT上獲得成功。

語音識別技術的典型應用

語音識別技術早期的應用主要是語音聽寫,用戶說一句,機器識別一句。後來發展成語音轉寫,隨著AI的發展,語音識別開始作為智能交互應用中的一環。

語音識別技術發展以及其應用

下面我們就來一一介紹這些應用:

首先我們來看下語音聽寫,語音聽寫中最為典型的案例就是訊飛輸入法,除此之外,語音聽寫的應用還有語音病例系統。

醫生佩戴上訊飛定製的麥克風,在給病人診斷時,會將病情、用藥、需要注意事項等信息說出來,機器將醫生說的話自動識別出來,生成病例。

關於語音轉寫的應用,我們也舉兩個產品的例子,一是訊飛語記,另一個是訊飛聽見。

訊飛語記是一款APP,它能夠將我們所說的語音記錄成文字,訊飛聽見會議系統能夠實時的根據演講者所說的內容準確識別出來,並且實時投影在我們的大屏幕上。

關於語音交互的產品有很多,比如訊飛推出的訊飛翻譯機、能夠和小朋友進行互動的阿法蛋、以及可以進行聊天交流的叮咚音箱等。

語音識別技術發展以及其應用


分享到:


相關文章: