08.15 讓機器聽得懂你的口音,解決語音識別最大難題的路在何方?

語音識別對於AI人工智能來說意義重大,語音識別的準確度直接決定著人與機器交互的有效性,話句話說直接決定著AI技術應用的成敗。

讓機器聽得懂你的口音,解決語音識別最大難題的路在何方?

目前全球高科技企業都在語音識別的準確性、速度上投入大量的人力、物力,都期望能站在下一代工業革命(人工智能)的制高點上,贏在起跑線上。

不可否認,憑藉大數據、雲存儲,很多公司在語音識別技術取得了巨大的成績,像國內語音智能領頭羊科大訊飛,在標準普通話前提下,語音識別準確率可以達到95%,能夠識別35種語言,進行實時翻譯。國外,谷歌Google assistant也將支持超過30種語言,高通開發的新設備對單詞、短語的識別準確度也高達95%,微軟的智能語音客服取得了比人工客服更高效的服務。

讓機器聽得懂你的口音,解決語音識別最大難題的路在何方?

但是以上案例都是在“標準普通話”、“標準英語”的基礎上進行的,而現實中AI語音識別最大的難題是口音,如果要問中國有多少方言,或許大家還能大概的說出一些,但是要是問中國有多少口音,我想大家應該都是比較蒙的狀態,畢竟每個人的口音多少都會有些差異的,更別說機器了,讓機器聽得懂每個人的講話,這想法大概是瘋了吧,機器肯定會崩潰的!

讓機器聽得懂你的口音,解決語音識別最大難題的路在何方?

但是人工智能還是在非常迅速的發展的,問題最終還是要解決的,那麼究竟有沒有一種辦法讓機器能聽得懂每個人的講話,能夠讓機器真的能跟每個人對話呢,或許答案是肯定的!

讓機器聽得懂你的口音,解決語音識別最大難題的路在何方?

目前,不管是國內還是國外,語音識別的基礎都是語料庫,通過語料庫數以百億計的數據資源提高語音識別的準確性,科技巨頭亞馬遜和谷歌甚至創建遊戲,鼓勵用戶使用不同地區的方言進行交流,以獲得更龐大的語料庫資源,但是可以想象效果並不盡如人意。

讓機器聽得懂你的口音,解決語音識別最大難題的路在何方?

但是值得慶幸的是,蘋果公司申請的一項新專利,給人工智能領域在上述問題(口語識別)的研究上指出了新的方向——智能設備多用戶支持。

蘋果智能語音助手siri將來能夠分辨出不同用戶的聲音,並根據不同用戶的聲音提供不同的響應。

讓機器聽得懂你的口音,解決語音識別最大難題的路在何方?

當然這只是一個相對簡單的應用場景,甚至目前亞馬遜的智能音箱Alexa已經初步具備了這樣的功能。但是我們不妨擴展性的設想一下:將AI語音識別分為兩個不同的場景,在通用領域,比方說大型國際會議的實時翻譯,因為這種場景下用到的多是標準的語言,好比是“普通話”,那麼基於現有語料庫研究方向進行深度研究是可行的;而在個性化領域,我們可以在大數據基礎上,賦予智能設備“多用戶支持”的能力,用戶通過一段時間與機器的交流、學習,讓機器能“聽得懂”用戶的個人口音,成為用戶的私人朋友!

如果AI語音識別中的口語識別問題能夠解決,那麼以家庭為單位的智能家居、自動駕駛等人工智能走進人類日常生活的時代將真正到來了!


分享到:


相關文章: