08.15 讓機器聽得懂你的口音，解決語音識別最大難題的路在何方？科技頭條網

2018-08-15 17:28:34 科技早知

語音識別對於AI人工智能來說意義重大，語音識別的準確度直接決定著人與機器交互的有效性，話句話說直接決定著AI技術應用的成敗。

目前全球高科技企業都在語音識別的準確性、速度上投入大量的人力、物力，都期望能站在下一代工業革命（人工智能）的制高點上，贏在起跑線上。

不可否認，憑藉大數據、雲存儲，很多公司在語音識別技術取得了巨大的成績，像國內語音智能領頭羊科大訊飛，在標準普通話前提下，語音識別準確率可以達到95%，能夠識別35種語言，進行實時翻譯。國外，谷歌Google assistant也將支持超過30種語言，高通開發的新設備對單詞、短語的識別準確度也高達95%，微軟的智能語音客服取得了比人工客服更高效的服務。

但是以上案例都是在“標準普通話”、“標準英語”的基礎上進行的，而現實中AI語音識別最大的難題是口音，如果要問中國有多少方言，或許大家還能大概的說出一些，但是要是問中國有多少口音，我想大家應該都是比較蒙的狀態，畢竟每個人的口音多少都會有些差異的，更別說機器了，讓機器聽得懂每個人的講話，這想法大概是瘋了吧，機器肯定會崩潰的！

但是人工智能還是在非常迅速的發展的，問題最終還是要解決的，那麼究竟有沒有一種辦法讓機器能聽得懂每個人的講話，能夠讓機器真的能跟每個人對話呢，或許答案是肯定的！

目前，不管是國內還是國外,語音識別的基礎都是語料庫，通過語料庫數以百億計的數據資源提高語音識別的準確性，科技巨頭亞馬遜和谷歌甚至創建遊戲，鼓勵用戶使用不同地區的方言進行交流，以獲得更龐大的語料庫資源，但是可以想象效果並不盡如人意。

但是值得慶幸的是，蘋果公司申請的一項新專利，給人工智能領域在上述問題（口語識別）的研究上指出了新的方向——智能設備多用戶支持。

蘋果智能語音助手siri將來能夠分辨出不同用戶的聲音，並根據不同用戶的聲音提供不同的響應。

當然這只是一個相對簡單的應用場景，甚至目前亞馬遜的智能音箱Alexa已經初步具備了這樣的功能。但是我們不妨擴展性的設想一下：將AI語音識別分為兩個不同的場景，在通用領域，比方說大型國際會議的實時翻譯，因為這種場景下用到的多是標準的語言，好比是“普通話”，那麼基於現有語料庫研究方向進行深度研究是可行的；而在個性化領域，我們可以在大數據基礎上，賦予智能設備“多用戶支持”的能力，用戶通過一段時間與機器的交流、學習，讓機器能“聽得懂”用戶的個人口音，成為用戶的私人朋友！

如果AI語音識別中的口語識別問題能夠解決，那麼以家庭為單位的智能家居、自動駕駛等人工智能走進人類日常生活的時代將真正到來了！

分享到:

閱讀更多 科技早知 的文章

關鍵字: 人工智能大數據 Ale