搜狗科學家陳偉:穩居智能語音第一名,搜狗殺手鐧是什麼?

不論是Siri、Cortana等語音助手的同臺競技,還是亞馬遜Echo掀起的智能音箱市場的激烈角逐,在來勢洶洶的AI浪潮裡,各大巨頭不約而同地把技術落地的目光,投到了智能語音上。

4月26日,GMIC洞見·人工智能公開課上,搜狗語音交互技術中心語音首席科學家,語音技術負責人陳偉,與全球頂尖數據科學家、人工智能工程師一起,從搜狗智能語音的進擊之路聊起,分享了他對於智能語音的深度思考。

搜狗科學家陳偉:穩居智能語音第一名,搜狗殺手鐧是什麼?

語音聽寫、語音翻譯、語音交互,都有哪些落地場景?

陳偉介紹說,他們的團隊主要在做的有三塊內容,一是語音聽寫,二是語音翻譯,三是語音交互。其中,語音聽寫技術已逐步走向實用,“搜狗從2012年就開始做語音識別,並希望把這項技術落地到更多場景中去,讓用戶輸入更有效率。”陳偉舉例到,比如演講聽寫、視頻字幕直播、法院庭審、記者採訪、小說寫作、醫療病例記錄等眾多場景,應用語音識別進行輔助輸入,能極大地提升我們的工作效率——在我們說話同時,機器就能直接將其轉化為文字,而無需我們費力打字或書寫。

搜狗科學家陳偉:穩居智能語音第一名,搜狗殺手鐧是什麼?

如果將語音識別與機器翻譯結合,就誕生了語音翻譯技術。“這項技術可以更好地服務跨語言交流,比如在出國旅行、國際交流、演講同傳、視頻字幕等等。”陳偉舉了一個更為具體的例子,“目前,在會議場景中,讓機器做同傳已經比較成熟。當一位演講者在臺上使用中文演講時,我們的搜狗機器同傳可以在屏幕上實時顯示中文內容,並同步翻譯為英文。”

據瞭解,搜狗機器同傳在2016年第三屆世界互聯網大會(WIC)上首發,並在2017年第四屆WIC上,升級為2.0版本,加入了語音合成的能力。而就在此次GMIC大會的主會場,我們也能看到搜狗機器同傳的身影,在每位中外嘉賓演講的同時,都兢兢業業地為聽眾呈現相應的中英實時字幕。

搜狗科學家陳偉:穩居智能語音第一名,搜狗殺手鐧是什麼?

“在語音交互方面,我們會更加關注具體場景,希望做任務導向的語音助理。”陳偉進一步說明,“比如在可穿戴移動設備、車載、移動家居等具體場景中,做語音助手,針對剛需場景提供更自然的交互體驗。當語音交互收斂到具體場景中,用戶體驗也會極大優化。”

大量的落地場景背後,隱藏技術又有哪些?

“2010年後快速興起的深度學習,變革了整個行業。”陳偉現場聊起深度學習帶來的變化,“隨著深度學習技術發展,以及大數據驅動,數據和算法相得益彰,把實驗室中的技術,從不可用變成可用或者好用狀態。”

這三點至關重要:超大規模的語音數據、複雜的深度學習算法、超強的運算平臺。數據量確保了語音識別的準確率,陳偉說,“在2012年搜狗語音識別技術剛上線時,搜狗的語音識別數據在500小時左右,而在2016年這個數據規模就達到了幾萬小時。而現在我們的語音識別準確率已經達到97%。”在算法上,搜狗已經能做到50多層CN的網絡。

而在有了複雜的算法和超大數據以後,如何在可控的時間內得到想要的模型?怎麼樣快速對數據進行準確的學習?這就依賴於一個強大的運算平臺。“搜狗語音深度學習平臺EVA,與ARM的ACL相比,平均性能加速比達1.62;在搜狗自有任務下,如識別、翻譯等,加速比更是達到了3.97。”

搜狗科學家陳偉:穩居智能語音第一名,搜狗殺手鐧是什麼?

技術“炫酷”,但智能語音存在的問題都解決了嗎?

答案是:沒有。真正想把好的技術應用到使用場景上還是有很多坑要踩,有很多問題要去解決。陳偉現場分享了針對語音交互、個性化語音合成、離線翻譯中碰到的困難,搜狗是如何做的。

以語言交互為例,“今天我們說語音識別準確率達到97%,是在沒有強噪音、口音的情況下。一旦我們與麥克風距離稍遠,或者處在車上等嘈雜環境中,就會干擾機器的識別能力。”針對這一點,搜狗去做回聲消除、解混響、聲源定位,做麥克風硬件技術。陳偉說,“我們希望把真正可用的技術做起來,而它一定是軟硬件結合的。”

演講最後,陳偉拋出了一個問題,“如何判斷當期的AI產品是否足夠好?”他現場給出了三個指標,一是產品命中用戶剛需;二是簡潔有趣且方便;三是穩定。陳偉強調說,“當我有好的AI技術能力,想要落地的時候,我一定要讓它儘可能地滿足用戶的預期,這樣用戶體驗才會好,也才能被稱為是一個好的產品。”


分享到:


相關文章: