06.07 阿里雲在上海地鐵買了兩張票,背後這項核心技術連谷歌都服

阿里巴巴達摩院機器智能實驗室語音識別團隊。他們推出的新一代語音識別模型——DFSMN,不僅被谷歌等國外巨頭在論文中重點引用,更將全球語音識別準確率紀錄提高至96.04%(基於世界最大的免費語音識別數據庫LibriSpeech),剛剛宣佈開源。
阿里雲在上海地鐵買了兩張票,背後這項核心技術連谷歌都服

“我要買一張去人民廣場吃炸雞的票。”

今日雲棲大會上海峰會,現場大屏幕上,一位身著阿里雲T恤的美女正在上海地鐵站購票,話音剛落,自動售票機屏幕上就跳出了支付二維碼,從開口、掃碼到取票,整個過程僅耗時十幾秒。

阿里雲在上海地鐵買了兩張票,背後這項核心技術連谷歌都服

▲用語音購買地鐵票

現場觀眾情緒穩定。去年底,上海申通地鐵與阿里巴巴合作時,就曾演示過這項語音購票技術,不久前的雲棲大會武漢峰會上,在AI收銀員與真人店員的PK中,機器更是在嘈雜環境下準確識別了用戶的語音點單,在短短49秒內點了34杯咖啡,大家見怪不怪了。

可是演示仍在繼續,這次工作人員沒有報具體站名,而是說“我要去一大會址參觀”,售票機自動匹配了距離最近的黃陂南路站,其餘購票步驟一致。現場一片譁然,上海朋友比較激動,上海是全球首家將人工智能引入城市軌道交通的城市。

阿里雲在上海地鐵買了兩張票,背後這項核心技術連谷歌都服

無需喚醒詞,在嘈雜環境中也能實現精準交互,還能識別語義。自動售票機和AI收銀員的背後,都有一項叫做語音識別的核心技術,來自阿里巴巴達摩院機器智能實驗室語音識別團隊。他們推出的新一代語音識別模型——DFSMN,不僅被谷歌等國外巨頭在論文中重點引用,更將全球語音識別準確率紀錄提高至96.04%(基於世界最大的免費語音識別數據庫LibriSpeech),剛剛宣佈開源。

對比目前業界使用最為廣泛的LSTM模型,DFSMN模型訓練速度更快、識別準確率更高。採用全新DFSMN模型的智能音響或智能家居設備,相比前代技術深度學習訓練速度提到了3倍,語音識別速度提高了2倍。

著名語音識別專家,西北工業大學教授謝磊表示:“阿里此次開源的DFSMN模型,在語音識別準確率上的穩定提升是突破性的。是近年來深度學習在語音識別領域最具代表性的成果之一。對全球學術界和AI技術應用都有巨大影響。”

阿里雲在上海地鐵買了兩張票,背後這項核心技術連谷歌都服

▲購票者說完目的地,屏幕上立馬顯示出最便捷的前往方案

語音識別是人機交互中的核心技術,在智能音響、智能家居、機器人及自動駕駛等領域都有廣泛應用。

阿里雲總裁胡曉明宣佈,在上海的創新和嘗試將在全世界推開,“我們希望未來不只是可以買票,還可以通過人臉直接進出地鐵站。”

阿里雲在上海地鐵買了兩張票,背後這項核心技術連谷歌都服


分享到:


相關文章: