訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了

訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了
訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了

作者 | 夕顏

出品 | CSDN(ID:CSDNnews)

「AI 技術生態論」 人物訪談欄目是 CSDN 發起的百萬人學 AI 倡議下的重要組成部分。通過對 AI 生態頂級大咖、創業者、行業 KOL 的訪談,反映其對於行業的思考、未來趨勢的判斷、技術的實踐,以及成長的經歷。


本文為 「AI 技術生態論」系列訪談的第十六期,解剖科大訊飛語音與計算機視覺互通技術,以及對多模態與人機交互未來趨勢預判。


百萬人學 AI 你也有份!今日起點擊閱讀原文報名「2020 AI開發者萬人大會」,使用優惠碼“AIP211”,即可免費獲得價值299元的大會在線直播門票一張。限量100張,先到先得!

當今,如果把語音技術和計算機視覺技術單拎出來,兩者無論是學術研究還是應用,都可以說已經到了相對成熟的階段,小到手機上各種 App,大到航空航天科研,語音和視覺技術已經滲透到人類生活的方方面面。但如果是把二者結合起來呢?甚至是把文字、語音、視覺、動作、環境等多種形式結合起來,進行更深層次的人機交互呢?這就是所謂的多模態交互,在技術專家的設想中,多模態交互能夠充分模擬人與人之間的交互方式,讓人與機器之間實現真正意義上的互動更進一步。

多模態交互技術與應用的研究現狀如何?大家都在做著哪些努力,嘗試著打破人與機器之間的隔閡?今天,我們將透過這方面的專家——科大訊飛 AI 研究院執行院長劉聰,與他的技術成長路線一起,一探這些問題的究竟。

訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了

碩博連讀,被保送至訊飛語音實驗室的學霸

從履歷上來看,劉聰的個人經歷和成長路線非常簡單,他從 2001 年考入中國科學技術大學電子信息工程系,2005 年就被保送(碩博連讀)至電子信息工程系當時合作的訊飛語音實驗室(現為“語音及語言信息處理國家工程實驗室”),專業方向是“信號與信息處理”。在這裡,他專攻的方向是語音識別。

碩博連讀期間,劉聰獲得了去微軟亞洲研究院和加拿大約克大學訪問學習各半年的機會。2010 年,海外學子學成歸國,並順利拿到了博士畢業證。

其實早在 2007 年,劉聰就已經以實習生的身份加入科大訊飛,除了進行一些單點技術的研究之外,也進行中文語音識別系統的搭建工作。2010年,博士畢業他後正式加入訊飛,並擔任語音識別方向的研究主管。

那段時間,以深度學習為代表的第三次人工智能浪潮席捲而來,語音識別核心技術和實際系統的效果都有了很大的發展空間。畢業後的幾年,劉聰一方面帶領團隊持續追求語音識別核心技術和功能的業界領先,一方面配合事業部和相關產品部門在各個行業方向努力跨越技術鴻溝,使得語音識別等相關技術在越來越多的場景下達到可用甚至好用,訊飛最早期投入應用的語音產品背後,基本上都有劉聰及其團隊的功勞。

2014 年,擔任科大訊飛研究院副院長,負責整個語音識別大方向的研發工作,同時開始負責圖文識別、醫學影像、視頻分析等計算機視覺方向的孵化和研發工作。

訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了

實現語音識別和計算機視覺之間深度學習算法框架遷移,被評“35歲以下科技創新35人”

目前,訊飛 AI 研究院的研究方向諸多,包括語音合成、語音識別、語音評測、圖文識別、醫學影像、機器翻譯、自然語言理解等多個子方向。

在這裡,劉聰的第一個研究方向,就是將語音與計算機視覺之間的深度學習算法打通。

為什麼要做這個方向呢?

劉聰說起團隊有這個想法的初衷,是從技術應用的角度來看,簡單來說,從語音到計算機視覺,深度學習只是將處理的數據從一維的語音數據切換成了二維的圖像數據,兩者在技術上具備一定的互通性。作為中國首批開展深度神經網絡語音識別研究的企業,認為這個方向能夠推進深度學習算法在感知智能與認知智能方面的進步;另一方面,作為同屬感知智能範疇的語音和計算機視覺,在語音上取得了深度學習算法的成功後,將深度學習算法在計算機視覺上推進也就變成了團隊的內在訴求。最後,結合科大訊飛人工智能產品在市場上反響不錯,產品也對核心技術提出了更高的要求,除了語音之外,對計算機視覺的需求也在加大,因此打通語音與計算機視覺之間深度學習算法,更好地滿足產品的要求,也就變得很自然了。

訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了

在智能語音處理領域取得一定成績後,2014 年,劉聰帶領團隊正式轉入計算機視覺領域。從“聽”到“看”,雖然機器的感官發生了變化,但憑藉在語音識別與深度學習領域的積累,在技術層面為二者搭起了一座橋樑。

2015 年,劉聰和團隊結合語音特性,對基於計算機視覺領域最常用的卷積神經網絡 CNN 結構進行了針對性的重構和優化,提出深度全序列卷積神經網絡 DFCNN 框架,教機器學會以“看語譜圖”的方式來進行語音識別。

訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了

DFCNN 框架

DFCNN 直接將語音轉化為一張語譜圖像作為輸入,以時域和頻域分別作為圖像的兩個維度,然後通過卷積層和池化層的組合,對整句語音輸入信號進行建模。該方法突破了傳統語音識別只能對語音短時幅度譜進行有效建模的束縛,設計了全序列卷積神經網絡結構,實現了對語音長時幅度譜和時域波形的同時建模,有利於提高建模精度。

2015 年,劉聰和團隊提出了這個將語音識別和計算機視覺之間深度學習算法框架打通的 DFCNN,那這之後,沿襲這一技術路線,訊飛又進行過新的嘗試來提高語音識別效率。在技術研發迭代期間,不可避免地會遇到一些困難,踩過一些坑。

劉聰說到,以現在的視角來看,語音識別可以分為聲學和語言分開建模的傳統語音識別和聲學語言聯合建模的端到端語音識別。在提出 DFCNN 時,語音識別還是以聲學語言分開建模為主,DFCNN 就是一種聲學模型,主要用來對發音進行建模。

在 DFCNN 之後,端到端建模思路逐漸成為新的研究熱點,並有超越傳統語音識別框架,成為新一代語音識別系統的趨勢。以基於注意力機制的編碼器解碼器的端到端建模為代表,端到端語音識別框架包含對聲學信息進行高層抽象的編碼器部分和聲學語言聯合建模的解碼器部分,編碼器就相當於傳統語音識別中的聲學模型,藉助於 DFCNN 強大的聲學建模能力,劉聰團隊研發的基於 DFCNN 的端到端語音識別系統獲得了比傳統語音識別更好的識別效果,這是 DFCNN 的成功延展。

然而,整個新系統的研發過程並不是一蹴而就。劉聰說,雖然端到端建模思路起源於機器翻譯,技術上已有一定的積累,但是具體到語音識別又面臨很多新的問題,最典型的莫過於大多數語音識別系統要求的實時識別問題,這是端到端語音識別模型要落地實際產品必須要解決的問題,機器翻譯中的端到端模型並不能滿足這一點。

面臨這一問題,劉聰團隊設計了一種新的單調遞增式的注意力算法,使得模型可以看到局部的語音數據即可進行識別,而不需要等到整句語音都來了才進行識別,從技術上解決了新系統落地實際產品的最後障礙。

關於智能語音和計算機視覺,以及將聲音、視覺、觸覺等人類感官結合起來的多模態信息處理、語音/機器翻譯等炙手可熱的研究熱點,劉聰還與 CSDN 分享了他對這些話題的洞見與看法,下面,我們就來逐一剖析這位資深技術人對未來技術方向的預判。

訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了

多模態信息處理與融合將會是大趨勢

首先是大家關注的多模態技術。隨著語音和計算機視覺技術日漸成熟,但是在一些應用場景很好地落地仍然有一些障礙,比如 AI 同傳效果因為環境等因素很難保障和專業翻譯人員的成果等效,於是在翻譯領域出現了多模態方向的研究,比如在語音識別的同時在 PPT 上使用視覺技術,將聲音和畫面結合起來,這不僅更符合人類的習慣,同時可以識別準確率,使傳達的信息更加準確。

這種將聲音、視覺、觸覺等人類感官結合起來的思路,與劉聰正在進行的語音與計算機視覺之間的互通是一回事嗎?

劉聰認為,從狹義上來講,可以說不是一回事,兩者出發點有所不同。最早訊飛做計算機視覺與語音識別之間的互通,是深度學習算法應用場景的自然延展與推進,類似的技術從語音識別的成功轉入到在視覺領域進行嘗試。

而多模態研究的興起,更多地是因為很多實際問題只用以往的純語音或者純視覺的方法很難很好地解決問題,只有更接近人處理問題的方式,給到更多的輸入信息才能把問題解決。這是兩者出發點上的一些區別,因此可以說兩者不是一回事。

但從廣義上來講,又可以說這兩者就是一件事,正是因為有很多實際問題只靠單一的語音或者視覺無法解決,產品需求對技術提出了更高的要求,因此促使研究人員必須改進核心技術,多模態研究就是一個很好的技術演進方向,從這個角度來看,兩者又可以說是同一回事。

談到多模態技術的發展,劉聰認為,以往無論是學術界還是產業界,都更多的把研究重點聚焦在單個模態的研究上,近些年隨著機器感知的軟硬件技術、通信技術以及運算能力等技術的發展,單個模態的研究在一些場景的侷限性也逐漸凸顯出來,比如語音識別領域著名的“雞尾酒會問題”,在這些場景種多模態技術相比單模態技術優勢更為明顯,這也更符合我們人類的感知特性,因此,他判斷多模態信息的處理以及融合將會是大的趨勢。

訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了

這也是訊飛目前在做的,基於多模態識別技術使得高噪、多人、遠場等複雜場景下的語音識別問題有了更好的解決方案,基於多模態合成技術的虛擬形象目前已在生成在媒體、客服等領域廣泛應用,人機交互擁有了更好的體驗。以往各領域(語音、視覺、自然語言)的研究在一些技術和方法論上具有通用性,在開始一個新領域的研究時,這些技術和方法論的積累能夠為快速遷移提供很大的幫助,而多模態研究本身更關注不同模態信息之間的融合。

此外,劉聰還認為,多模態技術的發展將會圍繞應用層、核心算法層以及硬件層三個層面展開,在應用層的研究相對較多,也取得了很多不錯的成果,而核心算法層以及硬件層的探索目前相對做的還不夠,都是值得未來深入研究的方向,比如不同模態信息直接如何更有效的互補,如何更深層次的融合,不同的任務需要哪些模態的信息,以及不同模態的感知信息如何更好的和認知相結合。

訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了

基於視覺呈現的語音交互是未來方向

如上文所說,多模態研究將會是未來研究的重點,多模態交互也自然將成為未來人機交互實現突破的關鍵點。

目前來說,基於視覺呈現的語音交互是大家研究的重要方向之一,劉聰也認為這是一個值得深入的研究點,

他認為,在有大屏的情況下,機器展現的內容通過屏幕(視覺),輸入以語音交互為主。但這並不是說“基於視覺呈現的語音交互”會完全取代“基於視覺呈現的觸摸交互”,但它會分流一大部分熱度。想象一下,當我們坐在一個大屏前,用“基於視覺呈現的語音交互”所得到的東西跟在手機上拿手指點的體驗是不一樣的。訊飛目前已經推動了智能語音技術在各種場景中的深入應用,面向智能家居、智能家電、智能玩具等領域提供遠場識別、高自然度個性化語音合成、AIUI 等人機交互解決方案和服務。

訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了

機器翻譯若想進步,還需要在這幾方面繼續探索

在智能語音領域,大家對於語音/機器翻譯的興趣只增不減。劉聰認為,隨著深度學習技術的不斷演進和大數據的不斷積累,語音和機器翻譯等技術在很多場景上已經達到好用的水平,但是事物的發展總是當我們解決一個問題的時候,總會有一個新的問題等待我們去解決。以語音識別為例,得益於深度學習和大數據,在安靜場景下,訊飛語音輸入法可以達到 98% 識別率的水平,但是在高噪場景惡劣環境下效果要差很多。比如,在號稱“史上最難語音識別任務”國際語音識別大賽 CHiME5 中,即便是作為冠軍系統的科大訊飛在包含多人語音混雜、遠場混響和噪聲的惡劣語音環境下也只能達到 54% 的識別率,與安靜喚醒的 98% 相差甚遠。

訊飛從最早把用戶配合的語音輸入法的聽寫識別做到好用,到現在逐漸把更難的遠場會議場景的轉寫識別做到好用,技術總是在不停地進步,難題也在不斷地被攻克。

“也許有一天,當我們把 CHiME 比賽場景也能做到好用的時候,真正的人工智能就快到來了,”劉聰還是比較樂觀的。

對於讓人又愛又恨的機器翻譯,劉聰有著自己的思考與觀點。

他總結,機器翻譯技術的發展經歷了最早期基於規則的方法,到上世紀 90 年代初的統計機器翻譯,再到目前最新的神經機器翻譯技術,機器翻譯在口語、通用等場景的性能已經媲美人類譯員的翻譯效果。但是機器翻譯若要取得更大進步,還需要在以下幾個方面進行持續性的探索:

  1. 多語種翻譯,目前全球現存語言超過5000種,絕大多數的語言沒有或僅有極少量平行語料,因此需要研究在數據量很少的情況下提供可用的多語種機器翻譯能力。

  2. 機器同傳,這其中需要解決語音翻譯中說話人口語化表達、口音方言等引起的語音識別錯誤等問題,同時在會議、演講等場景,還需要考慮到翻譯的時延和效果平衡問題,避免延時過大影響用戶的實際主觀體驗。

  3. 行業翻譯,針對不同的行業提供更加專業、準確的翻譯將是未來機器翻譯發展的另一個關鍵技術。

  4. 端到端語音翻譯技術,與傳統語音翻譯採用語音識別系統和機器翻譯系統級聯的方式不同,端到端語音翻譯使用一個模型對語音到文本進行直接建模。當前端到端語音翻譯由於數據量較少等原因,與傳統語音翻譯方案還有一定的差距,但其代表著更前沿的探索,代表著語音翻譯未來的新思路和新方向,也是目前我們研究的重點。

總的來說,機器翻譯應用市場規模在逐年穩步增長,機器翻譯技術越來越成熟,應用場景也越來越豐富。機器翻譯同語音識別、圖像識別等結合產生的語音翻譯、拍照翻譯等應用將不斷激活整個產業的活力,相信在未來還會產生更多更有影響力的機器翻譯應用和服務。

訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了

放飛想象,未來人機交互方式還有哪些可能性?

長久以來,有無數人都在苦苦探尋人與機器之間互動交流的奧秘,科技日新月異發展至今,我們有了巨大的進步,但是瞭解得越深,越明白我們離這個目標相差得還很遠。

未來,除了基於視覺呈現的語音交互方式之外,還會有哪些可能的交互方式?人機交互領域的技術生態會發生怎樣的改變?

劉聰認為,人機交互方式將會越來越多樣化以及多種不同方式的組合,在呈現上會越來越豐富以及個性化。除了傳統的視覺呈現方式,還可以有基於更富有感情和個人特色的語音合成技術的語音呈現方式,以及更自然的虛擬形象的擬人化視覺呈現。

虛擬形象的表達方式也可以從口唇的表達到結合表情和身體姿態的情緒表達,這樣在交互上也更自然化人性化。

“長期來看,基於語音、視覺以及觸摸多種模態信息的組合是趨勢,不僅需要理解說的內容,還需要進行用戶的情緒識別以及基於視覺的圍繞人的行為分析理解,包括表情情緒、手勢、體感等,讓機器與人類之間的交互像人類互相交流一樣,”也許如劉聰所想,等到人機交互像人類互相交流一樣自然的時候,真正的智能時代就真的來了。

訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了
訊飛智能語音先鋒者:等到人機交互與人類交流一樣自然時,真正的智能時代就來了

今日福利

遇見陸奇

同樣作為“百萬人學 AI”的重要組成部分,2020 AIProCon 開發者萬人大會將於 7 月 3 日至 4 日通過線上直播形式,讓開發者們一站式學習瞭解當下 AI 的前沿技術研究、核心技術與應用以及企業案例的實踐經驗,同時還可以在線參加精彩多樣的開發者沙龍與編程項目。參與前瞻系列活動、在線直播互動,不僅可以與上萬名開發者們一起交流,還有機會贏取直播專屬好禮,與技術大咖連麥。


分享到:


相關文章: