搜狗給AI同傳加上“眼睛”和“語境引擎”,讓AI能看懂PPT會思考

曉查 發自 凹非寺
量子位 出品 | 公眾號 QbitAI

2019年即將過去,搜狗在語音技術的落地應用上不斷突破,在12月的最後幾天,搜狗又秀出了今年的最後一件“神器”——搜狗同傳3.0

搜狗同傳3.0可以像人類一樣,從語音和圖像中獲取信息,不僅會聽,還能同時看圖、查資料,從而提高了同聲傳譯的準確性,在AI同傳落地應用中屬首創。

尤其是面對專有名詞、專業術語較多的場景,相比傳統只依賴語音的技術,搜狗同傳3.0針對PPT內容將翻譯的正確率提升了40.3%

搜狗給AI同傳加上“眼睛”和“語境引擎”,讓AI能看懂PPT會思考

而且這項技術不需要複雜的硬件升級,只需一臺帶有攝像頭和麥克風的筆記本電腦即可實現。這讓未來不同語言之間的無障礙電話會議成為可能。

前不久,在北京的某一場科技大會上,搜狗同傳3.0強大的能力得到了驗證。它快速準確地翻譯了王小川的演講內容,並將知識圖譜同步顯示在屏幕上。

即使演講內容中有大量的互聯網、科技行業屬術語,也沒有難倒它。

搜狗給AI同傳加上“眼睛”和“語境引擎”,讓AI能看懂PPT會思考

早在2016年的世界互聯網大會上,搜狗同傳就完成了第一次亮相。經過了3年的迭代升級,搜狗同傳3.0,集成了哪些最新的技術突破呢?

近日,在搜狗同傳的一場交流會上,搜狗AI交互技術部總經理陳偉告訴我們,之前的AI同傳都只是聽,而搜狗同傳3.0是目前業內首個推出的多模態同傳技術,在同行中處於領先地位。

多模態同傳,即AI獲取信息的渠道不再是語音,還包含圖像等其他內容。這種多模態的交互方式是搜狗一直堅信的趨勢,也是與人最自然的一種交流方式。

實現這一切的是搜狗的語境引擎,是它為演講者構建了個性化的認知語境。

語境引擎基於搜狗知識圖譜和百科的知識推理能力,將OCR獲取的PPT內容自動生成核心知識。

然後通過搜狗的知識圖譜——“搜狗知立方”進行實時推理拓展,獲取背景知識,同時基於搜狗百科的中英術語庫得到中英雙語對照,優化同傳識別和翻譯的效果。

語境引擎能夠讓AI同傳跟隨演講者一起“思考”,是搜狗在該領域的一大技術創新。

讓AI同傳會看會思考

搜狗給AI同傳加上“眼睛”和“語境引擎”,讓AI能看懂PPT會思考

大會同傳,是搜狗為多模態語音識別找到的第一個商業落地化場景。

業內通常只是把語音識別+翻譯技術硬套在這個場景中,未做任何優化。

搜狗注意到,同傳的應用場景,大多是一些專業的商業、學術會議場合。以往的AI同傳一般只適用於通識場景,遇到專業的術語則無能為力,而術語往往又是理解語義的關鍵所在。

其實,AI也可以從人類的交互方式中汲取經驗,這就是搜狗同傳3.0的設計思路。搜狗把其中用到的技術叫做“語境引擎”

而大會同傳的一個特點是,觀眾獲取信息的途徑不僅有語音,還有圖片和文字等語境信息。這種多模態的交互方式正是搜狗過去所擅長的。

看,是搜狗也是業界第一次賦予AI同傳視覺能力。基於搜狗的OCR技術,搜狗同傳3.0在聽取演講者語音的同時,還能將屏幕上的PPT圖像轉化為文字。

想,是搜狗將PPT中的文字內容進行理解,提取知識,再在核心知識上做推理,進而擴展出整個演講的領域知識,對同傳內容進行個性化的加強。

搜狗給AI同傳加上“眼睛”和“語境引擎”,讓AI能看懂PPT會思考

搜狗的輸入法為語音識別積累了技術,搜狗的搜索引擎、百科詞條又為搜狗積累了大量的知識信息,讓搜狗能夠打造自己的知識圖譜“知立方”,最終在大會同傳這一特殊場景下得到落地。

在圖像識別、知識圖譜的加持下,搜狗同傳3.0相比傳統技術,針對PTT內容語音識別正確率提升了21.7%;在而在翻譯的正確率上,搜狗同傳3.0更是提升了40.3%。

搜狗同傳的進化之路

搜狗同傳發展到3.0不是一蹴而就,是在不斷的技術探索、落地實踐中完成了產品的升級。

從1.0到2.0,搜狗同傳已經陸陸續續支持上千場的同傳的會議,有數千人使用了搜狗同傳,大量的實際應用場景為搜狗積累了寶貴的經驗和數據。

陳偉表示,在2.0時代,搜狗就已經考慮到了針對同傳演講內容的個性化定製,比如提起獲取演講者的PPT內容來建模。

搜狗給AI同傳加上“眼睛”和“語境引擎”,讓AI能看懂PPT會思考

但是由於種種原因,提前獲得完整演講資料很困難,每場演講做個性化定製也不利於提升AI同傳的泛化能力。

搜狗本身在搜索引擎上的積累,為AI同傳的升級帶來了新的思路。3.0版就是利用OCR技術提取的文字和搜狗百科中的中英詞彙進行對比,從而優化了同傳的識別和翻譯效果。

搜狗同傳3.0的進化不僅僅是正確率的提升,更重要的是標誌著搜狗同傳技術已經從單純的語音,變成“語音+視覺+大腦”的全方位多模態感知系統。業內除了搜狗外,還沒有一家公司能做到這一點。

在縱向的對比中,搜狗同傳翻譯能力相比前代提升明顯。

搜狗給AI同傳加上“眼睛”和“語境引擎”,讓AI能看懂PPT會思考

據搜狗同傳的產品總監張晶晶的介紹,針對某一個論壇的數據評測可以看到,2.0版在同傳中的得分是3.41分,3.0版的得分是3.82分,而人類得分是4.08分,搜狗通過“語境引擎”一舉將人類和機器的差距縮小了60%以上。

多模態交互的下一步

搜狗認為,多模態技術是未來人機交互的發展方向。從搜狗同傳的技術升級之路中,我們也可以看出搜狗下一步的計劃。

陳偉說,搜狗同傳3.0展示了搜狗在AI方面的核心競爭力和技術驅動創新上的成果。

軟件方面,2018年的IWSLT國際口語機器翻譯評測大賽上,搜狗擊敗訊飛、阿里、APPTEK、AFRL及KIT等國內外多個對手,獲得第一就是能力很好的證明。

近期,搜狗在OCR識別權威比賽ICDAR2019挑戰中,刷新了任意形狀文字識別(ArT)中檢測、識別、端到端三項任務的新記錄,充分體現了搜狗在文字識別領域的領先優勢。

硬件方面,搜狗並沒有貿然進入白熱化的智能音箱市場,而是另闢蹊徑開闢了智能錄音筆這個新的AI硬件戰場,並且成為其中最大的玩家。為將來推出多模態硬件產品積累了經驗。

同時,作為一家以搜索引擎技術起家公司,搜狗在知識圖譜上具有得天獨厚的優勢。

以上這些技術和商業上的經驗,都可以反哺搜狗的多模態交互。

在過去的一年裡,搜狗已經完善了多模態的輸出(虛擬主播),今天搜狗開始向多模態輸入(同傳3.0、語境引擎)的落地邁出了第一步。未來完整的多模態交互生態會是什麼樣?或許2020年搜狗會給我們答案。

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態


分享到:


相關文章: