科大訊飛「AI同傳造假」風波:機器翻譯替代人工還很遙遠

“2018世界人工智能大會剛落幕,科大訊飛卻陷入了“AI同傳造假”的風波。9月20日,一位同傳譯員在知乎上發文稱,訊飛的翻譯其實為人工同傳,並非機器智能翻譯,並且譯文由機器進行朗讀,此事引發了媒體的廣泛關注。”

科大訊飛“AI同傳造假”風波:機器翻譯替代人工還很遙遠

科大訊飛AI同傳造假一事引起了軒然大波,業界對AI同傳的能力產生質疑的同時,也讓科大訊飛成為了輿論中心。針對此事,科大訊飛董秘江濤對外回應稱,“訊飛從沒講過AI同傳的概念,始終強調是人機耦合的模式。”

科大訊飛“AI同傳造假”風波:機器翻譯替代人工還很遙遠

科大訊飛這麼解釋同傳領域的人機耦合:“翻譯字幕上中英文同時顯示時,是嵌入式機器實時全自動同傳,單個語種顯示時是人工同傳。人工翻譯時,訊飛聽見可以幫助同傳提升效率和水平。”

按照科大訊飛的解釋,科大訊飛的機器只是起到了識別同傳人員的語音翻譯,再用AI將翻譯機器播報出來,與語音識別有關,卻與AI同傳無關。

事實上,科大訊飛並不是第一家被質疑AI造假的企業。兩年前,搜狗在烏鎮世界互聯網大會秀的一把“實時機器翻譯”現場演示,就在網絡上引發了一波“偽科技”的質疑。

大會演講現場不僅實時語音識別顯示中文內容,還有機器同步翻譯成英文,生成雙語滾動字幕。據搜狗方面稱,其機器翻譯準確率達90%,未來有望取代人類同傳。

然而搜狗現場機器翻譯不時出現的“中式英語”翻譯,甚至當中文識別出現錯別字時,英文翻譯卻毫無錯誤,這些BUG的出現不禁讓人質疑,難不成機器翻譯早已熟知稿件,而並非根據實時中文來進行翻譯?

無論是谷歌、微軟,還是百度、有道、金山等,國內外目前對於機器翻譯的準確率並沒有一個準確的數據,基本都以“翻譯錯誤降低率”來衡量其進步,而搜狗卻直接對外拋出了90%的準確率,著實令業內譁然。

機器翻譯的烏龍鬧劇並未停止。今年4月,博鰲亞洲論壇有4場分論壇應用了騰訊AI同傳,結果騰訊AI同傳現了單詞亂碼、連續出現同一個單詞的卡機狀況。更為嚴重的是,騰訊AI同傳將“一帶一路”變著花樣翻譯成了好幾種不同的說法,因此只能緊急應召同傳譯員來救場。

AI機器翻譯實際水平如何?

無論是科大訊飛的AI同傳造假事件,還是搜狗、騰訊的機器翻譯事故都讓人困惑,一直鬧得火熱的AI同傳停留在了什麼層次?距離同傳人員“被下崗”還有多久?

從目前AI同傳在大會上的表現來看,同傳人員目前依然是同傳領域的主力軍,還要頻頻為出意外的AI君救場。在同聲傳譯領域,AI需要正視這些事情。

科大訊飛“AI同傳造假”風波:機器翻譯替代人工還很遙遠

AI機器翻譯的準確率有多高?

評價AI機器翻譯內容質量的好壞,國際上有一些方法,除了人工評測,也有多種自動評測方法有,其中,IBM的watson研究中心在2002年提出的BLEU方法被業界較為廣泛認可。

參考《機器翻譯及其評測技術簡介》的說法,BLEU方法就是比較候選譯文(candidate)與參考譯文(reference)中相同的片段數量。其思想是用翻譯結果中連續出現的N元組( n個單詞/字或標點)與參考譯文中出現的N元組進行比較,計算完全匹配的N元組的個數與翻譯結果中N元組的總個數的比例。

然後,作者使用一個測試語料,讓2個翻譯專家和3個機器去翻譯,也就是它允許一個原文有多個參考譯文。但請記住,對於機器翻譯的準確率沒有一個絕對值,而是以“翻譯錯誤降低率”來衡量自身技術的成熟度。

不過對於AI而言,如果要提高其準確率,首先得保證它你能“聽得懂”和“聽得清”。

機器翻譯技術被檢驗過了嗎?

之前搜狗機器翻譯之所以被嘲笑,另一個原因就是未經驗證,這其中最大的BUG是技術還未獲得足夠量級的測評,也就是技術的成熟度未經市場驗證。比如有媒體就直言“從始至終,搜狗實時機翻的用戶只有王小川一人。”

所以“光說不練假把式”,技術不能被釘在牆上當作菩薩拜,AI要真正取代人工,做同聲傳譯、寫作等人類高複雜的工作,就得先應用到實戰中來。

機器缺失的情感因素怎麼補?

語言是門藝術,是活的,是有起伏有感情的,只有放在一個大的語境下面才可能被完全準確理解。即便是同一句話,放在不同語境下表達的也是不同的感情色彩,對應的翻譯也就不同。

也許,AI機器能達到95%準確的翻譯,但是那剩下5%的感情,又該如何表達出來呢?這5%的情感就可能造成一定的理解障礙甚至是誤解。

要讓這些機器表達出這些情感因素,最基礎的前提是AI需要提高語境理解能力。目前智能翻譯對於中文複雜含義句式中的時態辨別能力還不夠,往往需要充分理解整句話的意思才能準確把握時態。

但智能翻譯並非基於理解,而是基於統計學與語料庫,只能做到將這句話意思大致翻譯準確,所以在識別感情色彩方面,還需加強。

口語化能特殊處理嗎?

前面說,要提高AI翻譯的準確率,需要保證能“聽得懂”和“聽得清”,這不僅要求AI能準確判斷出被翻譯對象(如演講者)的語音、停頓,並在極短時間內進行“語音斷句”,還需要在涉及一些模糊音時能夠根據“上下文”進行及時調整,更棘手的是要讓A能靈活處理一些特殊情況,比如口語。

要應付這些複雜情況,AI需要大量補充口語化語料,並且需要改變直譯方式,讓機器翻譯真正智能起來。

事實上,同聲傳譯需要有極高的資格才可以擔任。在同聲傳譯中,譯員需要遵循順句驅動、隨時調整、適度超前、信息重組、合理簡約、信息等值等基本原則,此外,由於演講者講話速度普遍較快,演講中可能摻雜各地口音和方言,同傳譯員還需要調動自己的一切知識儲備和經驗全力以赴。

看來用機器取代人類同傳的高調口號在短期內還只是空談。神經機器翻譯系統目前所能做的只是優化翻譯結果,並不是萬能藥,將其作為黑科技大書特書,過分拔高人們對於機器翻譯實際水平的期待,實際上並不可取。

不僅僅是科大訊飛、騰訊、搜狗,所有的人工智能應用和公司都應該正視人類和機器真正的差別,這不僅僅是一場技術誰優誰劣的較量,更是一場如何理解人和人的需求的對壘。如果科技公司給予人們太多不切實際的幻想,那麼無形中也將透支著公眾對於AI的興趣。


分享到:


相關文章: