08.13 阿里這個神祕團隊:拿下5項全球冠軍,還要再造一座“通天塔”

阿里這個神秘團隊:拿下5項全球冠軍,還要再造一座“通天塔”

他們要讓商業沒有語言障礙,打贏再造“通天塔”的“軍備競賽”。

文|劉卓然

跨境電商市場越來越大,商家們也遇到了新問題。以阿里巴巴國際站為例,七成買家以英語溝通,剩下三成的小語種,卻難住了平臺上近96%的賣家。

“翻譯和本地化都做不好,說明你對海外市場根本不重視,還想怎麼品牌出海?”一米八大高個的李兮芝,語速極快,說話從不繞彎。

李兮芝是阿里巴巴國際貿易事業部(ICBU)阿里語言服務總經理,對商家的痛點了如指掌。講到最棘手的案例,他會立刻站起來,抄起一支筆,在會議室的白板上演示一番。

阿里這個神秘團隊:拿下5項全球冠軍,還要再造一座“通天塔”

阿里巴巴國際站用戶溝通語言現狀

坐在李兮芝一旁的駱衛華,語速要慢許多。2014年1月,中科院計算所出身的駱衛華,加入了阿里,如今是阿里巴巴達摩院翻譯平臺負責人。

今年5月,在全球機器翻譯領域影響最大、水平最高的WMT2018評測中,駱衛華帶領的翻譯技術團隊一舉拿下5個語言方向的冠軍,成為比賽的最大贏家。

與谷歌、微軟、百度等做不區分場景的通用翻譯不同,阿里選擇在電商場景的翻譯上發力。目前,阿里機器翻譯已支持21個語種的48個語言方向的翻譯,日均使用量已達到7.5億次。除了支持離線及文字翻譯,還支持實時語音、圖片以及視頻翻譯,應用於阿里巴巴國際站、速賣通、LAZADA、菜鳥、阿里雲、釘釘、飛豬等40多個業務部門。

“首先在電商場景下,我們要把機器翻譯做到最好。”駱衛華說,但在未來將不侷限於電商翻譯。

沒有硝煙的“軍備競賽”

《聖經》舊約中,人類曾聯合起來搭建通往天堂的高塔,上帝為了阻止這一計劃,讓人類說上不同的語言。沒過多久,無法溝通的人類便四散而去。

阿里這個神秘團隊:拿下5項全球冠軍,還要再造一座“通天塔”

回溯機器翻譯的源頭,不難發現,這是一場為了再造《聖經》中“通天塔”而展開的“軍備競賽”。

冷戰時期,蘇聯和美國的科學家就曾在機器翻譯上有過幾番較量。當時,機器翻譯領域的主角是懂得英俄雙語的語言學家,他們試圖為計算機編寫出一套雙語規則。“但問題是,規則和規則之間存在大量衝突,在實際應用中會出現大量異常情況。”

駱衛華說,很長一段時間,機器翻譯都被侷限在編寫規則的泥淖中,直到上世紀90年代,才被IBM Watson研究中心提出的統計機器翻譯所取代,程序員開始取代語言學家,站上了機器翻譯領域的主舞臺。

2014年,蒙特利爾大學計算機系博士後Kyunghyun Cho等人關於將人工智能底層模型“神經網絡”應用於機器翻譯的論文,又一次吹響了翻譯技術革命的號角。這一年,各大互聯網公司開始大舉投入,諸多優秀的學者和學生陸續加入谷歌、亞馬遜、臉譜和BAT。

在中科院學習和工作近12年的駱衛華,在“糾結一段時間後”,也決定跳出學術圈,選擇加入阿里,去實現將技術真正落地的夢想。“以前在實驗室的主要任務是發paper(論文),做課題,只有這個領域的人才會關心,但現在每天有幾千萬人在實際使用你的產品,這種感覺是完全不一樣的。”

阿里這個神秘團隊:拿下5項全球冠軍,還要再造一座“通天塔”

2014年,駱衛華加入阿里

不同於大多數在通用翻譯領域廝殺的玩家,阿里機器翻譯團隊以核心電商場景為起點,為整個國際化業務提供本地化解決方案。

“項目很多,得排期。比如,2、3月做釘釘的項目,4、5月要做速賣通項目。”駱衛華說,除此之外,團隊還會時不時會接到十萬火急的需求。比如,去年雙11之後,團隊曾用兩個星期,與菜鳥團隊一起加班加點編寫了一套報關自動翻譯產品,“後來菜鳥評估說,整個報關成本下降了90%。”

難的不止是翻譯

說到機器翻譯,除了算法模型,大量的樣本數據是非常重要的。這也恰恰是阿里的優勢所在。

“舉個例子,‘Photo Print’這個詞在通用語境下會被翻成‘照片打印’,但你知道它在紡織面料行業裡是什麼意思嗎?”李兮芝接著說,“這是‘熱轉印印花’工藝的一種,翻成照片打印就貽笑大方了。”

阿里本身沉澱了大量電商領域相關的數據,機器翻譯團隊進一步梳理出10億級別的雙語平行語料、億級別的電商雙語平行語料、千萬級電商知識庫,以及大規模行業多語言術語庫。

然而,語言上的準確翻譯只是第一道難關,更困難的是通過算法實現文化、法律、經濟、宗教等層面的本地化落地。

一個案例讓李兮芝印象深刻。“同樣是10萬,英美國家千位分隔符用逗號,標成‘100,000’;但法國、西班牙的千位分隔符是句號,逗號用來標小數點,10萬在法國得標成‘100.000’,如果標成‘100,000’就表示是100了。”這類大額數字在阿里巴巴國際站經常出現,曾經出現過中國賣家因為沒有將數字本地化,而被買家投訴的情況。

阿里這個神秘團隊:拿下5項全球冠軍,還要再造一座“通天塔”

阿里巴巴ICBU語言服務總經理李兮芝

今年4月,主打男裝的國內服飾品牌英爵倫,加入了阿里旗下的東南亞電商平臺Lazada上的“淘寶精選”(Taobao Collection)計劃。Lazada通過自動抓取天貓店的產品,幫助品牌拓展東南亞市場。“我們天貓店商品標題是全中文的,沒想到Lazada能自動翻譯成英文。”英爵倫跨境電商負責人劉晨芳說,“最重要的是,機器自動翻譯的英文品牌名‘Enjeolon’,和我們真實的英文名分毫不差,太神奇了。”

阿里這個神秘團隊:拿下5項全球冠軍,還要再造一座“通天塔”

英爵倫發現,品牌名英文名翻得分毫不差

劉晨芳不知道的是,Lazada這套自動翻譯系統也是由阿里巴巴機器智能翻譯團隊開發出來的。翻譯系統還改寫了標題,讓產品描述看上去更加接地氣。

“淘系商品標題沒有固定格式,由N個熱搜詞組成,但不是一個完整的句子。要是直接翻譯,海外消費者壓根看不懂。”李兮芝說,這種沒有上下文信息的標題翻譯,不論對人還是對機器,都是極大的挑戰。“我們曾經找來專業人工譯員翻譯標題,結果譯員翻到一半不幹了,根本看不懂。”

後來,團隊通過融合多種自然語言處理和文本生成技術,攻下了商品標題改寫的難題。像英爵倫這樣的中國品牌,不用擔心Lazada上的東南亞買家會因為看不懂標題,而放棄購買商品。

今年5月,阿里巴巴正式上線對話實時翻譯功能,這也是全球電商領域的首個實時翻譯AI產品。“無障礙的跨語言溝通明顯增加了阿里巴巴國際站的用戶粘性。我們期望賣家不再需要為了做某一個國家的生意而專門聘請會那國語言的專職人員。”李兮芝說。除了用戶體驗的提高,阿里機器翻譯還為旗下國際電商平臺帶來了明顯的流量、轉化率和購買率增長。

阿里這個神秘團隊:拿下5項全球冠軍,還要再造一座“通天塔”

阿里巴巴實時翻譯系統

“機器翻譯是塊非常難啃的骨頭。但如果我們真要實現全球買、全球賣,就必須要花精力去做。”李兮芝說。

解放,而非替代人工翻譯

今年5月23日,WMT2018國際機器翻譯大賽,首次參賽的阿里巴巴達摩院機器智能-NLP翻譯團隊拿下5項冠軍,包括英文-中文翻譯、英文-俄羅斯語互譯和英文-土耳其語互譯項目。

阿里這個神秘團隊:拿下5項全球冠軍,還要再造一座“通天塔”

阿里巴巴達摩院機器智能-NLP翻譯團隊

作為全球最具權威、已舉辦13次的機器翻譯大賽,WMT(Workshop on Machine Translation)成為了各大科技公司和學術機構的競技場。2018年的大賽競爭格外激烈,吸引了霍普金斯大學、愛丁堡大學、微軟、阿里、騰訊、小牛翻譯等幾十個機器翻譯團隊參與。

“WMT大賽的文本主要是新聞題材,參賽團隊要在截止日期內上傳機器翻譯的成果。”駱衛華說。競爭很激烈,整個行業提升也特別快,例如在競爭最激烈的英中翻譯任務,去年最好的成績在今年可能已經排不到前幾名了。

“中英翻譯還好,起碼我們知道哪裡翻得有問題。但像土耳其、俄羅斯語這樣的小語種,我們完全看不懂,只能完全拼算法、拼模型。”駱衛華說,在小語種機器翻譯領域,以前一直是由國外的公司與科研機構一直保持領先地位。“小語種的雙語語料是很稀缺的,但阿里全球化的目標要求我們必須從技術層面做突破,用更少的數據,在專業領域上翻得更準確。”

談到機器翻譯和人工翻譯的關係,駱衛華和李兮芝都贊同一個觀點:阿里的機器翻譯最終的目的,不是為了替代專業,而是為了解放專業的人工翻譯。

隨著機器翻譯技術的不斷突破,傳統人工翻譯正逐漸變為一個“搬磚”行業,充斥著大量重複低效的勞動。“1995年,翻譯一篇1000字的中到英文本,譯員的收入可達600元人民幣。”李兮芝說,但在今天,同樣字數的文本,甚至低到只有50元的收入。

低廉的人工翻譯報酬,正在把專業譯員推向價格更高的專業技術翻譯領域。然而,這些領域的文本,由大量專業術語和範式行文構成。“人類不擅長記憶專業詞彙,但機器擅長。”李兮芝說,人工翻譯的長處在於“創造性的智慧”,以及對文化背景的深刻了解。“翻譯講究信達雅,機器目前最多能做到‘信’和‘達’,像文學翻譯、口語俚語、本地化的慣用表達等等,還是需要人工翻譯。”駱衛華說。

今年1月,阿里巴巴國際站向平臺所有供應商,免費開放了一款AI實時翻譯系統。商家輸入的語音或文字,能自動轉變為翻譯好的目標文本。為了增強翻譯的準確性,加入人工修正的干預功能。比如,商家如果有更地道的表達方式,可以進行翻譯訂正,以彌補神經網絡翻譯系統現階段存在的問題。

下一步,阿里機器翻譯在迭代優勢電商場景的同時,還將向新的領域拓展,同時完善產品矩陣,支持文本、語音和圖像等多模態翻譯,並最終對外開放API。“我們希望把阿里巴巴全球化過程中的經驗沉澱下來,最後打包輸出,賦能給整個社會。讓商業沒有語言障礙,讓天下沒有難做的生意。”李兮芝說。


分享到:


相關文章: