百度的這款共享WiFi翻譯機,能彌合橫亘千年的人類語言鴻溝嗎

日前,上月亮相百度世界大會的一款「黑科技」產品「百度共享WiFi翻譯機」正式發佈。這款翻譯機之所以引發眾多關注,不僅由於其在翻譯的同時還具有 Wi-Fi 功能,更是因為,在這個翻譯機器裡,人工智能扮演了重要角色。

根據相關媒體報道,支撐這款產品的,即包括通用 N-Gram 識別模型,還擁有了近十萬個小時、數千億網頁資料的數據訓練,從而也保證了高達 97% 的翻譯準確率。

百度的這款共享WiFi翻譯機,能彌合橫亙千年的人類語言鴻溝嗎

眾所周知,語言可謂人類文明的基石。正是語言能力,才讓人類具備了成為高等動物的可能性,同時也因為不同語言的隔閡,在一定程度上阻礙了世界各國的交流和合作。過往相當長的歷史裡,人類為了「重建巴別塔」(《聖經·創世紀》記載,人類早期擁有共同語言並一起修建一座通天塔)作出各種辛勤努力,而縱觀人類歷史上每一次重大的文化、技術突破,無不是來自不同語言之間的轉換、翻譯所共同鑄就的成果。

如今,人工智能正在成為人類語言翻譯的全新助手,這既是人類文明交流的現實需要,也是人工智能進一步發展的必然選擇。

1.為什麼人工智能需要翻譯

翻譯之於人工智能的歷史可謂源遠流長,自 1956 年人工智能被「創造」出來之後,一代代的數學家、計算機學家孜孜不倦地追求智能的本質,其中就包括如何讓計算機理解語言,同時在不同語言之間作出轉換。事實上,當信息技術理論開拓者克勞德·香農為信息設立「刻度」之後,所謂語言的理解、翻譯也就成為信息編碼之間的轉化。

表面看起來,語言之間的翻譯似乎就是一個語言密碼加密/解密的過程,但絕非如此簡單。

其原因就在於,早期針對語言翻譯的研究,都是建立在不同語言之間的轉換規則之上。在語料庫比較少的時候優勢非常明顯,早在 1954 年,美國喬治敦大學就利用俄語和英語之間的規則,成功地將 60 句俄語翻譯為英語,一度引發轟動效應。

但研究者們卻發現,當語言之間的規則、語句數量增加時,這種基於統計學層面的機器翻譯幾乎不可用,一方面是因為不同語言之間轉換規則的數量級龐大,而且這種規則也往往不具備通用性,這意味著,就算你制定了英語轉換德語的規則,還要從零開始制定從英語到法語的規則,如此種種,無窮無盡。另一方面,當時的計算能力也無法滿足各種規則的轉換需求,整個翻譯過程速度慢、效果差,效率非常低。

某種意義上說,機器翻譯的失敗也是數次「人工智能寒冬」的因素之一,同時其涉及計算機、認知科學、語言學、信息論等學科,從而成為人工智能研究者們努力攻克的命題,而歷史轉折點也在一代代人的努力中到來了,這就是基於神經網絡的機器翻譯。

早在 2015 年 5 月,全球首個基於深度學習的大規模在線翻譯系統出現在百度的在線翻譯服務裡,利用深度學習帶來學習、進化能力,機器翻譯的質量和速度開始有了巨大提高。當然,正如百度副總裁、AI技術平臺體系總負責人王海峰所言:儘管基於神經網絡的機器翻譯很火熱,傳統的機器翻譯方法仍有價值。統計機器翻譯方法需要從詞,到短語,到句子一層一層去做對齊、抽取、重排序等等;而神經網絡翻譯模型則可以是端到端的系統,用足夠的語料去訓練,就可以得到不錯的結果。

也正是這種新舊的有效結合,不僅成就了百度在機器翻譯的優勢地位,也是包括 Google 、Facebook 在內的行業公司所認可的方向。如今,當一談起機器翻譯時,曾經與翻譯可謂毫無關係的百度等互聯網巨頭已經具有不小的話語權,Why?

回答這個問題的關鍵就在於如何理解互聯網公司、深度學習以及語言翻譯的本質。

上文提到,對於計算機的來說,語言翻譯的本質是計算機理解人類語言之後的編碼轉換;深度學習發展的重要一環是需要海量數據,而數據恰好也是百度、Google 等互聯網公司的天然優勢。以百度為例,作為中文互聯網領域的重要入口,具有海量的中文網頁數據,這就給自然語言處理以及機器翻譯提供了海量的訓練語料。

而且,百度自 2015 年就有相關產品的佈局,這種先發優勢直接帶來的就是用戶形成的巨大慣性。考慮到百度龐大的用戶群體,每天數以億計的翻譯次數反過來又會形成訓練機器的新數據,從而形成了一個正向反饋,其結果就是,用戶越用發現這個翻譯系統也越聰明,也會更喜歡使用。

其次,深度學習被工業界廣泛接受後形成了巨大的影響力,推動了整個自然語言理解技術架構的演進,從而也讓機器翻譯受益頗豐。

比如百度過去幾年依託海量數據、機器學習,支撐起了知識圖譜、問答、機器翻譯的全新架構體系,同時自然語言處理廣泛應用在百度搜索、Feed 流、廣告等產品中。此外,這種來自底層技術架構進步所形成的子技術生態效應也是這幾年整個行業發展的突出特徵,比如Facebook 就利用這種效應實現了 FB 用戶主頁任意語言之間的翻譯。

第三,當全行業都在喊出人工智能轉型之時,百度、Google 這樣的互聯網巨頭也在釋放其全新的人工智能平臺紅利。百度自 2017 年宣佈「AI in ALL」以來,包括機器翻譯在內的眾多人工智能產品正在成為不同行業的賦能產品。

在百度的翻譯開放平臺中,不僅涵蓋了通用翻譯和定製化翻譯的 API,還提供了拍照、語音翻譯的 SDK,這些開發接口能夠幫助不同行業開發者們快速實現高質量的機器翻譯需求,而對平臺來說,這些來自開發者們的熱情以及需求反饋也會形成進一步改進產品開發的動力,也更容易推動產品研發週期加快、功能更全。

3.寫在最後:一個普通人都可以享受 AI 的時代

如果把視線切回這款新發布的翻譯機上,或許我們還會提出一個疑問:我們真的需要一臺專屬的翻譯機嗎?

這個問題的答案並非只有「是」或「否」那麼簡單,因為類似的問題你還可以提出更多,比如我們真的需要一臺專屬的音頻設備(音箱)嗎?畢竟,智能手機能做的事情似乎更多。但正如智能音箱的流行一下子降低了語音交互的門檻,讓越來越多的用戶進入到全新的人工智能交互時代一樣,一臺專屬翻譯機所帶來的,更在於讓機器翻譯——這個聽起來高端大氣的名詞走入尋常百姓家。畢竟,不是每個人都習慣使用智能手機打開一款款翻譯應用,而這一切放在中國出境遊年年創新高的宏大社會語境下或許更具現實意義。

正如上文所言,2017 年是互聯網巨頭力推的「AI 民/主」之年,一方面,百度也好、Google 也罷,不遺餘力的將人工智能的開發門檻降低降低再降低,吸引越來越多的開發者加入到人工智能的開發之中;另一方面,從智能音箱的流行到專屬翻譯機的出現,也讓普通用戶享受到了語音交互、自然語言處理以及機器翻譯進步所帶來的產品紅利,這不僅讓人想起不久前百度世界大會上的主題:「Bring AI To Life」,而我們也有理由期待未來越來越多的奇蹟出現。


分享到:


相關文章: