搜狗獲得Blizzard Challenge 2018語音合成大賽冠軍

近日,在剛剛落幕的“Blizzard Challenge 2018 ”語音合成大賽上,來自中國的新銳隊伍搜狗公司首次參賽,就一舉戰勝諸多國際頂尖科研機構,獲得了可懂度和語音停頓兩項任務中排名第一的優異成績。這充分體現了搜狗在語音技術領域的領先地位,彰顯了搜狗在人工智能行業的積累成就。

語音合成技術,挑戰人工智能的表達能力

Blizzard Challenge (以下簡稱BC),是語音合成領域最具權威性、廣泛性的國際評測比賽。該賽事由美國卡耐基-梅隆大學(Carnegie Mellon University)、日本名古屋工業大學等聯合發起的公開的語音合成技術的評測平臺,加強世界各地語音合成研究機構之間的交流與溝通,促進語音合成技術的深入發展。

Blizzard Challenge始於2005年,作為國際上規模最大、影響力最大的語音合成大賽(英語為主),每年都吸引眾多國際一流的科研單位和一流企業參賽,包括CMU(美國卡耐基-梅隆大學)、Cambridge University(英國劍橋大學)、University of Edinburge(英國愛丁堡大學)、Nitech (日本名古屋工業大學)、科大訊飛、中科院自動化所等國內外語音合成領域的頂尖高手。

語音合成又稱文語轉換技術(簡稱TTS),能將任意文字轉化為清晰自然、富有表現力的語音朗讀出來,相當於給機器裝上了人工嘴巴。它涉及聲學、語言學、數字信號處理、計算機科學等多個學科技術,是信息處理領域的一項前沿技術,受到了國內外各大科技公司的爭相研究,被廣泛應用在智能客服、新聞播報、語音導航等眾多場景之中。

技術為先,搜狗領跑AI前沿賽道

某種意義上來看,誰在語音合成技術上佔據優勢,誰就很可能搶先完成AI應用的突破。

由於今年BC 2018的數據與2017年完全相同(2016年僅提供了部分),許多企業和研究機構連續多年參賽,有豐富的數據積累和實戰經驗。而搜狗作為新銳隊伍首次參加比賽,在時間緊、對手強的困難條件下,憑藉紮實過硬的技術積累,最終在可懂度和語音停頓兩項任務中排名第一,而搜狗之所以能取勝,離不開在合成技術的持續投入和積累。

搜狗獲得Blizzard Challenge 2018語音合成大賽冠軍

圖 1. Sogou speech synthesis system

我們知道,AI離不開數據的訓練。搜狗充分利用大數據語音資源進行模型訓練,保證輸出聲學特徵的穩定性。由於本次比賽所用的音庫規模小、表現力強,搜狗還對合成系統(見圖1)的各個模塊,包括特徵選擇、前端文本分析、時長模型及聲學模型,都進行了針對性優化,進一步提升合成語音的整體效果。同時,使用先進的WaveNet(見下圖)波形建模技術替換傳統的聲碼器,使合成語音音質更加接近原始錄音。

搜狗獲得Blizzard Challenge 2018語音合成大賽冠軍

(The WaveNet model architecture Sogou used)

任何技術的推動,都少不了生活場景中的呈現,語音合成技術之所以意義重大,正是由於它有著非常廣泛的垂直場景應用,屬於AI行業的前沿陣地。早在2012年,搜狗就開始語音合成技術的研究,經過多年的技術沉澱和數據積累,目前已具備多語種多音色的語音合成能力,並在業內首推個性化語音合成和情感遷移的技術,用戶上傳少量音頻,即可合成高質量的個性化音色,並且能快速遷移成多種講話風格(相聲貫口、唱歌、繞口令等),合成效果達到國際領先水平。搜狗語音合成廣泛應用於搜狗汪仔、糖貓、搜狗翻譯機、搜狗百科、立知等眾多軟硬件產品,與海爾、蔚來汽車、央視財經等公司也有深度合作,真正實現了讓機器像人類一樣去表達信息。

毫無疑問,在語音合成領域搜狗已佔據了技術優勢,並搶先完成了市場應用的產品佈局。

未來,搜狗的AI之路將通向何方?

搜狗CEO王小川就曾說過:“搜狗構造自己的AI 能力,就是以語言為核心,上層是感知系統——包括語音與圖像,下層包括對話、翻譯、問答,這是搜狗整體理解AI的切入點。”

王小川的這段話,正是搜狗AI戰略的最好詮釋。

此前,搜狗就取得了WMT2017國際機器翻譯大賽的第一名,從愛丁堡大學、加拿大的NRC、俄勒岡州立大學、羅徹斯特大學、烏普薩拉大學、美國空軍研究實驗室等20多家國際知名的機構中脫穎而出。而在上個月,搜狗的視覺研究團隊獲得CVPR WAD2018 挑戰賽冠軍,代表中國向全世界展現了“目標檢測技術”的成就,掌握了人工智能的“眼睛”,決定了機器的行動力與判斷力。

這一次,搜狗在Blizzard Challenge 2018上獲得語音合成大賽冠軍,無疑是更進一步彰顯了自身的技術優勢。

佔據了行業領先地位的搜狗,堅定的在AI領域開拓著自己的道路,今年更是在智能硬件領域大展身手。2018年3月,搜狗推出了搜狗旅行翻譯寶,具備離線翻譯功能與拍照翻譯功能,讓馬化騰都忍不住心動的買了一臺。作為首款智能翻譯硬件,它支持42種語言對話翻譯,解決了旅遊場景中用戶聽不懂、看不懂、不會說等真實痛點。該項產品在京東平臺首發當日即告售罄,首日銷售額破千萬。與此同時,搜狗還推出了錄音翻譯筆,提供錄音轉寫、對話翻譯、同聲傳譯等功能,把AI同傳落地到了消費級產品之中,開啟了“人人都能擁有同傳”的新時代。

在這條人工智能的道路上,以搜狗為代表的國產科技巨頭公司,已佔據了技術方面的領跑優勢。我們期待,未來還能感受到更多的AI驚喜。


分享到:


相關文章: