搜狗輸入法“變聲”功能:最難的那條路,往往最正確

1994年,31歲的漫畫家青山剛昌畫下一個男孩,他頭戴大眼鏡,身穿小禮服,頭腦超群,精於破案。此後20多年,這個男孩的形象火遍世界,大家都知道他的名字:江戶川柯南。動漫故事裡,柯南擁有一個神奇的變聲領結,利用它,他可以偽裝成任何人,而誰也不曾想到,青山剛昌這充滿想象力的設計,竟能在今天變成現實。

搜狗輸入法“變聲”功能:最難的那條路,往往最正確

近日,搜狗輸入法上線了“變聲”功能,在它的幫助下,未來的語音聊天,我們終於可以“化聲”為任何人任何角色的聲音,從星爺、小豬佩奇到可愛蘿莉,都可以隨意切換,讓溝通成為一種樂此不疲的遊戲。可是,它又不止是一個遊戲,變聲功能背後的深層次意義,也正好可以回答一些人心中的問題:青山剛昌在1994年就暢想出來的東西,為什麼我們花了25年才終於實現?

語音變聲(Voice conversion)不等於語音合成

事實上,在過去25年來,人類從未停止過對變聲技術的研究。以谷歌為代表的眾多科技公司和國內外其他研究機構一直在進行變聲技術的研發,但僅僅只是停留在研究層面,還無法達到穩定狀態,難以實現最終的應用落地。

例如,谷歌最新版本的人工智能語音合成系統Tacotron 2,合成的聲音幾乎與真人發出的聲音完全一樣,但它只能實現“文本轉語音”的語音合成功能;加拿大的“琴鳥”(Lyrebird)公司,利用語音模仿算法,可以模仿任何人的語音,還能在聲音中加入“感情”因素,讓它更生動逼真自然,但這也只是語音合成技術,只是將文字信息轉化為語音信息,然後播放出來。

而目之所及,柯南所使用的“變聲領結”,需要的不是合成,而是語音到語音的新技術,這其中面臨的種種技術難題,把人類阻攔了25年。

語音變聲:一個全新的技術領域

目前,在語音研究領域,語音變聲包括多項內容。首先是機器對聲音的處理,例如美化或者誇張;其次是一對一的變聲,即將特定聲音A轉換成特定聲音B;在一對一的基礎之上,再進行一對多的變聲——當到達這一階段,柯南的變聲領結便可以實現了,但是,此時的變聲領結仍然是柯南的專屬,它仍然無法處理柯南之外的其他人的聲音。

搜狗語音變聲技術,是可以將任何人的聲音轉換成特定人的聲音(Any-to-One),這是變聲領域難度係數最高的研究。眾所周知,識別一個人的聲音容易,但識別所有人的聲音極難,因為每一個人的聲音和語言都不盡相同。

所以,搜狗輸入法“變聲”功能是首次將上述的語音變聲能力落實到可以實際體驗的產品中,同時也開拓出了一個技術新領域。

它不僅可以將任何人的音色轉換成特定人音色,而且語速、停頓、情感等說話習慣均可被轉換為超高逼真度的指定角色聲音,這種“語音到語音”的技術,從實用度到技術難度上來說,都是最高等級的。在“變聲”這個好玩功能背後,搜狗又一次為語音行業在技術領域的擴展了版圖。

最難的那條路,往往最正確

值得稱讚的是,搜狗在取得了技術突破之後,並沒有藏起武林秘籍,而是選擇將之坦誠相告。他們從未掩飾,之所以取得如此開創性的成就,是源於搜狗在語音表徵學習和風格遷移領域的突破性進展。

ICLR主席,法國巴黎大學的榮譽教授Herve Glotin曾這樣表達:表徵學習是機器學習的根本。通過表徵學習,機器可以更好地進行語音的識別,而加上風格遷移的支持,機器可以識別出語言中的風格和內容,二者整合在一起,可以將一個人說話的音色和另一個人說話的韻律以及內容融合,最終完美呈現出來。

以變聲為支點,可以撬動眾多行業

阿基米德曾有名言:“給我一個支點,我能撬動地球。”搜狗輸入法實現的這個變聲功能,也擁有撬動多個行業的潛力。

首先在用戶層面,變聲功能可以圍繞搜狗輸入法形成“語音表情包”,豐富聊天內容,而這很有可能形成全新的流行文化,為社交環境增加全新的“調味料”;在行業層面,搜狗語音變聲技術可以服務於不同場景的音頻內容製作,使生產效率得到大幅提升,未來在線教育、景點導遊、電商廣告等場景的音頻製作,都可以使用搜狗,從而大大優化用戶的使用體驗。

More than a game,這是對搜狗語音變聲的一個精準評語,它目前看上去或許只是一個社交聊天的新玩法,但不會停留於此,它真正的舞臺,是在踏步而來的、名叫人工智能的未來。


分享到:


相關文章: