他曾是百度最高獎得主,滴滴首席算法,現在要開一家AI語音超市

郭一璞 發自 凹非寺

“說人話”越來越熱了。

先是Google I/O大會上一聲“嗯哼”震驚了人類世界,然後微軟小冰為知乎寫歌唱歌又刷了一波屏。

這一年來,AI語音的炫技方式,已經從機器“能聽會說”,悄然變成了機器“像人類一樣說話”,而且一切正在越來越6,越來越自然。

但這並不輕而易舉。

不僅要有專門的訓練數據集,還要有算法模型方面的技術實力,以及產品方案的打磨能力。

今年3月,國內AI語音領域大牛李秀林,正式以聯合創始人及CTO身份,加入了標貝科技。

他曾是百度最高獎得主,滴滴首席算法,現在要開一家AI語音超市

李秀林,中科院聲學所博士,有10餘年語音相關技術研發和相關的學術研究,專利數30多項,涉及文本處理、韻律預測、聲學模型、拼接系統、模型自適應、神經網絡、情感合成等多個關鍵領域。

但也是拿下最高獎當年,李秀林被滴滴挖走,出任滴滴研究院語音團隊負責人,兼首席算法工程師。

在滴滴,李秀林帶隊為導航、客服等產品線提供AI語音方面的技術輸出,雖在不斷提升滴滴服務體驗,但一心想要圍繞語音合成實現更大突破的李秀林覺得觸達的用戶量還不夠。

“我們這些語音從業者十幾年來一直在努力,而現在可能真正到了一個大爆發的前夜”,於是李秀林最終決定接受標貝科技技術合夥人繆冠瓊邀約,正式加盟,任職CTO。

李秀林告訴量子位,語音市場越來越受到關注,但不少核心問題還需要更垂直專注去打磨,他認為與其在大公司對接不同產品線需求,還不如以創業公司形態更加垂直深入。

更主要的是,他認定更精彩的AI語音幕曲即將展開,他希望以擅長的方式參與歷史進程。

那麼標貝究竟要做什麼呢?

李秀林回答:打造一家AI語音超市。

AI語音超市

如何理解這個AI語音超市?

簡單來說,就是提供各種各樣的語音合成解決方案,“溫暖女聲”、“可愛童聲”、“中氣男聲”,有需求的企業皆能來標貝選購。

而且在聲音產權明晰的前提下,還能選用“胡歌”、“林志玲”、“鹿晗”等明星偶像的聲音方案——直接對接到產品,AI即服務。

比如周星馳的電影配音,只用他的“語音模型”代勞即可,或者臺詞功力實在太差的流量小鮮肉,後期配音也在變得更簡單。

他曾是百度最高獎得主,滴滴首席算法,現在要開一家AI語音超市

挑戰:小數據學習

大方面來說,一個語音合成方案從無到有,一般需要數據標註、模型打磨和方案輸出,其中還涉及發音人數據採集、標註、合成等細緻而繁瑣等環節。

不過真正極具挑戰的地方在於訓練數據的規模。

但如果要實現“AI語音超市”的目標,讓語音合成運用於普羅大眾,百句規模——甚至更少數據,才真正富有競爭力。

李秀林坦言,最大的挑戰也源於此,標貝始終探索用更少的數據訓練出更出色的模型。在這個過程中,遷移學習和模型優化成為主要解決思路。

業務和團隊

當然,從語音合成數據標註,到語音合成方案供應商,創立2年的標貝科技也經歷了小轉型。

不過商業反饋來說,方案越完善市場越大,而且領域也在拓展,已經從之前的純科技公司服務,如今涉足泛娛樂、教育和客服等領域。

比如泛娛樂方面,不僅給影視公司提供技術方案支持,也進入了用戶互動中,下面這個在講莫扎特童年經歷的童聲,就是用標貝的技術合成出來的。

李秀林笑稱,未來逢年過節的祝賀,都可能變成“語音賀卡”,技術越成熟,玩法也會越多。

泛娛樂之外,標貝也在進入智能家居、智能機器人、智能音箱、虛擬偶像、有聲讀物、教育和客服等領域,在具體場景下提供更逼真的人聲,提升用戶體驗。

值得一提的是,這些業務背後的標貝團隊戰鬥力極強,目前公司整體50人規模,北京為主,但在長春等地建立了語音標註的分舵。去年,標貝還完成了千萬元級的Pre-A輪融資。

李秀林表示,新一輪融資也將開啟,會引進更多技術和產品方面人才,更快讓語音合成在更多場景落地。

他曾是百度最高獎得主,滴滴首席算法,現在要開一家AI語音超市

誠摯招聘

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: