聲音定製三天交付,深聲科技如何在語音AI賽道彎道超車?

自2015年開始,中國人工智能市場規模逐年攀升,2018年中國人工智能市場規模約為238.2億元,增長率達到56.6%,據預測,到2020年,中國在人工智能的市場規模將接近500億元。

“語音是AI智能時代的重要入口,”深聲科技創始人周俊明說。他的底氣來自多年的行業積累和互聯網產品開發經驗。

2012年,周俊明從中科院計算所博士畢業,順利進入廣電行業龍頭企業北京永新視博擔任高級算法工程師,主要負責音視頻算法工作;2013年,他憑藉音視頻算法技術能力,被騰訊選中,故任職於此,繼續從事在線音視頻算法技術研發工作;2016年,他加入了歡聚時代,擔任音視頻技術總負責人,帶領國內頂級音視頻團隊,為YY提供核心技術服務和技術創新方案。

2018年,周俊明和核心團隊成員共同創辦了“深聲科技”,一家智能語音技術服務商,主要通過基於深度學習的文字轉語音整體解決方案服務B端客戶,提高客戶在行業內的競爭壁壘,幫助客戶形成獨有的競爭優勢。據悉,成立不到半年,深聲科技就獲得了來自小米科技的數千萬元天使輪融資。

AI行業從不缺競爭對手,BAT等頭部大企業有強者的打法,初創企業也有自己彎道超車的策略。深聲科技在多年的實踐摸索發現,以往客戶在語音合成中最關心的是信息的傳遞。但隨著物質生活的不斷提高,客戶對於語音轉化真實感的需求也日益劇增,催生了擬人聲智能營銷、擬人互動、擬人陪伴等大規模商業化應用場景和價值。基於此邏輯,深聲科技在商業模式方面主打三大場景:語音內容輸出、智能語音交互、智能客服營銷。

其中,內容輸出業務是深聲科技重點推進的主線業務,團隊主要通過與有版權IP的企業合作,以有聲閱讀的方式將深聲語音呈現給消費者,內容涵蓋文學、動漫、新聞資訊等多種題材和類型。根據深聲科技提供的數據顯示,深聲目前已與十餘家行業頭部的內容版權企業達成合作,一方面為企業提供文字語言轉化工具,按字數收費;另一方面,提供語音合成整體解決方案,共同開發版權IP的語音形式。

在語音交互業務中,團隊依託投資方小米的資源及產品,重點服務智能語音音箱和車聯網企業,為其提供語音合成、數據製作和人機交互等服務,協助客戶在產品開發過程中精準感知用戶需求,增強行業競爭優勢。

智能客服營銷業務是深聲科技正在嘗試的場景,深聲科技主要幫助運營商和金融客戶定製聲音併合成聲音,使其在營銷過程中提高通話時長和營銷轉化率。談及看好語音交互和智能客服營銷這兩類客戶群體的原因時,周俊明告訴創業邦,這兩類客戶對於語音音質的要求更高,通過深聲科技自身語音合成技術的優勢能很快產生規模化效應,且這兩類客戶群體的長期付費能力更強。

從時間的維度上看,深聲科技相比科大訊飛、商湯科技等AI企業入局較晚,但團隊正在加緊業務佈局,構建自身技術壁壘。首先,基於端到端的語音合成技術邏輯,深聲科技會對採集到的原始語音進行自動標註,再由聲學模型算法對語言和語音進行音素級特徵對齊,可以實現完全擬人發聲,將語氣、語調、語速、抑揚頓挫等語音特點完美呈現。在Blizzard Challenge 2019 國際語音合成大賽中,該技術在PER(拼音-不包含聲調-錯誤率)和PTER(拼音-包含聲調-錯誤率)兩個指標上優於科大訊飛。此外,團隊在聲音定製合成方面的交付能力突出,三天內便可完成,而行業一般需要3~6個月。

成立不到兩年,團隊已有50多人規模,其中80%為技術研發人員。團隊主要成員擁有中科院、中山大學、華南理工、日本早稻田大學等名校碩博教育背景和騰訊、網易、YY等名企工作經歷。聯合創始人黃博賢擁有12年的互聯網語音和音頻技術積累,先後在酷狗和YY主導語音和音頻技術的開發。

接下來,團隊會重點在效果、性能、數據三個維度優化算法技術,為各行各業提供更多標準化解決方案,加速技術落地,同時完善智能語音交互全鏈路技術。2020年,團隊還將推出面向C端用戶的語音克隆產品,在陪伴、親子互動、泛娛樂等交互場景全面發力。

目前,該項目已啟動A輪融資,資金將全部用於團隊建設及業務拓展。


分享到:


相關文章: