用聲音創造“形象”,智能語音如何加速商業應用落地?

用聲音創造“形象”,智能語音如何加速商業應用落地?

對於多數人來說,最常接觸到語音合成技術(TTS,Text-To-Speech)的運用就是高德地圖裡志玲姐姐路況播報的聲音了。在將基本的固定語句進行原聲錄製後,機器要模擬人對自然語言的理解過程,然後為合成語音規劃出音段特徵,使合成語音能夠正確表達語意,最後進行語音輸出,整個流程類似於“編碼、信息匹配、解碼”。

除車載語音導航外,朗讀這類極需要體現聲音表現力的場景如今也運用到了語音合成技術。

今年1月,央視就播出了首部利用TTS技術模擬人聲配音的紀錄片《創新中國》。聲音的主人則是我國已故著名播音員、配音演員、語言藝術家李易。他曾給《再說長江》、《大明宮詞》、《美麗中國》、《人類星球》、《遷徙的鳥》等多部紀錄片進行配音。通過語音合成技術,AI成功地模擬出了李易的聲音,完成了紀錄片的配音解說。

由此可見,擺脫機器原本機械化的發言,像真人一樣擁有極具情感表現力、抑揚頓挫的聲音,不僅是語音合成技術的發展方向,也是難點之一——同樣,也考驗著各家語音合成技術數據服務提供商。

對於智能語音交互而言,場景的重要性不言而喻。誰能賦予聲音更多的表現力和個性化,誰就能將技術適配到非標準化的場景中,贏得智能語音市場的未來。近年來,科技巨頭們都陸續推出了自己的語音合成“定製化”方案。

2017年4月,谷歌在加拿大蒙特利爾大學建立的人工智能實驗室(MILA)成立了Lyerbird公司,Lyerbird成立之初就推出了一套“只需一分鐘的聲音樣本,就能模仿任何人說話”的系統;今年5月的Build 2018 大會上,微軟在其公有云平臺上推出了語音合成定製服務產品Custom Voice,可對聲音進行模擬,並可在線測試模擬效果。

在國內,科大訊飛也於去年11月推出了名為“訊飛留聲”的測試版本。據悉,訊飛留聲只需要10句的聲音採集,即可完成個人聲音的復刻,採集量只有行業平均的百分之一(遠低於微軟的500句與行業的千句)。

近千小時語音數據積澱,打造多元的“聲音超市”

部分創業公司也在TTS領域也有所佈局,例如成立於2016年2月的標貝科技。

在整個語音產業鏈條當中,標貝科技提供語音合成技術以及語音數據

其中技術含量較高的語音合成又包括髮音人選擇、語料設計、語音採集、數據處理、語音深度加工等步驟。

標貝科技聯合創始人CTO李秀林在接受獵雲網採訪時表示,“科技巨頭們具有超前技術的探索能力,我們非常尊重他們的成果,也很認同他們的學術產出。但從學術到工業還有很長距離,有些東西會永遠停留在論文上,創業公司的優勢就在於工程化的能力、產品的經營上,通過我們的技術改造在具體應用層面不斷完善”。

讓我們先聽一段智能客服與用戶的對話:

這是2018年5月標貝科技針對智能客服推出的語音合成技術方案。李秀林認為,客服領域具備的痛點十分明顯,“比如很多大公司往往有上萬名人工客服,有的甚至每天要接待來自全國各地上百萬通電話。一方面公司的成本不斷增加,另一方面,由於本身的工作性質,客服人員往往承受著巨大的情緒壓力”。

這也使得客服人員往往需要很長的培訓週期,且營銷效果差、人員流動性大等問題時有發生。

根據中國企業數據報告的統計,我國中小企業家數量近年來按照每月30萬家的速度增長。預計到2019年,全國中小企業家數將達到3940萬家。伴隨著國內中小企業家數的快速發展,國內客服市場仍然呈一個增長的發展態勢,其中,呼叫中心和在線客服的市場規模2019年將分別達到1327億和788億。

面對如此巨大的市場規模,李秀林看來,對企業來說,利用智能客服代替人工,經濟回報是清晰可見的——如果語音合成技術能夠“勝任”這項工作的核心內容,那麼大量重複性標準化的語音對話內容通過智能客服就能完成,極大減少企業的人力成本

此外,客服作為當今信息社會商家與用戶進行溝通的重要一環,直接影響了企業的整體形象。從這方面來說,商家也越來越重視客服中心的搭建和培養。

“尤其是通知型的內容,或者企業通過在線客服推廣進行產品推廣的這種場景是比較明確的,也就是‘說’、‘聽’、‘回答’,給語音合成技術落地提供了很好的機會”,李秀林告訴獵雲網。

在技術相差無幾的情況下,TTS最終效果的好壞離不開準確、豐富、優質的語音訓練數據。一般來說,從前期的準備、找人、找錄音場地、錄製、數據篩選、標註,最終成為“可以用的數據”,可能至少需要3個月。

為了打造優質的語音,讓用戶喜歡從而形成對聲音的“粘性”,標貝科技前期需要設計豐富的語料、接觸大量的聲優,指導他們完成聲音的採集,之後再對語音進行深度加工。

傳統語料數據處理方式為手工精標,需要耗費大量人力,標貝科技則利用深度學習技術,通過計算機程序進行預處理,之後再由人工進行校正,大大提高了工作效率,並保障了數據處理的準確性。

在成立近兩年的時間裡,標貝科技已經積累了包括文本、語音等多類型的語料數據,併為多家互聯網巨頭的AI產品提供了大量的數據服務。

而在這套語音合成合成技術方案裡,標貝的團隊還專門挖掘了優質的聲優資源,優化之後再做成demo,“相當於我們給客服系統定製了一套滿足客戶風格的合成語音解決方案”,李秀林說,客戶可根據自身需求選擇標準化或定製化產品及場景,標貝將通過專業語料製作客服合成語音庫,為客戶提供API接口等技術對接方式,對接企業系統後可自動外呼來自多渠道的用戶

根據不同的使用場景,標貝科技的智能客服系統在包括商業服務、金融保險、教育培訓、電商物流、互聯網通訊、房地產物業等行業的售後、答疑、錄音、主動外呼、催款、營銷推廣等固話、移動設備上的服務上,都有針對性的解決方案。

“我一直強調語音合成技術是有表現力和人性化一面的,每個聲音都有一個屬於自己的形象,它能讓用戶產生粘性”,李秀林談到,“因此,我們也推出了‘AI聲音超市’,通過我們豐富的語料庫,為不同的企業解決不同的定製需求”。

根據獵雲網獲得的數據,在定製型音庫方面,標貝科技已成功為用戶提供了150小時的中文女聲情感音庫、350小時的中文女聲音庫、100小時的男生音庫、80小時粵語語音庫、50小時美語女聲語音庫、40小時的ToBI語音庫、40小時模仿兒童語音庫、30小時兒童語音庫、20小時葡萄牙語音庫、20小時臺灣普通話語音庫、10小時日語、10小時韓語以及20小時明星語音庫等,音庫還在不斷豐富和積累中

同時,標貝科技還提供自有音庫,中文男女聲,美語男女聲,兒童,粵語,臺普、日語、韓語等及個性話音庫,廣大客戶現已能直接使用整體解決方案。

2015年,李秀林在百度任職期間,曾帶領團隊開展了一個關於情感合成的項目,專攻百度小說頻道,僅用半年左右的時間,就在語音合成加工效率、合成效果上取得了重大突破。2016年,他加入滴滴,任職滴滴研究院語音團隊負責人兼首席算法工程師,幫助滴滴開拓其出行領域相關的語音業務。

結合自身在語音合成技術領域十餘年的經驗,這位行業從業者也坦言,當前的智能客服,“投訴”這部分內容是比較難以通過人工智能所替代的。“一般情況下,客戶投訴都帶著情緒,語言表達也是混亂零散的,機器識別起來還有一定難度”,但李秀林認為,“核心並不是TTS的限制,而是NLP的制約”。

NLP即自然語言處理(Natural Language Process,NLP),是指用計算機對自然語言的形、音、 義等信息進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作和加工過程。

一套完整的語音交互過程涉及了非常複雜的技術鏈條,包括了聲學處理、語音識別、語義理解和語音合成等核心技術。基礎聲學和語音識別解決的是計算機“聽得見”的問題,而NLP是要解決計算機“聽得懂”的問題。

李秀林提到的客服“投訴”中語言表達零散混亂的問題,還離不開NLP技術中的“詞義消歧”。

機器在切詞、標註詞性、並識別完後,需要對各個詞語進行理解。由於語言中往往一詞多義,人在理解時會基於已有知識儲備和上下文環境,但機器很難做到。雖然系統會對句子做句法分析,可以在一定程度上幫助機器理解詞義和語義,但實際情況並不理想。這也是為什麼,對於需要多輪交互的複雜問題和情緒安撫方面,智能客服當前還不能替代人工客服的原因。

此外,智能音箱類產品也是標貝科技涉及的業務方向之一。今年8月,狗尾草智能科技推出了基於Gowild人工智能虛擬生命引擎(GAVE)及全息投影技術的HE琥珀智能音箱,其中能唱能跳能聊的“琥珀小姐姐”的聲音就是由標貝TTS技術所提供的。

“我認為個性化的語音是一個非常有價值的方向,每個聲音都是有特點的,不同的品牌、公司和服務商會根據不同的情景和產品特點採用不同的聲音,而這個聲音則能‘創造’出一個獨特的形象”,為了打造優質的語音,讓用戶喜歡從而形成對聲音的“粘性”,標貝科技對數據標註的每一步流程都嚴格把控,李秀林認為,“人工智能不僅能把簡單的標註處理好,還可以把後期的合成,通過技術手段提升準確度,最終接近真人發聲的狀態”。

推出“今日快聽”,用“聲音”探索多場景語音交互體驗

隨著知識付費的興起,有聲讀物發展進入快車道,用戶可以不受地理位置的限制隨時隨地通過手機、智能音箱等收聽各類新聞資訊、有聲內容。因此,除了語音合成服務外,為了能讓用戶儘快體驗到語音合成技術,標貝科技還開發了一款基於語音合成技術小程序——

用於播報科技新聞的“今日快聽”

目前,今日快聽小程序,已經實時對接了國內多家科技媒體。每天早上6:30起,將實時更新當天最前沿的科技、財經、社會熱點等新聞動態。上下班通勤時間,用戶可以充分利用碎片時間收聽熱點資訊。

用聲音創造“形象”,智能語音如何加速商業應用落地?

這款小程序的界面以黑色為主、紫紅色漸變做裝飾色,主界面上紫紅色漸變的大圓和底部的小圓圈在中軸線上下排列,底部5個按鈕對稱分佈,簡潔輕盈、充滿科技風的同時,又融合了中國的美學元素。

其主界面底部有提意見、分享、選聲音三個按鈕,左右排列可滿足用戶單手操作。

用聲音創造“形象”,智能語音如何加速商業應用落地?

其中,“提意見”按鈕可以根據小程序的順暢度、聲音、內容、界面等方面提出意見或建議;通過“分享”,則可以將小程序推薦給微信好友或以圖片形式保存進行傳播;“選聲音”按鈕滿足用戶對男聲、女聲播報聲音的習慣。

用聲音創造“形象”,智能語音如何加速商業應用落地?

“語音行業一直是AI典型的技術領域,我們工作十幾年了,大家都還是自稱是‘做語音技術的’。做企業需要紮紮實實地做自己擅長的領域,不去追熱點,因為熱點也會變,自己做得好的話,也能激發出很多新的熱點”,李秀林告訴獵雲網,團隊還將在語音合成技術的場景方面進行更多探索,“創業公司的技術迭代很快,也許幾個月時間我們就把行業的解決方案做得很好了。接下來就需要銷售去開拓商業市場,技術團隊會走到下一個環節,比如內容製造方面正在做一些準備”。


分享到:


相關文章: