同盾做了個智能外呼系統,原來TensorFlow也在助力防疫

如果你身處在疫情災區中,可能接到過這樣的電話。

一位小姐姐作為社區服務人員撥通了你的電話,依次詢問你是否到訪過疫區,關切你最近的身體的狀況,有沒有發燒,有沒有接觸過疫區的親友,甚至最後給你打個氣,讓你做好防護。

別想太多。其實這個電話可能是人工智能打來的,不信你聽聽下面的這則電話。

自從新型冠狀病毒感染的肺炎疫情發生以來,人工智能和大數據等科技正在助力疫情防控。

一位使用了智能外呼電話系統的社區負責人告訴PingWest品玩,如果不是因為使用了人工智能外呼系統,現在他們的外呼篩查工作應該還在由人工和筆紙完成。

這本身的出發點並沒有多麼高深。疫情期間,這是一種最常見的防控工作。但也是因為疫情本身的原因,挨家挨戶上門變得極其困難——一是如何快速統計社區內幾萬人甚至幾十萬人的健康狀態;二是工作量很大,一般來說並沒有那麼多的統計人員;三,更可怕,上門排查讓工作人員被感染的風險加大,事情可能會不小心變得更糟糕。

而使用人工智能撥打電話,其實也是在解一道數學題。想象一下,如果使用人工,一個人一分鐘可能只能撥出一到兩個統計電話,在擁有上千人甚至上萬人的社區中這是一件非常費力的事情,並且還需要人工在電腦前一條一條的錄入收集回來的信息。而使用人工智能外呼撥打統計電話,一分鐘可以同時撥打出上百個,並且電話回訪自動記入在案,基本上不需要人做什麼事情。

這段回訪電話中所使用的人工智能技術來自於同盾科技。後者旨在通過智能語音交互、自然語言處理、計算機視覺和機器學習4大核心研發技術幫助企業及政府提高提質增效,其中智能語音外呼解決方案只是人工智能場景落地的一部分。

定製智能外呼平臺

對於同盾科技來說,智能外呼解決方案其實最早可以追溯到2018年發佈的智能語音服務平臺——“赫茲”。

據同盾科技此前的新聞資料顯示,同盾智能語音服務平臺—— “赫茲”是基於自然語言處理、語音識別、語義理解、語音合成、聲紋識別等核心技術,面向政務、金融、互聯網等領域的各應用場景客戶群體,提供智能語音服務,提升客戶企業智能化、信息化、數字化等綜合能力。

隨著疫情期間對於語音對話和大數據排查技術的拓展,同盾在智能語音服務平臺 “赫茲”的基礎之上研發出了智能疫情回訪機器人。

利用智能疫情回訪機器人,社區負責人可以讓人工智能系統自動詢問並記錄居民疫情信息,最後生成數據統計報告,實現了對於社區人員疫情情況的快速排查和摸底。

PingWest品玩查詢同盾科技官網,發現同盾智能外呼解決方案提供了簡單易用的話術定製操作界面。

同盾做了個智能外呼系統,原來TensorFlow也在助力防疫

換句話說,同盾提供了場景配置平臺,通過簡單的參數設置、流程操作等,客戶就可以進行靈活可用的場景對話流設計。

“一方面使用同盾開發好的行業細分語義理解模型,也可以方便地構建自己的語義理解模型。而通過對話管理平臺,客戶也可以利用底層強大和靈活的語音合成音庫製作工具,生成客戶自己獨特和音質出眾的機器人⻆色。”同盾科技語音實驗室負責人燕鵬舉告訴PingWest品玩,而針對不同的場景,同盾也提供定製開發好的語言模型,來保證特定場景下語音識別達到客戶期待的實用準確率。

TensorFlow讓一切更簡單可靠

實際上,同盾為客戶提供一攬子的語音交互技術方案,包括語音識別、語音合成、語義理解、聲紋識別、語音質檢等等。而語音交互技術的底層是高度專業性的機器學習模型,在這其中最重要的部分就是深度學習。

燕鵬舉稱,基於對相關領域的深刻理解,同盾科技算法工程師選擇合適的模型結構,使用當下流行的機器學習開源框架Google TensorFlow進行建模和模型訓練,藉此構建了準確率和效果達到或超過業界先進水平的對話系統。

具體來說,在建模和模型訓練過程中,工程師負責從概念上設計模型結構,而TensorFlow提供豐富和設計優秀的API供同盾科技使用,從而幫助同盾科技快速地搭建新模型和改善舊模型。

在同盾科技語音和自然語言處理的建模中,“常用的模型結構包括循環神經網絡(RNN)、卷積網絡(Convolution)、注意力機制(Attention);通過靈活的數據輸入機制(input pipelines)將領域數據組織成小批量數據進行參數迭代;學習過程中善用統計信息使得模型收斂到最優的狀態(比如early stopping);在進行極大規劃數據訓練時也能從容中斷和重啟中斷的訓練過程。”

燕鵬舉告訴我們,傳統的語音識別流程中,需要HMM模型訓練、強制對⻬、神經網絡模型訓練和區分度訓練多個分離的步驟,工程師常常需要維護幾千行的腳本,分好幾個步驟進行模型訓練過程的發起、監督等。

而使用TensorFlow構建端到端語音識別模型可以大幅簡化語音識別訓練流程,縮短語音識別模型訓練時間和降低模型大小。“整個模型訓練過程合併成一個步驟,省去了維護大量腳本工具的工作,將模型訓練所需時間從此前2個星期縮短到小於1個星期。 ”

在對話系統的多個步驟——語音識別、語音理解和語音合成中,TensorFlow也大大提升了生產效率。利用TensorFlow快速的搭建訓練模型後,對話系統的各項指標也領先於業界水平。

在使用智能外呼解決方案時還會經常遇到一個問題——如果一個外呼電話聽起來不像真的人類,會被當做機器人電話馬上掛機。

同盾科技使用TensorFlow構建端到端的語音合成系統,不光使得整個系統拋棄了傳統引擎中必須存在的多箇中間步驟,還通過採用適當的模型和不斷優化,語音合成的主觀音質(MOS)提升了20%,實時率提升了30%。 “採用TensorFlow搭建深度學習模型後,使得合成語音的音質得到大幅度提高,同盾語音機器人的掛機率相比於業內競品降低了31%。”

在真實世界的語音識別,由於環境噪聲和用戶口音等多種複雜因素,準確率相比實驗室可控環境下要低。如果是新的業務場景,語音識別準確率會降到更低的程度。

燕鵬舉稱,在語義理解中,為了應對不可避免的語音識別錯誤對後續模塊造成的影響,使用TensorFlow構建深度語義理解模型,包括表示學習預訓練模型的採用、分類模型的遷移學習,語義理解模型準確率比使用傳統方法提高了15%。

同盾對話機器人中增加了語音識別結果的後糾正模塊,使用深度學習模型對帶有識別錯誤的文本進行轉換,將其中部分錯誤進行修復,來提高整體對話機器人對用戶意圖的理解準確性。語音識別錯誤得到修正之後,用戶語音的理解變得更為準確,交互的輪數比此前降低了20%。

“TensorFlow一些獨特或新近推出的功能也在同盾的建模過程發揮了重要作用, 比如動態構圖、模型平均、三元損失函數等。”燕鵬舉稱。

當然另一面是,像TensorFlow這種技術的進步讓人工智能識別的準確率得到了大幅提升,也可能會帶來它“發音太像人”而引發的新問題,比如技術被濫用做騷擾電話。

任何技術的進步都可能會帶來新問題,但技術本身是中立的。燕鵬舉也認為,同盾遵循用戶信息的保護,外呼電話的名單由同盾的客戶來指定,同盾僅僅作為技術提供商給客戶提供外呼工具。至於用戶語音數據是否保留,客戶負責獲取用戶的授權,保留的語音數據也交由客戶來使用。

在疫情防控機器人這個領域來說,它的客戶主要是社區以及政府機構,外呼電話多是以政府機構的名義撥出。在疫情戰時幫助機構統計工作實現效率提升,那它肯定是好的技術。

目前,我們仍在徵集更多傑出的TensorFlow應用案例,你可以掃描海報下方二維碼或點擊“閱讀原文”提交案例參與我們的報道!

同盾做了個智能外呼系統,原來TensorFlow也在助力防疫


分享到:


相關文章: