聞聲識人——聲紋識別如何走過規模商用前夜?

聞聲識人——聲紋識別如何走過規模商用前夜?

作為語音賽道一個重度垂直的領域,聲紋識別終於從“等風來”,成為站在“風口”上的技術。儘管同為生物識別技術的指紋、人臉識別已經快速搶佔了市場,但隨著新一波人工智能技術的發展,聲紋識別有望因提升用戶體驗、安全性等方面的獨到之處而迎來發展高潮。

聲紋識別近年來主要經歷了哪些重大突破?發展主要受益於哪些驅動因素?

首先是技術驅動。近年來,依託算法迭代、模型升級等優化措施,識別準確率有提升,並根據特定專題的研究,初步解決了穩定性等問題;更重要的,隨著抗時變、防錄音技術的進步,大大提升了安全性和用戶體驗,打消了人們對聲紋識別可靠性的顧慮,使這項有潛力的技術真正走上規模商用的道路。

其次是政策驅動。經過中國建設銀行等第一波應用單位的示範,金融行業逐漸認識到聲音作為身份密碼是可行的。

去年央行聲紋應用標準的頒佈,對行業基本面起到了較大的推動作用,該標準明確傳遞出一個信息:生物識別技術的應用在追求用戶體驗時必須重視安全和隱私,其信息的傳導範圍遠遠超出了金融行業,它使得現階段,技術和場景的匹配真正明確。

第三是用戶認識觀念和使用習慣的變化。這一點得益於智能客服、智能音箱等以語音識別技術為主的消費級應用場景的普及,人們在真正體驗到語音交互的便利之後,提出了更高的個性化需求和安全要求,可以說,語音識別技術幫助聲紋識別技術在C端快速完成了用戶教育

聲紋識別可助智能設備“聞聲識人”

當前熱門的智能設備,不論是百“箱”大戰的智能音箱,還是百“機”爭鳴的智能機器人,初期這些產品在交互方式上實現了一定程度上的智能,但在交流方式上卻有欠缺。所謂交流,即有明確的對象,與不同對象交流有不同的回應,才是更為智能的體驗。聲紋識別——正是實現這種“聞聲識人”的技術手段。

以智能音箱這一典型產品為例,

阿里的天貓精靈、京東的叮咚音箱二代,以及華為的小藝音箱等,紛紛加入了聲紋識別功能。這一功能可以使智能音箱在競爭中體現出差異化的優勢,而不只是千篇一律地回答天氣查詢、搜索歌曲名和定鬧鐘等功能。它能夠根據不同聲音識別出不同的使用者,提供更為個性化的內容回應,並且保證了安全性和私密性,特別是在進行在線支付時操作更為便捷。HomePod是蘋果在2017年推出的智能音箱產品,在今年的全球開發者大會上,蘋果也宣佈在HomePod 加入了聲紋識別功能

在CSDN組織編撰的《2018中國人工智能產業路線圖》中,曾將語音交互劃分為三個階段

L1階段:能以極高的準確率,在典型環境下響應用戶的語音輸入;

L2階段:能以極高的準確率識別出交互的當事人和環境,然後進行個性化的交互;

L3階段:只要有數據,語音交互系統的能力就可以無邊界擴展(包括個性和能力)。

在L2階段體現的就是個性化,語音交互不再停留在千人一面的固定化模式中,而是

實現千人千面的個性化交互體驗。在這一階段,聲紋識別技術將成為新的標配

“人臉識別”遭打臉,聲紋識別為什麼變得重要?

聲紋識別為什麼開始得到關注?除了上文提到的進一步提升用戶體驗之外,在滿足高安全場景的訴求時也有獨到優勢。

AI對抗AI的音視頻欺騙事件近來屢有發生,不論是被騙的人臉識別系統,還是偽造聲音進行的金融詐騙,這些事件給AI的發展前景蒙上一層陰影之外,也讓個人對於自己身上的“活”密碼(指紋、臉、聲音、瞳孔等)的安全性產生了擔憂。特別是前段時間一夜爆火的AI換臉“ZAO”,使得這種擔心達到極致。每個人獨一無二的生物特徵,一旦暴露了該怎麼辦?

事實上,指紋、人臉是靜態的生理特徵,並不能體現出個體的動態變化,因此很容易出現被盜用等安全問題。而“聲紋”作為一種特殊的行為特徵,每個人在說話過程中所蘊含的語音特徵和發音習慣幾乎是不可替代的,即使是模仿,也難以改變說話者最本質的發音特性和聲道特徵,它是一種“動態”的識別,因此與其他靜態的生物識別方式相比,不僅具有特定性,也具有相對的穩定性,它不容易丟失,

可以做到“失聲(音)不失身(份)”,偽造起來也更為困難,因而被認為認證強度更高、更安全。

場景驅動下的商用浪潮

事實上,聲紋識別雖然未在智能手機這樣的消費級產品中普及,卻早已在金融、安防、公共服務等領域得到較為廣泛的應用。

成立於2002年的得意音通屬於國內較早佈局聲紋識別領域的企業之一,形成了聲紋技術自主專利多層保護,並與公安部、人民銀行、工信部共同主導了聲紋相關標準的制訂。以其“聲密保”為核心,可在手機銀行、聲紋身份認證雲、社保生存認證、聲紋門禁、聲紋考勤等領域提供相應的產品和服務。

為泛金融身份認證護航

通過多年來的佈局,得意音通在金融領域最早形成了規模應用,其主導起草的《移動金融基於聲紋識別的安全應用技術規範》已於2018年10月9日由中國人民銀行頒佈至各銀行、證券、保險、基金,以及非銀行支付機構,

成為我國金融領域第一個生物特徵識別安全應用技術標準,大大推動了聲紋的行業落地與應用合規

是什麼樣的契機使聲紋識別技術最先在金融行業落地?得意音通CEO倪鳴介紹,金融領域因其豐富的場景、海量的數據、對可靠性的高要求和廣泛的用戶反饋等,一直是人工智能技術在民用領域(相較於公共安全領域)的理想試金石。

聲紋識別也不例外,在4G時代,金融行業催生了手機銀行這一形態並迅速普及,使得金融級遠程身份認證的需求激增,而聲紋識別剛好可以滿足這個需求。2016至2018年間,中國建設銀行、貴陽銀行、蘭州銀行、西安銀行、中國銀聯、中國互聯網金融協會等多個金融單位和機構都上線了聲紋識別身份認證服務,用於賬戶登錄、大額轉賬、無卡取款、密碼找回等業務場景。微信和支付寶也上線了基於聲紋動態口令的登錄方式。此外,在信貸業務中引入聲紋識別技術作為反欺詐手段,還可有效降低冒用他人身份進行騙貸以及多頭貸款等事件的發生率。

為公共服務提供便利

隨著語音技術的普及,越來越多的聲紋識別應用場景還在不斷湧現。如利用1:1聲紋確認技術,可幫助居民領取養老金等社會保障金時足不出戶自證身份。

城鄉養老保險是社會保障體系的重要組成部分,然而冒領養老金的事件時有發生,每年冒領總金額以億元計,但若要求高齡老人親臨現場驗明身份又非常不便。由於聲紋確認技術具有很強的遠程操控屬性,社保局通過預裝聲紋身份認證系統,便於進行遠程身份認證,為長期居住外地、高齡、重病等特殊情況的老年人提供了方便。同時,由於聲紋可很好地防假冒攻擊,為社保體系防冒領提供了很好的技術保障手段。

去年,得意音通的“聲紋+”身份認證雲已在貴州省貴安新區落地,現已覆蓋貴州省金融、社保、公安等領域,隨著央行聲紋標準發佈,以及中國電子政務網、內蒙古社保、西北某省等項目的逐步落地,得意音通聲紋身份認證技術的應用逐漸北上。今年八月,與烏蘭察布市人民政府簽署了戰略合作協議,共同建設“草原雲谷”“聲紋+”身份認證雲基地,以輻射周邊諸省。相鄰的內蒙古自治區包頭市、黑龍江省牡丹江市等作為試點區,已率先開展了聲紋認證領取養老金服務。

個性化語音交互場景正在湧現

聲紋識別還可完成個人日常生活中各種事物訪問控制的授權,比如智能手機鎖屏、各類網絡賬號的聲控密碼鎖、電腦聲控鎖、聲控安全門、汽車聲控鎖等。

利用1:N聲紋辨認技術,可在一定程度上防範電信網絡詐騙,還可支持智能音箱、智能語音助手等提供個性化服務,如針對家庭用戶中的老年人、兒童等不同年齡段用戶,按照興趣推薦不同的歌曲、新聞,以及開放特定的功能權限等;利用聲紋檢出和追蹤技術,可取代人工完成會議紀要,通過語音識別和聲紋識別技術的結合,將會議錄音通過語音識別技術識別說話內容、通過聲紋識別技術標註每段話所對應的說話人,即可輕鬆完成多人會議記錄,大大提高工作效率。

未來的爆發點和挑戰

對於聲紋技術爆發的關鍵點,倪鳴認為決定因素主要有二:一是在於技術和場景的最佳匹配;二是在於聲紋建庫的建立,也就是當合法的聲紋模型數據積累到一定量,就會產生裂變。

有人將2017年看做智能語音交互元年,2018年則可以說是聲紋應用元年。2017年,各大品牌廠商打造的智能音箱紛紛上市,2018年語音交互落地突然加速,相關產品從智能音箱擴展到其他品類,如電視盒子、鬧鐘、燈、智能馬桶等。這些應用幾乎都產生了通過遠場聲紋識別實現個性化語音交互的需求。倪鳴強調,需要注意的是,這類面向未來物聯網應用的新興需求大部分還處在探索階段

聲紋識別目前在商用落地以及下一步的發展方面還面臨哪些挑戰?有哪些主要的克服手段?倪鳴表示,從技術發展來看,聲紋識別當前還存在以下兩大類挑戰:

一是魯棒性挑戰:

魯棒性是指聲紋識別抵抗其他因素干擾的能力。這些干擾可能來自:

1)說話人自身。比如說話人隨著身體狀況改變而發聲的聲音改變、隨著年齡增長而發聲的聲音變化、不同情感、語氣、語速情況下的聲音變化。

2)也可能來自說話人之外的環境。比如噪聲干擾、遠場情況下收錄到的聲音發生的變化。如何在眾多幹擾之下,精準的對聲紋進行識別,是一個重要的研究方向。

3)還有可能來自說話的內容。例如超短語音挑戰。短語音是指系統的識別性能對語音長度的依賴性。較長的語音會達到更高的精準度,但顯然,過長的語音會影響用戶體驗。並且在一些特定場景下,比如司法應用中,系統只能收集到有限長度的語音。因此如何在較短語音長度的情況下,提高系統的識別性能,也是一個重要的研究方向。

二是安全性挑戰:

1)防攻擊能力。是指聲紋識別系統拒絕非真實說話人的能力。這些嘗試進入系統的聲音,可能是由人類模仿發聲的,也可能是機器偽造的,比如通過語音合成、聲音轉換以及錄音重放技術,產生出和真實說話人相近的聲音,嘗試進入系統。如何阻止這些假冒語音通過系統,是很重要的研究方向。

2)情感識別能力。相關問題有兩個:一是要做到不同情感下都能準確識別,可稱為情感魯棒性;二是要能識別出用戶是否處於被脅迫或者處於焦慮狀況下等,可認為是理解用戶的意圖真實性。而後者更為重要,所以將它歸為安全性挑戰之一。

由於較早將聲紋技術帶出實驗室接受市場檢驗,這一先發優勢造就了得意音通今天的市場地位。通過多年的積累,得意音通擁有“聲紋識別+動態密碼”身份認證方案的原始發明專利,還擁有與之相關的支撐技術和應用技術國家發明專利10餘項,其中的國際發明專利已在日、韓、美等國獲得授權。圍繞這些核心專利,構築了完整的專利牆體系。在多項國際賽事中,例如國際音頻情感識別競賽MEC 2017、國際自動說話人驗證欺騙和對策挑戰賽ASVspoof 2019等,得意音通均榮獲冠軍。

多生物特徵識別融合成為必然

一個值得關注的趨勢是——由於不同場景對生物特徵的適應性各有不同,多生物特徵識別技術融合已經成為必然。

針對金融交易驗證,央行科技司司長李偉最近就指出,部分機構高估了弱隱私特徵的識別作用,在網絡空間僅依靠人臉等單一特徵進行金融交易驗證,存在嚴重隱患。他表示,不能簡單地將人臉特徵作為唯一的交易驗證因素,須根據風險等級結合用戶口令等其他因素進行多因素認證。

而目前看來,“聲紋+人臉” 的身份認證產品,既解決了單一生物特徵所具有的侷限性,同時可覆蓋更多身份認證場景,滿足用戶的多樣式要求。得意音通在“聲紋+”多維融合身份認證解決方案方面投入已久,今年4月,推出了無感式“聲紋+人臉”方案。

倪鳴強調,這一多維方案並不是聲紋與人臉識別簡單的疊加,而是深度融合、一步完成、多重防偽,實現安全與體驗的雙重提升。此外,還有情感識別、唇紋識別、唇語識別等眾多創新技術,也在不斷開發中。

“孤軍奮戰的日子一去不復返”

“聲紋開始熱了,產業態勢已成,孤軍奮戰的日子一去不復返。再好的科研成果,只有從象牙塔裡走出來,放到實踐中去檢驗,才能發光發熱,造福社會。作為行業老兵,我們感到欣慰,因為這證明了我們當初的判斷和堅持是正確的”——這是清華大學人工智能研究院聽覺智能研究中心主任、得意音通創始人、得意音通信息技術研究院院長鄭方在《中國聲紋識別產業發展白皮書》發佈時的感慨。

目前國內主流聲紋識別企業主要背靠清華大學、廈門大學、中科院聲學所、自動化研究所等高校和科研機構

,得意音通則是清華系的典型代表。雙方建立了“產學研”合作生態,清華以知識產權入股得意音通,得意音通投資反哺清華建立聯合實驗室,從而保證了能夠不斷將最新的前沿研究成果運用於產業,同時建立起了穩定的人才儲備梯隊。

從專利數量來看,2013 年起,國內相關專利公開數量呈大幅上升,5 年內翻了 10 倍以上。相對專利公開數量,專利授權數量相對增長較緩,總數不超過40 件。但是2018 年,不論是公開數量還是授權數量,專利增幅均達到歷史峰值。

聞聲識人——聲紋識別如何走過規模商用前夜?

圖:國內聲紋相關專利申請數量宏觀態勢

(來源:《中國聲紋識別產業發展白皮書》)

據前瞻產業研究院的分析,當下全球生物識別產業規模龐大,僅語音生物識別(注:即聲紋識別)這一細分方向的市場規模就將近百億美元,預計2020年更是有望超過200億美元(合1346億元人民幣),佔整個生物識別市場的22.4%。

從網絡身份認證應用領域來看,據國外權威調研機構MarketsandMarkets數據顯示,2019 年網絡安全市場預計增長至1557.4億美元,其中,身份認證信息安全市場規模將超過300 億美元。聲紋識別在其中也將扮演重要角色

賽道開始擁擠

根據公開資料統計出如下聲紋識別企業。老牌企業往往掌握有深厚的技術積累和核心專利,特別是幾家有高校和科研機構背景的企業。而對於AI初創企業來說,也在加強在技術深度和廣度上的佈局。

聞聲識人——聲紋識別如何走過規模商用前夜?

思必馳的語音識別++技術可進行超短時聲紋識別、性別識別、情緒識別、年齡識別等,可應用於智能家居、智能車載等應用,並與長虹、美菱成立了實驗室。

雲知聲將聲紋識別技術引入到深度學習領域,聯手平安好醫生打造客戶端“聲紋登錄系統”,並與國家電網合作了會議系統聲紋識別項目。

騰訊雲也在產品中引入聲紋識別,隨著雲端大數據的不斷積累,在智能家居、金融交易、智慧建築領域,已經能夠根據個人屬性個性化地提供服務內容,並進一步提升安全性。

作為家電行業業較早涉及人工智能技術領域的企業,長虹在電視、空調中先後加入聲紋識別功能,使得家電也能夠智能識別用戶身份,開啟私人訂製模式。

業內觀察人士認為,在AI+IoT的發展潮流下,聲紋識別技術有望推動一些場景向高階化發展,在未來的人機交互過程中成為必要支撐,帶動從硬件到軟件在更多商用場景中的發展。


分享到:


相關文章: