清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

在大數據、人工智能時代,語音識別和聲紋識別作為非常重要的技術手段,成為我們主要的關注點之一。在第二屆“大數據在清華”高峰論壇“語音處理及數據安全技術專場”中,清華大學語音和語言技術中心主任鄭方發表題為“語音技術與身份信息的隱私保護”的演講,探討了中間身份信息隱私保護的問題,以及語音處理技術在其中發揮的重要作用

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

清華大學語音和語言技術中心主任鄭方

演講時長約半個小時,建議使用wifi觀看

鄭方:在互聯網時代,人們的生活既存在於物理空間,又存在於網絡空間,其中網絡空間的安全問題非常關鍵。世界各國就如何在網絡空間裡進行身份認證問題,提出了很多的計劃,以推動個人和組織在網絡上使用安全、高效、易用的身份解決方案。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

在這些身份認證方式裡面,未來的主體方案就是生物特徵識別技術。生物特徵分為兩類:

  • 一類是生理特徵,如指紋、人臉、虹膜、掌紋、指靜脈,包括DNA等;
  • 另外一類是行為特徵,以交互的行為來進行身份認證,如聲紋、簽名、步態、手勢以及鍵盤的敲擊等。

生理特徵比較穩定、生來不變,能夠準確地反映身份。而行為特徵在交互的過程中體現身份,貌似不是特別穩定,不太適合身份認證。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

在生物特徵識別技術的發展過程中,人們面臨著諸多安全問題,如利用他人照片、視頻,即可對人臉識別系統輕易進行攻擊,或者只需採用一些傳統方法,就可以輕易攻擊某些基於AI安全手段的系統。這些問題導致的原因大概分為以下四個方面:

  • 算法的準確率
  • 算法漏洞
  • 成本因素:由於不能提供更多的傳感器,如不能進行三維的圖像,往往是用二維的,或者是用簡單的傳感器來採集人臉圖像,因此防攻技能降低,這裡不管是硬件成本,或者是技術成本都是採用低成本方案。
  • 生物特徵內在的因素:在現在技術條件下,生理特徵的不變特性,使得用人工智能技術就可以把各種不變的東西完全造出來,如指紋可以通過指膜實現,虹膜可以通過一個假的隱形眼鏡實現。
清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

由於生理特徵的不可撤銷性,信息在採集和傳輸的過程中可能丟失,信息丟失之後整個人的身份就丟了;而後這些信息可能在任何的時候被非法使用,這就是隱私丟失對安全的衝擊。安全和隱私,是一對孿生兄弟,它們是無監督的身份認證必須考慮的問題。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

在無監督的情況下,如何安全地進行身份認證是非常關鍵的。將生物特徵用在無監督情況下的認證,要考慮以下五個方面的因素:

  • 人證合一:生物特徵要具有唯一性,識別技術要能夠保證準確性。
  • 不易偽造:活體檢測可用於防攻擊,而且性價比高。
  • 真實意圖:被認證的真實意圖不怕丟失和複製,可保護隱私,但比活體檢測更難、更為需要,因為它包含了活體檢測的功能。
  • 證據可追溯:在無監督的情況下,每一次的認證能記錄證據,就可用於追溯。
  • 認證的便(pian)宜和便(bian)宜:所謂便宜就是成本低,便宜就是方便,設備、平臺依賴性低,使用方便。
清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

語音信號可以在很大程度上解決這一問題。語音信號是一個形簡意豐的信號,信息量很大,比如說口音、語種、情感、性別身份和語音的內容,各種的信息都在一維的信號裡面表現出來。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

從結構化角度,人類的語言信息可以分為三層:

  • 第一層是語言信息,包括語音內容和語句;
  • 第二層是副語言信息,包含說話人的態度、情感、意圖等等,體現為音高、韻律、音量、音色,還有語調等,可以展現意圖和態度;
  • 第三層是非語言信息,如身體狀況、年齡、性別。語言信息有利於防止偽造,也有利於保存活的證據;副語言信息有利於檢測真實意圖,非語言信息可部分地追溯證據。
清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

隨著深度機器學習在語音識別、圖像處理等領域的快速發展和成功應用,近年來,基於深度學習的相關方法也逐漸應用到說話人的識別中,並取得了不俗的成效。聲紋識別首先涉及的是特徵提取。現在用得比較多的特徵提取是MFCC,一種倒譜參數,它的參數提取涉及了多層,不是在信號域提取特徵,找到一些特徵點和模板,而是要把它先變換到頻譜域,再變換到倒譜域,經過三層的操作得出一個特徵。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

但是這個特徵還不夠,需要繼續做模式識別,我們採用的模型,裡面有對混合、高斯的分佈進行描述,最後由通用背景和GMM的共同作用,對說話人進行刻畫,最後進行身份認證。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

若要安全地進行身份認證,對聲紋的第一要求就是人證合一性。相比其他生物特徵,聲紋的性能比人們瞭解的要高。在幾種生物特徵裡面,識別準確率依次為虹膜、聲音、掌紋、指紋、指靜脈、人臉。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

第二個是不易偽造,聲音有比較好的防攻擊優勢。語音都可以用軟件手段來防攻擊,首先利用語音的形簡意豐的特點,要識別出“誰說了什麼”。其次,如果攻擊者把聲音錄下來,然後進行拼接,我們可以進行錄音重放檢測。另外,可以把人的因素加進去,“三分技術七分管理”,用戶自定義的數字讀音和動態密碼組合,形成奇妙的不用記憶的“密碼”,這也是最安全的密碼。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

此外,可以把多特徵、多活體做結合。這裡用的是嘴唇,嘴唇本身有身份的信息,加上聲紋就是雙身份。唇語跟語音的內容一樣,時序一樣,這就是更強的活體檢測,更能防止攻擊。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

第三個是檢測意圖的真實性,比如語音的識別,以確定是否在無意識狀態下被使用;情感識別,以確定是否受到脅迫;語音理解,以確定是否傳遞不便明說的危險狀態。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

第四是證據可追溯,語音識別記錄要求回應的隨機內容,含有時間和場景的烙印;非語言信息可提取年齡、健康、環境等信息,含有輔助的時間和場景的烙印,都可以幫助證據。

最後一個特點認證的便(pian)宜性和便(bian)宜性。麥克風或傳感器的成本超低,傳輸帶寬窄;而語言是人類交流最自然的方式,也沒有跨平臺的問題。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

當然若加上更多的特徵,會是最好的解決方案。“聲紋+”具備更高安全、更低成本、更低隱私的特點。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

“聲紋+”有很多應用場景,如系統的登陸、用戶的交易、線上反欺詐、門禁和考勤等等。利用語音的特點,可以做到一句話解決所有問題。通過聲紋識別對我們說的一句話進行身份認證,通過語音識別進行指令的理解,通過情感識別進行意圖理解,可知道真實意圖,最後解決所有問題。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

通過清華語音和語言技術中心的知識產權入股公司以及共同成立聯合實驗室等合作模式,我們圍繞聲紋識別做申請了很多專利,分別從不同的方面解決問題。對於未來構想,我們想做到隨時隨地的身份認證,包括汽車、旅館、無人商店、ATM等任何地方。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)

現在聲紋識別技術已經到了一個奇點,2018年就是聲紋的元年。通過聲音做身份認證可以解決很多問題,未來的生活將更為便捷。

清華大學鄭方:語音技術與身份信息的隱私保護(附&PPT)


分享到:


相關文章: