大數據智能下數據脫敏的思考

大數據智能下數據脫敏的思考

大數據時代下,海量數據中蘊藏的價值得以挖掘,但也帶來隱私信息與關鍵性敏感數據保護方面的困難。數據脫敏技術是解決這一問題的重要手段之一。傳統的脫敏方法人工干預大,配置成本高,對用戶的專業素養要求高。

為解決這一問題,如果將數據安全脫敏技術與人工智能的自主學習和強大的數據分析能力相結合,則無需過多人工干預,會顯著加強數據脫敏系統的可靠性和易用性,在保證安全性的同時,實現易學習、免配置、自動脫敏和自適應脫敏算法等功能。


相關概念及內涵

數據脫敏是在保存數據原始特徵的同時改變其數值,從而保護敏感數據免於未經授權而被訪問,同時又可以進行相關的數據處理,可以在保留數據意義和有效性的同時保持數據的安全性,並遵從數據隱私規範。藉助數據脫敏,信息依舊可以被使用,並與業務相關聯,不會違反相關規定,而且也避免了數據洩露的風險。

傳統的數據脫敏工作流程,一般如圖所示

大數據智能下數據脫敏的思考

傳統數據脫敏系統工作流程

傳統數據脫敏系統的敏感數據發現和關聯關係識別,一般都是通過人工配置和正則表達式匹配來實現的。

大數據智能下數據脫敏的思考

規則式脫敏系統示意

其識別準確程度主要取決於正則表達式的規則設置是否精準合理

。然而性能與準確性不可兼得:正則匹配規則越簡單,系統性能越好,識別率相對較差;而複雜的正則規則下提升了識別率,但系統性能卻有所下降,對人工配置的經驗和技術要求較高,一般業務人員難以勝任。

大數據時代下的數據脫敏系統機制

大數據時代下的數據脫敏系統設計提供多種預置算法庫,包括映射、隨機、散列和加密四大類,每一大類中都包含若干算法。系統可以根據用戶的業務需求,靈活搭配,使針對敏感數據的脫敏能夠滿足數據原始屬性、可重複性、可逆性、關聯性、可追蹤性以及準確性要求。其一般原型工作流程邏輯如圖所示。

大數據智能下數據脫敏的思考

數據脫敏系統工作邏輯流程圖

系統實施步驟可以分解為:

(1)收集用戶當前業務系統需求進行數據模型分析,建立系統原型及使用環境;

(2)對用戶當前業務系統數據進行智能數據分析,通過機器自學習識別出當前業務系統敏感數據,進行自動聚類,提出敏感數據分類分級規則方案;

(3)對智能發現的敏感數據進行關聯關係分析以及數據變形規則分析,同時對系統進行分析;

(4)根據第3步的分析,對用戶權限、脫敏規則、脫敏數據表、脫敏函數、脫敏數據關聯關係及脫敏流程進行配置,導入到系統原型;

(5)對敏感數據進行數據的變形工作,包括脫敏函數庫的自定義、擴展及豐富;

(6)進行脫敏數據的分發,包括數據加載到其他庫、 數據加載到本地庫、 數據在線脫敏使用;

(7)通過脫敏後的結果對系統原型支撐技術進行驗證。

大數據智能化背景下的數據脫敏技術分析

基於人工智能的敏感數據自動分類和識別、機器學習的數據關聯關係識別和保持、用戶使用模型學習的智能自適應脫敏算法等三個角度,本文對大數據背景下的數據脫敏進行了技術分析。

典型案例實驗分析

文章以一個典型的運營商應用業務場景中的數據脫敏作為案例進行了實驗分析。該案例採用智能自適應脫敏算法在海量運營商用戶中隨機抽取36萬個用戶的靜態屬性表、套餐開通數據表、Top10APP使用數據表,月流量語音使用數據表總共 31列的屬性中進行智能自適應脫敏。

討論

文章指出隨著目前大數據與人工智能的飛速發展,數據脫敏將面臨諸多挑戰:

如何將數據安全脫敏技術與人工智能的自主學習和強大的數據分析能力有機結合;

如何利用大數據智能分析及人工智能建模算法從傳統的靜態脫敏方式到自適應的動態脫敏模式轉變,有效滿足多模態數據交互流量的不斷增長和複雜多變的安全處理業務場景需求,例如在電力、運營商這種關乎國計民生的行業的應用;

如何應對大數據智能化場景下用戶信息透明導致的數據所有權及使用權的倫理問題,僅僅依賴智能化的技術是否能使數據脫敏評價機制的可靠性、敏感數據準確識別方法多樣性及數據治理體系的全面性達到預期目標。

結論

最後,文章從技術、需求和法治、管理機制方面提出了數據脫敏的3點思考和建議:

  • 辯證地認識數據脫敏安全問題;
  • 多媒體數據的隱私保護與脫敏會成為未來數據脫敏領域的重點方向;
  • 數據脫敏問題還需要與法律法規、管理機制等層面進行聯動。

全文詳見《大數據智能下數據脫敏的思考》,論文發表在《科技導報》2020年第3期。


論文作者:

王紅凱,龔小剛,葉衛,陳超,馬新強,姚進強,劉勇

作者簡介:

王紅凱,國網浙江省電力有限公司信息通信分公司,高級工程師,研究方向為網絡與信息安全;

馬新強(通信作者),浙江大學智能系統與控制研究所,重慶文理學院人工智能學院,教授,研究方向為大數據智能化與信息安全;

劉勇(共同通信作者),浙江大學智能系統與控制研究所,教授,研究方向為大數據、人工智能與信息安全。


分享到:


相關文章: