數據安全系列(一)之數據脫敏

隨著信息技術的高速發展,各用戶單位業務系統經過多年沉澱,積累了大量個人隱私數據和企業信息。海量數據除了內部流轉,還需要進行外部“共享”,這亦是國家大數據發展戰略規劃的需求和前提。對大數據商業價值的挖掘,實現用戶的精準定位,大數據中蘊藏的巨大商業價值已經是大家人所共知的共識,但如何保證數據在產生、交換、共享等場景下的安全可用?數據變現過程中涉及個人隱私信息的保護,個人信息與個人行為(比如位置信息、消費行為、網絡訪問行為)等,這些都是人的隱私,在大數據價值挖掘的同時上如何保護人的隱私信息,將是大數據應用必須解決的難題。

數據安全系列(一)之數據脫敏

大數據安全

數據脫敏(Data Masking),又稱數據漂白、數據去隱私化或數據變形。百度百科對數據脫敏的定義為:指對某些敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護。在涉及客戶安全數據或者一些商業性敏感數據的情況下,在不違反系統規則條件下,對真實數據進行改造並提供測試使用。如身份證號、手機號、卡號、客戶號等個人信息都需要進行數據脫敏,實現敏感隱私數據的可靠保護。這樣就可以在開發、測試和其他非生產環境以及外包環境中可以安全的使用脫敏後的真實數據集。

數據脫敏的主要目的是這些將要改造的數據涉及到用戶或者企業數據的安全,在傳輸、存儲、分析使用等環節,不能直接展示暴露,進行數據脫敏其實就是對這些數據進行加密,防止隱私數據洩露。

數據脫敏具有幾個關鍵點:敏感數據、脫敏規則、使用環境。

敏感數據

敏感數據,又稱隱私數據,常見的敏感數據有: 姓名、身份證號碼、地址、電話號碼、銀行賬號、郵箱地址、所屬城市、郵編、密碼類 ( 如賬戶查詢密碼、取款密碼、登錄密碼等 )、組織機構名稱、營業執照號碼、銀行帳號、交易日期、交易金額等。

脫敏規則

確定好了公司的哪些數據要作為脫敏目標後,我們就需要制定脫敏的規則,也就是具體的實施方法。脫敏規則,一般的脫敏規則分類為可恢復與不可恢復兩類:

  • 可恢復類,指脫敏後的數據可以通過一定的方式,可以恢復成原來的敏感數據,此類脫敏規則主要指各類加解密算法規則。
  • 不可恢復類,指脫敏後的數據被脫敏的部分使用任何方式都不能恢復出。一般可分為替換算法和生成算法兩大類。替換算法即將需要脫敏的部分使用定義好的字符或字符串替換,生成類算法則更復雜一些,要求脫敏後的數據符合邏輯規則,即是“看起來很真實的假數據”。

具體常見的方法包括:

1、替換:如統一將女性用戶名替換為F,這種方法更像“障眼法”,對內部人員可以完全保持信息完整性,但易破解。

2、重排:序號12345 重排為 54321,按照一定的順序進行打亂,很像“替換”, 可以在需要時方便還原信息,但同樣易破解。

3、加密:編號 12345 加密為 23456,安全程度取決於採用哪種加密算法,一般根據實際情況而定。

4、截斷:13811001111 截斷為 138,捨棄必要信息來保證數據的模糊性,是比較常用的脫敏方法,但往往對生產不夠友好。(丟失字段的長度)

5、掩碼: 123456 -> 1xxxx6,保留了部分信息,並且保證了信息的長度不變性,對信息持有者更易辨別, 如火車票上得身份信息。(常用方法)

6、日期偏移取整:20130520 12:30:45 -> 20130520 12:00:00,捨棄精度來保證原始數據的安全性,一般此種方法可以保護數據的時間分佈密度。

使用環境

主要指脫敏之後的數據在哪些環境中使用,普遍按照生產環境和非生產環境(開發、測試、外包、數據分析等)進行劃分。根據數據脫敏產品應用場景,通常將數據脫敏劃分為靜態數據脫敏(static data masking[SDM])和動態數據脫敏(dynamic data masking[DDM])兩大類。

數據安全系列(一)之數據脫敏

靜態脫敏、動態脫敏

所謂靜態和動態之分,主要在於脫敏的時機不同。對於靜態脫敏來說,數據管理員提前對數據進行不同級別的脫敏處理,生成不同安全級別的數據,然後授予不同用戶訪問不同安全級別數據的權限。對於動態脫敏來說,管理員通過元數據管理不同用戶訪問具體數據的安全權限,在用戶訪問數據的時候,動態的從原始數據中按照用戶權限動態的進行脫敏處理。靜態數據脫敏(SDM)與動態數據脫敏(DDM)主要的區別是:是否在使用敏感數據當時進行脫敏。

靜態數據脫敏(SDM)一般用在非生產環境,在敏感數據從生產環境脫敏完畢之後再在非生產環境使用,一般用於解決測試、開發庫需要生產庫的數據量與數據間的關聯,以排查問題或進行數據分析等,但又不能將敏感數據存儲於非生產環境的問題。

動態數據脫敏(DDM)一般用在生產環境,在訪問敏感數據當時進行脫敏,一般用來解決在生產環境需要根據不同情況對同一敏感數據讀取時需要進行不同級別脫敏的問題。

大數據脫敏平臺

隨著網絡安全法的頒佈實施,企業越來越重視數據安全,信息系統在支撐業務快速發展的同時,越逐步建設大數據安全管控平臺,為企業的業務數據安全使用提供技術支撐手段。用戶隱私數據保護與挖掘用戶數據價值是兩個互相沖突的矛盾體,徹底的數據脫敏,需要抹去全部的用戶標識信息,使得數據潛在的分析價值大大降低。另一方面,完全保留用戶隱私數據信息,可最大化數據的分析價值,同時導致用戶隱私洩露的風險無法控制。因此大數據脫敏平臺的設計目標並不是實現工具算法用來完全抹去全部的用戶標識信息,而是包括如下幾個目標:

數據安全系列(一)之數據脫敏

脫敏平臺

數據洩露風險可控:首先,實現基於大數據平臺的脫敏算法庫,可並行,高效的按照脫敏規則對隱私數據進行脫敏。其次,基於數據脫敏的理論基礎,建立用戶隱私數據洩露風險的衡量模型,可定性定量的準確衡量數據可能發生洩露的風險。

可管理:結合大數據平臺的用戶認證體系,權限管理體系,以及隱私數據不同保護級別的權限管理體系,實現對隱私數據基於審批的數據訪問機制。結合公司制度,規範,法務等管理,實現在儘可能保護用戶隱私數據,減少數據洩露風險的前提下,最大化保留數據分析挖掘的價值。

可審計:對數據的訪問要保證可回溯,可審計,當發生數據洩露時,要保證能夠通過審計日誌找到對應的洩露人員。

隨著大數據、雲平臺的發展,大數據平臺與雲平臺上數據隱私保護的研究與產品也將長足發展,同時敏感數據的智能探測、智能分析與統計、智能處理也將會被作為一個重要的產品發展方向。


分享到:


相關文章: