「安華金和」銀行數據脫敏場景需求與解決思路

在銀行生產數據庫中,儲存著大量的敏感信息,例如儲戶個人身份信息、手機號碼、身份證、銀行賬戶信息、資金信息等。這些數據在銀行業很多工作場景中都會得到使用,例如業務分析、開發測試、審計監管,甚至是一些外包業務等方面,使用的都是真實的業務數據和信息。如果這些數據發生洩露、損壞,不僅會給銀行帶來經濟上的損失,更重要的是會大大影響用戶對於銀行的信任度。

應用場景

在銀行及金融機構等環境中,針對敏感信息及個人信息的安全保護,需要根據數據使用者的職能限制數據的使用權限,不過在內部全面執行這一政策並非易事。以某客戶現場的兩種脫敏需求為例:

1、客戶現場需要將脫敏數據導出成.del文件放到一個ftp服務器上;且每天生成的文件都會以當天的日期作為目錄的名字,數據脫敏系統每天會有個定時任務自動到ftp服務器上讀取對應的日期;在目錄中所有數據文件下載到數據庫脫敏系統後開始脫敏,需要將這些.del文件脫敏後發送到ftp服務器上,然後客戶方的開發人員會到這個ftp服務器上讀取脫敏後的數據文件。

2、直接對DB2數據庫進行脫敏,次要需求。

面臨挑戰

在大多數環境下,針對打包內部開發應用程序以及開發 DBA 工具中的敏感信息限制訪問權限等的成本異常高昂,而且極為耗時。許多數據庫訪問監控(DAM)解決方案能夠審核用戶訪問記錄,並在發生數據洩露問題後幫助進行識別,但它們無法對敏感信息進行匿名化處理,以便防患於未然。其他技術則要求進行大規模的應用程序變更,導致不可接受的性能問題,且無法為所有需要保護的多種個人信息提供保護。

產品需要新增一個“從遠程文件脫敏”的功能,需要考慮和注意的事項較多,主要面臨的挑戰及問題如下:

1、假設8點開始拉取數據,那麼是否需要檢查8點之後新下發的數據?

2、脫敏完成後,需要對數據完整性進行校驗;

3、脫敏完成後,需要對已下載的脫敏文件進行清理等問題;

4、需針對“因每次tomcat重啟之後會出現定時任務失效”的情況,進行修復。

部署實施

現場每天會生成3-4G的.del數據文件,需要在夜間設置定時任務將其從遠程ftp服務器上讀取到脫敏服務器上;完成脫敏後,將脫敏數據發送到目標ftp服務器上;同時,也需要脫敏部分數據庫數據到開發測試庫。

應用技術:主動到遠程ftp服務器上讀取數據文件,脫敏完成後再將脫敏完的數據文件發送到遠程ftp服務器上;

實施過程:請代理商幫忙部署了DB2數據庫,為客戶在專門準備的環境上安裝定製版數據庫靜態脫敏系統;為客戶配置源ftp和目標ftp,設置數據文件脫敏任務並設置對應的定時任務。

核心功能


1、自動讀取下發文件

根據下發數據的文件格式和下發週期,對文件定時進行讀取。

2、創建文件源自動添加文件

創建默認文件源,並根據FTP文件列表自動添加要脫敏的數據文件。

「安華金和」銀行數據脫敏場景需求與解決思路

3、自動敏感數據發現任務

創建文件源的敏感數據發現任務,自動執行敏感數據發現任務,並進行敏感數據的自動梳理和確定。

4、自動創建文件脫敏任務

自動創建文件脫敏方案,根據文件源和敏感數據梳理結果進行脫敏方案的自動配置;自動創建文件脫敏任務,將脫敏方案關聯到脫敏任務,並進行脫敏任務的自動執行。

5、敏感字段梳理的模板配置

基於靜態初始化的數據,進行敏感數據梳理模版的手動配置和管理。

6、脫敏方案的模板配置

脫敏方案的手動配置和管理。

「安華金和」銀行數據脫敏場景需求與解決思路

7、敏感數據發現

按照用戶指定或預定義的敏感數據特徵,對數據進行自動識別,發現敏感數據。同時,DMS可發現數據間的主外鍵關係、數據間的依賴關係、同類數據間的聯動關係,為數據子集管理等功能提供保障。

「安華金和」銀行數據脫敏場景需求與解決思路

8、敏感數據字典管理

以敏感數據為中心,對數據庫字段進行分類管理;對同庫多表、多庫多表的同類敏感數據實施統一的脫敏算法和策略,保證同一組織內跨系統、跨庫之間的脫敏一致性;並支持敏感數據字典導入、導出等功能。

「安華金和」銀行數據脫敏場景需求與解決思路

9、脫敏方案管理

針對每一個脫敏項目,在基礎脫敏算法上,可配置專門的脫敏策略,或實現脫敏算法的擴展;DMS可實現脫敏策略的導入導出,以幫助脫敏策略的複用。

10、脫敏任務管理

可對任務進行停止、啟動、重啟、暫停、繼續等操作;支持任務併發,且在脫敏過程中可跳過異常數據繼續執行任務,還支持脫敏任務的中斷續延。

業務流程

1、庫到庫業務流程說明

數據庫到數據庫的全量脫敏,由源數據庫抽取數據並脫敏後輸出到目標數據庫中。

「安華金和」銀行數據脫敏場景需求與解決思路

2、文件到文件業務流程說明

· 數整平臺定時下發數據文件到指定的文件服務器中;

· 脫敏系統到指定的文件服務器中讀取數據文件,根據文件下發完成標記和表數據字典進行數據比對,如果下發的文件解壓完成將繼續進行敏感數據發現任務的執行,如果未下發或解壓完成將重新讀取下發文件;

· 自動創建敏感數據發現任務,並進行敏感數據的自動發現,執行發現任務後根據敏感數據梳理模板對敏感數據進行自動梳理,生成梳理後的敏感字段列表;

· 判斷是否有敏感數據,如果沒有將生成敏感數據發現任務執行報告,並顯示執行結果和消息提示;如果存在敏感數據,將根據脫敏方案模板自動生成脫敏任務,並執行脫敏任務;

· 判斷脫敏任務執行是否成功,如果出現異常將發送異常報告信息,並顯示執行結果和消息提示;如果脫敏任務執行成功,發送目標文件信息和任務執行報告,並顯示執行結果和消息提示;

· 用戶可到目標文件服務器中查詢脫敏數據。

「安華金和」銀行數據脫敏場景需求與解決思路

「安華金和」銀行數據脫敏場景需求與解決思路

價值效果

一、實現自動化脫敏

能夠實現對用戶定期產生的增量數據文件進行自動脫敏,只需要進行一次配置(文件源及相關模板的初始化配置)就可以完全自動執行脫敏任務;完成脫敏後的數據將發送至目標FTP服務器,用戶直接獲取即可使用;同時,突出了場景化、自動化、便捷簡單等使用特點:

1、支持遠程文件脫敏;

2、支持脫敏數據輸出到遠程FTP服務器;

3、支持文件自動化脫敏;

4、支持敏感字段模板管理;

5、支持脫敏方案模板管理;

6、支持定時任務管理。

二、敏感數據統一管理

1、敏感數據自動發現

DMS 系統內置了大量的敏感數據發現算法,能夠通過對數據的採樣分析,自動發現系統中的敏感數據,包括姓名、證件號、銀行賬戶、金額、日期、住址、電話號碼、 Email 地址、車牌號、車架號、企業名稱、工商註冊號、組織機構代碼、納稅人識別號等; 同時提供了用戶自定義敏感數據特徵的擴充能力。通過敏感數據自動發現功能,不僅可以避免人工定義敏感數據帶來的大量工作, 同時可確保不會遺漏隱私信息,更能夠持續發現新的敏感數據字段。

2、敏感數據字典管理

以敏感數據為中心,進行分類管理數據庫字段。例如:“身份證號”作為一類敏感數據,可在該分類裡管理所有數據庫中的身份證號數據字段,實施統一的脫敏算法,並支持敏感數據字典的導入、導出等管理功能。

三、保證業務可靠運行

1、智能化

隨著企業數據的增長和數據內容的不斷豐富, 敏感數據可能分散在成百上千張表和字段中, 元數據的管理工作將越發繁重;同時從業務系統抽取的敏感數據在格式和組織上存在很大隨意性,因此脫敏產品應具備更好的識別敏感數據的能力,能夠不依賴元數據中對錶和字段的定義,而是根據數據特徵自動識別敏感數據並進行有效脫敏。 例如身份證、地址、電話、郵件、銀行卡號、車牌號、企業名稱等。

可逆性, 隨著數據分析的流行和普及,第三方分析機構和內部經分團隊需要將在脫敏後數據基礎上分析的結果還原為業務數據,以形成真實的分析結果。因此,需要提供對脫敏後數據的可逆還原能力。

2、可重複和不可重複性

數據脫敏需要提供能夠重複脫敏相同數據的能力,在不同輪次的脫敏中,保證相同的隱私數據在脫敏後的數據也是相同的,從而保證數據在增量環境下能夠被有效的關聯。另一方面,有些時候出於安全考慮,需要提供不可重複的脫敏能力,保證相同的數據在不同輪次的脫敏中所產生的數據是不同的,從而防止逆向工程還原數據。

3、數據有效性

為了保證業務測試系統和分析系統的正常運行,需要保證脫敏後的數據必須能夠準確反應原始數據的業務屬性和數據分佈特徵;對於原始數據中的姓名、地址、病症、企業名稱等信息,需要在脫敏後仍然具有可讀性; 脫敏後的數據滿足業務系統的數據規則,能夠正確的通過業務系統的數據有效性驗證,如身份證號、銀行卡號的校驗碼,生日數據的區間,有效的髮卡行信息,年齡與出生日期的匹配等。

4、數據完整性

脫敏後的數據需要保證是完整的,並且提供不改變原始數據尺寸、不包含無效信息的能力,防止敏感數據不符合目標數據的定義,造成無法順利入庫的情況。

5、數據關聯性

脫敏後的數據應能滿足業務系統的數據關係特徵,嚴格保留原有的數據關係。例如:身份證號在多個表中出現,需要保證這些數據經過脫敏後也是一樣的;此外,對於具有時間序列關係的數據,需要保證每個日期脫敏後仍然能夠保持原有的時間序列。

通過對上述六個方面的支持,有效保障了脫敏後的數據可以滿足原始數據相同的業務規則,是能夠代表實際業務屬性的虛構數據,能夠使脫敏數據的使用者從體驗上感覺數據是真實的,從而最終達到使用脫敏後的數據可以保證業務可靠運行的目的。


分享到:


相關文章: