金融非結構化數據存儲發展趨勢和解決之道

金融非結構化數據存儲發展趨勢和解決之道

傳統的銀行、保險行業的人工櫃檯、信貸申請、承保和理賠等業務除了在數據庫中記錄交易信息,往往也會產生大量的非結構化數據:身份證照片、紙質文件掃描件、取證文件掃描件、現場照片等,依據金融行業相關法規要求,這些文件需長期保存,以便於後督審計和避免可能存在的法律風險。

隨著互聯網金融的迅猛發展,金融行業的競爭日趨白熱化,越來越多的金融公司希望金融科技能夠幫助企業降低攬客成本和客戶服務成本,提升辦公效率和風險評估效率。為此,各大金融機構競相實施金融科技項目,如:智能化櫃檯,降低營業網點業務開通成本;無紙化櫃檯,提升櫃檯工作和服務效率;理賠智能手機客戶端,提升用戶理賠效率;智能化信貸審核,提升風險評估效率,降低人力投入成本;基礎架構雲化、容器化,提升基礎資源的利用和管理效率等。

這些新型金融科技的背後,顯而易見地會產生海量的圖片、文檔、音頻和視頻等非結構化數據,其文件個數和數據量都呈現爆發性增長,對原有的存儲系統架構帶來了更多的新挑戰。

金融非結構化數據存儲發展趨勢和解決之道

海量非結構化數據帶來的挑戰

對業務部門來說,海量小文件的訪問性能至關重要,直接關係到終端用戶的體驗,而一個股份制銀行省分行的櫃檯系統、信貸系統每年會新增上億個文件,大量小文件對文件存儲是一大挑戰,而很多銀行已經在考慮如何實現文件大集中。

而隨著VTM(遠程虛擬銀行服務系統)、雙錄系統的上線,存儲容量需求高速增長,如保險公司銀保的雙錄數據半年即可增加數百TB數據,存儲是否能夠提供高吞吐能力,來保障音視頻文件的讀寫性能是重要的關注點。

大多數金融機構已經採用分佈式數據庫、大數據技術,來實現歷史數據的在線統一存儲和查詢,而非結構化數據的存儲規模可能會達到PB級甚至EB級,在這種情況下如何實現數據的統一存儲和管理、歷史數據的實時查詢、未來的大數據分析,對存儲高度智能化的管理能力提出了更高的要求。

當前IaaS層雲化是大趨勢,私有云實現了計算和存儲資源的雲化,分佈式數據庫實現了結構化數據的雲化,雲化後的資源可按需分配、彈性擴展。而非結構化數據存儲的雲化卻缺乏很好的解決方案,尤其是隨著音視頻數據的加入,佔用的存儲空間越來越大,而這些數據的單位價值不高,如何降低單位存儲成本也需重點考量。

金融非結構化數據存儲發展趨勢和解決之道

為了解決銀行、保險關鍵系統(如:櫃檯、信貸、承保、理賠等)的海量票據、證件、合同等文件數量龐大且不斷累積導致的存儲性能和擴展性瓶頸問題,金融行業非結構化數據存儲的技術發展經歷了四個階段:

金融非結構化數據存儲發展趨勢和解決之道

NAS存儲階段

在金融行業早期文件數量不多、存儲容量不大的階段, 金融客戶普遍採用NAS外置存儲設備來放置影像資料,但隨著文件的海量增長,單臺NAS可管理的文件數量和容量都出現了瓶頸。在實際項目中我們看到,用戶的文件數量達到數千萬時,訪問時延可能達到秒級,這將直接影響到對最終用戶的金融服務體驗。而增加多臺NAS外置存儲設備,又會導致存儲管理複雜性更高,同一應用系統數據存放在不同設備上導致數據割裂。在中大型企業,IT人員將花費大量時間完成IT運維變更審批流程,同時還要時刻提防這種頻繁變更可能導致的IT運維風險,無法真正聚焦在為業務創造價值上。

ECM階段

隨著文件數量的增加,金融機構開始引入ECM(企業內容管理系統),ECM統一管理多個NAS外置存儲設備,並可動態增加NAS,對外提供統一的名字空間,文件管理規模相對於單臺NAS存儲大大增加。同時,ECM系統還支持文件的屬性存放和屬性檢索,可以實現跨業務系統的文件檢索,滿足文件管理的需要。

但由於ECM接口為非標準協議,需要專門進行應用開發,應用改造成本高,目前主要應用在金融的櫃檯、信貸和後督的影像系統。更重要的是,ECM的投資成本較高,百TB數據的存儲成本高達數百萬,不適合存儲音視頻等價值密度較低的數據,維護的成本也非常高。

分佈式數據庫階段

隨著大數據技術、MPP分佈式數據庫在金融行業的興起,金融行業嘗試利用這些技術解決非結構化數據存儲問題,對於海量小文件性能和擴展性確實有較大突破,且分佈式數據庫可以實現文件元數據的統一存儲和檢索,滿足對內容管理的需求。

但分佈式數據庫是結構化存儲架構,替換文件存儲存在很多侷限性。首先,由於MPP分佈式數據庫的架構限制,很難實現傳統存儲的部分高級功能,如:糾刪碼功能(類似分佈式RAID)、文件去重等,導致存儲成本過高,不適用於音視頻等低價值密度數據的存儲。其次,受限於SQL接口,無法實現目錄和子目錄的權限管理、配額管理、目錄快照回滾等傳統NAS存儲的基本功能,導致數據缺乏安全性機制及數據可靠性保障機制。此外,SQL、NoSQL作為文件存儲,標準性差、接口使用複雜,不便於企業用戶使用。該技術方案在部分金融機構嘗試後,未能成為主流形態大範圍推廣應用。

對象存儲階段

反觀互聯網行業,近幾年隨著移動互聯網和智能手機的蓬勃發展,微信、直播、短視頻等新型應用帶來的非結構化數據量已遠遠超過金融行業。由於數據量大、文件數多,因此需要尋找性價比高的存儲方案,互聯網在十年前就已經開始採用基於x86服務器的分佈式架構來解決海量數據存儲問題,出現過的技術包括谷歌的GoogleFS、亞馬遜的S3、阿里的FastDFS等基於HTTP訪問協議的文件存儲方案,由於亞馬遜的公有云影響力,AWS S3對象存儲逐步成為互聯網行業的事實標準,目前阿里、騰訊、華為的公有云都採用兼容S3協議的對象存儲技術。

對象存儲的技術特點是基於x86服務器+分佈式存儲軟件技術構建統一存儲池,利用服務器本地磁盤實現PB級甚至EB級的大規模存儲集群,可擴展性強。軟硬件解耦,可實現硬件的動態淘汰和更新,無需像NAS進行設備更新時要完成數據遷移。採用簡化的文件操作接口,單一名字空間可管理的文件數量相比NAS大數百倍。基於HTTP協議的SDK訪問,無需掛載操作系統,應用可直接訪問,適合應用雲化和容器化場景及手機APP程序訪問場景。協議標準化,符合基礎架構標準化需求且與公有云兼容,便於應用系統在公有云和私有云間無縫遷移。

除了具備對象存儲的基本特點,杉巖分佈式對象存儲軟件聚焦金融行業,幫助金融客戶構建本地私有云存儲資源池。同時,將互聯網對象存儲技術進行深度產品化,並推出了更多的特性。兼容FTP/文件接口,支持金融行業傳統應用實現向對象存儲的平滑遷移。支持文件元數據和元數據檢索,代替ECM功能,滿足企業內容管理需求。支持目錄快照和快照策略、文件多版本和快速回滾,實現非結構化數據免備份,解決磁帶庫備份帶寬不足和調取慢的問題。支持多數據中心容災及數據中心AA模式,實現業務的就近讀寫訪問。一套環境同時支持副本和糾刪碼(類似分佈式RAID),兼顧金融核心業務系統的性能和音視頻存儲成本型應用需求。支持數據冷熱自動分層,滿足業務性能的同時,降低歷史冷數據的存儲成本。

綜上所述,隨著金融科技的不斷引入,非結構化數據類型更多、數據量增長更快,存儲需要對數據進行統一管理和利用。未來,將結合大數據分析、人工智能技術,實現對金融海量數據的價值挖掘,推動金融行業蓬勃發展。

邱尚高 (杉巖數據CTO & 創始人),IT從業10年,曾任華為高級研發工程師、高級研發經理,2009年參與華為第一代雲平臺產品研發,2011年擔任華為對象存儲技術研究項目經理,主導新一代對象存儲技術方向,2014年作為聯合創始人創立杉巖數據。


分享到:


相關文章: