如何做大數據存儲?大廠架構師在線解答!

隨著信息時代的到來,互聯網信息爆炸性增長,各個企業都重視數據的收集和應用。隨著存儲設備價格的下降又加速了這個過程進一步的發展。以前存儲數據成本高,現在存儲數據成本低;以前覺得數據分析可有可無,現在認為通過分析數據可以獲得商機。數據增加,數據存儲成本的降低,企業收集數據慾望的增強造成了一個現象,那就是一個企業通常要維護和存儲大量的數據。那麼存儲這些數據需要付出多少成本,我們如何提高數據的利用率呢?今天就和小夥伴們一起來聊聊這個問題。

數據存儲的成本

不要認為存儲媒介的價格降低了,數據存儲的成本就會降低。實際上還有其他的存儲成本我們是沒有考慮進來的。以下六點數據存儲的成本是需要我們考慮的。

如何做大數據存儲?大廠架構師在線解答!

存儲數據的物理資源成本:這個好理解,目前來說就是硬盤和存儲磁帶,還有網絡的雲存儲介質。

管理存儲系統的人力和軟件成本:需要把數據按照一定的格式存儲到存儲介質中去,這裡需要DBA和對應ETL軟件完成

使存儲設備正常運行的電力和空間成本:存儲設備存放的場所,以及對存儲服務器供電的電源也是有成本要求的。

確保存儲的基礎設施成本:存儲設備所在的地點需要對空調配電等等基礎設施維保,這部分的費用也是平時被忽略的。

查詢,遍歷數據的處理成本:存儲的數據格式是多種多樣,當我們要對某些數據進行查詢分析的時候通常需要對異構的數據進行同構

,把結果提供給數據服務或者外部接口。說白了就是把不同結構的數據進行查詢,整理,變成統一的格式提供給查詢者使用。

備份數據的成本:計算是長期存儲的數據也需要做定期的備份,我們假設所有的存儲介質都是有生命週期的,都有潛在的不可靠性,例如多節點的備份在數據存儲中都是非常必要的。

數據存儲的價值與取捨

有這樣一個觀點,隨著數據的增大,即使存儲成本降低,都無法滿足全量數據的存儲要求。如果這個觀點成立的話,那麼我們在存儲數據的時候一定要有取捨,取捨的標準是什麼,那就是數據價值的評估。哪些數據對我們的商業應用是有價值的,例如:用戶今年的購買商品的信息和三年前購買商品的信息,哪個更有價值?下面我們就看看從哪些維度來看看數據的價值,如何做出取捨的判斷?

如何做大數據存儲?大廠架構師在線解答!

業務價值:我們可以問問自己的業務部門,我們目前對哪些數據感興趣,哪些數據是有商業價值的。對我們目前的數據按照業務分類,時間等維度進行分割,對分割的每個維度的數據進行優先級評估。甚至這種評估可以精確到字段級別(這個實施起來有點難度)。從這個優先級排序可以看到,優先級比較低的就是業務價值低的數據。這些數據我們可以考慮刪除或者移動到更加廉價,訪問速度要求沒有那麼高的存儲設備上去。具體的操作按照每個公司的情況不一樣酌情考慮。

如何做大數據存儲?大廠架構師在線解答!

戰略競爭差異化:這部分的評估需要業務,技術和市場部門同時參與。評估的內容是,哪些數據是我們擁有而競爭對手沒有的,或者說哪些數據競爭對手沒有我們保存時間久的。即使這部分數據對目前我們的商業價值沒有那麼大,但是可以保證我們在行業競爭中的差異優勢。所以,是對我們有價值的。

如何做大數據存儲?大廠架構師在線解答!

數據存儲/轉換方案

即然對數據重要性做出了優先級的排序,知道哪些數據對我們是有用的。那麼,接下來就是如何存儲這些數據了。這裡給出兩點思路僅供大家參考。

分層存儲解決方案根據數據訪問的“冷“,”熱“程度對數據進行分層保存。最“熱”的數據可以放到告訴存儲設備(緩存),並且對應磁盤做備份數據庫。用的少的“冷”數據可以放到訪問速度相對慢一些的磁盤上。

如何做大數據存儲?大廠架構師在線解答!

數據轉換方案:這個思路相對簡單,應該大家都用過。例如:把“冷”數據或者長期不用的數據進行壓縮處理,減少數據存儲的空間。又例如:把一些基礎的原始數據,轉化成數據服務,提供給第三方的服務。

如何做大數據存儲?大廠架構師在線解答!


分享到:


相關文章: