如今,隨著諸如互聯網以及物聯網等技術的不斷髮展,越來越多的數據被生產出來-據統計,每天大約有超過2.5億億字節的各種各樣數據產生。這些數據需要被存儲起來並且能夠被方便的分析和利用。對與數據存儲方法業界往往有數據倉庫和數據湖兩種方式。很多人對這兩種存儲概念理解的不是很清晰,下面我們將介紹人們的主要三個方面的認識誤區,以幫助大家更高的理解和掌握數據湖和數據倉庫。
誤區一:數據倉庫和數據湖二者在架構上只能二選一
很多人認為數據倉庫和數據湖在架構上只能二選一,其實這種理解是錯誤的。數據湖和數據倉庫並不是對立關係,相反它們的並存可以互補給企業架構帶來更多的好處。數據倉儲存儲結構化的數據,適用於快速的BI和決策支撐,而數據湖可以存儲任何格式的數據,往往通過挖掘能夠發揮出數據的更大作為。所以在一些場景上二者的並存是可以給企業帶來更多效益的。
誤解二:相對於數據湖,數據倉庫更有名更受歡迎
人工智能(AI)和機器學習項目的成功往往需要數據湖來做支撐。因為數據湖可讓您存儲幾乎任何類型的數據而無需先準備或清理,所以可以保留儘可能多的潛在價值。而數據倉庫存儲的數據都是經過清洗,往往會丟失一些有價值的信息。
數據倉庫雖然是這兩種中比較知名的,但是隨著數據挖掘需求的發展,數據湖的受歡迎程度可能會繼續上升。數據倉庫對於某些類型的工作負載和用例工作良好,而數據湖則是為其他類型的工作負載提供服務的另一種選擇。
誤解三:數據倉庫易於使用,而數據湖卻很複雜
確實,數據湖需要數據工程師和數據科學家的特定技能,才能對存儲在其中的數據進行分類和利用。數據的非結構化性質使那些不完全瞭解數據湖如何工作的人更難以訪問它。
但是,一旦數據科學家和數據工程師建立了數據模型或管道,業務用戶就可以利用建立的數據模型以及流行的業務工具(定製或預先構建)的來訪問和分析數據,而不在乎該數據存儲在數據倉庫中還是數據湖中。
閱讀更多 架構師佬劉 的文章