正確的構建Data Lake(數據湖)在架構上需要注意哪些基本需求

近些年,以數據為驅動的公司都利用Data Lake(數據湖)來快速推動自己業務的轉型。從Data Lake(數據湖)中挖掘的數據價值越來越為更多的公司所認可,所以越來越多的公司開始構建自己的Data Lake(數據湖)。但是很多公司由於是初建Data Lake(數據湖)經驗不足往往存在設計缺陷。這篇文章將介紹在構建Data Lake(數據湖)時候需要注意的一些基本方面。

正確的構建Data Lake(數據湖)在架構上需要注意哪些基本需求

事務性

數據湖中的數據不是被用作冷數據,而是用作實時數據與數據倉庫中數據結合在一起來使用。數據湖已經有了長足的發展,使得利用商業智能儀表板和人工智能功能能實時獲取決策信息,為了構建可支持智能儀表板和人工智能功能的可靠分析平臺,數據工程師需要考慮:

  • 支持緩慢漸變維度(類型I和類型II):這是任何數據分析系統的常見要求,並且需要具有INSERT,UPDATE和UPSERT數據的功能
  • 數據重述:組織正在集成來自多種來源的數據,這些來源包括事務性數據庫,CRM,ERP,IoT和其他SaaS應用程序,以及來自社交媒體的數據。這可能導致不正確或數據質量差,需要在後續步驟中進行糾正。依賴於這些數據的業務規則需要乾淨,完整,準確和最新的數據,這進一步增加了數據重述的重要性。
正確的構建Data Lake(數據湖)在架構上需要注意哪些基本需求

安全和隱私法規與合規性

對“Right to Erasure(刪除權)”或“Right to Be Forgotten”(RTBF)的新要求源於一系列新的且不斷擴展的全球數據隱私法規。這些法規規範了消費者對其數據的權利,並對不遵守規定的行為處以嚴厲的經濟處罰。鑑於財務處罰是重大的(高達全球營業額的4%),因此不能忽略。在確保業務連續性的同時,滿足這些數據隱私和保護要求的企業面臨著挑戰。 RTBF要求有針對性地刪除特定數據(記錄,行或列)的能力,這些數據可能在有限的時間內駐留在Data Lake(數據湖)中。隨著數據湖中大量數據的擴散,在不中斷現有數據管理流程的情況下刪除特定的數據子集具有挑戰性。儘管一些新的解決方案從各種供應商處湧現出來,但並不是所有的解決方案都能滿足要求。因此,組織仍在構建定製解決方案以滿足這些新法規。但是,作為大多數內部構建的解決方案,它們會帶來圍繞更新,維護,可審核性等方面的問題。

正確的構建Data Lake(數據湖)在架構上需要注意哪些基本需求

快速分析展示

對“黃金標準”數據集的快速,交互式分析使用戶可以信任結果並縮短了解時間。快速讀取需要準備好的數據和正確的分析引擎。數據工程師一直在問“什麼是我的數據類型最好的數據格式?”和“什麼文件和分區的大小合適以提高性能?”

正確的構建Data Lake(數據湖)在架構上需要注意哪些基本需求

高速寫入

當涉及到完成寫入操作時,典型的分佈式系統除等待時間外還會承受額外的開銷。開銷來自於寫入存儲之前寫入到暫存位置,或者更新整個分區而不是記錄。對總體性能的影響是巨大的,並且隨著組織開始大規模運行數據湖而迅速成為主要問題。


正確的構建Data Lake(數據湖)在架構上需要注意哪些基本需求

數據一致性和完整性

併發控制對於Data Lake(數據湖)很重要,因為它需要支持多個用戶和應用程序,並且衝突必將發生。例如,當一個用戶想要從另一個文件或分區讀取文件或分區時,它可以確保數據的一致性,完整性和可用性;或兩個要寫入同一文件或分區的用戶。因此,現代的數據湖體系結構需要解決這種情況。還需要確保這些併發操作不會違反導致錯誤結果的數據的完整性,準確性和參照完整性。

選擇正確的分析計算引擎

對洞察力和信息的需求的快速增長導致幾乎每個企業收集和存儲的數據呈指數增長。利用收集到的數據來改善客戶體驗的戰略需求要求企業採用可為當今多個用例提供服務的數據架構,同時保留數據處理引擎,雲基礎架構和供應商可移植性的選擇以為將來的用例提供服務。

正確的構建Data Lake(數據湖)在架構上需要注意哪些基本需求


在Qubole,如何考慮這些:

  • 它支持數據湖上的完全事務性,而不管雲(AWS,Azure或GCP)如何。
  • 它提供了對刪除操作的內置支持,使客戶能夠遵守已建立的SLA中“刪除權”的法規和隱私要求。
  • 您可以直接寫入雲對象存儲,從而消除了額外的開銷,同時以最佳性能保證了數據完整性。
  • 最重要的是,我們將繼續提供基於Hive事務表的ACID功能的完整實現,從而使數據處理引擎(Apache Spark,Presto,Hive等)的選擇自由度得以實現。
  • 最後,我們是Presto和Spark連接器的開源產品,它們直接與Hive ACID表配合使用,以在數據湖上進行高吞吐量讀取。

    原文鏈接:https://www.qubole.com/blog/building-a-data-lake-the-right-way/


    分享到:


    相關文章: