阿里雲首次揭祕如何構建雲原生數據湖體系

阿里雲首次揭秘如何構建雲原生數據湖體系

大數據文摘出品

作者:無謂、鐵傑、周皓、亦龍、揚清


“數據湖”正在被越來越多人提起,儘管定義並不統一,但企業們都已紛紛下水實踐,無論是AWS還是阿里雲、華為。


我們認為:數據湖是大數據和AI時代融合存儲和計算的全新體系。


為什麼這麼說?還要從它的發展說起


數據量爆發式增長的今天,數字化轉型成為IT行業的熱點,數據需要更深度的價值挖掘,因此需要確保數據中保留的原始信息不丟失,應對未來不斷變化的需求。


當前以Oracle為代表的數據庫中間件已經逐漸無法適應這樣的需求,於是業界也不斷地產生新的計算引擎,以便應對大數據時代的到來。


企業開始紛紛自建開源Hadoop數據湖架構,原始數據統一存放在HDFS系統上,引擎以Hadoop和Spark開源生態為主,存儲和計算一體。


缺點是需要企業自己運維和管理整套集群,成本高且集群穩定性較差。


在這種情況下,雲上託管Hadoop數據湖架構(即EMR開源數據湖)應運而生。底層物理服務器和開源軟件版本由雲廠商提供和管理,數據仍統一存放在HDFS系統上,引擎以Hadoop和Spark開源生態為主。


這個架構通過雲上IaaS 層提升了機器層面的彈性和穩定性,使企業的整體運維成本有所下降,但企業仍然需要對HDFS系統以及服務運行狀態進行管理和治理,即應用層的運維工作。


因為存儲和計算耦合在一起,穩定性不是最優,兩種資源無法獨立擴展,使用成本也不是最優。


同時,受到開源軟件本身能力的限制,傳統數據湖技術無法滿足企業用戶在數據規模、存儲成本、查詢性能以及彈性計算架構升級等方面的需求,也無法達到數據湖架構的理想目標。


企業在這個時期需要更低廉的數據存儲成本、更精細的數據資產管理、可共享的數據湖元數據、更實時的數據更新頻率以及更強大的數據接入工具。


雲原生時代到來,我們可以有效利用公有云的基礎設施,數據湖平臺也有了更多的技術選擇。比如雲上純託管的存儲系統逐步取代HDFS,成為數據湖的存儲基礎設施,並且引擎豐富度也不斷擴展。


除了Hadoop和Spark的生態引擎之外,各雲廠商還發展出面向數據湖的引擎產品。如分析類的數據湖引擎有AWS Athena和華為DLI,AI類的有AWS Sagemaker。


這個架構仍然保持了一個存儲和多個引擎的特性,所以統一元數據服務至關重要。


基於此,阿里雲正式發佈了雲原生數據湖體系,由對象存儲OSS、數據湖構建Data Lake Formation、E-MapReduce產品強強組合,提供存儲與計算分離架構下,湖存儲、湖加速、湖管理、湖計算的企業級數據湖解決方案。


《阿里云云原生數據湖體系全解讀》是阿里雲首次發佈雲原生數據湖體系,基於對象存儲OSS、數據湖構建Data Lake Formation和E-MapReduce產品的強強組合,提供存儲與計算分離架構下,涵蓋湖存儲、湖加速、湖管理和湖計算的企業級數據湖解決方案。


複製該鏈接到瀏覽器完成下載或分享:

https://developer.aliyun.com/topic/download?id=900


阿里雲首次揭秘如何構建雲原生數據湖體系


目錄


阿里雲首次揭秘如何構建雲原生數據湖體系


其中的雲原生數據湖技術系列專題,將告訴大家如何基於阿里雲 OSS 、JindoFS和數據湖構建(Data Lake Formation,DLF)等基礎服務,結合阿里雲上豐富的計算引擎,打造一個全新雲原生數據湖體系。


阿里雲首次揭秘如何構建雲原生數據湖體系


數據湖存儲 OSS


阿里雲對象存儲 OSS 是數據湖的統一存儲層,它基於12個9的可靠性設計,可存儲任意規模的數據,可對接業務應用、各類計算分析平臺,非常適合企業基於OSS構建數據湖。


相對於HDFS來說,OSS可以存儲海量小文件,並且通過冷熱分層、高密度存儲、高壓縮率算法等先進技術極大降低單位存儲成本。同時OSS對Hadoop生態友好,且無縫對接阿里雲各計算平臺。針對數據分析場景,OSS推出 OSS Select、Shallow Copy和多版本等功能,加速數據處理速度,增強數據一致性能力。


數據湖加速


對象存儲系統在架構設計上和 HDFS 等分佈式文件系統存在一定差異,同時存儲和計算分離架構中 OSS 是遠端的存儲服務,在大數據計算層面缺少對數據本地化的支持。


因此,在 OSS 對象存儲服務的基礎上,阿里雲定製了自研的大數據存儲服務 —— JindoFS,極大的提升數據湖上的引擎分析性能,在TPC-DS、Terasort等常見的benchmark測試中,採用計算存儲分離架構的 JindoFS性能已經達到或超過了本地部署的HDFS。


同時JindoFS完全兼容 Hadoop 文件系統接口,給客戶帶來更加靈活、高效的計算存儲方案,目前已驗證支持Hadoop開源生態中最主流的計算服務和引擎:Spark、Flink、Hive、MapReduce、Presto、Impala 等。當前 JindoFS存儲服務包含在阿里雲 EMR 產品中,未來 JindoFS會有更多的產品形態服務於數據湖加速場景。


數據湖構建(DLF)


傳統的數據湖架構非常強調數據的統一存儲,但對數據的Schema管理缺乏必要的手段和工具,需要上層分析和計算引擎各自維護元數據,並且對數據的訪問沒有統一的權限管理,無法滿足企業級用戶的需求。


數據湖構建(DLF)服務是阿里雲在2020年9月推出的針對數據湖場景的核心產品,主要為了解決構建數據湖過程中用戶對數據資產的管理需求。DLF 對 OSS 中存儲的數據提供統一的元數據視圖和統一的權限管理,並提供實時數據入湖和清洗模板,為上層的數據分析引擎提供生產級別的元數據服務。


雲原生計算引擎


當前阿里雲上眾多雲原生計算引擎已經接入或準備接入數據湖構建服務,包括阿里雲EMR上的開源計算引擎Spark、Hive、Presto、Flink以及大數據計算服務 MaxCompute、數據洞察 Databricks 引擎和數據湖分析(DLA)等。


以最常用的開源引擎 Spark 為例,阿里雲 Spark 可以直接對接數據湖構建的元數據服務,運行在多集群或多平臺上的 Spark 任務共享同一個數據湖元數據視圖。並且 EMR 為 Spark 推出了Shuffle Service服務,Spark 引擎因此獲得雲原生平臺上的彈性擴縮容能力。雲原生計算引擎結合數據湖架構可以獲得更高的靈活度並極大的降低數據分析成本。


另外,雲原生數據倉庫 MaxCompute也準備接入數據湖構建服務,未來數倉和數據湖將會發生什麼樣的化學反應呢?敬請期待。


數據湖治理


DataWorks數據綜合治理可為阿里雲客戶提供統一的數據視圖,用於掌握數據資產的現狀、助力數據質量的提升、提高獲取數據的效率、保障數據安全的合規並提升數據查詢的分析效率。可以有效支撐離線大數據倉庫的構建、數據聯邦的查詢和分析處理、海量數據的低頻交互式查詢和智能報表的構建,以及數據湖方案的實現。


綜上所述,利用阿里雲的基礎組件和整體解決方案,用戶可以方便的構建一個數據湖平臺,完成企業大數據架構轉型。


分享到:


相關文章: