為什麼以及何時避免用S3作數據湖的數據平臺

2020-03-26 06:05:34 聞數起舞

如今，數據湖在大型企業中風靡一時。數據湖是單個存儲，用於存儲源系統數據的原始副本和轉換後的數據，以用於報告，可視化，高級分析和機器學習等任務。

Figure 1: Data lake ecosystem

對象存儲（如S3）正成為數據湖的首選平臺，原因有兩個：

· 它們在雲中提供廉價，持久且幾乎無限的存儲

· 它們實現了計算和存儲的分離，從而可以獨立擴展任何一個

在這篇博客文章中，我將更深入地探討對象存儲的一些優點，這些對象存儲成為數據湖平臺的流行。我還將研究一些經常被低估的難題，這些難題困擾著許多數據湖用例的對象存儲。

對象存儲的好處：持久，便宜且幾乎不受限制的存儲

像S3這樣的對象存儲提供11個9的耐用性（99.999999999％）和四個9的可用性（99.99％），並且他們設法以幾乎無限的規模做到了這一點，其價格低得令人難以置信，約為$ 23 / TB / TB。與此形成鮮明對比的是，幾年前流行的本地數據倉庫設備（DWA）。不包括企業支持，DWA每TB的成本為數萬美元。僅支持數百TB的數百萬美元的DWA合同是很常見的。

當IT領導者考慮為其數據湖選擇數據平臺時，對象存儲的$ 23 / TB /月的價格標籤實在令人無法抗拒。使用最便宜的存儲空間來存儲預期將要容納的數據湖的大量數據（從數百TB到PB）是有意義的。像S3這樣的對象存儲（不正確，我們將在本文後面看到）似乎比許多大型企業仍在使用的DWA具有千倍的定價優勢。

對象存儲的好處：存儲和計算的分離

數據湖所需的存儲規模使使用DWA之類的架構（將存儲和計算耦合到單個程序包中）的成本過高。通過解耦存儲和計算，我們可以在任何給定時間攜帶適當數量的按需計算，以承載需要分析的數據。這大大降低了數據分析解決方案的總體成本。

Figure 2: Separation of storage and compute

可以理解，所有這些優勢對於推動S3和其他對象存儲作為數據湖平臺的普及至關重要。但是對象存儲面臨很多挑戰，沒有引起足夠的重視。對於源於RDBMS且經常刷新（每天/每小時）的數據尤其如此，後者構成了企業中大量的高質量數據。

對象存儲的缺點：不變性

所有對象存儲，包括S3，GCS和Azure Blob存儲，都是不可變的。這意味著，一旦將文件寫入對象存儲，就無法對其進行編輯。用戶只能硬刪除舊文件並創建一個新文件，或者在邏輯上刪除該舊文件並創建一個新文件（版本控制）。

當使用S3作為源於RDBMS且經常刷新的數據的數據平臺時，這將導致為每個表創建大量的小文件。

Figure 3: The problem of many small files for RDBMS-sourced data

隨著插入，更新和刪除隨著時間的推移而堆積，嘗試導出表的當前狀態將成倍增加時間和計算量。大多數數據科學家都對這項複雜的工作不屑一顧，而是要求直接訪問源系統，從而一開始就破壞了使用數據湖的目的。

Figure 4: Problems with using raw changesets on S3

U =更新，I =插入，D =刪除

解決方案，第1部分：對數據進行分區

解除最終用戶合併變更責任的一種解決方案是對數據進行分區，然後重新寫入最新插入，更新和刪除所針對的分區。這在一定程度上減輕了最終用戶的負擔。但是，仍然存在性能問題，特別是如果表中包含大量列並且僅需要這些列的子集進行分析時。

Figure 5: Using partitions to merge changesets

解決方案，第2部分：使用列式存儲

通過使用諸如Apache Parquet或Apache ORC之類的列格式，可以改進上述解決方案。列格式通過更好地壓縮數據並將I / O限制為僅用於分析所需的列，從而顯著提高了性能。但是，從語言和工具（如Python，R或Tableau）讀取Parquet文件仍然很困難。

Figure 6: Columnar storage helps with performance

解決方案，第3部分：使用SQL接口簡化訪問

為了進一步構建此解決方案，許多工程師在原始Parquet文件上添加了SQL接口（例如AWS Athena，Presto或Spark SQL）。這使最終用戶的數據訪問變得更加簡化，最終用戶現在可以跨自己喜歡的編程語言和工具（例如Python，R或Tableau）發出SQL查詢。

Figure 7: SQL interfaces simplify access to data in a data lake

解決方案，第4部分：使用Delta Lake添加功能

通過使用像Delta Lake這樣的開源存儲層，可以再次改進上述解決方案。 Delta Lake通過增加對ACID（原子性，一致性，隔離性，持久性）交易的支持，支持流和批處理用例的lambda架構以及訪問先前刷新日期/之前的數據的能力，進一步改進了Parquet格式。時間（時間旅行）。

Figure 8: Delta Lake adds transactions, simultaneous batch and streaming use cases, and time travel

問題解決了？

沒那麼快！上面的架構確實代表了可行的解決方案，並且許多企業為能夠設計和實施這種解決方案而自以為是。公平地說，能夠大規模實現這一目標是相當可觀的。但是，該體系結構仍然困擾著許多問題，並且還有很多改進的餘地。作為數據湖平臺的S3上的Delta Lake的關鍵問題包括：

· 該體系結構無法解決變更集的創建問題，因此創建變更集可能會遇到很大的挑戰

· 實施和支持企業級的彈性提取，轉換和加載（ETL）解決方案非常複雜

· 編寫Parquet和Delta文件需要額外的計算以及技術知識，才能大規模配置和運行集群計算平臺（例如Apache Spark）

· SQL接口訪問（通過AWS Athena，Presto或Spark SQL等技術）需要附加的計算基礎架構，從而增加了解決方案的整體複雜性和成本

· 解決方案的複雜性使其支持成本高昂

· S3提供有限的元數據和標記功能

· 在S3中的對象上集成表級或行級安全性，尤其是對於大型和複雜的企業，可能會非常具有挑戰性

· 最後但並非最不重要的一點是，這種平臺的性能遠遠落後於它打算取代的數據倉庫設備的性能

考慮到隱藏的計算和支持成本，安全性集成和性能問題，S3作為用於RDBMS的，經常刷新的數據的數據平臺，與其每月每TB 23美元的承諾相去甚遠。一旦我們將所有成本加起來，它便開始攀升至每月每TB數千美元的範圍。對於那種錢，有很多更好的選擇。

諸如Snowflake，Google BigQuery或Azure Synapse Analytics之類的雲級託管分析數據庫提供了兩全其美的優勢。通過將存儲和計算分開，它們提供了S3可比的存儲成本以及可管理的數據平臺，該平臺抽象了實現雲規模分析解決方案的複雜性。它們具有AWS Athena / Presto / Spark SQL界面，提供了與基於S3的Parquet / ORC / Delta Lake類似的TCO，同時擁有更好的性能，安全性集成和架構支持。它們還減少了運營開銷，同時將技術和人才風險轉移給了第三方供應商。

Figure 9: Advantages of a managed analytics DBs over the "object-store + Delta Lake + SQL interfaces

源自RDBMS的大部分為靜態數據呢？

基於RDBMS的，大多數為靜態數據（即數週或數月不變）不會像基於RDBMS的，經常刷新的數據那樣產生大量的ETL計算和支持開銷。但是，對於此類用例，我的建議是首選基於雲規模的託管分析數據庫，而不是基於S3的Parquet / ORC / Delta Lake存儲，因為圍繞元數據管理，安全集成和性能的所有挑戰和成本仍然存在。

那半結構化數據呢？

進入企業的大多數半結構化數據（通過XML，JSON和CSV等格式）都具有相當穩定的架構，可以將其吸收到關係表中。大型企業中的大多數此類數據經常被吸收到AWS Redshift等分析數據庫中，或通過基於S3的Parquet / ORC / Delta Lake存儲通過SQL接口（如AWS Athena，Presto或Spark SQL）進行訪問。對於這種類型的用例，我的建議是考慮將存儲和計算分開的託管分析數據庫。

TCO應該是您的北極星

最後，應根據總擁有成本（TCO）來考慮解決方案，並要考慮它們帶來的功能和解決方案固有的風險。如果兩種解決方案的總擁有成本相似，但是其中一種提供了更好的功能，那麼與該解決方案保持一致就很容易了。此外，應仔細考慮與內部開發的解決方案相關的技術和人才風險。通常，對於大型企業，在合理的情況下，將技術和人才風險轉移到信譽良好的供應商產品上更為合理。

Figure 10: Balancing TCO, performance, features, and risk

那麼什麼時候對象存儲可用作數據湖平臺？

對於其他用例，例如半結構化和非結構化數據，由於（出於成本或實用性的原因）不能或不應該將其吸收到雲規模分析數據庫中，對象存儲（如S3）仍然是一個極好的數據平臺。例如，將圖像，音頻文件，視頻，電子郵件，PowerPoint演示文稿，Word文檔或PDF提取到託管分析數據庫中是沒有意義的。此外，許多這些雲規模的分佈式數據庫都使用對象存儲（如S3）作為它們的數據攝取接口，甚至有一些甚至使用對象存儲作為幕後的內部管理存儲平臺。

Table 1: Recommendations

在以後的文章中，我們將深入討論為什麼將存儲和計算分開的雲級託管分析數據庫（例如Snowflake，Google BigQuery或Azure Synapse Analytics），以及專門構建的CDC工具（例如Qlik Replicate，Oracle GoldenGate或 HVR CDC）更適合企業數據湖中源自RDBMS的，經常刷新的數據。

(本文翻譯自Farhan Siddiqui的文章《Why and When to Avoid S3 as a Data Platform for Data Lakes》，參考：https://medium.com/swlh/why-and-when-to-avoid-s3-as-a-data-platform-for-data-lakes-c802947664e4)

分享到:

閱讀更多 聞數起舞 的文章

關鍵字: Presto 何時威剛科

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"