槓上 Spark、Flink？Kafka 為何轉型流數據平臺

2018-12-13 15:27:13 首席數據師

1. 消息系統的演化歷史

消息系統作為一個核心的基礎架構組件由來已久，而且運用廣泛。整個消息系統的演化進程，大致可以分為三個階段：

1.0 時代：JMS 以及各種 MQ
2.0 時代：Kafka 的實時管道時代
3.0 時代：流數據平臺時代（Kafka 和 Pulsar）

1.0 - MQ 時代

消息系統作為一個基礎機構的組件，通常用於連接不同的軟件服務。這些服務可以相互連接，形成一個更大的服務。或者，它也用於將用戶設備和後臺服務進行連接。消息系統通過將消息的分發和接收分離來實現應用服務的異步和解耦。需要大數據資料的可以私信我

或許你正在考慮進行數據投遞、非阻塞操作，或者推送通知；或者你想要實現發佈 / 訂閱，異步處理，或者工作隊列。所有這些都屬於消息系統的模式。這些消息系統通過 JMS 或者 AMQP 的消息規範或者協議進行通訊。比如 RabbitMQ 就是 AMQP 的一個消息系統實現。它可以為你的應用服務提供一個通用的消息發送和接收平臺，並且保證消息在傳輸過程中的安全。

舉個例子，對於一個大型的系統來說，它通常會由很多不同的組件或者子系統構成。如果這些子系統直接使用傳統的 IPC 或者 Socket 網絡通訊構建，那麼模塊和子系統之間的耦合性會很大，並不適合進行擴展；而且它同時需要考慮各種問題——比如數據的發送方和接收方怎麼進行容錯處理，如何做負載均衡，如何處理系統擴展等。而一個消息系統就可以解決上述所有問題。

在這個時代，消息系統主要以圍繞 JMS、AMQP 等標準化的消息規範和消息協議設計的系統實現為代表，比如 ActiveMQ，RabbitMQ 等。消息系統在這個時代主要用於在線業務，用來解耦系統的複雜度。

2.0 - 實時管道時代

消息系統演化的 2.0 時代，其實是一個實時管道的時代。而 Kafka 是這個時代的典型代表系統。Kafka 是 2010 年左右在 Linkedin 研發的一套分佈式消息系統。當時的 Linkedin 和很多互聯網公司一樣，分很多的組，有很多的數據產品，每天需要採集非常多的數據。這些數據都是由不同數據源實時生成，比如用戶活躍度、日誌等。如果數據的生產者和消費者之間採用點對點的方式進行數據傳輸，那麼運維的人力和物力成本就會很高。於是 Linkedin 需要一個集中式的數據管道，所有的業務方都只要跟這個數據管道打交道就可以，不再需要進行點對點的數據傳輸。

從 2010 年開始，Linkined 嘗試了不同的消息系統。但是發現 1.0 時代的消息系統都有兩個比較通用的缺陷：一是當消費者出現，無法及時消費數據的時候，消息數據可能會被丟棄；二是可擴展性上，並不能很好的配合互聯網的數據規模。Kafka 就誕生在這樣的背景下。

Kafka 的設計理念很簡單，就是一個以 append-only 日誌作為核心的數據存儲結構。簡單來說，就是 Kafka 把數據以日誌的方式進行組織，所有的數據以追加日誌的方式寫到日誌的最末端，對日誌的讀取按照順序進行讀取。這樣儘可能講數據的讀寫按照順序進行操作，這樣可以做到比傳統 MQ 更高的吞吐。此外，數據以 Topic 為單位作為粒度，按照分區進行切分，存儲在不同的服務器上。數據的發佈和訂閱都基於 Topic，數據更新時，消費端的客戶端會把它們從服務器上拉去下來。

Kafka 變得流行，並且成為那個時代的數據管道，得益於 Storm 的流行。Storm 的興起和 Lambda 架構的引入彌補了 Hadoop 大數據生態在速度和時延上的短板。大量的互聯網公司比如 Twitter 等，開始使用 Storm 和 Lambda 架構，Kafka 的實時管道特性，配合 Storm 的流計算，使之開始變得流行。

3.0 - 流數據平臺時代

消息系統演化的第三個階段是流數據平臺。這包含兩方面的含義，其一是流數據，其二是平臺化。流數據，廣義上來講，是相對於批處理時代的靜態數據而言的。這其中包括微服務、事件驅動架構（Event-Driven-Architecture）的流行，物聯網的興起等。而平臺化意味著消息系統需要能夠作為一個平臺系統去支撐不同的業務服務、不同的租戶管理，而不再是一個簡單的數據管道。Apache Pulsar 就是新一代消息系統的代表。

這些系統的誕生，主要與以下幾個因素有關：

首先，傳統的消息系統比如各種 MQ 和 Kafka 並不能很好地支持平臺化，或者隨著數據規模的增長，業務負載多樣性的增加，這些系統開始暴露大量問題：基本上傳統的消息系統都是以分區為主的架構設計，緊耦合了消息服務（計算）和消息存儲，而且存儲模型都過於簡單或者太依賴於文件系統。隨著 Topics 數據量的增加，或者數據重要性（不丟數據）的加強，這些系統的性能會急劇下降。

其次，基礎架構的容器化。從 2012 年開始，Mesos 的流行、Docker 的興起，到現在 Kubernetes 一統天下，整個基礎架構正在全面往容器化發展。任何緊耦合計算和存儲的架構並不能很好地使用新的容器化架構。消息系統需要一個計算和存儲相互分離的架構設計去更好地適應容器化的變革。

第三，基礎架構的雲化。雲化是一種新的思維方式。首先，不論是公有云還是私有云，架構設計都需要考慮平臺化，也就是多租戶、IO 隔離、流控、配額以及安全開始變成消息系統的標配；其次，架構設計需要考慮如何去使用雲資源（比如雲存儲等）。

第四，計算框架的批流一體化。無論是 Flink 還是 Spark，流計算還是批計算的邊界已經變得模糊。用戶真正關心的是如何更好更快地使用數據，如何從數據中更快地挖掘出其中的價值。而這其中最核心的思維轉變是，流數據和靜態數據不再是不同的數據，它們其實是同一份數據的兩種不同表徵方式。

第五，計算輕量化，Serverless 和事件驅動架構帶來的變革。

2. Kafka 的挑戰

正如上文所述，Kafka 基本上是當下實時管道的第一選擇。在 Kafka 0.8 之後，Kafka 也在往平臺化的方向發展。現在的 Kafka 除了最核心的消息發佈和訂閱之外，還包括了以下一些新興組件，比如：

Kafka Connect：用來從 Kafka 導入和導出數據
Kafka Streams：輕量化的流計算庫，用於編寫一些簡單的計算任務處理 Kafka 的數據。
此外，還包含 Schema Registry、KSQL 等組件。

但是，Kafka 在平臺化的過程中，最核心的挑戰在於其架構如何適應雲原生的挑戰。

首先，Kafka 以分區為中心的架構設計是面向物理機時代的架構設計。它緊耦合了消息服務（計算）和消息存儲，Kafka 的分區跟一臺或者一組物理機強綁定。強綁定帶來的問題是，當處理機器失效或者擴容的過程中，Kafka 需要進行昂貴且緩慢的分區數據重新均衡的過程。這個過程十分漫長，而且容易出錯。一旦出錯，可能帶來服務的不可用性。

其次，Kafka 以分區為粒度的存儲設計，導致其並不能很好地利用已有的雲存儲資源。

最後，Kafka 的存儲設計過於簡單，導致其進行多租戶管理、IO 隔離以及平臺化轉型過程中，需要解決架構上的很多缺陷。

3. Pulsar 的雲原生之路

而近一年多崛起並漸漸被更多開發者瞭解的 Apache Pulsar，與 Apache Kafka 的不同也正好體現在雲原生架構設計上。Apache Kafka 在設計上的一些並不能很好地適應於雲原生環境的缺陷，比如消息服務和消息存儲的緊耦合、IO 並不隔離、基於物理分區的存儲模型等，Apache Pulsar 在設計之初就很好地避開了——比如計算和存儲分離、分層分片、IO 隔離、多租戶管理等。

Apache Pulsar 是 2012 年在 Yahoo 內部啟動的項目。其最初的設計，就是奔著做 Yahoo 內部的消息雲去做的。所以 Pulsar 從寫第一行代碼開始，就把租戶的概念做進去了，並吸取了以前系統的經驗和教訓，避免了以前的系統設計上的缺陷。Pulsar 在生產線上成功運行了 4 年後，在 2016 年九月由 Yahoo 開源，並在 2017 年六月捐獻給 Apache 軟件基金會。Pulsar 在今年九月成功畢業成為頂級項目。從開始孵化到最終畢業，總共經歷了 9 個 releases，目前社區總共有 23 位 committers，30 多家公司將 Pulsar 運行在生產線上。

Apache Pulsar 作為新興的消息流數據平臺，除了擁有豐富的特性（比如多租戶管理，IO 隔離，多機房複製等）之外，它跟傳統的消息系統最大的不同是，Pulsar 是一個面向容器化設計的雲原生的流數據系統。怎麼來理解這個問題呢？

首先，整個 IT 的基礎設施是從傳統的物理機模型往容器化模型遷移。容器化對於架構設計的直接影響，就是將原來一體化（Monolithic）的架構按照處理邏輯拆分成小的邏輯單元，並進行容器化。對於分佈式系統的設計的影響，通常體現在計算和存儲的分離。存儲和計算的分離通常應用在一些新型的數據庫系統，比如 TiDB。Pulsar 正是在這種容器化進程中誕生的。Pulsar 將系統分為兩層，一層是無狀態的消息服務（計算）層——Brokers，另外一層是持久化的消息存儲層——Bookies (via Apache BookKeeper)。計算和存儲分離之後，兩層可以相互獨立擴展，如果需要存儲更多的數據，只需要添加存儲節點；如果需要支持更多的生產者和消費者，只需要添加 Brokers。此外，因為 Brokers 變成了一個無狀態的服務組件，容錯處理變得更加容易，從而能夠極速擴容。

其次，基礎架構的雲化，使得用戶更加容易在雲上得到彈性的計算資源和存儲資源。以存儲資源為例，AWS 有 S3，Azure 有 Blob Store，而 GCP 有 GCS。傳統的面向物理分區模型設計的系統，並不能很好地利用雲存儲資源。而 Pulsar 在存儲上做了一個降維的處理。Pulsar 把物理分區變成了邏輯分區，而將存儲粒度從粗粒度的分區變成了細粒度的分片（Segment）。因此 Pulsar 可以將消息以分片的粒度存儲在不同的雲存儲中，而向外部使用者依然提供統一的消息模型。這種分片的架構，更加原生地利用雲存儲資源。

再次，計算框架的批流一體化，意味著消息和存儲之間是共性的。消息的數據是流入系統的最新數據，而這些數據落到存儲上就變成了”歷史“數據，並用於批量計算。而 Pulsar 將數據的消息和存儲共性體現在分層和分片的處理上，消息服務層（Brokers）用來提供消息的 Pub-Sub，用於流式計算；而消息落地到存儲層，按照分片存儲，則可以進行批式計算。而這種消息和存儲的共性，讓用戶不在需要區分這個數據是消息數據還是歷史數據，從而做到真正意義上的批流一體化。

最後，基礎架構的演變從物理機，到虛擬機，再到容器，以及到現在的 Serverless。計算資源的粒度變得越來越細，用戶在使用計算資源的過程中，變得越來越關注於計算的本身。這也是所謂計算輕量化的發展之道。Pulsar 在 2.0 之後，將 Serverless 的概念引入了流數據平臺，變成了所謂的 Pulsar Functions。Functions 的誕生就是為了讓用戶更加專注於編寫事件處理邏輯。

4. 輕量化計算和 Spark、Flink

在大數據計算的領域，Spark 和 Flink 都是通用的能夠支持超大規模數據處理、支持各種處理類型的計算引擎。Spark 從 2014 年左右開始流行，除了在某些場景比 Hadoop MapReduce 帶來幾十到上百倍的性能提升之外，還提出了用一個統一的引擎支持批處理、流處理、交互性查詢、機器學習等常見的數據處理場景。而 Flink 則是在 2016 年左右開始進入大眾的視野，並憑藉其更優的流處理引擎，批流一體計算等逐漸廣為人知，同時也支持各種處理場景，成為 Spark 的有利挑戰者。

但是，隨著微服務的興起，以及事件驅動架構的流行，大家慢慢發現，為了編寫一些簡單計算而去部署一套 Flink 或者 Spark，代價有點大，有種殺雞用牛刀的感覺。於是，大家開始琢磨怎麼能夠更加簡化這些計算，並開始在消息系統上添加輕量化計算。Kafka 引入了 KStreams，使用了傳統的流計算的概念，只是將計算變得輕量化，不再依賴於某個計算平臺，用戶可以選擇自己最適合的部署方式；而 Pulsar 則走了截然不同的一條路徑，它跳脫出了傳統流計算的模型，而借鑑了 Serverless 的概念，將 Serverless Function 引入了消息系統內部。用戶可以通過編寫原生的 Function 來進行任意邏輯的計算。以 Function 為主導的輕量化計算讓用戶更加關注於計算邏輯本身，適用於一些簡單計算，比如 Filtering、Aggregation、Routing 等。

數據處理的意義就是挖掘蘊含在數據內部的價值，而且 Spark 和 Flink 是通用計算引擎的兩個巨頭，基於消息系統衍生出來的輕量化計算並不是一種通用計算，不能與已有的通用計算引擎抗衡。但輕量化計算是對於通用計算的一種補充，讓一些微服務的構建以及事件驅動架構的設計變得更加容易。這些消息流平臺在通用計算方面，還是需要跟 Spark 和 Flink 更加緊密地結合。

5. 未來展望

消息系統作為大數據基礎架構的一個環節，起著至關重要的作用它們也隨著基礎設施的演化而不斷進步。如何更好地使用雲化和容器化的基礎設施，將是每個消息系統面臨的挑戰。批流一體化和統一的數據表徵，也是下一臺數據平臺需要支持的特性。

作為數據平臺，如何更好地跟已有的計算框架比如 Flink 和 Spark 結合，進行批流一體的計算？如何權衡輕量化計算和複雜計算的邊界？不論是 Kafka 還是 Pulsar，都還任重而道遠。

分享到:

閱讀更多 首席數據師 的文章

關鍵字: 軟件時代平臺

Spark-local本地環境搭建

Spark SQL

Spark 網頁式開發（五）

Spark SQL 使用反射推斷模式

Spark SQL簡介

Spark 安裝教程

Spark RDD介紹

Spark 簡介與特徵

Spark 網頁式開發（二）

Spark 網頁式開發（一）

spark-submit之後，spark集群內發生了什麼？讓我們一探究竟

03.02 Spark+Zookeeper搭建高可用Spark集群

Spark SQL常見4種數據源詳解

Spark 機器學習四大類算法

Spark for Java: SparkCore RDD Value類型方法案例

Spark SQL概述

12.21 Spark RDD 概念以及核心原理

Spark Troubleshooting（故障排除）

Spark 數據傾斜解決方案

Spark JVM調優

Spark Shuffle調優

Spark 算子調優

Spark 常規性能調優

Spark BlockManager解析

Spark 內存管理

Spark-Core：調度

大數據乾貨分享：Spark Streaming 數據清理機制

Spark 核心概念

Spark Streaming狀態管理函數的選擇比較

hive on spark,spark sql 對比測試結果相差很大

Spark，從入門到精通

Hello Spark!

Spark Standalone集群模式部署（Window）及其Python開發環境搭建

11.14 Spark——診斷內存消耗

Spark-關於Shuffle

Spark 處理大數據的異常解決方案彙總

Spark Streaming VS Flink

Spark Graphx的API操作

Spark SQL與DataFrame詳解以及使用

Spark 彈性分佈式數據集（RDD）

Spark SQL支持的功能測試

Spark Shuffle 過程

spark-sql對多層級parquet支持

spark hadoop數據傾斜問題

Spark Runtime概述

Spark Streaming的容錯

Spark 讀取單個文本文件速度很慢解決方法

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"