從源碼分析如何優雅的使用 Kafka 生產者

2020-02-10 08:44:02 Java技術架構

專注於Java領域優質技術，歡迎關注

文章來源於crossoverJie ，作者crossoverJie

前言

其中有朋友諮詢在大量消息的情況下 Kakfa 是如何保證消息的高效及一致性呢？

正好以這個問題結合 Kakfa 的源碼討論下如何正確、高效的發送消息。

內容較多，對源碼感興趣的朋友請繫好安全帶(源碼基於 v0.10.0.0 版本分析)。同時最好是有一定的 Kafka 使用經驗，知曉基本的用法。

簡單的消息發送

在分析之前先看一個簡單的消息發送是怎麼樣的。

以下代碼基於 SpringBoot 構建。

首先創建一個 org.apache.kafka.clients.producer.Producer 的 bean。

主要關注 bootstrap.servers，它是必填參數。指的是 Kafka 集群中的 broker 地址，例如 127.0.0.1:9094。

其餘幾個參數暫時不做討論，後文會有詳細介紹。

接著注入這個 bean 即可調用它的發送函數發送消息。

這裡我給某一個 Topic 發送了 10W 條數據，運行程序消息正常發送。

但這僅僅只是做到了消息發送，對消息是否成功送達完全沒管，等於是純異步的方式。

同步

那麼我想知道消息到底發送成功沒有該怎麼辦呢？

其實 Producer 的 API 已經幫我們考慮到了，發送之後只需要調用它的 get() 方法即可同步獲取發送結果。

發送結果：

這樣的發送效率其實是比較低下的，因為每次都需要同步等待消息發送的結果。

異步

為此我們應當採取異步的方式發送，其實 send()方法默認則是異步的，只要不手動調用 get() 方法。

但這樣就沒法獲知發送結果。

所以查看 send() 的 API 可以發現還有一個參數。

Future <recordmetadata> send(ProducerRecord producer,Callback callback);/<recordmetadata>

Callback 是一個回調接口，在消息發送完成之後可以回調我們自定義的實現。

執行之後的結果：

同樣的也能獲取結果，同時發現回調的線程並不是上文同步時的主線程，這樣也能證明是異步回調的。

同時回調的時候會傳遞兩個參數：

RecordMetadata 和上文一致的消息發送成功後的元數據。
Exception 消息發送過程中的異常信息。

但是這兩個參數並不會同時都有數據，只有發送失敗才會有異常信息，同時發送元數據為空。

所以正確的寫法應當是：

至於為什麼會只有參數一個有值，在下文的源碼分析中會一一解釋。

源碼分析

現在只掌握了基本的消息發送，想要深刻的理解發送中的一些參數配置還是得源碼說了算。

首先還是來談談消息發送時的整個流程是怎麼樣的， Kafka 並不是簡單的把消息通過網絡發送到了 broker中，在 Java 內部還是經過了許多優化和設計。

發送流程

為了直觀的瞭解發送的流程，簡單的畫了幾個在發送過程中關鍵的步驟。

從上至下依次是：

初始化以及真正發送消息的 kafka-producer-network-thread IO 線程。
將消息序列化。
得到需要發送的分區。
寫入內部的一個緩存區中。
初始化的 IO 線程不斷的消費這個緩存來發送消息。

步驟解析

接下來詳解每個步驟。

初始化

調用該構造方法進行初始化時，不止是簡單的將基本參數寫入 KafkaProducer。比較麻煩的是初始化 Sender 線程進行緩衝區消費。

初始化 IO 線程處：

可以看到 Sender 線程有需要成員變量，比如：

acks,retries,requestTimeout

等，這些參數會在後文分析。

序列化消息

在調用 send() 函數後其實第一步就是序列化，畢竟我們的消息需要通過網絡才能發送到 Kafka。

其中的 valueSerializer.serialize(record.topic(),record.value()); 是一個接口，我們需要在初始化時候指定序列化實現類。

我們也可以自己實現序列化，只需要實現 org.apache.kafka.common.serialization.Serializer 接口即可。

路由分區

接下來就是路由分區，通常我們使用的 Topic 為了實現擴展性以及高性能都會創建多個分區。

如果是一個分區好說，所有消息都往裡面寫入即可。

但多個分區就不可避免需要知道寫入哪個分區。

通常有三種方式。

指定分區

可以在構建 ProducerRecord 為每條消息指定分區。

這樣在路由時會判斷是否有指定，有就直接使用該分區。

這種一般在特殊場景下會使用。

自定義路由策略

如果沒有指定分區，則會調用 partitioner.partition 接口執行自定義分區策略。

而我們也只需要自定義一個類實現 org.apache.kafka.clients.producer.Partitioner 接口，同時在創建 KafkaProducer 實例時配置 partitioner.class 參數。

通常需要自定義分區一般是在想盡量的保證消息的順序性。

或者是寫入某些特有的分區，由特別的消費者來進行處理等。

默認策略

最後一種則是默認的路由策略，如果我們啥都沒做就會執行該策略。

該策略也會使得消息分配的比較均勻。

來看看它的實現：

簡單的來說分為以下幾步：

獲取 Topic 分區數。
將內部維護的一個線程安全計數器 +1。
與分區數取模得到分區編號。

其實這就是很典型的輪詢算法，所以只要分區數不頻繁變動這種方式也會比較均勻。

寫入內部緩存

在 send() 方法拿到分區後會調用一個 append() 函數：

該函數中會調用一個 getOrCreateDeque() 寫入到一個內部緩存中 batches。

消費緩存

在最開始初始化的 IO 線程其實是一個守護線程，它會一直消費這些數據。

通過圖中的幾個函數會獲取到之前寫入的數據。這塊內容可以不必深究，但其中有個 completeBatch 方法卻非常關鍵。

調用該方法時候肯定已經是消息發送完畢了，所以會調用 batch.done() 來完成之前我們在 send() 方法中定義的回調接口。

從這裡也可以看出為什麼之前說發送完成後元數據和異常信息只會出現一個。

Producer 參數解析

發送流程講完了再來看看 Producer 中比較重要的幾個參數。

acks

acks 是一個影響消息吞吐量的一個關鍵參數。

主要有 [all、-1,0,1] 這幾個選項，默認為 1。

由於 Kafka 不是採取的主備模式，而是採用類似於 Zookeeper 的主備模式。

前提是 Topic 配置副本數量 replica>1。

當 acks=all/-1 時：

意味著會確保所有的 follower 副本都完成數據的寫入才會返回。

這樣可以保證消息不會丟失！

但同時性能和吞吐量卻是最低的。

當 acks=0 時：

producer 不會等待副本的任何響應，這樣最容易丟失消息但同時性能卻是最好的！

當 acks=1 時：

這是一種折中的方案，它會等待副本 Leader 響應，但不會等到 follower 的響應。

一旦 Leader 掛掉消息就會丟失。但性能和消息安全性都得到了一定的保證。

batch.size

這個參數看名稱就知道是內部緩存區的大小限制，對他適當的調大可以提高吞吐量。

但也不能極端，調太大會浪費內存。小了也發揮不了作用，也是一個典型的時間和空間的權衡。

上圖是幾個使用的體現。

retries

retries 該參數主要是來做重試使用，當發生一些網絡抖動都會造成重試。

這個參數也就是限制重試次數。

但也有一些其他問題。

因為是重發所以消息順序可能不會一致，這也是上文提到就算是一個分區消息也不會是完全順序的情況。
還是由於網絡問題，本來消息已經成功寫入了但是沒有成功響應給 producer，進行重試時就可能會出現消息重複。這種只能是消費者進行冪等處理。

高效的發送方式

如果消息量真的非常大，同時又需要儘快的將消息發送到 Kafka。一個 producer 始終會收到緩存大小等影響。

那是否可以創建多個 producer 來進行發送呢？

配置一個最大 producer 個數。
發送消息時首先獲取一個 producer，獲取的同時判斷是否達到最大上限，沒有就新建一個同時保存到內部的 List中，保存時做好同步處理防止併發問題。
獲取發送者時可以按照默認的分區策略使用輪詢的方式獲取（保證使用均勻）。

這樣在大量、頻繁的消息發送場景中可以提高發送效率減輕單個 producer 的壓力。

關閉 Producer

最後則是 Producer 的關閉，Producer 在使用過程中消耗了不少資源（線程、內存、網絡等）因此需要顯式的關閉從而回收這些資源。

默認的 close() 方法和帶有超時時間的方法都是在一定的時間後強制關閉。

但在過期之前都會處理完剩餘的任務。

所以使用哪一個得視情況而定。

總結

本文內容較多，從實例和源碼的角度分析了 Kafka 生產者。

希望看完的朋友能有收穫，同時也歡迎留言討論。

分享到:

閱讀更多 Java技術架構 的文章

關鍵字: 美好，一直在身邊優雅源碼

一文帶你深入理解Apache Kafka

Kafka(一)

kafka、zookeeper安裝部暑與使用

Kafka 架構原理解析

深入瞭解Apache Kafka

Flink的sink實戰之二：kafka

kafka leader選舉機制

從源碼和日誌文件結構中分析 Kafka 重啟失敗事件

RocketMQ & Kafka 消息消費與消息重試

03.08 RocketMQ & Kafka 消息消費與消息重試

Kafka 的生產者優秀架構設計

Kafka Connect和Debezium，解析binlog至Kafka

Kafka 的這些原理你懂嗎

Kafka 使用

你能說出 Kafka 這些原理嗎？

架構師技能樹之——kafka

Kafka Eagle安裝詳情及問題解答

12.23 Kafka 的這些原理你知道嗎

12.20 優雅地部署 Kafka 集群

為什麼每一個爬蟲工程師都應該學習 Kafka

12.13 為什麼使用Apache Pulsar而不是Apache Kafka？

Kafka 日誌存儲詳解

Kafka-消費者提交偏移量

Kafka-消費者訂閱主題

Kafka命令行工具-kafka-topics

Kafka 基本原理

Zookeeper 在 Kafka 中的作用

[Kafka ]全面介紹Apache Kafka™

Kafka-python問題解決

如何找到 Kafka 集群的吞吐量極限？

基於 Kafka 實現分佈式事件驅動

SpringBoot+kafka+ELK分佈式日誌收集

公共安全領域 Kafka 應用實踐

ELK+kafka 大數據收集與實時查詢日誌應用平臺要點

崛起的 Kafka

Kafka「第一篇」Kafka集群搭建（轉）

Kafka Lag計算誤區及正確實現

Kafka Data Replication（副本策略）

Kafka,Mq,Redis作為消息隊列時的差異

Apache kafka 工作原理介紹

Python: kafka-python版本差異導致的問題

淺談分布式消息技術 Kafka

09.16 淺談分佈式消息技術 Kafka

kafka server.properties配置文件中所有配置參數說明（解釋）

爲什麼我們從RabbitMQ切換到apache kafka？

java編程——Kafka，Mq和Redis作爲消息隊列使用時的差異有哪些

kafka-修改內存大小

03.21 ELK + kafka 日誌方案

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"