kafka消息分區機制原理

背景

kafka如何支撐海量消息的集中寫入?

答案就是消息分區。

核心思想是:負載均衡,採用合適的分區策略把消息寫到不同的broker上的分區中;

其它的產品中有類似的思想。

比如monogodb, es 裡面叫做 shard; hbase叫region, cassdra叫vnode;

消息的三層結構

如下圖:

即 topic -> partition -> message ;

kafka消息分區機制原理

topic是邏輯上的消息容器;

partition實際承載消息,分佈在不同的kafka的broke上;

message即具體的消息。

分區策略

round-robin輪詢

kafka消息分區機制原理

消息按照分區挨個的寫。

randomness隨機分區

隨機的找一個分區寫入,代碼如下:

<code>List partitions = cluster.partitionsForTopic(topic);
return ThreadLocalRandom.current().nextInt(partitions.size());/<code>
kafka消息分區機制原理

key

相同的key的消息寫到固定的分區中

kafka消息分區機制原理

自定義分區

必須完成兩步:

1,自定義分區實現類,需要實現org.apache.kafka.clients.producer.Partitioner接口。

主要是實現下面的方法:

<code>int partition(String topic, Object key, byte[] keyBytes, 
              Object value, byte[] valueBytes, Cluster cluster);/<code>

比如按照區域分區。

<code>List partitions = cluster.partitionsForTopic(topic);
return partitions.stream().filter(p -> isSouth(p.leader().host()))
    .map(PartitionInfo::partition).findAny().get();/<code>

2,顯示配置生產者端的參數partitioner.class為具體的類

系統默認:如果消息有key,按照key分區策略,否則按照輪詢策略。

小結

kafka的分區實現消息的高吞吐量的主要依託,主要是實現了寫的負載均衡。可以指定各種負載均衡算法。 負載均衡算法非常重要,需要極力避免消息分區不均的情況,可能給消費者帶來性能瓶頸。

小結如下:

kafka消息分區機制原理

我會持續分享Java軟件編程知識和程序員發展職業之路,歡迎關注! 原創不易,點贊關注支持一下吧!轉載請註明出處,讓我們互通有無,共同進步,歡迎溝通交流。


分享到:


相關文章: