深入學習Redis ：集群

2019-04-05 12:10:06 架構師的修煉之路

前言

在前面的文章中，已經介紹了Redis的幾種高可用技術：持久化、主從複製和哨兵，但這些方案仍有不足，其中最主要的問題是存儲能力受單機限制，以及無法實現寫操作的負載均衡。

Redis集群解決了上述問題，實現了較為完善的高可用方案。本文將詳細介紹集群，主要內容包括：集群的作用；集群的搭建方法及設計方案；集群的基本原理；客戶端訪問集群的方法；以及其他實踐中需要的集群知識（集群擴容、故障轉移、參數優化等）。

一、集群的作用

集群，即Redis Cluster，是Redis 3.0開始引入的分佈式存儲方案。

集群由多個節點(Node)組成，Redis的數據分佈在這些節點中。集群中的節點分為主節點和從節點：只有主節點負責讀寫請求和集群信息的維護；從節點只進行主節點數據和狀態信息的複製。

集群的作用，可以歸納為兩點：

1、數據分區：數據分區(或稱數據分片)是集群最核心的功能。

集群將數據分散到多個節點，一方面突破了Redis單機內存大小的限制，存儲容量大大增加；另一方面每個主節點都可以對外提供讀服務和寫服務，大大提高了集群的響應能力。

Redis單機內存大小受限問題，在介紹持久化和主從複製時都有提及；例如，如果單機內存太大，bgsave和bgrewriteaof的fork操作可能導致主進程阻塞，主從環境下主機切換時可能導致從節點長時間無法提供服務，全量複製階段主節點的複製緩衝區可能溢出……。

2、高可用：集群支持主從複製和主節點的自動故障轉移（與哨兵類似）；當任一節點發生故障時，集群仍然可以對外提供服務。

本文內容基於Redis 3.0.6。

二、集群的搭建

這一部分我們將搭建一個簡單的集群：共6個節點，3主3從。方便起見：所有節點在同一臺服務器上，以端口號進行區分；配置從簡。3個主節點端口號：7000/7001/7002，對應的從節點端口號：8000/8001/8002。

集群的搭建有兩種方式：（1）手動執行Redis命令，一步步完成搭建；（2）使用Ruby腳本搭建。二者搭建的原理是一樣的，只是Ruby腳本將Redis命令進行了打包封裝；在實際應用中推薦使用腳本方式，簡單快捷不容易出錯。下面分別介紹這兩種方式。

1. 執行Redis命令搭建集群

集群的搭建可以分為四步：（1）啟動節點：將節點以集群模式啟動，此時節點是獨立的，並沒有建立聯繫；（2）節點握手：讓獨立的節點連成一個網絡；（3）分配槽：將16384個槽分配給主節點；（4）指定主從關係：為從節點指定主節點。

實際上，前三步完成後集群便可以對外提供服務；但指定從節點後，集群才能夠提供真正高可用的服務。

（1）啟動節點

集群節點的啟動仍然是使用redis-server命令，但需要使用集群模式啟動。下面是7000節點的配置文件（只列出了節點正常工作關鍵配置，其他配置(如開啟AOF)可以參照單機節點進行）：

#redis-7000.conf

port 7000

cluster-enabled yes

cluster-config-file "node-7000.conf"

logfile "log-7000.log"

dbfilename "dump-7000.rdb"

daemonize yes

其中的cluster-enabled和cluster-config-file是與集群相關的配置。

cluster-enabled yes：Redis實例可以分為單機模式(standalone)和集群模式(cluster)；cluster-enabled yes可以啟動集群模式。在單機模式下啟動的Redis實例，如果執行info server命令，可以發現redis_mode一項為standalone，如下圖所示：

集群模式下的節點，其redis_mode為cluster，如下圖所示：

cluster-config-file：該參數指定了集群配置文件的位置。每個節點在運行過程中，會維護一份集群配置文件；每當集群信息發生變化時（如增減節點），集群內所有節點會將最新信息更新到該配置文件；當節點重啟後，會重新讀取該配置文件，獲取集群信息，可以方便的重新加入到集群中。也就是說，當Redis節點以集群模式啟動時，會首先尋找是否有集群配置文件，如果有則使用文件中的配置啟動，如果沒有，則初始化配置並將配置保存到文件中。集群配置文件由Redis節點維護，不需要人工修改。

編輯好配置文件後，使用redis-server命令啟動該節點：

redis-server redis-7000.conf

節點啟動以後，通過cluster nodes命令可以查看節點的情況，如下圖所示。

其中返回值第一項表示節點id，由40個16進制字符串組成，節點id與主從複製一文中提到的runId不同：Redis每次啟動runId都會重新創建，但是節點id只在集群初始化時創建一次，然後保存到集群配置文件中，以後節點重新啟動時會直接在集群配置文件中讀取。

其他節點使用相同辦法啟動，不再贅述。需要特別注意，在啟動節點階段，節點是沒有主從關係的，因此從節點不需要加slaveof配置。

（2）節點握手

節點啟動以後是相互獨立的，並不知道其他節點存在；需要進行節點握手，將獨立的節點組成一個網絡。

節點握手使用cluster meet {ip} {port}命令實現，例如在7000節點中執行cluster meet 192.168.72.128 7001，可以完成7000節點和7001節點的握手；注意ip使用的是局域網ip而不是localhost或127.0.0.1，是為了其他機器上的節點或客戶端也可以訪問。此時再使用cluster nodes查看：

在7001節點下也可以類似查看：

同理，在7000節點中使用cluster meet命令，可以將所有節點加入到集群，完成節點握手：

cluster meet 192.168.72.128 7002

cluster meet 192.168.72.128 8000

cluster meet 192.168.72.128 8001

cluster meet 192.168.72.128 8002

執行完上述命令後，可以看到7000節點已經感知到了所有其他節點：

通過節點之間的通信，每個節點都可以感知到所有其他節點，以8000節點為例：

（3）分配槽

在Redis集群中，藉助槽實現數據分區，具體原理後文會介紹。集群有16384個槽，槽是數據管理和遷移的基本單位。當數據庫中的16384個槽都分配了節點時，集群處於上線狀態（ok）；如果有任意一個槽沒有分配節點，則集群處於下線狀態（fail）。

cluster info命令可以查看集群狀態，分配槽之前狀態為fail：

分配槽使用cluster addslots命令，執行下面的命令將槽（編號0-16383）全部分配完畢：

redis-cli -p 7000 cluster addslots {0..5461}

redis-cli -p 7001 cluster addslots {5462..10922}

redis-cli -p 7002 cluster addslots {10923..16383}

此時查看集群狀態，顯示所有槽分配完畢，集群進入上線狀態：

（4）指定主從關係

集群中指定主從關係不再使用slaveof命令，而是使用cluster replicate命令；參數使用節點id。

通過cluster nodes獲得幾個主節點的節點id後，執行下面的命令為每個從節點指定主節點：

redis-cli -p 8000 cluster replicate be816eba968bc16c884b963d768c945e86ac51ae

redis-cli -p 8001 cluster replicate 788b361563acb175ce8232569347812a12f1fdb4

redis-cli -p 8002 cluster replicate a26f1624a3da3e5197dde267de683d61bb2dcbf1

此時執行cluster nodes查看各個節點的狀態，可以看到主從關係已經建立。

至此，集群搭建完畢。

2. 使用Ruby腳本搭建集群

在{REDIS_HOME}/src目錄下可以看到redis-trib.rb文件，這是一個Ruby腳本，可以實現自動化的集群搭建。

（1）安裝Ruby環境

以Ubuntu為例，如下操作即可安裝Ruby環境：

apt-get install ruby #安裝ruby環境

gem install redis #gem是ruby的包管理工具，該命令可以安裝ruby-redis依賴

（2）啟動節點

與第一種方法中的“啟動節點”完全相同。

（3）搭建集群

redis-trib.rb腳本提供了眾多命令，其中create用於搭建集群，使用方法如下：

./redis-trib.rb create --replicas 1 192.168.72.128:7000 192.168.72.128:7001 192.168.72.128:7002 192.168.72.128:8000 192.168.72.128:8001 192.168.72.128:8002

其中：--replicas=1表示每個主節點有1個從節點；後面的多個{ip:port}表示節點地址，前面的做主節點，後面的做從節點。使用redis-trib.rb搭建集群時，要求節點不能包含任何槽和數據。

執行創建命令後，腳本會給出創建集群的計劃，如下圖所示；計劃包括哪些是主節點，哪些是從節點，以及如何分配槽。

輸入yes確認執行計劃，腳本便開始按照計劃執行，如下圖所示。

至此，集群搭建完畢。

3. 集群方案設計

設計集群方案時，至少要考慮以下因素：

（1）高可用要求：根據故障轉移的原理，至少需要3個主節點才能完成故障轉移，且3個主節點不應在同一臺物理機上；每個主節點至少需要1個從節點，且主從節點不應在一臺物理機上；因此高可用集群至少包含6個節點。

（2）數據量和訪問量：估算應用需要的數據量和總訪問量(考慮業務發展，留有冗餘)，結合每個主節點的容量和能承受的訪問量(可以通過benchmark得到較準確估計)，計算需要的主節點數量。

（3）節點數量限制：Redis官方給出的節點數量限制為1000，主要是考慮節點間通信帶來的消耗。在實際應用中應儘量避免大集群；如果節點數量不足以滿足應用對Redis數據量和訪問量的要求，可以考慮：(1)業務分割，大集群分為多個小集群；(2)減少不必要的數據；(3)調整數據過期策略等。

（4）適度冗餘：Redis可以在不影響集群服務的情況下增加節點，因此節點數量適當冗餘即可，不用太大。

三、集群的基本原理

上一章介紹了集群的搭建方法和設計方案，下面將進一步深入，介紹集群的原理。集群最核心的功能是數據分區，因此首先介紹數據的分區規則；然後介紹集群實現的細節：通信機制和數據結構；最後以cluster meet(節點握手)、cluster addslots(槽分配)為例，說明節點是如何利用上述數據結構和通信機制實現集群命令的。

1. 數據分區方案

數據分區有順序分區、哈希分區等，其中哈希分區由於其天然的隨機性，使用廣泛；集群的分區方案便是哈希分區的一種。

哈希分區的基本思路是：對數據的特徵值（如key）進行哈希，然後根據哈希值決定數據落在哪個節點。常見的哈希分區包括：哈希取餘分區、一致性哈希分區、帶虛擬節點的一致性哈希分區等。

衡量數據分區方法好壞的標準有很多，其中比較重要的兩個因素是(1)數據分佈是否均勻(2)增加或刪減節點對數據分佈的影響。由於哈希的隨機性，哈希分區基本可以保證數據分佈均勻；因此在比較哈希分區方案時，重點要看增減節點對數據分佈的影響。

（1）哈希取餘分區

哈希取餘分區思路非常簡單：計算key的hash值，然後對節點數量進行取餘，從而決定數據映射到哪個節點上。該方案最大的問題是，當新增或刪減節點時，節點數量發生變化，系統中所有的數據都需要重新計算映射關係，引發大規模數據遷移。

（2）一致性哈希分區

一致性哈希算法將整個哈希值空間組織成一個虛擬的圓環，如下圖所示，範圍為0-2^32-1；對於每個數據，根據key計算hash值，確定數據在環上的位置，然後從此位置沿環順時針行走，找到的第一臺服務器就是其應該映射到的服務器。

圖片來源：https://www.cnblogs.com/lpfuture/p/5796398.html

與哈希取餘分區相比，一致性哈希分區將增減節點的影響限制在相鄰節點。以上圖為例，如果在node1和node2之間增加node5，則只有node2中的一部分數據會遷移到node5；如果去掉node2，則原node2中的數據只會遷移到node4中，只有node4會受影響。

一致性哈希分區的主要問題在於，當節點數量較少時，增加或刪減節點，對單個節點的影響可能很大，造成數據的嚴重不平衡。還是以上圖為例，如果去掉node2，node4中的數據由總數據的1/4左右變為1/2左右，與其他節點相比負載過高。

（3）帶虛擬節點的一致性哈希分區

該方案在一致性哈希分區的基礎上，引入了虛擬節點的概念。Redis集群使用的便是該方案，其中的虛擬節點稱為槽（slot）。槽是介於數據和實際節點之間的虛擬概念；每個實際節點包含一定數量的槽，每個槽包含哈希值在一定範圍內的數據。引入槽以後，數據的映射關係由數據hash->實際節點，變成了數據hash->槽->實際節點。

在使用了槽的一致性哈希分區中，槽是數據管理和遷移的基本單位。槽解耦了數據和實際節點之間的關係，增加或刪除節點對系統的影響很小。

仍以上圖為例，系統中有4個實際節點，假設為其分配16個槽(0-15)；槽0-3位於node1，4-7位於node2，以此類推。如果此時刪除node2，只需要將槽4-7重新分配即可，例如槽4-5分配給node1，槽6分配給node3，槽7分配給node4；可以看出刪除node2後，數據在其他節點的分佈仍然較為均衡。

槽的數量一般遠小於2^32，遠大於實際節點的數量；在Redis集群中，槽的數量為16384。

下面這張圖很好的總結了Redis集群將數據映射到實際節點的過程：

圖片來源：https://blog.csdn.net/yejingtao703/article/details/78484151

（1）Redis對數據的特徵值（一般是key）計算哈希值，使用的算法是CRC16。

（2）根據哈希值，計算數據屬於哪個槽。

（3）根據槽與節點的映射關係，計算數據屬於哪個節點。

2. 節點通信機制

集群要作為一個整體工作，離不開節點之間的通信。

兩個端口

在哨兵系統中，節點分為數據節點和哨兵節點：前者存儲數據，後者實現額外的控制功能。在集群中，沒有數據節點與非數據節點之分：所有的節點都存儲數據，也都參與集群狀態的維護。為此，集群中的每個節點，都提供了兩個TCP端口：

普通端口：即我們在前面指定的端口(7000等)。普通端口主要用於為客戶端提供服務（與單機節點類似）；但在節點間數據遷移時也會使用。
集群端口：端口號是普通端口+10000（10000是固定值，無法改變），如7000節點的集群端口為17000。集群端口只用於節點之間的通信，如搭建集群、增減節點、故障轉移等操作時節點間的通信；不要使用客戶端連接集群接口。為了保證集群可以正常工作，在配置防火牆時，要同時開啟普通端口和集群端口。

Gossip協議

節點間通信，按照通信協議可以分為幾種類型：單對單、廣播、Gossip協議等。重點是廣播和Gossip的對比。

廣播是指向集群內所有節點發送消息；優點是集群的收斂速度快(集群收斂是指集群內所有節點獲得的集群信息是一致的)，缺點是每條消息都要發送給所有節點，CPU、帶寬等消耗較大。

Gossip協議的特點是：在節點數量有限的網絡中，每個節點都“隨機”的與部分節點通信（並不是真正的隨機，而是根據特定的規則選擇通信的節點），經過一番雜亂無章的通信，每個節點的狀態很快會達到一致。Gossip協議的優點有負載(比廣播)低、去中心化、容錯性高(因為通信有冗餘)等；缺點主要是集群的收斂速度慢。

消息類型

集群中的節點採用固定頻率（每秒10次）的定時任務進行通信相關的工作：判斷是否需要發送消息及消息類型、確定接收節點、發送消息等。如果集群狀態發生了變化，如增減節點、槽狀態變更，通過節點間的通信，所有節點會很快得知整個集群的狀態，使集群收斂。

節點間發送的消息主要分為5種：meet消息、ping消息、pong消息、fail消息、publish消息。不同的消息類型，通信協議、發送的頻率和時機、接收節點的選擇等是不同的。

MEET消息：在節點握手階段，當節點收到客戶端的CLUSTER MEET命令時，會向新加入的節點發送MEET消息，請求新節點加入到當前集群；新節點收到MEET消息後會回覆一個PONG消息。
PING消息：集群裡每個節點每秒鐘會選擇部分節點發送PING消息，接收者收到消息後會回覆一個PONG消息。PING消息的內容是自身節點和部分其他節點的狀態信息；作用是彼此交換信息，以及檢測節點是否在線。PING消息使用Gossip協議發送，接收節點的選擇兼顧了收斂速度和帶寬成本，具體規則如下：(1)隨機找5個節點，在其中選擇最久沒有通信的1個節點(2)掃描節點列表，選擇最近一次收到PONG消息時間大於cluster_node_timeout/2的所有節點，防止這些節點長時間未更新。
PONG消息：PONG消息封裝了自身狀態數據。可以分為兩種：第一種是在接到MEET/PING消息後回覆的PONG消息；第二種是指節點向集群廣播PONG消息，這樣其他節點可以獲知該節點的最新信息，例如故障恢復後新的主節點會廣播PONG消息。

FAIL消息：當一個主節點判斷另一個主節點進入FAIL狀態時，會向集群廣播這一FAIL消息；接收節點會將這一FAIL消息保存起來，便於後續的判斷。
PUBLISH消息：節點收到PUBLISH命令後，會先執行該命令，然後向集群廣播這一消息，接收節點也會執行該PUBLISH命令。

3. 數據結構

節點需要專門的數據結構來存儲集群的狀態。所謂集群的狀態，是一個比較大的概念，包括：集群是否處於上線狀態、集群中有哪些節點、節點是否可達、節點的主從狀態、槽的分佈……

節點為了存儲集群狀態而提供的數據結構中，最關鍵的是clusterNode和clusterState結構：前者記錄了一個節點的狀態，後者記錄了集群作為一個整體的狀態。

clusterNode

clusterNode結構保存了一個節點的當前狀態，包括創建時間、節點id、ip和端口號等。每個節點都會用一個clusterNode結構記錄自己的狀態，併為集群內所有其他節點都創建一個clusterNode結構來記錄節點狀態。

下面列舉了clusterNode的部分字段，並說明了字段的含義和作用：

typedef struct clusterNode {

//節點創建時間

mstime_t ctime;

//節點id

char name[REDIS_CLUSTER_NAMELEN];

//節點的ip和端口號

char ip[REDIS_IP_STR_LEN];

int port;

//節點標識：整型，每個bit都代表了不同狀態，如節點的主從狀態、是否在線、是否在握手等

int flags;

//配置紀元：故障轉移時起作用，類似於哨兵的配置紀元

uint64_t configEpoch;

//槽在該節點中的分佈：佔用16384/8個字節，16384個比特；每個比特對應一個槽：比特值為1，則該比特對應的槽在節點中；比特值為0，則該比特對應的槽不在節點中

unsigned char slots[16384/8];

//節點中槽的數量

int numslots;

…………

} clusterNode;

除了上述字段，clusterNode還包含節點連接、主從複製、故障發現和轉移需要的信息等。

clusterState

clusterState結構保存了在當前節點視角下，集群所處的狀態。主要字段包括：

typedef struct clusterState {

//自身節點

clusterNode *myself;

//配置紀元

uint64_t currentEpoch;

//集群狀態：在線還是下線

int state;

//集群中至少包含一個槽的節點數量

int size;

//哈希表，節點名稱->clusterNode節點指針

dict *nodes;

//槽分佈信息：數組的每個元素都是一個指向clusterNode結構的指針；如果槽還沒有分配給任何節點，則為NULL

clusterNode *slots[16384];

…………

} clusterState;

除此之外，clusterState還包括故障轉移、槽遷移等需要的信息。

4. 集群命令的實現

這一部分將以cluster meet(節點握手)、cluster addslots(槽分配)為例，說明節點是如何利用上述數據結構和通信機制實現集群命令的。

cluster meet

假設要向A節點發送cluster meet命令，將B節點加入到A所在的集群，則A節點收到命令後，執行的操作如下：

1) A為B創建一個clusterNode結構，並將其添加到clusterState的nodes字典中

2) A向B發送MEET消息

3) B收到MEET消息後，會為A創建一個clusterNode結構，並將其添加到clusterState的nodes字典中

4) B回覆A一個PONG消息

5) A收到B的PONG消息後，便知道B已經成功接收自己的MEET消息

6) 然後，A向B返回一個PING消息

7) B收到A的PING消息後，便知道A已經成功接收自己的PONG消息，握手完成

8) 之後，A通過Gossip協議將B的信息廣播給集群內其他節點，其他節點也會與B握手；一段時間後，集群收斂，B成為集群內的一個普通節點

通過上述過程可以發現，集群中兩個節點的握手過程與TCP類似，都是三次握手：A向B發送MEET；B向A發送PONG；A向B發送PING。

cluster addslots

集群中槽的分配信息，存儲在clusterNode的slots數組和clusterState的slots數組中，兩個數組的結構前面已做介紹；二者的區別在於：前者存儲的是該節點中分配了哪些槽，後者存儲的是集群中所有槽分別分佈在哪個節點。

cluster addslots命令接收一個槽或多個槽作為參數，例如在A節點上執行cluster addslots {0..10}命令，是將編號為0-10的槽分配給A節點，具體執行過程如下：

1) 遍歷輸入槽，檢查它們是否都沒有分配，如果有一個槽已分配，命令執行失敗；方法是檢查輸入槽在clusterState.slots[]中對應的值是否為NULL。

2) 遍歷輸入槽，將其分配給節點A；方法是修改clusterNode.slots[]中對應的比特為1，以及clusterState.slots[]中對應的指針指向A節點

3) A節點執行完成後，通過節點通信機制通知其他節點，所有節點都會知道0-10的槽分配給了A節點

四、客戶端訪問集群

在集群中，數據分佈在不同的節點中，客戶端通過某節點訪問數據時，數據可能不在該節點中；下面介紹集群是如何處理這個問題的。

1. redis-cli

當節點收到redis-cli發來的命令(如set/get)時，過程如下：

（1）計算key屬於哪個槽：CRC16(key) & 16383

集群提供的cluster keyslot命令也是使用上述公式實現，如：

（2）判斷key所在的槽是否在當前節點：假設key位於第i個槽，clusterState.slots[i]則指向了槽所在的節點，如果clusterState.slots[i]==clusterState.myself，說明槽在當前節點，可以直接在當前節點執行命令；否則，說明槽不在當前節點，則查詢槽所在節點的地址(clusterState.slots[i].ip/port)，並將其包裝到MOVED錯誤中返回給redis-cli。

（3）redis-cli收到MOVED錯誤後，根據返回的ip和port重新發送請求。

下面的例子展示了redis-cli和集群的互動過程：在7000節點中操作key1，但key1所在的槽9189在節點7001中，因此節點返回MOVED錯誤(包含7001節點的ip和port)給redis-cli，redis-cli重新向7001發起請求。

上例中，redis-cli通過-c指定了集群模式，如果沒有指定，redis-cli無法處理MOVED錯誤：

2. Smart客戶端

redis-cli這一類客戶端稱為Dummy客戶端，因為它們在執行命令前不知道數據在哪個節點，需要藉助MOVED錯誤重新定向。與Dummy客戶端相對應的是Smart客戶端。

Smart客戶端（以Java的JedisCluster為例）的基本原理：

（1）JedisCluster初始化時，在內部維護slot->node的緩存，方法是連接任一節點，執行cluster slots命令，該命令返回如下所示：

（2）此外，JedisCluster為每個節點創建連接池(即JedisPool)。

（3）當執行命令時，JedisCluster根據key->slot->node選擇需要連接的節點，發送命令。如果成功，則命令執行完畢。如果執行失敗，則會隨機選擇其他節點進行重試，並在出現MOVED錯誤時，使用cluster slots重新同步slot->node的映射關係。

下面代碼演示瞭如何使用JedisCluster訪問集群(未考慮資源釋放、異常處理等)：

public static void test() {

Set<hostandport> nodes = new HashSet<>();/<hostandport>

nodes.add(new HostAndPort("192.168.72.128", 7000));

nodes.add(new HostAndPort("192.168.72.128", 7001));

nodes.add(new HostAndPort("192.168.72.128", 7002));

nodes.add(new HostAndPort("192.168.72.128", 8000));

nodes.add(new HostAndPort("192.168.72.128", 8001));

nodes.add(new HostAndPort("192.168.72.128", 8002));

JedisCluster cluster = new JedisCluster(nodes);

System.out.println(cluster.get("key1"));

cluster.close();

}

注意事項如下：

（1）JedisCluster中已經包含所有節點的連接池，因此JedisCluster要使用單例。

（2）客戶端維護了slot->node映射關係以及為每個節點創建了連接池，當節點數量較多時，應注意客戶端內存資源和連接資源的消耗。

（3）Jedis較新版本針對JedisCluster做了一些性能方面的優化，如cluster slots緩存更新和鎖阻塞等方面的優化，應儘量使用2.8.2及以上版本的Jedis。

五、實踐須知

前面介紹了集群正常運行和訪問的方法和原理，下面是一些重要的補充內容。

1. 集群伸縮

實踐中常常需要對集群進行伸縮，如訪問量增大時的擴容操作。Redis集群可以在不影響對外服務的情況下實現伸縮；伸縮的核心是槽遷移：修改槽與節點的對應關係，實現槽(即數據)在節點之間的移動。例如，如果槽均勻分佈在集群的3個節點中，此時增加一個節點，則需要從3個節點中分別拿出一部分槽給新節點，從而實現槽在4個節點中的均勻分佈。

增加節點

假設要增加7003和8003節點，其中8003是7003的從節點；步驟如下：

（1）啟動節點：方法參見集群搭建

（2）節點握手：可以使用cluster meet命令，但在生產環境中建議使用redis-trib.rb的add-node工具，其原理也是cluster meet，但它會先檢查新節點是否已加入其它集群或者存在數據，避免加入到集群后帶來混亂。

redis-trib.rb add-node 192.168.72.128:7003 192.168.72.128 7000

redis-trib.rb add-node 192.168.72.128:8003 192.168.72.128 7000

（3）遷移槽：推薦使用redis-trib.rb的reshard工具實現。reshard自動化程度很高，只需要輸入redis-trib.rb reshard ip:port (ip和port可以是集群中的任一節點)，然後按照提示輸入以下信息，槽遷移會自動完成：

待遷移的槽數量：16384個槽均分給4個節點，每個節點4096個槽，因此待遷移槽數量為4096
目標節點id：7003節點的id
源節點的id：7000/7001/7002節點的id

（4）指定主從關係：方法參見集群搭建

減少節點

假設要下線7000/8000節點，可以分為兩步：

（1）遷移槽：使用reshard將7000節點中的槽均勻遷移到7001/7002/7003節點

（2）下線節點：使用redis-trib.rb del-node工具；應先下線從節點再下線主節點，因為若主節點先下線，從節點會被指向其他主節點，造成不必要的全量複製。

redis-trib.rb del-node 192.168.72.128:7001 {節點8000的id}

redis-trib.rb del-node 192.168.72.128:7001 {節點7000的id}

ASK錯誤

集群伸縮的核心是槽遷移。在槽遷移過程中，如果客戶端向源節點發送命令，源節點執行流程如下：

客戶端收到ASK錯誤後，從中讀取目標節點的地址信息，並向目標節點重新發送請求，就像收到MOVED錯誤時一樣。但是二者有很大區別：ASK錯誤說明數據正在遷移，不知道何時遷移完成，因此重定向是臨時的，SMART客戶端不會刷新slots緩存；MOVED錯誤重定向則是(相對)永久的，SMART客戶端會刷新slots緩存。

2. 故障轉移

在哨兵一文中，介紹了哨兵實現故障發現和故障轉移的原理。雖然細節上有很大不同，但集群的實現與哨兵思路類似：通過定時任務發送PING消息檢測其他節點狀態；節點下線分為主觀下線和客觀下線；客觀下線後選取從節點進行故障轉移。

與哨兵一樣，集群只實現了主節點的故障轉移；從節點故障時只會被下線，不會進行故障轉移。因此，使用集群時，應謹慎使用讀寫分離技術，因為從節點故障會導致讀服務不可用，可用性變差。

這裡不再詳細介紹故障轉移的細節，只對重要事項進行說明：

節點數量：在故障轉移階段，需要由主節點投票選出哪個從節點成為新的主節點；從節點選舉勝出需要的票數為N/2+1；其中N為主節點數量(包括故障主節點)，但故障主節點實際上不能投票。因此為了能夠在故障發生時順利選出從節點，集群中至少需要3個主節點(且部署在不同的物理機上)。

故障轉移時間：從主節點故障發生到完成轉移，所需要的時間主要消耗在主觀下線識別、主觀下線傳播、選舉延遲等幾個環節；具體時間與參數cluster-node-timeout有關，一般來說：

故障轉移時間(毫秒) ≤ 1.5 * cluster-node-timeout + 1000

cluster-node-timeout的默認值為15000ms(15s)，因此故障轉移時間會在20s量級。

3. 集群的限制及應對方法

由於集群中的數據分佈在不同節點中，導致一些功能受限，包括：

（1）key批量操作受限：例如mget、mset操作，只有當操作的key都位於一個槽時，才能進行。針對該問題，一種思路是在客戶端記錄槽與key的信息，每次針對特定槽執行mget/mset；另外一種思路是使用Hash Tag，將在下一小節介紹。

（2）keys/flushall等操作：keys/flushall等操作可以在任一節點執行，但是結果只針對當前節點，例如keys操作只返回當前節點的所有鍵。針對該問題，可以在客戶端使用cluster nodes獲取所有節點信息，並對其中的所有主節點執行keys/flushall等操作。

（3）事務/Lua腳本：集群支持事務及Lua腳本，但前提條件是所涉及的key必須在同一個節點。Hash Tag可以解決該問題。

（4）數據庫：單機Redis節點可以支持16個數據庫，集群模式下只支持一個，即db0。

（5）複製結構：只支持一層複製結構，不支持嵌套。

4. Hash Tag

Hash Tag原理是：當一個key包含 {} 的時候，不對整個key做hash，而僅對 {} 包括的字符串做hash。

Hash Tag可以讓不同的key擁有相同的hash值，從而分配在同一個槽裡；這樣針對不同key的批量操作(mget/mset等)，以及事務、Lua腳本等都可以支持。不過Hash Tag可能會帶來數據分配不均的問題，這時需要：(1)調整不同節點中槽的數量，使數據分佈儘量均勻；(2)避免對熱點數據使用Hash Tag，導致請求分佈不均。

下面是使用Hash Tag的一個例子；通過對product加Hash Tag，可以將所有產品信息放到同一個槽中，便於操作。

5. 參數優化

cluster_node_timeout

cluster_node_timeout參數在前面已經初步介紹；它的默認值是15s，影響包括：

（1）影響PING消息接收節點的選擇：值越大對延遲容忍度越高，選擇的接收節點越少，可以降低帶寬，但會降低收斂速度；應根據帶寬情況和應用要求進行調整。

（2）影響故障轉移的判定和時間：值越大，越不容易誤判，但完成轉移消耗時間越長；應根據網絡狀況和應用要求進行調整。

cluster-require-full-coverage

前面提到，只有當16384個槽全部分配完畢時，集群才能上線。這樣做是為了保證集群的完整性，但同時也帶來了新的問題：當主節點發生故障而故障轉移尚未完成，原主節點中的槽不在任何節點中，此時會集群處於下線狀態，無法響應客戶端的請求。

cluster-require-full-coverage參數可以改變這一設定：如果設置為no，則當槽沒有完全分配時，集群仍可以上線。參數默認值為yes，如果應用對可用性要求較高，可以修改為no，但需要自己保證槽全部分配。

6. redis-trib.rb

redis-trib.rb提供了眾多實用工具：創建集群、增減節點、槽遷移、檢查完整性、數據重新平衡等；通過help命令可以查看詳細信息。在實踐中如果能使用redis-trib.rb工具則儘量使用，不但方便快捷，還可以大大降低出錯概率。

參考文獻

《Redis開發與運維》

《Redis設計與實現》

https://redis.io/topics/cluster-tutorial

https://redis.io/topics/cluster-spec

https://mp.weixin.qq.com/s/d6hzmk31o7VBsMYaLdQ5mw

https://www.cnblogs.com/lpfuture/p/5796398.html

http://www.zsythink.net/archives/1182/

https://www.cnblogs.com/xxdfly/p/5641719.html

分享到:

閱讀更多 架構師的修煉之路 的文章

關鍵字: 哨兵主從複製腳本語言

Redis 創始人宣佈 Redis 6.0.0 穩定版正式 GA

【開源推薦】Redis 桌面管理工具RedisDesktopManager2020.0 發佈

高頻Redis面試題解析：Redis 事務是否具備原子性？

Redis 的多線程版本比 Redis 本身要快 5 倍

Redis zset內部實現

Redis 壓力測試

Redis 高可用

Redis 緩存

Redis Set和ZSet常用命令

Redis 的數據淘汰策略

Redis 的持久化底層如何實現的和優點缺點

Redis Hash和List常用命令

驚呆了，竟然可以用這種方式秒建 Redis 集群？

redis 安裝及隊列應用測試

關於緩存穿透、緩存擊穿、緩存雪崩的模擬與解決(Redis)

Redis 官網昨日宕機，錯誤提示為無法連接 Redis

Redis 位圖基礎到統計活躍用戶

redis 常用7種數據類型的使用場景解析

Redis Cluster 3.0集群部署與使用

Redis 講解系列之與Spring集成

Redis 如何處理已過期的元素？

01.21 「Redis 乾貨」如何將 Redis 的內存優化？

「Redis」Redis 基礎

12.24 面試必問：Redis 是如何進行主從複製的？

Redis 複製搭建

Redis 的 Sentinel

12.03 redis 安裝啟動

12.02 Redis-AOF持久化

Redis 面試熱點：什麼是 Redis 的雪崩、穿透和擊穿？（附筆記）

Redis 持久化

Redis 消息隊列的實現和區別

Redis 一站式管理平臺

redis 延時隊列

基於 Electron 的 Redis 圖形化客戶端 k-Redis 數

基於 Electron 的 Redis 圖形化客戶端 k-Redis

Redis 分佈式鎖的正確實現方式（Java版）

redis 常見數據結構實現

redis 中如何切換db

Redis 集群分佈式鎖與 API 網關分佈式限流

Redis 內存淘汰機制詳解

Redis 5 有序集合新增命令

Redis 殺死許可證：RediSearch、Redis Graph 等五個項目閉源

Redis Sentinel機制與用法說明

Redis 基本數據類型

05.08 高級的 Redis Java客戶端-Lettuce

12.19 Redis 隊列

Redis 隊列

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"