Redis哨兵機制詳解

概述

上篇文章主要說了Redis 複製的內容,但 Redis 複製有一個缺點,當主機 Master 宕機以後,我們需要人工解決切換,比如使用slaveof no one 。實際上主從複製並沒有實現,高可用, 高可用側重備份機器, 利用集群中系統的冗餘,當系統中某臺機器發生損壞的時候,其他後備的機器可以迅速的接替它來啟動服務。

主從複製的問題

Redis哨兵機制詳解

一旦主節點宕機,寫服務無法使用,就需要手動去切換,重新選取主節點,手動設置主從關係。

那麼如何解決呢?如果我們有一個監控程序能夠監控各個機器的狀態及時作出調整,將手動的操作變成自動的。Sentinel的出現就是為了解決這個問題。

哨兵機制的原理及實現

Redis Sentinel

Redis Sentinel 是一個分佈式架構,其中包含若干個 Sentinel 節點和 Redis 數據節點,每個 Sentinel 節點會對數據節點和其餘 Sentinel 節點進行監控,當它發現節點不可達時,會對節點做下線標識。如果被標識的是主節點,它還會和其他 Sentinel 節點進行“協商”,當大多數 Sentinel 節點都認為主節點不可達時,它們會選舉出一個 Sentinel 節點來完成自動故障轉移的工作,同時會將這個變化實時通知給 Redis 應用方。整個過程完全是自動的,不需要人工來介入,所以這套方案很有效地解決了 Redis 的高可用問題。

如圖所示:

Redis哨兵機制詳解

基本的故障轉移流程

1)主節點出現故障,此時兩個從節點與主節點失去連接,主從複製失敗。

Redis哨兵機制詳解

2)每個 Sentinel 節點通過定期監控發現主節點出現了故障

Redis哨兵機制詳解

3)多個 Sentinel 節點對主節點的故障達成一致會選舉出其中一個節點作為領導者負責故障轉移。

Redis哨兵機制詳解

4)Sentinel 領導者節點執行了故障轉移,整個過程基本是跟我們手動調整一致的,只不過是自動化完成的。

Redis哨兵機制詳解

5)故障轉移後整個 Redis Sentinel 的結構,重新選舉了新的主節點。

Redis哨兵機制詳解

實例

使用docker創建如下redis容器,這裡可以參考[進階篇]docker編排PHP開發壞境、Linux docker-compose 實戰學習下容器技術

redis-sentinel1 172.10.0.9 22530 -> 22530 sentinel
redis-sentinel2 172.10.0.10 22531 -> 6379 sentinel
redis-sentinel3 172.10.0.11 22532 -> 6379 sentinel
redis-master2 172.10.0.5 6383 -> 6379 Master
redis-slave2 172.10.0.6 6384 -> 6379 Slave
redis-slave3 172.10.0.7 6385 -> 6379 Slave

配置

Sentinel 的核心配置

sentinel monitor mymaster 127.0.0.1 7000 2

監控的主節點的名字、IP 和端口,最後一個2的意思是有幾臺 Sentinel 發現有問題,就會發生故障轉移,例如 配置為2,代表至少有2個 Sentinel 節點認為主節點不可達,那麼這個不可達的判定才是客觀的。對於設置的越小,那麼達到下線的條件越寬鬆,反之越嚴格。一般建議將其設置為 Sentinel 節點的一半加1。

sentinel down-after-millseconds mymaster 30000 

這個是超時的時間(單位為毫秒)。打個比方,當你去 ping 一個機器的時候,多長時間後仍 ping 不通,那麼就認為它是有問題。

sentinel parallel-syncs mymaster 1

當 Sentinel 節點集合對主節點故障判定達成一致時,Sentinel 領導者節點會做故障轉移操作,選出新的主節點,原來的從節點會向新的主節點發起復制操作,parallel-syncs 就是用來限制在一次故障轉移之後,每次向新的主節點發起復制操作的從節點個數,指出 Sentinel 屬於併發還是串行。1代表每次只能複製一個,可以減輕 Master 的壓力。

Redis哨兵機制詳解

sentinel auth-pass <master-name> <password>
/<password>/<master-name>

如果 Sentinel 監控的主節點配置了密碼,sentinel auth-pass 配置通過添加主節點的密碼,防止 Sentinel 節點對主節點無法監控。

sentinel failover-timeout mymaster 180000 

表示故障轉移的時間。

技巧

1)Sentinel 節點不應該部署在一臺物理“機器”上。

這裡特意強調物理機是因為一臺物理機做成了若干虛擬機或者現今比較流行的容器,它們雖然有不同的 IP 地址,但實際上它們都是同一臺物理機,同一臺物理機意味著如果這臺機器有什麼硬件故障,所有的虛擬機都會受到影響,為了實現 Sentinel 節點集合真正的高可用,請勿將 Sentinel 節點部署在同一臺物理機器上。

2)部署至少三個且奇數個的 Sentinel 節點。

3個以上是通過增加 Sentinel 節點的個數提高對於故障判定的準確性,因為領導者選舉需要至少一半加1個節點,奇數個節點可以在滿足該條件的基礎上節省一個節點。

轉自:https://segmentfault.com/a/1190000018278099


分享到:


相關文章: