不懂 ZooKeeper？沒關係，這一篇給你講的明明白白

2020-10-25 16:11:34 佚名

歡迎關注公眾號：JavaKeeper

本來想系統回顧下 ZooKeeper的，可是網上沒找到一篇合自己胃口的文章，寫的差不多的，感覺大部分都是基於《從Paxos到ZooKeeper 分佈式一致性原理與實踐》寫的，所以自己讀了一遍，加上項目中的使用，做個整理。加油，奧利給！

前言

面試常常被要求「熟悉分佈式技術」，當年搞 “XXX管理系統” 的時候，我都不知道分佈式系統是個啥。分佈式系統是一個硬件或軟件組件分佈在不同的網絡計算機中上，彼此之間僅僅通過消息傳遞進行通信和協調的系統。

計算機系統從集中式到分佈式的變革伴隨著包括分佈式網絡、分佈式事務、分佈式數據一致性等在內的一系列問題和挑戰，同時也催生了一大批諸如ACID、CAP和 BASE 等經典理論的快速發展。

為了解決分佈式一致性問題，湧現出了一大批經典的一致性協議和算法，最為著名的就是二階段提交協議（2PC），三階段提交協議（3PC）和Paxos算法。Zookeeper的一致性是通過基於 Paxos 算法的 ZAB 協議完成的。一致性協議之前的文章也有介紹：

「走進分佈式一致性協議」從2PC、3PC、Paxos 到 ZAB

，這裡就不再說了。

1. 概述

1.1 定義

ZooKeeper 官網是這麼介紹的：”Apache ZooKeeper 致力於開發和維護一個支持高度可靠的分佈式協調的開源服務器“

1.2 ZooKeeper是個啥

ZooKeeper 是 Apache 軟件基金會的一個軟件項目，它為大型「分佈式計算」提供開源的分佈式配置服務、同步服務和命名註冊。

Zookeeper 最早起源於雅虎研究院的一個研究小組。在當時，研究人員發現，在雅虎內部很多大型系統基本都需要依賴一個類似的系統來進行分佈式協調，但是這些系統往往都存在分佈式單點問題。所以，雅虎的開發人員就試圖開發一個通用的無單點問題的分佈式協調框架，以便讓開發人員將精力集中在處理業務邏輯上，Zookeeper 就這樣誕生了。後來捐贈給了 Apache ，現已成為 Apache 頂級項目。

關於“ZooKeeper”這個項目的名字，其實也有一段趣聞。在立項初期，考慮到之前內部很多項目都是使用動物的名字來命名的（例如著名的Pig項目)，雅虎的工程師希望給這個項目也取一個動物的名字。時任研究院的首席科學家 RaghuRamakrishnan 開玩笑地說：“再這樣下去，我們這兒就變成動物園了！”此話一出，大家紛紛表示就叫動物園管理員吧一一一因為各個以動物命名的分佈式組件放在一起，雅虎的整個分佈式系統看上去就像一個大型的動物園了，而 Zookeeper 正好要用來進行分佈式環境的協調一一於是，Zookeeper 的名字也就由此誕生了。

ZooKeeper 是用於維護配置信息，命名，提供分佈式同步和提供組服務的集中式服務。所有這些類型的服務都以某種形式被分佈式應用程序使用。每次實施它們時，都會進行很多工作來修復不可避免的 bug 和競爭條件。由於難以實現這類服務，因此應用程序最初通常會跳過它們，這會使它們在存在更改的情況下變得脆弱並且難以管理。即使部署正確，這些服務的不同實現也會導致管理複雜。

ZooKeeper 的目標是將這些不同服務的精華提煉為一個非常簡單的接口，用於集中協調服務。服務本身是分佈式的，並且高度可靠。服務將實現共識，組管理和狀態協議，因此應用程序不需要自己實現它們。

1.3 ZooKeeper工作機制

ZooKeeper 從設計模式角度來理解：就是一個基於觀察者模式設計的分佈式服務管理框架，它負責存儲和管理大家都關心的數據，然後接受觀察者的註冊，一旦這些數據的狀態發生變化，ZK 就將負責通知已經在 ZK 上註冊的那些觀察者做出相應的反應，從而實現集群中類似 Master/Slave 管理模式。

1.4 特性

圖片來源：官網wiki

ZooKeeper：一個領導者（leader），多個跟隨者（follower）組成的集群。
Leader 負責進行投票的發起和決議，更新系統狀態。
Follower 用於接收客戶請求並向客戶端返回結果，在選舉 Leader 過程中參與投票。

集群中只要有半數以上節點存活，Zookeeper 集群就能正常服務。
全局數據一致（單一視圖）：每個 Server 保存一份相同的數據副本，Client 無論連接到哪個 Server，數據都是一致的。
順序一致性： 從同一客戶端發起的事務請求，最終將會嚴格地按照順序被應用到 ZooKeeper 中去。
原子性：所有事務請求的處理結果在整個集群中所有機器上的應用情況是一致的，也就是說，要麼整個集群中所有的機器都成功應用了某一個事務，要麼都沒有應用。
實時性，在一定時間範圍內，client 能讀到最新數據。
可靠性： 一旦一次更改請求被應用，更改的結果就會被持久化，直到被下一次更改覆蓋。

1.5 設計目標

簡單的數據結構 ：Zookeeper 使得分佈式程序能夠通過一個共享的樹形結構的名字空間來進行相互協調，即Zookeeper 服務器內存中的數據模型由一系列被稱為ZNode的數據節點組成，Zookeeper 將全量的數據存儲在內存中，以此來提高服務器吞吐、減少延遲的目的。
可以構建集群 ：Zookeeper 集群通常由一組機器構成，組成 Zookeeper 集群的每臺機器都會在內存中維護當前服務器狀態，並且每臺機器之間都相互通信。
順序訪問 ：對於來自客戶端的每個更新請求，Zookeeper 都會分配一個全局唯一的遞增編號，這個編號反映了所有事務操作的先後順序。
高性能 ：Zookeeper 和 Redis 一樣全量數據存儲在內存中，100% 讀請求壓測 QPS 12-13W

1.6 數據結構

Zookeeper 數據模型的結構與 Unix 文件系統的結構相似，整體上可以看做是一棵樹，每個節點稱作一個 「ZNode」。每個 ZNode 默認能存儲 1MB 的數據，每個 ZNode 都可以通過其路徑唯一標識。

1.7 應用場景

ZooKeeper 是一個典型的分佈式數據一致性解決方案，分佈式應用程序可以基於 ZooKeeper 實現諸如數據發佈/訂閱、負載均衡、命名服務、分佈式協調/通知、集群管理、Master 選舉、分佈式鎖和分佈式隊列等功能

統一命名服務

在分佈式系統中，通過使用命名服務，客戶端應用能夠根據指定名字來獲取資源或服務的地址，提供者等信息。被命名的實體通常可以是集群中的機器，提供的服務地址，進程對象等等——這些我們都可以統稱他們為名字（Name）。其中較為常見的就是一些分佈式服務框架（如RPC、RMI）中的服務地址列表。通過調用 Zookeeper 提供的創建節點的 API，能夠很容易創建一個全局唯一的 path，這個 path 就可以作為一個名稱。

阿里巴巴開源的分佈式服務框架 Dubbo 就使用 ZooKeeper 來作為其命名服務，維護全局的服務地址列表。

數據發佈與訂閱（配置中心）

發佈與訂閱模型，即所謂的配置中心，顧名思義就是發佈者將數據發佈到 ZooKeeper 節點上，供訂閱者動態獲取數據，實現配置信息的集中式管理和動態更新。例如全局的配置信息，服務式服務框架的服務地址列表等就非常適合使用。

分佈式環境下，配置文件管理和同步是一個常見問題

一個集群中，所有節點的配置信息是一致的，比如 Hadoop 集群、集群中的數據庫配置信息等全局配置
對配置文件修改後，希望能夠快速同步到各個節點上。

配置管理可交由 ZooKeeper 實現

可將配置信息寫入 ZooKeeper 上的一個 Znode
各個節點監聽這個 Znode
一旦 Znode 中的數據被修改，ZooKeeper 將通知各個節點

統一集群管理

所謂集群管理無在乎兩點：是否有機器退出和加入、選舉 Master。

管理節點

分佈式環境中，實時掌握每個節點的狀態是必要的，比如我們要知道集群中各機器狀態、收集各個機器的運行時狀態數據、服務器動態上下線等。
交由 ZooKeeper 實現的方式

可將節點信息寫入 ZooKeeper 上的一個 Znode
監聽這個 Znode 可獲取它的實時狀態變化
典型應用：HBase 中 Master 狀態監控和選舉。（TODO:圖應該是註冊和Register and watch）

Master選舉

在分佈式環境中，相同的業務應用分佈在不同的機器上，有些業務邏輯（例如一些耗時的計算，網絡I/O處理），往往只需要讓整個集群中的某一臺機器進行執行，其餘機器可以共享這個結果，這樣可以大大減少重複勞動，提高性能，於是這個master選舉便是這種場景下的碰到的主要問題。

利用 Zookeeper 的強一致性，能夠很好的保證在分佈式高併發情況下節點的創建一定是全局唯一的，即：同時有多個客戶端請求創建 /currentMaster 節點，最終一定只有一個客戶端請求能夠創建成功。Zookeeper 通過這種節點唯一的特性，可以創建一個 Master 節點，其他客戶端 Watcher 監控當前 Master 是否存活，一旦 Master 掛了，其他機器再創建這樣的一個 Master 節點，用來重新選舉。

軟負載均衡

分佈式系統中，負載均衡是一種很普遍的技術，為了保證高可用性，通常同一個應用或同一個服務的提供方都會部署多份，達到對等服務。可以是硬件的負載均衡，如 F5，也可以是軟件的負載，我們熟知的 Nginx，或者這裡介紹的 Zookeeper。

分佈式協調/通知

Zookeeper 中特有的「Watcher」註冊與異步通知機制，能夠很好的實現分佈式環境下不同機器，甚至不同系統之間的協調和通知，從而實現對數據變更的實時處理。

使用方法通常是不同系統都對 ZK 上同一個 znode 進行註冊，監聽 znode 的變化（包括 znode 本身內容及子節點的），其中一個系統 update 了 znode，那麼另一個系統能夠收到通知，並作出相應處理。

心跳檢測中可以讓檢測系統和被檢測系統之間並不直接關聯起來，而是通過 ZK 上某個節點關聯，減少系統耦合;
系統調度模式中，假設某系統有控制檯和推送系統兩部分組成，控制檯的職責是控制推送系統進行相應的推送工作。管理人員在控制檯作的一些操作，實際上是修改了 ZK 上某些節點的狀態，而 ZK 就把這些變化通知給他們註冊 Watcher 的客戶端，即推送系統，於是，作出相應的推送任務。

分佈式鎖

分佈式鎖，這個主要得益於 ZooKeeper 為我們保證了數據的強一致性。

鎖服務可以分為兩類，一個是保持獨佔，另一個是控制時序。

所謂保持獨佔，就是所有試圖來獲取這個鎖的客戶端，最終只有一個可以成功獲得這把鎖。通常的做法是把 zk 上的一個 znode 看作是一把鎖，通過 create znode 的方式來實現。所有客戶端都去創建 /distribute_lock 節點，最終成功創建的那個客戶端也即擁有了這把鎖。
控制時序，就是所有試圖來獲取這個鎖的客戶端，最終都是會被安排執行，只是有個全局時序了。做法和上面基本類似，只是這裡 /distribute_lock 已預先存在，客戶端在它下面創建臨時有序節點（這個可以通過節點的屬性控制：CreateMode.EPHEMERAL_SEQUENTIAL來指定）。ZK 的父節點（/distribute_lock）維持一份 sequence，保證子節點創建的時序性，從而也形成了每個客戶端的全局時序。

個人感覺還是用 Redis 實現分佈式鎖更加方便。

PS：阿里中間件團隊：“其實，ZK 並非天生就是為這些應用場景設計的，都是後來眾多開發者根據其框架的特性，利用其提供的一系列API接口（或者稱為原語集），摸索出來的典型使用方法。”

2. Hello ZooKeeper

ZooKeeper 的三種部署方式：

單機模式，即部署在單臺機器上的一個 ZK 服務，適用於學習、瞭解 ZK 基礎功能
偽分佈模式，即部署在一臺機器上的多個（原則上大於3個）ZK 服務，偽集群，適用於學習、開發和測試
全分佈式模式（複製模式），即在多臺機器上部署服務，真正的集群模式，生產環境中使用

計劃寫三篇的，第二篇會實戰 coding，運用各種 API，到時候再裝集群，本節先來個單機玩~~

2.1 本地模式安裝部署

2.1.1 安裝前準備

安裝 Jdk
拷貝或下載 Zookeeper 安裝包到 Linux 系統下(這裡有個小問題，如果你下載 ZK 版本是3.5+ 的話，要下載 bin.tar.gz，愚笨的我最先沒看到官網說明，一頓操作各種報錯找不到 Main 方法)
解壓到指定目錄tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz

2.1.2 配置修改

將 zookeeper-3.5.7/conf 這個路徑下的 zoo_sample.cfg 修改為 zoo.cfg ；mv zoo_sample.cfg zoo.cfg
打開 zoo.cfg 文件，修改 dataDir 路徑：dataDir=XXX/zookeeper-3.5.7/zkData

2.1.3 操作 Zookeeper

啟動 Zookeeper: bin/zkServer.sh start

<code>/usr/local/bin/java ZooKeeper JMX enabled

default

Using config:

/home/sync360/test/apache-zookeeper-3.5.7-bin/bin/

../conf/zoo.cfg Starting zookeeper ... STARTED /<code>

查看進程是否啟動: jps

<code>4020
 Jps
4001
 QuorumPeerMain
/<code>

查看狀態：bin/zkServer.sh status

<code>/usr/local/bin/java ZooKeeper JMX enabled

default

Using config:

/home/apache-zookeeper-3.5.7-bin/bin/

../conf/zoo.cfg Client port found:

2181.

Client address: localhost. Mode: standalone /<code>

啟動客戶端：bin/zkCli.sh

<code>Connecting
 to
 localhost:2181
2020
-03
-25
 15
:41:19,112
 [myid:]
 -
 INFO
  [main:Environment@109]
 -
 Client
 environment:zookeeper.version=3.5.7-f0fdd52973d373ffd9c86b81d99842dc2c7f660e,
 built
 on
 02
/10/2020
 11
 
:30
 GMT
...
2020
-03
-25
 15
:41:19,183
 [myid:]
 -
 INFO
  [main:ClientCnxn@1653]
 -
 zookeeper.request.timeout
 value
 is
 0
.
 feature
 enabled=
Welcome
 to
 ZooKeeper!
...
WATCHER::
 
WatchedEvent
 state:SyncConnected
 type:None
 path:null
/<code>

退出客戶端：quit
停止 Zookeeper: bin/zkServer.sh stop

2.2 常用命令

命令基本語法功能描述help顯示所有操作命令ls path [watch]使用 ls 命令來查看當前znode中所包含的內容ls2 path [watch]查看當前節點數據並能看到更新次數等數據create普通創建-s 含有序列-e 臨時（重啟或者超時消失）get path [watch]獲得節點的值set設置節點的具體值stat查看節點狀態delete刪除節點rmr遞歸刪除節點

ls 查看當前 zk 中所包含的內容

<code>[ ] ls /
[ ]
/<code>

create 創建一個新的 znode

<code>[zk: localhost:2181(CONNECTED) 2] create
 /test
Created /test
/<code>

get 查看新的 znode 的值

<code>[ ] get 
 /test
null
/<code>

可以看到值為 null，我們剛才設置了一個沒有值的節點，也可以通過 create /zoo dog 直接創建有內容的節點

set 對 zk 所關聯的字符串進行設置

<code>set
 /test hello
/<code>

delete 刪除節點

<code>delete
 /test
/<code>

2.3 配置參數解讀

在 Zookeeper 的設計中，如果是集群模式，那所有機器上的 zoo.cfg 文件內容應該都是一致的。

Zookeeper 中的配置文件 zoo.cfg 中參數含義解讀如下：

tickTime =2000：通信心跳數Zookeeper 使用的基本時間，服務器之間或客戶端與服務器之間維持心跳的時間間隔，也就是每個 tickTime時間就會發送一個心跳，時間單位為毫秒它用於心跳機制，並且設置最小的 session 超時時間為兩倍心跳時間。(session的最小超時時間是2*tickTime)；
initLimit =10：主從初始通信時限，集群中的 Follower 跟隨者服務器與 Leader 領導者服務器之間初始連接時能容忍的最多心跳數（tickTime的數量），用它來限定集群中的 ZK 服務器連接到 Leader 的時限；
syncLimit =5：主從同步通信時限，集群中 Leader 與 Follower 之間的最大響應時間單位，假如響應超過syncLimit * tickTime，Leader 認為 Follwer 死掉，從服務器列表中刪除 Follwer；
dataDir：數據文件目錄+數據持久化路徑；
clientPort =2181：客戶端連接端口

3. 你要知道的概念

ZooKeeper 本身就是一個分佈式程序（只要半數以上節點存活，ZooKeeper 就能正常服務）。
為了保證高可用，最好是以集群形態來部署 ZooKeeper，這樣只要集群中大部分機器是可用的（能夠容忍一定的機器故障），那麼 ZooKeeper 本身仍然是可用的。
ZooKeeper 將數據保存在內存中，這也就保證了高吞吐量和低延遲（但是內存限制了能夠存儲的容量不太大，此限制也是保持 znode 中存儲的數據量較小的進一步原因）。
ZooKeeper 是高性能的。在“讀”多於“寫”的應用程序中尤其的高性能，因為“寫”會導致所有的服務器間同步狀態。（“讀”多於“寫”是協調服務的典型場景。）
ZooKeeper 底層其實只提供了兩個功能：

管理（存儲、讀取）用戶程序提交的數據
為用戶程序提交數據節點監聽服務

這裡引入一個簡單的例子，逐個介紹一些 ZK 中的概念。

在分佈式系統中經常會遇到這種情況，多個應用讀取同一個配置。例如：Client1，Client2 兩個應用都會讀取配置 B 中的內容，一旦 B 中的內容出現變化，就會通知 Client1 和 Client2。

一般的做法是在 Client1，Client2 中按照時鐘頻率詢問 B 的變化，或者使用觀察者模式來監聽 B 的變化，發現變化以後再更新兩個客戶端。那麼 ZooKeeper 如何協調這種場景？

這兩個客戶端連接到 ZooKeeper 的服務器，並獲取其中存放的 B。保存 B 值的地方在 ZooKeeper 服務端中就稱為

ZNode。

3.1 數據節點（Znode）

在談到分佈式的時候，我們通常說的“節點"是指組成集群的每一臺機器。然而，在 Zookeeper 中，“節點"分為兩類，第一類同樣是指構成集群的機器，我們稱之為「機器節點」；第二類則是指數據模型中的數據單元，我們稱之為「數據節點」一一

ZNode。上圖中的 A、B 就是一個數據結點。

Zookeeper 將所有數據存儲在內存中，數據模型是一棵樹（Znode Tree)，由斜槓（/）進行分割的路徑，就是一個 Znode，例如 /Configuration/B。每個 Znode 上都會保存自己的數據內容，同時還會保存一系列屬性信息。

在 Zookeeper 中，Znode 可以分為持久節點和臨時節點兩類。

所謂持久節點是指一旦這個 ZNode 被創建了，除非主動進行 ZNode 的移除操作，否則這個 ZNode 將一直保存在 Zookeeper 上。
而臨時節點就不一樣了，它的生命週期和客戶端會話綁定，一旦客戶端會話失效，那麼這個客戶端創建的所有臨時節點都會被移除。

另外，ZooKeeper 還允許用戶為每個節點添加一個特殊的屬性：**SEQUENTIAL。**也被叫做 順序結點，一旦節點被標記上這個屬性，那麼在這個節點被創建的時候，Zookeeper 會自動在其節點名後面追加上一個整型數字，這個整型數字是一個由父節點維護的自增數字。

3.2 事件監聽器（Watcher）

上面說了 ZooKeeper 用來存放數據的 ZNode，並且把 B 的值存儲在裡面。如果 B 被更新了，兩個客戶端（Client1、Client2）如何獲得通知呢？

Zookeeper 允許用戶在指定節點上註冊一些 Watcher，當 Znode 發生變化時，將觸發並刪除一個 watch。當 watch 被觸發時客戶端會收到一個數據包，指示 znode 已經被修改。如果客戶端和 ZooKeeper 服務器之間的連接中斷，客戶端將收到本地通知。該機制是 Zookeeper 實現分佈式協調服務的重要特性。

3.6.0中的新增功能：客戶端還可以在 znode 上設置永久性的遞歸監視，這些監視在觸發時不會刪除，並且會以遞歸方式觸發已註冊 znode 以及所有子 znode 的更改。

ZooKeeper 客戶端（Client）會在指定的節點（/Configuration/B）上註冊一個 Watcher，ZNode 上的 B 被更新的時候，服務端就會通知 Client1 和 Client2。

3.3 版本

有了 Watcher 機制，就可以實現分佈式協調/通知了，假設有這樣的場景，兩個客戶端同時對 B 進行寫入操作，這兩個客戶端就會存在競爭關係，通常需要對 B 進行加鎖操作，ZK 通過 version 版本號來控制實現樂觀鎖中的“寫入校驗”機制。

Zookeeper 的每個 ZNode 上都會存儲數據，對應於每個 ZNode，Zookeeper 都會為其維護一個叫作 Stat 的數據結構，Stat 中記錄了這個 ZNode 的三個數據版本，分別是 version（當前ZNode的版本）、cversion（當前ZNode 子節點的版本）和 aversion（當前ZNode的ACL版本）。

znode 裡都有些啥呢？

3.4 Stat 結構體

Znodes 維護了一個 stat 結構，其中包含數據更改、ACL更改的版本號、時間戳等。

狀態屬性說明czxid創建節點的事務zxid。每次修改 ZK 狀態都會收到一個zxid形式的時間戳，也就是 ZK 事務ID。事務ID是 ZK 中所有修改總的次序。每個修改都有唯一的zxid，如果zxid1小於zxid2，那麼zxid1在zxid2之前發生ctimeznode被創建的毫秒數(從1970年開始)mzxidznode最後更新的事務zxidmtimeznode最後修改的毫秒數(從1970年開始)pzxidznode最後更新的子節點zxidversion數據節點版本號cversion子節點版本號，znode子節點修改次數aversionznode訪問控制列表的變化號ephemeralOwner如果是臨時節點，這個是znode擁有者的session id。如果不是臨時節點則是0dataLengthznode的數據長度numChildrenznode子節點數量

3.5 會話（Session）

Session 指的是 ZooKeeper 服務器與客戶端會話。

在 ZooKeeper 中，一個客戶端連接是指客戶端和服務器之間的一個 TCP 長連接。客戶端啟動的時候，首先會與服務器建立一個 TCP 連接，從第一次連接建立開始，客戶端會話的生命週期也開始了。通過這個連接，客戶端能夠通過心跳檢測與服務器保持有效的會話，也能夠向 Zookeeper 服務器發送請求並接受響應，同時還能夠通過該連接接收來自服務器的 Watch 事件通知。

Session 作為會話實體，用來代表客戶端會話，其包括 4 個屬性：

SessionID，用來全局唯一識別會話；
TimeOut，會話超時事件。客戶端在創造 Session 實例的時候，會設置一個會話超時的時間。當由於服務器壓力太大、網絡故障或是客戶端主動斷開連接等各種原因導致客戶端連接斷開時，只要在 sessionTimeout 規定的時間內能夠重新連接上集群中任意一臺服務器，那麼之前創建的會話仍然有效；
TickTime，下次會話超時時間點；
isClosing，當服務端如果檢測到會話超時失效了，會通過設置這個屬性將會話關閉。

3.6 ACL

Zookeeper 採用 ACL（Access Control Lists）策略來進行權限控制，類似於 UNIX 文件系統的權限控制。Zookeeper 定義瞭如下 5 種權限：

CREATE: 創建子節點的權限
READ: 獲取節點數據和子節點列表的權限
WRITE: 更新節點數據的權限
DELETE: 刪除子節點的權限
ADMIN: 設置節點ACL的權限

其中尤其需要注意的是，CREATE 和 DELETE 這兩種權限都是針對子節點的權限控制。

3.7 集群角色

最典型集群模式：Master/Slave 模式（主備模式）。在這種模式中，通常 Master 服務器作為主服務器提供寫服務，其他的 Slave 從服務器通過異步複製的方式獲取 Master 服務器最新的數據提供讀服務。

但是，在 ZooKeeper 中沒有選擇傳統的 Master/Slave 概念，而是引入了Leader、Follower 和 Observer 三種角色。

Leader：為客戶端提供讀和寫的服務，負責投票的發起和決議，更新系統狀態
Follower：為客戶端提供讀服務，如果是寫服務則轉發給 Leader。在選舉過程中參與投票
Observer：為客戶端提供讀服務器，如果是寫服務則轉發給 Leader。不參與選舉過程中的投票，也不參與“過半寫成功”策略。在不影響寫性能的情況下提升集群的讀性能。此角色是在 zookeeper3.3 系列新增的角色。

server 狀態

LOOKING：尋找Leader狀態
LEADING：領導者狀態，表明當前服務器角色是 Leader
FOLLOWING：跟隨者狀態，表明當前服務器角色是 Follower
OBSERVING：觀察者狀態，表明當前服務器角色是 Observer

選舉機制

zk-vote

服務器1啟動，此時只有它一臺服務器啟動了，它發出去的報文沒有任何響應，所以它的選舉狀態一直是LOOKING 狀態。
服務器2啟動，它與最開始啟動的服務器1進行通信，互相交換自己的選舉結果，由於兩者都沒有歷史數據，所以 id 值較大的服務器2勝出，但是由於沒有達到超過半數以上的服務器都同意選舉它(這個例子中的半數以上是3)，所以服務器1、2還是繼續保持 LOOKING 狀態。
服務器3啟動，根據前面的理論分析，服務器3成為服務器1、2、3中的老大，而與上面不同的是，此時有三臺服務器選舉了它，所以它成為了這次選舉的Leader。
服務器4啟動，根據前面的分析，理論上服務器4應該是服務器1、2、3、4中最大的，但是由於前面已經有半數以上的服務器選舉了服務器3，所以它只能接受當小弟的命了。
服務器5啟動，同4一樣當小弟。

Watcher 監聽器

Zookeeper 中最有特色且最不容易理解的是監視(Watches)。

Zookeeper 所有的讀操作——getData()

，getChildren()，和 exists() 都可以設置監視(watch)，監視事件可以理解為一次性的觸發器，官方定義如下：a watch event is one-time trigger, sent to the client that set the watch, which occurs when the data for which the watch was set changes。對此需要作出如下理解：

One-time trigger（一次性觸發）當設置監視的數據發生改變時，該監視事件會被髮送到客戶端，例如，如果客戶端調用了 getData("/znode1", true) 並且稍後 /znode1 節點上的數據發生了改變或者被刪除了，客戶端將會獲取到 /znode1 發生變化的監視事件，而如果 /znode1 再一次發生了變化，除非客戶端再次對 /znode1 設置監視，否則客戶端不會收到事件通知。(3.6之後可以設置永久監視)
Sent to the client（發送至客戶端）Zookeeper 客戶端和服務端是通過 socket 進行通信的，由於網絡存在故障，所以監視事件很有可能不會成功到達客戶端，監視事件是異步發送至監視者的，Zookeeper 本身提供了保序性(ordering guarantee)：即客戶端只有首先看到了監視事件後，才會感知到它所設置監視的 znode 發生了變化(a client will never see a change for which it has set a watch until it first sees the watch event)。網絡延遲或者其他因素可能導致不同的客戶端在不同的時刻感知某一監視事件，但是不同的客戶端所看到的一切具有一致的順序。

The data for which the watch was set（被設置 watch 的數據）這意味著 znode 節點本身具有不同的改變方式。你也可以想象 Zookeeper 維護了兩條監視鏈表：數據監視和子節點監視(data watches and child watches)， getData() 和 exists() 設置數據監視，getChildren() 設置子節點監視。或者，你也可以想象 Zookeeper 設置的不同監視返回不同的數據，getData() 和 exists()返回 znode 節點的相關信息，而 getChildren() 返回子節點列表。因此， setData() 會觸發設置在某一節點上所設置的數據監視(假定數據設置成功)，而一次成功的 create() 操作則會觸發當前節點上所設置的數據監視以及父節點的子節點監視。一次成功的 delete() 操作將會觸發當前節點的數據監視和子節點監視事件，同時也會觸發該節點父節點的 child watch。

Zookeeper 中的監視是輕量級的，因此容易設置、維護和分發。當客戶端與 Zookeeper 服務器端失去聯繫時，客戶端並不會收到監視事件的通知，只有當客戶端重新連接後，若在必要的情況下，以前註冊的監視會重新被註冊並觸發，對於開發人員來說這通常是透明的。只有一種情況會導致監視事件的丟失，即：通過 exists() 設置了某個 znode 節點的監視，但是如果某個客戶端在此 znode 節點被創建和刪除的時間間隔內與 zookeeper 服務器失去了聯繫，該客戶端即使稍後重新連接 zookeepe r服務器後也得不到事件通知。

圖片來源：yht7

從上圖可以看到，Watcher 機制包括三個角色：客戶端線程、客戶端的 WatchManager 以及 ZooKeeper 服務器。Watcher 機制就是這三個角色之間的交互，整個過程分為註冊、存儲和通知三個步驟：

客戶端向 ZooKeeper 服務器註冊一個 Watcher 監聽；
把這個監聽信息存儲到客戶端的 WatchManager 中；
當 ZooKeeper 中的節點發生變化時，會通知客戶端，客戶端會調用相應 Watcher 對象中的回調方法。

也不知道有木有人對下一篇的實戰環節感興趣~~~~~

參考：

《從Paxos到ZooKeeper 分佈式一致性原理與實踐》

《阿里中間件團隊博客》http://jm.taobao.org/2011/10/08/1232/

《Zookeeper官方文檔》https://zookeeper.apache.org/doc/

《尚硅谷Zookeeper》

https://cloud.tencent.com/developer/article/1578401

分享到:

關鍵字: 客戶端 ZooKeeper 監視

湖北：這天，一位特殊的“客人”來到檢察院

4月12日，湖北省檢察院下沉東湖景園社區支援工作組迎來了一位特殊的“客人”。“針對居民尤其是康復患者及其家屬、病亡者家屬、一線醫護人員疫後焦慮和抑鬱等突發性心理狀況，需要組織開展心理疏導工作，對居民的心理情緒加以疏導和化解，促進居民心理健康和社區和諧穩定。”

寒冬送溫暖扶貧暖人心

元月12日，幫扶幹部帶著米、油、棉衣等生活用品來到聯繫的貧困戶家中，圍坐一起，拉起家常、噓寒問暖，詳細瞭解他們的身體狀況、生活情況、幫扶需求、細緻講解扶貧政策，幫助打掃庭院衛生，開展一次餐敘拉家常，同時鼓勵他們要堅定信心，要在上級的關心幫扶下，通過發揮各方面的力量，持續發力增收，

四子王旗人民檢察院一院一品隊伍建設彰顯特色結出豐碩果實

4月10日，烏蘭察布市人民檢察院全市十佳公訴人、優秀公訴人評選活動圓滿閉幕，四子王旗人民檢察院四名參賽者獲得多項榮譽。

小說：阮諾因為夏尤眠的不信任，和夏尤眠再起爭執。

阮諾再醒來的時候，覺得自己的背都不是自己的了，整個背都痛的她不能動。即使是這個時候，她的眼睛還是不自主地尋找夏尤眠，在看到自己的小寶氣，乖乖地睡在自己的病床旁邊，看著夏尤眠的眼底的黑眼圈，一陣開心，一陣內疚。

小說：一場變故後男子想洗心革面，前女友不答應

出租屋裡籠罩著層層低氣壓，站在屋裡的人西裝革履大氣不敢出。“經理，究竟發生了什麼事？”從外面火急火燎趕回來的章天，氣還沒有喘過來問苑卿。“這事，你們最清楚，你問他？”苑卿坐在沙發上耷拉著臉，指著前面坐立不安的男人說道。“燦哥，燦哥你怎麼在這，不是離開集團了？

小說：他提出以丹換武，不料場面太火爆，兩大族長竟為此當眾鬥氣

隊伍後面的人則是有些忐忑，擔心丹藥被前面的人兌換完，以至於輪到他們的時候，沒有丹藥可兌換。後方的人不時地催促著，眼看著裝著丹藥的木盒子一點一點減少，他們心裡更著急了，恨不得立馬衝到隊伍前頭，將前面那些人取而代之。

小說：他穿越當院長，僅用一月時間，竟讓廢物少年變成超級天才

然而他們的天賦太差了，修煉了多則六七年，少則三四年，至今仍徘徊在修煉的大門之外，如今有了啟旋丹，意味著他們完全可以憑藉啟旋丹，一舉修煉出真力。

小說：胡楊得罪了女人，最後女人免租還給了工作，到底發生什麼

苑卿答應了將房子租給胡楊，是在他原本租住的那層的下一層樓，他這才認真細緻地看著房間的佈局，三房一廳，房子不大卻十分地乾淨，之前沙發的佈局已經改變，就連傢俱也全換成了新的，這女的不會是趁機想宰自己一把吧，事出反常必有妖，這般獻殷勤，自己身上肯定有不為人知的價值。

小說：走路囂張，敵人慌張，該出手時就出手！

離開血色荊棘駐地後，正巧遇上了任火返回，兩人便一起吃了頓飯，然後石乾才獨自離開。回到蘭陵首府公寓後，簡單衝了個冷水澡，石乾便直接在客廳裡修煉起來。不得不承認，有些時候機緣所致，福至心靈，比起一個人閉門造車幾年光景都要頂用。

小說：冤家路窄，胡楊再遇苑卿白真

“胡楊，你在幹嘛。”“柳霏啊，你看到我的護照了嗎？”“沒有啊，你怎麼呢？要出國嗎？”“不知道啥時候丟了，到現在都沒找到。”他在房間裡摸索著。“沒關係，又不急著用，丟了就丟了吧。”柳霏不在意的回答著，不是自己的事情也就不痛不癢了。但是隻有胡楊知道，這是自己隨時出國要用的擋箭牌。

中山街小學原創川劇《趙一曼》獲省上一等獎

據瞭解，中山街小學從2008年3月開始，圍繞打造“人文校園”的發展理念，在四川省中小學校裡是首個開展《川劇進校園》校本研修課題的學校。

洪湖一地驚四腿“怪魚”

　　這條野生大鯢體表光滑無鱗　　長約85釐米、重2.6公斤　　除了腿部有少許傷痕　　其它狀況良好　　具備野外放生條件　　經過工作人員的治療和觀察後　　當天下午　　將這條娃娃魚進行了放生　　讓它重返大自然　　娃娃魚　　中國大鯢：是大鯢中的一種，俗名娃娃魚，是生活在淡水中的兩棲動物。

中國最年輕的美女科學家，放棄國外千萬年薪，只為一心報效祖國

學習是一個過程，它需要我們去不斷地摸索，不斷地豐富，不斷地掌握，自然如此堅持下來，等知識能夠承擔起創新的重量，才能夠託得住“科學家”的稱呼。

C919發動機獲得出口許可證，如果未來再被限制咋辦？早有替代方案

在今年二月份時，美國曾突然表示將考慮禁止通用公司向中國的國產大飛機C919出口發動機技術，其理由竟是荒謬的稱：“擔心中國逆向研製，對美國航空企業構成威脅”，此事一度在國際上引發了不小的波瀾。

“叛逃”美國的物理學家，前半生替美國造核彈，後半生來中國養牛

還有一些人的經歷比較曲折：曾經有一位“叛逃”美國的物理學家，前半生一直在為美國研究核彈，後半生回到中國後，便開始放牛生活，這背後有怎樣的故事？

看了榮耀30s的發佈會，發現一個有意思的地方。

麒麟820 中端5G soc的module和isp，就是基帶模組，和麒麟990 5G是一樣的，也就是說麒麟高端芯片的isp和5G基帶下放到中端5G芯片了，那麼說明下半年的麒麟1020的isp和5G基帶都升級了。而且有可能是大的提升。

波音逆勢而上，軍機復產F15改型號實現首飛，專家：沙特麻煩大了

目前新冠肺炎正在給美國帶來前所未有的打擊，美國50個州進入了災難狀態，累計確診人數高達613886人，佔全球累計確診人數的32%，除了造成醫療資源的擠兌，美國製造業也正在遭受重創，長時間的停工停產，讓很多中小企業資金出現困難，甚至面臨著倒閉，新冠肺炎疫情也一度造成美國老牌航空製造

年前辭職現在找不到工作，前公司老闆請我回去，要不要吃回頭草？

那時候，父母們是不敢隨意辭職的，一是不能保證離職後可以找到更好的工作，二是在他們那個年代更喜歡一份工作做到底。近日，某朋友在社區提問：年前辭職了，現在前公司老闆要請我回去，要不要吃這個回頭草呢？

《道德經》筆記第一章：道可道，非常道。

道可道，非常道。泰勒稱：我們絕大多數人之所以沒有體驗到、看到世界和宇宙的這個奇妙的一面，是因為我們從小接受的鼓勵和教育大都是側重使用左腦半球的能力－比如，語言、文字、邏輯、推理、判斷、計算、數字、分辨力等，但是，按泰勒博士的話說，“但是大腦右半球給我們的才是關於世界的大圖像”。

自貢VS內江2019數據大PK

其他表外信息列示：自貢：全市規模以上工業企業547個、資質建築業企業135個、房地產開發企業105個、限額以上批發和零售業企業336個、限額以上住宿和餐飲業企業112個、規模以上服務業企業202個。

四川瀘州市瀘縣發生3.0級地震

基礎背景震中地形：歷史地震：根據中國地震臺網速報目錄，震中周邊200公里內近5年來發生3級以上地震共187次，最大地震是2019年6月17日在四川宜賓市長寧縣發生的6.0級地震，按震級大小前50次歷史地震分佈如圖。

徒弟學半年的數控車床啥也不會？到底是師傅不肯教，還是徒弟太笨

一日為師，終身為父，當下社會多元化，對於職業的追求也是越來越高，便出現了職業的的新手，稱之為徒弟。作為新手的徒弟，全靠師傅領進門，修行在個人，但這個領進門的師傅如何教徒弟也是大有技巧性的。

“4.15”國家安全瞭解一下，今天安嶽舉行這個活動很給力！

為深入貫徹落實習近平總書記堅持總體國家安全觀重要指示精神，深入宣傳國家安全法以及網絡安全法、反恐怖主義法、反間諜法、核安全法等涉國家安全法律，在全社會形成維護國家安全的濃厚氛圍，4月15日，縣委國安辦與縣委政法委、縣司法局等11個單位在普州文化廣場開展2020年“4.15”全民國

四川耗資280億正修建一條新鐵路：設置11個站點，有你家鄉嗎

我國近些年來在交通方面投入了大量的人力物力財力，特別是在鐵路方面，大大小小的城市都在修建高鐵，都進入了高鐵時代，這的確為人們的出行帶來了巨大的便利。

四川鼓勵帶薪休假與五一連休，你支持嗎？

中共四川省委、四川省人民政府14日公佈意見，提出培育汽車影院、線上旅遊、鄉村民宿、網上博物館等新興文旅消費熱點。

宜賓正打造一個生態產居新城快來看看

2012年3月，宜賓市翠屏區委、區政府成立翠屏新區，2014年7月，翠屏新區改為岷江新區，規劃範圍北至象鼻物流園區，南至酒聖路，西至紅壩路，東至觀斗山催科山，規劃面積19.40平方公里。

盤點世界橋樑之最，“基建狂魔”似乎從來不給外國人“留面子”

近年來中國被賦予了個“基建狂魔”的稱號，基建是基本建設的簡稱，是指國家對添加如鐵路、公路、水力、橋樑等固定資產的建設。

世界五大奇葩民宿，第一名過夜只需1歐元，第五名網友直呼不敢住

縱觀全世界的民宿，都是靠設計取勝，所謂無設計不民宿，但是我們今天為大家介紹的這幾家民宿，絕對是史上最奇葩的民宿。這些被設計師們“玩壞”的民宿，他們用自己的裝修風格和建造理念，吸引了很多參觀體驗的人。

宜賓80分鐘跑攏成都！這條高速年底通車

成宜高速起於成都經濟區環線高速，對接成都新機場高速公路南線，經成都市、眉山市、內江市、自貢市、宜賓市，止於宜賓過境高速公路西段中峰寺樞紐互通立交，與樂山至宜賓高速公路相交，對接宜賓過境高速公路西段，路線全長約157公里，全線雙向六車道，設計時速120公里/小時，按照設計時速，只需

民宿小白如何做市場調研？怎樣判斷民宿選址是否合理

不過首先你要對民宿市場做個簡單的瞭解，不建議盲目跟風。投資城市民宿的人大概分為以下幾種：手上有閒置房產。

上海職場：唐僧遇見的第一個妖怪是誰，小夥子說八個字，當場錄用

面試是企業挑選人才的重要通道，沒人才的時候抓到人就行了，人才太多了，企業相當於甲方，面試官就要好好的挑一挑了。

新地標 | 內江即將新增這些新地標，周邊還有不少新樓盤！

1、內江萬達文化旅遊小鎮2020年3月31日，四川省內江市與萬達集團成功簽約，這標誌著全國夜間經濟破題項目——“內江萬達文化旅遊小鎮”落戶內江。

上海職場：西邊掛著告示，是啥字？姑娘：思維轉變能力很強

最近一家公司在58同城上發佈中招聘信息，在58同城上進行篩選，篩選出了四位求職者，通知面試，在面試時面試官問了這樣一個問題：西邊掛著告示，是啥字？

金融助力復工復產不等“貸”“青春抗疫復工貸”計劃發放6000餘萬元

四川新聞網德陽4月15日訊四川新聞網從共青團德陽市委獲悉，為切實為全市企業復工復產提供更便捷、更優惠、更精準的金融支持，今年3月起，共青團德陽市委聯合長城華西銀行，在全市範圍內實施“青春抗疫復工貸”項目，把保障特殊時期金融服務放在首位，以更快行動、更實舉措、更強的執行，全力以赴支

宅家不如寫遊記—瀘州

瀘州沱江酒紅油小火鍋晚來天欲雨能整二兩不赤水河畔一個古鎮，名字都忘了，是紅軍四渡赤水的地方，地勢險要，風景優美。

來看看！這48批次樣品抽檢不合格

抽檢經常有吃起更放心本期公佈食用農產品、肉製品、餐飲食品、乳製品、飲料等5類共622批次這次的抽檢單位有哪些↓↓↓金牛區譚鴨血老火鍋店、金牛區廠外香鋼管廠小郡肝串串香店、郫都區蜀漁軒藤椒魚火鍋店、成華區鳳姐火鍋店、蒲江縣鶴山鎮犇犇餐館……本期公佈不同時間點抽檢的574批次合格樣品

“神獸”回籠，校園食品安全怎麼辦？營山“三強化”告訴你

重點檢查人員管理、食品質量、防疫準備、原材料採購等突出內容，著重檢查學校設施“明廚亮灶”、“三防”設施、消毒設施是否完畢，食品安全管理制度、食品安全記錄、食品採購索證索票等規章制度是否齊全，是否配備充足的防疫物資，對從業人員健康情況是否備案登記。

【以案說法】假冒領導、熟人騙了30多萬,最高判7年！這些電信詐騙陷阱要小心

電信詐騙發案率大幅上升據瞭解僅2019年嵩明縣就發生電信詐騙案300餘件因電信詐騙損失達900餘萬元電信詐騙防範刻不容緩今天小編就和大家聊聊如何防範電信詐騙先來看看下面這個案件案件簡況張某、吳某、王某在他人組織下，在廣東給雲南普某等數名被害人撥打大量電話，冒充受害人朋友或政府機關

超棒！華師一2020高一新生登場！他們最閃亮

一場秋雨一場寒，天氣逐漸轉涼，但華中師大一附中2020新生軍訓場上卻是熱火朝天。華一er們軍訓的第三天，家長100小編帶著眾多家長的殷切關心，來到學校，為大家帶來2020級華一er們在軍訓沙場颯爽英姿的實時戰況!

宜賓學院生工學院發揮專業優勢服務地方經濟發展

為提高五糧液機場鳥擊防範水平，4月8日，宜賓學院生工學院動物多樣性與生態保育宜賓市重點實驗室吳亞勇博士和趙成博士，受邀前往五糧液機場就“防鳥擊，保安全”開展交流座談和合作洽談。

外籍華人自願放棄“綠卡”只求出境“回國”，你還願意接納他們？

隨著境外疫情爆發越來越嚴重，許多國家已經開始出現了動亂，不僅深受疫情帶來的巨大打擊，更是在安全係數上難以得到保障。尤其是一些曾經放棄中國國籍，選擇加入他國國籍的華人，他們在境外的生活，也是不盡人意，時刻遭到排擠與歧視。

熱血！省實驗2020新高一霸氣亮相！惟楚有材，青春飛揚

湖北省武昌實驗中學2020級小萌新們，迎來了軍訓沙場。想見到這群“萌新”訓練風采，感受省實驗百年校慶典禮的家長們~

房貸用信用卡還，老闆拖欠工資不發！玉溪一職員直呼：傷不起

“疫情之下，眾生皆苦”短短几個月給很多人造成了前所未有的壓力降薪減薪、裁員失業真真正正體會到了生活的“難”疫情期間，工資少了但花唄、信用卡…還是照樣得還有人亂了陣腳，有人不知所措……還有那讓上班族最為關注的工資發放問題近日@網友叫我姐姐在高古樓網站發帖稱：“在KTV慢搖吧上

隆陽區科協實施2019年科普項目成效顯著

截止2020年4月隆陽區2019年省級科普項目專項經費績效目標任務完成情況良好科普項目實施成效顯著⬛：一全區農函大培訓新型農民2500人；⬛：二建設保山比頓咖啡有限公司科技專家服務站、保山市隆陽區果蔬蔬菜技術推廣站科技專家服務站、保山全心農業科技有限公司專家服務站3個院士及專家工

雲南省消費者協會提示| 選擇正規渠道網購保持科學理性消費

疫情防控期間，網絡購物成為很多消費者購物首選方式，實體店也紛紛“上線”交易，由於網絡銷售存在虛擬性、買賣雙方信息不對稱等問題，網絡購物糾紛時有發生。

細思極恐！玉溪美女接到陌生電話，細到能說出她身份證號

現在大家都知道網貸的危害性所以基本都是自覺遠離網貸的萬萬沒想到，騙子卻藉此“大做文章”用“註銷網貸賬號”的說法來一步一步騙你的錢而且部分騙子比較“高深”能準確地能報出你的身份證號、畢業學校甚至是畢業年份，信息知道得太全往往讓人毛骨悚然▼網友發帖陌生號碼能完整說出我身份證號，並且說

戰“疫”的十四天，執著的堅守

十四天的堅守是責任的堅守，是信念的堅守，更是踐行初心使命的堅守，面對這場戰“疫”，他們寸步不退。勐臘縣公安局勐侖派出所經過14天的看護，此次的看護入境返國的600名群眾任務在今天圓滿結束。勐侖派出所民警堅守崗位，日夜不息英勇奮戰在疫情防控一線，越是艱險越向前，凝聚起眾志成城，齊心

知名餐廳“先漲價後道歉”，你家門口的小鍋米線還好麼？

前幾天有兩家知名餐飲店登上熱搜一家是疫情後一碗米飯賣6元其他菜品也偷偷漲價的海底撈另一家是疫情期間一直哭慘恢復營業後便偷偷漲價的西貝在漲價引發熱議以後兩家餐飲紛紛道歉並表示價格會回到1月26日閉店之前對於這番操作網友們表示而我們昆明市民們表示那麼昆明本土的一些餐飲和小吃店是否漲價

贊！地鐵8號線即將開通！武漢這26所學校的家長笑了

連通江夏、南湖、武昌、徐東和江岸，銜接地鐵8號線一期和三期的8號線二期12個站點主體工程已全部完工，全線路實現洞通、軌通、電通，部分站點附屬工程建設，修進入最後的收尾階段，近期將開通運行。

【國家安全教育日】帶您瞭解國家安全教育日

那是國家安全教育日。2020年4月15日是第5個全民國家安全教育日國家安全是頭等大事，維護國家安全人人有責。