ETCD是什麼？能做什麼？

2019-03-02 20:50:32 運維小筆記

ETCD是用於共享配置和服務發現的分佈式，一致性的KV存儲系統。該項目目前最新穩定版本為2.3.0. 具體信息請參考[項目首頁]和[Github]。ETCD是CoreOS公司發起的一個開源項目，授權協議為Apache。

提供配置共享和服務發現的系統比較多，其中最為大家熟知的是[Zookeeper]（後文簡稱ZK），而ETCD可以算得上是後起之秀了。在項目實現，一致性協議易理解性，運維，安全等多個維度上，ETCD相比Zookeeper都佔據優勢。

ETCD工作原理

ETCD使用Raft協議來維護集群內各個節點狀態的一致性。簡單說，ETCD集群是一個分佈式系統，由多個節點相互通信構成整體對外服務，每個節點都存儲了完整的數據，並且通過Raft協議保證每個節點維護的數據是一致的。

每個ETCD節點都維護了一個狀態機，並且任意時刻最多存在一個有效的主節點。主節點處理所有來自客戶端寫操作，通過Raft協議保證寫操作對狀態機的改動會可靠的同步到其他節點。

選主

Raft協議是用於維護一組服務節點數據一致性的協議。這一組服務節點構成一個集群，並且有一個主節點來對外提供服務。當集群初始化，或者主節點掛掉後，面臨一個選主問題。集群中每個節點，任意時刻處於Leader, Follower, Candidate這三個角色之一。選舉特點如下：

當集群初始化時候，每個節點都是Follower角色；
集群中存在至多1個有效的主節點，通過心跳與其他節點同步數據；
當Follower在一定時間內沒有收到來自主節點的心跳，會將自己角色改變為Candidate，併發起一次選主投票；當收到包括自己在內超過半數節點贊成後，選舉成功；當收到票數不足半數選舉失敗，或者選舉超時。若本輪未選出主節點，將進行下一輪選舉（出現這種情況，是由於多個節點同時選舉，所有節點均為獲得過半選票）。
Candidate節點收到來自主節點的信息後，會立即終止選舉過程，進入Follower角色。

為了避免陷入選主失敗循環，每個節點未收到心跳發起選舉的時間是一定範圍內的隨機值，這樣能夠避免2個節點同時發起選主。

日誌複製

所謂日誌複製，是指主節點將每次操作形成日誌條目，並持久化到本地磁盤，然後通過網絡IO發送給其他節點。其他節點根據日誌的邏輯時鐘(TERM)和日誌編號(INDEX)來判斷是否將該日誌記錄持久化到本地。當主節點收到包括自己在內超過半數節點成功返回，那麼認為該日誌是可提交的(committed），並將日誌輸入到狀態機，將結果返回給客戶端。這裡需要注意的是，每次選主都會形成一個唯一的TERM編號，相當於邏輯時鐘。每一條日誌都有全局唯一的編號。

主節點通過網絡IO向其他節點追加日誌。若某節點收到日誌追加的消息，首先判斷該日誌的TERM是否過期，以及該日誌條目的INDEX是否比當前以及提交的日誌的INDEX跟早。若已過期，或者比提交的日誌更早，那麼就拒絕追加，並返回該節點當前的已提交的日誌的編號。否則，將日誌追加，並返回成功。

當主節點收到其他節點關於日誌追加的回覆後，若發現有拒絕，則根據該節點返回的已提交日誌編號，發生其編號下一條日誌。

主節點像其他節點同步日誌，還作了擁塞控制。具體地說，主節點發現日誌複製的目標節點拒絕了某次日誌追加消息，將進入日誌探測階段，一條一條發送日誌，直到目標節點接受日誌，然後進入快速複製階段，可進行批量日誌追加。

按照日誌複製的邏輯，我們可以看到，集群中慢節點不影響整個集群的性能。另外一個特點是，數據只從主節點複製到Follower節點，這樣大大簡化了邏輯流程。

安全性

截止此刻，選主以及日誌複製並不能保證節點間數據一致。試想，當一個某個節點掛掉了，一段時間後再次重啟，並當選為主節點。而在其掛掉這段時間內，集群若有超過半數節點存活，集群會正常工作，那麼會有日誌提交。這些提交的日誌無法傳遞給掛掉的節點。當掛掉的節點再次當選主節點，它將缺失部分已提交的日誌。在這樣場景下，按Raft協議，它將自己日誌複製給其他節點，會將集群已經提交的日誌給覆蓋掉。

這顯然是不可接受的。

其他協議解決這個問題的辦法是，新當選的主節點會詢問其他節點，和自己數據對比，確定出集群已提交數據，然後將缺失的數據同步過來。這個方案有明顯缺陷，增加了集群恢復服務的時間（集群在選舉階段不可服務），並且增加了協議的複雜度。

Raft解決的辦法是，在選主邏輯中，對能夠成為主的節點加以限制，確保選出的節點已定包含了集群已經提交的所有日誌。如果新選出的主節點已經包含了集群所有提交的日誌，那就不需要從和其他節點比對數據了。簡化了流程，縮短了集群恢復服務的時間。

這裡存在一個問題，加以這樣限制之後，還能否選出主呢？答案是：只要仍然有超過半數節點存活，這樣的主一定能夠選出。因為已經提交的日誌必然被集群中超過半數節點持久化，顯然前一個主節點提交的最後一條日誌也被集群中大部分節點持久化。當主節點掛掉後，集群中仍有大部分節點存活，那這存活的節點中一定存在一個節點包含了已經提交的日誌了。

至此，關於Raft協議的簡介就全部結束了。

分享到:

閱讀更多 運維小筆記 的文章

關鍵字: 節點日誌 Apache