Gubernator 開源：高性能分佈式限速微服務項目

2019-08-06 17:01:56 IT技術分享

Gubernator 的特性

Gubernator 在整個集群中均勻地分佈速率限制請求，這樣用戶就可以添加更多的節點來擴展系統。
Gubernator 不依賴於 Memcache 或 Redis 等外部緩存，因此部署時不存在服務依賴。這使得在諸如 kubernetes 或 nomad 的編排系統中能動態增長或縮小集群。
Gubernator 在磁盤上不保存狀態，它的配置是由客戶機根據每個請求傳遞給它的。
Gubernator 提供了對其 API 的 GRPC 和 HTTP 訪問。可以根據需要限制速率的陪伴服務運行，也可以作為獨立的服務運行。
可以用作庫來實現特定領域的限速服務。
支持對高吞吐量環境進行定製化的一致速率限制服務。
Gubernator 是 俄語中 governor 的英文發音 ，聽起來也很酷。

在正式開始討論 Gubernator 的工作原理之前，先來回答大家關心最多的幾個問題：

為什麼不用 Redis 呢?

在評估 Redis 時，我們思考了很多東西：

即使使用管道，使用基本的 Redis 速率限 制實現也會導致額外的網絡往返。
我們可以使用 https://redis.io/commands/eval 和一個 LUA 腳本來減少往返，但我們需要為實現的每個算法維護這個腳本。
每一個獨立的請求將導致至少一次往返於 Redis。再加上至少一次到我們微服務的往返，這意味著每個到我們服務的請求至少要兩次往返。

Redis 的最優解決方案是編寫一個 LUA 腳本來實現速率限制算法。然後，該腳本存儲在 Redis 服務器上，併為每個速率限制請求調用。在這個場景中，大部分工作由 Redis 完成，而我們的微服務基本上是訪問 Redis 的代理。在這種情況下，我們有兩個選擇：

創建 Gubernator 作為速率限制庫，提供對 Redis 的訪問，這個庫將被所有需要限制速率的服務使用。
棄用 Redis，並在每個服務都使用瘦 GRPC 客戶機的限速微服務中實現分佈式、緩存和限制算法。

為什麼用微服務?

Mailgun 是一家擅長多種開發語言的公司，我們的代碼大部分都是用 python 和 golang 寫的。如果我們選擇將速率限制實現為一個庫，這至少需要一個 python 和一個 golang 版本的庫。我們以前在內部使用同一個庫的 python 和 golang 版本時也採用過這種方法。根據我們的經驗，跨服務共享庫有以下缺點：

對庫的 Bug 和特性更新最多可能導致對依賴項的更新。在最壞的情況下，它需要對所有使用庫的服務進行修改，這些服務使用庫中支持的所有語言。
開發人員很少希望用兩種語言維護或編寫新特性。假如兩個並行的話，通常導致一個版本的庫具有更多的特性，或者比另一個版本維護得更好。

隨著微服務和語言應用數量在我們的生態系統中的不斷增長，這些問題變得越來越複雜，也更糟糕。相比之下，GRPC 和 HTTP 庫很容易為需要訪問 Gubernator 的每種語言創建和維護。

對於微服務，可以添加 bug 更新和新特性，而不會破壞依賴的服務。只要不允許 API 中斷更改，依賴服務就可以選擇新特性，而不需要更新所有依賴服務。

Gubernator 作為微服務的主要特性是，它為進入系統的許多請求創建了一個同步點。在幾微秒內接收到的請求可以被優化並協調成批，從而減少服務在重載下使用的總帶寬和往返延遲。多個服務都運行在單個主機上，並且所有服務都在各自的進程中運行相同的庫，但它們沒有此功能。

為什麼 Gubernator 是無狀態的?

Gubernator 是無狀態的，因為它不需要磁盤空間來操作。不需要任何配置或緩存數據同步到磁盤，這是因為對 Gubernator 的每個請求都包含速率限制的配置。

首先，你可能認為這對每個請求都是不必要的開銷。然而，實際上，速率限制配置僅由 4 個 64 位整數組成。配置由限制、持續時間、算法和行為組成 (有關工作原理的詳細信息，請參閱下面)。正是由於這種簡單的配置，Gubernator 可以用來提供客戶端可以使用的各種速率限制用例。其中一些用例如下：

入口限制：典型的基於 HTTP 的 402 多請求類型限制。
流量減少：當 API 處於不佳狀態時，只拒絕新的或未經身份驗證的請求。
出口限制：用數百萬條消息轟炸外部 SMTP 服務器並非易事。
隊列處理：知道何時可以立即處理請求，或者應該按照接收請求的順序排隊和處理請求。
API 容量管理：對一個集合 API 系統能夠處理的請求總數設置全侷限制。拒絕或對違反系統正常操作能力的請求進行排隊。

除了上面提到的用例，無配置設計對微服務的設計和部署有重要的影響：

部署時不用配置同步。當使用 Gubernator 的服務被部署時，不用預先部署到 Gubernator 的速率限制配置。
使用 Gubernator 的服務擁有其問題空間的速率極限域模型。這使得 Gubernator 無法獲得領域特定的知識，因此 Gubernator 可以專注於它最擅長的事情——速率限制！

在這些問題之外，下面就從 Gubernator 的工作原理開始，討論更多關於 Gubernator 的內容。

Gubernator 的工作原理

Gubernator 被設計成一個分佈式的對等點集群，它利用了內存中所有當前活動速率限制的緩存，因為不用將數據同步到磁盤。由於大多數基於網絡的速率限制持續時間只有幾秒鐘，因此在重啟或計劃停機期間丟失內存緩存並不是什麼大問題。對於 Gubernator，我們選擇性能而不是精度，因為在緩存丟失的情況下，一小部分流量在短時間內 (通常是幾秒鐘) 超過請求是可以接受的。

當向 Gubernator 發出速率限制請求時，將鍵入該請求並應用一致的哈希算法來確定哪個對等點將是速率限制請求的所有者。為速率限制選擇單個所有者可以使計數的原子增量非常快，並且避免了在對等集群中一致地分佈計數所涉及的複雜性和延遲。

儘管簡單且性能良好，但是這種設計可能會受到一大堆請求的影響，因為一個協調器可能要處理成千上萬個請求，而且速度有限。

為了解決這個問題，客戶機可以請求 Behaviour=BATCHING，它允許對等點在指定的窗口內接受多個請求 (缺省值為 500 微秒)，並將請求批處理為單個對等點請求，從而極大地減少了通過網絡向單個 Gubernator 對等點發送請求的總數。

為了確保集群中的每個對等點準確地計算速率限制鍵的正確散列，必須以及時和一致的方式將集群中的對等點列表分發給集群中的每個對等點。目前，Gubernator 支持使用 etcd 或 kubernetes 端點 API 來發現 Gubernator 對等點。

Gubernator 操作

當客戶機或服務向 Gubernator 發出請求時，客戶機將為每個請求提供速率限制配置。然後，速率限制配置與當前速率限制狀態一起存儲在速率限制所有者的本地緩存中。存儲在本地緩存中的速率限制及其配置僅在速率限制配置的指定持續時間內存在。

在持續時間過期之後，如果在此期間沒有再次請求速率限制，則從緩存中刪除它。對相同名稱和 unique_key 對的後續請求將在緩存中重新創建配置和速率限制，這個循環將重複。另一方面，具有不同配置的後續請求將覆蓋以前的配置並立即應用新配置。

通過 GRPC 發送的速率限制請求示例如下所示：

 複製代碼

rate_limits:
# Scopes the request to a specific rate limit
- name:requests_per_sec
# A unique_key that identifies this rate limit request
unique_key:account_id=123|source_ip=172.0.0.1
# The number of hits we are requesting
hits:1
# The total number of requests allowed for this rate limit
limit:100
# The duration of the rate limit in milliseconds
duration:1000
# The algorithm used to calculate the rate limit
# 0 = Token Bucket
# 1 = Leaky Bucket
algorithm:0
# The behavior of the rate limit in gubernator.
# 0 = BATCHING (Enables batching of requests to peers)
# 1 = NO_BATCHING (Disables batching)
# 2 = GLOBAL (Enable global caching for this rate limit)
behavior:0

下面是一個例子:

 複製代碼

rate_limits:
# The status of the rate limit. OK = 0, OVER_LIMIT = 1
- status:0,
# The current configured limit 

limit:10,
# The number of requests remaining
remaining:7,
# A unix timestamp in milliseconds of when the rate limit will reset,
# or if OVER_LIMIT is set it is the time at which the rate limit
# will no longer return OVER_LIMIT.
reset_time:1551309219226,
# Additional metadata about the request the client might find useful
metadata:
# This is the name of the node that owns this request
"owner":"api-n03.staging.us-east-1.mailgun.org:9041"

Global Behavior

由於 Gubernator 速率限制是由集群中的單個對等點哈希和處理的，所以適用於數據中心中的每個請求的速率限制將導致單個對等點處理整個數據中心的速率限制請求。

例如，考慮 name=requests_per_datacenter 和 unique_id=us-east-1 的速率限制。現在，假設對每個進入 us-east-1 數據中心的 HTTP 請求都使用這個速率限制向 Gubernator 發出請求。這可能是每秒數十萬個請求，甚至可能是數百萬個請求，這些請求都由集群中的一個對等點哈希並處理。由於這個潛在的可伸縮性問題，Gubernator 引入了一個名為 GLOBAL 的可配置 behavior。

當速率限制配置為 behavior=GLOBAL 時，從客戶機接收到的速率限制請求將不會轉發給擁有它的對等方。相反，它將從接收請求的對等方處理的內部緩存中得到響應。Hits 速率限制的點擊率將由接收對等點批量處理，並異步發送到擁有該點擊率的對等點，在該對等點上，點擊率將被總計並得出 OVER_LIMIT。然後，擁有節點的節點有責任用速率限制的當前狀態更新集群中的每個節點，這樣，節點內部緩存就會定期從所有者那裡獲得最新速率限制狀態的更新。

Global Behavior 的其他影響

由於 Hits 是批量處理並異步轉發給擁有它的對等點的，所以對客戶機的即時響應將不包括最精確的 remaining 計數。只有在對所有者對等點的異步調用完成並且擁有對等點有時間更新集群中的所有對等點之後，該計數才會得到更新。因此，使用 GLOBAL 允許更大的集群規模，但要以一致性為代價。如果集群足夠大，使用 GLOBAL 可以增加每速率限制請求的通信量。 GLOBAL 應該只用於與傳統的非 GLOBAL 行為不兼容的高容量速率限制。

Gubernator 性能

在我們的生產環境中，每向我們的 API 發送一個請求，我們就向 Gubernator 發送兩個速率限制請求來評估速率限制；一個用於對 HTTP 請求進行評級，另一個用於對用戶在特定時間內也可以發送電子郵件的收件人數量進行評級。在這種設置下，一個 Gubernator 節點每秒處理超過 2000 個請求，大多數批量響應在 1 毫秒內返回。

轉發給擁有節點的對等請求通常在 30 微秒內響應。

NOTE
The
above

graphs
only report
the slowest
request
within the
1 second
sample
time. So
you are
seeing the
slowest
requests
that
Gubernator
fields to
clients.

由於許多面向公眾的 API 都是用 python 編寫的，所以我們在一個節點上運行許多 python 解釋器實例。這些 python 實例將本地請求轉發給 Gubernator 實例，然後 Gubernator 實例將請求批處理並轉發給擁有節點的節點。

Gubernator 允許用戶選擇非批處理行為，這將進一步減少客戶機速率限制請求的延遲。但是，由於吞吐量需求，我們的生產環境使用默認的 500 微秒窗口使用 Behaviour=BATCHING。在生產中，我們觀察到在 API 使用高峰期間，批處理大小為 1000。其他不具有相同高流量需求的用戶可以禁用批處理，並以吞吐量為代價降低延遲。

Gubernator 用作庫

如果使用 Golang，可以使用 Gubernator 作為庫。如果你希望在頂部實現一個公司特有模型的速率限制服務，這是非常有用的。我們在 Mailgun 內部有一項名為“ratelimits”的服務，專門跟蹤每個賬戶的限額。通過這種方式，你可以利用 Gubernator 的強大功能和速度，同時可以分層業務邏輯，並將特定領域的問題集成到速率限制服務中。

使用庫後，你的服務將成為集群的正式成員，與獨立的 Gubernator 服務器一樣參與一致的散列和緩存。你所需要做的就是提供 GRPC 服務器實例，並告訴 Gubernator 集群中的對等點位於何處。

結論

使用 Gubernator 作為通用的速率限制服務，允許我們依賴於微服務體系結構，而不會損害服務獨立性和公共速率限制解決方案所需的重複工作。我們希望通過開源這個項目，與其他人共同合作，也讓他們從中受益。

分享到:

閱讀更多 IT技術分享 的文章

關鍵字: 開源設計 Redis

分佈式——吞吐量巨強、Hbase的承載者 LSMT

[分佈式] 調用鏈追蹤

[分佈式] 分佈式安全

[分佈式] 分佈式事務的四種解決方案

[分佈式] 基於Netty及websocket應用與總結

[分佈式] 分佈式ID生成器解決方案

「分佈式」自定義RPC框架-基於JAVA實現

「分佈式」分佈式系統的負載均衡

「分佈式」分佈式系統設計策略

「分佈式」 redis集群腦裂及解決方案

「分佈式」 Lease機制

「分佈式」 Paxos算法詳解

「分佈式」分佈式一致性算法應用場景

開發三年對JVM、分佈式、高併發掌握的Java程序員在北京值多少K？

一文簡述服務器架構的演變過程：集群—分佈式—微服務

疫情之下想要砍下BATJ的offer，怎能不會高併發、多線程、分佈式

03.03 2020最新出爐BAT架構實戰文檔：多線程與高併發+分佈式+微服務

2020預備春招BAT面試題彙總：MyBatis +微服務+Spring+分佈式

高併發之API接口，分佈式，防刷限流，如何做？

12.28 高併發之API接口，分佈式，防刷限流，如何做？

Java程序員2020學習方向，高併發，分佈式，Redis，微服務

11.26 面試官問：集群部署時，分佈式 session 如何實現？

瞭解四種軟件架構：Serverless、微服務、分佈式、單體

「RPC」「分佈式」使用Hprose實現PHP與Python的遠程過程調用

11.12 從零開始學架構，每天花四小時學spring全家桶、高併發、分佈式..

併發、分佈式、SQL編程中你遇到多少鎖？距離高級工程師只差一步

「分佈式」看完這個動畫秒懂 Raft 算法

08.06 2019年阿里Java面試必問：JVM與性能優化+Redis+設計模式+分佈式

分佈式、高併發、多線程，到底有什麼區別？

分佈式 ID 生成策略

五面螞蟻金服Java研發崗:數據結構+Redis+分佈式+微服務

最新阿里java開發崗四面：分佈式+性能調優+鎖+數據庫等

分佈式：Zookeeper相關背景知識及其總體概述

01.29 分佈式：關於命名服務的知識點都在這裡了

01.29 分佈式：深入理解分佈式系統的2PC和3PC（兩階段和三階段提交）

01.29 分佈式：關於分佈式事務、兩階段提交協議、三階提交協議深入認知

分佈式：關於分佈式一致性（Consistency）的探究

01.28 分佈式：關於分佈式系統的BASE理論概略

01.28 分佈式：關於分佈式的CAP理論

01.28 分佈式：初識分佈式系統

有贊研發面經Spring+併發鎖+分佈式+算法

最新鮮的美團現場面試41題（三面技術+HR面）：Redis+Kafka+分布式

史上最全Java面試266題：算法+緩存+TCP+JVM+搜索+分布式+資料庫

組件化、分布式、服務化、微服務、CAP定論、BASE

服務器“分佈式”與“集群”的區別是什麼？

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"