Cloudflare Nginx優化成果：每天爲網際網路節約54年

2018-08-14 12:15:23 高可用架構

總共有1000萬個網站或者應用程序使用Cloudflare為其服務加速。在最高峰時，我們（共151個數據中心）每秒處理超過1000萬個請求。多年來，我們對NGINX進行了許多改進，以應對我們的增長。這篇博文是關於我們眾多改進中的一部分。

NGINX的工作原理

NGINX使用事件循環來解決C10K問題。每次網絡事件發生時（新連接，連接可讀/可寫等）NGINX被喚醒，之後處理事件，然後繼續處理其他需要做的事情（可能處理其他事件）。當事件到達時，與事件相關的數據已準備就緒，這使NGINX可以同時有效地處理許多請求而無需等待。

例如，以下是從文件描述符中讀取數據的一段代碼：

當fd是socket時，可以讀取已經到達的數據。最後一次調用將返回EWOULDBLOCK，這意味著我們已經讀取了內核緩衝區中所有數據，所以在有更多數據可用之前我們不應該再次從socket中讀取數據。

磁盤I/O與網絡I/O不同

當fd是Linux上的文件時， EWOULDBLOCK和EAGAIN永遠不會出現，並且read函數總是等待讀取整個緩衝區。即使用O_NONBLOCK打開文件也是如此。引用open(2)：

請注意，此標誌對常規文件和塊設備無效

換句話說，上面的代碼可以精簡為：

這意味著如果需要從磁盤讀取數據，那麼整個循環都會阻塞，直到完成讀取文件，後續事件處理會被delay。

這對於大多數工作負載來說都可以接受，因為從磁盤讀取數據通常足夠快，並且與等待數據包從網絡到達相比更加可預測。現在大家都使用SSD，而我們的緩存磁盤都是SSD。現代SSD具有非常低的延遲，通常為10 μs。最重要的是，我們可以使用多個工作進程運行NGINX，以便慢速事件處理不會阻止其他進程中的請求。大多數情況下，我們可以依靠NGINX的事件處理來快速有效地處理請求。

SSD性能並不總能達標

估計你已經猜到，我們的假設過於樂觀。如果每次磁盤讀取需要50μs，那麼在讀取0.19MB（4KB塊大小）數據需要2ms（我們讀取更大的塊）。但是測試表明，對於讀取速度的99和999百分位數來說，通常會比較糟糕。換句話說，每100（或每1000）次磁盤數據讀取的最慢值通常並不小。

固態硬盤非常快，並且非常複雜。從本質上看SSD是有排隊和重新排序I/O功能的計算機，還執行垃圾收集和碎片整理等各種後臺任務。偶爾會有請求變慢到需要引起重視的程度。我的同事Ivan Babrou運行了I/O基準測試，其中最慢的磁盤讀取已經達到1s。此外，一些SSD比其他SSD的性能異常值更多。展望未來，我們將考慮未來購買的SSD的性能保持一致，但與此同時我們需要為現有硬件提供解決方案。

使用SO_REUSEPORT均勻分佈負載

雖然一個單獨的慢讀取是很難避免的，但我們不希望1秒鐘的磁盤I/O阻塞同一秒內的其他請求。從概念上講，NGINX可以並行處理多個請求，但它一次卻只能處理1個事件。所以我添加了以下指標：

event_loop_blocked的時間超過了我們TTFB（首字節響應時間）的50％。也就是說，服務請求所花費的時間的一半是由於事件循環被其他請求阻塞。由於 event_loop_blocked僅測量大約一半的阻塞（因為未測量對epoll_wait()延遲調用）因此阻塞時間的實際比率要高得多。

我們的每臺機器運有15個NGINX進程，這意味著一個慢速I/O應該只阻塞最多6％的請求。但是，IO事件並不是均勻分佈的，最嚴重的情況有11%的請求被阻塞（或者是預期的兩倍）。

SO_REUSEPORT可以解決分佈不均的問題。 Marek Majkowski之前撰寫過相關文章，但是跟我們的實際情況不符，由於我們使用長連接，因此打開連接導致的延遲可忽略不計。僅此配置更改就使SO_REUSEPORT峰值p99提高了33％。

將read移動到線程池

解決這個問題的方法是使read不阻塞。事實上，這是一個在NGINX中已經實現的功能！使用以下配置時， read和write在線程池中完成，不會阻止事件循環：

然而，當我們對此進行測試時，實際上看到p99略有改善，而不是看到大幅度的響應時間改善。數據差異在誤差範圍內，我們對結果感到氣餒，並暫時停止深究。

有幾個原因導致沒達到預期的優化程度。在相關測試中，他們使用200個併發連接來請求大小為4MB的文件，這些文件位於機械硬盤上。機械磁盤會增加I/O延遲，因此優化read延遲會產生更大的影響。

而且我們主要關注p99（和p999）的性能。有助於平均性能的解決方案不一定有助於異常值。

最後，在我們的環境中，典型文件要小得多。 90％的緩存命中小於60KB的文件。較小的文件意味著更少的阻塞時間（我們通常在2次I/O中讀取整個文件）。

如果我們查看緩存命中必須執行的磁盤I/O：

32KB不是靜態數字，如果文件頭很小，我們只需要讀取4KB（我們不使用direct IO，因此內核將最多四捨五入）。 open看起來似乎沒啥毛病，但它實際上並非沒有問題。內核至少需要檢查文件是否存在以及調用進程是否有權打開它。為此，它必須找到/cache/prefix/dir/EF/BE/CAFEBEEF的inode，也必須在/cache/prefix/dir/EF/BE/中查找CAFEBEEF。長話短說，在最壞的情況下，內核必須執行以下查找：

這是完成open所需的6次讀取，而read只讀了1次！幸運的是，上面描述的大多數磁盤查找由dentry緩存提供服務，並不需要訪問SSD。顯然在線程池中完成的read只是整個工作的一部分。

線程池中的非阻塞open

所以我修改了NGINX代碼，使用線程池完成大部分open，這樣它就不會阻塞事件循環。結果如下：

6月26日，我們對我們最繁忙的5個數據中心進行了升級，然後在第二天進行了全球範圍使用。總體峰值p99 TTFB（首字節響應時間）提高了6倍。實際上，把我們一天處理的請求節約的時間加和（每秒800萬請求），我們為互聯網節省了54年。

我們的事件循環處理仍然不是完全非阻塞的。第一次緩存文件的時候（ open(O_CREAT)和rename()），或重新做驗證更新的時候，依然是會阻塞的。但是由於我們的緩存命中率較高，上述情況較為罕見，所以暫時問題不大。在未來，我們也考慮將這些代碼移出事件循環以進一步改善我們的p99延遲。

結論

NGINX是一個功能強大的平臺，但應對Linux上極高的I/O負載可能具有挑戰性。上游NGINX可以在單獨的線程中處理文件讀取，但在我們的規模下，我們需要做的更好才能應對挑戰。

英文原文：

https://blog.cloudflare.com/how-we-scaled-nginx-and-saved-the-world-54-years-every-day/?ref

分享到:

閱讀更多 高可用架構 的文章

關鍵字: Nginx 技術固態硬盤

Nginx-包教包會-進階

nginx 配置https

Nginx 居然支持流量拷貝，一個牛X的功能！

Nginx 的配置指令

Nginx——負載均衡

nginx-htpasswd實現用戶登錄

Nginx 高可用集群解決方案 Nginx + Keepalived

Nginx 一個牛X的功能，流量拷貝！

nginx request body讀取流程詳解

nginx-安裝與啟動

Nginx 負載均衡

Nginx 關於rewrite的配置錯誤

前端必備 Nginx 配置

Nginx 又一個牛X的功能，流量拷貝

nginx 403 無法訪問圖片資源

nginx ssl證書錯誤處理方法

02.28 Nginx 又一牛X的功能！流量拷貝

02.27 Nginx 基本使用介紹

Nginx 基於epoll模型事件驅動流程詳解

全面瞭解 Nginx 主要應用場景

01.06 全面瞭解 Nginx 主要應用場景

nginx 1.17.7 主線版發佈

11.29 Nginx+SpringBoot實現負載均衡

Nginx 限流常用模塊：限制併發和IP訪問頻率

nginx—web緩存問題探究

Nginx 實現灰度發佈的三種方法總結

nginx 配置服務啟動的教程詳解

Nginx 性能優化有這篇就夠了！

Nginx、Apache工作原理以及nginx為何比Apache高效

全面瞭解 Nginx 到底能做什麼

nginx+vue實現項目動靜分離

「Nginx」02節-Nginx location 匹配規則詳解

玩轉 Nginx 之：使用 Lua 擴展 Nginx 功能

Nginx 限流方法

nginx location在配置中的優先級

Nginx 的內置變量匯總

Nginx 性能調優

nginx 代理 springboot 項目

從一份配置清單詳解 Nginx 服務器配置

06.24 Nginx 日誌和變量

Nginx+Tomcat關於Session的管理

NGINX HTTP服務器的SSL證書

04.29 17、Nginx-圖片防盜鏈的配置

Nginx 創建

NGINX 官方博客正式宣布 NGINX 支持原生的 gPRC

Nginx Web服務應用中URL地址重寫——Nginx rewrite

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"