MySQL性能診斷實踐之系統觀測工具-愛可生

2020-12-26 03:48:08 佚名

摘要：今天我帶來的分享是系統觀測工具，有所關聯但不涉及MySQL自身的這樣一個話題。

分享大綱：

1. MySQL 慢的診斷思路

2. 系統觀測工具介紹

3. bcc (eBPF腳本集) 使用舉例

4. eBPF 使用方法/限制

今天我帶來的分享是系統觀測工具，跟MySQL相關，但不是MySQL，選擇這個話題最主要的原因是今天4場演講，剛才是官方的專家來介紹MySQL的新特性，後面還有兩位專家，一位是介紹MySQL在真實業務中的大規模應用，還有一位是介紹源碼，留給我的空間並不是很多，所以選擇了一個跟MySQL有所關聯但不涉及MySQL自身的話題。

首先想請問一下大家，如果遇到MySQL慢的話大家的第一印象是什麼，MySQL數據庫如果性能不行的情況下，大家的處理手法是怎樣？

我諮詢了一些同行, 得到了以下反饋，第一反應是再試一次，第二個反應是優化一下SQL，第三個反應是我們調大buffer pool，然後開始換硬件了，換一下SSD，然後實在不行了我們找個搜索引擎問一下說“MySQL慢怎麼辦”。

如果大家用的是國內的搜索引擎的話，搜索引擎會推薦某某知道或者某某乎, 推薦一些MySQL調優經驗, 調大參數A, 調低參數, 諸如此類，類似的網站能告訴你MySQL慢怎麼辦。

我們來分析一下這些現象背後隱藏的意義：

如果大家再試一次能夠成功的話, 意味著你可能碰到了不可復現的外界因素的影響，導致MySQL會慢。
如果優化SQL能解決，就意味著SQL的執行復雜度遠遠大於它的需求複雜度。
如果調大buffer pool能解決，就意味著MySQL碰到了自身的某些限制。
如果換SSD能解決，那麼意味著服務器資源受到了一定的限制。
如果需要搜索引擎，意味著調優這事已經變成了玄學。

所以今天我想向大家介紹的是四部分內容：

1.MySQL 慢的診斷思

2.系統觀測工具介紹

3.bcc (eBPF腳本集) 使用舉例

4.eBPF 使用方法/限制

第一部分，我們向大家介紹一下常規的MySQL診斷慢的思路，也是業界的常規思路。

第二部分，是今天介紹的主要命題 -- 系統觀測工具的相關內容，我們會大概瞭解一下什麼叫系統觀測工具。

第三部分，給大家介紹一個腳本集，這個腳本集是開源的，開箱即用並且可以幫助大家快速診斷MySQL的一些問題，我們直接使用10個例子快速地介紹一下這個腳本集能為我們做到什麼。

最後，我們介紹一下eBPF的使用方法和腳本結構。任何一個好用的東西一定有它自己的限制，否則它就太完美了，所以我們也會介紹一下它的限制到底是怎樣的。

1.MySQL 慢的診斷思路

我們先來看第一個階段，MySQL慢的診斷思路，一般我們會從三個方向來做：

第一個方向是MySQL內部的觀測
第二個方向是外部資源的觀測
第三個方向是外部需求的改造

1.1 MySQL 內部觀測

我們來看MySQL內部的觀測，常用的觀測手段是這樣的，從上往下看，第一部分是Processlist，看一下哪個SQL壓力不太正常，第二步是explain，解釋一下它的執行計劃，第三步我們要做Profilling，如果這個SQL能再執行一次的話, 就做一個Profilling，然後高級的DBA會直接動用performance_schema ，MySQL 5.7 以後直接動用sys_schema，sys_schema是一個視圖，裡面有便捷的各類信息，幫助大家來診斷性能。再高級一點，我們會動用innodb_metrics進行一個對引擎的診斷。

除了這些手段以外，大家還提出了一些亂七八糟的手段，我就不列在這了，這些是常規的一個MySQL的內部的狀態觀測的思路。除了這些以外，MySQL還陸陸續續提供了一些暴露自己狀態的方案，但是這些方案並沒有在實踐中形成套路，原因是學習成本比較高。

1.2 外部資源觀測

外部資源觀測這部分，我引用了一篇文章，這篇文章的二維碼我貼在上面了。這篇文章是國外的一個神寫的，標題是：60秒的快速巡檢，我們來看一下它在60秒之內對服務器到底做了一個什麼樣的巡檢。一共十條命令，這是前五條，我們一條一條來看。

1.uptime，uptime告訴我們這個機器活了多久，以及它的平均的負載是多少。

2.dmesg -T | tail，告訴我們系統日誌裡邊有沒有什麼報錯。

3.vmstat 1，告訴我們虛擬內存的狀態，頁的換進換出有沒有問題，swap有沒有使用。

4. mpstat -P ALL，告訴我們CPU壓力在各個核上是不是均勻的。

5.pidstat 1，告訴我們各個進程的對資源的佔用大概是什麼樣子。

我們來看一下後五條：

首先是iostat-xz 1，查看IO的問題，然後是free-m內存使用率，之後兩個sar，按設備網卡設備的維度，看一下網絡的消耗狀態，以及總體看TCP的使用率和錯誤率是多少。最後一條命令top，看一下大概的進程和線程的問題。

這個就是對於外部資源的診斷，這十條命令揭示了應該去診斷哪些外部資源。

1.3 外部需求改造

第三個診斷思路是外部的需求改造，我在這裡引用了一篇文檔，這篇文檔是MySQL的官方文檔中的一章，這一章叫Examples of Common Queries，文檔中介紹了常規的SQL怎麼寫, 給出了一些例子。文章的鏈接二維碼在slide上。

我們來看一下它其中提到的一個例子。

它做的事情是從一個表裡邊去選取，這張表有三列，article、dealer、price，選取每個作者的最貴的商品列在結果集中，這是它的最原始的SQL，非常符合業務的寫法，但是它是個關聯子查詢。

關聯子查詢成本是很貴的，所以上面的文檔會教你快速地把它轉成一個非關聯子查詢，大家可以看到中間的子查詢和外邊的查詢之間是沒有關聯性的。

第三步，會教大家直接把子查詢拿掉，然後轉成這樣一個SQL，這個就叫業務改造，前後三個SQL的成本都不一樣，把關聯子查詢拆掉的成本，拆掉以後SQL會跑得非常好，但這個SQL已經不能良好表義了，只有在診斷到SQL成本比較高的情況下才建議大家使用這種方式。

為什麼它能夠把一個關聯子查詢拆掉呢？

這背後的原理是關係代數，所有的SQL都可以被表達成等價的關係代數式，關係代數式之間有等價關係，這個等價關係通過變換可以把關聯子查詢拆掉。

上面的這篇文檔是一個大學的教材，它從頭教了關於代數和SQL之間的關係。然後一步步推導怎麼去簡化這句SQL。

第一，MySQL本身提供了很多命令來觀察MySQL自身的各類狀態，大家從上往下檢一般能檢到SQL的問題或者服務器的問題。

第二，從服務器的角度，我們從巡檢的腳本角度入手，服務器的資源就這幾種，觀測手法也就那麼幾種，我們把服務器的資源全部都觀察一圈就可以了。

第三，如果實在搞不定，需求方一定要按照數據庫容易接受的方式去寫SQL，這個成本會下降的非常快，這個是常規的MySQL慢的診斷思路。

2.系統觀測工具介紹

我們先從診斷思路的討論切換到系統的觀測工具，首先了解什麼叫系統觀測工具並且看一下它的舉例，然後再回到診斷思路上，看看新的工具的引入能為我們的思路到底帶來怎樣的改變。

先來看一下什麼叫系統觀測工具？援引這篇文檔，二微碼如上，這是一個外國人寫的文檔，我把這個文檔拆開，中間描述了三件事情：

第一，系統觀測工具的數據源來自於哪裡；

第二，數據採集過程，因為採集的是系統的運行狀況，所以到底如何採集這是一個難點；

第三，應該怎麼看數據，是用圖來看，還是用表來看，它就叫數據處理前端；

第一步，我們來看一下數據源，Linux給我們提供的數據源是這幾種，包括操作系統內核態提供的觀測點和用戶態提供的觀測點，MySQL很早之前就提供了用戶態的觀測點。

第二步，怎麼把數據抽出來，抽出來的時候，大家可以看到這些工具裡邊大家最熟悉的應該是perf和ftrace，然後sysdig也有人在用，其它的可能有所耳聞，這個是從操作系統裡邊抽取數據的方法。

第三步，數據處理前端，前端裡邊常用的也是perf和ftrace。如果大家對perf很熟悉的話會知道perf出來的數據是一個樹形的數據，並可以跟這棵樹進行交互，比如說: 查看某個函數運行了多久，哪一個函數的時間最長，這個是數據處理前端。

我們來對比一下常規的四類系統觀測工具今天我要介紹的是第三類，eBPF，我們過往常用的是第四個，前面這兩個是通用工具，我們來對比一下這四個到底有什麼不同，看看Linux到底為啥提供這麼多觀測工具。

第一，來看一下ftrace，ftrace是一個sysfs中的一個樁，通過這個樁內核提供了一種觀測的形式，這種觀測的形式就是把想觀測的函數的簽名打到這個樁裡，然後操作系統就會提供這個函數運行的狀況。ftrace的結構如左圖, 數據處理前端和採集端是ftrace, 數據源是下面這一堆。

第二，大家常用的perf，原理是操作系統提供了一個系統調用可以將數據寫到一個緩存中, 然後客戶端把這些數據端抽取出來然後呈現在顯示器上。這個是perf的運行原理。

第三，eBPF是我們今天要重點介紹的，eBPF的方案，跟剛才兩種方案不一樣，剛才兩種方案一種是操作系統提供的文件系統上的樁，一種是操作系統提供的系統調用，而eBPF是將一段代碼直接插到操作系統內核某一個位置上的機制。

第四，Systemtap的原理是將一段C的代碼編譯成了一個內核的模塊，然後將這個模塊嵌到內核裡邊去，它不是由內核提供的一個機制，而是由內核的模塊機制提供的一種功能。

這是四種觀測工具的不同。

為什麼要介紹這四種觀測工具的不同，是因為大家在選取觀測工具的時候就知道大概怎麼選。

這四種觀測工具裡邊對系統傷害最輕的是誰？

對系統傷害最輕的是系統調用，這是系統承諾出來的服務。然後是ftrace，這是系統在文件系統層面提供的一個口，告訴你可以通過這個口跟系統交互。

對系統侵入性最強的是誰？

對系統侵入性最強的應該是eBPF，因為它直接將一根代碼嵌入到系統裡邊去做，最不穩定的應該是System Tap，因為它是系統的一個模塊, 又提供了非常複雜的功能。

這張圖是eBPF的架構圖，eBPF先將一段程序編譯成二進制代碼，然後插到操作系統裡邊去，操作系統運行這段代碼的時候，將採集到的數據吐到操作系統本身的一個空間裡，然後再做統一返回，大概就是這樣的一個結構。

eBPF這個結構，最核心的部分在於把代碼插入到操作系統中運行，它需要做各種安全保護才能完成這一點，所以這也是這個機制複雜的地方。

3. bcc (eBPF腳本集) 使用舉例

我們引用了一個開源的eBPF腳本集bcc, 快速看一下eBPF能做什麼, 這些功能都是開箱即用。

第一個例子，MySQL的請求延遲分析，一個MySQL承擔了很多業務，上千個併發在那兒，哪一個SQL最慢，到底有哪些SQL在一秒以上，除了slow log以外，還可以用這種方法來看。

這個命令的結果分為三列，它的第一列是請求的延遲，指數級遞增，單位是微秒，中間一列是它的命中數，如果有一個請求命中了64-127微秒這個區間，命中數會加一，最後一列是它的分佈圖，它在同一個報告裡提供了數值的方式和圖的方式，大家很容易看到結果。

對於這臺服務器來說，我下了一個select的性能壓力，它大部分的請求集中於64到127微秒之間。這個數據庫的性能可能還不錯。

我們再來看另外一種壓力，我下了一個select+insert的混合壓力在一個數據庫裡，它的圖又變了，它呈現了一個非常好的雙峰圖，我將兩個峰值用另外一種顏色標明，這兩個峰值的意思是很有可能有混合壓力在一個數據庫裡，或者是上面的這部分壓力是命中了某些緩存，而下面的某些壓力是由於沒有命中緩存，導致這部分請求更慢一些, 形成另一個峰值，所以大家通過這種峰值分析可以看到數據庫大概的一個運行狀態。

如果能做得更好，大家可以抽檢自己的數據庫然後做環比圖，比如說今天和昨天同樣的時間，同樣的業務壓力下對數據庫的延遲進行分析，如果數據庫的延遲峰一直在往後延，就意味著數據庫的狀態在變得更糟糕一些。這是bcc第一個能做的事情，需要再次強調的是它開箱即用直接下載過來就可以使用。

第二個例子，MySQL的慢查詢

，MySQL本身提供很好的慢查詢，我幹嘛要用另外一個機制來獲取MySQL的慢查詢呢？

我們先看一下它的輸出,其實跟MySQL本身的慢查詢還要再簡單一些。那麼我們為什麼要用另外一種方式來獲取慢查詢呢？

因為它能做到這些事情，而MySQL的慢查詢可能很難做，與MySQL的慢日誌相比, 它可以低成本地完成:

1. 獲取少量慢查詢

2. 獲取某種模式的慢查詢

3. 獲取某個用戶的慢查詢

比如說獲取少量的慢查詢，為什麼是少量呢？因為我們不確定現在的線上延遲是多少，慢查詢只開一秒可能日誌瞬間就被堆上去，性能就會下來，但是如果慢查詢開個十秒左右，沒有請求在這個區間命中，所以要一點一點的去調這個值，比如說線上1%的最慢的查詢能夠命中，但是在這個腳本里面，可以取一定區間的最大的幾個查詢把它拎出來。

通過腳本還可以命中某種模式的慢查詢, 比如說我們只關心update的慢查詢, 那麼獲取select的結果就沒有太大的意義，或者是我一定要獲取某一些特定表的相關的查詢，我都可以通過腳本來做。

第三種情況我想獲取某個用戶的慢查詢，這個一般對於多租戶系統，因為多租戶系統我只想針對某一個用戶進行慢查詢分析的時候，這種腳本就比較好用，這是我想說的第二個例子。

之後的幾個例子都跟IO相關，所以我引用了另外一篇文檔，這篇文檔是Linux IO的堆棧圖，右邊是引用的二維碼，這張堆棧圖看起來很複雜，但這個其實是2012年畫的第一版的IO堆棧圖，現在IO堆棧圖比這個要複雜很多，大家可以在這個網址上去體驗一下。然後我們把其中的關鍵元素抽出來，我們看一下IO的堆棧大概是幾個層次？

從MySQL開始，MySQL是運行在用戶態中，它通過VFS層的接口，一個IO請求就下到內核態，然後從VFS轉到真正的文件系統，之後IO請求會下到塊設備層，在塊設備層裡邊會經歷IO的一個調度器，大家常見的MySQL的調優建議裡面, 對於調度器的設置要麼設成空要麼設成deadline, 就是在這個位置起作用，最後通過SCSI接口, 將數據請求下到物理設備。

第三個例子，VFS延遲分析，我們對每一層都可以通過腳本對它進行IO分析，比如說我可以對VFS做延遲分析。

對VFS做延遲分析，這是對數據庫進行了一個寫壓力，大家可以明顯看到一個雙峰圖，這是寫的兩個峰，是數據庫對於內核的寫壓力的反饋。

這個意味著什麼呢？這個可能意味著因為這部分的寫是命中了操作系統文件系統的緩存，而下面這部分寫是真正的寫穿到設備的，所以他們倆的延遲不一樣，這是一個典型的雙峰圖，大家需要把兩個峰拆開來去行這樣的分析。

換一個說法，如果寫壓力都集中在這裡，而沒有第二個峰的情況下，需不需要去更換物理設備？有可能不需要，因為所有的東西都命中了操作系統的緩存。

第四個例子，Ext4 文件IO延遲分析，我們之前看到的圖是以磁盤設備為維度的。

那麼我能不能按照文件維度去看到底是哪個文件的IO慢，這個腳本可以直接做到。我下了一個最簡單的寫壓力到數據庫上。

紅色標明的地方比非紅色的地方的數值都要高，而它的共性在於都是數據文件，而非紅色的部分都是各類的日誌文件，這就是大家常說的日誌文件是順序寫的，數據文件是隨機寫的，順序寫比隨機寫快, 就在這個延遲上體現了，所以通過這種觀測方式大家可以觀測到各個文件的寫壓力的平均延遲大概在什麼水平上。

我用這個工具主要是用來抓住一些證據, 比如其他進程影響了數據庫的IO。在這個地方故意用了DD，不是打車的滴滴，是寫IO的DD，DD的IO壓力就會被工具抓出來, 這就是鐵的證據。這是我想介紹的第四個例子，它可以做基於文件的IO分析。

第五個例子，塊設備的延遲分析，為什麼要補充一個塊設備的延遲分析呢？因為從剛才的這些延遲分析上，延遲都是帶有操作系統緩存的影響的，而通過這個腳本可以看出真實下到設備上的延遲是多少。

這是一個下到設備上的壓力的情況, 大部分的延遲在32微秒到64微秒之間，我也不知道這個設備是好還是不好，做IO壓力的時候很難通過絕對值去判斷這個事是好還是不好，大家需要通過環比得出正確的結論。

這張雙峰圖, 是我的同事做出來的，他問我說這是個典型的雙峰圖，是不是IO出了問題設備出了問題，一組IO比另一組IO的延遲明顯要高。

那這個圖到底有沒有問題呢？這個圖沒有什麼太大的問題，因為它的count很小。它真實的select下在到設備上的讀只有五個請求，這五個請求裡邊明顯有三個比其它的兩個延遲要高一些，這個事兒不值得分析。大部分的請求全部都被InnoDB的buffer和操作系統的Cache全部都hold住了，所以這個事情是不值得分析的，大家通過這個圖也可以完成剛才“需不需要更換設備, 更換設備以後MySQL會不會變得更快”的問題，在如圖的情況下應該不會。

第六個例子，MySQL線程對文件的IO壓力彙總，我們看了剛才基於設備的、基於全局文件的IO壓力分析，我想知道MySQL到底哪一根線程對IO造成了壓力，是InnoDB負責刷數據的哪根線程,還是正在導數據的線程。

這個腳本可以幫大家做到這個事情，看看這個腳本的輸出結果是這樣的，它最左邊一列是TID，是線程號，最右邊一列是文件，中間部分是它寫的大小。在這樣的一個數據庫上，大家可以明顯看到這個數據庫出了什麼問題。

即使沒有my.cnf的內容也能知道這個數據庫出了什麼問題，它的問題可能在於開啟了general log。這個是基於線程的，所以大家只要找到這兩根線程, 就能知道這兩根線程是哪個業務下來的，這兩根線程的SQL可能異常多, 所以general log一直在刷日誌，刷成了現在這樣子。這個是基於線程，並且基於文件的對IO的分析。

第七個例子，短生命週期的臨時文件檢測，這個大家不一定常見，MySQL會在某些情況下動用臨時表, 如果SQL沒寫好就會創建臨時表，這些臨時表的生命週期很短，但是量很大，所以一定要寫文件而不能內存裡。

在這種情況下會對操作系統造成一些壓力，而這個壓力又不太好診斷，是因為臨時文件的生存週期短，所以這個腳本可以幫大家提供這樣的一個方案，這個方案的結果大概是這樣子。

我做了一個臨時表，這個臨時表活了5.3秒左右，於是它展現在了腳本的結果裡。如果大家掃描自己的線上MySQL發現這裡有大量的東西說明在大量的使用臨時表，如果IO壓力在此時比較大, 就可能受了臨時表的影響。

第八個例子，短連接分析，好一點的應用都會用連接池，但是我們很多的時候沒有那麼好的運氣，老碰到那麼好的應用，所以經常業務會扔過來大量的短連接。

這個例子中, sysbench上了一個大併發，但是隻活了300多毫秒，這些連接都只活了300多毫秒，反覆運行這個sysbench就可以將數據庫打死，建立一千個連接，300毫秒以後也會銷燬，再建立一千個連接，你的業務就會忽上忽下，通過這個腳本就可以抓到這個壓力從哪個服務器來的，哪個端口來的，然後把它搞定就可以了，這是數據庫的短連接分析。

第九個例子，長連接分析，除了短連接分析，還有長連接分析，哪一個業務端老在搞我的數據，老在往裡寫，總在往裡讀，搞的網絡特別慢。

這個就可以幫大家提供這樣的一個視角，這個就是長連接分析。它有讀有寫，都在這裡，這是第九個腳本。

第十個例子，CPU offcpu 消耗分析。看看最後一個腳本，這個我需要介紹一下背景，什麼叫offcpu，什麼叫消耗分析，以及最終形成的圖大概是什麼樣子。

為什麼我們要對CPU的offcpu進行分析呢？

因為正常的情況下CPU的工作過程是這樣子的，MySQL運行在操作系統的用戶態。序運行過程中會切入到內核態, 比如說程序進行了系統調用，比較好的情況是程序可以一直佔著cpu，所以它一直都會在運行中，如果不太好的情況，比如說遇到了磁盤的IO，網絡的IO，主動的睡眠，一些鎖的阻塞，它就會陷入不佔用CPU的情況，把CPU放棄了，然後讓給了其它線程。

但是這個時候是不是意味著數據庫工作良好？如果大家對MySQL只做onCPU的分析，這個階段onCPU是0，不佔CPU，但是因為IO是阻塞的，我想知道到底是因為什麼阻塞在這，這個就叫offcpu的分析，就是MySQL從內核態開始把CPU讓出來，開始下臺的時候，我想知道它為什麼下臺，以及下臺持續了多久，然後來進行這樣的分析。

它最後的輸出結果是這樣的一個圖，這個圖叫火焰圖並且這是一個冷火焰圖，它的是offcpu的，大家常見的火焰圖是火焰圖, 是紅色的, 指的是oncpu的分析。我們特意把它做成了冷色的，這是offcpu的火焰圖，很顯然沒有任何一個人能讀得懂上面寫的到底是什麼。所以我來介紹一下什麼叫火焰圖，火焰圖是這樣一個過程。

比如說對數據庫進行採樣，進行採樣的過程中，採了四個樣，這四個樣這個地方代表數據庫的運行堆棧，然後它的運行堆棧是這樣子，這樣四個運行堆棧，然後在火焰圖上他們就會被合併成這樣子，他們四個都涉及到第一個調用是A，所以它會把A合併在一起，第二個調用有兩個是B，把B合併在一起，最後大家看到的就是這樣一個圖，這個圖變大以後，就會長成像一個火焰的樣子，所以它就是Flame Graph。

這個是火焰圖是怎麼形成的，它是通過採樣，然後把採樣合併成一張圖，然後大家在這個圖上能獲得什麼信息，獲得的信息是程序的入口可能是A，因為所有的採樣都過了A，其中B獨立運行佔了四分之一的時間，B之上C佔了四分之一的時間，大家就能從這個圖上快速的讀出這個事情。

所以如果對這個程序要進行調優的話，大家會調到哪裡，從哪裡下手調優最直接方便？B獨立運行了四分之一，C獨立運行了四分之一，E獨立運行四分之一，我們唯一知道的是調優D是沒有用的，因為D所有的時間都被E佔用了，所以調優D不管怎麼調它自己的時間是沒有佔用的，這個就是火焰圖的基本原理。

我們來看一個例子，這個例子是我從剛才的那個圖上截出來的，這是offCPU分析中的一部分，它佔了剛才那張圖差不多25%的左右的大小，這個堆站從下往上讀，最下面這個大家能讀懂吧，innobase:index_read, 表示引擎在讀索引樹。然後往上讀，不知道什麼意思，mvcc不知道什麼意思，無所謂，再往上讀，Btr_...to_nth_level, 表示在讀索引數的第n層，再往上讀，我buffer上面開了一個頁，它開始讀頁了，然後這個地方涉及到了fil_io, 為了讀取這個頁我開始讀文件了，然後上面do_syscall_...進行了系統調用，然後到了VFS開始真實的進行這個系統調用。

如果這個堆棧出現在整個MySQL堆棧的25%，意味著什麼呢？意味著MySQL花了25%的時間來讀頁，來從文件系統裡邊把這個頁讀出來，這個頁是幹什麼用的？這個頁是在索引中的，就即使不懂代碼，讀這些英文，大概也能分析出如果把磁盤換掉，或者是把buffer pool擴大，擴得非常大，然後開始加內存，最好的條件下能讓這個數據庫變快25%，可能能夠把這個堆棧整個消掉，這個就是火焰圖帶給大家的IO分析的方法。

剛才我們介紹了十個bcc相關的例子，這些例子都是現成的腳本，bcc這個工具能向大家提供的是一整套，可以觀測這個操作系統的各個方面，比如說如果有東西被OOM kill掉了，然後內存有洩露的也可以看，然後這邊有N多的其他的部分，這個基本上是我們這幾年發現的一個寶庫，大家直接調用這些腳本就可以完成很多的別人完成不了的分析，它的技術用的是eBPF，就是我們剛才介紹的系統觀測工具。大家直接在github上直接搜就行了。

4.eBPF 使用方法/限制

如果這裡邊腳本滿足不了要求, 那我們可以自己寫。這裡我們介紹一下腳本的寫法以及eBPF的限制。

我們拿剛才MySQL延遲分析舉例，一個MySQL上面有一千個query，這些query大概都落在哪個延遲時間裡面那張圖，為了完成這個需求, 我需要寫兩段程序，其中第一段程序是運行在內核裡邊的程序。

這段程序的邏輯是這樣的，先在query開始的時候截獲一下，讓它記錄一個時間戳，然後請求結束的時候再截獲一下記錄一個時間戳，然後把兩個時間戳相減獲得一個延遲，然後把這個延遲扔到結果集裡邊去，程序就完成了，正常思路吧。我用結束時間減開始時間，減一下得到一個延遲，然後把延遲扔到一個統計容器裡面，這個事就結束了。這是我要寫的第一個程序，是嵌到內核裡的程序，但是需要一個外殼的程序負責嵌入。

這個外殼程序的邏輯也非常簡單，把剛才那段內核的程序嵌到MySQL的觀測點上，嵌到內核裡面去，然後把結果集拿出來，打印出來就結束了，這是如何寫一個eBPF的腳本，大家唯一需要做的事情就是這兩個程序，然後運行一下。

這個程序有多長呢？這個程序就這麼長，45行，但是我中間忽略了一些部分，這些部分是負責差錯處理，它的核心就是這45行，然後大家只需要把現在的腳本拿下來抄一抄，改一改就可以完成很多的功能了。

我們來聊聊限制，這麼好的方法為什麼很多人不知道呢？

操作系統內核的限制，這個功能是Linux 4.4引進來的，但是在Linux 4.4上存在統計的bug，如果大家用那張分佈圖的話，會看到這個圖上數不太對，我們推薦的是Linux 4.9+，部分好用的功能是在4.13+上才開放，這個是eBPF最大的限制。怎麼辦呢？只能祝大家長壽吧！活到Linux 4.x內核能在生產環境上使用的那一天。

它的第二個最大的限制是MySQL的編譯參數，MySQL雖然在很早很早的時候，已經提供了dtrace的觀測點，這些觀測點是公用的，但是它在默認的編譯出來的官方發佈的包裡邊是不帶觀測點編譯的，所以在直接官方發佈的二進制的包裡邊是用不了這個功能的，大家需要自己編譯一下。編譯的時候需要帶這個參數，這個可能也是屬於一個比較大的限制。

所以如果大家受到限制，我們推薦換一個工具，systemtap 。

Linux 2.6就已經有了，但是我剛才說過，它的機制是寫一個內核模塊，這種機制其實不是特別穩定，它為了解決不是特別穩定的問題增加了若干限制，比如說能在內核中使用的內存大小有限制，採集頻率也有限制，對整個內核的性能的影響的百分比也有限制，在這些限制參數都開起來的情況下，它還是比較安全的。

但是很多觀測功能比如說offCPU的火焰圖，就必須要把這些限制關掉，一旦關掉內核就不是很穩定，所以這個工具，我沒有敢把它的缺點寫在上面因為確實是個好的工具，我們也很難說它的這個缺點是個致命的缺陷，但是不太推薦在生產環境上使用，但是在測試環境上確實是非常好玩的一個工具，如果大家用不了eBPF的話可以用systemtap來做一些診斷。這是跟限制相關的部分。

然後有systemtap，有eBPF，大家就想知道有沒有其它的選擇的部分，這個圖也是我偷來的，都是羊駝，就有這麼多工具，大家可以去選擇它。

至於怎麼選擇的話，大家直接谷歌一下有專門的文章教大家怎麼來選擇這些觀測工具，但是總的來說沒有一個科學的思路，就是嘗試，不停的嘗試。

推薦一本書，所有的這次演講裡知識的來源都來源於這本書，我們剛才說的bcc的腳本集的作者，這是他寫的書，他還做了很多神一樣的事情，強烈推薦給大家，這本書很早中文版就出版了，但是好像很多人讀過的人不是很多。

除了中文版的書之外，再推薦一個文檔，這篇文檔是紅帽的官方文檔，不需要紅帽企業的會員，免費可以讀，叫：Performance Tuning Guide，它在第二節介紹了操作系統各種可以用的觀測工具，覆蓋了我們的第一部分所說的所有的外部觀測工具，以及我們在中間所說的系統觀測工具，都在這上面。但是我不太喜歡這個文檔的原因是因為它很少有原理分析，而都是在說這邊有一個參數可以調，那邊有一個參數可以調，如果大家想獲取這部分的知識的話，這篇文檔的質量也是異常的高，紅帽我一直覺得是一個賣文檔順便賣操作系統的公司。

分享到:

關鍵字: 查詢診斷延遲

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

記者從河北省公安廳獲悉，日前公安部通緝的13名A級通緝犯中的2號通緝犯魯某某近日向河北邯鄲警方投案自首，這是公安部A級通緝令後又一通緝犯主動投案。

當我們在談 SaaS 的時候，在談什麼？

當我們在談SaaS 的時候，在談什麼？什麼是 SaaSSaaS 優缺點SaaS 銷售模式SaaS 產品指標SaaS 業務指標SaaS 收入計算一、什麼是 SaaS這個模式讓軟件變得和水電氣很相似，只需要每月繳納固定的費用即可享受服務。

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

現階段，隨著國家供給側結構性改革的不斷深入，人們在市場中的互易行為日益頻繁，合同在經濟活動發揮的作用也日漸凸顯。

5月西安招聘會時間安排來了！找工作的別錯過

乘車路線:西安市內乘坐12路、14路、14路區間、26路、215路、215路區間、216路、224路、229路、239路、31路、36路、321路、323路、521路、600路、603路、616路、701路、704路、709路、教育專線、K605路、K616路、遊6路、遊8路61

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

基於以太坊區塊鏈的主要穩定幣包括：Tether、TrueUSD、GeminiDollar、Paxos Standard、Binance USD、USD Coin、Huobi USD和MakerDAO等。

“幫助當地居民解決用水難題”-今日頭條-手機光明網

晨曦初露，9歲的米格爾和弟弟妹妹們抱著水罐，穿過一片田野，到達安哥拉首都羅安達郊區的指定取水點。葛洲壩安哥拉有限公司市場部負責人劉世軒介紹說，公司每天派出送水車兩次，一次3車，將潔淨水從羅安達水廠直接運往指定取水點。

灌籃高手無水印壁紙，每一張都是回憶

那些年，我們追過的灌籃高手，你更喜歡誰呢？流川楓櫻木花道赤木剛憲宮城良田三井壽你喜歡哪個球員呢？歡迎評論區留言。

通遼藍天救援隊成功解救遼河公園水上被困群眾

2020年5月1日，通遼藍天救援隊假期例行在遼河公園水域進行安全巡邏任務，下午15時10分，巡邏隊員發現遼河水面有被困群眾向巡邏船隻求救，接到求救信號後，巡邏隊員緊急前往事故現場展開研判、救援準備工作。

5月6日·武漢要聞及抗擊肺炎快報

今天零時起高速公路恢復收費了，這些車輛還能免費5月6日零時起全國高速公路恢復收費在武漢北收費站ETC和人工車道全部可通行零時左右通過收費站的車輛並不多以大貨車為主有工作人員在一旁引導貨車進入高速收費站前要通過入口稱重檢測車道進入沒有超重超限便可順利通過現場沒有出現排隊的現象全省聯

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

2020年4月29日下午，肖副省長等省市領導來到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作，肖副省長等省市領導在學校領導陪同下，重點對校門口出入、保健室、教室、學生心理輔導室、洗手池等進行了非常細緻的檢查，對孝感市楚澴中學的復學和疫情防控工作給予充分的肯定。

相聲界的顏值擔當張雲雷稱號大揭祕

這個播放量就連師傅身為相聲演員的張雲雷卻有著堪比娛樂圈小鮮肉的顏值，一個相聲演員長成這樣，張雲雷不火誰能火。

美國百年薅羊毛攻略

當德國向法軍陣地傾洩400多萬發炮彈，揚言要讓凡爾登成為「碾碎法軍的絞肉機」時，遠在大西洋的美國人。

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

近日，由楊洋、江疏影主演的劇版《全職高手》在騰訊視頻正式開播了，該劇改編自蝴蝶藍同名小說，先前還被改編成動畫版。

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

前言：IG這隻老牌戰隊在我們LPL賽區以來都擁有著非常高的人氣，特別是在2018年之後，他們幫助我們LPL賽區奪得了第一個寶貴的S賽世界冠軍，而IG戰隊的打法一直以來也是非常有觀賞性的。

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

Doinb表示："可以的話我不想參加，首先這場比賽沒有任何意義，獲得勝利既不會有獎金也不會有榮譽，但萬一輸掉比賽FPX就會成為大家吐槽的焦點"。

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

大家都知道天后王菲和前夫李亞鵬他們育有一個女兒，名叫李嫣。於是李嫣因為偷偷的開了直播從而也導致了她被大家所發現，但李嫣的樂觀和開朗卻也讓李亞鵬放下心來，決定放飛女兒，讓她自由的去探索她想要的世界。

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

天王郭富城近日參加活動，首度承認妻子方媛懷有二胎的消息。從去年2017年兩人結婚，低調的愛情讓媒體都捕捉不到邊際，天王嫂31歲兩人相差了20歲的愛戀，始終不少人不看好啊。

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

演員在我們眼中一直都是光鮮亮麗、收入頗高的職業，並且現在有很多靠流量躋身一線，卻毫無演技以及實力的演員。

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

曾經賈乃亮是“陽光”的代名詞，大家看到他都覺得很暖，只不過後來就不是了。今天早上，他發了一條微博“人生的美好就是每天醒來都能看到上帝賜予我的那一米陽光”，這句話當中，賈乃亮用到了“一米陽光”這個詞。

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

當一名理髮師也不容易這是一隻有航天夢想的老鼠寶寶！什麼？這麼貴！把我賣了得了。小朋友，你贏了，我甘拜下風！

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

程瀟可謂是才女，她是中韓宇宙少女的成員之一，今年她只有20歲。不要看程瀟年紀比較小，但是她身材還是挺好的，身材也是典型S型曲線，魅力不小。

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

張柏芝是許多80後90後心目中的女神，除了顏值高有演技外，她和謝霆鋒的婚姻和戀情也曾是吃瓜群眾津津樂道的事。

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

前言：目前各大賽區的春季賽都已經結束了，T1戰隊在重組之後再度拿下了lck賽區的冠軍，這讓很多的玩家非常意外，這也從側面反映出來了，核心選手和主教練的個人能力，同時faker的實力再度被玩家們認可，最近一段時間他也是一直在直播，很多的人都在詢問，今年李哥的目標是什麼？

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

上線之後迅速引發了大量玩家的好評，就在最近，官方也是迎來了10.9版本，可是在目前的版本中再度出現了太多的畸形玩法了，應該是有史以來最不平衡的版本，因為一費卡的爆率大大提升，導致遊戲成為了三星的天下，全員搶一費卡，運氣成為吃雞的關鍵。

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

在本期節目中會評選出一位最美麗LPL女解說，其中瞳夕、Rita、餘霜等都在名單之中，最有趣的是管澤元居然也出現在了“女解說”名單中，全因餘霜一張P過的照片，論梗的話，管澤元第一，若是輪顏值，估計這也排不上名次。

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

不過要是像唐嫣和羅晉那樣用公費談戀愛的故事不多，大多數還是和不是心愛的人拍得多，但要是遇上岳雲鵬和佟麗婭拍親熱戲的話，那個畫面或許大家想象不出來吧。

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

LPL賽區的春季賽結束也有一段時間了，作為冠軍戰隊JDG，並沒有因為拿到冠軍而出現“人氣”的高漲，依舊平平淡淡，熟悉LPL賽區的玩家都知道，在LPL賽區中，一直以來都是由RNG、IG、EDG三家從“遠古”時期就開始統治LPL賽區，期間也有OMG和LGD、WE幾個戰隊打破了這個規律

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

學習結束，回到家後，在武大短暫學習的那段時光時常讓我懷念，並曾立下誓言，抽個暑假一定要帶著老婆孩子一起去“逛”武大。機會就這麼悄然而至！2019年第28屆世界腦力錦標賽全球總決賽的舉辦地就是武漢，比賽的日期是12月6日到8日，三天的時間。其實，我也沒有想到第一次參加這樣比賽的女兒

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

這不今天就有網友在論壇中聊起了這個話題，有網友表示“LPL隊伍其實都不想參加中韓友誼賽，LPL隊伍才剛結束春季賽，18天之後就要打夏季賽了，像IG可能會有人員變動FPX TES 應該也會利用這段時間來檢討分析，也許只有JDG 比較願意參加，doinb只是第一表態的選手，可能還有很

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽，於2020年04月28日上線，由信陽本地聯盟上傳。西瓜視頻為您提供高清視頻，畫面清晰、播放流暢，看豐富、高質量視頻就上西瓜視頻。

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

TOP20 - 「優雅的家」這部由林秀香、李章宇、裴宗玉等人所主演的《優雅的家》，當時一播出就引起不少話題，雖然劇情有點浮誇，但卻莫名好看，而當時該劇還刷新了MBN電視臺的記錄呢~《優雅的家》主要講述一位擁有完美外貌和身材的MC集團獨生女毛碩熙，為了查明15年母親去世的真相，因此

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

我這暴脾氣，等你剝完我能吃五個你帶著你家貓去做演員吧！這貓太有前途了！這是我見過最牛的啦啦隊！自從有了弟弟，老大就和家務結緣了狼狗：要不是主人在，我非吃了你兩個小子！

備考消防的幾大錯覺，你有這個情況嗎？

講真，很多時候我們會把事情想當然，並因為這些錯覺而採取錯誤的舉動，一消備考是一場毅力和心智的戰鬥，大家難免會產生一些錯覺，從而影響自己的備考效率，甚至導致備考失敗。

“頂流”李敏鎬啞火，渣男出軌劇出圈，韓劇觀眾也長大了？

豆瓣開分8.3，漸漸跌到7.7分，熱門短評寫道：“同樣是金編，差距怎麼這麼大”、“看了四集節奏真的是一團糟，比起隔壁《夫妻的世界》真的差一大截”。

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患

隨著“五一”期間氣溫大幅回升全國大部分地區已經進入初夏在享受小長假春日美景的同時森林火險等級也隨之明顯提升新疆森林消防提示您春季氣溫回升快野外草木乾燥你的一個失當用火行為就有可能引發森林大火勿念蔥林繁似海一星燃盡只塵埃

搞笑GIF開心一刻：拍照啦，趕緊看鏡頭

弟弟：姐姐你能利索點嗎家裡有個熊孩子，說實話心很累同學感覺你好可伶，一個人跳舞多尷尬啊！看我病好了怎麼收拾你們！真的是以迅雷不及掩耳之勢啊。姑涼，你……掉毛啊！小姐姐你是想找男朋友嗎用這樣的方式，結局很意外此處注意安全！

工程發承包、工程造價條款，或迎來大調整

第二章建設規劃與設計第一節建設規劃第八條建設規劃的體系第九條建設規劃的編制與審批第十條建設規劃的內容第十一條建設規劃的實施與評估第二節城市設計第十二條城市設計的基本要求第十三條城市設計的編制和審批第十四條城市設計的實施和管理第三節建築設計第十五條建築設計的基

新增四省！關於2019年一級建造師考試證書、複核發佈公告

快來看看吧~青海關於恢復專業技術人員職業資格證書的發放、補辦工作的通知各位考生：隨著疫情防控進入常態化，青海省新冠疫情得到有效控制，專業技術人員職業資格證書的印製、發放工作正在逐步恢復，為方便廣大考生辦理證書業務，4月28日起青海省人力資源和社會保障服務中心一樓大廳65、66號辦

學霸也會復讀？朱廣權這個圈粉無數的國民段子手是如何煉成的！

“煙籠寒水月籠沙，不止東湖與櫻花，門前風景雨來佳，蓮藕魚糕玉露茶，鳳爪藕帶熱乾麵，米酒香菇小龍蝦，守住金蓮不自誇，趕緊下單買回家，買它買它就買它，熱乾麵和小龍蝦。”

幸福的人，總會忘記舊愛

幸福從來不可能是有個人幫你搞定所有的一切，而你只需要坐享其成。她喜歡喝銀耳蓮子羹而且必須是上好的銀耳，用小火慢慢燉到砧稠那一日，他去看她，她冷冷地從屋裡走出來，丟給他一本書.對他說:"廚房裡小鍋燉著東西，你幫我去看看。”他真真地守了一個多小時，端到她面前。

真人芭比：一直說自己“沒整容”最後晒出舊照，打臉的卻是自己

俗話說的好“愛美之心人人都有”而讓自己快速變美的方法無疑就是“整容”如今的社會整容看起來似乎很平常。

驚了！這件事沒有做，一消證書等於白考！

不要慌，同學們，遇到問題不要怕，拿到證書不去註冊，相當於證書無效，今天就為大家一一解答註冊證書的相關問題。

8年後，有哪些人會留在農村生活？以下4類人群或將留下，有你嗎

從九十年代末開始，在我國農村地區就興起了一股“進城潮”，記得那個時候，農村的經濟發展相對滯後，村民生活條件艱苦，鄉親們為了擺脫貧困，只能告別親人，遠離家鄉去外面打拼賺錢。

唯一回絕張藝謀力捧的女生，被報送上清華，25歲有上百億身家

25歲有上百億身家文/娛樂深扒爆姐圖/網絡張藝謀是一位非常有實力的導演，同時非常出名，而且他拍攝的作品中有不少獲獎無數的經典影片，同時也捧紅過不少藝人。

疫情下的悲劇：買不起手機上網課，那個女孩決定吞藥自殺

有人為了生計不顧自身安危，有人躲在家中安然度日，還有人僅僅因為一個手機，就要放棄自己的生命...這個女孩，今年上初三，因為疫情的原因，全國各地都展開了網課線上教育，女孩的學校也不例外。

李棟旭劉仁娜新劇開拍，互對臺詞歡樂多，終於要開始撒狗糧了嗎？

這部劇是2016年年底播出的，熱度一直持續到了2017年，相關的周邊和景點都相當熱門，像是池恩卓跟鬼怪大叔相遇的海邊、劇中出現的鬼怪玩偶、還有鬼怪大叔的拔劍特效等等。

高考延期：七月的高考，最熱的天，做最難的題！

後來，由於7月份氣候較差，極端天氣頻發，尤其是南方地區，要麼極端高溫，要麼就是颱風，對於高考來說非常不友好，不僅考生的考試質量會下降，而且閱卷老師、高考工作者也不方便，因此，從2003年開始，高考日期都固定在了每年的6月7日、8日。