對磁盤和網絡,如何進行IO評估、監控、定位和優化?

點擊上方 "程序員小樂"關注公眾號, 星標或置頂一起成長

每天凌晨00點00分, 第一時間與你相約

每日英文

Sometimes there is no next time, no second chance, no time out. Sometimes it is now or never.

有時候,沒有下一次,沒有機會重來,沒有暫停繼續。有時候,錯過了現在,就永遠永遠的沒機會了。

每日掏心話

生活是一場又一場花開花落;人生是一列單向行駛的火車,中途會有許多大大小小的站點停靠,但是永遠不售返程車票。

對磁盤和網絡,如何進行IO評估、監控、定位和優化?

程序員小樂(ID:study_tech)第 667 次推文 圖片來自網絡

往日回顧:逆天!GitHub開源的10個後臺管理面板項目!超20.6W星,看完後你不得不服!

00 前言

生產中經常遇到一些IO延時長導致的系統吞吐量下降、響應時間慢等問題,例如交換機故障、網線老化導致的丟包重傳;存儲陣列條帶寬度不足、緩存不足、QoS限制、RAID級別設置不當等引起的IO延時。

本文由社區專家楊建旭根據社區活動整理,包括其分享的相關知識點分享和大家關心的典型問題,供大家參考。

01 評估IO能力的前提

評估一個系統IO能力的前提是需要搞清楚這個系統的IO模型是怎麼樣的。那麼IO模型是什麼,為什麼要提煉IO模型呢?

(一)IO模型

在實際的業務處理過程中,一般來說IO比較混雜,比如說讀寫比例、IO尺寸等等,都是有波動的。所以我們提煉IO模型的時候,一般是針對某一個特定的場景來建立模型,用於IO容量規劃以及問題分析。

  • 最基本的模型包括:IOPS、帶寬和IO大小

  • 如果是磁盤IO,那麼還需要關注:磁盤IO分別在哪些盤、讀IO和寫IO的比例、讀IO是順序的還是隨機的、寫IO是順序的還是隨機的。

(二)為什麼要提煉IO模型

不同模型下,同一臺存儲,或者說同一個LUN,能夠提供的IOPS、帶寬(MBPS)、響應時間3大指標的最大值是不一樣的。

當存儲中提到IOPS最大能力的時候,一般採用隨機小IO進行測試,此時佔用的帶寬是非常低的,響應時間也會比順序的IO要長很多。如果將隨機小IO改為順序小IO,那麼IOPS還會更大。當測試順序大IO時,此時帶寬佔用非常高,但IOPS卻很低。因此,做IO的容量規劃、性能調優需要分析業務的IO模型是什麼。

02 評估工具

(一)磁盤IO評估工具

磁盤IO能力的評估工具有很多,例如orion、iometer,dd、xdd、iorate,iozone,postmark,不同的工具支持的操作系統平臺有所差異,應用場景上也各具特色。

有的工具可以模擬應用場景,比如orion是oracle出品,模擬Oracle數據庫IO負載(採用與Oracle相同的IO軟件棧)。即模擬oracle應用對文件或磁盤分區進行讀寫(可指定讀寫比例、io size,順序or隨機)這裡就需要提前知道自己的IO模型。如果不知道,可以採用自動模式,讓orion自動的跑一遍,可以得出不同進程的併發讀寫下,最高的IOPS、MBPS,以及對應的響應時間。

比對dd,僅僅是對文件進行讀寫,沒有模擬應用、業務、場景的效果。

postmark可以實現文件讀寫、創建、刪除這樣的操作。適合小文件應用場景的測試。

(二)網絡IO評估工具

  • ping:最基本的,可以指定包的大小。

  • iperf、ttcp:測試tcp、udp協議最大的帶寬、延時、丟包。

  • 衡量windows平臺下的帶寬能力,工具比較多:NTttcp、LANBench、pcattcp、LAN Speed Test (Lite)、NETIO、NetStress。

03 主要監控指標和常用監控工具

(一)磁盤IO

對於存儲IO:unix、linux平臺,Nmon、iostat是比較好的工具。nmon用於事後分析,iostat可用於實時查看,也可以採用腳本記錄下來事後分析。

1.IOPS

  • 總IOPS:Nmon DISK_SUMM Sheet:IO/Sec

  • 每個盤對應的讀IOPS :Nmon DISKRIO Sheet

  • 每個盤對應的寫IOPS :Nmon DISKWIO Sheet

  • 總IOPS:命令行iostat -Dl:tps

  • 每個盤對應的讀IOPS :命令行iostat -Dl:rps

  • 每個盤對應的寫IOPS :命令行iostat -Dl:wps

2.帶寬

  • 總帶寬:Nmon DISK_SUMM Sheet:Disk Read KB/s,Disk Write KB/s

  • 每個盤對應的讀帶寬:Nmon DISKREAD Sheet

  • 每個盤對應的寫帶寬:Nmon DISKWRITE Sheet

  • 總帶寬:命令行iostat -Dl:bps

  • 每個盤對應的讀帶寬:命令行iostat -Dl:bread

  • 每個盤對應的寫帶寬:命令行iostat -Dl:bwrtn

3.響應時間

  • 每個盤對應的讀響應時間:命令行iostat -Dl:read - avg serv,max serv

  • 每個盤對應的寫響應時間:命令行iostat -Dl:write - avg serv,max serv

4.其他

磁盤繁忙程度、隊列深度、每秒隊列滿的次數等等。

(二)網絡IO

1.帶寬

最好在網絡設備處直接查看流量(比較準),如果在業務的服務器也可以查看:

  • Nmon:NET Sheet

  • 命令行topas:Network:BPS、B-In、B-Out

2.響應時間

  • 簡單的方法,可採用ping命令查看ping的延時是否在合理範圍,是否有丟包現象。

  • 有些交換機對ping命令設置了較低的優先級,可能在回覆、轉發ping包的時候有延遲,因此ping的結果不一定能反映真實情況。如果需要更為精確的測量可以探針捕獲從某服務器建立TCP連接時發送的SYN包後開始計時起,到其收到對端發回的TCP SYNACK後的時間差。

更為準確、利於後期分析的方法是採用專業的網絡設備在網絡設備的端口處進行報文捕獲和計算分析。

04 性能定位與優化

(一)對磁盤IO爭用的調優思路有哪些?

典型問題:針對主要爭用是IO相關的場景下,調優的思路有哪些?主要的技術或者方法是什麼?

一、首先要搞清楚IO爭用是因為應用等層面的IO量過大導致,還是系統層面不能承載這些IO量。

如果應用層面有過多不必要的讀寫,首先解決應用問題。

舉例1:數據庫裡面用於sort的buffer過小,當做sort的時候,有大量的內存與磁盤之間的數據交換,那麼這類IO可以通過擴大sort buffer的內存來減少或避免。

舉例2:從應用的角度,一些日誌根本不重要,不需要寫,那麼可以把日誌級別調低、甚至不記錄日誌,數據庫層面可以加hint “no logging”。

二、存儲問題的分析思路

存儲IO問題可能出現在IO鏈路的各個環節,分析IO瓶頸是主機/網絡/存儲中的哪個環節導致的。

IO從應用->內存緩存->塊設備層->HBA卡->驅動->交換網絡->存儲前端->存儲cache->RAID組->磁盤,經過了一個很長的鏈條。需要逐段分析:

  • 主機側:應用->內存緩存->塊設備層-->HBA卡->驅動

  • 網絡側:交換網絡

  • 存儲側:存儲前端->存儲cache->RAID組->磁盤

1、主機側

當主機側觀察到的時延很大,存儲側的時延較小,則可能是主機側或網絡存在問題。

主機是I/O的發起端,I/O特性首先由主機的業務軟件和操作系統軟件和硬件配置等決定。例如,在“服務隊列滿”這一章節介紹的I/O 隊列長度參數(queue_depth),當然,還有許多其他的參數(如:driver 可以向存儲發的最大的 I/O、光纖卡DMA memor區域大小、塊設備併發數、HBA卡併發數)。

若排查完成,性能問題還是存在,則需要對組網及鏈路、存儲側進行性能問題排查。

2、網絡側

當主機側觀察到的時延很大,存儲側的時延較小,且排查主機側無問題時,則性能問題可能出現在鏈路上。

可能的問題有:帶寬達到瓶頸、交換機配置不當、交換機故障、多路徑選路錯誤、線路的電磁干擾、光纖線有損、接口鬆動等。帶寬達到瓶頸、交換機配置不當、多路徑選路錯誤、線路的電磁干擾等。

3、存儲側

如果主機側時延與存儲側時延都很大且相差較小,說明問題可能出現在存儲上。首先需要了解當前存儲側所承載的IO模型、存儲資源配置,並從存儲側收集性能數據,按照I/O路徑進行性能問題的定位。

常見原因如硬盤性能達到上限、鏡像帶寬達到上限、存儲規劃(如條帶過小)、硬盤域和存儲池劃分(例如劃分了低速的磁盤)、thin LUN還是thick LUN、LUN對應的存儲的緩存設置(緩存大小、緩存類型,內存還是SSD)、IO的Qos限制的磁盤IO的帶寬、LUN優先級設置、存儲接口模塊數量過小、RAID劃分(比如RAID10>RAID5>RAID6)、條帶寬度、條帶深度、配置快照、克隆、遠程複製等增值功能拖慢了性能、是否有重構、balancing等操作正在進行、存儲控制器的CPU利用率過高、LUN未格式化完成引起短時的性能問題、cache刷入磁盤的參數(高低水位設置),甚至數據在盤片的中心還是邊緣等等。

具體每個環節 都有一些具體的方法、命令、工具來查看性能表現,這裡不再贅述。

(二)關於低延遲事務、高速交易的應用在IO方面可以有哪些調優思路和建議?

典型問題:關於近期在一些證券行業碰到的低延遲事務、高速交易的應用需求,在IO模型路徑方面可以有哪些可以調優的思路和建議?

對於低延遲事務,可以分析一下業務是否有持久化保存日誌的需要,或者說保存的安全程度有多高,以此來決定採用什麼樣的IO。

1.從業務角度

比如說業務上不需要保存日誌,那就不用寫IO。或者保存級別不高,那就可以只寫一份數據,對於保存級別較高的日誌,一般要雙寫、或多寫。

2.從存儲介質角度

  • 1)可以全部採用SSD

  • 2)或者採用SSD作為存儲的二級緩存(一級緩存是內存)

  • 3)或者存儲服務器裡面採用存儲分級(將熱點數據遷移到SSD、SAS等性能較好的硬盤上)

  • 4)可以採用RAMDISK(內存作為磁盤用)

  • 5)增加LUN所對應的存儲服務器的緩存

3.從配置的角度

普通磁盤存儲的LUN,可以設置合理的RAID模式(比如RAID10)去適應你的業務場景。

分條的深度大於等於一個IO的大小、有足夠的寬度支持併發寫。

4.IO路徑的角度

採用高速的組網技術,而不用iSCSI之類的低速方式。

(三) 網絡IO問題定位思路和方法

與磁盤IO類似,網絡IO同樣需要分段查找和分析。通過網絡抓包和分析的工具,診斷網絡的延時、丟包等異常情況出現在哪一段,然後具體分析。

(四)誤判為IO問題的案例

很多時候,應用響應時間很慢,看似是IO問題,實則不然,這裡舉兩個例子。

1.案例分享:Oracle buffer等待佔總時間的大頭

在一個場景中,oracle的awr報告top10事件的第一名是:buffer busy waits

buffer busy waits是個比較general的等待,是session等待某個buffer引起的,但具體是什麼buffer並不清楚,比如log sync等待也會引起buffer busy wait。這是個連帶指標,分析是暫且不管,需要看看他臨近的問題事件是什麼。

awr報告top10事件的第二名是enq:TX - index contention

這裡的臨近事件就是enq:TX - index contention, index contention常由大量併發INSERT 造成的 index split 引起,也就是說不斷更新索引的過程中,二叉樹不斷長大。需要分裂,分裂的時候,其他session就需要等著。(這裡的分析需要些數據庫知識)

之後的調優過程中,將索引分區,避免競爭。調整後重新測試,Index contention、Bufferbusy wait雙雙從top10事件中消失了

這類數據庫相關的等待事件非常常見,看似是等待IO,實際上是數據庫的規劃設計有問題。

2.案例分享:ping延時間歇性暴增

某業務系統的響應時間很不穩定,該系統有兩類服務器構成,可以簡單理解為A和B,A為客戶端,B為服務端,A處業務的響應時間非常不穩定。

第一步:從各類資源(CPU、內存、網絡IO、磁盤IO)中追查原因。最終發現A與B直接的網絡延時非常不穩定。A ping B,在局域網環境,按理說延時應該是0ms-1ms之間,而我們在業務高峰時發現,隔一小段時間就有100-200ms的延時出現。即使在沒有業務的情況下,ping也30-40ms的延時。

第二步:那麼好,著手定位網絡問題吧。開始排查網路。換A的物理端口、換交換機、換網線、換對端的物理端口等等一系列措施之後,發現問題依然存在。

第三步:採用網絡探測設備,從交換機兩側端口抓包,分析一個tcp連接的建立過程時間消耗在哪裡。分析後發現,200ms的延時,都是在B測。即一個tcp連接建立過程在A側和交換機側幾乎沒有什麼時間消耗。

第四步:B側多臺分區共用一個物理機。猜測是否是分區過多導致。當只有一個LPAR啟動的時候,沒有ping的延時,當啟動一部分LPAR時候,延時較小,當所有LPAR均啟動,ping 延時較大。

問題根本原因:此時,問題水落石出,原來是由於分區過多導致了B回覆A的ping有了延時。那麼為什麼會出現這種情況呢?一個物理機上CPU資源是有限的(本環境中是3顆),即使只有一個LPAR,其上面的N個進程也會去輪流使用CPU,何況此時是M臺LPAR,MN個進程去輪流使用這三個CPU,當然調度算法並不是這麼簡單,這裡僅僅是從理論上做個說明。

假設每個CPU時間片是10ms,那麼極端情況下,一個進程要等到CPU需要等待(MN-1)*10(ms)/3。

況且,這麼多LPAR的進程輪詢一遍CPU,CPU裡面的cache 數據估計早就被擠走了,重新加載是比較耗時的。

應對方法:之前LPAR也設置了保障的CPU(MIPS數量的保障),但只有數量沒有質量(上述提到的CPU cache問題,即親和性問題)

應對方法是將重要的LPAR分配dedicated CPU,保證CPU資源的質量,保證輪詢CPU的客戶儘量少,這樣CPU cache中的數據儘量不被清走。經驗證,ping延時基本消失,方法有效。

本案例是一起看似是網絡問題,但實際是資源調度方式的問題。

順便提一句,很多情況下,客戶端的響應時間不穩定都是由服務器端的服務能力不穩定造成的。一般情況下都是應用、數據庫的問題造成。而本案例是操作系統層面答覆ping出現間歇性延時,很容易誤導我們的分析判斷。

本文作者:楊建旭,現任中國人民銀行清算總中心性能測試團隊負責人,高級技術經理。曾就職於VIA(中國)、VMware(中國),有多個主流操作系統平臺的開發經驗,並在自動化測試、性能測試方面有深入的研究,對銀行業系統(z/OS、AIX、DB2、Oracle、WAS、MQ等),尤其是虛擬化趨勢下銀行業系統的性能測試、問題分析、性能調優有豐富的經驗。

歡迎在留言區留下你的觀點,一起討論提高。如果今天的文章讓你有新的啟發,學習能力的提升上有新的認識,歡迎轉發分享給更多人。

歡迎各位讀者加入程序員小樂技術群,在公眾號後臺回覆“加群”或者“學習”即可。

猜你還想看

阿里、騰訊、百度、華為、京東最新面試題彙集

手動模擬JDK動態代理

這場世界互聯網大會饕餮盛宴,大佬們都說了啥?

Web 開發中,什麼級別才算是高併發

關注微信公眾號「程序員小樂」,收看更多精彩內容

嘿,你在看嗎?


分享到:


相關文章: