疫情期間妙用NPM,未覆蓋監控的業務也能高效排障

疫情期間妙用NPM,未覆蓋監控的業務也能高效排障


2020年3月3日下午,天旦資深技術顧問An Ran在線與大家分享了《疫情期間,網絡性能管理如何開展》,針對疫情期間網絡運維面臨的難題給出瞭解答。


關於疫情期間網絡運維面臨的困難,研討會上分享的一個案例可謂相當典型:


2020年2月21日10:35,某城商行二代徵信系統出現問題,需要通過NPM協助進行分析,但是當時該業務還沒有被天旦NPM產品覆蓋,所以無法直接進行分析。情急之下,客戶找到天旦尋求協助。


10:40 天旦技術人員與客戶取得聯繫,考慮到疫情期間不便外出,協商後決定先通過提取問題數據包的方式,遠程協助進行故障分析,若問題還未解決,再安排人員到現場支援


11:17 天旦技術人員收到了用戶提取的IP+Port問題數據包,在NPM試驗環境中進行回溯分析


11:58 天旦技術人員通過NPM完成數據分析,發現服務側有大量HTTP 502報錯信息


12:00 天旦技術人員將分析結果告知客戶,提示需要應用人員進行處理


13:00 得到客戶反饋,應用人員處理後問題解決


案例中,NPM除了能夠助力快速進行故障分析外,還有一點值得注意,那就是數據的提取。雖然NPM未覆蓋的業務無法直接進行故障分析,但是其數據抓取功能依然能夠發揮作用,通過數據包的提取,還原故障形成過程,從而進行故障的回溯分析。該客戶就是通過NPM的數據抓取功能,快速提取出了需要的問題數據。為後續進一步故障分析提供了條件。


這個案例也從側面反應出,遠程辦公、輪班模式下,運維人員和廠商人員無法及時到場支持,網絡運維需要更智能、易用的監控工具,助力提高發現問題、解決問題的效率。


疫情期間,尤其是《關於進一步強化金融支持防控新型冠狀病毒感染肺炎疫情的通知》發佈後,金融部門的業務出現大量變更、擴容以及新業務上線。例如手機網銀、信貸業務增加,新增綠色通道,導致系統變更;股票期貨交易量激增,保險新增線上業務等。


這對網絡性能監控提出了新的覆蓋需求,例如:

鏈路監控:

疫情期間,業務量增大,原有鏈路帶寬利用率過高,對新增擴容鏈路進行監控,如券商公網接口鏈路、銀行高負載業務鏈路。


設備監控:

疫情期間,多采用遠程辦公,對辦公設備進行監控,如VPN網關、郵件服務器、AAA服務器。


服務監控:

疫情期間,對新增業務進行監控,如保險公司臨時線上產品;加強監控產生系統變更的業務,如銀行“綠色通道”。


疫情前後對比分析:

對比分析疫情期間、疫情緩解期間、疫情消除幾個不同階段重要鏈路的帶寬利用率情況,重要業務的性能指標情況,如“綠色通道”導致系統變更的業務。


針對疫情期間這些新的監控需求,天旦技術顧問也從NPM實際應用出發,給出了對應解答。如果您想了解本期研討會更多精彩內容及NPM排障案例,可以點擊下方

“瞭解更多”進入天旦官網,觀看錄播視頻、下載PPT課件。


分享到:


相關文章: