某保險公司“開門紅”活動期間,因網絡慢最終導致服務器崩潰!

某保險公司有一次“開門紅”活動中,發生了因為網絡慢問題導致服務器最終宕機的情況。事情的經過是這樣的(以下為直播文字實錄):

某次開門紅活動的晚上,我接到運維人員的電話說weblogic中間件宕機了,重啟也解決不了,讓我幫忙想想辦法。當時首先想到的是從應用層面去排查問題,結果發現中間件本身一切正常,沒有發現任何問題。所以只能用最笨的方法,順著訪問路徑一級級往前排查:

某保險公司“開門紅”活動期間,因網絡慢最終導致服務器崩潰!

◎排查中發現了一個異常情況,那就是整個系統的訪問量巨大;

◎往前推發現,web服務器也接受了很多請求;

◎再往前發現,互聯網帶寬被佔得很滿;

◎當時第一反應是想是不是發生攻擊了?然後逐步排查防火牆、IPS等安全設備,發現也沒有問題;

◎沒有頭緒之下,只好又重新把日誌全部看了一遍,發現在所有訪問中,“提交”這個環節的操作佔比過高,遠超出正常佔比水平;

◎抽查部分用戶訪問記錄後,最終找到了問題


問題分析:

1、網絡沒有規劃好,帶寬相對不足

2、正值運營商業務高峰期,導致網絡較平時要慢

3、由於網絡較慢,保險經紀人提交訂單不會立即顯示成功,此時用戶往往會重複點擊提交,導致一份保單重複提交多次,最終拖垮了服務器


總結:

一個看似簡單的網絡慢問題,最終呈現的故障狀態卻是服務器宕機。這是通常情況下很少遇見的,也給運維排障工作帶來較大挑戰。而之所以會出現這種情況,是因為“開門紅”等特大營銷活動具有用戶量巨、大交易額巨、大領導更關注等特點,當量的改變足夠大,往往會帶來質的變化。


例如,在用戶量正常情況下(例如100個),可能5%的用戶(5個)出問題,影響也不會太大。但是用戶量巨大的情況下(例如10000個),哪怕1%的用戶(100個)出現問題,影響也是巨大的。

就像上文案例中,應用層面出現問題,但根源卻在網絡層面。可見,想要做好“開門紅”等特大營銷活動的保障,光靠某個部門單兵作戰是無法實現的,需要網絡、業務等運維各部門從各自保障環節出發,通力合作,才能從整體上保障活動期間系統的穩定運行。

以上是2020年3月24日下午,在線研討會《如何應對保險特大營銷活動帶來的運維挑戰》部分內容,天旦資深技術顧問Angu Gao針對保險“開門紅”等特大營銷活動中,運維部門面臨的挑戰及對應解決方案展開了分享。作為擁有12年+大型保險公司運維項目管理和實施經驗的資深技術顧問,Angu Gao曾連續多年服務太平洋保險、太平人壽、天安財險、大地保險等多家大型保險公司,也多次親身經歷保險業的“開門紅”等特大營銷活動。


假設,保險公司特大營銷活動正在火熱進行中,突然接到分公司用戶反饋“網絡慢”,運維各部門該從何處入手開始檢查呢?對於網絡運維和應用運維而言,有沒有更加高效的故障定位和排查手段呢?

點擊「瞭解更多」觀看直播回放,瞭解保險運維保障更多精彩內容


分享到:


相關文章: