做好證券業務性能監控都有哪些難點?該如何應對?


隨著中國資本市場的繁榮發展,證券交易系統面臨著多重壓力,如交易短時間突發,交易量持續增長、業務種類增加等。同時,站在“十三五”規劃的收官之年,券商過去定下的發展目標也將進入大考驗收階段。在此背景下,證券行業需要智能高效的運維監控手段,以更好地面對來自內外部的挑戰。希望這份來自天旦的證券端到端全鏈路業務性能監控解決方案,能夠為券商業務運維者提升運維效率提供一些借鑑和經驗。


挑戰一:採集數據難


精準的性能監控建立在對可靠數據讀取分析基礎之上。因此,性能監控的第一步就是要採集全量可靠的數據。但由於證券集中交易系統的業務和結構特性,傳統的日誌、Agent等方式在某些節點無法採集到相關數據,因此也就無法對這些節點進行有效監控。這也是我們通常所說的監控盲點。

做好證券業務性能監控都有哪些難點?該如何應對?

比如,通訊服務器KCXP作為通訊中間件,數據在這個節點並沒有落地,導致日誌等監控方式無法在這個節點採集到每一筆交易的細節數據。再比如,極速交易系統為了追求性能最大化通常不會開啟日誌功能,也就無日誌可讀。


天旦解決方案:網絡鏡像,沒有日誌、不裝Agent也能獲取全量交易數據


做好證券業務性能監控都有哪些難點?該如何應對?

天旦通過在交換機上做網絡鏡像的方式,無需安裝Agent或對業務進行改造,即可零風險實時採集全量的交易數據,全面覆蓋過去無法採集數據的各個節點,實現對證券交易系統的端到端全鏈路業務性能監控。


挑戰二:數據分析難


當採集到全量的數據後,就需要對這些數據進行分析,以瞭解業務運行的狀態。但通過網絡鏡像採集的原始網絡流量以二進制方式呈現,對於一般人來說猶如天書,即使專業人士讀取分析起來也相當費時費力。


網絡數據的解讀取分析一是要準確,這樣才能瞭解系統運行全面、真實的狀態,二是要快速,這樣才能瞭解系統實時運行狀態,並在出現問題時能夠第一時間感知問題、定位問題,以為後續排障提供有效指引和依據。


天旦解決方案:高效智能解碼引擎,將複雜的網絡數據變成統一視角的業務數據


做好證券業務性能監控都有哪些難點?該如何應對?

在BPC可視化的應用協議解碼界面上,只需上傳網絡流量包樣本,系統即可自動檢測/解碼配置,對各字段進行統計,從原始網絡流量數據中解碼出具體的交易記錄。同時,BPC還支持傳統環境、虛擬環境、雲環境等各種複雜環境,將不同環境、不同業務節點採集的各類數據轉化成統一性能指標口徑、從業務視角出發的易讀數據。

做好證券業務性能監控都有哪些難點?該如何應對?

目前,天旦BPC可實現快速適配金證、恆生等券商交易系統協議解碼;以及HTTP、XML、JSON等通用協議解碼。同時,基於高速應用層協議解碼引擎,單臺服務器支持1萬TPS在線解碼能力。


挑戰三:精準告警難


即使做好了數據的採集和解碼分析,想要實現對證券各大交易系統的精準監控也是不易的。系統交易數據那麼多,該重點關注哪些維度?面對各類數據的變化,哪些浮動是正常情況?哪些需要持續觀察?哪些是緊急情況需要立刻處理?


精準的告警設置能夠幫助我們第一時間發現問題,並按照優先級順序高效處理問題;但若是告警條件設置不準,就會出現誤告頻發,最終將真正需要處理的問題埋沒在一片“狼來了”之聲中。


天旦解決方案:深刻理解證券業務特點,五大場景化告警覆蓋常見故障


做好證券業務性能監控都有哪些難點?該如何應對?


基於性能監控領域15年專注積累,以及華泰、中泰、中信、光大、招商等行業領先券商多年服務經驗,天旦BPC對性能監控中需要關注的交易量、延遲、成功率、響應率等指標進行彙總提煉,總結為可以覆蓋常見故障情況的五大場景化告警並內置於監控系統之中,通過簡單設置即可對證券交易系統各節點進行精準監控。同時,BPC還可以利用歷史數據進行告警模擬,幫助管理員快速找到精準告警基線。


例如,“致命返回碼類”問題導致無法委託,直接影響客戶經紀業務,當這類返回碼出現就要在第一時間處理。天旦BPC中對證券交易常見的致命返回碼進行了彙總與告警設置,一旦出現致命返回碼,即刻告警通知系統管理員。


挑戰四:故障定位難


過去,當系統發生故障,排障人員需要通過讀取大量數據資料來判斷故障的位置、可能原因,診斷問題難度大、效率低。同時,由於缺乏數據作為充分依據,在面對各類問題時,業務運維人員也相當被動。例如,當客戶投訴交易慢,由於缺乏查詢手段,無法瞭解無法得知是否真的存在問題,以及問題具體是出在哪個環節。


天旦解決方案:可視化告警定位、自動化故障分析、單筆交易追蹤,智能化技術讓排障更高效


做好證券業務性能監控都有哪些難點?該如何應對?

通過監控視圖實時監控,可以直觀地看到每個應用組件的應用層指標,例如交易量、平均響應時間、交易成功率等,一旦某個系統組件發生問題,就可以快速告警,並自動定位到具體的故障環節。


定位故障後,運維人員可以在多維統計頁面針對故障環節層層向下鑽取。快速定位問題發生的具體交易環節。同時,系統還會自動保存原始交易明細、網絡報文,供技術專家深入挖掘分析使用。

做好證券業務性能監控都有哪些難點?該如何應對?

例如,針對上文提到的客戶投訴問題,基於BPC的單筆交易追蹤功能,可以通過股東代碼、資金賬戶、客戶代碼、合同序號等維度,查詢投訴客戶該時間段內的所有操作,瞭解每一步操作,核實是否真的存在交易響應慢的問題。如果問題確實存在,則通過多維統計逐步下鑽,快速定位問題並排除。


做好證券業務性能監控都有哪些難點?該如何應對?

另外,需要強調的是,通過BPC還可以實現單筆交易多段關聯,該功能特別適用於分析性能瓶頸,幫助系統管理員找出究竟是哪些組件拖長了交易時間,從而實現對系統的持續優化。

如何您想了解天旦“證券行業端到端全鏈路監控解決方案”的更多詳細內容,可以

點擊「瞭解更多」觀看天旦資深技術顧問對方案詳情的解析視頻,下載PPT資料。


分享到:


相關文章: