OneAPM 助力網上辦事大廳構建陽光、高效、安全的政務服務平臺

(一) 項目背景:

網上辦事大廳是由省信息中心承建的電子政務核心業務系統,致力於為全省民眾提供一站式網上辦事服務,實現了政務信息網上公開、法人及個人事項網上辦理、公共決策網上互動、政府效能網上監督五大功能。目前大廳已進駐省級部門57個,市縣部門6318個,提供電腦版和智能終端版訪問服務。

隨著電子政務的推進,網上辦事大廳所涉及的系統規模不斷擴大,數量日益增多,業務持續增長,再加上運維團隊缺少了有效的管理和防護手段,平臺管理和信息安全問題日漸凸現。

在國家對電子政務信息系統安全保障工作的要求以及等級化保護“堅持積極防禦、綜合防範”的方針指導下,急需建設一套完備的安全管理服務體系,加強運行環境監控、應用性能管理和安全防護體系的建設,從不同維度監控網辦平臺的可用性和性能,進而保證系統安全高效的運行,實現省網上辦事大廳和政府服務的信息化、智能化。

(二) 用戶反饋:

OneAPM 幫我們打造了一個五維的安全運行監控平臺和體系,從發現問題,通知問題,定位問題,解決問題,到歸納問題。過去都是系統出現問題,我們被動告知,還需要花大量時間定位問題根源,並進行修復。通過這個平臺我們能更加直觀、主動的發現系統潛藏的問題,有效預防風險,極大的提升了運維效率,降低了管理成本,也給民眾帶來了更加滿意的使用體驗。

(三) OneAPM 解決方案:

基於 OneAPM 基礎資源管理 Infrastructure Insight、應用性能管理 APM、模擬撥測 Cloud Test、實時應用安全防護 RASP 四大核心產品能力構建的一體化運維管理平臺,從全面監測、準確預警、快速診斷、輔助優化,到指導評估,建立起一套完善的安全可靠運行保障體系。

OneAPM 助力網上辦事大廳構建陽光、高效、安全的政務服務平臺

全面監測,及時發現平臺風險,故障主動發現率提升至85%

在 OneAPM 一體化運維管理平臺上線前,整個網上辦事大廳涉及的 IT 資源由8名運維工程師通過幾個開源工具進行日常運維,常常是最終用戶發現並反饋網辦大廳系統問題之後才開始著手處理,運維工程師80%以上的時間都在“救火”。這樣的運維方式既被動,又效率低下,造成用戶滿意度較差。OneAPM 一體化運維管理平臺,提供了主動和被動兩種監測手段,及時發現網辦平臺的運行風險。Cloud Test 是一個應用系統可用性及性能主動監測方案,通過遍佈全省的訪問監測點,7X24小時不間斷模擬網辦平臺的業務訪問,詳盡瞭解網辦平臺業務的性能和可用性,在最終用戶訪問體驗受影響之前提前發現系統性能問題。Infrastructure Insight 和 APM 是一個應用系統可用性及性能被動監測方案,從運行環境和用戶體驗兩個角度,監測應用系統運行態的可用性、健康度、性能和安全性,監測指標覆蓋信息中心的服務器、網絡、操作系統、數據庫、中間件、應用系統、瀏覽器和手機 APP,以及應用中所存在的各類安全攻擊手段,實時監測系統性能、系統故障,以及安全攻擊行為。這兩種手段相輔相成,構建了一個對網辦平臺所有 IT 資源進行全面主動監測的日常工作環境,幫助運維工程師對系統狀態做到心中有數,對突發故障做到胸有成竹。

準確預警,第一時間反饋風險至責任人,告警準確送達率88%

由於開源工具只提供服務器、網絡、操作系統、數據庫、中間件等基礎資源的實時性能數據查看功能,缺少告警模塊,運維人員無法在第一時間獲得準確的系統異常信息。OneAPM 一體化運維管理平臺結合網辦平臺等保三級以及日常管理的相關指導文件和相關規範,主動定義各類關鍵性能指標的最佳預警閾值,第一時間定位系統性能問題。對於一些有著時間週期特性的性能指標,通過動態基線算法自動擬合預警閾值,在減少告警配置工作量的同時,進一步提升了告警的準確度。運維管理平臺提供的郵件、短信、微信等多種告警方式,快速、準確通知到相關責任人,實現被動管理到主動管理的跨越。同時,運維管理平臺通過採用模擬的手段 Cloud Test,對網辦平臺可用性進行定期的訪問和監測,確保系統能夠有效運行,在出現故障時第一時間進行通知和預警。

快速診斷,精準分析定位故障根因,平均故障檢測時間 MTTD 縮減到原來的四分之一

作為一個運維管理平臺僅僅只提供資源的指標監控和告警是不夠的。監控的範圍越廣,監控的指標越多,系統產生的告警也就越多,運維工程師去甄別告警真偽和根因的時間也就越長。這反而不利於故障的分析和定位。如何幫助運維工程師快速識別和精準分析故障根因,也就成為了體現運維管理平臺價值的關鍵之一。

OneAPM 一體化運維管理平臺中的 APM 產品以真實的用戶體驗和端到端應用性能為切入點,顛覆傳統運維監控方案,實現自上而下的 IT 管理新模式。一體化運維管理平臺提供了對前端瀏覽器、應用性能、中間件性能、數據庫性能、主機性能的自動關聯和分析,幫助運維工程師快速識別、定位網辦平臺的性能瓶頸和可用性問題。同時,運維管理平臺通過自動學習能力,識別、記錄業務交易的類型,業務代碼類執行的效率及業務性能匹配模式,輔助運維工程師從代碼類、參數到數據庫語句,進行完整交易鏈的性能診斷和故障定位,將平均故障檢測時間從原來的4小時縮減到1小時。

輔助優化,專業化問題處置建議,平均故障恢復時間MTTR縮短一半

專業化的故障處置建議是縮短平均故障恢復時間的關鍵。不論是服務器和操作系統的配置參數調整,網絡的設置調整,中間件和數據庫的配置優化,還是應用系統的代碼修改,都提升網辦平臺處理性能的重要手段。

OneAPM 一體化運維管理平臺提供了以一星期為週期的系統性能診斷和優化建議報告,通過對應用系統關鍵性能指標和參數的詳細分析,給出量化的評估效果,並提供系統優化建議,包括應用系統代碼優化、數據庫性能優化、中間件性能優化、操作系統性能優化等,指導運維工程師與研發工程師快速對網辦平臺性能瓶頸做出響應。運維管理平臺還能提供實時故障處理建議,針對告警詳細信息,結合過往運維經驗,提供處置方案,方便運維工程師及時對系統故障進行判斷和處理。

指導評估,總結沉澱運維經驗,提供決策數據支持

通過充分挖掘監控數據的可用性,OneAPM 一體化運維管理平臺建立了一套多數據源、多用戶視角、沉澱專家經驗的運行環境分析評估體系。通過各個維度的分析報表,建立面向客戶感知的、面向業務體驗的、面向運行質量,圍繞性能、故障、考核主題的管理分析能力。幫助運維工程師主動分析系統性能、容量,預測問題,為“決策層、管理層、執行層”人員提供決策支持。

國內 ITOM 管理平臺 OneAPM 致力於幫助企業用戶提供全棧式的性能管理以及 IT 運維管理服務,通過一個探針就能夠完成日誌分析、安全防護、APM 基礎組件監控、集成報警以及大數據分析等功能。想閱讀更多優秀文章,請訪問 OneAPM 官方技術博客

來源:http://blog.oneapm.com/casestudy/821.html


分享到:


相關文章: