華青融天告警的藝術,結束“狼來了”的困境

《狼來了》的故事家喻戶曉,頻繁發送錯誤信息就會失去人們的信任,“重點論”也曾提到:

重點太多,就無所謂重點

基於某種特徵值設置告警條件,我們已經司空見慣。例如:關注某App的成功率,就設置“成功率低於98%即發出告警”,每分鐘5000筆的業務高峰期失敗10筆都不會觸發告警。但在業務低峰期,在總共5筆的交易中失敗1筆,即可讓“成功率低於90%發出告警”。

在類似情況下,單一條件的告警會讓運維人員盲顧不暇,甚至無法抉擇,日積月累就像“狼來了”一樣,讓真正的問題告警埋沒其中。

作為IT運維中不可或缺的一環,告警的準確性直接決定其他功能是否能夠及時生效,起到畫龍點睛的作用。如何幫助運維人員更加精準的發現問題,做到正確和高效,不僅僅是一門科學,更是一門藝術。

新運維環境的需求

現有的運維環境對告警規則的制定、配置工作的流程都提出了更高的需求:

  • 能儘可能貼近真實情況
  • 能適應各種場景
  • 能簡單配置,自適應性強

EZSonar 複合告警快速發現故障 適應複雜的運維場景

華青融天的AIOps產品EZSonar是新一代業務動態可視化運維產品,具備主動性、靈活性、智能性的能力,通過機器學習的方式實現異常檢測、故障分析、故障關聯和精準告警。

1.複合告警

運維人員可以同時設置在每分鐘交易量大於1000筆/s、響應時間大於100ms、成功率小於95%時產生告警,這樣告警設置更加靈活,符合實際需求,避免誤報,同時可以讓其在工作時間段內生效。

華青融天告警的藝術,結束“狼來了”的困境

2.動態基線

EZSonar的複合告警就是為應對實際業務中複雜多變的環境而生的,它為業務設置動態基線,允許把多種告警和指標進行復合,同時滿足多條規則時才會觸發告警,擺脫無法設置靜態告警的困境。

3.複合關聯告警

高可用水平擴展架構已成為業界標配,一個App由3臺服務器集群組成,前端用基於連接或應用層信息的數據包做負載均衡分發。

華青融天告警的藝術,結束“狼來了”的困境

那麼,拿單一或多個不關聯的指標該如何衡量數據進出負載均衡指標的變化?負載均衡造成的交易丟失或延遲又該如何告警?

華青融天憑藉豐富的客戶經驗,為使用者提供檢測進出設備指標變化的方式,同時EZSonar可以:

  • 關聯節點前後兩組會話,定義進出負載均衡的響應時間差
  • 允許設置多條線路會話,按比例分配或彙總計算的方式進行精準告警,以此評估負載均衡設備是否產生偏差

EZSonar 簡單的配置方法 給精準告警帶來可行性

根據業務的特點,總有一部分系統運行無法準確找到其規律或特徵。EZSonar通過機器學習發現業務的規律進而自動生成告警規則,有效的幫助運維人員從運維數據中瞭解系統的運行狀態,分析定位故障,實時獲取統計數據。

告警規則越細,其反映業務真實問題的準確度就越高,同時顆粒度越細意味著工作量越大。

例如對於一款擁有1000種交易參數的App,傳統規則只能挑少數的幾種到幾十種情況進行告警。如果該App有上千個業務節點該怎麼辦?如果它的參數數量實時變化又該如何?

對此,EZSonar告警設置只需制定一條規則,便可自動適應參數的無窮變化,無需任何人工干預。通過簡化的配置方法給精準告警帶來了可行性,更重要的是,它的全覆蓋告警可以發現出現概率小但重要性很高的事件。

華青融天告警的藝術,結束“狼來了”的困境

在IT系統和信息架構規模不斷擴大的今天,人工分析定位的運維方式已很難適應快速增長的業務需求。而通過採集當前環境中的運維數據,EZSonar利用複合告警分析,對IT系統中各個環節的問題進行快速定位、故障排除和預測,為業務穩定、高效運行保駕護航。

華青融天EZSonar為精細化告警賦予了全新定義,高效捕捉“那匹真正的狼”。


分享到:


相關文章: