智能監控最前沿!騰訊百萬指標的無閾值檢測算法即將開源

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

智能運維時代來臨,AIOps 來了,什麼?!你還在為不懂算法而發愁?

別焦慮,為了讓廣大運維同仁能夠儘快步入 AIOps 的技術殿堂,降低實施 AIOps 的技術門檻,騰訊織雲團隊即將開源運維學件!

ps: 學件由南京大學周志華教授提出,運維學件由騰訊 SNG 趙建春先生提出並率先開源,雲計算開源產業聯盟和高效運維社區榮譽共同推廣。

經過騰訊 SNG 運維團隊悉心打磨,使用超百萬的監控指標訓練,騰訊無閾值檢測算法即將在 10 月的 OSCAR 開源先鋒日對外開源。

有了運維學件的支持,即使沒有算法專家,也能實施 AIOps!

關於足以讓天下運維熱血沸騰的運維學件,請參見由由騰訊SNG 趙建春先生及運維團隊提供的如下內容。

大家開始接觸 AIOps 後,會遇到很多問題,例如,運維團隊缺乏算法專家、希望學習他人的算法模型和原理,以及,提供算法和使用算法的一方,因為數據安全的考慮,都不願意提供數據。這樣不利於運維同行之間對 AIOps 算法的學習和交流。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

對於傳統的運維工具開發而言,我們可以通過提供 API 的方式,把功能的邏輯開放給對方,從而實現技術分享。

但是在 AIOps 領域的算法和模型,其實是一組帶有記憶能力的 API,這個記憶能力是對數據有依賴的,從不同的數據樣本中統計學習而來。同時在運維環境裡不斷地持續積累數據,可能會有新的案例產生。

因此,這個模型時刻地在變,它非常的複雜,它可能是決策樹的決策路徑、迴歸參數或神經網絡的網絡結構及路徑權重。

因為它的各種的算法,決策算的神經網絡的結構,以及他的權重,或者是迴歸參數相當複雜,這個不是人編寫出來的,所以就難理解。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

從 API 到學件

所以,在 AIOps 時代,我們可以來一個從 API 到學件的轉變,“學件”概念是南京大學的周志華老師提出來的,他是國內 AI 領域的泰斗級的人物,他提出學件是通過數據可以不斷地學習,隨著數據的不斷地加入會更好,另外它的算法是公開的,你也可以瞭解它是怎麼實現的。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

你也可以把學件拿來用,通過基於騰訊監控數據訓練好模型,導入自己的監控數據來實施 AIOps。這樣操作沒有涉及騰訊數據的洩漏或其他安全問題。

你可以用自己的數據重新去訓練改進適應自己環境的模型,所以學件是可演進的。算法也是公開可瞭解的,拿來可以重用,來解決運維場景實施 AIOps 的難題。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

前一段時間和業界同仁一起編寫了 AIOps 白皮書的一個能力框架。

我們大體的想法就是說最底層就是各種的機器學習算法,這個算法和運維的實際環境場景結合起來,通過訓練一些單個的 AIOps 學件,單點場景也可以解決問題,之後把單點學件串聯起來組成 AIOps 的串聯應用場景,最終就可以形成一個智能調度的模型,去解決運維環節的成本、質量、效率等運維關心的問題。

織雲團隊跟高效運維社區做了一些實踐和理論方面的探索和嘗試,今天也希望通過這幾個單點的串聯質量效率這些緯度跟大家分享一下。

關於學件的實踐案例分享

1)單點案例:成本 - 內存存儲智能降冷

單點第一個是成本,就是內存存儲智能降冷,因為我們是社交網絡業務,用戶規模大,又有大量的訪問,業務開發團隊喜歡用內存型的 KV 存儲。

上線的時候,請求量可能很高,但是隨著時間的推移,業務的數據量不斷地增長,訪問密度反而在下降,對運營成本造成很大的壓力。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

那大家會想到降冷,但是降冷之前大家都熟悉就是利用數據的最晚使用時間按規則處理,但是這個你想想其實只有一個指標,這個數據的最後使用時間,作為特徵去分析,其實遠遠不夠的。

我們對每一類數據做了非常多的特徵的抽樣提取,有幾十個特徵,如週期的熱度變化這些,就是如圖上這些,還有一些沒有寫出來的。

然後,運維人員根據的經驗,因為他們有豐富的手工處理的經驗沉澱,哪些數據條目是可以降冷的,把這些數據標註之後,用邏輯迴歸和隨機森林,去學習和訓練,其實就是做分類,機器學習絕大部分都是做分類。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

做一個分類之後,上面是 LR 和邏輯的迴歸,下面是隨機森林。那在隨機森林,在30 棵樹的時候效果最好,因為隨機森林本來就是一個 bagging 的方法,對穩定性效果有提高。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

最終的效果就是說,我們把數據進行了降冷下沉,把接近 90% 的數據,從 SSD 下沉到硬盤上,同時業務的訪問量並沒有下降,SSD 數據沒有造成訪問壓力,可以看到下沉和下降是非常精準的。

而且這裡面的數據延遲和成功率幾乎沒有變化,其實之前的同事通過人工的設置做下沉的設置,其實效率是非常的低,這個模塊提升了 8 到 10 倍的下沉效率,這第一個案例是關於成本的。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

2)單點案例:質量 — 統一監控去閾值

質量,大家可以看到統一監控去閾值是很有意義的一件事情。監控有兩種情況,一種是成功率的監控,它應該是一個直線,正常應該在 100% 左右,但它會往下掉。

第二個就是類似於一個累計性的曲線,或者 CPU 的曲線,這個曲線監控其實是非常的千變萬化的。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

之前我們可能是通過設置閾值的方法,最大值最小值,閾值設置這樣的方式,去設置告警。

這個曲線一直在變化,最大值和最小值也一直在變化,然後他的形式也非常的多變,也很難去設置這樣的東西。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

我們做了兩種方式。第一個是成功率的方式,我們使用了 3sigma 方式,來自於工業界,是來控制產品的次品率的,如果是 3sigma 是 99.7% 是正品,其實用這個方式我們統計出來的告警裡面,超過正常值範圍裡面的多少多我們認為是多少個次品,把它找出來。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

第二步用孤立森林,就是長的相似的一類的東西,是比較難分類的,要通過很多步才可以去到葉子節點上,所以看到這個 Gap,這一塊就是說在比較淺的葉子的節點,就是異常的節點。

我們通過第一步統計的方式,第二步的無監督方式找到一場。目前最後一步我們還是加了一些規則,讓告警更可靠。這個規則其實就是看到我在什麼時候告警和恢復,這樣一個邏輯既然是一個規則,在未來我們會進一步做一個 AI 化的改造。

那對於這個曲線型的監控,目前我們就是因為曲線不是屬於正態分佈的,一個曲線是一個曲線,所以極差很大。我們把它做了一個分段的 3sigma,就是一個小時一個段,對過去 7 天進行一個採樣。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

還有曲線我們可以用多項式去擬合這個曲線,我們用 3sigma、統計方法、多項式擬合幾種方法作為第一步,就是相當於推薦系統裡的多路召回。

第二步依然就是孤立的森林,和前面講的原理一致。

第三步就是有監督的人工標註,就是圖上畫圈的有些告警有一些不應該告警的標註,標註訓練集後去訓練自動地分類。

為了獲得更多的樣本庫,同事們用這個叫相關係數的協方差算法,尋找更多的樣本庫。大家可以關注一下,就是說去找一些相似的曲線,對訓練不好的模型,就再進行打包去訓練。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

總的方式,通過三級的過濾找到異常的告警。

我們有十萬多臺設備,超過 120 萬個監控視圖,其實之前我們 70% 以上都沒有設告警,因為很難每個都設一個最高值最低值,所以說目前就把這些模塊都納入到這個監控裡面去,百分之百覆蓋,這是一個監控區域值,去設置的一個案例。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

重磅:運維學件即將開源

10月20日、騰訊織雲基於多年運維內部場景整合的 AIOps 利器 Metis 開源項目即將正式發佈。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

Metis 這個名字取自希臘神話中的智慧女神墨提斯(Metis),它是一系列智能運維的應用實踐集合。騰訊織雲 Metis 團隊通過開源項目 Metis 打造智能運維的學件平臺。

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

本次率先開源的時間序列異常檢測學件,是從無監督+有監督學習的角度來解決時序數據的智能檢測問題。時間序列異常檢測學件是通過學習織雲海量的時間序列樣本,訓練出一套智能檢測模型,然後利用無監督和監督算法對時間序列進行智能檢測。

通過 Metis, 運維人員無需再去設置監控閾值,通過算法輸出模型,對異常情況能做智能判斷。這種無閾值檢測方式能夠減少傳統檢測方式的閾值維護成本,更高效的保障規模不斷壯大的業務。

同時,Metis 經過織雲海量業務樣本訓練而成的模型多元化,複用性高。不僅如此,Metis 還能根據個性業務場景生成新的測試模型,滿足多種業務需求。

Metis 將在 10月 20 舉行的【OSCAR 開源先鋒日】全球首發,大會現場將分享更多織雲 Metis 的技術優勢,應用場景,以及未來規劃。期待您的到來。

不僅如此

如果您也熱愛開源

如果您想跟隨開源先鋒企業的步伐

如果您想了解 AIOps、微服務等最新開源項目

請不要錯過以下社區福利

活動福利

智能监控最前沿!腾讯百万指标的无阈值检测算法即将开源

【OSCAR 開源先鋒日】由中國信息通信研究院主辦,雲計算標準與開源推進委員會、清華大學TUNA協會、北京大學開源軟件協會承辦,由雲計算開源產業聯盟、華為、騰訊、阿里、小米支持,高效運維社區協辦。

關於運維學件,

您有哪些期待和建議?

請掃碼入群

如群滿,請和你的社區對接人聯繫

或加劉策以入群,微信:13466357421

劃重點!!

社區福利來啦!!

原價199元的大會門票

限時限量,僅需12元

盛典地點:

北京泰富酒店(學院路旁)

北京海淀區北京市海淀區西土城路1號院1號樓

↙↙↙點擊“閱讀原文”,即可特惠報名參會(手慢無)


分享到:


相關文章: