12.22 人工智能算法實現系統異常指標監控

業務背景

用戶系統中如果出現任何的異常數據,比如一個運維繫統的CPU消耗突然增高,比如平臺突然有大量不良信息產生,比如有用戶大量薅羊毛,這些行為都是平臺的異常指標。如果能通過機器學習的方式幫助用戶針對各種異常指標做預防和實時預警,將大大建設平臺方的風險。

業務痛點

缺乏一種實時高效的方式監控平臺指標,增強平臺的智能化安全防衛能力。

解決方案

PAI平臺提供了一套基於指標監控的分類算法,可以把異常指標監控抽象為一個二分類場景,並且把監控模型部署到在線系統實時調用,實現近線風控。

1.人力要求:需要懂機器學習經典算法特別是特徵工程以及二分類算法的同學

2.開發週期:1-2天

3.數據要求:已經達標過的數據上千條,標記出哪些數據是異常數據,哪些是非異常數據

數據說明

文案例使用的數據是一份系統級別監控日誌數據,一共22544條數據,其中異常數據9711條。

人工智能算法實現系統異常指標監控

數據說明:

參數名稱參數描述protocol_type網絡連接協議,有tcp、icmp、udp等service服務協議,有http、finger、pop、private、smtp等flageSF、RSTO、REJa2~a38不同的一些系統指標class標籤字段,其中normal為正常樣本,anomaly為異常樣本

流程說明

進入PAI-Studio產品:https://pai.data.aliyun.com/console

該方案數據和實驗環境已經內置於首頁模板:

人工智能算法實現系統異常指標監控

打開實驗:

人工智能算法實現系統異常指標監控

1. 數據源

數據說明中提到的數據。

2. 特徵工程

one-hot特徵編碼組件可以自動將特徵由字符型向數值型轉變,是機器學習領域最常見的數據編碼方式。

歸一化組件可以將所有數據的範圍都限定到0~1之間,去除量綱的影響。歸一化後數據如下圖:

人工智能算法實現系統異常指標監控

利用SQL組件把目標列是anomaly的標記為1,正常指標標記為0。

<code>select (case class  when 'anomaly' then 1 else 0 end) as class from  ${t1};/<code>

3. 模型訓練

根據正常和非正常樣本訓練監控模型是一個典型的二分類問題,使用機器學習領域中的邏輯迴歸二分類算法就能達到比較好的效果。

人工智能算法實現系統異常指標監控

4. 模型評估

PAI平臺提供二分類模型的評估組件,可以通過AUC、KS、F1Score等指標評估模型的好壞,本實驗的模型預測準確率超過了90%。

人工智能算法實現系統異常指標監控

總結

PAI平臺提供了特徵編碼、模型訓練、模型評估全方位的功能,只要能把平臺產生的異常行為的特徵抽取出來並標記,就可以基於PAI快速構建異常指標監控模型。


分享到:


相關文章: