機器學習之---異常檢測法

//本文為作者原創,在同名公眾號和CSDN賬號同步發佈,歡迎大家關注//

異常檢測算法是應用廣泛的機器學習算法,主要應用在產品質量檢測、個人信用評估等方面。

機器學習之---異常檢測法

異常檢測算法的原理:異常檢測算法的核心是高斯分佈(正態分佈),具體方法是評估每個特徵是否集中在正常範圍內,即正常範圍內特徵變量對應的概率就高,異常的特徵變量出現的概率低。異常檢測算法的輸出是每個特徵向量所得概率的乘積,當輸出小於一定的閾值就認為該輸入是一個異常樣本。

數據集的分佈:異常檢測數據集也分為訓練集、驗證集和測試集。訓練集全部是無標籤正常樣本,用來訓練形成一個正常樣本的高斯分佈函數。驗證集中是有標籤的正常樣本和異常樣本,用來修正正和提高算法檢測異常的能力。測試集也是有標籤的正常和異常樣本用來測試算法的異常檢測成功率。

異常檢測算法衡量標準:用於異常檢測的樣本具有很高的斜偏率,所以必須引入查準率和召回率來衡量算法。

選擇監督學習方法還是異常檢測方法?首先兩種方法都能用來判斷是否異常,但是應用在不同的情況下,監督學習的方法應用在正常樣本和異常樣本都有充足數據集的情況,異常檢測方法應用在正常樣本充足,異常樣本不足且不可預測的情況。

輸入的特徵不符合高斯分佈怎麼辦?可以使用對數函數和冪函數進行轉換,調整參數使數據符合高斯分佈。

多元高斯分佈:有時候兩個特徵變量之間呈現一定的線性關係,這時候單獨算兩個特徵變量的概率容易造成較大的誤差,這時候使用多元高斯分佈的方法更有效。多元高斯分佈可以自主相關的特徵,可以提高算法的準確率,不足之處在於計算量慢。


//若有不足歡迎大家交流指正指正//


分享到:


相關文章: