數據科學異常值檢測原理—經驗法則

前提:

數據樣本符合標準正態分佈,正態分佈的核心是中心極限定理即:如果一個事物受到多種因素的影響,不管每個因素本身是什麼分佈,它們加總後,結果的平均值就是正態分佈。如果要符合正態分佈則這些因素必須彼此獨立,彼此不獨立的各項因素會互相加強影響,那麼就構不成正態分佈。(還有對數正態分佈是指各種因素對結果的影響不是相加,而是相乘)


數據科學異常值檢測原理—經驗法則

經驗法則原理:


數據科學異常值檢測原理—經驗法則

標準正態分佈下的曲線為鍾型曲線,期望值μ決定了其位置,其標準差σ決定了分佈的幅度。當μ = 0,σ = 1時的正態分佈是標準正態分佈。因此對於一組數據,如果符合正態分佈,則可以通過經驗法則來檢測異常值,同圖中可以發現,68.2%的測量值落在μ值處正負一個標準差σ的區間內,95.4%的測量值將落在μ值處正負兩個標準差σ的區間內,99.7%的值落在μ值處正負三個標準差σ的區間內。因此,對於一組符合正態分佈的數據,如果某個值距離μ值超過三個標準差σ則可以判斷這個值屬於異常數據。

計算步驟:

μ值:μ是遵從正態分佈的隨機變量的均值,由於前提是各種因素對結果的影響為相加,因此μ值的計算可以為樣本數據的算術平均值。

標準差σ:所有數據減去其平均值的平方和,所得結果除以該組數之個數N(數據集為總體數據情況,一般用於大數據算法)或者個數N減1(數據集為樣本數據情況,認為數據集不是總體數據而是總體數據的一部分,一般用於統計學),再把所得值開根號,所得之數就是這組數據的標準差。

數據科學異常值檢測原理—經驗法則

判斷邏輯:計算μ+3σ,μ-3σ,當單個數據大於μ+3σ或者小於μ-3σ時,認為此數據為異常值,因為按照經驗法則,此數據在數據集的99.7%範圍外。


數據科學異常值檢測原理—經驗法則


分享到:


相關文章: