看穿數據,看透事實——分佈形態描述

看穿數據,看透事實——分佈形態描述

如果覺得文章對你有用,歡迎關注、轉發、點贊、收藏。

對數據集選用適合的描述指標,能夠幫助我們探究龐大、雜亂無序的數據背後隱藏的事實規律。描述數據集有三個維度,包括數據的集中趨勢描述,數據的離散程度描述和數據的分佈形態描述 。

在之前的兩篇文章中已經分享了集中趨勢描述及離散程度描述這兩個維度,還沒有看過或者有些遺忘的朋友可以戳以下鏈接進行回顧:看穿數據,看透事實——集中趨勢描述看穿數據,看透事實——離散程度描述

接下來是最後一個維度,也是能夠更直觀的瞭解數據集整體情況的維度:數據的分佈形態描述。

一、分佈形態描述

1.偏度係數 Skewness:是描述變量取值分佈形態對稱性的統計量。


看穿數據,看透事實——分佈形態描述


解讀:

當分佈是對稱的,正負總偏差相等,偏差值為0;當分佈式不對稱分佈時,正負總偏差不相等,偏差值大於0或小於0。當偏差值大於0時,表示正偏差值偏大,為正偏或右偏,長尾在右邊;當偏差值小於0時,表示負偏差值偏大,為負偏或左偏,長尾在左邊。偏差絕對值表示數據分佈形態的偏斜程度,當偏差絕對值越大時,數據分佈形態的偏斜程度越大,反之越小。


2.峰度係數 Coefficient Of Kurtosis :是用來反映頻數分佈曲線頂端尖峭或扁平程度的指標。


看穿數據,看透事實——分佈形態描述



解讀:

當數據分佈與標準正態分佈的陡緩程度相同時,峰度值等於0。峰度值大於0表示數據分佈形態比標準正態分佈更陡,為尖峰分佈;峰度值小於0表示數據分佈形態比標準正態分佈更緩,為平緩分佈(低峰分佈)



分佈特徵描述這個維度較為簡單,掌握了偏度和峰度這兩個指標及其代表的含義,可以幫助我們對數據集有更加全局性的判斷。瞭解完分佈特徵描述,至此描述數據集的三個維度已經全部分享完了,下階段仍是統計知識的分享 ,敬請期待!

本原創首發於公眾號:數據分析魚,歡迎圍觀!


分享到:


相關文章: