數據統計的理解和運用(六)關於數據加權

最近經常有知友在後臺私信問數據加權的問題,臨度的黃老師特意單開一篇文章,為各位講解。

正文如下:

臨度科研 | 數據統計的理解和運用(六)關於數據加權

現在對加權作一個簡單的介紹,這個要從算法開始講,理解加權的含義。

上述例子,一個四個表資料的卡方檢驗,針對有原始數據而言,我們直接進行卡方檢驗檢驗即可,這沒什麼可解釋的。

SAS軟件

臨度科研 | 數據統計的理解和運用(六)關於數據加權

但是,當我們懷疑一份數據的統計量時,或者說相對現有的統計數據做一個檢驗,我們只需要用到abcd四個頻數就可以計算了。

臨度科研 | 數據統計的理解和運用(六)關於數據加權

1、建立好預分析的“數據集”,我們定義好“行”和“列”,就可以進行統計了。

臨度科研 | 數據統計的理解和運用(六)關於數據加權

採用SAS軟件進行分析(SPSS為:數據-個案加權-加權,今天不再贅述。)

臨度科研 | 數據統計的理解和運用(六)關於數據加權

卡方檢驗,敲出了熟悉的代碼,一波操作猛如虎,但回頭發現,誒,不對勁,這是怎麼回事,怎麼頻數全變成了“1”,回想一下,好像頻數這一列數據我們並沒有用到!

臨度科研 | 數據統計的理解和運用(六)關於數據加權

沒錯,我們知道了問題所在,其實此時的與分析數據集只是一個描述性的數據集,並非真正可以分析的數據集,我們要“告訴”軟件,在這四個“格子”裡,他們的頻數分別為41、32、43和8,但是怎麼去告訴他呢,這就用到了加權,賦予四個“格子”的頻數,讓軟件認識到,哦,原來這是不是源數據,而是一種抽象的分佈表,在性別為1且組為1的格子有41個數,而不是1個數,因此就用到了加權,這就是內部的乾坤。

因此,正確的代碼為:

臨度科研 | 數據統計的理解和運用(六)關於數據加權

這樣一來,那結果就明白了,四格表的數據abcd又回來了,至此,大功告成~

臨度科研 | 數據統計的理解和運用(六)關於數據加權

臨度科研 | 數據統計的理解和運用(六)關於數據加權

結束時,再強調一點,那就是卡方檢驗的應用條件:

兩個獨立樣本比較:

(1) 所有的理論數 T≥5 並且總樣本量 n≥40,用 Pearson 卡方進行檢驗。

(2) 如果理論數 T<5 但 T≥1,並且 n≥40,用連續性校正的卡方進行檢驗。

(3) 如果有理論數 T<1 或 n<40,則用 Fisher’s 檢驗。

R×C表卡方檢驗應用條件:

(1) R×C表中理論數小於5的格子不能超過1/5;

(2) 不能有小於1的理論數;不滿足

(1) 或 (2) 時,均採用 Fisher’s 檢驗。

下期講解,卡方檢驗和秩和檢驗的區別,RXC列聯表為什麼可以做秩和檢驗,敬請期待~


— THE END —


分享到:


相關文章: