数据统计的理解和运用(六)关于数据加权

最近经常有知友在后台私信问数据加权的问题,临度的黄老师特意单开一篇文章,为各位讲解。

正文如下:

临度科研 | 数据统计的理解和运用(六)关于数据加权

现在对加权作一个简单的介绍,这个要从算法开始讲,理解加权的含义。

上述例子,一个四个表资料的卡方检验,针对有原始数据而言,我们直接进行卡方检验检验即可,这没什么可解释的。

SAS软件

临度科研 | 数据统计的理解和运用(六)关于数据加权

但是,当我们怀疑一份数据的统计量时,或者说相对现有的统计数据做一个检验,我们只需要用到abcd四个频数就可以计算了。

临度科研 | 数据统计的理解和运用(六)关于数据加权

1、建立好预分析的“数据集”,我们定义好“行”和“列”,就可以进行统计了。

临度科研 | 数据统计的理解和运用(六)关于数据加权

采用SAS软件进行分析(SPSS为:数据-个案加权-加权,今天不再赘述。)

临度科研 | 数据统计的理解和运用(六)关于数据加权

卡方检验,敲出了熟悉的代码,一波操作猛如虎,但回头发现,诶,不对劲,这是怎么回事,怎么频数全变成了“1”,回想一下,好像频数这一列数据我们并没有用到!

临度科研 | 数据统计的理解和运用(六)关于数据加权

没错,我们知道了问题所在,其实此时的与分析数据集只是一个描述性的数据集,并非真正可以分析的数据集,我们要“告诉”软件,在这四个“格子”里,他们的频数分别为41、32、43和8,但是怎么去告诉他呢,这就用到了加权,赋予四个“格子”的频数,让软件认识到,哦,原来这是不是源数据,而是一种抽象的分布表,在性别为1且组为1的格子有41个数,而不是1个数,因此就用到了加权,这就是内部的乾坤。

因此,正确的代码为:

临度科研 | 数据统计的理解和运用(六)关于数据加权

这样一来,那结果就明白了,四格表的数据abcd又回来了,至此,大功告成~

临度科研 | 数据统计的理解和运用(六)关于数据加权

临度科研 | 数据统计的理解和运用(六)关于数据加权

结束时,再强调一点,那就是卡方检验的应用条件:

两个独立样本比较:

(1) 所有的理论数 T≥5 并且总样本量 n≥40,用 Pearson 卡方进行检验。

(2) 如果理论数 T<5 但 T≥1,并且 n≥40,用连续性校正的卡方进行检验。

(3) 如果有理论数 T<1 或 n<40,则用 Fisher’s 检验。

R×C表卡方检验应用条件:

(1) R×C表中理论数小于5的格子不能超过1/5;

(2) 不能有小于1的理论数;不满足

(1) 或 (2) 时,均采用 Fisher’s 检验。

下期讲解,卡方检验和秩和检验的区别,RXC列联表为什么可以做秩和检验,敬请期待~


— THE END —


分享到:


相關文章: