最近经常有知友在后台私信问数据加权的问题,临度的黄老师特意单开一篇文章,为各位讲解。
正文如下:
![临度科研 | 数据统计的理解和运用(六)关于数据加权](http://p2.ttnews.xyz/loading.gif)
现在对加权作一个简单的介绍,这个要从算法开始讲,理解加权的含义。
上述例子,一个四个表资料的卡方检验,针对有原始数据而言,我们直接进行卡方检验检验即可,这没什么可解释的。
SAS软件
![临度科研 | 数据统计的理解和运用(六)关于数据加权](http://p2.ttnews.xyz/loading.gif)
但是,当我们怀疑一份数据的统计量时,或者说相对现有的统计数据做一个检验,我们只需要用到abcd四个频数就可以计算了。
1、建立好预分析的“数据集”,我们定义好“行”和“列”,就可以进行统计了。
采用SAS软件进行分析(SPSS为:数据-个案加权-加权,今天不再赘述。)
卡方检验,敲出了熟悉的代码,一波操作猛如虎,但回头发现,诶,不对劲,这是怎么回事,怎么频数全变成了“1”,回想一下,好像频数这一列数据我们并没有用到!
没错,我们知道了问题所在,其实此时的与分析数据集只是一个描述性的数据集,并非真正可以分析的数据集,我们要“告诉”软件,在这四个“格子”里,他们的频数分别为41、32、43和8,但是怎么去告诉他呢,这就用到了加权,赋予四个“格子”的频数,让软件认识到,哦,原来这是不是源数据,而是一种抽象的分布表,在性别为1且组为1的格子有41个数,而不是1个数,因此就用到了加权,这就是内部的乾坤。
因此,正确的代码为:
这样一来,那结果就明白了,四格表的数据abcd又回来了,至此,大功告成~
结束时,再强调一点,那就是卡方检验的应用条件:
两个独立样本比较:
(1) 所有的理论数 T≥5 并且总样本量 n≥40,用 Pearson 卡方进行检验。
(2) 如果理论数 T<5 但 T≥1,并且 n≥40,用连续性校正的卡方进行检验。
(3) 如果有理论数 T<1 或 n<40,则用 Fisher’s 检验。
R×C表卡方检验应用条件:
(1) R×C表中理论数小于5的格子不能超过1/5;
(2) 不能有小于1的理论数;不满足
(1) 或 (2) 时,均采用 Fisher’s 检验。
下期讲解,卡方检验和秩和检验的区别,RXC列联表为什么可以做秩和检验,敬请期待~
— THE END —
閱讀更多 臨度科研 的文章