急救!!这个表怎么算卡方检验

如题所述

虽然你所问的问题已有人问过,并有人回答过,不过我觉得回答的不够完善,至少还有三点需要补充,如果忽略这三点,很可能结果就是错的,或者结果不完整。请看下文。

举例说明吧。相对于不做运动的女子,慢跑或快跑可能会对月经周期产生影响,那这种经期的变化是否会改变她们去咨询医生的频率呢?下面是一组统计数据,记录了三组运动状态的女子是否向医生咨询过经期变化的数据。

Observed (O),观察值
是否向医生询问过
组 是 否 总数
对照 14 40 54
慢跑 9 14 23
快跑 46 42 88
总数 69 96 165

简单点说,就是问,慢跑女子是不是会比不跑步的女子更频繁地向医生询问月经的问题?快跑相对于不跑呢?快跑相对于慢跑呢?

方法如下:
1. 计算每行和每列的总数,如上表所示。
2. 计算每列的百分比,即询问过的百分比。在165个女子中,有69个询问过医生,即69/165=42%,那么没询问过医生的就是1-42%=58%。
3. 如果跑不跑步,都不会影响询问医生的频率,那么这个询问过医生的可能性,42%,将适用于所有的组别,即在对照组的54个人中,我们预期54*42%=22.58个人会去询问医学,而54*58%=31.42个人不会去询问。用同样的方法把慢跑和快跑组是否会去询问医生的人数分别算出,如下表所示。

Expected (E),预期值
是否向医生询问过
组 是 否 总数
对照 22.58 31.42 54
慢跑 9.62 13.38 23
快跑 36.8 51.2 88
总数 69 96 165

4. 接下来就是要计算,这个预期值和实际观测到的值之间的区别大不大?是只是因为随机抽样产生的误差,还是具有统计学意义的显著性差异?计算公式如下:
χ2=∑[(O-E)2/E]
O为每个观察值,E为每个预期值
在这个例子中,
χ2=(14-22.58)2/22.58+(40-31.42)+…=9.63
5. 计算自由度=(行数-1)*(列数-1)=2
6. 查表,自由度为2, p=0.01时的值为9.21,而9.63比9.21大,所以p<0.01, 差异显著。
7. 但由于有三个组,上述的值只能说明运动状态对于询问医生的频率有显著影响,却并不知道究竟是哪组跟组有显著差异。很多其他的回答到这里就结束了,其实不然。下面还有三点要注意。

1. 接下来要做的就是把上面两个大表转换成亚表,首先只比较慢跑和快跑

组 是 否 总数
慢跑 9(11.40) 14(11.6) 23
快跑 46(43.6) 42(44.4) 88
总数 55 56 111

计算χ2= ∑[(│O-E│-1/2)2/E]=0.79
注意当行列为2X2时,要用这个修正公式。
自由度为(2-1)(2-1)=1,查表发现0.79是个非常小的数,所以它们之间没有显著差异。而由于它们的差异如此之小,可以把它们合并成一个组,去跟对照不跑步的比较。

组 是 否 总数
对照 14(22.58) 40(31.42) 54
跑步 55(46.42) 56(64.58) 111
总数 69 96 165

同理算得χ2=7.39,大于自由度为1,p=0.01时的值,即p<0.01

2. 由于对同一数据做了两次测试(快跟VS慢跑,跑步VS对照),为了保证总的测试误差小于0.05,这里不能用原始的p值来做结论,而需要对其做修正,比如使用Bonferroni修正:由于我们做了两次测试,所以用于比较的关键值要用0.01*2=0.02,由于原始p<0.01,修正后的p (跑步VS对照)<0.02, 差异显著。

结论即为,快跑跟慢跑相比的女性相比,她们向医生询问经期的频率没有显著差异,而只要是跑过步的,她们询问的频率则显著高于不跑步的(55:56VS14:40)。

3. 最后再补充两点使用卡方的条件
1) 如果用于2X2,每个格子中的频数(O)都必须大于5。
2) 如果是大型表格,许多行X许多列,每个格子中的频数都不得小于1,且它们中小于5的比较必须要低于20%。

如果不能满足这两个条件,就要选择其他的统计方法来处理样本量比较小的情况,比如Fisher Exact test。

以上方法和例子是我翻译和改编自《Primer of Biostatistics, 6th edition》第五章《How to analyze rates and proportions》,感谢原作者Glantz, Styanton。
温馨提示:答案为网友推荐,仅供参考

相关了解……

你可能感兴趣的内容

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 非常风气网