卡方检验

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

8 2检验的应用条件(1)

四格表的分析方法选择条件:

n≥40,T≥5,用2; n≥40,但1≤T<5,用校正2。 n < 40,或T<5,用确切概率。 b+c>40; b+c≤40用校正2 。

配对四格表的分析方法选择条件:

2检验的应用条件(2)

R×C表的分析方法选择条件:
86 239 11 9 50 88
2 ( A T ) 2 i i Ti
2 A 2 n n n 1 R C
理论数T
3个构成比比较的2检验步骤
H0:甲乙两院门诊病人付费方式的构成相同 ; H1:甲乙两院门诊病人付费方式的构成不全相同 。 =0.05。 二. 计算统计量: 2=10.3142 , v = 2 。 三. P=0.006 四. 按=0.05水准,拒绝H0 ,接受H1 。 甲乙两院门诊病人付费方式的构成不全相同 。
2 (| ad bc | n / 2 ) n 2 C (a b)(c d )(a c )(b d )

n < 40,或T<5,用确切概率。
3 配对四格表资料的2检验
两种培养基结果比较 可能的结果 甲培养基 乙培养基 频数
1
2 3

+ -

- +
a
b c
4


d
配对四格表资料的2检验
四格表所有可能排列的概率
P 值的计算
(1) (2) (3) (4) (5)
0 8 Pi
0.0001
11 1
1 7
0.003 1
10 2
2 6
0.036 7
9 2
3 5
0.165 0
8 3
4 4
0.330 1
7 4
(6)
(7)
(8)
(9)
5 3
6 5
6 2
0.1320
5 6
7 1
0.0240
4 7
8 0
1

2
12 1
2 2
(12 1) 12 1 55
11.2
例子


在一项肝炎诊断指标的研究工作中,某医师在某人 群中随机抽查200人的血,同时检测HBsAg和, SGPT(ALT),两指标均以+或-记录,怎么分析 和回答下列问题: 两指标的阳性是否有关?用什么方法分析,用什么 公式? 两指标的阳性率是否一样高?用什么方法分析,用 什么公式? 两指标的检测结果是否一致?怎么分析?能不能用 配对卡方检验来分析? 用来诊断肝炎,哪个指标更好?


若n > 40 ,此时有 1< T 5时,需计算Yates连续性 校正2值 T <1,或n<40时,应改用Fisher确切概率法直接计 算概率
四格表2的检验的应用条件:

n≥40,T≥5,用2; n≥40,但1≤T<5,用校正2。
2 (| A T | 0 . 5 ) 2 i i C Ti
Kappa coefficient
9
四格表的确切概率
(Fisher’s exact probability in 2×2 table)
研究某化合物结构改变后其神经毒性的变化 组 别 有神经 毒性 2 ( a) 6(c) 无神经 毒性 9 ( b) 3 ( d) 合计 有神经毒性所 占比例率(%)


传统的卡方检验是无法对次序信息加以利用的 单向有序:秩和检验 双向有序:实际上考察的是两变量间的关联性(相 关性),可以使用专门的关联性指标分析 目前对卡方检验还有一些扩展方法,如CMH卡方, 可以处理此类问题
几点遗留问题

行列表卡方检验的适用条件


理论频数不宜太小,一般认为不宜有1/5以上格子的 理论频数小于5或有一个格子的理论频数小于1 不太理想的办法
( Ai Ti ) Ti
2
2
Karl Pearson 1857~1936


英国统计学家 1901年10月与Weldon、Galton 一起创办Biometrika
自由度为1 的2分布
0.5
0.4
0.3 0.2 0.1 0.0
自由度为2 的2分布
0.5
0.4 0.3
0.2
0.1 0.0

这就是我们所说的卡方统计量,在1900年由英国统 计学家Pearson首次提出,其公式为:
2 2 k ( A E ) ( A np ) i i 2 i i Ei npi i 1 i 1 k
方法原理




从卡方的计算公式可见,当观察频数与期望频 数完全一致时,卡方值为0; 观察频数与期望频数越接近,两者之间的差异 越小,卡方值越小; 反之,观察频数与期望频数差别越大,两者之 间的差异越大,卡方值越大。 当然,卡方值的大小也和自由度有关
2分布
0.5 0.4 0.3 0.2 0.1 0.0
自由度为1的2分布界值
0.5 0.4
0.3
0.2
0.05
0.1
0.0 3.84
2检验的步骤
(1) H0: 1 = 2; H1: 1≠2 , =0.05
(2) 2=4.5588 (3) P<0.05 (4) 按0.05水准,拒绝H0,接受H1, 即两药的总体 治愈率不等。根据现有资料看出,B药的治愈 率高于A药 。
理论频数
24.9 61.9 77.1 64.0 39.8 19.8 8.2 4.2 300.00
0 1 2 3 4 5 6 7~ 合计
分布资料拟合优度检验的步骤
(1) H0: 该资料服从Poisson分布; H1: 该资料服从Poisson分布。 =0.10。 (2) 计算统计量: 2=2.257 , v = 5 。 (3) P=0.8126 (4) 按=0.10水准,不拒绝H0 。 认为单位容积内细菌数的分布。

残差可以表示某一个类别观察值和理论值的偏 离程度,但残差有正有负,相加后会彼此抵消, 总和仍然为0。为此可以将残差平方后求和, 以表示样本总的偏离无效假设的程度
方法原理

另一方面,残差大小是一个相对的概念,相对 于期望频数为10时,20的残差非常大;可相对 于期望频数为1000时20就很小了。因此又将残 差平方除以期望频数再求和,以标准化观察频 数与期望频数的差别。


与邻近行或列中的实际频数合并 删去理论频数太小的格子所对应的行或列 增加样本含量以增大理论频数(但是可能吗?) 确切概率法

最理想的办法

7 分布资料的拟合优度检验
单位容积内细菌数的分布
X
观察数
26 51 84 70 42 15 9 3 300
概率
0.082910 0.206446 0.257025 0.213331 0.132798 0.066134 0.027445 0.013911 1.000000
2 6
9 2
3 5
8 3
4 4
7 4
(6)
(7)
(8)
(9)
5 3
6 5
6 2
5 6
7 1
4 7
8 0
3 8
每一种组合的概率
a c a +c b d b +d a +b c+d n
(a b)!(c d )!(a c)!(b d )! Pi a !b !c !d ! n!
超几何分布(hypergeometric distribution)
一.
几点遗留问题

是否应当进行两两比较?


这又是一个打嘴仗的问题,虽然有人提出用卡方分 割等方法来检验,但同样也有学者对这种做法嗤之 以鼻 实际上,随着统计学的发展,这个问题已被超越, 可以使用对分类数据的建模方法,如logistic模型等 对此问题加以解答
几点遗留问题

如果是有序资料该怎么处理
连续性校正
b+c<40时:
2 ( A T 0 . 5 ) 2 i C i Ti
bc bc 2 (b 0.5) ( c 0.5)2 2 ( b c 1 ) 2 2 2 C bc bc (b c ) 2 2
配对四格表资料的2检验步骤
一.

理论分布与实际分布的检验

使用不同的疗法并不会影响疗效(两个分类变 量间无关联)

两变量的相关分析
四格表2值的校正

英国统计学家Yates认为,2分布是一种连续 型分布,而四格表资料是分类资料,属离散型 分布,由此计算的2值的抽样分布也应当是不 连续的,当样本量较小时,两者间的差异不可 忽略,应进行连续性校正(在每个单元格的残 差中都减去0.5)
0.0013
3 8
Pi
0.3081
超几何分布的概率分布
.35
Probability .30 .25 .20 .15 .10 .05 0
5 构成比的比较
分析两个医院门诊病人的付费方式构成有无不同 公费 甲医院 86 医疗保 险 11 自费 50 合计 147
乙医院
239
9
88
336
2值的计算
实际数A
A药 B药

ຫໍສະໝຸດ Baidu
治愈 31
未愈 23 16
合计
治愈率(%)
54
57.41
50

66
120
75.76
67.5

81
35
方法原理

理论频数

基于H0成立,两样本所在总体无差别的前提下计算 出各单元格的理论频数来
TRC
nR nC n
方法原理

残差

设A代表某个类别的观察频数,E代表基于H0计算 出的期望频数,A与E之差被称为残差
试验组 对照组
11 9
18.18 66.67


8
12
20
四格表周边合计不变
x a+c-x a +c a+b-x d-a+x b +d a +b c+d n
x=0,1,…,min(a+c,a+d)
四格表(周边合计不变时)所有可能的排列
(1) (2) (3) (4) (5)
0 11 8 1
1 7
10 2

McNemar检验在检验统计量的计算中仅用到四 格表中的b和c,未考虑到a和d的影响,当a与d 格的数字都特别大,而b和c格的数字较小时, 由于两法相同的地方较多,此时McNemar检验 不是很合适,需采用能考虑到a和d信息的统计 方法
配对边际2 检验
2 ( b c ) 2 , 2 (b c) bc n


理论数不能小于1; 理论数大于1小于5的格子数不超过总格 子数的1/5。 否则用确切概率; 或似然比检验(likelihood ratio test)
本章重点:

2检验用于哪些资料的分析?

理论数与实际数的比较

2检验的应用条件是什么? Fisher’s 确切概率。 拟合优度检验时,为什么要大一些?
2检验 Chi-square test
主要内容

2分布



两个率的比较 配对设计两个率的比较 多个率的比较 构成比的比较 R×C列联表的分析 分布拟合优度检验 2分布的应用条件 四格表的确切概率
四格表(fourfold table)
例6.4欲研究AB两种药物对过敏性鼻炎的治疗效果 组
理论数的计算


如果两组率相等,则理论上阳性率为67.5%。 理论与实际相吻合!
则观察54人,有36.45人阳性,17.55阴性。 观察66人,有44.55人阳性,21.55阴性。 实际数 31 50 23 16 理论数

36.45 17.55 44.55 21.55
衡量理论数与实际数的差别
四格表2检验的专用公式
a c b d
31 50 23 16
(ad bc) n (a b)(c d )(a c )(b d )
2 2
与正态分布的关系
0.025
0.025
-1.96

1.96
0.05
3.84
卡方检验假设的等价性

两组治愈率相同

两组发生率的比较

实际数据的频数分布和理论假设相同
两种培养基结果比较 甲 + - 合计 乙 + 31(a) 1(c) 32 - 12(b) 11(d) 23 合计 43 12 55
配对四格表资料的实际数与理论数
12(b) 6.5
1(c)
2 ( A T ) 2 i i Ti
6.5
2
(b
bc 2 bc 2 ) (c ) 2 ( b c ) 2 2 bc bc (b c ) 2 2
二.
三.
四.
H0:两种培养基的阳性结果相同,总体B=C; H1:两种培养基的阳性结果不同 ,总体B≠C。 =0.05。 计算统计量: C2=9.31 。 P=P=0.0023 按=0.05水准,拒绝H0 ,接受H1 。 可认为两种培养基的效果不同,甲培养基的阳性 率高于乙培养基的阳性率。
2 配对边际 检验
相关文档
最新文档