统计学-离散型分类计数资料x2检验
x2检验——精选推荐

x2检验本章重点1.熟悉x2检验的基本思想。
2.掌握x2检验在四格表资料、行×列表资料中的应用。
3.掌握配对计数资料的x2检验。
χ2 检验是一种用途广泛的假设检验方法,本章只介绍它在分类变量资料中的应用: χ2 检验的适用范围:1.推断两个或两个以上总体率或构成比之间有无差异;2.配对计数资料差异的显著性。
检验统计量:χ2应用:计数资料第一节 四格表资料的χ2 检验目的:推断两个总体率(构成比)是否有差别要求:两样本的两分类个体数排列成四格表资料一、四格表资料的基本公式x2检验基本思想检验“实际数”和假设“理论数”的差异是否是由于抽样误差引起(两个样本率的差异体现在“实际数”和假设“理论数”的差异中)。
实际数,用四格表表示,称为四格表资料,分别为a 、b 、c 、d ,其他的数据是从这四个实际数推算出来的,称为理论数(表中括号内的数据)。
实际数用A 表示,理论数T 表示。
A :表示实际频数,即实际观察到的例数。
T :理论频数,即如果假设检验成立,应该观察到的例数。
TRC :第R 行C 列的理论频数nR :相应的行合计,nC :相应的列合计n 为总例数检验统计量χ2 值反映了实际频数与理论频数的吻合程度。
Χ2检验是检验实际数与理论数差异程度的指标。
A 与T 的值越接近, χ2越小,相反,实际数与理论数之间的差数越大, χ2值也就越大。
所得χ2值如果小于界值的χ2,P>0.05,即接受了原假设,可认为两组人群的治疗效果差异无统计学意义。
反之,如果所得χ2值大于查表所得χ2值,则P<0.05,即差异有统计学意义。
自由度计算公式Χ2值的大小,除了取决于A-T 的差值外,还取决于格子数的多少,格子数越多, χ2值越大,只有排除了这种影响, χ2值才能正确反映A 与T 的吻合程度,因此,在查χ2表时,要考虑自由度的大小。
22(), ()(1)A T Tχν-=∑=-行数-1列数 R C RC n n T n=计算公式:V=(行-1)(列-1) 四格表资料由2行2列组成,V=(2-1)(2-1)=1自由度即自由变动的范围,由于四格表周边的合计数已经固定,因此只要算出任一格的理论数,其余三个格子的理论数就没有自由变动的余地了,四格表的自由度V=1。
医学统计学x2检验共93页文档

医学统计学x2检验
66、节制使快乐增加并使享受加强。 ——德 谟克利 特 67、今天应做的事没有做,明天再早也 是耽误 了。——裴斯 泰洛齐 68、决定一个人的一生,以及整个命运 的,只 是一瞬 之间。 ——歌 德 69、懒人无法享受休息之乐。——拉布 克 70、浪费时间是一桩大罪过。——卢梭
6、法律的基础有两个,而且只有两个……公平和实用。——伯克 7、有两种和平的暴力,那就是法律和礼节。——歌德
8、法律就是秩序,有好的法律才有好的秩序。——亚里士多德 9、上帝把法律和公平凑合在一起,可是人类却把它拆开。——查·科尔顿 10、一切法律都是无用的,因为好人用不着它们,而坏人又不会因为它们而
8-χ2检验

或改用Fisher确切概率法
n (| ad bc | ) 2 n 2 2 (a b)(c d )( a c)(b d )
当n<40,或T<1时,用四格表资料的Fisher确切概率法
当P≈α时,改用四格表资料的Fisher确切概率法。
23
四格表资料的χ2检验
例:甲乙两种药物治疗某病,疗效如表,问两药的有 效率差别有无显著意义。 表 甲乙两药治疗某病的效果比较
TR C
nRnC n
组 别 试验组 对照组 合 计
有效 99(90.48) a 75(83.52) c 174 (a+c)
无效 5(13.52) b 21(12.48) d 26 (b+d)
合计 104 (a+b) 96 (c+d) 200 (n)
有效率(%) 95.20 78.13 87.00
发病率(%) 14 25 20
3
χ 检验的用途
推断两个总体率或构成比之间有无差别
推断多个总体率或构成比之间有无差别
2
多个样本率间的多重比较
两个分类变量(属性)之间有无关联性
4
χ 检验的主要内容
2
四格表资料的χ2 检验及Fisher’s精确
概率检验
配对四格表资料的χ2检验
R×C表资料的χ2检验
可用于两个或多个样本率(或构成比)的比较、关联性
检验和频数分布拟合优度检验。 四格表资料的专用公式 四格表形式
情况 B 是 否 合计 情况 A 是 a c a+c 否 b d b+d 合计 a+b c+d n
18
四格表资料的χ2检验
中国医科大学研究生医学统计学 第五讲 计数资料及卡方检验2

(四)注意资料的可比性 用以比较的资料应是同质的,除 了要比较的处理因素外,其它条件应 基本相同。对于不同时期、地区、条 件下的资料应注意是否齐同。
• (五)对比不同时期资料应注意客观 条件是否相同 例如,疾病报告制度完善和资料完整 的地区或年份,发病率可以“升高”; 居民因医疗普及,就诊机会增加,或诊 断技术提高,也会引起发病率“升高” 。因此在分析讨论时,应根据各方面情 形全面考虑,慎重对待。
2 ( A T ) 2 RC RC TRC
=
[b- (b+c)/2]2
+
[c- (b+c)/2]2
(b+c)/2 [(c- b)/2]2 (b+c)/2
(b+c)/2
= [ (b-c)/2]2 +
(b+c)/2
= (b-c)2/2
(b+c)/2
(b c) 2 bc
H0:总体B = C H1:总体B≠C α= 0.05 b + c = 12 + 2 = 14 < 40。
本资料若不校正时,X2=4.35,P<0.05,结 论与之相反。
最小理论频数TRC的判断: R行与C列中,行合计数中的最小 值与列合计数中的最小值所对应
格子的理论频数最小。
如本例,第2行与第2列所对应的格子 理论频数最小(4.67)。
第二节 配对设计的四格表资料的χ2检验
(一)配对四格表形式 B 甲种属性 + 合计 A乙种属性 + 合计 a b a+b c d c+d a+c b+d n=a+b+c+d
无效 b d b+d
卡方检验

卡方检验(Chi-square test)Li Junrongstat9@7.1 四格表资料的χ2检验χ2检验(Chi-square test)是现代统计学的创始人之一,K. Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率(或者构成比)之间的比较,计数资料的关联度分析,拟合优度检验等。
一、卡方检验的基本思想卡方分布⏹属连续型分布⏹可加性是其基本性质⏹唯一参数,即自由度(1) 自由度为1的χ2分布若Z N ~(,),01则Z 2的分布称为自由度为1的χ2分布.(chi-square distribution),记为χ()12或χ21(). 图形:从纵轴某个点开始单调下降,先凸后凹.02468100.00.10.20.3 2220.05(1)0.05/22220.01(1)0.01/23.84(1.96)6.63(2.5758)Z Zχχ======(2) νZ Z Z ,...,,21互相独立,均服从N (,)01,则22221...νZ Z Z +++的分布称自由度为 ν的χ2分布,记为χν()2或)(2νχ,或简记为χ2.* 图形:单峰,正偏峰;自由度ν很大时,2()νχ近似地服从正态分布.有2()2(),22Z ννχνχννν-=服从均数为,方差为的正态分布.00.10.20.30.40.50369121518¿¨·½Öµ×Ý·ß×ÔÓɶȣ½1×ÔÓɶȣ½2×ÔÓɶȣ½3Óɶȣ½62/)12/(2222)2/(21)(χνχνχ--⎪⎪⎭⎫⎝⎛Γ=ef 3.847.8112.59P =0.05的临界值χ2分布(chi-square distribution )性质:若χνχν2122(),()互相独立, 则χνχν2122()()+服从χ2分布, 自由度=+νν12 χνχν2122()()-服从χ2分布, 自由度=-νν12卡方检验的基本思想组别有效无效合计有效率(%)试验组99 5 10495.20(p 1)对照组7521 9678.13(p 2)合计1742620087.00(p c )表7-1两组降低颅内压有效率的比较实际频数A (actual frequency)理论频数T (theoretical frequency)nn n column row T C R =⨯=总例数合计列合计行)()(RC四格表(fourfold table)它反映了理论数与实际数的吻合情况,该统计量近似地服从自由度为ν的卡方分布。
应用统计学(第六章 次数资料的χ2检验)

次有极为密切的关系。
若需进一步比较r×c列联表内组间的差异,可将r×c列联表做 成多个2×c列联表进行检验。
例4:碘治疗甲状腺肿效果与年龄关系3×4列联表
年龄(岁) 治愈
显效
好转 无效 合计
11~30 67(45.29) 9(17.87) 10(22.02) 5(5.82) 91
31~50 32(39.32) 23(15.51) 20(19.12) 4(5.05) 79
49.00
59.04
df=2, χ20.05 =5.992;χ2> χ20.05 ,P<0.05
推断:否定H0 ,接受HA。三种农药对烟蚜的毒杀效果 存在显著差异。
例3:肺门密度与矽肺期次的3×3列联表
矽肺期次
Ⅰ Ⅱ Ⅲ 合计
+ 43(249) 1(17.2) 6( 7.9)
50
肺门密度 ++
188(149.9) 96(103.4) 17( 47.7)
例5:为研究53BP2对肿瘤发生易感性的影响,建立了该基因的 基因敲除小鼠,其等位基因杂合型(-/+)和野生型(+/+)小鼠 在接受γ射线照射之后的肿瘤发生情况记录如下表。问该基 因是否影响小鼠对肿瘤的易感性?
肿瘤
无瘤
合计
野生型
3
16
19
杂合型
9
10
19
合计
12
26
38
解:组合概率计算
i
a
b
c
d
ij
T
(i=1,2,…
j=1,2,…)
3.理论数和χ2值的计算
理论数
r
c
Eij Oij Oij
卡方检验
因而在进行独立性检验时,自由度为rc-1-(r-1)-(c1)=(r-1)(c-1),即等于(横行属性类别数-1)×(直 列属性类别数-1)。
29 2019/1/6
3.2 2×2、2×c、r×c列联表 的独立性检验
通常地,将计数资料按照两个方向
进行分类,可排列为不同类型的列 联表(相依表),根据表进行独立 性检验。
如:研究两类药物对家畜某种疾病治疗效果的好坏,
先将病鱼分为两组,一组用第一种药物治疗,另一
组用第二种药物治疗,然后统计每种药物的治愈尾
数和未治愈尾数。
这时需要分析药物种类与疗效是否相关:若两者彼 此相关,表明疗效因药物不同而异,即两种药物疗 效不同;若两者相互独立,表明两药物疗效相同。
这种根据次数资料判断两类因子彼此相关或相互独
20 2019/1/6
举例说明适合性检验的方法和步骤。
【例4.1】有一鲤鱼遗传试验,以荷包红鲤(红色) 与湘江野鲤(青灰色)杂交,其F2代获得如下表所 列的体色分离尾数。问这一资料的实际观测值是否 符合孟德尔的青∶红=3∶1一对等位基因的遗传规 律? 鲤鱼遗传试验F2观测结果 体色 F2观测尾数 理论数 青灰色 1503 1201.5 红色 99 400.5 总数 1602 1602
【举例说明 】
表4-1 齐口裂腹鱼性别实际观察次数与理论次数比较
性别 实际观察次 理论次 数(O) 数(E) 86(O1) 74 (E1) 雄性 62(O2) 74 (E2) 雌性 148 148 总和
O-E
12 -12 0
(O-E)2/E
1.9459 1.9459 3.8918
【连续性矫正】
立的假设检验就是独立性检验。独立性检验实际上
第九章-x2 检验
106(d) … … …
+ …… +
43
• 检验基本公式(Mc-Nemar test) :
(b - c) x = (b + c)
2
2 2
2
(b+c>40时)
( b - c - 1) (b+c<40时) x = (b + c)
44
48(a)
A培养基 B培养基
24(b) + + … +
20(c) -
(21 15.2) 2 (5 10.8) 2 15.2 10.8 8.40
20
确定概率:
计算自由度:
v=(行-1)(列-1)=(2-1)(2-1)=1 查x2值表: x20.05(1)=3.84 现:x2=8.40>5.63 则: p<0.01
21
x20.01(1)=5.63
判定结果:
2 2 2
47
3、确定概率: v=1
查x2值表:x20.05(1)=3.84 x20.50(1)=0.45
现: 0.36<0.45 则: p>0.50 4、判定结果:
按α =0.05的水准, p>0.50,不拒绝H0。 尚不能认为两种培养基的培养结果不同。
B培养基
注意: 一 一 配对
41
可能出现的结果:
a b + c d -
A培养基 B培养基
+
+
-
+
-
42
A培养基
B培养基 + 48(a) 20(c) 68 24(b) 106(d) 130
合计 72 126 198
医学统计学-第九章计数资料的参数估计与卡方检验
率的标准误的计算公式:
p
(1-)
n
式中,δp 为率的标准误,π为总体率,n为样本含量
在实际工作中,由于总体率π很难知道,常用样本率P来代 替,故公式变为:
sp
Sp为率的标准误的估计值
p(1 p)
n
p为样本率
n为样本含量
方法: 1.查表法:当样本含量较小(如n≤50),特别是np或n(1-p)较小时,p呈偏态 分布, 可根据样本含量n和阳性数x,查相关统计学教材“百分率的可信区间” 表,求得总体率可信区间。 2.正态近似法:当样本含量足够大(如n﹥50),且样本率p或1-p均不太小, 如np和n(1-p)均≥5时,样本率的分布近似正态分布,可按下列公式计算 :
第二步:计算检验统计量
2 ( A T )2
T
式中: A 为实际频数(actual frequency)T 为理论频数(theoretical frequency)
第三步:确定 P 值,得出结论
x2=9.32
ν=(R-1)(C-1)=(2-1)(2-1) 由 2界值表查得 20.05,1 = 3.84 ,
组别 有效 无效 合计
H0成立下的有效率(%)
中药
T11
T12
160
西药
T21
T22
140
72.7% 72.7%
合计 218
82
300
72.7%
T11 =160 ×72.7%= 160×(218/300)=116.3 T12 =160 ×(1-72.7%)= 160×(82/300)=43.7 T21 =140 ×72.7%= 140×(218/300)=101.8 T22 =140×(1-72.7%)= 140×(82/300)=38.2
《医学统计学》第九章X的平方检验
(3 1) (2 1) 2
3. 确定 P 值,作出推断结论
查界值表得 P < 0.05 ,在α=0.05 的检验水准下,拒绝 H0,接受 H1,可以认为三种
疗法的有效率有差别。
医学统计学(第7版)
实例
➢ 例9-6 某研究人员收集了亚洲、欧洲和北美洲,结果见下表,问不同地区人群的血型
1 : 三种治疗方案的总体有效率不全相等
0.05
2. 计算检验统计量,计算 χ2 值:
512
49 2
35 2
45 2
59 2
15 2
254 (
- 1)
100 145 100 109 80 145 80 109 74 145 74 109
2
254 (0.1794 0.2203 0.1056 0.2322 0.3244 0.0279-1)
2
方法。
了解
在小样本情况下的Fisher确切概率法原理及应用, 检验的
2
注意事项。
第一节
四格表资料的 检验
2
医学统计学(第7版)
一、四格表 检验的原理
2
2 检验(chi-square test):英国统计学家Pearson提出的一
种主要用于分析分类变量数据的假设检验方法,该方
法主要用途是推断两个或多个总体率及构成比之间有
2. 计算检验统计量
6 25 3 24 58 / 2 58
0.376
2
2
c
49 9 28 30
3. 确定 P 值,作出推断结论