x2检验.

合集下载

X2检验的基本思想

X2检验的基本思想

除以相应的理论频数,即得统计量x2值。
(A-T)2 x2=∑ T
3、确定概率P值:根据x2的自由度υ=(R-1)(C-1), 查x2界值表。 4、判断结果
如果不能拒绝H0,则认为两个样本来自相同的总体,两
样本率的差异在统计学上无显著性;若拒绝H0,认为两样本 来自不同总体,两样本率的差异在统计学上具有显著性。 x2界值与检验假设的关系
四格表资料确切概率法的计算步骤 1、在四格表周边合计数不变的条件下,列出四个实际
频数a、b、c、d变动的组合情况,共列“周边合计中最小数
+1”个。 2、计算实际D*与各种组合的D* D* =ad-bc 3、计算实际概率与各组合的概率:pi (a+b)!(c+d)!(a+c)!(b+d) ! Pi= a! b! c! d! 4、计算同时满足|Di|≥0实际D*和Pi≤实际P*条件的四格 表的累计概率。
6
50
17
301
55
141
78
492
四格表资料的Fisher确切概率法 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV
的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非
预防组,结果见表。问两组新生儿的HBV总体感染率有无 差别? 两组新生儿HBV感染率的比较 组别 预防注射组 非预防组 合计 阳性 4 5 9 阴性 18 6 24 合计 22 11 33 感染率(%) 18.18 45.45 27.27
当υ≥2时,一般不作校正。
x2
(1A-T1-0.5)2 C=∑ T
(n) (1ad-bc1- )2 2 x2C=∑ (a+b) (c+d) (a+c) (b+d) 注意,最小理论频数TRC的判断:R行与C列中, 行合计数中的最小值与列合计中的最小值所对应格子 的理论频数最小。

X2检验

X2检验

X2(称卡方)检验用途较广,但主要用于检验两个或两个以上样本率或构成比之间差别的显著性,也可检验两类事物之间是否存在一定的关系。

一、两个率的比较(一)X2检验的基本公式下页末行的例3.1是两组心肌梗塞病人病死率的比较,见表3.5,其中对照组未用抗凝药。

两组病人的病死率不同,抗凝药组为25.33%,对照组为40.8%。

造成这种不同的原因可能有两种:一种是仅由抽样误差所致;另一种是两个总体病死率确实有所不同。

为了区别这两种情况,应当进行X2检验。

其基本步骤如下:1.首先将资料写成四格表形式,如表3.6。

将每个组的治疗人数分为死亡与生存两部分,各占四格表中的一格,这些数字称为实际频数,符号为A,即实际观察得来的数字。

2.建立检验假设为了进行检验,首先作检验假设:两种疗法的两总体病死率相等,为35%(即70/200),记为H0:π1=π2。

即不论用或不用抗凝药,病死率都是35%,所以亦可以换一种说法:病死率与疗法无关。

上述假设经过下面步骤的检验后,可以被接受也可以被拒绝。

当H0被拒绝时,就意味着接受其对立假设即备择假设H1。

此例备择假设为两总体病死率不相等,记为H1:π1≠π2因为我们观察的是随机现象,所以无论是接受或拒绝H0都冒有一定风险,即存在着错判的可能性。

一般要求,当错误地被拒绝的概率α不超过一定的数值,如5%(或0.05),此值称为检验水准,记为α=0.05。

3.计算理论频数根据“检验假设”推算出来的频数称理论频数,符号为T。

计算方法如下:假设两总体病死率相同,都是35.0%,那么抗凝血组治疗75人,其死亡的理论频数应为75×35.0%=26.25人,而生存的理论频数为75-26.25=48.75人。

用同样方法可求出对照组的死亡与生存的理论频数,前者为43.75人。

后者为81.25人。

然后,把这些理论频数填入相应的实际频数格内,见表3.6括号内数字。

计算理论频数也可用下式(3.4)TRC=nRnC/N (3.4)式中,TRC为R行与C列相交格子的理论频数,nR为与计算的理论频数同行的合计数,nC为与该理论频数同列的合计数,N为总例数。

x2检验 医学统计学

x2检验  医学统计学

基本思想
所谓两属性X和Y互相独立,是指属性X的概 率和属性Y的概率分布无关,否则称这两种 属性之间存在关联性。即
ij
ri cj
( nri n
)( ncj n
)
Tij
n ij
nri ncj n
1. 建立假设 H0:两种属性之间相互独立 H1:两种属性之间相互不独立
α=0.05
2. 计算检验统计
表10-1 两种药治疗急性下呼吸道感染有效率比较
处理
有效例数
无效例数
合计
有效率(%)
A药 B药 合计
68(64.818)a 52(55.182)c
120 (a+c)
6(9.182)b
74 (a+b)
11(7.818)d
63 (c+d)
17 (b+d)
137 (n=a+b+c+d)
91.89 82.54 87.59
P=0.01, x2 =6.63 ▪ P=0.05时, v=1, x2 =3.84
v=2, x2 =5.99
四格表χ2检验公式
当n≥40,T≥5时
2
( ARC TRC )2 TRC
2
ad bc2 n
a ca bc db d
1. 建立假设 H0:两药疗效相同 H1:两药疗效不相同
为两组疗效之间的差异有统计学意义。
观察组和对照组疗效比较
组别 显效 有效 无效
观察组 58
44
18
对照组 56
43
35
合计
114
87
53
配对四格表χ2检验
▪ 一般形式
甲属性
乙属性

卡方检验

卡方检验

表内用虚线隔开的这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table),或称2行2列表(2×2 contingency table)从该资料算出的两种疗法有效率分别为44.2%和77.3%,两者的差别可能是抽样误差所致,亦可能是两种治疗有效率(总体率)确有所不同。

这里可通过x2检验来区别其差异有无统计学意义,检验的基本公式为:式中A为实际数,以上四格表的四个数据就是实际数。

T为理论数,是根据检验假设推断出来的;即假设这两种卵巢癌治疗的有效率本无不同,差别仅是由抽样误差所致。

这里可将两种疗法合计有效率作为理论上的有效率,即53/87=60.9%,以此为依据便可推算出四格表中相应的四格的理论数。

兹以表20-11资料为例检验如下。

检验步骤:1.建立检验假设:H0:π1=π2H1:π1≠π2α=0.052.计算理论数(TRC),计算公式为:TRC=nR.nc/n 公式(20.13)因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1. 1=26.2),则其余三项理论数都可用同行或同列合计数相减,直接求出,示范如下:T1.1=26.2T1.2=43-26.2=16.8T2.1=53-26.2=26.8T2.2=44-26.2=17.23.计算x2值按公式20.12代入4.查x2值表求P值在查表之前应知本题自由度。

按x2检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查x2界值表(附表20-1),找到x20.001(1)=6.63,而本题x2=10.0 1即x2>x20.001(1),P<0.01,差异有高度统计学意义,按α=0.05水准,拒绝H0,可以认为采用化疗加放疗治疗卵巢癌的疗效比单用化疗佳。

通过实例计算,读者对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,x2值越小;如两者相同,则x2值必为零,而x2永远为正值。

x2检验或卡方检验和校正卡方检验的计算

x2检验或卡方检验和校正卡方检验的计算

x2检验或卡方检验和校正卡方检验的计算x2检验(chi-square test)或称卡方检验x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。

可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。

一、四格表资料的x2检验例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11 两种疗法治疗卵巢癌的疗效比较组别有效无效合计有效率(%)化疗组19 24 43 44.2 化疗加放疗组34 10 44 77.3合计53 34 87 60.9表内用虚线隔开的这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table),或称2行2列表(2×2 contingency table)从该资料算出的两种疗法有效率分别为44.2%和77.3%,两者的差别可能是抽样误差所致,亦可能是两种治疗有效率(总体率)确有所不同。

这里可通过x2检验来区别其差异有无统计学意义,检验的基本公式为:式中A为实际数,以上四格表的四个数据就是实际数。

T为理论数,是根据检验假设推断出来的;即假设这两种卵巢癌治疗的有效率本无不同,差别仅是由抽样误差所致。

这里可将两种疗法合计有效率作为理论上的有效率,即53/87=60.9%,以此为依据便可推算出四格表中相应的四格的理论数。

兹以表20-11资料为例检验如下。

检验步骤:1.建立检验假设:H0:π1=π2H1:π1≠π2α=0.052.计算理论数(TRC),计算公式为:TRC=nR.nc/n 公式(20.13)式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。

第1行1列: 43×53/87=26.2第1行2列: 43×34/87=16.8第2行1列: 44×53/87=26.8第2行2列: 4×34/87=17.2以推算结果,可与原四项实际数并列成表20-12:表20-12 两种疗法治疗卵巢癌的疗效比较因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1.1=26.2),则其余三项理论数都可用同行或同列合计数相减,直接求出,示范如下:T1.1=26.2T1.2=43-26.2=16.8T2.1=53-26.2=26.8T2.2=44-26.2=17.23.计算x2值按公式20.12代入4.查x2值表求P值在查表之前应知本题自由度。

第七章 X2检验(医学统计学)

第七章 X2检验(医学统计学)

∵ P=0.2668>0.05,∴ 在α=0.05水准上,不拒
绝H0,故尚不能两型患者的反应阳性率有差别。 四格表检验小结 1、当T>5(所有格子),且 n>40时,应用 2 ( A T ) x2 T 或
2 ( ad bc ) n 2 x (a b)(c d )(a c )(b d )
α=0.05
按公式
X2=2.56
2 A x 2 n( 1) n R nC
计算

2 2 x0 2 . 37 x V=(2-1)(4-1)=3 , , .5, 3 0.25, 3 4.11 ,0.5>P>0.25
──────────────────── ━━━━━━━━━━━━━━━━━━━━━━
1、建立假设
H0:π1=π2
H1:π1≠π2 α=0.05
2、计算X2值
因T11=3.84<5, 故需要使用校正公式
用专用公式:a=1、 b=14 、 c=10 、 d=18
x

2
( ad bc n / 2) n
|A-T|值的四格表的P值,将其相加,即得到检验
概率P。
双侧检验:
对所有 |A-T|值等于及大于样本
|A-T|值的四格表P值相加;
单侧检验:按检验目的,取阳性数增大或减小一
侧的|A-T|值等于及大于样本|A-T|值四格表;
四格表概率P的计算公式
(a+b)!(c+d)!(a+c)!(b+d)! P=──────────── a!b!c!d!n!
各种组合的四格表: 样本四格表
0 15 15 1 14 15 2 13 15 3 12 15 4 11 15

X2检验

X2检验

X2检验X2检验是用途广泛的假设检验方法,它的原理是检验实际分布和理论分布的吻合程度。

主要用途有:两个及以上样本率(或构成比)之间差异比较,推断两变量间有无相关关系,检验频数分布的拟合优度。

X2检验类型有:四格表资料X2检验(用于两样本率的检验),行×列表X2检验(用于两个及两个以上样本率或构成比的检验), 行×列列联表X2检验(用于计数资料的相关分析)。

在SPSS中,所有X2检验均用Crosstabs完成。

Crosstabls过程用于对计数资料和有序分类资料进行统计描述和统计推断。

在分析时可以产生二维至n维列联表,并计算相应的百分数指标。

统计推断则包括了我们常用的X2检验、Kappa值,分层X2(X2M-H)。

如果安装了相应模块,还可计算n维列联表的确切概率(Fisher's Exact Test)值。

Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies 过程实现。

界面说明【Rows框】用于选择行*列表中的行变量。

【Columns框】用于选择行*列表中的列变量。

【Layer框】Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。

如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。

Layer在这里用的比较少,在多元回归中我们将进行详细的解释。

【Display clustered bar charts复选框】显示重叠条图。

【Suppress table复选框】禁止在结果中输出行*列表。

【Statistics】按钮弹出Statistics对话框,用于定义所需计算的统计量。

Chi-square复选框:计算X2值。

Correlations复选框:计算行、列两变量的Pearson相关系数和Spearman等级相关系数。

Norminal复选框组:选择是否输出反映分类资料相关性的指标,很少使用。

简述 x2 检验的注意事项。

简述 x2 检验的注意事项。

简述 x2 检验的注意事项。

x²检验是一种常用的假设检验方法,用于判断两个分类变量之
间是否存在相关性。

在进行x²检验时,有一些注意事项需要考虑。

首先,x²检验要求样本数据是随机抽取的,且样本之间是独立的。

这意味着样本应该是代表性的,并且每个样本只能被归类到一
个分类变量中,不能重复或属于多个分类。

其次,x²检验要求样本数据的观测值应当足够大,以满足检验
的要求。

通常要求每个单元格的预期频数不小于5,这是由于当预
期频数过小时,检验结果可能不准确,影响统计推断的可靠性。

另外,x²检验的结果受样本量的影响。

当样本量较大时,即使
存在微弱的相关性,也可能导致显著的检验结果。

因此,在解释检
验结果时,需要综合考虑实际背景和领域知识,避免过度解读。

此外,x²检验是一种无参数检验方法,不对数据的分布做出假设。

因此,在进行x²检验时,不需要对数据进行正态性检验或其
他分布假设的检验。

最后,x²检验只能判断变量之间是否存在相关性,不能确定其因果关系。

相关性只是表明两个变量之间存在某种关联,但不能确定其中哪个变量是因果变量,或者是否存在其他变量的干扰。

总之,在进行x²检验时,需要注意样本的随机性和独立性,确保样本量足够大且每个单元格的预期频数不小于5。

同时,对检验结果要进行谨慎解读,结合实际背景和领域知识进行分析。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
服从x2分布,计算出x2值后,查表判断这么大的 x2是否为小概率事件,以判断建设检验是否成立。
χ2分布(chi-square distribution)
0.5 0.4 0.3
f ( ) 2( / 2) 2
2
1
2

( / 21)
e
2 / 2
ß ×¸ Ý
2 0.05(6)
2 2 0.05(6) 12.59 由于
1.
2. 3.
建立假设 H0:不同地区的人群血型分布构成相同 H1:不同地区的人群血型分布构成不同或不全相同 α=0.05 计算检验统计
3212 A2 n 1 2592 1080 987 nR nC
A1 A2
a+b c+d n=a+b+c+d
四格表统计量公式
当n≥40,T≥5时
2 ( A T ) 2 RC RC TRC
ad bc n 2 a c a b c d b d
2
四格表统计量公式
当n≥40,1≤T<5时
2 ( A T 0.5) 2 T
n ad bc n 2 2 a c a b c d b d
2
A T
2
T 411.25 19.81 20.58 297.59
321 41.25
2

444 358.15
358.15
2
4.
v=(3-1)(4-1)=6, 则P<0.05,拒绝H0,认为三个地区的人群血型分布构成不同或不全相同。 查χ2界值表
1. 2.
3.
若1/5的理论频数小于5 进一步增大样本含量 将相临的两行或两列合并 总的结论有统计学意义,即有差异,并 不说明任意两组间都有差异,做行×列 表的分割才能检验任意两组间是否有差 异 有些资料不适合做x2检验,如等级资料
四、四格表χ2检验
一般格式
四格表格式 B1 B2 a b c d a+c b+d
2 χ 检验


行×列表χ2检验 四格表χ2检验 配对四格表χ2检验 配对R×R表的χ2检验 拟合优度检验 关联性分析

某医生想观察一种新药对流感的预防效 果,进行了如下的研究,问此药是否有 效?
发 病 人 数 14 30 44 未 发 病人数 86 90 176 观察例数 100 120 220 发病率(%) 14 25 20
三、行×列表χ2检验

公式:
2 ( A T ) 2 RC RC TRC
2 A 2 n 1 nR nC
自由度=(R-1)x(C-1) R行数, C列数, nR是ARC所在行的合计,nC是ARC所在列的合计
例题:
例8.1 某研究人员收集了亚洲、欧洲和北美 洲人的A、B、AB、O血型资料,结果见表所 示,其目的是研究不同地区的人群血型分类构 成比是否一样
× Ô Ó É ¶ È £ ½ 1
0.2 0.1 0.0 0 3
3.84
× Ô Ó É ¶ È £ ½ 2 × Ô Ó É ¶ È £ ½ 3 × Ô Ó É ¶ È £ ½ 6
P=0.05的临界值
7.81 12.59
6
9 12 ¿ ¨· ½ Ö µ
15
18


自由度一定时,P值越小, x2值越大。 当P 值一定时,自由度越大, x2越大。 v=1时, P=0.05, x2 =3.84 P=0.01, x2 =6.63 P=0.05时, v=1, x2 =3.84 v=2, x2 =5.99
地区 亚洲 欧洲 北美洲 合计 三个不同地区血型样本的频数分布 A B AB O 321 369 95 295 258 43 22 194 408 106 37 444 987 518 154 933 合计 1080 517 995 2592
1.
2. 3.
建立假设 H0:不同地区的人群血型分布构成相同 H1:不同地区的人群血型分布构成不同或不全相同 α=0.05 计算检验统计 T11=1080×987/2592=411.5 T12=215.83 T13=64.17 T14=388.75 T21=196.87 T22=103.32 T23=30.72 T24=186.10 T31=378.88 T32=198.8 T33=59.12T34=358.15
计数资料的统计推断
教师:数学统计教研室
胡冬梅

卡方检验是χ2检验(Chi-square test) 是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的 一种具有广泛用途的统计方法,是分类 计数资料的假设检验方法,可用于两个 或多个率间或构成比之间的比较,计数 资料的关联度分析,拟合优度检验等等。
组 别 实 验 组 对 照 组 合计
一、基本公式:
( ARC TRC 到的例数。 T:理论频数,即如果假设检验成立,应该观察到的 例数。 nR nC TRC n 自由度=(R-1)x(C-1) R行数, C列数, nR是ARC所在行的合计,nC是ARC所在列的合计
举例
买彩票
奖项 中奖概率 T A 一等 1% 10 0 0 二等 5% 50 0 0 三等 10% 100 20 2% 四等 20% 200 180 18% 五等 64% 640 800 80%
二、基本原理

基本思想是检验实际频数和理论频数的差别是否 由抽样误差所引起的,由样本率来推断总体率。 x2反映了实际频数于理论频数的吻合程度,x2值 大,说明实际频数和理论频数的差距大,如果假 设检验成立,A与T不应该相差太大。理论上可以 证明 ( A T )2 2 T
2
4442 1 297.56 995 933
4.
2 2 2 12.59 0.05(6) 0.05(6) v=(3-1)(4-1)=6, 由于 则P<0.05,拒绝H0,认为三个地区的人群血型分布构成不同或 不全相同。
查χ2界值表
行×列表χ2检验注意事项
相关文档
最新文档