第六章 卡方检 验

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


i 1
k
Ai Ti 2 ,
Ti
i 1,2,, k。
(6 2)
一、分布函数及其图形
2分布的密度函数为
2 f ( ) e , 0 , v 1,2,3,。 v 2 2( ) 2 v 式中是 ( ) 伽玛(gamma)函数在v/2处的函数值。 2
2 (3) 确定 P值和作出统计推断:查附表 3, 界值表,得
0.025<P<0.05。按α=0.05水准,拒绝 H0,接受 H1,两组溃疡愈 合率差别有统计学意义,故可以认为洛赛克治疗消化道溃疡的愈合 率高于雷尼替丁。
3.四格表专用公式:为了简化计算,省去求理论频数,可用式 2 值,该式称为四格 (6-10)代替式(6-8)计算四格表资料的 表专用公式, (ad bc) 2 n 2 (6 10) (a b)(c d )(a c)(b d ) 式中a、b、c、d分别为四格表的实际频数,n为总例数=a+b+c +d。如例6-2,用四格表
例6-3 某医生欲研究不同分娩方式与重症肝炎孕产妇的结局 的关系,资料见表6-4。问 两种分娩方式的结局有无差别? 本例的 2 检验,检验步骤如下: (1)建立检验假设和确定检验水准
第三节
独立性检验
本节介绍应用 2 检验推断两个或两个以上总体率(或 构成比)之间有无差别及两分类变量间有无相关关系等。
2 一、四格表资料的 检验(两个样本率的比较)
例6-2 某医生欲了解洛赛克治疗消化道溃疡的疗效,以雷尼 替了作对照,试验结果见表6-2。问两种药物治疗4周的疗效有无 差别(两组性别、年龄、病程、病情等方面均衡)? 表6-2中,64、21、51、33是整个表的基本数据,其余数据都是 从这四个基本数据相加而得的,这种资料系两组两分类资料,称 为四格表(fourfold table),亦称2×2表(2×2 table)。
第二节
拟合优度检验
拟合优度检验是判断样本实际频数分布与拟合的理论频数分布 是否符合,或者说判断此样本是否来自某种分布。本节以正态分布 的拟合优度检验为例,说明该方法的步骤,具体步骤如下: 1.建立检验假设,确定检验水准。 H0:实际频数与正态分布的理论频数符合 H1:实际频数与正态分布的理论频数不符合 α=0.05 或α=0.10
2
2 四、 分布的应用
1.直接应用:用于检验某一分布的实际频数与理论频数是否符 合;某些统计量的分布可用 2 分布作近似处理,如各组含量 不小于5,且组数不小于3时,秩和检验统计量H的分布可近似 2 地用 分布来代替;正态总体方差的区间估计等。
2 2.间接应用:如t分布和F分布就是在 分布的基础上推导出 来的。
2
1
2
v 1 2 2 2
(6 3)
这样,已知v时,就能按式(6-3)绘出 2 分布曲线,如图62 1。 分布的分布函数为
F ( 2 )

2
0
2 它的几何意义是: 分布曲线下从0到某给定 2 值的面
v 2( ) 2 2 1
2

v 1 2 2 2
v个相互独立的标准正态变量ui(i=1,2,…,v)的平方和称 2 为 变量,即
u u u ,
2 2 1 2 2 2 v
ui
Xi u

(6 1)
它的分布即Baidu Nhomakorabea 2 分布,其自由度为v。式中Xi为服从正态分 布的变量,μ 为总体均数,σ 为总体标准差。
在实际应用时,资料中k个实际频数Ai与相应的理论频数Ti之 间差别的大小,可用式(6-2)表示。如果样本含量n足够大 2 (大于40),且各Ti都大于5,则式(6-2)近似于 分布。n 愈大,近似程度愈好。
专用公式计算如表6-3。 用表6-3资料,代人式(6-10),求 值如下:
2
2 =4.13
与前面计算的结果一致。
表6-3
处理 洛赛克 雷尼替丁 合计
两种药物治疗消化道溃疡效果
未愈合 21(b) 33(d) 54 合计 85 84 169(n) 愈合率(%) 75.29 60.71
愈合 64(a) 51(c) 115
2 (2)求统计量。第(7)列系接式(6-6)的要求作 值计算,得 2 = 。表中共有10个F参加 值计算,故 的自由度= 10-3=7。 15.05 2 2
(3)确定概率P并作统计推论。查附表3, 界值表得0.05>P> 2 0.025,故按α=0.10水准拒绝H0,可认为实际频数与正态分布的理论频 数不符合,拟合优度不好。
第六章
2 检 验
2 检验(chi-square test)是一种用途较广的假设检验方
法。本章重点介绍它用于频数分布资料拟合优度检验和分类 资料的假设检验。
第一节

2
分布
2 分布是一种连续型分布,可用于检验资料的实际频数和
按检验假设计算的理论频数是否相符等问题。早在1875年, 2 F.Helmet即得出来自正态总体的样本方差的分布服从 分布。 1900年,K.Pearson也独立地从检验分布的拟合优度发现这一 2 相同的 分布。
2 2
三、
2分布与正态分布的关系
2 1.从图6-l可见,当v逐渐增大时, 曲线逼近于正态曲线, 这时它们的分布函数有如下关系:

2
0
f ( 2 )d 2 (u),
u
2 v
2v
(6 5)
2 式中的自由度v恰好等于 分布的均数,2v等于它的方差。
2.当v=1时,由式(6-l)可知, 变量等于标准正态变量的 2 平方,因此 (1) 等于标准正态分布的双侧分位数uα之平方和。例 2 如u0.05=1.96,而=3.84=(1.96)2= u0 .05
2. 检验步骤
本例的检验步骤如下:
(1)建立检验假设和确定检验水准 H0:两种药物疗效相等,即π 1=π
2 2
H1:两种药物疗效不等,即π 1≠π
α=0.05
2 (2)计算检验统计量 值
按式(6-9)计算理论频数,见表 6-2括号内的数字。按式(6-8) 2 计算 值:
2 =4.13,v=1
其计算公式为:
TRC
nR nC n
(6 9)
式中TRC表示R行(row) C列(column)所对应格子的理论频数, nR为相应的行合计,nC为相应的列合计,n为总例数。如表6-2中, 第2行第1列的理论频数为:T21=(84 ×115)/169=57.16。仿此 可计算 T11、T12、T22。就本例而言,假定消化道溃疡的愈合率与药 物种类无关,用概率术语就是愈合率与治疗药物相互独立。样本中 两种药物的治愈率不同,只是由于抽样误差所致。此处独立性检验 等价于检验无效假设是否成立。
(2)T<1,或n<40时,改用四格表资料的确切概率法。
2 连续性校正 值的计算公式为:
(| A T | 0.5) 2 T
2
(6 11)
2 (| ad bc | n / 2 ) n 2 (a b)(c d )(a c)(b d )
(6 12)
表6-2
处理 洛赛克
两种药物治疗消化道溃疡效果
未愈合 合计 85 愈合率(%) 75.29
愈合
64(57.84) 21(27.16)
雷尼替丁
合计
51(57.16) 33(26.84)
115 54
84
169
60.71
68.05
1. 2 检验的基本思想 检验要计算检验统计量值,值的计算公式 如下: ( A T )2 2 (6 8) T 式中A为实际频数,T是根据无效假设确定的理论频数,∑是对 所有格子求和。例如,上例要作洛赛克(试验组)和雷尼替了 (对照组)的溃疡愈合率比较,假设试验组和对照组的溃疡愈合 率相等,均等于合计的溃疡愈合率 68.05%(115/169 ×100%)。 试验组理论溃疡愈合数应为85(115/169)=57.84,对照组理论 溃疡愈合数应为84(11/169)=57.16;同理,合计未愈合率为 31.95%(54/169 ×100%),则试验组理论溃疡未愈合数为 85 (54/169)=27.16,对照组理论溃疡未愈合数为 84(54/169) =26.84,见表 6-2中括号里的数字。即某格子理论频数是所在行 合计乘所在列合计,除以总数。
从式(6-9)中可以看出, 值反映了实际频数和根据检验假 设算得的理论频数吻合程度。如果检验假设成立,则实际频数 与理论频数之差一般不会很大, 2 值应很小,即出现大的 2 2P值的对应关系可查附表 3, 值的概率 P是很小的。 与 2 2 界值表。 值愈大产值愈小。若 P≤α(检验水准),就怀疑 检验假设的成立,因而拒绝它;若P> α ,则没有理由拒绝它。
2 4.四格表 值的校正
2分布是连续性分布,而四格表资料属于分类资料,是不
连续的,由此计算的 2 值也是不连续的。在下列情况下, 2 用式(6-8)和式(6-10)计算的 值偏大,所得概率偏小, 应进行校正。
2 (1)l≤T<5,而n≥40时,需计算校正 值或改用四格
表资料的确切概率法计算;
2.按式(6-6)计算统计量 2
( f F )2 , F
2
值。
(6 6)
v k 3
式中f为各组段的实际频数J为由拟合曲线算得的各组段的理论 2 频数,k为用式(6-6)计算 值时所用F的个数,由于计算F 时,用了n、X 、S三个统计量,故v=k-3。当总体参数μ 及σ 已知时,则 v=k-l。 然后由u值附表1得Ф (u),它的意义是正态曲线下由-∞至u 的面积。相邻两Ф (u)之差值δ为各组段的相对频率,乘以n化 为理论频数F。
e
d 2 ,
0 2 ,
v 1,2,3, 。
(6 4)
积,如图6-l。
二、分布的分位数
2 当v确定后, 分布曲线下右侧尾部的面积P为指定值α时, 2 2 横轴上相应的界值 ,记作 (v ),如图6-l,这就是 2 分布的
分位数,此值有 界值表,即附表3。作 检验时,先求得 2 观察样本的统计量 值,然后按v由附表3查得 2 界值,与统 计量比较得到与统计量相应的P值。
检验水准为 α=0.10。
本资料的均数 X =4.1966,S=0.6737。 表6-1中第(3)列为各组段上下限处的u值,如第1组段的上限对 应的u=-1.85;
第(4)列Ф (u)系按第(3)列的u值由附表1查出。如u=-1.87时, 查表得Ф (-1.87)=0.0307,余仿此。
第(5)列δ为相邻两Ф (u)之差值。如第一组段2.65~2.95的相对频 数 δ=0.0322;而2.95~3.25组段的相对频数δ=0.0793-0.0322=0.0471; 余仿此,但最末组段5.35~5.65的δ=l—0.9582=0.0418。 第(6)列F是将第(5)列的相对频数乘以样本含量n化成的理论频数, 如第一行100仇0322)d.22,余仿此。注意第(5)、(6)列的6值与F 均写在相应组段中间,反映直方图上该直条的面积。
2
由式(6-9)可见, 值的大小,除决定于 A-T的差值外, 还取决于格子数(严格地说是自由度)的多少。格子数愈多, 2 值也会愈大。只有排除了这种影响, 值才能正确地反映A与 2 2 T的吻合程度。因此,在查附表 3时,要考虑自由度的大小。其 计算公式为:v=(行数一1)(列数一1),更确切地说v=(比 较组数一l)(分类组数一1)。四格表由2行2列组成,故v= (2—1)(2—l)=1。
F=nδ
注意∑F应与∑f相等或很相近,否则计算有误。求 2 值时一 般要求F不宜过小,比如不小于 5。因此常将 F值小的相邻组合 并,相应的f亦合并。
3.确定概率P并作出统计推论。
例6-l 某医学院校医随机抽取100名一年级医学生,测定空腹血 糖值(mmol/L),其频数分布如表6-l(教材62页)中第(1)栏 2 和第(2)栏所示,试用 检验判断该资料是否符合正态分布。 (l)建立检验假设和确定检验水准 H0:一年级大学生空腹血糖的实际频数与正态分布的理论频数 符合 H1:一年级大学生空腹血糖的实际频数与正态分布的理论频数 不符合
相关文档
最新文档