38第二节单向表的卡方检验

合集下载

卡方检验 (Chi-square) 参数与非参数检验卡方匹配度检验卡方独立性检验卡方检验的前提和

单位格χ2
单位格χ2具有可加性单位格χ2大于2.5,说明该因素对整个统计
检验的显著贡献较大
卡方独立性检验
检验行和列的两个变量彼此有无关联是命名型变量, 顺序型变量相关的计算方
法
卡方独立性检验的公式
χ 2= ∑[<f0-f e>2/ f e]
f e=〔row total〕〔column total〕/n,
卡方分布
1. 是一系列平方和相加,没有负值 2. 当H0为真时,Chi square 的数值会小 3. 典型的卡方分布是正偏态,右侧的尾端构成临
界区域 4. 卡方分布的形状并不取决于样本数目,而是取
决于类目数目. df =C-1 5. 当卡方df 增加时,卡方的临界值增加. 6. 当卡方df 增加时,卡方分布的偏态越来越不严
性吗？
卡方匹配度检验的虚无假设-期望次数
在医生职业中,男的多还是女的多？在外科医生中,男的是否占80%？最喜欢的咖啡品牌
卡方匹配度检验的公式
f e=pn df =C-1 χ2= ∑[<f0-f e>2/ f e] F0：观察次数 f e ：期望次数 C：类目的个数 Χ2：统计量
χ2与效应大小〔effect size〕
Phi系数,范围0至1,是一种多元相关系数在2×2列联表时,
在多于2×2列联表时,
Phi系数:Cohen’s convension
当dfsmall=1时, Φ=0.10表示小的效应, Φ=0.30表示中等的效
应,Φ=0.50表示高的效应. 当dfsmall=2时, Φ=0.07表示小的效应, Φ=0.21表示中等的效
关系.每个个体被分类为出生顺序为1至3,及高自尊,低自尊.这个卡方独立性检验的自学生选课的因素有上述4种,哪些因素的影响力更强？

医学统计学--卡方检验

无效
51
49
35
45
59
15
145
109
合计 100 80 74 254
32
经过总的假设检验，拒绝了H0，因此，可进一步作两两
比较。
对比组西药组中药组
合计西药组中西药结合组
合计中药组中西药结合组
表三种疗法效率的两两比较
有效
无效
合计 2 值
51 35
49 45
100 80
0.94
86
若检验假设成立，实际频数与理论频数T的差值会小，则值H也0会
小；反之，若检验假设不成立，实际频数与理论频数的差2 值会大，
则值也会大。
H0
2
6
值2的大小还取决于
个数( A的多T少) 2（严格地说是自由度
T
的大小）。由于各
皆是正值，故自由度愈( 大A ，T )值2 也会愈
大；所以只有考虑了自由度的影响2，值才能正确地T 反映实际频
17
表7-2 两个变量阳性率比较的一般形式和符号
变量1 阳性阴性
变量2
阳性
阴性
a
b
c
d
合计
变量1的阳性率＝变量2的阳性率＝
m1
＝ n1 n
＝ m1 n
m2
ab
n
ac
n
合计
n1 n2
n （固定值）
18
变量1的阳性率－变量2的阳性率
ab
＝
－
n
ac
＝
n
bc n
c 可见，两个变量阳性率的比较只和、有关，b而与、
的Fisher确切概率法。

卡方检验法

记数数据统计法—卡方检验法在各个研究领域中，有些研究问题只能划分为不同性质的类别，各类别没有量的联系。

例如，性别分男女，职业分为公务员、教师、工人、……，教师职称又分为教授、副教授、……。

有时虽有量的关系，因研究需要将其按一定的标准分为不同的类别，例如，学习成绩、能力水平、态度等都是连续数据，只是研究者依一定标准将其划分为优良中差，喜欢与不喜欢等少数几个等级。

对这些非连续等距性数据，要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。

卡方检验是专用于解决计数数据统计分析的假设检验法。

本章主要介绍卡方检验的两个应用：拟合性检验和独立性检验。

拟合性检验是用于分析实际次数与理论次数是否相同，适用于单个因素分类的计数数据。

独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。

在计数数据进行统计分析时要特别注意取样的代表性。

我们知道，统计分析就是依据样本所提供的信息，正确推论总体的情况。

在这一过程中，最根本的一环是确保样本的代表性及对实验的良好控制。

在心理与教育研究中，所搜集到的有些数据属于定性资料，它们常常是通过调查、访问或问卷获得，除了少数实验可以事先计划外，大部分收集数据的过程是难于控制的。

例如，某研究者关于某项教育措施的问卷调查，由于有一部分教师和学生对该项措施存有意见，或对问卷本身有偏见，根本就不填写问卷。

这样该研究所能收回的问卷只能代表一部分观点，所以它是一个有偏样本，若据此对总体进行推论，就会产生一定的偏差，势必不能真实地反映出教师与学生对这项教育措施的意见。

因此应用计数资料进行统计推断时，要特别小心谨慎，防止样本的偏倚性，只有具有代表性的样本才能作出正确的推论。

第一节卡方拟合性检验一、卡方检验的一般问题卡方检验应用于计数数据的分析，对于总体的分布不作任何假设，因此它又是非参数检验法中的一种。

它由统计学家皮尔逊推导。

理论证明，实际观察次数（f o）与理论次数（f e），又称期望次数）之差的平方再除以理论次数所得的统计量，近似服从卡方分布，可表示为：这是卡方检验的原始公式，其中当f e越大（f e≥5）,近似得越好。

卫生统计学卡方检验

卫生统计学卡方检验
26/94
(一) 多个样本率比较
例3 某研究者欲比较A、B、C 三种方案治疗轻、中度高血压疗效，将年纪在50~70岁240例轻、中度高血压患者随机等分为3组，分别采取三种方案治疗。一个疗程后观察疗效，结果见表11.4。问三种方案治疗轻、中度高血压有效率有没有差异？
卫生统计学卡方检验
卫生统计学卡方检验
29/94
④ 确定P值
υ＝(3－1)(2－1)＝2，查 2 界值表得P<0.01。
⑤ 下结论
因为P<0.01，按α=0.05水准，拒绝H0，接收 H1，差异有统计学意义。即可认为三种方案治疗轻、
中度高血压有效率不等或不全等
卫生统计学卡方检验
30/94
例某市重污染区、普通污染区和农村出生婴儿致畸情况以下表，问三个地域出生婴儿致畸率有没有差异？
① 建立假设 H0：π1=π2 H1：π1≠π2
② 确定检验水准
α=0.05
③ 计算统计量 2 值
2(2 62-73 6-7 1/2 )27 12 .7 5 3 33 86 29
④ 确定P值
υ＝(2－1) (2－1)＝1，查 2界值表得P>0.05。
卫生统计学卡方检验
24/94
⑤ 下结论因为P>0.05，按α=0.05水准，不拒绝H0，差异无统计学意义。尚不能认为甲、乙两疗法对小儿单纯性消化不良治愈率不等。
9/94
TRC
nR nC n
n R 为对应行累计
n C 为对应列累计
n 为总例数。
卫生统计学卡方检验
10/94
表1 两药治疗消化道溃疡4周后疗效
卫生统计学卡方检验
11/94

统计学卡方检验

个体化干预
根据分析结果，为患者提供个体化的干预措施，提高生存质量。
06
卡方检验注意事项及局限性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求，通常建议每个单元格的期望频数不小于5，以确保检验结果的稳定性和可靠性。当样本量不足时，可能会导致检验效能降低，增加第二类错误的概率。
抽样方法选择
在进行卡方检验时，应选择合适的抽样方法。简单随机抽样是最常用的方法，但在某些情况下，如分层抽样或整群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时，可以考虑合并相邻的类别，以增加期望频数。合并类别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验，如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件，如样本量足够大、每个单元格的期望频数不宜过小等。此外，对于有序分类变量或存在空单元格的情况，需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法，用于推断两个或多个分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时，可以采用等距分组、等频分组或基于数据分布的分组方法。选择合适的分组界限有助于保持各组之间的均衡性，减少信息损失。

卡方检验

表7-1 两种疗法疗效的比较的四格表(four-fold table)
分组
试验组对照组合计
疗效
有效无效
99
5
75
21
174
26
合计
104 96 200
有效率
95.20% 78.13% 87.00%
πA = πB
pA ≠ pB
pA = pB?
πA ≠ πB ?
表7-1 两种疗法疗效的比较的四格表(four-fold table)
1＋ 2－
4
－
＋
3＋
3＋
…
…
…
…
…
n
－
＋
n1 ＋ n2 ＋
配对四格表的χ2检验（McNemar's test）
例7-3 分析目的：两法有无差别假设（＋,－）与（－,＋）两格子理
论频数相等均为：
Q. McNemar 1900－1986 美国心理学家统计学家
配对四格表的χ 2检验
HH01α：：=BB0.＝ ≠0C5C。或或两两种种方方法法检检出出率率不相同同 b＋c≥40：
2. Scheffè可信区间法 3. Bonferroni法：调整检验水准
– k=R（R－1）/2，α’＝α/k
– 例7-9： α’＝0.05 / 3=0.0167 – 结果保守 4. SNK检验：参照定量资料的原理
χ2检验的其它应用
拟合优度检验（goodness of fit）
– 判断实际频数与理论频数的吻合程度 – 应用：
是否为小概率事件，以判断假设检验是否成立。
χ2分布（chi-square distribution）
第二节普通四格表χ 2检验与专用公式

第十章卡方检验

19
第二节单向表的卡方(χ2)检验
二、一个自由度的χ2检验
检验的步骤：
（2）计算χ2值
本例df=1，两组的理论频数均为ft=38>5。
2

f0 ft 2
ft
表10.4 喜欢与不喜欢体育人数的χ2值计算表
f0 ft f0-ft (f0-ft)2 (f0-ft)2/ ft
喜欢 50 38 12 144 3.79 不喜欢 26 38 -12 144 3.79
f0 ft 2
求χ2=5.202
ft
29
第二节单向表的卡方(χ2)检验
三、频数分布正态性的χ2检验检验的步骤：（3）统计决断正态性χ2检验的自由度df=K-3。K是合并后保留下来的组数。 df=7-3=4。自由度df=K-3的原因： 1单向表的χ2检验受到∑(f0-ft)=0一个因子的限制。 2应用Z=(X-X)/ σX的公式计算理论频数时，运用了X和 σX两
12 16 4
3.5
12.25 12.25/16=0.77
非团员 8 4 4
3.5
12.25
12.25/4=3.06
总和 20 20
χ2=3.83
25
第二节单向表的卡方(χ2)检验
二、一个自由度的χ2检验 2、某组理论频数ft<5的情况检验的步骤：（3）统计决断根据df=1，查χ2值表，χ2(1)0.05=3.84，由于χ2=3.83<3.84=χ2(1)0.05，则P>0.05，于是保留H0而拒绝H1。其结论为：该校共青团员的比率与全区没有显著性差异。
4
第一节卡方(χ2)及其分布
比率和比率之差的假设检验，是对二项分布数据的假设检验。 ——处理一个因素分成两类， ——或者两个因素，每个因素都分为两类的资料。 ——最多只能同时比较两组比率的差异。

卡方检验 PPT

卡方检验基础
2值的计算：
2 (A E)2 E
由英国统计学家Karl Pearson首次提出，故被称为Pearson 2 。
卡方检验基础－卡方分布
当n比较大时， 2 统计量近似服从k-1个自由度的2分布。
在自由度固定时，每个2值与一个概率值（P 值）相对应，
此概率值即为在H0成立的前提下，出现这样一个样本或偏
相关问题－两个率或构成比的比较
❖ 这是一个比较两个性别的职位构成比是否相同的统计学问题，要用Descriptive中的Crosstabs实现，与单个率的比较不同。
相关问题－两个率或构成比的比较
❖ 分别指定行列变量到Row（s）和Columns中。
相关问题－两个率或构成比的比较
相关问题－两个率或构成比的比较
离假设总体更远的样本的概率。如果P 值小于或等于显著
性水准，则拒绝H0，接受H1，即观察频数与期望频数不一
致。如果P 值大于显著性水准，则不拒绝H0，认为观察频数与期望频数无显著性差异。P 值越小，说明H0假设正确的可能性越小；P 值越大，说明H0假设正确的可能性越大。
卡方检验基础
利用单样本均值比较的t检验，可以检验样本所在总体
检验某个分类变量各类的出现概率是否等于指定概率检验两个分类变量是否相互独立，如吸烟是否与呼吸道疾病有关检验控制某种或某几种分类变量因素的作用之后，另两个分类变量是否独立，如上例控制年龄、性别之后，吸烟是否与呼吸道疾病有关检验两种方法的结果是否一致，如两种诊断方法对同一批人进行诊断，其诊断结果是否一致
相关问题－两个率或构成比的比较
例2 某妇女联合会向工会提出质疑，认为该公司在对女性员工的职位安排上存在歧视，因为该公司216名女性雇员中，只有10人为经理，其余206名为办事员；而 258名男性雇员中，74名为经理。但是工会说，男女间职位类别比例的差异，只是一个随机误差，并不是真的存在性别歧视。哪种说法才是正确的呢？（数据见 employee data.sav）

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

例2：教科书第229页。
解：在这里需要检验各分类之间有没有差异，先假
设各项分类的频数相等，因此各项分类的理论频数为：
ft N K 52 3
2 2 2
17 . 33

2
（ 28 17 . 33 ）（13 17 . 33 ） (11 17 . 33 ) 17 . 33 17 . 33 17 . 33
三、χ2的抽样分布
• χ2分布有以下几个特点： • （1）χ2分布呈正偏态，右侧无限延伸，但永不与基线相交。 • （2）χ2分布随自由度的变化而形成一簇分布形态。 • 自由度越小，χ2分布偏斜度越大；自由度越大，χ2分布形态越趋于对称。
第二节单向表的卡方检验
• 把实得的点计数据按一种分类标准编制成表
2
第三步：统计决断根据df=2-1=1查χ 2值表（附表7）,得
（1）。 3 . 84 0 05
2
（1）。 6 . 63 0 01
2
因为χ 2=4.08*>3.84，p<0.05，按照统计决断的一般规则，则应拒绝零假设，因此其结论为：今年升学的男女生人数比例不符合该校长的经验。
例2：教科书第230页。
例2：
教科书232页。
9 . 96
根据df=K-1=2查附表7，得

2 （ 2）。 0 05
5 . 99
（ 2）0。 9 . 21 01
2
再将实际计算得的χ 2值与临界值比较。因为
χ 2=9.96**>9.21，p<0.01，因此应拒绝零假设，其结论为：该班学生对思想品德课的3种意见之间有极
其显著的差异。
就是单向表。对于单向表的数据所进行的卡方检验
就是单向表的卡方检验，即单因素的卡方检验。
第二步：计算χ 2值因为根据零假设，则男女生的理论频数为：
f t1 118 41）（
f t 2 118 41）（
22 31 3 Nhomakorabea106 53

2
（118 106 ）（ 41 53 ） 4 . 08 106 53