5 卡方检验--医学统计学

合集下载

医学统计学公式整理简洁版

医学统计学公式整理简洁版1. 平均数（Mean）：一组数据的平均值，通过将所有值相加然后除以数据的个数得到。

公式：X̄=ΣX/n其中，X̄表示平均数，ΣX表示所有数据的总和，n表示数据的个数。

2. 中位数（Median）：一组数据的中间值，将所有数据按升序排列，如果数据个数为奇数，则中位数是中间的值；如果数据个数为偶数，则中位数是中间两个值的平均数。

3. 众数（Mode）：一组数据中出现次数最多的数值。

4. 标准差（Standard Deviation）：衡量数据的离散程度，计算每个数据值与平均值的差的平方和的平均值的平方根。

公式：σ=√(Σ(X-X̄)²/n)其中，σ表示标准差，Σ(X-X̄)²表示每个数据值与平均值的差的平方和，n表示数据的个数。

5. 方差（Variance）：标准差的平方。

公式：σ²=Σ(X-X̄)²/n6. 相关系数（Correlation Coefficient）：度量两个变量之间的线性关系的强度和方向。

相关系数的值介于-1和1之间，接近-1表示负相关，接近1表示正相关，接近0表示无线性相关。

7. t检验（t-test）：用于比较两组样本均值是否有显著差异。

8. 卡方检验（Chi-square test）：用于比较观察频数与期望频数之间的差异是否显著。

9. 线性回归（Linear Regression）：用于预测一个变量与另一个变量之间的关系，并且可以根据这个关系进行预测。

10. 生存分析（Survival Analysis）：用于分析事件发生的概率和时间关系，常用于研究患者生存率和治疗效果。

卡方检验医学统计学

卡方检验医学统计学卡方检验是医学统计学中最常用的检验方法之一，它可用于测量两组数据之间的关联性。

在研究中，我们常常需要探究二者之间是否存在某种关联，卡方检验就是我们解决这个问题的利器。

卡方检验的原理卡方检验的原理是基于期望频数和实际频数的差异来检验两个变量之间的关系。

期望频数指的是在假设两个变量独立的情况下，我们可以根据样本量和其他条件，计算出不同组之间的理论值。

而实际频数则是实验中观察到的实际结果。

卡方检验的步骤如下：1.建立零假设和备择假设。

零假设指的是假设两个变量之间不存在任何关系，备择假设则是反之。

2.确定显著性水平 alpha，通常取值为0.05。

3.构建卡方检验统计量。

计算方法为将所有观察值与期望值的差平方后，再除以期望值的总和。

4.根据自由度和显著性水平，查卡方分布表得到 P 值。

5.如果 P 值小于显著性水平，拒绝零假设；否则无法拒绝零假设。

卡方检验的应用卡方检验可以应用于多个领域，其中医学统计学是最为常见的一个。

卡方检验可以用来分析两个疾病之间的相关性或者测量一种治疗方法的效果。

举个例子，某药厂要研发一种新的药物来治疗心脏病。

为了验证该药的疗效，实验组和对照组各50 人。

在 6 个月的治疗后，实验组和对照组中分别有 10 人和 15 人痊愈了。

卡方检验的作用就在于此时可以用来检验两组之间的差异是否具有统计学意义。

除了医学统计学之外，卡方检验在社会学、心理学、市场营销、物理等领域也都有广泛应用。

卡方检验的限制虽然卡方检验被广泛应用于各种实验和研究中，但它也有着自己的限制。

其中比较明显的一点就是对样本量有一定的要求。

当样本量较小的时候，期望频数的计算就会出现一定的误差，进而导致检验结果不准确。

此外，在面对非常态分布数据时，卡方检验也会出现问题。

当数据呈现正态分布时，卡方检验的准确性最高。

然而，实际上，很多数据都呈现出非正态分布，这时需要使用一些修正方法来解决。

卡方检验是医学统计学中最常用的统计方法之一，它可以用来测量两个变量之间的关联性。

医学统计学课件-卡方检验

联合治疗 39 34.44 8 12.56 47 73.3 单纯治疗 57 61.56 27 22.44 84 73.3
合计
96
35
131 73.3
Trc
nr nc n
理论频数＝ 84 73.3%
χ2检验的基本思想(1)
通过构造A与T吻合程度的统计量来反映两样本率的差别!
实际数A
39
8
57
27
污染率 (%)
甲
6
23
29
79.3
乙
30
14
44
31.8
丙
8
3
11
27.3
合计
44
40
84
47.6
理论数的计算
实际数A
6
23
29
30
14
44
8
3
11
44
40
84
(52.4%) (47.6%)
理论数T
15.2 13.8
23.0 21.0
5.8
5.2
T
nR
nC N
nR nC N
2值的计算
实际数A
χ2检验相关问题－应用条件
某矿石粉厂当生产一种矿石粉石时，在数天内即有部分工人患职业性皮肤炎，在生产季节开始，随机抽取15名车间工人穿上新防护服，其余仍穿原用的防护服，生产进行一个月后，检查两组工人的皮肤炎患病率，结果如表，问两组工人的皮肤炎患病率有无差别？
χ2检验相关问题－应用条件
Total
When the variables are independent, the proportion in
both groups is close to the same size as the proportion

卡方检验--医学统计学

Value Measure of Agreement N of Valid Cases a. Not assuming the null hypothesis. Kappa .455 58
b. Using the asymptotic standard error assuming the null hypothesis.
Exact Sig. (1-sided)
Value Pearson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association McNemar Test N of Valid Cases a. Computed only for a 2x2 table 14.154b 11.836 14.550
供了完整的支持，此处只涉及两分类变量间关联程度的指
标，更系统的相关程度指标见相关与回归一章。
两分类变量间关联程度的度量
相对危险度RR：是一个概率的比值，指试验组人群反应阳性概率与对照组人群反应阳性概率的比值。数值为1，表明试验因素与
反应阳性无关联；小于1时，表明试验因素导致反应阳性的发生
率降低；大于1时，表明试验因素导致反应阳性的发生率增加。优势比OR：是一个比值的比，是反应阳性人群中试验因素有无的比例与反应阴性人群中试验因素有无的比例之比。当关注的事件发生概率比较小时（<0.1），优势比可作为相对危
df
.000
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 5. 16. c. Binomial distribution used.

卡方检验

51
卡方检验
■ 行×列表资料的χ2检验
多个样本率的比较例题某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效，资料见下表。问三种疗法的有效率有无差别？
52
卡方检验
■ 行×列表资料的χ2检验
多个样本率的比较
53
卡方检验
■ 行×列表资料的χ2检验
多个样本率的比较
4
卡方检验
χ2检验(Chi-square test)是现代统计学的创始人之一，英国人K . Pearson（1857-1936）于1900年提出的一种具有广泛用途的统计方法，可用于两个或多个率间的比较，计数资料的关联度分析，拟合优度检验等等。
5
卡方检验
■ χ2分布
χ2分布的概率密度函数：
62
卡方检验
多个样本率的比较
• 当分别取0.05，0.01，0.001，0.0001， 0.00001时，理论上出现假阳性的次数分别为 4999.5，999.9，99.9，9.99，0.99次。因此，只有取检验水准 0.00001的情况下才有可能避免假阳性的发生。
63
卡方检验
超几何分布
是一种散离型概率分布，常用于流行病学研究。
若总体含量为N例，其中有M例阳性，N-M例阴性，则从该总体中随机抽
取（每抽1例不予返回就抽下一例）含量为n的样本，其中恰有X例阳性
的概率为：
P(x)

C
x M

C
nx N M
C
n N
式中X的取值是从0与（n-N+M）之较大者开始直到n与M之较小者为止。
59
卡方检验
■ 行×列表资料的χ2检验多个样本率的比较（本例检验步骤）

医学统计学 -第09章卡方检验

0.4 f(x)
v=1
0.3
2分布
0.2
v=4
v=6 v=9
0.1
0.0
0
3
6
9
12
15 x
（2）计算检验统计量
2 (A T )2
T
(41 36.5625)2 (4 8.4375)2 (24 28.4375)2 (11 6.5625)2
36.5625
8.4375
28.4375
6.5625
理论基础：超几何分布，不属于卡方检验
谢谢
表慢性咽炎两种药物疗效资料
分组
兰芩口服液银黄口服液
合计
有效
41 24 65
无效
4 11 15
有效率（%） 91.11
68.57 81.25
合计
45 35 80
问题：两个总体有效率是否相等?
（1）建立检验假设 H0：π1=2 两药的总体有效率相同 H1：π1≠π2 两药的总体有效率不同检验水准=0.05
bc
= 1
若b+c<40，采用以下校正公式
2 (| b c | 1)2
= 1
bc
第三节行×列表资料的2检验
(一）R×C表最常见的形式是
2×C列联表（一般为2个构成比的比较） R ×2列联表（一般为多个样本率的比较）
R×C列联表2检验的原理与2×2列联表2 检验的原理完全一样
统计量计算公式
合计 40 30 32 102
有效率(%) 87.50 66.67 21.88 60.78
（1）建立检验假设，确定检验水准
H0 :1 2 3
H1
:
1
,

医学统计学——卡方检验

趋近于正态分布。
• ⑵χ2分布具有可加性：如果两个独立的随机变量X1和X2分别服从ν1和ν2的χ2分布，那么它们的和(X1＋X2)也服从(ν1＋ ν2)的χ2分布。
χ2 界值
• ν确定后，如果分布曲线下右侧尾部的面积为α时，则横轴上相应的χ2值就记作χ2 α，ν ，即χ2界值。其右侧部分的面积α表示：自由度为ν时， χ2值大于界值的概率大小。χ2值与P值的对应关系见χ2界值表(附表6)。χ2值愈大，P 值愈小；反之，χ2值愈小，P值愈大。
• T22=(c+d)×(1- PC)=(c+d)×(b+d)/n = 56×17/112=8.5
χ2检验的基本思想
• χ2检验实质上是检验A的分布与Ｔ的分布是否吻合及吻合的程度，χ2越小，表
明实际观察次数与理论次数越接近。
• 若检验假设成立，则Ａ与Ｔ之差不会很大，出现大的χ2值的概率Ｐ是很小的，若Ｐ≤α，就怀疑假设成立，因而拒绝它；若Ｐ＞α，则没有理由拒绝它。
不同自由度的χ2分布曲线图
图 8-1 不同自由度的χ2 分布曲线图
二、χ2检验的基本思想
• 例8-1 某中医院将112例急性肾炎病人随机分为两组，分别用西药和中西药结合方法治疗，结果见表8-1，问两种方法的疗效有无差别？
表8-1 两种方法治疗急性肾炎的结果
组别治愈例数未愈例数合计治愈率(%)
例8-2
• 某医师将门诊的偏头痛病人随机分为两组，分别采用针灸和药物两种方法治疗，结果见表8-3 ，问两种疗法的有效率有无差别？
两种疗法对偏头痛的治疗结果
疗法有效例数无效例数合计有效率(%)
针灸 33(30.15) 2(4.85) 35 94.29

医学统计学-卡方检验

医学统计学-卡方检验
卡方检验是一种常用的统计方法，用于比较观察值和期望值之间的差异。它在医学研究中有着广泛的应用，可以帮助我们验证假设、推断总体特征以及分析类别变量的相关性。
卡方检验的定义和原理
卡方检验是一种基于卡方分布的统计检验方法。它基于观察值与期望值之间的差异来判断样本数据与理论分布的拟合程度。
卡方检验的局限性和注意事项
• 卡方检验只能验证分类变量之间的关联性，不能验证因果关系。 • 卡方检验对样本足够大和数据分类合理的要求比较严格。 • 卡方检验结果受样本选择和观察误差的影响，需要谨慎解释。 • 在进行卡方检验前，需要对数据进行充分的清洗和准备。
结论和要点
卡方检验是一种常用的统计方法
卡方检验的应用领域
医学研究
卡方检验可以用来分析疾病的发生与某个因素之间的关联性，如吸烟与肺癌。
社会科学
卡方检验可以用来研究不同人群之间的行模式和态度偏好，如性别与政治观点。
市场调研
卡方检验可以用来分析消费者的购买偏好和市场细分，如年龄与产品偏好。
卡方检验的假设和前提条件
1 独立性假设
卡方检验基于观察值和期望值之间的差异来验证两个变量之间是否存在独立性。
它可以帮助我们验证假设、推断总体特征以及分析类别变量的相关性。
结果解读和意义
卡方检验的结果可以帮助我们了解变量之间的关系，并为决策提供依据。
应用广泛
卡方检验在医学研究、社会科学和市场调研等领域都有着重要的应用。
局限性和注意事项
卡方检验有一定的局限性，需要注意样本大小和数据分类的合理性。
4
比较卡方值和临界值
判断卡方值是否大于临界值，从而做出关于拒绝或接受原假设的决策。
卡方检验的结果解读和意义

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

两分类变量间关联程度的度量
Risk Estimate 95% Confidence Interval Value Odds Ratio for food (Yes / No) For cohort poison = Yes For cohort poison = No N of Valid Cases 3.000 2.500 .833 100 Lower .992 .987 .684 Upper
配对卡方检验
在 Pearson卡方检验中，对行列变量的相关性作了检验，
其中的行列变量是一个事物的两个不同属性。
实际应用中，还有一种列联表，其中的行列变量反映
的是一个事物的同一属性。例如把每一份标本分为两份，
分别用两种方法进行化验，比较两种化验方法的结果是否有本质不同；或分别采用甲、乙两种方法对同一批病人进行检查，比较此两种方法的结果是否有本质不同，此时要用配对卡方检验。
两分类变量间关联程度的度量
选中可得到RR值
两分类变量间关联程度的度量
结果分析
food * poison Crosstabulation poison Yes food Yes No Total Count Expected Count Count Expected Count Count Expected Count 10 6.4 6 9.6 16 16.0 No 30 33.6 54 50.4 84 84.0 Total 40 40.0 60 60.0 100 100.0
供了完整的支持，此处只涉及两分类变量间关联程度的指
标，更系统的相关程度指标见相关与回归一章。
两分类变量间关联程度的度量
相对危险度RR：是一个概率的比值，指试验组人群反应阳性概率与对照组人群反应阳性概率的比值。数值为1，表明试验因素与
反应阳性无关联；小于1时，表明试验因素导致反应阳性的发生
率降低；大于1时，表明试验因素导致反应阳性的发生率增加。优势比OR：是一个比值的比，是反应阳性人群中试验因素有无的比例与反应阴性人群中试验因素有无的比例之比。当关注的事件发生概率比较小时（<0.1），优势比可作为相对危
一致性检验
一般认为，当Kappa≥0.75时，表明两者一致性较好； 0.75>Kappa ≥0.4时，表明一致性一般；
Kappa<0.4时，表明两者一致性较差。
一致性检验
注意：
Kappa检验会利用列联表的全部信息，而McNemar 检验只会利用非主对角线单元格上的信息。因此，对于一致性较好，即绝大多数数据都在主对角线的大样本列联表，McNemar检验可能会失去实用价值。
格.sav）
两种方法的检测结果
乳胶凝集法免疫荧光法 + －合计 + 11 2 13 － 12 33 45 合计 23 35 58
配对卡方检验
首先建立数据文件，如下。
配对卡方检验
同理，由于是频数表数据，应该先用weight cases进行预
处理。
不能忘记哦！
配对卡方检验
在此选入频数变量即可进行下一步的分析。
卡方检验
中西医结合临床学院
公共卫生与全科医学教研室
卡方检验基础
2值的计算：
( A E) E
2
2
由英国统计学家Karl Pearson首次提出，故被称为Pearson 2 。
四格表卡方检验例1 某种药物加化疗与单用某种药物治疗的两种处
理方法，观察对某种癌症的疗效，结果见下表。
Exact Sig. (1-sided)
Value Pearson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association McNemar Test N of Valid Cases a. Computed only for a 2x2 table 14.154b 11.836 14.550
df
.000
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 5. 16. c. Binomial distribution used.
R×C表卡方检验
1979年某地发生松毛虫病，333例患者按年龄分为2 组，资料如下，分析不同年龄人群病变类型结构有无区别？（RxC.sav）某地松毛虫患者病变构成
df
Exact Sig. (1-sided)
.043
a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 6.40.
这是卡方检验的结果，说明吃食物与食物中毒相关。
验，其中行变量和列变量是一个事物的两个不同属性。在实际中，还有一种列联表，其行变量和列变量反映的是一个事物的同一属性的相同水平，只是对该属性各水平的区分方法不同。其特征是：行的数目和列的数目总是相同的。如果希望检验这两种区分同一属性的方法给出的结果是否一致，则不应当使用Pearson 2检验，而应该采用
Kappa一致性检验对两种方法一致程度进行评价。
一致性检验
结果分析
如果在crosstab过程的 statistics子对话框中勾选上Kappa 复选框，则有以下结果：
Symmetric Measures Asymp. a b Std. Error Approx. T Approx. Sig. .115 3.762 .000
配对卡方检验
配对卡方检验公式：
若b+c>40，则用公式：
2 ( b c ) 2= bc
若b+c≤40，则用公式：
=
2
( Байду номын сангаас c 1) bc
2
配对卡方检验
例2 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统性红斑狼疮患者血清中抗核抗体进行测定，结果见下表，问两种方法的检测结果有无差别？（配对四
四格表卡方检验
四格表卡方检验
四格表卡方检验
四格表卡方检验
结果分析
表示药物加化疗与单用药物治疗某种癌症的疗效比较的行 ×列表，除了观察值以外，还有期望值。
四格表卡方检验
结果分析
此为四格表2检验的结果，2＝6.508，P＝0.011，差异有显著性意义，即药物加化疗与单用药物治疗癌症的疗效有显著性差异。
（普通四格.sav）
两种治疗方法的疗效比较
疗效
处理药物加化疗单用药物合计有效 42 48 90 无效 13 3 16 合计 55 51 106
四格表卡方检验
首先建立数据文件，如下。
四格表卡方检验
注意：由于上表给出的不是原始数据，而是频数表数据，
应该进行预处理。
四格表卡方检验
四格表卡方检验
配对卡方检验
配对卡方检验
配对卡方检验
选中进行配对卡方检验
配对卡方检验
Chi-Square Tests Asymp. Sig. (2-sided) 1 1 1 .000 .001 .000 .000 13.910 1 .000 .013c 58 Exact Sig. (2-sided)
结果分析
Value Measure of Agreement N of Valid Cases a. Not assuming the null hypothesis. Kappa .455 58
b. Using the asymptotic standard error assuming the null hypothesis.
这就是两变量的四格表。
两分类变量间关联程度的度量
Chi-Square Tests Asymp. Sig. (2-sided) 1 1 1 .045 .084 .047 .055 3.978 100 1 .046 Exact Sig. (2-sided)
结果分析
Value Pearson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases 4.018b 2.979 3.937
结果分析
9.068 6.334 1.016
结果显示，OR＝3.00，说明吃了该食物者发生食物中
毒的可能性是没有吃该食物者的3.00倍？
四格表卡方检验
几种卡方检验的比较：连续性校正2检验：
仅适用于四格表资料，在n>40，所有期望频数均大于1，只有1/5单元
格的期望频数大于1小于5时；
Fisher精确概率法：
在样本含量<40或有格子的期望频数<1的列联表，应该采用该法；
似然比2检验：
当n>40，最小期望频数>5时，结论与Pearson 2基本一致；
年龄分组皮炎型骨关节型软组织炎型混合型合计
儿童组成人组
50 105
48 10
18 7
72 23
188 145
合计
155
58
25
95
333
R×C表卡方检验
对频数加权
R×C表卡方检验
R×C表卡方检验
R×C表卡方检验
结果
一致性检验
在Pearson 卡方检验中，对行变量和列变量的相关性作检
险度的近似。
两分类变量间关联程度的度量