第六章+卡方检验-有序资料的卡方检验
医学统计学6卡方检验

进行拟合优度 x2 检验,一般要求有足够的样本含量,理论频数不小于 5 。
1
理论频数小于 5 时,需要合并计算。
2
注意事项
2
独立样本四格表的x2检验
3
行×列的x2检验
1检验
4
配对设计分类资料的x2检验
x2检验
四格表的卡方检验,也是通过计算代表实际频数A与理论频数T之间的吻合程度的卡方值来进行检验的。
行×列卡方检验计算公式
n为总例数;R和C分别为行数和列数;A为第R行、第C列位置上的实际频数;nR为实际频数所在行的行合计;nC为实际频数所在列的列合计。
STEP4
STEP3
STEP2
STEP1
SPSS软件操作
定义变量
输入原始数据
定义频数
选择数据→加权个案 频数→加权个案(频数变量)
输出2种相关系数: pearson相关系数 spearman相关系数
列联系数:分析行与列之间的关联程度
03
04
02
01
第4步:x2检验(2)
选择统计量按钮
在交叉表:统计量对话框:勾上卡方
第4步:x2检验(3)
选择单元格按钮 在交叉表:单元显示对话框:勾上观察值、百分比:行、列
第5步:结果解读(1)
如果出现上述情况,可以考虑:增大样本量;根据专业知识合理地合并相邻的组别;删除理论数太小的行列 ;改用其它方法分析,例如确切概率法或似然比卡方检验。
02
同四格表资料一样,R×C表的卡方分布是建立在大样本的假定上的,要求总例数不可过少,不能有1/5以上的格子理论频数小于5,且不能有一个格子的理论频数小于1。
01
行×列表卡方检验注意事项
行×列表卡方检验注意事项
卡方检验的基本原理

卡方检验的基本原理卡方检验是一种常用的统计方法,用于判断两个或多个分类变量之间是否存在显著性关联。
它基于卡方统计量的计算,通过比较实际观察值与理论预期值之间的差异来判断变量之间的关系。
本文将介绍卡方检验的基本原理及其应用。
一、卡方检验的基本原理卡方检验的基本原理是基于观察频数与期望频数之间的差异来判断变量之间的关联性。
在进行卡方检验之前,我们需要先了解以下几个概念:1. 观察频数(O):指实际观察到的频数,即实际发生的次数。
2. 期望频数(E):指在假设条件下,根据总体比例计算得到的预期频数。
3. 自由度(df):指用于计算卡方统计量的自由变量的个数。
卡方统计量的计算公式如下:χ² = Σ((O-E)²/E)其中,Σ表示对所有分类进行求和。
卡方统计量的计算结果服从自由度为(df = (行数-1) * (列数-1))的卡方分布。
通过查表或计算卡方分布的p值,我们可以判断卡方统计量是否达到显著水平。
二、卡方检验的应用卡方检验可以应用于多种场景,以下是几个常见的应用示例:1. 拟合优度检验:用于判断观察频数与期望频数之间的差异是否显著。
例如,我们可以使用卡方检验来判断一组数据是否符合某个理论分布。
2. 独立性检验:用于判断两个分类变量之间是否存在关联。
例如,我们可以使用卡方检验来判断性别与喜好之间是否存在关联。
3. 分类变量的比较:用于比较两个或多个分类变量之间的差异。
例如,我们可以使用卡方检验来比较不同地区的人口分布是否存在差异。
4. 配对数据的比较:用于比较配对数据之间的差异。
例如,我们可以使用卡方检验来比较同一组人在不同时间点的健康状况是否存在差异。
三、卡方检验的限制虽然卡方检验是一种常用的统计方法,但也存在一些限制:1. 样本量要求:卡方检验对样本量的要求较高,特别是在分类变量较多或期望频数较低的情况下,需要保证样本量足够大。
2. 数据独立性:卡方检验要求观察数据之间相互独立,如果数据存在相关性或依赖性,可能会导致检验结果不准确。
实验6-1 卡方检验

20
3. 配对四格表资料卡方检验
例4 用两种不同方法检查已确诊的乳腺癌患者120名,检 查结果见下表,问两种方法何者为优?
表3 两种乳腺癌诊断方法结果比较
乙法
甲法Leabharlann 合计+-
+
42
18
60
-
30
30
60
合计
72
48
120
21
data aa;
do a=1 to 2;
do b=1 to 2;
input x@@;
实际频数和理论频数。
;
proc freq;
weight x;
tables a*b/chisq expected norow nocol nopercent;
run;
因为有一个格子的理论频 数1<T<5,所以选择连续 性校正的结果。
此时,SAS结果中 会给出相应提示
行×列表卡方检验 关联性检验
双向无序分类资料的关联性检验
有序分组资料的线性趋势检验
例:某研究者欲研究年龄与冠状动脉粥样硬化等级间的关 系,将 278 例尸解资料整理成表 6-13,问年龄与冠状动脉 粥样硬化等级间是否存在线性变化趋势?
表 6-13 年龄与冠状动脉硬化的关系
年龄 (岁) (X)
冠状动脉硬化等级(Y) - + ++ +++ 合计
20~ 30~ 40~ ≥50 合计
• 有序分组
3
1. 完全随机设计四格表资料 (两样本率的比较)
• 例1 对甲、乙两种降压药进行临床疗效评价,将某时 间段内入院的高血压病人随机分为两组,每组均为100 人。甲药治疗组80位患者有效,乙药治疗组50位患者 有效,两种降压药有效率有无差别?
22第六章卡方检验

≤ (或
2
2 )< c
2 0.01 ,0.01<
p≤0.05,表明实际观察次数与理论次数差异显著,
实际观察的属性类别分配显著不符合已知属性类
别分配的理论或学说;
若 (或
2
2 c)≥
2 ,p 0.01
≤0.01,表明实际
观察次数与理论次数差异极显著,实际观察的 属性类别分配极显著不符合已知属性类别分配
第二节
适合性检验
一、适合性检验的意义
判断实际观察的属性类别分配是否符合
已知属性类别分配理论或学说的假设检验称
为适合性检验 。
在适合性检验中,无效假设
H0
:实际观
察的属性类别分配符合已知属性类别分配的理 论或学说; 备择假设
HA
:实际观察的属性类
别分配不符合已知属性类别分配的理论或学说。
在无效假设成立的条件下,按已知属性类 别分配的理论或学说计算各属性类别的理论次 数。 适合性检验的自由度等于属性类别数减1。 若属性类别数为 k,则适合性检验的自由度为 k-1。然后根据(6-1)或(6-2)式计 p T. i
2 i
其中,Ai为第 i 组的实际观察次数,pi 为 第 i 组的理论比例,T. 为总观察次数: T. Ai
将【例6· 2】按(6-3)式计算 :
2
A 1 T. T. pi
2 2 2 2 2 1 491 76 90 86 743 743 9 / 16 3 / 16 3 / 16 1 / 16
2 c
1650
2 c
1650
3、计算
c2
( A T 0.5)2 ( 390 412.5 0.5) 2 412.5
卡方检验

计数资料:又称为定性资料或无序分类变量资料,也称 名义变量资料,是将观察单位按某种属性或类别分组计 数,分别汇总各组观察单位数后而得到的资料,其变量 值是定性的,表现为互不相容的属性或类别。
计量资料:又称定量资料或数值变量资料,为观测每个 观察单位某项指标的大小而获得的资料。其变量值是定 量的,表现为数值大小,一般有度量衡单位(cm、mmhg、 次/分、单位等)。
2
(2 1)(2 1) 1
3. 确定P值,作出统计推断
查2界值表,得2 0.005,1=7.88, 2 > 2 0.005,1,P <0.005,按 = 0.05水准,拒绝H0 ,接受H1,差 异有统计学意义,可以认为两组的显效率不等
四格表资料2检验的条件
例:为比较西药与中药治疗慢性支气管炎的疗效,某医师将符合 研究标准的110例慢性支气管炎患者随机分为两组(两组具有可比 性),西药组86例,中药组24例。服药一个疗程后,观察患者的 疗效,结果见下表。根据显效率,该医师认为中西药治疗慢性支 气管炎的疗效有差别,中药组的疗效好于西药组
表1 中西药治疗慢性支气管炎的显效率
等级资料:将观察单位按某种属性或某个标志分组,然 后清点各观察单位个数得来。具有等级顺序。(-、+、++、 +++;治愈、好转、无效、死亡)
独立样本:一般情况下,比较两个(类)人之间的差异 就是独立样本。(实验组、控制组)
配对样本:1. 一个人的不同部位进行测试。2.前测后测 的情况属于相关样本(同一人先后测试a、b两种药物)。 3. 两个匹配样本的比较。(测试两人智力,控制语文成 绩相等)
组别 西药组 中药组 合 计 治疗人数 86 24 110 显效人数 35 18 53 显效率(%) 40.70 75.00 48.18
6 卡方检验

未知,故由样本去估计( 解 由于总体µ、σ未知,故由样本去估计(采用 点估计): 点估计):
µ = x =95.60 σ = S = 5.274
首先算出各组的理论频率: 首先算出各组的理论频率:
xi +1 − µ xi − µ pi = Φ − Φ σ σ
拟合优度检验(适合性检验) 第一节 拟合优度检验(适合性检验)
所谓拟合优度, 所谓拟合优度,就是指观察到的样本表现与某种理论 拟合优度 模型吻合的程度。 模型吻合的程度。拟合优度检验就是对观察的样本表现与 所选某种理论模型的拟合程度作推断判决。 所选某种理论模型的拟合程度作推断判决。 比如眼下有观察资料, 比如眼下有观察资料,需判明它是来自遵从何种分布 的总体,我们可以根据已有的经验对它作是“ 的总体,我们可以根据已有的经验对它作是“来自某种总 的假定(假设), ),即 体”的假定(假设),即 H0:F(x) = F0(x) 式中, 表示已知的某种分布, 式中,F0(x)表示已知的某种分布,如正态分布、二项分布、 表示已知的某种分布 如正态分布、二项分布、 χ2分布等。值得注意的是在这里建立统计假设不同于以前 分布等。值得注意的是在这里建立统计假设不同于以前 所作的假设检验, 所作的假设检验,前面作假设检验时总是选择欲否定的内 容作成立的假定; 容作成立的假定;而在这里我们通常是选择最有可能接近 的类型作成立的假设。 的类型作成立的假设。
组中值 组频率 f 理论频率 偏差量 83 3 2.381 0.619 86 6 5.637 0.363 89 12 12.40 -0.40 92 20 19.72 0.285 95 23 22.68 0.316 98 19 18.88 0.118 101 10 11.37 -1.37 104 5 4.952 0.048 107 2 1.981 0.019
第六章 卡方检验

• R*2 或2* C • 无序 • 在甲、乙两地进行水牛体型调查,将体型按优、良、中、劣 四个等级分类,其结果见P169表7-13。问两地水牛体型构 成比是否相同? • 表7-13 两地水牛体型分类统计 • 优 良 中 劣 • 甲 10 10 60 10 • 乙 10 5 20 10
• • • • • • • • • • • • • • •
2、选择Table Analysis,打开对话框
3、将A放在Row,将B放在Column,将freq放在Cell Counts
4、在Statistics中设置Exact Test检验,单击OK
5、结果如下,大致分为3部分,第一部分是频数和列百分比表;第二部分是四种 检验方法结果,p值都大于0.05水平;第三部分是Fisher精确检验结果,p值 位0.7246,远远大于0.05,可见判决情况与被告种族是没有关系的。
高级生物统计
• 第六章 卡方检验
列联表分析
使用Statistics菜单下的Table Analysis可以进行 列联表分析(即属性频数数据分析) 例1:为了考察法院判决是否与被告种族有关,调查了 326位被告的判决情况如表所示: 黑人 有罪 17 白人 19
无罪
149
141
1、首先建立数据集 Data panjue ; Input A B freq@@;\*其中A取1表有罪,2无罪;B 取1表黑人,2表白人*\ Cards; 1 1 17 1 2 19 2 1 149 2 2 141 ; Run;
•
Statistics for Table of r by c Statistic DF Value Prob Chi-Square 1 9.2774 0.0023 Likelihood Ratio Chi-Square 1 9.4190 0.0021 Continuity Adj. Chi-Square 1 7.9444 0.0048 Mantel-Haenszel Chi-Square 1 9.1615 0.0025 Phi Coefficient -0.3405 Contingency Coefficient 0.3224 Cramer's V -0.3405
第六讲卡方检验

+
(15- 22. 2) 2 22. 2
ς2=
(
b 2c b+
21) c
2
公式
(
8)
+
(22- 14. 14. 8
8)
2
=
13.
55
(3) 确定 P 值: 据 Μ= 1, 查 ς 2 界值表[4] (见
附表)
,
ς2 0.
05 (1)
=
3.
84, ς2>
3.
84, 得 P <
0.
05。
例 2: 用A (沙保罗氏) 和 B (沙保罗氏+ 放 线菌酮+ 庆大霉素) 两种培养基分别对 88 只豚 鼠皮肤真菌的生长情况进行观察, 比较两种培 养基对真菌的检出效果, 资料如表 5 所示。
四格表资料的 ς2 检验与 t 检验一样, 按照 设计方案的不同分为成组资料和配对资料的四 格表。 成组资料的四格表是将收集到的资料据 某种特征 (如吸烟与不吸烟) 而划分的两个组内 某现象 (如发病与不发病) 的频率分布归纳整理 成的表格 (表 1)。
表 1 成组设计资料的四格表
吸烟组 不吸烟组 合计
据公式 (2) 首先计算各个格子中的理论数
T RC, 本例
T 11=
28×39 65
=
16.
8
余类推, 得到 T 12, T 21, T 22, 见表 4 中 ( ) 内
数字, 然后, 利用公式 (1) 计算 ς2 值:
ς2=
(a+
b)
(ad2bc) 2n (c+ d) (a+ c)
(b+
d) 公式 (4)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
双向有序数据的分析(属性相同) 双向有序数据的分析(属性相同)
一致性检验-----kappa值 值 一致性检验
3×3 配对表 × 分别对72 例12、医生 和B分别对 、医生A和 分别对 名病人的治疗结果进行评 定,结果1, 2, 3分别表示有 结果 分别表示有 效、好转和无效。试分析 好转和无效。 两医生的疗效评定结果一 致吗? 致吗? A 1 1 2 3 17 5 10 B 2 4 12 3 3 8 0 13
0.346 + 0.346 − 0.251 S = = 0.007 2 72(1 − 0.346 )
2 2 ˆ k
S kˆ =
0 .007 = 0 .083
ASE
渐近标准误
z=K/Sk=0.362/0.091=3.98>2.58 P<0.01, 拒绝 0。 拒绝H
一致性检验方法----kappa 检验 一致性检验方法
1)统计假设和检验水准: )统计假设和检验水准:
H0: kappa系数 (不一致) 系数=0(不一致) 系数 α=0.05 H1: kappa系数≠0 系数≠ 系数
2)统计量: )统计量:
2 2
n11 n21 n31 C+1
I
n12 n22 n32 C+2
n13 n23 n33 C+3
R1+ R2+ R3+ N
θ 1 = ∑ p ii =
i =1
I
∑
i =1
nii
实际观察一致率 =实际观察一致数 总检查人数 实际观察一致数/总检查人数 实际观察一致数
N
I
θ 2 = ∑ pi + p+i =
i =1
I
∑
i =1
Ri +C+i N
2
随机一致率 :期望一致率 期望一致率
S k2 = ˆ
θ2 +θ
2 2
−
I
∑
i =1
p i+ p +i ( p i+ + p +i )
N (1 − θ 2 ) 2
1 I θ2 +θ22 − 3 ∑ Ri+C+i (Ri+ + C+i ) θ2 +θ22 − A N i=1 = = 2 N(1−θ2 ) N(1−θ2 )2
Sk:ASE Asymptotic Standard Error
I
θ1 =
∑
i =1
n ii N
=[17+12+13]/72=0.583
I
θ2 =
∑
i =1
Ri+ C +i N2
=[(29)(32)+(17)(19)+(26)(21)]/722 =1797/5184=0.346
ˆ = θ 1 − θ 2 =[0.583-0.346]/[1-0.346]=0.362 k =[0.583-0.346]/[11−θ2
S =
2 ˆ k
θ2 +θ − ∑ pi+ p+i ( pi+ + p+i )
2 2 i=1
I
N(1−θ2 )
2
1 I θ 2 + θ 22 − 3 ∑ Ri +C+i ( Ri + + C+i ) θ 2 + θ 22 − A N i =1 = = 2 N (1 − θ 2 ) N (1 − θ 2 ) 2
第六章
χ2检验—有序资料分析
双向有序数据的分析(属性不同) 双向有序数据的分析(属性不同)
1. 采用spearman等级相关分析 2. Cochran-Mantel-Haenszel Statistics或JonckheereTerpstra检验
【例】为了探讨劳动强度与骨质退行性变之间的关联性 为了探讨劳动强度与骨质退行性变之间的关联性 150 名对象的观察结果按两变量的各个水平交叉分类如表 表14.6 150名研究对象的劳动强度与骨质退行性变的交叉分类 150名研究对象的劳动强度与骨质退行性变的交叉分类 骨质退行性变 劳动强度 2 度 3 度 4 度 轻度 23 18 12 中度 14 26 13 重度 13 13 18 合计 50 57 43 Rank得分 Rank得分 25.5 79 129 (R1i)