第十二章 分类变量统计推断(2)卡方检验

合集下载

《卡方检验正式》课件

《卡方检验正式》课件

卡方检验的结果可以直接解释为实际意义 ,例如,如果卡方值较大,则说明观察频 数与期望频数存在显著差异。
缺点
对数据要求高
卡方检验要求数据量较大,且各分类的期望频数不能太小,否则可能 导致结果不准确。
对离群值敏感
卡方检验对离群值比较敏感,离群值可能会对结果产生较大的影响。
无法处理缺失值
卡方检验无法处理含有缺失值的数据,如果数据中存在缺失值,需要 进行适当的处理。
案例二:市场研究中的卡方检验
总结词
市场研究中,卡方检验用于评估不同市 场细分或产品特征与消费者行为之间的 关联。
VS
详细描述
在市场研究中,卡方检验可以帮助研究者 了解消费者对不同品牌、产品或服务的偏 好。例如,通过比较不同年龄段消费者对 某品牌的选择比例,企业可以更好地制定 市场策略和产品定位。
案例三:社会调查中的卡方检验
小,表示两者之间的差异越小。通常根据卡方值的概率水平来判断差异
是否具有统计学显著性。
02
卡方检验的步骤
建立假设
假设1
观察频数与期望频数无显著差异
假设2
观察频数与期望频数有显著差异
收集数据
从样本数据中获取观察频数 确定期望频数,可以使用理论值或预期频数
制作交叉表
将收集到的数据整理成二维表格形式,行和列分别表示分类变量
卡方检验的基本思想
01
基于假设检验原理
卡方检验基于假设检验的原理,通过构建原假设和备择假设,利用观测
频数与期望频数的差异来评估原假设是否成立。
02
比较实际观测频数与期望频数
卡方检验的核心是比较实际观测频数与期望频数,通过卡方值的大小来
评估两者之间的差异程度。
03

统计学-第十二章卡方检验

统计学-第十二章卡方检验
总体分布形态已知或可假 定,通常假设观察频数服 从多项分布。
避免误用与误判的建议
充分理解卡方检验的原理 和适用条件,避免在不满 足条件的情况下使用。
结合专业知识判断观察频数与 期望频数的差异是否具有实际 意义,避免过度解读统计结果 。
ABCD
在进行卡方检验前,对数据 进行充分的描述性统计分析 ,了解数据的分布特点。
统计学-第十二章卡方检验
目 录
• 第十二章概述 • 卡方检验的基本原理 • 卡方检验的应用场景 • 卡方检验的步骤与实现 • 卡方检验的优缺点及注意事项 • 实例分析与操作演示
01
第十二章概述
章节内容与目标
01
掌握卡方检验的基本原理和假设检验流程
02
了解卡方检验在不同类型数据中的应用
能够运用卡方检验进行实际问题的分析和解决
THANK YOU
卡方分布及其性质
卡方分布的定义
若$n$个相互独立的随机变量$X_1, X_2, ldots, X_n$均服从标准正态分布$N(0,1)$,则它们的 平方和$X^2 = sum_{i=1}^{n}X_i^2$服从自 由度为$n$的卡方分布,记为$chi^2(n)$。
期望和方差
$E(X) = n$,$D(X) = 2n$,其中$X sim chi^2(n)$。
运行分析
点击“确定”按钮,运行卡方检验分 析。
结果解读与报告撰写
结果解读
根据卡方检验的结果,判断各组分类数据的 分布是否存在差异,以及差异的显著性水平 。
报告撰写
将分析结果以文字、表格和图表的形式呈现 出来,包括研究目的、数据收集与整理过程 、卡方检验结果和结论等部分。同时,需要
注意报告的规范性和可读性。

分类变量的卡方检验方法及其适用条件

分类变量的卡方检验方法及其适用条件

分类变量的卡方检验方法及其适用条件分类变量的卡方检验是一种常用的统计方法,主要用于比较两个或多个分类变量之间是否存在关联或独立性。

其基本原理是通过比较观察到的频数与期望频数之间的差异,来判断变量之间的关联性。

适用条件:1. 样本量要求较大,一般每个类别的期望频数都应大于5。

2. 适用于离散型变量,且变量分类数不宜过多。

3. 适用于没有先验概率的假设情况。

4. 分类变量之间应相互独立,即没有混杂因素存在。

5. 适用于二分类或多分类的情况,但多分类时需要考虑分类之间的平衡性。

具体操作步骤如下:1. 提出原假设:H₀:总体X的分布函数为F(x)。

如果总体分布为离散型,则假设具体为 H₀:总体X的分布律为P{X=x}=p。

2. 将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取 A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5,而区间个数k不要太大也不要太小。

3. 把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和f1+f2+...+fk等于样本容量n。

4. 当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i 个小区间Ai的概率pi,于是,npi就是落入第i个小区间Ai的样本值的理论频数(理论值)。

5. 计算卡方统计量:卡方统计量是根据观察频数与期望频数的差异来计算的,具体计算方法是将每个小区间的观察频数与期望频数的差值的平方除以期望频数,然后求和。

6. 判断显著性:根据卡方统计量的大小和自由度,可以判断变量之间的关联性是否显著。

通常情况下,如果卡方统计量大于临界值(如、等),则可以认为变量之间的关联性是显著的。

以上内容仅供参考,建议查阅统计学相关书籍或咨询统计学专业人士获取更多专业解答。

《卡方检验》PPT课件 (2)

《卡方检验》PPT课件 (2)

2021/8/17
13
独立性检验
同时检测两个类别变量﹙X与Y﹚之间的关系时,其 目的在于检测从样本得到的两个变量的观察值,是 否具有特殊的关联。
检测同一个样本的两个变量的关联情形
2021/8/17
4
配合度检验
例1:某大学二年级的公共体育课是球类课 ,根据自己的爱好,学生只需在篮球、足 球和排球三种课程中选择一种。据以往的 统计,选择这三种课程的学生人数是相等 的。今年开课前对90名学生进行抽样调查, 选择篮球的有39人,选择足球的28人,选择 排球的23人,那么,今年学生对三种课程选 择的人数比例与以往不同?
2021/8/17
9
赞成 不赞成 行总和
男性 女性 列总和
fo11 =58 fo21 =62 C1=120
fo12 =42 fo22 =18 C2=60
R1=100 R2=80 T=180
2021/8/17
10
男性 女性 列总和
赞成
fo11 =58 Fe11 =66.7 fo21 =62 Fe21 =53.3 C1=120
卡方值越大,代表统计量与理论值的差异越大,
一旦卡方值大于某一个临界值,即可获得显著的
统计结论
2 f0 fe 2
fe
2021/8/17
7
篮球 足球 排球
观察次数(fo) 39
28
23
期望次数(fe) 30
30
30
2 (fo i fe i) 2 ( 3 9 3 0 ) 2 ( 2 8 3 0 ) 2 ( 2 3 3 0 ) 2 4 .4 6
虚拟化类别数据:由其它类型的数据型态转 换成类别形式的数据, 例如由连续变量转换 来的类别变量

《卡方检验》课件

《卡方检验》课件

制作交叉表
确定交叉表的行列变量
根据研究目的和内容,选择合适的行列变量,构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表,以便于进行卡 方检验。
计算理论频数
确定期望频数
根据交叉表中的数据,结合各组 的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理 论频数,为后续的卡方检验提供 依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值,该 值反映了实际频数与理论频数的差异 程度。
自由度的确定
在计算卡方值时,需要确定自由度, 自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标,通常选择0.05或0.01作为显著性水 平。
判断显著性
根据卡方值和自由度,结合显著性水平判断卡方检验的结果是否显著,从而得 出结论。
3.84、6.63等),可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前,需要明确研究 的目的和假设,以便有针对性地收集 相关数据。
根据研究目的和内容,制定合适的调 查问卷或建立数据收集程序,确保数 据的完整性和准确性。
详细描述
例如,在市场调研中,我们可以通过卡方检验来分析不同年龄段、性别、职业等 人群对于某产品的态度或购买意愿是否有显著差异,从而为产品定位和营销策略 提供依据。
实际案例二:医学研究中的应用
总结词
在医学研究中,卡方检验常用于病例 对照研究和队列研究中的分类变量关 联性分析。
详细描述
例如,在病例对照研究中,我们可以 通过卡方检验来比较病例组和对照组 在某些基因型、生活方式或暴露因素 上的分布是否有统计学差异,从而探 讨病因或危险因素。

统计学:卡方检验2

统计学:卡方检验2

二、拟合优度检验 (大样本)
拟合优度检验: 已知样本的频率分布,其总体分布是否等于 某理论分布? 步骤: 1.建立检验假设 原假设和对立假设分别为 H0:总体分布等于给定的理论分布 H1:总体分布不等于给定的理论分布
2.计算检验统计量
A:实际观察到的频数 T:根据H0 确定的理论频数 H0 成立时,统计量

2 k
( A1 T1 ) T1
2

( A2 T2 ) T2
2
( Ak Tk ) ... Tk
2
大样本时近似地服从2分布,自由度为 ν =κ -1-(计算Ti 时利用样本资料估计的参数个数) 大样本:实践中理论频数不能小于5 样本量不大时,连续性校正
( Ai Ti ) 2 Ti i 1
统计学:
统计学:2检验
2检验(chi square test),常用于分类变量资
料的统计推断。 理论依据: 2分布 (chi square distribution) 拟合优度检验 (goodness of fit test)
本章:单个频数分布的拟合优度检验 完全随机设计下两组频数分布的比较 多组频数分布的比较 配对设计下两组频数分布的比较 精确概率法: 2检验失效时用 不失效时用也可用
疗效 药物 兰芩口服液 银黄口服液 合计 有效 41 24 65 无效 4 11 15 合计 45(固定值) 35(固定值) 80
问题:这两个频数分布的总体分布是否相等?
2×2列联表(contingency table), 又称四格表
属性 处理 阳性 1 2 合计 阴性 合计
A11
(T11 )
A12
Φ (X2) (4) 0.00466 0.02275 0.08076 0.21186 0.42074 0.65542 0.84134 0.94520 0.98610 0.99744 —

统计学方法 卡方检验

统计学方法 卡方检验

统计学方法卡方检验
卡方检验是一种统计学方法,主要用于分类变量分析,包括两个率或两个构成比的比较、多个率或多个构成比的比较以及分类资料的相关分析等。

具体步骤如下:
首先,观察实际观测值和理论推断值的偏离程度,此处的理论值可以是预期的发生频率或概率。

实际观测值与理论推断值之间的偏离程度决定了卡方值的大小。

如果卡方值越大,说明实际观测值与理论值之间的差异越大;反之,则差异越小。

如果两个值完全相等,卡方值就是0,这表明理论值完全符合实际观测值。

此外,在没有其他限定条件或说明时,卡方检验通常指的是皮尔森卡方检验。

在进行卡方检验时,研究人员通常会将观察量的值划分成若干互斥的分类,并尝试用一套理论(或零假设)去解释观察量的值落入不同分类的概率分布模型。

卡方检验的目的就在于衡量这个假设对观察结果所反映的程度。

医学统计学分类变量资料的统计推断

医学统计学分类变量资料的统计推断
总体率未知的时候用
率的标准误的意义
▪ 率的标准误小,说明抽样误差较小,表示 样本率与总体率越接近;
▪ 率的标准误大,说明抽样误差较大,表示 样本率与总体率相距较远。
▪ 有研究者在某地采用随机整群抽样法获得 642名青少年,调查其留守情况,得出留守 率为16.98%,求其留守率的标准误。
▪ 已知n=642,p=0.1698,则
单侧α= 0.05
本例,n=304,p=0.316,π0=0.2,则有
u=5.06>1.645,p<0.05,则拒绝H0,接受H1,老年 胃溃疡患者出血率高于一般胃溃疡患者。
案例
▪ 某地调查了50岁以上吸烟者200人中患慢 性支气管炎者41人,患病率为20.5%;不 吸烟者162人中患慢性支气管炎者15人, 患病率为9.3%。
案例
▪ 2003年,某学校欲了解大学生乙肝表面抗原 携带情况以评价防控措施,随机抽取1000名 大学生,做乙肝表面抗原检查,查得乙肝表 面抗原阳性者52人,乙肝表面抗原阳性率为 5.2%,欲用此率推断该校大学生乙肝表面抗 原总体阳性率。

▪ 某校大学生乙肝表面抗原总体阳性率的 95%的可信区间:
分类变量资料的 统计推断
二项分布
▪ 考虑一系列彼此独立的随机试验,每次试 验只有两个可能发生的结果,且每种结果 发生的可能性是一定的,即发生和不发生 的概率分别是:和1- ,那么这n次试验 中发生或者不发生的次数服从二项分布。 (没有“排列”的意义,而体现了“组合” 的意义)
只有两个可能发生的结果
▪ 问题
➢ 据以上资料能否下结论说吸烟者慢性支气管炎 患病率高于不吸烟者?
➢ 用什么方法对两个率进行比较?
吸烟组和不吸烟组慢性支气管炎患病率比较
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算题3 常规培养 + - 合 计 27 1 28 8 74 82 35 75 110
乳胶 + - 合 计
配对资料且b+c<40 1.建立假设: H0: 两培养结果一致 H1: 两培养结果不一致 α=0.05 2.计算χ2值

2
( b c 1) bc
2

( 1 8 1) 1 8
T
2

( ad bc n / 2) n (a b)(c d )(a c)(b d )
2 2
例2 某医师用甲,乙两疗法治 疗脑血管梗塞,结果如下表 2,比较两种疗法的效果有 无差异。
表2 两种疗法的效果比较 疗法 甲 乙 痊愈数 25(26.57) 29(27.43) 未愈数 6(4.43) 3(4.57) 合计 31 32
2 χ 检验
卡方检验用途: 可以对两个率或构成比以及多 个率或构成比间的差异做统计 学检验
一. 四格表资料的检验
例1:某医生两种方法治疗肺癌,
出院后随访了24个月,甲疗法 治疗46例,乙疗法治疗了58例,
结果如下表1,问两种方法治疗肺
癌病人两年生存率有无差别?
表1 两种疗法的两年生存率比较 处理
能认为各总体率或总体构成比之
间总的来说有差别,但不能说明 它们彼此之间有差别或两两之间
有差别。
五.配对计数资料的卡方检验
例5 有50份咽喉涂抹标本,每份按同
样的条件分别接种于甲乙两种培
养基中,观察结核杆菌生长情况,
比较两种培养基的效果(如下表5)
表5两种培养基培养白喉杆菌的比较 乙
甲 + + 23(a) - 12(b) 合 计 35
2
2
例3 对214幢楼房居民的婴幼儿 712人体检,检出轻度佝偻病333例, 比较居室朝向与患病的关系(见下 表)问佝偻病患病情况在不同朝向 居室间有无差别?
表3 不同居室朝向与患病的关系比较 检查 居 室 朝 向 结果 患病 无病 合计 南 西 东 北 180 14 120 65 200 16 84 33 380 30 204 98 合计 379 333 712
A 28 9 n( 1) 109( nR nC 37 56 37 53
2 2 2 2
24 ... 1) 15.56 34 53
2
自由度ν=(3 – 1)(2 – 1) = 2
χ2 =15.56> χ2
0.05(2)=5.99
P<0.05,差异有统计学意义, 按α=0.05水准, 拒绝H0, 可 以三种药物疗效不同或不全相同。
3.发病率和患病率中会超过100%的 是 ( ) A 发病率和患病率都 B 患病率 C 发病率 D.两者都不会
X 1.96S
计算题1
比较槟榔煎剂和阿的平驱蛲虫的效 果,对45名蛲虫患者进行治疗,结 果如下,问两药疗效有无差别? 药物 有效 无效 治疗 槟榔 22 5 27 阿的平 12 6 18 合计 34 11 45
2
3.确定P值 自由度ν=(2 – 1)(4 – 1) = 3 χ2 =15.08> χ2 0.05(3)=7.841 P<0.05,差异有统计学意义, 按α=0.05水准, 拒绝H0, 可 以认为居室朝向不同,婴幼儿佝偻 病患病率有差别。
例4 某预防医学研究人员调查了335 例离退休老人的生活满意度和家庭 关系,结果如表4,试分析家庭关系 类型与老人生活满意度的关系
3.计算 χ2 值
( A T ) (22 25.21) (24 20.79) T 25.21 20.79 2 2 (35 31.79) (23 26.21) 1.62 31.79 26.21
2 2 2 2
4.确定P值,作出统计推论 自由度ν=(行-1)(列-1) = 2 χ2 = 1.62 < χ2 0.05(1) = 3.84, P > 0.05 ,差异无统计学意 义,按α=0.05 水准,不能拒绝H0, 故可以认为甲、乙两种治疗方法 的两年生存率无差别。
表4 家庭关系与生活满意度关系表
家庭 关系
满意度 满意 不满意 60
合计
%
和睦 174
234
74.36
一般

36
6
57
10 127
93 38.71
16 343 37.50 62.97
合计 216
检验步骤
1、建立假设: H0: 三种家庭类型老人生活满意 率相同 H1:三种家庭类型老人生活满意率 不同或不全相同 α=0.05
= 3.84,
P >0.05,差异无统计学意义,
认为两药疗效没有差异。
计算题2
比较三种药物驱虫疗效
药物 阴转 未阴转 合计 %
敌百 纯敌 28 18 9 20 37 75.7 38 47.4
灭虫
合计
10
56
24
53
34 29.4
109 51.4
1、建立假设: H0: 三种药物疗效相同 H1:三种药物疗效不同或不全相同 α=0.05
首先n>40且Tmin=18*11/45=4.4 故应该用校正公式 1.建立假设: H0:π1 = π2 H1: π1≠ π2
α=0.05
2.计算χ2

2
( 22 6 5 12 45 / 2) 45
2
2718 3411
0.05(1)
0.61
χ2 =0.61 < χ2
卡方检验基本公式

2
A T
T
2
A: 实际数 T: 理论数
卡方检验的基本思想是看理论数 与实际数的吻合程度
上述公式中卡方统计量的大小 取决于实际数和理论数的相差大 小情况,如果无效假设成立的话, 那么实际数和理论数不应该相差 过大,所以卡方统计量应该较小, 而如果卡方统计量越大,则越有 可能推翻无效假设而得出有统计 差异得结论。
二. 四格表专用公式
表2 甲乙两疗法两年生存率比较 处理 生存 死亡 合计

乙 合计
22(a)
35(c)
24(b)
23(d)
46 (a+b)
58 (c+d)
57(a+c) 47(b+d) 104(n)
四格表资料还可以用专用的果 实来计算卡方值
(ad bc) n (a b)(c d )(a c)(b d )
2
4.0
确定P值,作出统计推论 自由度ν=1 χ2=4.0 > χ2 0.05(1)=3.84 P < 0.05,差异有显著意义,按 α=0.05水准,拒绝H0,可以认为两 方法对110份乳品培养结果有差别。

生存
死亡
合计
%
22(25.21) 24(20.79) 46 47.83
乙 35(31.79) 23(26.21) 58 64.34
合计 57 47 104 54.81
卡方检验的基本思想
表1中22、24、35、23 四个数 字构成了四格表资料的四个基本 格子的数字,其余边合计和列合 计以及总的合计都可以根据该四 个数字推算出来,故该类资料被 称为四格表资料

2
( 25 3 6 29 63 / 2) 63
2
31 32 54 9
0.595
3. 确定P值,作统计推论
χ2 =0.595 < χ2
0.05(1)
= 3.84,
P >0.05,差异无统计学意义, 按 α=0.05水准,不拒绝H0,
认为两种疗效没有差异。
注意:当n<40或出现T<1时,校 正法也不行,要用精确检验法直
四格表的四格子里的数字是实际数, 在表1中四个数字旁边括号中的四 个数字为理论数,其含义是当无效 假设成立的时候,理论上两疗法各 有多少生存和死亡的人数。 若H0:π1= π2成立 →p1=p2=p
即假设两疗法无差别,生存率都是 等于合计的54.81%,那么
甲疗法治疗46人,则理论上有 46 ╳ 54.81%=25.21人生存 乙疗法治疗58人,则理论生有 58 ╳ 54.81%=31.79人生存, 故每个实际数所对应的理论数 算法是,该实际数对应的行和乘 列和再除以总的N样本含量。 即 TRC=nR nC / n

2
( b c 1) bc
2
行列表资料
A n( 1) nR nC
2
2
两大注意事项
1. 四格表四个格子数字是:( ) A. 两个样本率的分子和分母 B. 两个构成比的分子和分母 C. 两对实测阳性和阴性绝对数 D. 两对实测数和理论数
2、已知甲地老年人口比重比乙地大, 经标准化后的食管癌死亡率甲、乙 两地相等,那么 ( ) A.原食管癌死亡率是甲地高于乙地 B.原食管癌死亡率是乙地高于甲地 C.原食管癌死亡率是甲地等于乙地 D.无法判断
2

( 12 7 1) 12 7
2
0.84
3. 确定P值,作出统计推论 自由度ν=1 χ2=0.84 < χ2 0.05(1)=3.84 P >0.05,差异无显著意义, 按α=0.05水准,不能拒绝H0, 可以认为甲乙培养基结核杆菌生 长情况无差别。
小结
卡方检验是对计数资料进行统 计推断最常用的方法 四格表资料卡方检验(可以用于 两个率或构成比比较) 行列表卡方检验(可以用于多个 率或构成比比较)
四格表卡方检验的步骤
以例1为例
1.建立假设: H0: π1 = π2
H1: π1≠ π2
α=0.05
2.计算理论数
TRC n R .n c n
第 1行 1列 : 46×57/ 104= 25.21(T1,1) 依次类推 T1,2 = 20.79 T2,1 = 31.79 T2,2 = 26.21
相关文档
最新文档