17 第十三章分类数据的假设检验

合集下载

数据分析报告中的假设检验与结果解读方法

数据分析报告中的假设检验与结果解读方法在当今数字化的时代，数据成为了企业和组织决策的重要依据。

数据分析报告则是将数据转化为有价值信息的关键工具。

其中，假设检验与结果解读是数据分析报告中的核心环节，它们能够帮助我们从数据中得出可靠的结论，并为决策提供有力支持。

一、假设检验的基本概念假设检验是一种统计方法，用于根据样本数据来判断关于总体的某个假设是否成立。

简单来说，就是我们先提出一个关于总体的假设，然后通过收集样本数据来检验这个假设是否合理。

假设通常分为原假设（H₀）和备择假设（H₁）。

原假设是我们想要拒绝的假设，而备择假设则是我们希望证明的假设。

例如，我们假设某种新药物对治疗某种疾病没有效果（原假设），那么对应的备择假设就是这种新药物对治疗该疾病有效果。

二、假设检验的步骤1、提出假设首先，需要明确我们要研究的问题，并根据问题提出原假设和备择假设。

这一步非常关键，因为假设的合理性直接影响到后续的检验结果。

2、选择检验统计量根据数据的类型和研究的问题，选择合适的检验统计量。

常见的检验统计量包括 t 统计量、z 统计量等。

3、确定显著性水平显著性水平（α）是我们在进行假设检验时预先设定的一个阈值，用于判断是否拒绝原假设。

通常，我们将显著性水平设定为 005 或 001。

4、计算检验统计量的值根据样本数据，计算出所选检验统计量的值。

5、得出结论将计算得到的检验统计量的值与临界值进行比较。

如果检验统计量的值落在拒绝域内，我们就拒绝原假设，接受备择假设；否则，我们就不能拒绝原假设。

三、常见的假设检验方法1、单样本 t 检验用于检验单个样本的均值是否与某个已知的总体均值相等。

例如，一家公司声称其产品的平均使用寿命为 5000 小时。

为了验证这一说法，我们随机抽取了一定数量的产品进行测试，计算样本的平均使用寿命，并通过单样本 t 检验来判断该公司的声称是否可信。

2、独立样本 t 检验用于比较两个独立样本的均值是否有显著差异。

分类资料的假设检验课件

实例一：卡方检验的应用
01
02
03
04
卡方检验是一种常用的分类资料假设检验方法，用于比较两个或多个分类变量的关联性。
卡方检验的适用条件是样本量足够大，且观察频数不能太小
。
卡方检验的结果通常以卡方统计量、自由度和显著性水平来
表示。
卡方检验可以用于分析分类变量之间的独立性、一致性和差
异性等。
实例二
Fisher's exact 检验是一种适用于小样本或极端情况下的分类资料假设检验方法。
Fisher's exact 检验的结果通常以P值来表示，如果P值小于显著性水平，则拒绝原假设。
Fisher's exact 检验适用于分析两个分类变量的关联性，特别是当期望频数小于5时。
Fisher's exact 检验在遗传学、流行病学等领域应用广泛。
等级变量
对于等级变量，应选择适合的秩和检验、方差分析等方法。
连续变量
对于连续变量，应选择适合的t检验、方差分析等方法。
多因素分析的复杂性
交互作用
在多因素分析中，各因素之间可能存在交互作用，导致分析结果复杂化。
多元比较
多因素分析需要进行多元比较，增加了分析的复杂性。
05
分类资料假设检验的未来发展与展望
与未发生组的比值。
风险比和优势比的检验在医学、社会学等领域应用广泛，用于评估疾病风险、治疗效应等。
04
分类资料假设检验的注意事项与挑战
样本量与检验效能
样本量
样本量的大小直接影响检验效能，样本量过小可能导致检验效能不足，无法准确判断差异是否存在。
检验效能
检验效能是指假设检验能够正确判断差异存在的概率，检验效能越高，判断正确的可能性越大。

《假设检验检验》课件

《假设检验检验》PPT课件
数据分析中的假设检验
什么是假设检验
假设检验是一种统计方法，用于通过样本数据来推断总体参数的性质。它可以帮助我们判断一个观察结果是由偶然因素引起的，还是真实存在的差异。
假设检验的步骤
1
2. 选择检验统计量
2
选择适合问题的检验统计量，如t值、
z值等。
3
4. 计算统计量
4
利用样本数据计算检验统计量的值。
5
6. 得出结论
6
根据决策，得出关于总体参数的结论。
1. 建立假设
确定原始假设和备择假设，描述总体参数的状态。
3. 设定显著性水平
选择显著性水平，决定拒绝原始假设的界限。
5. 做出决策
根据检验统计量的值和显著性水平，决定是否拒绝原始假设。
常用的假设检验方法
单样本t检验
结论的解释
根据结果的解释，得出关于总体参数的结论，并提供相应的推论。
实例演示及应用场景
通过具体的实例演示，展示假设检验在各个领域的应用，如医学、市场研究、环境保护等。
总结与展望
假设检验是数据分析中重要的工具之一，它可以帮助我们做出科学的决策，并推动各个领域的发展。未来，我们可以进一步研究和改进假设检验方法，提高其效能和适用性。
用于比较一个样本的平均值与已知值或者另一个样本的平均值。
独立样本t检验
用于比较两个独立样本的平均值是否存在显著差异。
相关样本t检验
用于比较两个相关样本的平均值是否存在显著差异。
如何解读假设检验结果
拒绝原始假设
如
接受原始假设
如果检验结果的p值大于等于显著性水平，我们接受原始假设。

分类资料的假设检验(ppt 41页)

H0：两种药物的总体有效率相等， π1=π2；
H1：两种药物的总体有效率不相等，π1≠π2,
α=0.05。
16
计算理论频数
处理试验药对照药合计
有效例数无效例数合计有效率（%）
100( 91.6) 13 113
88.5
80
29 109
73.4
180
42
222
81.1
TRC

R×C表的卡方检验
理论数不能小于1；理论数大于1小于5的格子数不超过总格子数的1/5。增加样本含量；Fisher确切概率法；删去；合并
33
多个率或构成比的比较
多个率的比较多个构成比的比较行列表检验的注意事项
34
8.3多个率的比较
表8.5 三个剂量失眠药物治疗失眠有效率比较
bc 4 215
29
Fisher精确概率法（exact test)
表8.4 两种剂型妥布霉素治疗细菌性结膜炎结果比较
组别即型凝胶
眼药水
合计
有效数 10(a) 9(c)
19(a+c)
无效数 4(b) 7(d)
11(b+d)
合计 14(a+b) 16(c+d)
30(n)
有效率（%） 71.43 56.25
处理试验药对照药合计
有效例数无效例数合计有效率（%）
100( a) 13(b) 113
88.5
80(c) 29(d) 109
73.4
180
想 Basic logic
一个正常的骰子，抛出后得到六个面的概率均为1/6。因此，要判定一个骰子是否合格，可以通过抛骰子的方法来进行；

假设检验PPT课件

假设检验
【学习目标】通过对本章的学习，掌握假设检验的概念和类型、假设检验的两类错误和假设检验的一般步骤；重点掌握单个总体均值的检验和比率的检验。
第一节假设检验的基本问题第二节 △ 假设检验的应用
假设检验
第一节假设检验的基本问题
一、假设检验的概念二、假设检验的两类错误三、假设检验的类型四、假设检验的类型一般步骤
假设检验
第一节假设检验的基本问题
什么小概率？
1.在一次试验中，一个几乎不可能发生的事件发生的概率； 2.在一次试验中小概率事件一旦发生，我们就有理由拒绝原假设； 3.小概率由研究者事先确定。
假设检验
第一节假设检验的基本问题
二、假设检验的两类错误（决策风险）
（一）第一类错误第一类错误，亦称拒真（弃真）错误。是指当原假设为真时，但由于样本的随机性使样本统计量的具体值落入了拒绝区域，这时所作的判断是拒绝原假设。犯第一类错误的概率亦称拒真概率，它实质上就是前面
t
986 1000 24
2.333＞
t n 1 2.1315
16
2
所以接受 H1，即这天包装机工作不正常。
假设检验
第二节假设检验的应用
二、单个总体比率（成数）的假设检验
比率P是平均数的一种特殊形式，因而前面讲的平均数检验理论都适用于总体比率P的假设检验，只是估计量的形式略有不同。
【例4】我国出口的参茸药酒畅销于某国市场。据以往调查，购买此种酒的顾客中40岁以上的男子占50%。经营该药酒的进出口公司经理关心这个比率是否发生了变化，于是，委托一个咨询机构进行调查，这个咨询机构从众多购买该药酒的顾客中随机抽取了400名进行调查，结果有210名为 40岁以上的男子。试问在0.05的显著水平上，能否认为购买此种药酒的顾客中40岁以上男子所占比率变化了？

假设检验《统计学原理》课件

图b
X＝X1＞X0
H0为伪
从上图可以看出,如果临界值沿水平方向右移,α将变小而β变大,即若减小 α错误,就会增大犯β错误的机会；如果临界值沿水平方向左移,α将变大而 β变小,即若减小β错误,也会增大犯α错误的机会,
a 错误和错误的关系
在样本容量n一定的情况下,假设检验不能同时做到犯α和 β两类错误的概率都很小,若减小α错误,就会增大犯β错误的机会；若减小β错误,也会增大犯α错误的机会,要使α和 β同时变小只有增大样本容量,但样本容量增加要受人力、经费、时间等很多因素的限制,无限制增加样本容量就会使抽样调查失去意义,因此假设检验需要慎重考虑对两类错误进行控制的问题,
参数假设检验举例
例2：某公司进口一批钢筋,根据要求,钢筋的平均拉力强度不能低于2000克,而供货商强调其产品的平均拉力强度已达到了这一要求,这时需要进口商对供货商的说法是否真实作出判断,进口商可以先假设该批钢筋的平均拉力强度不低于2000克,然后用样本的平均拉力强度来检验假设是否正确,这也是一个关于总体均值的假设检验问题,
假设检验的两类错误
正确决策和犯错误的概率可以归纳为下表：
假设检验中各种可能结果的概率
H0 为真
接受H0
1-α 正确决策
拒绝H0,接受H1
α 弃真错误
H0 为伪
β 取伪错误
1-β 正确决策
•假设检验两类错误关系的图示
以单侧上限检验为例,设H0 ：X≤X0 , H1：X＞X0
图a X≤X0 H0为真
a
H0值
样本统计量临界值
观察到的样本统计量
5、假设检验的两类错误
根据假设检验做出判断无非下述四种情况：
1、原假设真实, 并接受原假设,判断正确； 2、原假设不真实,且拒绝原假设,判断正确； 3、原假设真实, 但拒绝原假设,判断错误； 4、原假设不真实,却接受原假设,判断错误, 假设检验是依据样本提供的信息进行判断,有犯错误的可能,所犯错误有两种类型：第一类错误是原假设H0为真时,检验结果把它当成不真而拒绝了,犯这种错误的概率用α表示,也称作α错误 αerror 或弃真错误, 第二类错误是原假设H0不为真时,检验结果把它当成真而接受了,犯这种错误的概率用β表示,也称作β错误 βerror 或取伪错误,

统计学假设检验概念和方法

临界值
H0值
计算出旳样本统计量
样本统计量
右侧检验旳P 值
抽样分布
置信水平
拒绝域
1 -
P值
H0值
临界值计算出旳样本统计量
利用 P 值进行检验
(决策准则)
1. 单侧检验
– 若p-值 ,不拒绝 H0 – 若p-值 < , 拒绝 H0
2. 双侧检验
– 若p-值 /2, 不拒绝 H0 – 若p-值 < /2, 拒绝 H0
零假设总是一种与总体参数有关旳问题，所以总是用希腊字母表达。有关样本统计量如样本均值或样本均值之差旳零假设是没有意义旳，因为样本统计量是已知旳，当然能说出它们等于几或是否相等
提出原假设和备择假设
什么是备择假设？(alternative hypothesis) 1. 与原假设对立旳假设，也称“研究假设” 2. 研究者想搜集证据予以支持旳假设总是有不
（单尾和双尾）
是
z 检验
Z X 0 n
总体均值旳检验
(检验统计量)
总体是否已知？
大
z 检验
Z X 0
Sn
否
样本容量 n
小
用样本标准差S替代
检验
t X 0 Sn
总体均值旳检验
(2 已知或2未知大样本)
1. 假定条件
– 总体服从正态分布 – 若不服从正态分布, 可用正态分布来近似
– 右侧检验时，P-值为曲线上方不小于等于
检验统计量部分旳面积
3. 被称为观察到旳(或实测旳)明显性水平
– H0 能被拒绝旳旳最小值
双侧检验旳P 值
/ 2 拒绝
1/2 P 值
/ 2 拒绝
1/2 P 值

分类变量的假设检验

例8
例8
Z值及P值
（四）等级资料的比较
（数学公式请参见有关SPSS说明书） 2.双向有序等级资料的比较
Spearman等级相关是基于秩次的非参数相关分析。目的：用非参数的方法检验两个变量的相关性。
主要适用于以下情况：
1.对于数值型变量，X及Y严重偏离正态分布； 2.等级资料的相关分析。
例9 492例患者硅沉着病的不同期次与肺门密度级别资料如下，试检验两者有无相关（见数据文件P166.sav）。
Crosstabs菜单
交叉表
Crosstabs对话框
行
列
Statistics对话框
卡方检验
Cell对话框
行百分比
治愈率
Pearson卡方检验
P值
0格理论数小于5，最小理论数为23.97。
数据文件p229.sav (基于整理后的四格表数据)
变量说明：group:组别，1=旧剂型，2=新剂型；effect: 疗效，1=治愈，2=未愈；freq：频数。
例5 方法二（SPSS菜单：Nonparametric Tests）推荐
b+c >25,则给出2检验及P值
（三）完全随机设计的多个样本比较
假设检验的目的推断多个总体率是否相等例6 某省从3个水中氟含量不同的地区随机抽取10～12 岁儿童，进行第一恒齿患病率的调查，问3个地区儿童第一恒齿患病率是否不同？
SPSS软件操作过程
例1 某中药在改变剂型前曾在临床观察152例，治愈129例，未治愈23例。改变剂型后又在临床观察130例，治愈101 例，未治愈29例（见数据文件P229_1.sav）。能否得出新剂型疗效与旧剂型不同的结论？
数据文件p229_1.sav (基于原始数据) 变量说明：group:组别，1=旧剂型，2=新剂型；effect: 疗效，1=治愈，2=未愈。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

13
独立性检验
检验统计量
2

2

2

(Oij
i1 j 1
Eij )2 Eij

7.3334
或
c2

2

2

(| Oij
i1 j 1
Eij | 0.5)2 Eij

6.5266
02.05(1) 3.841 02.01(1) 6.64
新措施可显著提高仔猪白痢的治愈率 14
0.14253
P（2）
P（7）
9! 9!11! 7! 18!8!1! 3! 6!
0.02376
9! 9!11! 7! P（4） P57） 18! 6! 3! 5! 4!
0.33258
18
独立性检验
0.35 0.3
0.25 0.2
概率 0.15 0.1 0.05 0 01234567 用A药的未痊愈数
P1: 红花 P2: 白花
F1: 红花
F2: 红花 705 白花 224 （3.15 : 1)
问F2中红花和白花植株出现的比例是否符合3:1的理论比例。
7
适合性检验
H0: 观察的频率分布与理论频率分布相符 HA: 观察的频率分布与理论频率分布不符
检验统计量
2

k

(Oi
i 1
Ei )2 Ei
近似
~ （2 k 1)
否定域： 2 2 (k 1)
=显著性水平
查附表4
8
适合性检验
例1
F2中红花和白花的理论频数分别为 696.75 (=929*3/4)
和 232.25 (=929-696.75)
2 (705 696 .75)2 (224 232 .25)2 0.3907
696 .75
232 .25
或
c2

(|
705
696 .75 | 696 .75
0.5)2

(|
224
232 .25 | 232 .25
0.5)2

0.3448
02.05(1) 3.841
F2中红花和白花的频数分布符合3:1
9
独立性检验
检验分类资料的分布在两个或多个群体（处理）中是否相同例2 为检验某种新措施对仔猪白痢的治疗效果是否优于传统措施，试验后得到以下数据
17
独立性检验
2）计算在原假设（两种药物的治愈率相同）成立的条件下每种排列出现的概率
P R1! R2!C1!C2! G! n11! n12! n21! n22!
P（1）
P（8）

9! 9!11! 7! 18! 9! 0! 2! 7!
0.00113
P（3）
P（6）

9! 9!11! 7! 18! 7! 2! 4! 5!
3
2 分布
与2 分布有关的表格
1. 附表3：2 分布上侧分位数表
P(X 2 )

4
卡方检验
用于分类资料的概率分布的假设检验检验统计量
2

(Oi
Ei Ei
)2
近似
~ 卡方分布
Oi :第 i 类别中的观察频数 Ei :第 i 类别中的理论频数（基于原假设计算） : 对所有类别求和
独立性检验
22列联表2统计量的简化计算
2 ( O11O22 O12O21 G / 2)2 G
R1R2C1C2 02.05(1) 3.841 02.01(1) 6.64
15
独立性检验
22列联表的Fisher精确检验
可用于小样本（理论频数小于5）的情形
例3：用A和B两种药物各治疗9个病人，结果如下痊愈未愈合计
Eij G P(RiC j ) G P(Ri )P(C j )
G Ri C j RiC j
GG G
12
独立性检验
例2
理论频数
E11

R1C1 G

150 246 300
123
E12 R1 E11 150 123 27
E21 C1 E11 246 123 123 E22 R2 E21 150 123 27
合计 C1 C2 Ck
合计
R1 R2 Rr G
检验在不同处理中不同类别的频率分布是否相同
不同类别的分布与处理无关（独立）
11
独立性检验
卡方检验
H0:不同类别的分布与处理无关 HA:不同类别的分布与处理有关
检验统计量
2

r

k

(Oij
i1 j 1

Eij Eij
)2
近似
~ 2[(r 1（) k 1)]
A药 B药合计
8
19
3
69
11 7 18
问两种药物的疗效有无显著差别
16
独立性检验
检验步骤
1）在保持边际和不变时，列出2*2列联表的所有可能排列
90 27 （1）
81 36 （2）
72 45 （3）
63 54 （4）
54 45 36 27 63 72 81 90
（5）（6）（7）（8）
第十三章分类资料的假设检验
卡方（2）检验
卡方分布适合性检验独立性检验分布的假设检验
2 (chi-square)分布
定义
设随机变量X1, X2, , Xn彼此独立且都服从标准正态分布 N(0, 1)，则随机变量
Y
X
2 i
服从自由度为n的2分布，记为
Y ~ 2(n)
5
卡方检验
注意事项
卡方检验只是近似检验样本不能太小，每个类别中的理论频数不能小于5 当卡方分布的自由度等于1时，最好对2统计量进
行连续性校正（尤其是在样本较小的情况下）
c2

(| Oi

Ei | Ei
0.5)2
6
适合性检验
检验不同类别出现的比例是否符合某个理论比例
例1：Mendel在其豌豆杂交试验中得到以下结果：
死亡存活合计治愈率
新措施 132
传统措施 114
合计
246
18 150 36 150 54 300
88% 76% 82/%
10
独立性检验
列联表（contingency table)
处理
类别
1 2k
1
n11 n12 n1k
2
n21 n22 n2k

r
nr1 nr2 nrk
2
2 分布
性质
2 分布随机变量的取值范围为（0，）若Y1 ~ 2 (n)，Y2 ~ 2 (m)，且相互独立，则
• Y1 ± Y2 ~ 2 (n ± m) 2 分布为非对称分布，其分布曲线的形状由自由度
决定，自由度越大，分布越趋于对称（见教材 p.70，图6.4）当 n ， 2 (n) N(n, 2n)