独立性检验课件

合集下载

选修1-2.1.2独立性检验ppt课件

选修1-2.1.2独立性检验ppt课件
上面这种利用随机变量K2来确定在多大程度上可以认 为“两个分类变量有关系”的方法称为两个分类变量 的独立性检验。
9
临界值表:
P(K 2 k0 ) 0.50
0.40
0.25
0.15
0.10
0.05
0.02 5
0.01 0.45 0.70 1.32 2.07 2.70 3.84 5.02 6.63 7.87 10.82
“光盘”与性别列联表
不患肺癌 患肺癌 总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d a+b+c+d
5
不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
如果”吸烟与患肺癌没有关系”,则在吸烟样本中不 患肺癌的比例应该与不吸烟样本中相应的比例差不多,
即 a c ac d ca b ad bc 0
课题引入:
在现实中,我们会遇到类似下面的问题: 肺癌是严重威胁人类生命的一种疾病,吸烟 与患肺癌有关系吗? 性别对是否喜欢数学课程有影响吗?
1
1.2 独立性检验的基本思想及其初步应用
对于性别变量,其取值为男和女两种。 这种变量的 不同“值”表示个体所属的不同类别,像这样的变 量称为“分类变量”。在现实生活中,分类变量是 大量存在的,例如是否吸烟,宗教信仰,国籍…… 日常生活中,我们常常关心两个分类变量之间是否 有关系,例如吸烟是否与患肺癌有关系?性别是否 对于喜欢数学课程有影响等等。
0.54%

课件3:3.1 独立性检验

课件3:3.1 独立性检验

试想会得出什么结论吧。我们说有95%(或99%)的 把握说事件A与事件B有关,是指推断犯错误的可能性 为5%(或1%),这也是常常说成是“有95%(或 99%)的概率”,其含义是一样的。
解:由公式
2 339 (4312116213)2 7.469
205134 56 283
因为7.469>6.635,所以我们有99%的把握说:50岁以
推断“Ⅰ和Ⅱ有关系”的步骤为: 第一步,提出假设H0:两个分类变量Ⅰ和Ⅱ没有关系; 第二步,根据2×2列联表和公式计算χ2统计量; 第三步,比对两个临界值,作出判断.
例2: 对196个接受心脏搭桥手术的病人和196个接受血 管清障手术的病人进行3年跟踪研究,调查他们是否又 发作过心脏病,调查结果如下表所示:
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R 2、残差分析)
分类变量—— 独立性检验
(1)假设:患病与吸烟没有关系.
若将表中“观测值”用字母表示,则得下列2×2列联 表:
吸烟A
不吸烟 A
合计
患病(B)
n11 n21 n+1
未患病
BA
(B)
n12 n22 n+2
合计
n1+ n2+ n
近似的判断方法:
设n=n11+n21+n12+n22,如果H0成立,则在吸烟的人中 患病的比例与不吸烟的人中患病的比例应差不多,由

8.3.2 独立性检验-高二数学课件(人教A版2019选择性必修第三册)

8.3.2 独立性检验-高二数学课件(人教A版2019选择性必修第三册)

作“卡方独立性检验”,简称独立性检验.
概念讲解
下表给出了 2 独立性检验中几个常用的小概率值和相应的临界值.
α

0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879 10.828
例如,对于小概率值 = 0.05,我们有如下的具体检验规则:
(1)当 2 ≥ 0.05 = 3.841时,我们推断0 不成立,即认为和不独立,该推断犯错
样的方法对治疗情况进行检查,得到了如下数据: 抽到接受甲种疗法的患儿67
名,其中未治愈15名,治愈52名; 抽到接受乙种疗法的患儿69名,其中未治愈
6名,治愈63名. 试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果
是否比甲种疗法好.
例题剖析
解:零假设为0 :疗法与疗效独立,即两种疗法效果没有差异.
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,
将数据分类统计,并做成表格加以保存. 我们将形如下表这种形式的数据统
计表称为2×2列联表. 2×2列联表给出了(Y=0)
乙(Y=1)
合计
A(X=0)
a
b
a+b
B(X=1)
c
a+c
d
b+d
c+d
合计
a+b+c+d
2
这说明,对调两种疗法的位置,不会影响χ2取值的计算结果,同理对调
两种疗效的位置也不会影响结果.
例题剖析
例3.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调
查了9965人,得到成对样本观测数据的分类统计结果,如表所示.依据小概率值 =

8.3.2+独立性检验(教学课件)-高二数学(人教A版2019选修第三册)

8.3.2+独立性检验(教学课件)-高二数学(人教A版2019选修第三册)
人教A版2019必修第三册
第八章成对数据的统计分析
8.3.2 独立性检验
情景引入
山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查 了学生的课外活动方式,结果整理成下表:
问题 如何判定“喜欢体育还是文娱与性别是否有联系”?
提示 可通过表格与图形进行直观分析,也可通过统计分析定量判断.
思考 例1和例2都是基于同一组数据的分析,但却得出了不同的 结论,你能说明其中的原因吗?
事实上,如前所述,例1只是根据一个样本的两个频率间存在差异得出 两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导
致的错误,所以例1的推断依据不太充分,在例2中,我们用χ2独立性检验 对零假设H0进行了检验. 通过计算,发现χ2 ≈0.837小于α=0.1所对应的临界 值2.706,因此认为没有充分证据推断H0不成立,所以接受H0 ,推断出两 校学生的数学成绩优秀率没有显著差异的结论. 这个检验结果意味着,抽 样数据中两个频率的差异很有可能是由样本随机性导致的. 因此,只根据 频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.
625 698 757 566
因此,可以推断玩电脑游戏与注意力集中之间有关系,该推断 犯错误的概率不超过0.1%.
例2 依据小概率值α=0.1的χ2 独立性检验,分析例1中的抽样数 据,能否据此推断两校学生的数学成绩优秀率有差异?
解:零假设为H0: 分类变 量X与Y相互独立,即两校 学生的数学成绩优秀率无 差异. 根据表中的数据,计 算得到
独立性检验的公式及临界值
1.独立性检验的公式 假设H0表示玩电脑游戏与注意力集中没有关系(通常称H0为零假设); 用事件A表示不玩电脑游戏,B表示注意力不集中. 若H0成立↔ 事件A与B独立↔P(AB)=P(A)P(B) .

《独立性检验》课件

《独立性检验》课件
第三章 统计案例
3.2独立性检验的 基本思想及其初 步应用
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R 2、残差分析)
分类变量—— 独立性检验
1%把握认为A与B无关
99%把握认为A与B有关
5%把握认为A与B无关
95%把握认为A与B有关
10%把握认为A与B无关 90%把握认为A与B有关
没有充分的证据判定A与B有关,可以认为A与B无关
独立性检验的步骤
第一步:设H0: 吸烟和患病之间没有关系
第二步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
366
874
K 2 2486.1225.
合计 360 880
1240
本 小 节 的 知 识 内 容 如 右 图
其中说法正确的个数为( )
A.0
B.1
C.2
D.3
[答案] B
[解析] 根据独立性检验的意义,知③正确.
2.下列关于 χ2 的说法中正确的是( ) A.χ2 越大,“变量 A、B 有关联”的可信度越小 B.χ2 越大,“变量 A、B 无关”的可信度越大 C.χ2 越小,“变量 A、B 有关联”的可信度越小 D.χ2 越小,“变量 A、B 无关”的可信度越小 [答案] C [解析] χ2 越大,“变量 A,B 有关联”的可信度越大,“变 量 A,B 无关”的可信度越小;相反,χ2 越小,“变量 A,B 有 关联”的可信度越小,“变量 A,B 无关”的可信度越大.
(1)列出数学与物理优秀的2x2列联表如下

独立性检验(课件)高二数学(人教A版2019选修第三册)

独立性检验(课件)高二数学(人教A版2019选修第三册)

|ad-bc|越大,说明玩电脑游戏与注意力集中之间的关系越强.
为了使不同样本容量的数据有统一的评判标准,我们构造一个随
机变量
n(ad-bc)2 χ2=
(a+b)(c+d)(a+c)(b+d)
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性 检验,读作卡方独立性检验,简称独立性检验.
若H0成立,即玩电脑游戏与注意力集中没有关系,则χ2应该 很小;若H0不成立,即玩电脑游戏与注意力集中有关系,则χ2应 该很大.那么,究竟χ2大到什么程度,可以推断H0不成立呢?
2 88(33 7 10 38)2
43 45 7117
α
0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
学校
甲校(X=0) 乙校(X=1)
合计
数学成绩
不优秀(Y=0) 优秀(Y=1)
33
10
38
7
71
17
0.001 10.828
合计
43 45 88
0.837 2.706 x0.1.
于不同的小概率值α的检验规则,对应不同的临界值x0,其与χ2的大小关 系可能不同,相当于检验的标准发生变化,因此结论可能会不同.
3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有
放回简单随机样本的数据,得到如下列联表: 依据α=0.05的独立性检验,分析药物A对
药物A
疾病B 未患病 患病
解:根据题意,可得
xα 2.706 3.841 6.635 7.879 10.828
2 4.881 3.841 x0.05 .
根据小概率值α=0.05的χ2独立性检验,推断H0不成立,即认为两种疗 法的效果有差异,该推断犯错误的概率不超过0.05.

人教版高二下数学选择性必修第三册-8.3 列联表与独立性检验(第1课时)【课件】


d
c+d
合计
a+c
b+d
n=a+b+c+d
2×2 列联表给出了成对分类变量数据的交叉分类频数.
要点 3 独立性检验
(1)定义:利用随机变量 χ2 的取值推断___两__个_分__类_变__量_是__否_独__立_____的方法称为
独立性检验.
n(ad-bc)2
(2)χ2=____(_a_+__b_)_(__c_+_d_)__(__a+__c_)__(_b_+__d_)___,其中 n=a+b+c+d.
有关系.
【解析】 等高堆积条形图如图所ቤተ መጻሕፍቲ ባይዱ:
由图可以直观地看出铅中毒病人组与对照组相比,尿棕色素为阳性的频率差 异明显,因此铅中毒病人与尿棕色素为阳性有关系.
(2)为了了解某高校学生喜欢使用手机支付是否与 性别有关,随机抽取了部分学生,统计后作出如图所示 的等高堆积条形图,则下列说法正确的是( D )
思考题 2 下面是 2×2 列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中 a,b 的值分别为( C )
1.两个分类变量之间关联关系的定性分析的方法 (1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小 进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中a+a b与c+c d 值的大小粗略地判断分类变量之间有无关系.一般其值相差越大,分类变量有关 系的可能性越大.
(2)图形分析法:与表格相比,图形能更直观地反映出两个分类变量间是否互 相影响,常用等高堆积条形图展示列联表数据的频率特征.
思考题 1 (1)观察下列等高堆积条形图,其中最有把握认为两个分类变量 X,Y 之间有关系的是( D )

09.12.23高二数学(文)第1节《独立性检验的思想及应用》(课件).


在差异,吸烟者患肺癌的可能性大。
通过图形直观判断两个分类变量是否相关:
1. 列联表
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
患肺癌 42 49 91
总计 7817 2148 9965
通过图形直观判断两个分类变量是否相关:
1. 列联表
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
[思考] 如果K26.635,就断定H0不 成立,这种判断出错的可能性有多大?
在H 0成 立 的 情 况 下, 统 计 学 家 估 算 出 如 下
的概率 P(K 2 6.635) 0.01 (2)
即在H0成立的情况下, K 2的值大于6.635的
概率非常小, 近似于0.01.
也就是说,在H0成立的情况下,对 随机变量K2进行多次观测,观测值超过 6.635的频率约为0.01。
若要判断的结论为:H1:“X与Y有关系”, 可以按如下步骤判断H1成立的可能性:
若要判断的结论为:H1:“X与Y有关系”, 可以按如下步骤判断H1成立的可能性:
1. 通过三维柱形图和二维条形图,可以粗略
地判断两个变量是否有关系,但是这种判断无法精
确地给出所得结论的可靠程度。
(1) 在三维柱形图中, 主对角线上两个柱形
变量之间没有关系”。k0——临界值
怎样判断K2的观测值k是大还是小呢? 这仅需要确定一个正数k0,当kk0
时就认为k2的观测值k大。此时相应于k0 的判断规则为:
如果kk0,就认为“两个分类变量 之间有关系”;否则就认为“两个分类 变量之间没有关系”。k0——临界值
按照上述规则, 把"两个分类变量之
现在想要知道能够以多大的把握认为 “吸烟与患肺癌有关”,为此先假设
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章
§2
独立性检验
两种变量:
定量变量:体重、身高、温度、考试成绩等等。 变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
3、二维条形图
8000 7000 6000 不患肺癌 患肺癌
5000
4000
不吸烟 不患肺癌 患肺癌
3000 2000 1000
吸烟
从三维柱形图能清晰看出 各个频数的相对大小。
0
不吸烟
吸烟
从二维条形图能看出,吸烟者中 患肺癌的比例高于不患肺癌的比例。
4、等高条形图
1 0.9
0.8
患肺癌 比例
0.7
临界值表
P(K2 k0 )0.50
0.40 0.708 0.25
其中n a b c d为样本容量。
0.15 2.072 0.10 2.706 0.05 3.841 0.025 0.010 0.005 0.001 10.828 1.323 5.024 6.635 7.879
k0
0.455
2 1000 × 360 × 180 - 320 × 140 由公式计算得 χ2= ≈ 7.353. 680× 320× 500× 500
因为 7.353>6.635,所以有 99%的把握认为“两个分厂生 产的零件的质量有差异”.
(2014· 合肥一六八中高二期中)某学校对手工社、摄影社两 个社团招新报名的情况进行调查,得到如下的列联表: 手工社 女生 男生 总计 30 摄影社 6 42 60 总计
乙厂 分组 频数 [29.86,2 [29.90,2 [29.94,2 [29.98,3 [30.02,3 [30.06,3 [30.10,3 9.90) 29 9.94) 71 9.98) 85 0.02) 159 0.06) 76 0.10) 62 0.14) 18
(1) 试分别估计两个分厂生产的零件的优质品率; (2)由以上统计数据填下面 2×2 列联表,并问是否有 99% 的把握认为“两个分厂生产的零件的质量有差异” .
H0:吸烟与患肺癌没有关系.
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系” 等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B). 把表中的数字用字母代替,得到如下用字母表示的列联表 不吸烟 吸烟 总计
不患肺癌 a c a+c
患肺癌 b d b+d
总计 a+b c+d a+b+c+d
定量变量——回归分析(画散点图、相关系数r、 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验
本节研究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
(1)请完成上表中所空缺的五个数字;
(2)已知报名摄影社的 6 名女生中甲乙丙三人来自于同一个 班级,其他再无任意两人同班情况.现从此 6 人中随机抽取 2 名女生参加某项活动,则被选到两人同班的概率是多少? (3)学生对这两个社团的选择与“性别”有关系吗?
2 n ad - bc 注: K2= . a+ bc+ da+ c b+ d
0.6
0.5
0.4
0.3
0.2
不患肺癌 比例
不吸烟
不吸烟
0.1
0
吸烟
吸烟
等高条形图更清晰地表达了两种情况下患肺癌的比例。
上面我们通过分析数据和图形,得到的直观印象是吸烟和 患肺癌有关,那么事实是否真的如此呢?这需要用统计观点 来考察这个问题。 现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设
C
3.为了探究电离辐射的剂量与人体的受损程 度是否有关,用两种不同剂量的电离辐射照 射小白鼠.在照射后14天内的结果如下表 所示: 死亡 存活 合计 11 25 第一种剂量 14 6 19 25 第二种剂量 20 30 50 合计 进行统计分析时的统计假设是______. [答案] 假设电离辐射的剂量与 人体受损程度无关.
2 100 × 30 × 49 - 10 × 11 χ2= = 31.859. 40× 60× 41× 59
未愈 10 49 59
合计 40 60 100
30 11 41
因为 31.859>6.635,所以我们有 99% 的把握说,A、 B 两 药对该病的治愈率之间有显著差别.
动物园对某种动物进行接种试验, 预防传染病, 经试验得到如下数据: 传染情况 接种情况 接种 未接种 发生传染病 未发生传染病 6 18 80 68
问进行接种试验是否能有效预防传染病.
[解析] 由已知数据得 2×2 列联表如下: 传染情况 接种情况 接种 未接种 总计 发生传染病 未发生传染病 6 18 24 80 68 148 总计 86 86 172
[误解] (1)(3) [正解] (2)(4)
课堂巩固训练
1.为了探究色盲是否与性别有关,在调查的 500名男性中有39名色盲患者,500名女性 中有6名色盲患者,那以你认为色盲与性别 有关的把握为( ) A.0 B.95% C.99% D.都不正确 [答案] C
[解析]
2 1000 × 39 × 494 - 6 × 461 χ2= ≈25.34, 500×500×45×955
(a+b+c+d)a (a+b)(a+c),
即ad bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
为 此 , 统 计 学 家 引 入 统 计 量
χ2 =
nad-bc2 ,用它的大小来检验变量之间是 a+bc+da+cb+d 否独立.当 χ2 较大时,说明变量之间不独立. 当数据量较大时,在统计中,用以下结果对变量的独 立性进行判断;
•综合应用
某企业有两个分厂生产某种零件,按规定内径 尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两 个分厂生产的零件中抽出 500 件, 量其内径尺寸的结果如下表:
甲厂 分组 频数 [29.86,2 [29.90,2 [29.94,2 [29.98,3 [30.02,3 [30.06,3 [30.10,3 9.90) 12 9.94) 63 9.98) 86 0.02) 182 0.06) 92 0.10) 61 0.14) 4
[解析] 列 2× 2 列联表 短寿 贪官 廉洁官 合计 由公式得
2 1090 × 348 × 497 - 152 × 93 χ2= = 325.635 500× 590× 441× 649
长寿 152 497 649
合计 500 590 1090
348 93 441
∵ 325.635> 6.635,所以我们有 99% 的把握可以认为在经 济上不清白的人易过早死亡.
2 172 68 × 6 - 80 × 18 则 χ2= ≈6.973, 86× 86×24×148
∵ 6.973>6.635, ∴有 99%的把握认为“接种”与“染病”有关. ∴我们有 99%的把握认为接种能够更有效地预防传染病.
巴西医生马廷思收集犯有各种贪污、受贿罪的官员与廉洁 官员之寿命的调查资料:500 名贪官中有 348 人寿命小于平均 寿命、152 人的寿命大于或等于平均寿命;590 名廉洁官中有 93 人的寿命小于平均寿命、 497 人的寿命大于或等于平均寿 命.这里的“平均寿命”是指“当地人均寿命”.试分析官员 在经济上是否清白与他们寿命的长短之间是否独立?
P(K2≥ k0) k0
0.25
0.15
0.10
0.05 0.025
1.323 2.072 2.706 3.841 5.024
[解析] (1) 手工社 女生 男生 总计 12 18 30 摄影社 6 24 30 总计 18 42 60
C2 1 (2)所求概率为 P= 3 = . 2 C6 5
2 n ad - bc (3) χ2= a+bc+da+c b+d
K 2 10.828
0.1%把握认为A与B无关
1%把握认为A与B无关
99.9%把握认A与B有关 99%把握认为A与B有关 90%把握认为A与B有关
K 2 6.635
K 2 2.706
K 2 2.706
10%把握认为A与B无关
没有充分的依据显示A与B有关,但也不能显示A与B无关
•独立性检验
不吸烟 吸烟 总计
不患肺癌 a c a+c
患肺癌 b d b+d
总计 a+b c+d a+b+c+d
a a+b a+c ≈ × 其中n = a + b + c + d为样本容量,即 n n n
在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事 件A和B发生的频数。由于频率接近于概率,所以在H0成立的条 件下应该有 P(A) a + b , P(B) a + c , P(AB) a . n n n
∵25.34>6.635, ∴有 99%把握认为色盲与性别有关.
2.下列关于χ2的说法中正确的是( ) A.χ2越大,“变量A,B有关联”的可信度 越小 B.χ2越大,“变量A,B无关”的可信度越 大 C.χ2越小,“变量A,B有关联”的可信度 越小 D.χ2越小,“变量A,B无关”的可信度越 小
相关文档
最新文档