高二数学1-2 独立性检验
独立性检验
教学重点、独立性检验的基本方法,独立性检验的步骤
难点:.基本思想的领会及方法应用.
知识点
一、独立性检验的基本概念和原理
独立性检验是研究相关关系的方法。
1.分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量.比如男女、是否吸烟、是否患癌症,宗教信仰、国籍等等。
2 列联表:分类变量的汇总统计表(频数表). 一般我们只研究每个分类变量只取两个值,如吸烟与患肺癌的列联表:
患病未患病合计
吸烟37183220
不吸烟21274295
合计58457515
3.条形图
为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图一3 所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.
通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢
4.独立性检验的步骤
为了回答下面问题,我们先假设 H 0:吸烟与患肺癌没有关系,看看能够得到什么样的结论。
不患肺癌
患肺癌 合计 不吸烟 a b a+b 吸烟 c d c+d 合计
a+c
b+d
a+b+c+d
样本容量 n=a+b+c+d
如果 “吸烟与患肺癌没有关系”,则吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多,即:
()()()
()()()()
2
20a c
a c d c a
b ad b
c a b c d
ad bc ad bc n ad bc k a b c d a c b d n a b c d ≈?+≈+?-≈++---=
++++=+++因此 : 越小, 说明吸烟与患肺癌之间关系越弱. 越大, 说明吸烟与患肺癌之间关系越强构造随机变量 其中
为样本容量
若 H 0 成立,即“吸烟与患肺癌没有关系”,则 K “应该很小.根据表3一7中的数据,利用公式(1)计算得到 K “的观测值为
()2
2996577754942209956.63278172148987491
K ?-?=≈???,
这个值到底能告诉我们什么呢
统计学家经过研究后发现,在 H 0成立的情况下,
2( 6.635)0.01P K ≥≈. (2)
(2)式说明,在H 0成立的情况下,2
K 的观测值超过 6. 635 的概率非常小,近似为0 . 01,是一个小概率事件.现在2
K 的观测值k ≈ ,远远大于6. 635,所以有理由断定H 0不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过,即我们有99%的把握认为“吸烟与患肺癌有关系” .
在上述过程中,实际上是借助于随机变量2
K 的观测值k 建立了一个判断H 0是否成立的规则:
如果k ≥6. 635,就判断H 0不成立,即认为吸烟与患肺癌有关系;否则,就判断H 0成立,即认为吸烟与患肺癌没有关系.
在该规则下,把结论“H 0 成立”错判成“H 0 不成立”的概率不会超过
2( 6.635)0.01P K ≥≈,
即有99%的把握认为H 0不成立.
你觉得和反证法有没有什么共同点
反证法 假设检验 要证明结论A
备择假设H 1
在A 不成立的前提下进行推理 在H 1不成立的条件下,即H 0成立的条件下进行推理
推出矛盾,意味着结论A 成立
推出有利于H 1成立的小概率事件(概率不超过α的事件)发生,意味着H 1成立的可能性(可能性为(1-α))很大
没有找到矛盾,不能对A 下任何结论,即反证法不成功
推出有利于H 1成立的小概率事件不发生,接受原假设
上例的解决步骤
第一步:提出假设检验问题 H 0:吸烟与患肺癌没有关系? H 1:吸烟与患肺癌有关系
第二步:选择检验的指标 2
2
()K ()()()()
n ad bc a b c d a c b d -=++++
(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大. 第三步:查表得出结论
P (k 2>k )
k
注意:1观测值是2
K 的值
2.假设没有关系,如果2
K 大,则H 0不成立,即两个量有关系。 如果2
K 小,说明没有足够证据证明H 0不成立,即两个量没有关系
3.查表后,大于某个值0k 的可能性很小,如果大于0k ,则得出两个量有关系 4得到两个量有(没有)关系的结论是在概率基础上决定的,存在犯错误的概率
5有99%的把握(相当于正确概率99%)认为有关 在犯错误的概率不超过1%的前提下,认为“有关”
说明:95%就是概率,可以说成有95%的把握,这种事件出现的可能性极大
5%当然也是概率,这种事件出现的可能性极小,
在新闻中播报的水灾20年一遇,就是概率5%事件发生了
题型一概念辨析
例题在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
A.若K2的观测值为k=,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病
B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病
C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推判出现错误
D.以上三种说法都不正确
A变式1下列关于独立性检验的说法中,错误的是()
A.独立性检验得到的结论一定正确
B.独立性检验依赖小概率原理
C.样本不同,独立性检验的结论可能有差异
D.独立性检验不是判定两事物是否相关的唯一方法
考点:独立性检验的基本思想.
分析:对选项进行判断,独立性检验取决于样本、独立性检验是依据小概率原理,用样本计算统计量的、样本不同,观测值统计量也不同、对于检验两个事件是否相关除了统计量外,还可以根据两个分类变量之间频率大小差异进行粗略判断,即可得出结论.
解答:解:因为独立性检验取决于样本,故结论不一定正确,即A不正确
独立性检验是依据小概率原理,用样本计算统计量的,故正确;
样本不同,观测值统计量也不同,故正确;
对于检验两个事件是否相关除了统计量外,还可以根据两个分类变量之间频率大小差异进行粗略判断,故正确.
故选:A.
点评:本题主要考查了独立性检验的定义和检验步骤,独立性检验的意义,属基础题
A变式2 对于独立性检验,下列说法正确的是()
A.K2独立性检验的统计假设是各事件之间相互独立
B.K2可以为负值
C.K2独立性检验显示“患慢性气管炎和吸烟习惯有关”,这就是指“有吸烟习惯的人必定会患慢性气管炎”
D.2×2列联表中的4个数据可以是任意正数
分析:利用独立性检验的定义和解题步骤逐一筛选四个选项即可
解答:解:由独立性检验的检验步骤可知A正确;
∵2×2列联表中的数据均为正整数,故k2不可能为负值,排除B;
∵K2独立性检验显示“患慢性气管炎和吸烟习惯有关”,是指有一定的把握说他们相关,或者说有一定的出错率,故排除C;
∵2×2列联表中的4个数据是对于某组特定数据的统计数据,故四个数据间有一定的关系,故排除D
故选 A
点评:本题主要考查了独立性检验的定义和检验步骤,独立性检验的意义,属基础题
A.变式3独立性检验中,假设H0:变量X与变量Y没有关系.则在H0成立的情况下,估算概率P(K2≥)≈表示的意义是()
A.变量X与变量Y有关系的概率为1%
B.变量X与变量Y没有关系的概率为99%
C.变量X与变量Y有关系的概率为99%
D.变量X与变量Y没有关系的概率为%
考点:实际推断原理和假设检验的应用.
分析:根据所给的估算概率,得到两个变量有关系的可信度是,即两个变量有关系的概率是99%,这里不用计算,只要理解概率的意义即可.
解答:解:∵概率P(K2≥)≈,
∴两个变量有关系的可信度是=99%,
即两个变量有关系的概率是99%,
故选C.
点评:本题考查实际推断原理和假设检验的应用,本题解题的关键是理解所求出的概率的意义,本题是一个基础题.
B变式1 在独立性检验中,统计量Χ2有两个临界值:和.当Χ2>时,有95%的把握说明两个事件有关,当Χ2>时,有99%的把握说明两个事件有关,当Χ2≤时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算Χ2=.根据这一数据分析,认为打鼾与患心脏病之间()
A.有95%的把握认为两者有关
B.约有95%的打鼾者患心脏病
C.有99%的把握认为两者有关
D.约有99%的打鼾者患心脏病
考点:独立性检验的应用.
分析:这是一个独立性检验理论分析题,根据K2的值,同所给的临界值表中进行比较,可以得到有99%的把握认为打鼾与心脏病有关.
解答:解:∵计算Χ2=.有>,
∵当Χ2>时,有99%的把握说明两个事件有关,故选C.
点评:考查独立性检验的应用,是一个典型的问题,注意解题时数字运算要认真,不要出错,
本题不需要运算直接考查临界值对应的概率的意义
二.独立性检验的应用 题型二、独立性检验的应用
例2.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:
性别与喜欢数学课程列联表
由表中数据计算得2K 的观测值 4.514k .能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗请详细阐明得出结论的依据. 解:
在假设“性别与喜欢数学课之间没有关系”的前提下,事件A ={2
K ≥3. 841}的概率为P (2
K ≥3. 841) ≈因此事件 A 是一个小概率事件.而由样本数据计算得2
K 的观测值k=,即小概率事件 A 发生.因此应该断定“性别与喜欢数学课之间有关系”成立,并且这种判断结果出错的可能性约为5 %.所以,约有95%的把握认为“性别与喜欢数学课之间有关系”.
A .变式1 某卫生机构对366人进行健康体检,阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,有______的把握认为糖尿病患者与遗传有关系.( )
A .%
B .%
C .99%
D .%
[解析] 可以先作出如下列联表(单位:人):
糖尿病患者与遗传列联表
k =366×(16×240-17×93)2
109×257×33×333
≈>.
故我们有%的把握认为糖尿病患者与遗传有关系.
A .变式2 在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用
分析:在使用该种血清的人中,有
242
48.4%500
=的人患过感冒;在没有使用该种血清的人中,有
284
56.8%500
=的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.
解:提出假设0H :感冒与是否使用该种血清没有关系.由列联表中的数据,求得
2
2
1000(258284242216)7.075
474526500500χ??-?=≈???
P (k 2>k )
k
∵当0H 成立时,2
6.635χ≥的概率约为0.01,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.
A 变式 通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表: 男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计
60
50
110
由,算得
参照独立性检验附表,得到的正确结论是( ) A . 有99%的把握认为“选择过马路的方式与性别有关” B . 有99%的把握认为“选择过马路的方式与性别无关”
C . 在犯错误的概率不超过%的前提下,认为“选择过马路的方式与性别有关”
D . 在犯错误的概率不超过%的前提下,认为“选择过马路的方式与性别无关”
B 变式1 媒体为调查喜欢娱乐节目A 是否与性格外向有关,随机抽取了500名性格外向的和500名性格内向的居民,抽查结果用等高条形图表示如下:
(1)作出2×2列联表;
(2)试用独立性检验的方法分析,能否在犯错的概率不超过的前提下说明喜欢娱乐节目A 与性格外向有关
考点:独立性检验的应用.
分析:(1)由等高条形图可知,性格外向、性格内向的人中喜欢节目A的人数,可得2×2列联表;
(2)计算K2,与临界值比较,即可得出结论.
解答:解:(1)由等高条形图可知,性格外向的人中喜欢节目A的有500×=400人,性格内向的人中喜欢节目A的有500×=250人,
作2×2列联表如下
喜欢节目A喜欢节目B合计性格外向400100500性格内向250250500
合计6503501000(2)K2=
1000×(400×250?100×250)2
500×500×650×350
≈>,
∴能在犯错的概率不超过的前提下说明喜欢娱乐节目A与性格外向有关.
点评:本题考查独立性检验的应用,本题解题的关键是正确理解观测值对应的概率的意义.
B 变式2.为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论
分析:在口服的病人中,有
5859%98≈的人有效;在注射的病人中,有6467%95
≈的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢下面用独立性检验的方法加以说明. 解:提出假设0H :药的效果与给药方式没有关系.由列联表中的数据,求得 2
2
193(58314064) 1.3896 2.072122719895
χ??-?=≈??
当0H 成立时,2
1.3896χ≥的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H ,即不能作出药的效果与给药方式有关的结论
B.变式3 某中学采取分层抽样的方法从应届高三学生中按照性别抽取20名学生,其中8名女生中有3名报考理科,男生中有2名报考文科. (1)是根据以上信息,写出2×2列联表
(2)用独立性检验的方法分析,能否在犯错误的概率不超过的前提下认为该中学的高三学生选报文理科与性别有关
考点:独立性检验的应用.
分析:(1)根据抽取20名学生,其中8名女生中有3名报考理科,男生中有2名报考文科,
即可得到列联表;
(2)根据所给的表格中的数据,代入求观测值的公式,求出观测值同临界值进行比较,得到有95%以上的把握认为学生选报文理科与性别有关.
解答:解:(1)2×2列联表
男生女生总计
报考理科10313
报考文科257
总计12820
(2)假设H0:报考文理科与性别无关.
则K2的估计值K2=
20×(10×5?2×3)2
12×8×13×7
≈.
因为p(K2>)=,
所以我们有95%把握认为该中学的高三学生选报文理科与性别有关.
点评:本题考查独立性检验知识,考查学生的计算能力,考查学生分析解决问题的能力,属于中档题
题型三、已知可信度,求观测值k2
例题4. 确定结论“X与Y有关系”的可信度为%时,则随即变量k2的观测值k必须()A.小于B.大于C.小于D.大于
A变式用的方法,我们得到能有99%的把握认为变量X与Y有关系,则()A.K2≥B.K2≥C.K2<D.K2<
A 变式 随机调查某校110名学生是否喜欢跳舞,由列联表和公式
K 2
=
计算出K 2
,并由此作出结论:“有99%的可能性认
为学生喜欢跳舞与性别有关”,则K 2
可以为( ) 附表: P (K 2≥k 0) k 0
A .
B .
C .
D .
总结:第一步:提出假设检验问题 H 0: 与 没有关系? H 1: 与 有关系
第二步:选择检验的指标 2
2
()K ()()()()
n ad bc a b c d a c b d -=++++
(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大. 第三步:查表得出结论 1. 观测值是2
K 的值
2.
假设没有关系,如果2
K 大,则H 0不成立,即两个量有关系。
如果2
K 小,说明没有足够证据证明H 0不成立,即两个量没有关系
3.查表后,大于某个值0k 的可能性很小,如果大于0k ,则得出两个量有关系 4得到两个量有(没有)关系的结论是在概率基础上决定的,存在犯错误的概率
5有99%的把握(相当于正确概率99%)认为 有关?在犯错误的概率不超过1%的前提下,认为“ 有关”