独立性检验
独立性检验

8000 7000 6000 5000 4000 3000 2000 1000
0
不患肺癌
患肺癌
三维柱形图
吸烟 不吸烟
不吸烟 吸烟
2)通过图形直观判断两个分类变量是否相关:
9000 8000 7000 6000 5000 4000 3000 2000 1000
0
不吸烟
二维条形图
患肺癌 不患肺癌
吸烟
3)通过图形直观判断两个分类变量是否相关: 等高条形图
5)如果P(m>3.841)= 0.05表示有95%的把握认为”X与Y”有关系;
6)如果P(m>2.706)= 0.10表示有90%的把握认为”X与Y”有关系; 7)如果P(m≤2.706),就认为没有充分的证据显示”X与Y”有关系;
判断 是否成立的规则
如果 k 6.635 ,就判断 H0 不成立,即认为吸烟与
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
患肺癌 42 49 91
总计 7817 2148 9965
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
上述结论能说明吸烟与患肺癌有关吗?能有多大把握 认为吸烟与患肺癌有关呢?
1)通过图形直观判断两个分类变量是否相关:
ad - bc 越大,说明吸烟与患肺癌之间的关系越强
为了使不同样本容量的数据有统一的评判标准,
我们构造了一个随机变量:
K2 =
n(ad - bc)2
(a + b)(c + d)(a + c)(b + d)
作为检验在多大程度上可以认为“两个变量有关系” 的标准 。
设有两个分类变量X和Y它们的值域分别为{x1,x2}和 {y1,y2}其样本频数列表(称为2×2列联表)为
独立性检验

两个分类变量的相关关系的分析:通过图形直观判断两 个分类变量是否相关;独立性检验.
1、①列出两个分类变量的频数表,称为列联表,利用频数 分析分类变量的关系. 一 般 地 , 假 设 有 两 个 分 类 变 量 X 和 Y, 它 们 的 取 值 分 别 为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
解:根据题目所给数据得到如下列联表:
患心脏病 不患心脏病
秃顶
214
175
不秃顶 451
597
总计
665
772
根据列联表中的数据,得到:
总计 389 1048 1437
K 2 1 4 3 7 (2 1 4 5 9 7 1 7 5 4 5 1 )2 1 6 .3 7 3 6 .6 3 5 . 3 8 9 1 0 4 8 6 6 5 7 7 2
理 文 合计 有兴趣 138 73 211 无兴趣 98 52 150
合计 236 125 361
代入公式得 K2 的观测值 k=3612×36×13182×5×522-117×3×159082≈1.871×10-4. ∵1 871×10-4<2.706,故可以认为学生选报文、理科与对 外语的兴趣无关.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c b+d a+b+c+d ②等高条形图展示列联表数据的频率特征.
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人): 吸烟与患肺癌列联表(列出两个分类变量的频数表):
《独立性检验》

《独立性检验》一、内容与内容解析《独立性检验》为新课标教材中新增加的内容. 虽然本节是新增内容,理论比较复杂,教学时间也不长(1-2课时),但由于它贴近实际生活,在整个高中数学中,地位不可小视.在近几年各省新课标高考试题中,本节内容屡屡出现,而且多以解答题的形式呈现,其重要性可见一斑.该内容是前面学生在《数学3》(必修)中的统计知识的进一步应用,并与本册课本前面提到的事件的独立性一节关系紧密,此外还涉及到与《数学2-2》(选修)中讲到的“反证法”类似的思想.本小节的知识内容如右图。
“独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的,因此教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即借助等高条形图的方法,随后引出相对更精确地解决办法——独立性检验。
独立性检验的思想,建立在统计思想、假设检验思想(小概率事件在一次试验中几乎不可能发生)等基础之上,通常按照如下步骤对数据进行处理:明确问题→确定犯错误概率的上界α及2K 的临界值0k →收集数据→整理数据→制列联表→计算统计量2K 的观测值k →比较观测值k 与临界值0k 并给出结论.本节的重点内容是通过实例让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤.二、目标与目标解析本节课的教学目标是主要有:1.理解分类变量(也称属性变量或定性变量)的含义,体会两个分类变量之间可能具有相关性;2.通过对典型案例(吸烟和患肺癌有关吗?)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法、步骤及应用。
3.鼓励学生体验用多种方法(等高条形图法与独立性检验法)解决同一问题,并对各种方法进行比较。
4.让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性(如统计可能犯错误,原因可能是收集的数据样本容量小或样本采集不合理,也可能是理论上的漏洞,如在一次实验中,我们假设小概率事件不发生,这一点本身就值得质疑). 其中第2条是重点目标,也是《课程标准》中明确指出的教学要求之一. 三、教学问题诊断分析基于对学生已有数学水平的分析,在本节新学内容时,有以下几点是初学者不易理解或掌握的:1.2K 的结构比较奇怪,来的也比较突然,学生可能会提出疑问.关于这个问题的处理,要首先利用好前面对“比例”或者两个分类变量“独立”的分析。
独立性检验资料

50 0
不患患肺病癌 患患病肺癌
吸烟 不吸烟
三维柱 状图
不吸烟 吸烟
2) 经过图形直观判断
350 300 250 200 150 100
50 0 不吸烟
吸烟
二维条 形图
患肺病癌 不患患肺病癌
3)经过图形直观判断
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
5、下结论
已知在 H0成立旳情况下,
P( 2 11.8634) 0.001以下
故有99.9%旳把握以为H0不成立,即有99.9% 旳把握以为“患呼吸道疾病与吸烟有关系”。
网络链接——检验成果
DNA亲子鉴定旳原理和程序
DNA是从几滴血,腮细胞或培养旳组织纤内提取而 来.用畴素将DNA样本切成小段,放进喱胶内,用电泳槽推动 DNA小块使之分离--最细旳在最远,最大旳近来. 之後, 分 离开旳基因放在尼龙薄膜上,使用尤其旳DNA探针去寻找基 因, 相同旳基因会凝聚于一,然後,利用尤其旳染料,在X光 旳环境下,便显示由DNA探针凝聚于一旳黑色条码.小孩这 种肉眼可见旳条码很尤其 ----二分之一与母亲旳吻合,二 分之一与爸爸旳吻合.这过程重覆几次,每一种探针用于寻 找DNA旳不同部位并影成独特旳条码,用几组不同旳探针, 可得到超出99,9%旳父系或然率或辨别率.
患其他病 175 597 772
总计 389 1048 1437
600 500 400 300 200 100
0 患心脏病 患其他病
不秃顶 秃顶
秃顶 不秃顶
2 1437 (214 597 175 451)2 16.373 6.635
3891048 665 772 有99%旳把握以为“秃顶与患心脏病有关”
统计学中的独立性检验

统计学中的独立性检验统计学中的独立性检验(Test of Independence)是一种常用的统计方法,用于研究两个或多个分类变量之间是否存在相互独立的关系。
通过对随机抽样数据进行分析,可以判断不同变量之间是否有关联,并衡量关联的强度。
本文将介绍独立性检验的基本原理、常用的检验方法以及实际应用。
一、独立性检验的基本原理独立性检验的基本原理是基于统计学中的卡方检验(Chi-Square Test)。
卡方检验是一种非参数检验方法,用于比较观察值频数与期望频数之间的差异。
在独立性检验中,我们首先建立一个原假设,即所研究的两个或多个变量之间不存在关联,然后通过计算卡方统计量来判断观察值与期望值之间的差异是否显著。
二、常用的独立性检验方法1. 皮尔逊卡方检验(Pearson's Chi-Square Test):这是最常见的独立性检验方法,适用于有两个以上分类变量的情况。
它基于观察频数和期望频数之间的差异,计算出一个卡方统计量,并根据卡方分布表给出显著性水平。
2. Fisher精确检验(Fisher's Exact Test):当样本量较小或者某些期望频数很小的情况下,皮尔逊卡方检验可能存在一定的偏差。
在这种情况下,可以使用Fisher精确检验来代替皮尔逊卡方检验,得到更准确的结果。
3. McNemar检验:适用于配对数据比较的独立性检验,例如一个样本在两个时间点上的观察结果。
三、独立性检验的实际应用独立性检验在各个领域都有广泛的应用,以下是几个常见的实际应用场景:1. 医学研究:独立性检验可以用于研究某种药物治疗方法是否具有显著的疗效,或者判断不同年龄组和性别之间是否存在患病率的差异。
2. 教育领域:独立性检验可用于研究学生成绩与家庭背景、教育水平之间是否存在关联。
3. 市场调研:在市场调研中,可以通过独立性检验来分析不同年龄、性别、收入水平等因素对消费者购买习惯的影响。
4. 社会科学研究:独立性检验可以帮助社会科学研究人员探索个体特征与社会行为之间的关系,例如政治倾向与不同年龄群体之间的关联性等。
独立性检验

一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设Nk n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++-,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取Nk n=;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块五.独立性检验然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系. 2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系. 3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系. 4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n 4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆya bx =+,称为变量Y 对变量x 的回归直线方程,其中ab ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆy a bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y y i n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点. 记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式: 1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆay bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆa b ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynx yb xx xn x ====---==--∑∑∑∑,ˆˆay bx =-,其中11n i i x x n ==∑,11ni i y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nniii ix x yy x ynxyr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑, 把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值.同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.典例分析【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握性有( )A .90%B .95%C .99%D .99.5%【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【例6】 某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【例7】 某班主任对全班50名学生进行了作业量的调查,数据如下表:A .99%B .95%C . 90%D .无充分根据【例8】 下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?【例9】 在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:【例12】气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?【例13】 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.⑴根据以上数据建立一个22⨯的联表;⑵判断性别与休闲方式是否有关系.【例14】 (2010课标全国卷Ⅰ高考)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:⑵能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? ⑶根据⑵的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++【例15】 某校高三年级在一次全年级的大型考试中,数学优秀的有360人,非优秀的有880人.数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?【例16】 (2010辽宁高考)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .⑴甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;⑵下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:2mm ) 表1:注射药物A 后皮肤疱疹面积的频数分布表频率疱疹面积图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图(ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:附:2K ()()()()a b c d a c b d =++++【例17】 (2009辽宁20)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm )的值落在[)29.9430.06,的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,的结果如下表:⑵由于以上统计数据填下面22⨯列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.频率疱疹面积。
独立性检验

不
独立性检验的定义
上面这种利用随机变量K 上面这种利用随机变量 2来确定在多大程度上 可以认为“两个分类变量有关系”的方法, 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验 独立性检验。 个分类变量的独立性检验。
独立性检验的基本思想(类似反证法) 独立性检验的基本思想(类似反证法) 反证法
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r ——回归分析 定量变量——回归分析(画散点图、相关系数r、 相关指数R 残差分析) 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验 分类变量——
本节研究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响, 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965 9965人 得到如下结果(单位: 地调查了9965人,得到如下结果(单位:人)
二:求解假设检验问题
考虑假设检验问题: 考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路: 求解思路: 1. 在H0成立的条件下,构造与 0矛盾的小概 成立的条件下,构造与H 率事件; 率事件; 2. 如果样本使得这个小概率事件发生,就能 如果样本使得这个小概率事件发生, 以一定把握断言H 成立;否则, 以一定把握断言 1成立;否则,断言没有 发现样本数据与H 相矛盾的证据。 发现样本数据与 0相矛盾的证据。
的观测值k是大还是小呢 是大还是小呢? 怎样判断K2的观测值 是大还是小呢?
这仅需要确定一个正数 k0 ,当 k ≥ k0 时就认为K2的观测 的判断规则为: 值 k大。此时相应于 k0 的判断规则为: 大
0
就认为“两个分类变量之间有关系” 如果 k ≥ k0 ,就认为“两个分类变量之间有关系”;否则 就认为“两个分类变量之间没有关系” ----临界值 就认为“两个分类变量之间没有关系”。 临界值 k
第五章 第二次课 第二节独立性检验

第五章 第二节独立性检验独立性检验的定义又叫列联表(contigency table )χ2检验,它是研究两个或两个以上因子彼此之间是独立还是相互影响的一类统计方法。
2×2 列联表的独立性检验设A ,B 是一个随机试验中的两个事件,其中A 可能出现r1 、r2个结果,B 可能出现c1、c2个结果,两因子相互作用形成4格数,分别以O11 、O12 、O21 、O22表示,下表是2×2列联表的一般形式检验步骤1.提出无效假设H0 :事件A 和事件B 无关, 同时给出HA :事件A 和事件B 有关联关系;2.给出显著水平α3.依据H0 ,可以推算出理论数,计算χ2值4.确定自由度,df=(r-1)(c-1),进行推断。
给药方式与给药效果的2×2列联表H 0 H A H 0 H A1.H0 :给药方式与给药效果相互独立。
HA :给药方式与给药效果有关联。
2.给出显著水平α=0.053.根据H0,运用概率乘法法则:事件A 与事件B 同时出现的概率为:P(AB)=P(A)P(B) 口服与有效同时出现的理论频率=口服频率×有效频率,即P(AB)=P(A)P(B)=98/193 ×122/193理论频数Ei =理论频率×总数= (98/193 ×122/193) ×193 =(98 × 122)/193=61.95即Eij =Ri ×Cj/T=行总数×列总数/总数E11= R1 × C1/T=61.95 E12= R1 × C2/T=36.05 E21= R2 × C1/T=60.05 E22= R2 × C2/T=34.95 给药方式与给药效果的2×2列联表计算χ2值:由于df=(r-1)(c-1)=(2-1)(2-1)=1,故所计算的χ2值需进行连续性矫正:4.P >0.05,应接受T/22×c列联表的独立性检验由于例:检测甲、乙、丙三种农药对烟蚜的毒杀效果,结果如下,使分析这三种农药对烟蚜的毒杀效果是否一致?三种农药毒杀烟蚜的死亡情况1. H0 :对烟蚜毒杀效果与农药无关,农药类型间互相独立;HA :二者有关2.取显著水平α=0.053.统计数的计算χ值的计算:(4)查χ2值表,进行推断查χ2表,当df=(2-1)(3-1)=2时,χ20.05 =5.99,现实得χ2=7.694>χ20.05 ,则拒绝H0 ,接受HA ,说明三种农药对烟蚜的毒杀效果不一致。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
确定 求值 判断
通过列联表确定a,b,c,d,n的值;根据实际 问题需要的可信程度确定临界值k0;
利用 K2=
n(ad-bc) 2
(a+b)(c+d)(a+c)(b+d)
, 求出K2的观测值k;
如果k≥k0,就推断“两个分类变量有关系”, 这种推断犯错误的概率不超过α,否则就认为在
犯错误的概率不超过α的前提下不能推断“两个
3.判断两个分类变量是否有关系的两种方法比较 判断两个分类变量是否有关系的两种方法是:等高条形图和独立性检 验. (1)通过等高条形图,可以粗略地判断两个分类变量是否有关系,但 是这种判断无法精确地给出所得结论的可靠程度. (2)利用独立性检验来判断两个分类变量是否有关系,能够精确地给 出这种判断的可靠程度,也常与图形分析法结合.
(2)公式:K2=
n(ad bc)2 .其中n=___a_+_b+.c&_(a_ c_)(_b d)
1.在独立性检验中,计算得k=29.78,在判断变量相关时, P(K2≥6.635)≈0.01的含义是什么? 提示:P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的 前提下认为两个变量相关.
【归纳】等高条形图的作法及作用小结. 提示:1.首先作2×2列联表,注意对涉及的变量分清类别;其次要注意 计算的准确性;第三画等高条形图,注意各变量的顺序与所画位置. 2.通过等高条形图可以粗略地判断两个分类变量是否有关系,但无法 精确地给出所得结论的可靠程度.
独立性检验 【技法点拨】
解决一般的独立性检验问题的步骤
(2)2×2列联表: 一般地,假设两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2}, 其样本频数列联表(称2×2列联表)为
y1
x1
a
x2
c
总计 a+c
y2
总计
b
a+b
d
c+d
b+d a+b+c+d
3.独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的
方法称为两个分类变量的独立性检验.
2.某学校对高三学生进行了一项调查发现:在平时的模拟考试中,性 格内向的学生426人中有332人在考前心情紧张,性格外向的学生594 人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心 情紧张与性格类别是否有关系. 【解析】1.比较来说,两者差距较大,在“有酒精”和“无酒精”两 个矩形中,阴影部分的面积不同,由此可以看出在某种程度上认为血 液中含有酒精与对事故负有责任有关系.
2.独立性检验与反证法的异同点 独立性检验的思想来自于统计学的假设检验思想,它与反证法类似, 假设检验和反证法都是先假设结论不成立,然后根据是否能够推出“ 矛盾”来断定结论是否成立.但二者“矛盾”的含义不同,反证法中 的“矛盾”是指不符合逻辑的事件的发生;而假设检验中的“矛盾” 是指不符合逻辑的小概率事件的发生,即在结论不成立的假设下,推 出利用结论成立的小概率事件的发生.
等高条形图的应用
【技法点拨】
1.判断两个分类变量是否有关系的两个常用方法
(1)利用数形结合思想,借助等高条形图来判断两个分类变量
是否相关是判断变量相关的常见方法.
(2)一般地,在等高条形图中, 与a 类变量有关系的可能性就越大. a b
相c差越大,两个分 cd
2.利用等高条形图判断两个分类变量是否相关的步骤
4.若由一个2×2列联表中的数据计算得K2的观测值k=4.013,则认为“ 两个变量有关系”犯错误的概率不超过_______. 【解析】∵P(K2≥3.841)≈0.05, ∴认为“两个变量有关系”犯错误的概率不超过0.05. 答案:0.05
1.对于“分类变量”的理解 (1)这里的“变量”和“值”都应作为“广义”的变量和值进行理解. 例如,对于性别变量,其取值为男和女两种.那么这里的变量指的是 性别,同样这里的“值”指的是“男”和“女”.因此,这里所说的 “变量”和“值”不一定取的是具体的数值.
【典例训练】 1.从发生交通事故的司机中抽取2 000名司机作随机样本,根据他们血 液中是否含有酒精以及他们是否对事故负有责任将数据整理如下:
有酒精 无酒精
总计
有责任 650 700
1 350
无责任 150 500 650
总计 800 1 200 2 000
相应的等高条形图如图所示.试结合等高条形图分析血液中含有酒精 与对事故负有责任是否有关系.
1.2 独立性检验的基本思想及其初步应用
1.掌握2×2列联表的独立性检验,能利用给出的数据列出列联表并会 求K2的观测值. 2.了解独立性检验的基本思想和方法.
1.本节课的重点是理解独立性检验的基本思想及实施步骤. 2.本节课的难点是了解随机变量K2的含义和根据K2的值得出结论的意 义.
1.分类变量 变量的不同“值”表示个体所属的___不_同_类,别像这样的变量 称为分类变量. 2.列联表 (1)定义:列出的两个分类变量的___频_数,表称为列联表.
2.作列联表如下:
考前心情紧张 考前心情不紧张
总计
性格内向 332 94 426
性格外向 213 381 594
总计 545 475 1 020
相应的等高条形图如图所示,
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例 ,从图中可以看出,考前紧张的样本中性格内向占的比例比考前心情 不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有 关.
2.列联表中|ad-bc|的值与两个分类变量之间相关的强弱有什么关 系? 提示:在列联表中,若两个分类变量没有关系,则|ad-bc| ≈0,所以|ad-bc|的值越小,两个分类变量之间的关系越弱;| ad-bc|的值越大,两个分类变量之间的关系越强.
3.作散点图的主要目的是_______. 【解析】散点图可以形象地展示两个变量之间的关系,所以它的主要 目的就是直观了解两个变量之间的关系. 答案:直观了解两个变量之间的关系
分类变量有关系”.
【典例训练】 1.(2012·武汉高二检测)在独立性检验中,若随机变量K2的观测值 k≥6.635,则( ) (A)X与Y有关系,犯错的概率不超过1% (B)X与Y有关系,犯错的概率超过1% (C)X与Y没有关系,犯错的概率不超过1% (D)X与Y没有关系,犯错的概率超过1%