独立性检验的思想及应用(1)
《独立性检验的基本思想及其初步应用(第1课时)》教学设计

1.1.2 独立性检验的基本思想及其初步应用第一课时(谷杨华)一、教学目标1.核心素养通过学习独立性检验的基本思想及其初步应用,初步形成基本的数据分析能力,培养数学运算能力.2.学习目标(1)1.1.1.1 了解分类变量的概念(2)1.1.1.2 了解等高条形图、列联表概念,学会用列联表、等高条形图直观判断分类变量的关系(3)1.1.1.3 了解独立性检验基本思想,初步学会用独立性检验的基本思想判断分类变量的关系3.学习重点了解独立性检验基本思想,初步学会用独立性检验的基本思想判断分类变量的关系4.学习难点了解独立性检验基本思想,初步学会用独立性检验的基本思想判断分类变量的关系二、教学设计(一)课前设计1.预习任务任务1阅读教材P10-P12,思考什么是分类变量,列联表如何画?任务2有哪些方法可以直观判断两个分类变量是否有关系?2.预习自测1.下列不是分类变量的是()A.近视B.身高C.血压D.药物反应解:B.判断一个量是否是分类变量,只需看变量的不同值是否表示个体的不同类别,A,C,D选项的不同值都可以表示个体的不同类别,只有B选项的不同值不表示个体的不同类别.2.下面是一个22⨯列联表则表中a,b A. 94,96 B. 52,50 C. 52,54 D. 54,52 解:C(二)课堂设计 1.知识回顾(1)线性回归方程:∧∧∧+=a x b y ,其中:1122211()()()n niii ii i nniii i x x y y x y nx yb x x xnx∧====---==--∑∑∑∑,a ∧=x b ∧-y(2)回归分析:是对具有相关关系的两个变量进行的统计分析的一种常用方法. (3)线性回归模型:y bx a e =++其中a 和b 为模型的未知参数,e 称为随机误差. 2.问题探究问题探究一 什么是分类变量?●活动一 理论研究,概念学习—分类变量在现实生活中,会遇到各种各样的变量,如果要研究它们之间的关系,观察下面两组变量,分析在取不同的值时表示的个体有何差异?变量的不同“值”表示个体所属的不同类别,像这样的变量成为分类变量. (1) 分类变量也称为属性变量或定性变量,它的不同值表示个体所属的不同类别. (2) 分类变量的取值一定是离散的,如性别只取男、女两个值.(3) 可以把分类变量的不同取值用数字表示,如用0表示男,1表示女,这是性别变量就成了取值为0和1的随机变量,但这些数字的大小没有意义. 分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍等问题探究二 如何研究两个分类变量之间是否有关系?在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别是否对喜欢数学课程有影响? ●活动一 实例探究,引出问题例1 为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:表格 1那么吸烟是否对患肺癌有影响?估计吸烟者与不吸烟者患病的可能性差异?●活动二 实例探究,引出概念 1.列联表类似于上面的表格这样列出两个分类变量的频数表,称为列联表.即列联表是两个或者两个以上分类变量的频数表,书中仅限于研究两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表成为2×2列联表.一般的,假设有两个分类变量X 和Y ,它们的取值分别为{}21,x x 和{}21,y y ,其样本频数列联表为:1y 2y总计1x a bb a + 2xcd d c + 总计c a +b d +d c b a +++其中d c b a +++是样本容量. ●活动三 利用旧知,研究问题 利用频率分布表判断;由患肺癌在吸烟者与不吸烟者中的频率差异可粗略估计吸烟对患肺癌有影响; ●活动四 学习新知,对比研究与表格相比,图形更能直观的反映出两个分类变量间是否相互影响,我们常用等高条形图展示列联表数据的频率特征. 2.等高条形图利用等高条形图来分析两个分类变量之间是否具有相关关系,可以形象、直观地反映两个分类变量之间的总体状态和差异大小,进而判断它们之间是否具有相关关系.(1)绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;两行的数据对应不同的颜色.(2)等高条形图中由两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显,就判断两个分类变量之间有关系.下图是吸烟与是否患肺癌的等高条形图0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌由条形图可以发现,在吸烟样本中,患肺癌的频率要高些,因此直观上可以认为吸烟更容易引发肺癌.例2 在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关? 【知识点:分类变量,等高条形图】详解根据题目给出的数据作出如下的列联表:色盲不色盲总计男38442480女6514520总计44956 1 000根据列联表作出相应的等高条形图:从等高条形图来看在男人中患色盲的比例要比在女人中患色盲的比例大得多,因而,我们认为性别与患色盲是有关系的.点拨:利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,aa+b 与cc+d相差越大,两个分类变量有关系的可能性就越大.问题探究三如何从统计学方面研究两个分类变量之间是否有关系?重点、难点知识★▲通过数据和图形分析,我们得到的直观判断是“吸烟和患肺癌有关”那么这种判断是否可靠?我们通过统计分析回答这个问题.为研究的一般性,在列联表中用字母代替数字为了回答上述问题,我们先假设H:吸烟与患肺癌没有关系,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多,即:dc cb a a +≈+,即bc ad ≈. 因此,bc ad -越小,说明吸烟与患肺癌之间关系越弱;bc ad -越大,说明吸烟与患肺癌之间关系越强.为了使不同样本容量的数据有统一的评判标准,构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++ (1) (其中n a b c d =+++为样本容量.)若0H 成立,即“吸烟与患肺癌没有关系”,则2K 应该很小. 根据表1中的数据,利用公式(1)计算得到2K 的观测值为632.5691987421487817)209942497775(99652≈⨯⨯⨯⨯-⨯=k这个值到底能告诉我们什么呢?统计学家经过研究后发现,在0H 成立的情况下, 2( 6.635)0.01P K ≥≈ (2)在0H 成立的情况下,2K 的观测值大于6.635的概率非常小,近似为0.010,是个小概率事件.现在2K 的观测值632.56≈k ,远远大于635.6,所以有理由断定0H 不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过010.0.上面这种利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验. 3.课堂总结【知识梳理】(1)变量的不用“值”表示个体所属的不同类别,像这样的变量成为分类变量. (2)列出两个分类变量的频数表,称为列联表.(3)设0H :吸烟与患肺癌没有关系,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多,即:dc cb a a +≈+,即bc ad ≈. 因此,bc ad -越小,说明吸烟与患肺癌之间关系越弱;bc ad -越大,说明吸烟与患肺癌之间关系越强.为了使不同样本容量的数据有统一的评判标准,构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++ (1) (其中n a b c d =+++为样本容量.)若0H 成立,即“吸烟与患肺癌没有关系”,则2K 应该很小.【重难点突破】(1)列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.一般地,在等高条形图中,a a +b 与cc +d 相差越大,两个分类变量有关系的可能性就越大.(2)利用等高条形图判断两个分类变量是否有关的步骤:4.随堂检测1.独立性检验中,可以粗略地判断两个分类变量是否有关的是( ) A. 残差B. 等高条形图C.假设检验的思想D.以上都不对【知识点:独立性检验】 解: B.2.分类变量X 和Y 的列联表如下,则( )A. ad bc -越小,说明X 与Y 的关系越弱B. ad bc -越大,说明X 与Y 的关系越强C. 2()ad bc -越大,说明X 与Y 的关系越强 D. 2()ad bc -越接近于0,说明X 与Y 关系越强【知识点:独立性检验】解:C 2K 越大, 2()ad bc -越大, 犯错误的概率的越小,说明X 与Y 的关系越强. 3..在一次独立性检验中,得出2×2列联表如下:最后发现,两个分类变量x 和y 没有任何关系,则m 的可能值是( ) A.200 B.720 C.100 D.180 【知识点:独立性检验】解:B 分类变量x 和y 没有任何的关系,所以,得到720=m ,故选B. 4.在一个2×2列联表中,由其数据计算得到K 2的观测值k =13.097,则其两个变量间有关系的可能性为( ) A.99.9% B.95% C.90% D.0 附表:【知识点:独立性检验】解:A 因为所求的213.09710.828k ,故可能性为99.9%,所以选A.5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则至少有 _的把握认为“学生性别与是否支持该活动有关系”. 附:【知识点:独立性检验】 解:99﹪ (三)课后作业基础型 自主突破 1.下面说法正确的是( )A.统计方法的特点是统计推断准确、有效B.独立性检验的基本思想类似于数学上的反证法C.任何两个分类变量有关系的可信度都可以通过查表得到D.不能从等高条形图中看出两个分类变量是否相关 【知识点:独立性检验】 解:B2.观察下列各图,其中两个分类变量x ,y 之间关系最强的是( )【知识点:独立性检验】 解:D3.确定结论“X 与Y 有关系”的可信度为95℅时,则随机变量2k 的观测值k 必须( ) A.大于828.10 B.大于841.3 C.小于635.6 D.大于706.2 【知识点:独立性检验】解:B 通过表中的数据可知可信度为95℅时2 3.841kP (K 2≥k 0) 0.05 0.025 0.010 0.005 0.001 k 03.8415.0246.6357.87910.8284. 想要检验是否喜欢参加体育活动是不是与性别有关,应该检验( ) A.H 0:男性喜欢参加体育活动 B.H 0:女性不喜欢参加体育活动 C.H 0:喜欢参加体育活动与性别有关 D.H 0:喜欢参加体育活动与性别无关 【知识点:独立性检验】 解: D5.对分类变量X 与Y 的随机变量2K 的观测值K ,说法正确的是( ) A .K 越大," X 与Y 有关系”可信程度越小; B . K 越小," X 与Y 有关系”可信程度越小; C . K 越接近于0," X 与Y 无关”程度越小 D . K 越大," X 与Y 无关”程度越大 【知识点:独立性检验】 解: B能力型 师生共研6.若有%9.99的把握说事件A 与事件B 有关,那么具体算出的2K 的观测值k 一定满足( )A.828.10>kB.828.10<kC.635.6>kD.635.6<k 【知识点:独立性检验】 解: A7.假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其2×2列联表为:(D ) A.a =5,b =4,c =3,d =2 B.a =5,b =3,c =4,d =2 C.a =2,b =3,c =4,d =5 D.a =3,b =2,c =4,d =5 【知识点:独立性检验】 解: D8.某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2⨯2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论为:有 把握认为“学生性别与支持该活动有关系”【知识点:独立性检验】解: 99% 【解析】根据6.6357.06910.828<<,所以犯错误率低于1%,所以应该有99%的把握,认为“学生性别与支持该活动有关系” ,探究型 多维突破9.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少? (2)试运用独立性检验的思想方法点拨:学生的学习积极性与对待班级工作的态度是否有关系?并说明理由.(参考下表)【知识点:独立性检验,古典概型】解:(1)积极参加班级工作的学生有24人,总人数为50人,概率为25125024=; 不太主动参加班级工作且学习积极性一般的学生有19人,概率为5019.(2)5.111315026242524)761918(5022≈=⨯⨯⨯⨯-⨯⨯=K , ∵828.102>K ,∴有%9.99的把握说学习积极性与对待班级工作的态度有关系.10.2016年夏季奥运会将在巴西里约热内卢举行,体育频道为了解某地区关于奥运会直播的收视情况,随机抽取了100名观众进行调查,其中40岁以上的观众有55名,下面是根据调查结果绘制的观众准备平均每天收看奥运会直播时间的频率分布表(时间:分钟):将每天准备收看奥运会直播的时间不低于80分钟的观众称为“奥运迷”,已知“奥运迷”中有10名40岁以上的观众.(1)根据已知条件完成下面的22⨯列联表,并据此资料你是否有认为“奥运迷”与年龄有关?(2)将每天准备收看奥运会直播不低于100分钟的观众称为“超级奥运迷”,已知“超级奥运迷”中有2名40岁以上的观众,若从“超级奥运迷”中任意选取2人,求至少有1名40岁以上的观众的概率.【知识点:独立性检验,概率统计】解:(1)由频率分布表可知,在轴取的100人中,“奥运迷”有25人,从完成22⨯列联表如下:因为3.030 3.841<,所以没有“奥运迷”与年龄有关.(2)由频率分布表可知,“超级奥运迷”有5人,从而所有可能结果所组成的基本事件空间为:()()()()()()()()()(){}12132311122122313212,,,,,,,,,,,,,,,,,,,a a a a a a a b a b a b a b a b a b b b Ω=其中i a 表示男性,1,2,3,i i b =表示女性,1,2i =.Ω由10个基本事件组成,且是等可能的,用A 表示事件“任意选2人,至少有1名40岁以上观众”,则()()()()()()(){}11122122313212,,,,,,,,,,,,,A a b a b a b a b a b a b b b =,即事件A 包含7个基本事(四)自助餐1.在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( )A.a a +b 与dc +d B.c a +b 与a c +d C.a a +b 与c c +d D.a a +b 与c b +c【知识点:独立性检验】 解: C2.为了调查中学生近视情况,某校150名男生中有80名近视,140名女生中有70名近视.在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( ) A.平均数 B.方差 C.回归分析 D.独立性检验 【知识点:独立性检验】解: D 本例考查学生眼睛的“近视”与“性别”两件事情之间是否存在相关性,从给出的数据可以列出22⨯列联表,所以适合用独立性检验.3.在一个2×2列联表中,由其数据计算得K 2的观测值k =7.097,则这两个变量间有关系的可能性为 ( )A.99%B.99.5%C.99.9%D.无关系 【知识点:独立性检验】解: A 由表格数据可知k =7.097>6.635,所以这两个变量间有关系的可能性为99%4.某疾病研究所想知道吸烟与患肺病是否有关,于是随机抽取1000名成年人调查是否抽烟及是否患有肺病得到22⨯列联表,经计算得231.52=K ,已知在假设吸烟与患肺病无关的前提条件下,01.0)635.6(,05.0)841.3(22=≥=≥K P K P .则该研究所可以( )A.有%95以上的把握认为“吸烟与患肺病有关”B.有%95以上的把握认为“吸烟与患肺病无关”C.有%99以上的把握认为“吸烟与患肺病有关”D.有%99以上的把握认为“吸烟与患肺病无关” 【知识点:独立性检验】解: A 因为2 5.231 3.841K =>,而2( 3.841)0.05P K ≥=,故有有%95以上的把握认为“吸烟与患肺病有关”5.2016年3月9日至15日,谷歌人工智能系统“阿尔法”迎战围棋冠军李世石,最终结果“阿尔法”以总比分4比1战胜李世石.许多人认为这场比赛是人类的胜利,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2548名男性中有1560名持反对意见, 2452名女性中有1200名持反对意见,在运用这些数据说明“性别”对判断“人机大战是人类的胜利”是否有关系时,应采用的统计方法是( ) A.茎叶图 B.分层抽样 C.独立性检验 D.回归直线方程 【知识点:独立性检验】解:C 这是独立性检验,因为这里有两个分类变量,一个是性别分为男女,一个是意见分为支持和反对,这样就构成一个22⨯联表,用独立性检验来验证“人机大战是人类的胜利”是否有关系.6.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,这与性别有关联的可能性最大的变量是( )A.成绩B.视力C.智商D.阅读量【知识点:独立性检验】解:D由表中数据可得:表1:()25262210140.00916362032K⨯⨯-⨯=≈⨯⨯⨯;表2:()25242012161.76916362032K⨯⨯-⨯=≈⨯⨯⨯;表3:()2528241281.316362032K⨯⨯-⨯=≈⨯⨯⨯;表4:()25214302623.4816362032K⨯⨯-⨯=≈⨯⨯⨯.其中23.48最大,所以阅读量与性别有关联的可能性最大.7.如下表是对于喜欢足球与否的统计列联表依据表中的数据,得到2K.【知识点:独立性检验】解:228542122854.77245406817k⨯-⨯==⨯⨯⨯.8.若由一个2×2列联表中的数据计算得K2的观测值k=4.013,那么在犯错误的概率不超过________的前提下认为两个变量之间有关系.【知识点:独立性检验】解:0.05 因随机变量K2的观测值k=4.013>3.841,因此,在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.9.如果K2的观测值为6.645,可以认为“x与y无关”的可信度是________.【知识点:独立性检验】解:1%10.某学校对该校学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.【知识点:独立性检验】解:作列联表如下:性格内向性格外向总计考前心情紧张332 213 545考前心情不紧张94 381 475总计426 594 1020 相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类型有关.11.甲、乙两所学校高三年级分别有1200人,1000人,为了了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下:(1)计算x,y的值;(2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率;(3)根据以上统计数据完成2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.【知识点:独立性检验,分层抽样,概率统计】解:(1)x=10,y=7;(2)甲乙分别为;25%,40%(3)见解析.试题分析:(1)由题为分层抽样,可确定出甲乙两个学校分别抽取的人数,然后结合频数表,可求出x,y的值;(2)由题给出了优秀的标准,结合给出的表格,可分别求甲乙学校的数学成绩的优秀率,(即由每个学校优秀的人数除以它们的人数);(3)由题为独立性检验;可先做出二列联表,再代入独立性检验的公式,求出2K,对应参考值可下结论.试题解析:(1)甲校抽取人,乙校抽取人,故x=10,y=7,(240%.(3)表格填写如图,k2>2.706又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异.。
独立性检验的基本思想及其初步应用

独立性检验的基本思想及其初步应用作者:张艾楠来源:《学习周报·教与学》2020年第44期一、教学目标:1.通过生活中实际问题的探究,理解独立性检验的基本思想,明确独立性检验的基本步骤,会对两个分类变量进行独立性检验,并能利用独立性检验的基本思想来解决实际问题。
2.通过探究高中生选修物理与性别是否有关系引出独立性检验的问题,借助样本数据的列联表分析独立性检验的实施步骤。
3.通过本节课的学习,加强数学与现实生活的联系。
以科学的态度评价两个分类变量有关系的可能性。
培养学生运用所学知识,解决实际问题的能力。
教学中适当地利用学生合作與交流,使学生在学习的同时,体会与他人合作的重要性。
二、教学重点:通过案例的分析研究,展现统计中数据分析的全过程。
让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤;三、教学难点:独立性检验过程中的获得及其意义的理解。
四、教学方法:问题化和探究式教学五、教学手段:多媒体,pad六、教学过程:(一)创设情境课前预习(小组讨论,合作探究):在之前的学习中,我们研究过两个变量的相关性及它们之间的线性回归方程。
这里再给出几个例子,吸烟与患慢性气管炎是否有关?秃顶和患心脏病是否有关?爱好运动与性别是否有关?上述例子中的各个变量与之前学习过的变量不太一样,变量吸烟我们可以按吸烟与不吸烟分类,性别我们可以按男女分类,变量的不同值表示个体所属的不同类别,像这样的变量,我们叫分类变量。
分类变量不一定只能分两类,比如职业,这个变量就有很多的结果,高中阶段我们只研究具有两个结果的分类变量。
观察下面这个例子:为了迎接2020年的新高考改革,在高一下学期的时候对全年级的761名学生选修物理、化学、生物、政治、历史和地理的情况进行了调查,这里给出全年级同学选修物理的情况。
请同学们自己整理数据并回答下列问题。
问题1:你能否设计一个方法,使得上述的统计结果更加直观?问题2:你能否设计出一个方案,来判断高中生选修物理是否与性别有关?问题3:请同学们以小组为单位,搜集你们感兴趣的分类变量的相关数据,并用你设计的方案来判断你所研究的分类变量之间是否存在一定的关系。
独立性检验思想及应用

独立性检验思想及应用独立性检验(Independence Test)是统计学中用于研究两个或多个分类变量之间是否存在关联的方法。
它基于假设显著性检验的思想,通过计算观察值与期望值之间的差异程度,来判断两个变量是否独立。
在实际应用中,独立性检验经常用于确定两个变量是否相互影响或存在某种联系,以及在实验设计、社会科学研究、生物学研究等领域中的数据分析。
独立性检验的基本思想是基于对观察样本的期望值进行比较,来推断两个或多个分类变量是否存在关联。
在进行独立性检验时,常用的统计方法包括卡方检验(Chi-square Test)、Fisher精确检验(Fisher's Exact Test)和logistic回归分析(Logistic Regression)等。
卡方检验是独立性检验中最常用的方法之一。
它基于卡方统计量的分布特性,通过计算观测频数与期望频数之间的差异,来判断两个或多个分类变量之间的关联性。
卡方检验的原理是比较观测频数与期望频数之间的差异是否显著,若差异显著,则表明两个变量之间存在关联。
Fisher精确检验是一种非参数的检验方法,用于较小样本量且存在预期频数很低的情况。
它通过穷举计算所有可能的观测结果,来计算出在给定的边际总和下,观测频数与期望频数之差异的概率。
Fisher精确检验在小样本研究中经常被使用,特别是用于研究罕见事件的相关性。
logistic回归分析是一种广义线性模型,可用于分析二分类变量的关联性。
它将自变量的线性组合通过logistic函数转换为估计概率,从而实现对二分类变量之间的关系进行研究。
logistic回归分析在独立性检验领域中常用的方法包括二分类变量的logistic回归、多分类变量的logistic回归和多项式logistic回归等。
独立性检验在很多领域都有广泛的应用。
在医学研究中,独立性检验可以用于分析某种疾病的发病率与多个危险因素之间的关联性,以及评估治疗方法对疾病预后的影响;在社会科学研究中,独立性检验可以用于分析社会经济因素与人群特征之间的关联,以及评估政策改革对社会发展的影响;在生物学研究中,独立性检验可以用于分析基因型与表型之间的关联,以及评估不同基因型对遗传疾病的易感性等。
独立性检验的基本思想及其初步应用

如果“吸烟与患肺癌没有关系”,那么吸烟样
本中不患肺癌的比例应该与不吸烟样本中相应的比
例差不多.
所以
a a+
b
c
c +d
,
所以 a c + d ca + b,
ad bc
即 ad bc 0.
︱ad-bc︱越小,说明吸烟与患肺癌之间的关系越弱;
︱ad-bc︱越大,说明吸烟与患肺癌之间的关系越强.
患心脏病 患其他病 总计
秃顶
214
175
389
不秃顶
451
597
1 048
总计
665
772
1 437
(1)相应的等高条形图如下所示,
不患心脏病 患心脏病
秃顶
不秃顶
由图可认为秃顶与患心脏病有关系
吸烟与患肺癌列联表(单位:人)
不患肺癌
患肺癌
总计
不吸烟
7 775
42
7 817
吸烟
2 099
49
2 148
总计
9 874
91
9 965
在不吸烟者中患肺癌的比重是__0_._5_4_%_,
在吸烟者中患肺癌的比重是__2_._2_8_%_.
说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大.
K2
(n ad bc)2
(a b)(c d )(a c)(b d )
临界值表:
P ( K 2 k 0 ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
独立性检验基本思想及应用

独立性检验基本思想及应用独立性检验是一种用于确定两个变量之间是否存在关联的统计方法。
其基本思想是通过比较观察到的数据与预期的数据之间的差异来推断这两个变量之间的关系。
独立性检验的应用非常广泛。
在社会科学中,独立性检验常被用于研究两个分类变量之间是否存在关联,例如性别和职业、教育水平和政治倾向等。
在医学研究中,独立性检验也可以用来检查某种治疗方法是否与疾病的发展有关,以及风险因素和某种疾病之间的关系。
此外,独立性检验还被广泛应用于市场调查、品牌定位以及质量控制等领域。
独立性检验的基本思想是建立一个零假设(H0)和一个备择假设(H1)。
零假设认为两个变量是独立的,即它们之间没有关联;备择假设则认为两个变量之间存在关联。
独立性检验的步骤可以分为以下几步:1. 收集数据:需要收集两个分类变量的数据,例如通过问卷调查或观察获得数据。
2. 建立列联表:将数据整理成列联表形式,列联表是一种用于描述两个或多个分类变量之间关系的矩阵。
表格的行表示一个变量的不同类别,列表示另一个变量的不同类别,表格中的每个单元格表示两个类别的交叉数量。
3. 计算期望频数:在独立性检验中,我们假设两个变量是独立的,因此可以基于各类别的边际总数以及样本总数来计算期望频数。
期望频数是在两个变量独立情况下,各个类别的交叉数量。
4. 计算卡方统计量:卡方统计量用于衡量观察到的数据与期望数据之间的差异程度。
计算公式为:χ2 = Σ((观察频数- 期望频数)^2 / 期望频数)。
其中,Σ表示对所有单元格进行求和。
5. 设定显著性水平:显著性水平α为决策的临界点,用于决定是否拒绝零假设。
通常,α的常见选择为0.05或0.01。
6. 判断和解释结果:根据计算出的卡方统计量与临界值进行比较,如果计算出的卡方值大于临界值,拒绝零假设,认为两个变量之间存在关联;反之,接受零假设,认为两个变量是独立的。
独立性检验的结果常常以卡方统计量和p值的形式呈现。
p值是在零假设成立的条件下,观察到的数据与期望数据之间差异的概率。
独立性检验的基本思想及其初步应用

§3.2独立性检验的基本思想及其初步应用学习目标 1.了解独立性检验的基本思想、方法及其简单应用.2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤(重、难点).知识点1两个分类变量之间关联关系的定性分析1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.这里的“变量”和“值”都应作为“广义”的变量和值进行理解,它们取的不一定是具体的数值.2.列联表列出的两个分类变量的频数表,称为列联表.假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d3.两个分类变量之间关联关系的定性分析的方法(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的频数表来进行分析.(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高条形图展示列联表数据的频率特征.【预习评价】(1)下面是一个2×2列联表:y1y2总计x1 a 2173x282533总计 b 46则表中a,b处的值分别为()A.94,96B.52,50C.52,60D.54,52(2)根据如图所示的等高条形图可知吸烟与患肺病关系(填“有”或“没有”).知识点2独立性检验1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2.K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(2)利用公式计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【预习评价】(1)在吸烟与患肺病这两个分类变量是否相关的判断中,下列说法中正确的是()①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在在犯错误的概率不超过0.01前提下,认为吸烟与患肺病有关系时,我们说若某人吸烟,则他有99%的可能患有肺病;③从统计量中得知在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.A.①B.①③C.③D.②(2)某班主任对全班50名学生进行了作业量的调查,数据如下表:认为作业量大认为作业量不大总计男生18927女生81523总计262450则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过()A.0.01B.0.005C.0.025D.0.001题型一利用等高条形图判断两个分类变量是否有关系【例1】为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:患病未患病总计服用药104555未服用药203050总计3075105试用等高条形图分析服用药和患病之间是否有关系.规律方法(1)本题采用数形结合法通过条形图直观地看出差异,得出结论. (2)应用等高条形图判断两变量是否相关的方法在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.“两个比例的值相差越大,H1成立的可能性就越大.”【训练1】网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?方向1 有关“相关的检验”【例2-1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?方向2有关“无关的检验”【例2-2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关?规律方法(1)独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad -bc|越小,关系越弱;|ad-bc|越大,关系越强.(2)独立性检验的具体做法①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.②利用公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算随机变量K2的观测值k.③如果k>k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.【训练2】打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:根据独立性检验,能否在犯错误的概率不超过0.001的前提下认为每一晚都打鼾与患心脏病有关系?题型三独立性检验的综合应用【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.附:P(K2≥k0)0.1000.0500.0100.005k0 2.706 3.841 6.6357.879K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).规律方法(1)解答此类题目的关键在于正确利用K2=n(ad-bc)2计算k的值,再用它与临界值k0的大小作比(a+b)(c+d)(a+c)(b+d)较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【训练3】某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分成绩优秀的人数如下表所示,能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀有关系?物理优秀化学优秀总分优秀数学优秀228225267数学非优秀14315699注:该年级在此次考试中数学成绩优秀的有360人,非优秀的有880人.课堂达标1.观察下列各图,其中两个分类变量x,y之间关系最强的是()2.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:偏爱蔬菜 偏爱肉类 总计50岁以下 4 8 12 50岁以上 16 2 18 总计201030则可以说其亲属的饮食习惯与年龄有关的把握为( ) A.90%B.95%C.99%D.99.9%3.为了判断高中学生的文理科选修是否与性别有关系,随机调查了50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.可认为选修文理科与性别有关系的可能性不低于 . 4.根据下表计算:不看电视 看电视 男 37 85 女35143K 2的观测值k ≈ (保留3位小数).5.在109个人身上试验某种药物预防感冒的作用,得到如下列联表:感冒 未感冒 总计 服用药1146 57 未服用药 213152总计3277109则有多大把握认为该药有效?课堂小结1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.基础过关1.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0B.1C.2D.32.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:优秀及格总计甲班113445乙班83745总计197190则随机变量K2的观测值约为()A.0.600B.0.828C.2.712D.6.0043.考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理种子未处理总计根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的4.2013年6月11日,中国的“神舟十号”发射成功,由此许多人认为中国进入了航天强国之列,也有许多人持反对意见,为此进行了调查.在参加调查的3 648名男性公民与3 432名女性公民中,持反对意见的男性有1 843人、女性有1 672人,在运用这些数据说明中国“神十”发射成功是否与中国进入航天强国有关系时,用下列最具说服力.①回归直线方程;②平均数与方差;③独立性检验.5.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是(填序号).①没有充足的理由认为课外阅读量大与作文成绩优秀有关;②有0.5%的把握认为课外阅读量大与作文成绩优秀有关;③有99.9%的把握认为课外阅读量大与作文成绩优秀有关;④有99.5%的把握认为课外阅读量大与作文成绩优秀有关.6.在研究某种药物对“H1N1”病毒的治疗效果时,进行动物试验,得到以下数据,对150只动物服用药物,其中132只动物存活,18只动物死亡,对照组150只动物进行常规治疗,其中114只动物存活,36只动物死亡.(1)根据以上数据建立一个2×2列联表;(2)试问该种药物对治疗“H1N1”病毒是否有效?7.在一次恶劣天气的飞行航程中调查男女乘客在飞机上晕机的情况如下表所示,根据此资料是否能在犯错误的概率不超过0.05的前提下认为在恶劣天气飞行中男人比女人更容易晕机?能力提升8.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.如果K2≥5.024,那么就有把握认为“X与Y有关系”的百分比为()A.25%B.75%C.2.5%D.97.5%9.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4A.成绩B.视力C.智商D.阅读量10.下表是关于男婴与女婴出生时间调查的列联表:那么,A=,B=,C=,D=,E=.11.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是(填序号).①若K2的观测值k=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.12.随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n 个人,其中男性占调查人数的25.已知男性中有一半的人的休闲方式是运动,而女性中只有13的人的休闲方式是运动. (1)完成下列2×2列联表:(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?(3)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动? 13.(选做题)某学校为了解该校高三年级学生在市一练考试的数学成绩情况,随机从该校高三文科与理科各抽取50名学生的数学成绩,作出频率分布直方图如图,规定考试成绩在[120,150]内为优秀.(1)由以上频率分布直方图填写下列2×2列联表.若按是否优秀来判断,是否有99%的把握认为该校的文理科数学成绩有差异.文科理科总计优秀非优秀总计5050100(2)某高校派出2名教授对该校随机抽取的学生成绩中一练数学成绩在140分以上的学生进行自主招生面试,每位教授至少面试一人,每位学生只能被一位教授面试.若甲教授面试的学生人数为ξ,求ξ的分布列和均值.。
独立性检验的基本思想及其初步应用

P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
小结: 回顾我们分析“吸烟对患肺癌是否有影响”这个案例的过程: 我们是如何判断两个分类变量是否有关系? 1.提出假设H0:两个分类变量没有关系; 2.写出2×2列联表,并由K2的公式计算其观测值k ; 3.作出推断:确定临界值k0,通过观测值k与k0比较作出判断;
利用频率判断概率是否相等
利用统计量的观测值与临界值 比较
利用等高条形图直观判断有关 利用小概率事件发生给出“判
系
断有关系”犯错误的概率
【例】在某医院,因为患心脏病而住院的665名男性病人中,有 214人秃顶, 而另外772名不是因为患心脏病而住院的男性病人 中有175人秃顶. (1)利用图形判断秃顶与患心脏病是否有关系; (2)能否在犯错误的概率不超过0.01的前提下认为秃顶与患心 脏病有关系?
(1)若k≥k0,认为k很大,推断H0不成立,从而有 [1-P(K2≥k0)]×100%的把握认为“两个分类变量有关系”, 即:在犯错误的概率不超过P(K2≥k0)的前提下认为“两个分类 变量有关系”; (2)若k<k0,认为k很小,无法拒绝H0 , 即:样本观测数据没有足够证据证明“两个分类变量有关系”.
总计 7 817 2 148 9 965
依据两个分类变量的取值,列出的频数分布表我们称为 2×2列联表
列分类(Y)
未发生数(y1)
行 分
甲(x1)
a
类 (X)
乙(x2)
c
独立性检验的基本思想及其初步应用(一)

第43课时独立性检验的基本思想及其初步应用(一)学习目标:通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题.教学重点;理解独立性检验的基本思想及实施步骤;教学难点:了解独立性检验的基本思想、了解随机变量2K的含义教学工具:Powerpoint、Excel教学过程:(一)复习引入1、回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.2、观察下列图片,吸烟与患肺癌有关系吗?你有多大程度把握吸烟与患肺癌有关?(二)推进新课问题1、我们在研究“吸烟与患肺癌的关系”时,需要关注哪一些量呢?引出两个新概念.①分类变量:变量的不同“值”表示个体所属不同类别的变量称为分类变量.分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别.如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.②列联表:分类变量的汇总统计表(频数表).如吸烟与患肺癌的列联表:一般我们只研究每个分类变量只取两个值,这样的列联表称为22.思考:由以上列联表,我们估计吸烟是否对患肺癌有影响?方法一:①在不吸烟者中患肺癌的比例为0.54%;②在吸烟者中患肺癌的比例为2.28%. 因此,直观上可以得到结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异. 方法二:我们还能够从图形中得到吸烟与患肺癌之间的关系吗? 如右图,是等高条形图展示列联表数据的频率特征,其中浅色条的高分别表示不吸烟和吸烟样本中不患肺癌的频率;两个深色条的高分别表示不吸烟和吸烟样本中患肺癌的频率.比较两个深色条的高可以发现,在吸烟样本中患肺癌的频率要高一些,因此直观上可以认为吸烟更容易引发肺癌.通过数据和图形分析,我们得到的直观判断是1H :吸烟和患肺癌有关,那么这种判断是否可靠呢? 思考:我们能够从多大程度上认为吸烟与患肺癌之间有关系呢?为了解决上述问题,我们先假设1H 不成立,即 0H :吸烟与患肺癌没有关系.设事件A 表示不吸烟,事件B 表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌相互独立”,由事件相互独立性性质,则“不吸烟与不患肺癌也是相互独立”的,即假设0H 成立等价于 ()()()P AB P A P B =由表可知,a 恰好为事件AB 发生的频数;a b +和a c +恰好分别为事件A 和事件B发生的频数,由于频率近似于概率,所以()()()P AB P A P B =成立时应该有 n c a n b a n a +⨯+≈,其中d c b a n +++=为样本容量,即))(()(c a b a a d c b a ++≈+++ 即bc ad ≈也就是说0H : “吸烟与患肺癌没有关系”成立的充要条件是bc ad ≈,那么这个式子到底能从量上告诉我们什么,怎样来进一步刻画?我们知道bc ad ≈,也就是说bc ad ,的值很接近,那么||ad bc -应该非常接近于0,于是有:问题:||ad bc -的大小说明什么问题?||ad bc -越小,说明0H 成立,即吸烟与患肺癌之间关系越弱; ||ad bc -越大,说明0H 不成立,即1H 成立,吸烟与患肺癌之间有关系.为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.重新审视问题:若0H :吸烟与患肺癌没有关系成立,则2K 应该很小.由上公式计算得到2K 的观测值为29965(777549422099)56.63278172148987491k ⨯-⨯=≈⨯⨯⨯ 这个值到底能告诉我们什么呢?显然,2K 的观测值“很大”,我们有理由认为0H 不成立,即1H 成立,吸烟与患肺癌之间有关系.值得注意的是“很大”是一个什么标准,在样本测量中必须有一个标准——临界值!于是统计学家经过研究发现,在0H 成立的情况下,2( 6.635)0.010.P K ≥≈(小概率事件,发生概率不到5%的事件)这里临界值为6.635,即在0H 成立的情况下,2K 的观测值大于6.635的概率非常小,近似于0.010,是一个小概率事件.也就是说,正常情况下(0H 成立的情况下)2K 的观测值有(以大概率)99%的时候小于6.635.到此,我们就明白了,2K =56.632≥6.635,发生了一个小概率事件,违背了正常情况(0H 成立),所以1H 成立,吸烟与患肺癌之间有关系.上面的过程实际上借助于随机变量2K 的观测值k ,建立了一个判断0H 是否成立的规则:如果 6.635k ≥,就判断0H 不成立,即吸烟与患肺癌有关系;否则就判断0H 成立,即吸烟与患肺癌没有关系.在该规则下,把结论“0H 成立”错判成“0H 不成立”的概率不会超过2( 6.635)0.010.P K ≥≈,即有99%的把握认为0H 不成立.知识形成1、分类变量:变量的不同“值”表示个体所属不同类别的变量称为分类变量.分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别. 2、列联表:分类变量的汇总统计表(频数表). 如吸烟与患肺癌的列联表.一般我们只研究每个分类变量只取两个值,这样的列联表称为22⨯.3、独立性检验:这种利用随机变量2K 来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.4、独立性检验基本思想的形成过程:第一步:提出假设检验问题0H:吸烟与患肺癌没有关系↔ 1H :吸烟与患肺癌有关系;第二步:选择检验的指标22()K ()()()()n ad bc a b c d a c b d -=++++(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大;(三)典例分析1、已知分类变量的列联表如下:和Y X 则下列说法正确的是( C )A bc ad -越小,说明Y 和X 关系越弱B bc ad -越大,说明Y 和X 关系越强C 2)(bc ad -越大,说明Y 和X 关系越强D 2)(bc ad -越接近于0,说明Y 和X 关系越强2、根据右边等高条形图,可知男女性别与患色盲 有 关系(填“有”或“没有”) 3、统计假设:0H )()()(B P A P AB P ⋅=成立时,有 以下判断:①)()()(B P A P B A P ⋅=;②)()()(B P A P B A P ⋅=;③)()()(BP A P B A P ⋅=其中真命题的个数是( C ) A 1 B 2 C 3 D 03、某大学要研究性别与职称(教授与副教授)之间是否有关系,你认为应该收集哪些数据女教授的人数,男教授的人数,女副教授的人数,男副教授的人数 .4、为了调查高中生的数学成绩和物理成绩的关系,在某校随机抽取部分学生调查,得到如下两个图表:根据以下图表,完成以下列联表5、在研究新措施对防治猪白痢是否有效时,得观测结果如上表右,试作出二维条形图并判断新措施对防治猪白痢是否有效? 解:作出二维条形图如下图所示,从二维条形图中,可以估计在新措施中的死亡数所占的比例为15018,在对照组中死亡数所占的比例为15036,二者的差值为15018|1503615018|=-,差别很大,因此从二维条形图中我们可以看出新措施对防治猪白痢是有效的.(四)课时小结1、独立性检验的基本思想;2、独立性检验的操作步骤;3、了解2×2列联表的意义与能识别二维条形图和等高条形图. (五)作业 P 97练习。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一个叫做原假设,用H0表示;另一个叫做备择 假设,用H1表示。
例如,在前面的例子中,
原
假设为: H0:面包份量足, 备择假设为: H1:面包份量不足。 这个假设检验问题可以表达为:
H0:面包份量足 ←→ H1:面包份量不足
2021/3/10
Байду номын сангаас
郑平正 制作
3
二:求解假设检验问题
考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足
解:设H0:两种中草药的治疗效果没有差异。
K 2 345184 9 61 912 11.098
275 70 245100
有关系”;如果k的值很小,则说明由样本观测数据没有发现
反对H0 的充分证据。
(3)根据随机变量K2的含义,可以通过评价该假设不合理的程 度,由实际计算出的,说明假设合理的程度为99%,即“两个分 类变量有关系”这一结论成立的可信度为约为99%.
2021/3/10
郑平正 制作
15
5、独立性检验
随机变量-----卡方统计量 K 2
不吸烟 吸烟
从三维柱形图能清晰看出 各个202频1/3数/10的相对大小。
3000
2000
1000
0 不吸烟
吸烟
从二维条形图能看出,吸烟者中
郑平正 制作
7
患肺癌的比例高于不患肺癌的比例。
4、等高条形图
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
0
不吸烟 不吸烟
患肺癌 比例
患心脏病 214 451 665
不患心脏病 175 597 772
总计 389 1048 1437
根据联表1-13中的数据,得到
K 2 1437 (214 597 175 451)2 16.373 6.635. 3891048 665 772
所以有99%的把握认为“秃顶患心脏病有关”。
2021/3/10
1、早期皮肌炎患者,还往往 伴有全身不适症状,如-全身肌肉 酸痛,软弱无力,上楼梯时感觉 两腿费力;举手梳理头发时,举 高手臂很吃力;抬头转头缓慢而 费力。
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分
析,我们构造一个随机变量-----卡方统计量
K2
n(ad bc)2
,
(a b)(c d )(a c)(b d )
3.2独立性检验的 基本思想及其初 步应用
高二数学 选修2-3
2021/3/10
第三章 统计案例
郑平正 制作
1
问题: 数学家庞加莱每天都从一家面包店
买一块1000g 的面包,并记录下买回的面
包的实际质量。一年后,这位数学家发 现 , 所 记 录 数 据 的 均 值 为 950g 。 于 是 庞 加莱推断这家面包店的面包分量不足。
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R 2、残差分析)
分类变量—— 独立性检验
本节2研021/3/究10 的是两个分类变郑平正量制作的独立性检验问题。5
• 假设“面包份量足”,则一年购买面包的质量数据 的平均值应该不少于1000g ;
• “这个平均值不大于950g”是一个与假设“面包份量 足”矛盾的小概率事件;
• 这个小概率事件的发生使庞加莱得出推断结果。
2021/3/10
郑平正 制作
2
一:假设检验问题的原理
假设检验问题由两个互斥的假设构成,其中
肺癌的可能性大。
2021/3/10
郑平正 制作
6
通过图形直观判断两个分类变量是否相关:
1、列联表
不吸烟 吸烟 总计
2、三维柱形图
不患肺癌 7775 2099 9874
患肺癌 42 49 91
总计 7817 2148 9965
3、二维条形图
8000
7000 6000
不患肺癌 患肺癌
5000
4000
不患肺癌 患肺癌
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”
等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B).
把表中的数字用字母代替,得到如下用字母表示的列联表
不吸烟 吸烟 总计
不患肺癌
a c a+c
患肺癌
b d b+d
总计
a+b c+d a+b+c+d
2021/3/10
郑平正 制作
解:设H0:药的效果与给药方式没有关系。
K2
19358 31 64 402
1.3896
122 71 98 95
因当H0成立时,K2≥1.3896的概率大于15%,故不能否定假设H0, 即不能作出药的效果与给药方式有关的结论。
2021/3/10
郑平正 制作
20
例5:气管炎是一种常见的呼吸道疾病,医药研究人 员对两种中草药治疗慢性气管炎的疗效进行对比, 所得数据如表所示,问:它们的疗效有无差异?
n(ad bc)2
,
(a b)(c d )(a c)(b d )
临界值表
其中n a b c d为样本容量。
P(K2 k0 ) 0.50
k0 0.455
0.40 0.708
0.25 1.323
0.15 2.072
0.10 0.05 0.025 0.010 0.005 0.001 2.706 3.841 5.024 6.635 7.879 10.828
12
在H0成立的情况下,统计学家估算出如下的概率
P(K 2 6.635) 0.01.
(2)
即在H0成立的情况下,K2的值大于6.635的概率非常小,近似
于0.01。
也就是说,在H0成立的情况下,对随机变量K2进行多次观 测,观测值超过6.635的频率约为0.01。
思考 如果K 2 6答.635:,就判断断定H出0不错成立的,概这率种判为断0出.错01的。可能性有多大?
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
不吸烟 吸烟 总计
吸烟与肺癌列联表
不患肺癌
患肺癌
7775
42
2099
49
9874
91
总计 7817 2148 9965
在不吸烟者中患肺癌的比重是 0.54%
在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患
现在观测值k 9965(7775 49 42 2099)2 56.632太大了, 7817 2148987491
在H
成立的情况下能够出现这样的观测值的概率不超过0.01,
0
因此我们有99%的把握认为H
不成立,即有99%的把握认为“吸烟
0
与患肺2021癌/3/1有0 关系”。
郑平正 制作
13
判断H 0是否成立的规则
郑平正 制作
19
例2:为研究不同的给药方式(口服与注射)和药的效果(有效
与无效)是否有关,进行了相应的抽样调查,调查的结果列 在表中,根据所选择的193个病人的数据,能否作出药的效果 和给药方式有关的结论?
口服 注射 合计
有效 58 64 122
无效 40 31 71
合计 98 95 193
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
复方江剪刀草 胆黄片 合计
有效 184 91 275
无效 61 9 70
合计 245 100 345
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
求解思路:
1. 在H0成立的条件下,构造与H0矛盾的小概率 事件;
2. 如果样本使得这个小概率事件发生,就能 以一定把握断言H1成立;否则,断言没有发 现样本数据与H0相矛盾的证据。
2021/3/10
郑平正 制作
4
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
(1)
其中n a b c d为样本容量。
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:
k 9965(7775 49 42 2099)2 56.632 (2) 7817 2148987491
2那021/3么/10 这个值到底能告诉郑平我正 制们作 什么呢?
9
不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事件
A下和应B该发有生的频P(数A)。由a n+于b频, 率P(接B)近 a于n+ c概,率P,(A所B)以 an在. H0成立的条件
a ≈ a + b×a + c nn n