8.4列联表独立性检验

合集下载

《列联表与独立性检验》教学分析

《列联表与独立性检验》教学分析

《列联表与独立性检验》教学分析一、本节知识结构框图二、重点、难点重点:22⨯列联表,独立性检验的思想和方法.难点:2χ统计量的导出和意义,独立性检验的思想和方法.三、教科书编写意图及教学建议统计最基本的思想是用样本推断总体,而估计和假设检验是两种基本而重要的推断方法.在前面的学习中,主要学习了统计估计的推断方法,例如,用样本数据的均值和方差分别估计总体的均值和方差;用样本相关系数估计两个数值变量的相关系数,从而推断这两个变量线性关系的密切程度;利用最小二乘思想估计一元线性回归模型中的参数等,本节结合具体实例,01,的分类变量的独立性,了解根据频率稳定到概率的原理及小概率原理,检验两个取值于{}独立性检验的思想方法,进一步提升学生的数据分析素养.本节内容对学生来说难度较大,涉及的基础知识有古典概型、条件概率、频率稳定到概率的原理及分类变量独立性的概念,涉及的统计思想方法主要是假设检验的思想方法.教科书结合丰富的实例,通过问题引导,采取了由易到难、逐步深入的处理方式,使学生了解独立性检验的基本思想.在本节教学中,应通过具体案例渗透独立性检验的基本思想和方法,使学生了解统计推断可能犯错误的特点,避免单纯地记忆独立性检验的基本步骤和机械地套用公式解决问题.应注重培养学生联系实际的意识,提高学生解决实际问题的能力.教科书注重信息技术与相关内容的有机融合,强调使用计算器、计算机等工具探索和解决问题.例如,在画等高堆积条形图时,借助信息技术作图,不但作出的图形准确美观,而且省时省力.面对复杂的计算,教学中应使用统计软件,解决计算量大的问题,使学生从烦琐的计算中解脱出来,把更多的精力放在对于独立性检验的基本思想的理解上.8.3.1分类变量与列联表教科书首先设置问题情境,对某中学全体学生分性别就体育锻炼的经常性进行普查,全校523名女生中有331人经常锻炼,601名男生中有473人经常锻炼,据此判断该中学学生不同性别在体育锻炼的经常性方面是否有差异.由于是普查数据,而且仅对这所学校进行判断,因此只需分别计算出女生经常参加体的比率和男生经常参加体育锻炼的比率,并比较这两个值是否相等.如果不相等,就认为不同性别在体育锻炼的经常性方面有差异,否则就认为没有差异.实际计算的结果显示经常参加体育锻炼的比率男生比女生高15.4个百分点.因此可判断该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.这个问题还可以从概率的角度进行解答.从女生和男生中各随机选取一名学生,分别计算两个群体中抽到经常参加体育锻炼学生的概率,并比较两个概率是否相等.如果不相等,就认为不同性别在体育锻炼的经常性方面有差异,否则就认为没有差异.若令0,1,X ⎧⎨⎩该生为女生,该生为男生,0,1,Y ⎧⎨⎩该生不经常锻炼,该生经常锻炼,则问题可以转化为比较条件概率|(10)P Y X ==和|(11)P Y X ==是否相等.如果数据是采用抽样调查得到的,怎样判断两个条件概率是否相等,从而推断两个分类变量是否存在关联性呢?接着教科书设置了例1,根据随机样本数据,推断两所学校学生数学成绩的优秀率是否有差异.根据频率稳定于概率的原理,直观上看,如果两校学生数学成绩优秀的频率差异较大,则可推断对应的两个条件概率不等,从而认为两校学生的数学成绩优秀率存在差异.基于所给的数据,计算得到甲校学生数学成绩优秀的频率为0.2326;乙校学生数学成绩优秀的频率为0.1556.因为两个频率存在明显差异,所以可以认为两校学生的数学成绩优秀率存在差异,并且甲校学生的数学成绩优秀率高于乙校.但是频率具有随机性,频率与概率之间存在误差,因此根据频率进行推断有可能犯错误.对此教科书设置了一个思考栏目,让学生思考上面推断的结论是否可能犯错误,进而深刻理解抽样数据的随机性特点,实际上也指出,例1给出的解答方法也是有缺陷的,为后面引出独立性检验方法作了铺垫.1.数值变量与分类变量数值变量的取值为实数,其大小和运算都具有实际含义.例如年龄、身高、体重、学习成绩等都是数值变量,张明的身高是180cm,李立的身高是175cm,说明张明比李立高5cm.常见数值变量的数字特征(如均值、方差、百分位数等)均有明确的含义.分类变量的取值表示个体所属类别,例如性别变量是分类变量,取男、女两个值;同样,数学考试等级是分类变量,取优、良、中等、及格、不及格五个值;等等.有时也可以把分类变量的不同取值用实数表示,但这些数值仅作为编号使用,通常没有大小关系和运算意义,例如,用0表示“男”,1表示“女”,性别变量这个分类变量的取值就变成0和1,但这里的0和1仅作为分类用,没有其他含义,比较0和1的大小没有意义,通常计算其均值和方差也没有意义.2.列联表列联表是由两个及两个以上分类变量进行交叉分类的频数分布表,教科书中仅涉及两个分类变量的列联表,并且每个变量只取两个值,这样的列联表称为2×2列联表.一般的独立性检验并不要求每个分类变量只取两个值.在教学中,不要求给出这些概念的严格定义,只需给出描述性的说明即可.3.例题及其教学例1给出了借助概率的观点研究“两校学生的数学成绩优秀率之间是否存在差异”的过程:(1)根据实际问题,引入样本空间,建立古典概型,并定义分类变量X和Y.(2)将样本数据整理成2×2列联表的形式.(3)计算并比较分类变量X和Y相应的频率.(4)用等高堆积条形图直观展示上述频率.(5)根据频率稳定于概率的原理,估计分类变量X和Y相应的条件概率,进而作出推断.在例1的教学中,要注意渗透用频率估计概率的思想.既要理解这种推断方法的合理性,又要认识到这种推断方法的缺陷.对于等高堆积条形图,可以借助统计软件绘制.对于例1,教科书中比较的是甲校学生中数学成绩不优秀和优秀的频率与乙校学生中数学成绩不优秀和优秀的频率,是从行的角度进行比较.同样地,也可以从列的角度进行比较:数学成绩不优秀的学生中甲校和乙校的频率分别为330.464871≈和380.53571≈2,数学成绩优秀的学生中甲校和乙校的频率分别为100.588217≈和70.411817≈,比较相应的频率,也能得出两校学生中数学成绩优秀率之间存在差异.4.例1后的“思考”例1事实上是根据两个频率的差异进行推断的,没有考虑随机性的影响.但事实上,即便两个样本来自同一个总体,也会因为随机性使得频率产生差异,因此需要用概率的方法进行推断.例1后安排的思考栏目,目的是让学生体会在样本推断总体的过程中,由于样本具有随机性,依据频率所作的推断可能会犯错误.8.3.2独立性检验假设检验是统计推断的一种基本形式,其基本思想是根据观察或试验的结果去检验一个假设(零假设)是否成立,即通过样本的某个指标对总体的某种属性进行推断,推断的结果是拒绝或接受零假设.独立性检验是假设检验的一个特例.独立性检验的基本原理是根据观测值与期望值的差异的大小作出推断,这种差异由2χ统计量进行刻画,其大小的标准根据推理有关联时犯错误的概率确定.独立性检验的依据是小概率原理,即小概率事件在一次试验中几乎不可能发生.在零假设成立的条件下,若一个不利于零假设的小概率事件在一次试验中发生了,则有理由拒绝零假设;若在一次试验中,此小概率事件没有发生,则没有充足的理由拒绝零假设,通常会接受零假设.教科书首先借助古典概型的观点对独立性检验问题进行分析,给出基于分类变量X 和Y 的零假设o H 的两种严格的数学表述.然后结合22⨯列联表,给出了在零假设o H 成立的前提下, 构造2χ统计量的全过程,通过推导过程让学生感悟其合理性.最后教科书总结了独立性检验的基本步骤,并与反证法进行了比较.1.独立性检验的基本步骤(1)提出零假设0:H X 和Y 相互独立对不同背景的实际问题,判断两种现象之间是否有关联或是否相互影响,需要给出严格的数学描述.当定义了两个只取两个值的分类变量X 和Y 后,由前面的分析可知,判断X 和Y 是否有关联只需判断(1|0)P Y X ==和(1|1)P Y X ==是否相等.根据条件概率的定义,可推出(1|0)(1|1)P Y X P Y X =====等价于事件{1}X =与{1}Y =相互独立,由后者又可推出{0}X =与{1},{1}Y X ==与{0},{0}Y X ==与{0}Y =都相互独立.如果这4组事件独立.则称分类变量X和Y 独立.因此,零假设可改述为0:H X 和Y 相互独立.(2)构造检验的统计量将样本数据整理成22⨯列联表的形式,4个积事件的观测频数分别为,,,a b c d .在X 和Y 独立的假设下,分别估计这4个积事件的期望频数,根据频率稳定到概率的原理,考虑所有对应频数的总的偏差并加以调整,构造2χ统计量.这种构造方法非常容易推广到取值超过两个的分类变量的独立性检验.根据2χ统计量的构造过程可知,2χ的值越小,零假设0H 成立的可能性越大;2χ的值越大,零假设0H 成立的可能性越小.为了方便查阅,这里给出2χ统计量的简化形式的推导过程.教科书中给出的该统计量最初的形式为22222()()()()()()()()()()()()()()()()a b a c a b b d c d a c c d b d a b c d n n n n a b a c a b b d c d a c c d b d n n n n χ++++++++⎡⎤⎡⎤⎡⎤⎡⎤----⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦=+++++++++++. 由上式得22222[()()][()()][()()][()()]()()()()()()()()na a b a c nb a b b d nc c d a c nd c d b d n a b a c n a b b d n c d a c n c d b d χ-++-++-++-++=+++++++++++, 把n a b c d =+++代入上式各项分子,得22222()()()()()()()()()()()()ad bc bc ad bc ad ad bc n a b a c n a b b d n c d a c n c d b d χ----=+++++++++++, 对上式右边的分式进行通分,得22()[()()()()()()()()]()()()()ad bc c d b d c d a c a b b d a b a c n a b c d a c b d χ-+++++++++++=++++. 进一步化简得2222()()()()()()()()()()()ad bc a b c d n ad bc n a b c d a c b d a b c d a c b d χ-+++-==++++++++. 上式等号右边即为教科书中给出的2χ统计量的简化形式.(3)确定检验规则,得出推断结论由2χ统计量的构造过程可以看出,2χ统计量的分布与n 有关.在零假设0H 成立的条件下, 统计学家证明,当n →∞时,2χ的分布收敛到随机变量2(1)χ的分布,后者就是自由度为1的卡方分布.也就是说,当n →∞时,对任意的0x ,都有()()22(1)P x P x χχ→,根据卡方分布的性质,对于事先给定的小概率值α,都可以找到相应的正实数a x ,使得()2(1)a P x χα=.在n 充分大时,可以忽略2χ和2(1)χ分布之间的误差,因此认为()2a P x χα=成立.这里的值a x 即可作为与小概率值α对应的判断2χ大小标准的临界值.根据列联表计算2χ的值,当2a x χ时,拒绝零假设,由()2P x αχα=知,犯错误的概率不超过α.当2x αχ<时,不能拒绝零假设,意味着在小概率值α的检验规则下,根据样本数据,没有足够理由认为零假设不成立.我们在作统计推断时,如果不能拒绝零假设,不妨暂且接受它.但这并不代表零假设就是成立的,只是表明若要拒绝零假设,则需要积累更多的证据,作进一步验证.当小概率值0.01α=时,临界值 6.635x α=,当2 6.635χ时,我们推断0H 不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过0.01;当2 6.635χ<时,我们没有充分证据推断0H 不成立,可以暂且认为X 和Y 独立,待有新的证据时再作进一步检验.下面我们提供一个应用独立性检验解决问题的案例,并给出完整的过程,供大家参考. 案例 为了研究一种新药对治疗某疾病是否有效,进行了临床试验.采用放回简单随机抽样的方法得到了如下数据:抽到服用新药的患者44名,其中34名痊愈,10名未痊愈;抽到服用没有任何疗效安慰剂的患者56名,其中32名痊愈,24名未痊愈.依据小概率值0.01α=的独立性检验,能否认为新药治疗该疾病有明显的效果?解:零假设为o H 新药治疗该疾病没有明显的效果.由样本数据可得列联表(表8-1).表8-1根据列联表中的数据, 经计算得到220.01100(34241032) 4.449 6.63544566634x χ⨯-⨯=≈<=⨯⨯⨯. 根据小概率值0.01α=的独立性检验,没有充分证据推断0H 不成立,因此可以认为0H 成立,即认为新药治疗该疾病没有明显的效果.药品对人类的健康至关重要,在没有充分证据表明新药对治疗疾病有效的情况下,必须慎重处理,可以等待时机成熟后,再作进一步试验.各类药品的使用在疾病治疗中具有十分重要的作用,一种新药在投放市场前需要检验其对疾病是否具有疗效.新药的推广使用涉及多方面的因素,成本往往很高,也伴随一定风险.因此,在对药品治疗疾病是否有效进行独立性检验时,一般会选取较小的小概率值α,以不轻易作出药品有效的结论.针对某些疾病,民间有些“食疗方法,这些方法往往简单易行、成本低廉,而且已流传多年,没有什么风险.在对这些“食疗”方法是否有疗效进行独立性检验时,通常不必像对药品的检验那样严苛,可以把小概率值α取得稍大一些.为了减少复杂的计算所花费的时间,同时对2χ分布有一个直观认识,建议使用GeoGebra 软件进行本案例的教学.利用该软件可以计算2χ的值.如图8-18,在“概率统计”视图下,在“统计”标签中选择卡方检验,只要输入观测频数,同时勾选预期次数,即可得到2χ的值为4.4494,即22222(3429.04)(1014.96)(3236.96)(2419.04) 4.449429.0414.9636.9619.04χ----=+++≈. 其中的p 值为0.0349,其含义是()2 4.44940.034P χ≈9.因为()2 6.6350.01P χ≈,所以0.01p >等价于2 6.635χ<.利用该软件还可以根据小概率值α求对应的临界值.如图8-19,在“分布”标签中选择卡方检验,输入自由度为1,概率值为0.1,即得到对应的临界值为2.7055.(4)分析X 和Y 之间的影响规律拒绝零假设,简单地认为X 和Y 有关联或相互影响,不一定是最终想要的结果.在很多时候还需要明确X 和Y 之间是什么样的关联或在多大程度上相互影响,这可以通过样本数据计算相应的频率,推断X 和Y 之间的影响规律.2.应用独立性检验解决实际问题时的注意事项(1)一般来说,样本量n a b c d =+++越大,2χ统计量的分布与2χ(1)分布的近似程度越高.因此,为了保证一定的精度,在实际应用中通常要求列联表中的四个数,,a b c 和d 都不小于5.(2)当零假设被接受时,也可能犯错误,至于犯这种错误的概率(不妨记为p )是多少,我们并不清楚.但是我们知道,当α增大时,p 会减小;反之,当α减小时,p 会增大.因此,在具体操作中,要根据实际问题,选择恰当的小概率值,不能一味地降低或提高α的取值.3.对犯错误概率的解释在零假设0H 成立的前提下,随着小概率值α的逐渐减小,2χ统计量对应的临界值0x 逐当增大,则事件2{}x αχ越来越不容易发生,零假设越来越不容易被拒绝;随着小概率值α的逐当增大,2χ统计量对应的临界值x α逐渐减小,则事件2{}x αχ越来越容易发生,零假设越来越容易被拒绝.例如,对于例3中的数据,经计算得2 4.881χ≈.(1)当小概率值α取0.005时,0.0057.879x =,此时20,0054.8817.879x χ≈<=,则没有充分理由拒绝零假设,因此可以接受0H ,即认为两种疗法的效果没有差异.(2)当小概率值α取0.05时,0.05 3.841χ=,此时20.054.881 3.841x χ≈>=,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05.(3)当小概率值α取0.1时,0.1 2.706χ=,此时20.14.881 2.706x χ≈>=,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.1.对于(2)和(3),用的是与(1)同一组数据,但都得到了与(1)相反的结论,可见推断的结论与检验规则有关.另外,由于依据不同的检验规则,(2)和(3)两个推断犯错误的概率上界是不同的,而这种犯错误的概率只能通过多次试验才能表现出来.因此在具体的问题中,所使用的小概率值往往是由有经验的专家事先确定的.4.样本量对于2χ独立性检验结果的影响对于例1列联表8.3-2中的数据,依据0.1α=的独立性检验,得出的结论是两校学生数学成绩的优秀率没有明显差异.假设对于例1中的问题我们得到如表82-的数据.表8-2显然,基于这些数据计算出的频率与例1中的相同.然而在相同的检验标准下作2χ独立性检验,可以推出两校学生数学成绩的优秀率有明显差异,结论却发生了变化.通常情况下,样本量越大,提供的信息越充分,观测的结果通常会更准确.与例1中的数据相比,这里的每个数据都变为原来的10倍,即样本量变为原来的10倍,这种差异无法通过频率的计算表现出来,而2χ独立性检验可能会得出不同的结论,可见2χ统计量能够有效地提取样本所包含的有用信息.5.例题及其教学关于两校学生数学成绩的优秀率是否有差异,例2利用独立性检验的方法得到的结论与例1用频率估计概率的方法得到的结论截然相反,应注意结合例2后的“思考”,使学生体会独立性检验的必要性.例3是检验甲、乙两种疗法的疗效哪个更好.在例3的教学中,应通过复习列联表的制作,引导学生运用学过的知识解决问题,熟悉运用独立性检验的方法解决具体问题的步骤,教学的重点应该放在解释独立性检验的基本思想上,避免学生单纯地记忆处理问题的步骤和机械套用公式进行计算.需要注意的是,利用独立性检验得出的结论是有条件的,不能在使用时随意扩大范围.例如,例3中的样本数据来自于某儿童医院,根据样本数据得出的结论能很好地适用于该儿童医院.若将这个结论推广到其他群体,则可能会犯错误.例4主要研究吸烟与患肺癌的关系,属于直接运用独立性检验的方法解决实际问题的经典范例.在例4的教学中,应让学生亲自处理数据、解决问题,从中体会统计思维和确定性思维之间的差异,在理解独立性检验思想的过程中,培养学生数据处理的能力,提升学生的数学运算、数据分析等核心素养.6.对132页观察栏目的说明在教科书表8.3-5中,对调两种疗法或两种疗效的位置,不会影响2χ值的计算结果.事实上,对调两种疗法的位置,相当于对调a与,c b与d的位置,由2χ的表达式知,并不影响2χ值的计算结果.同样地,对调两种疗效的位置,相当于对调a与,b c与d的位置,也不影响2χ值的计算结果.7.对本节最后思考栏目的说明可以在与反证法思想的比较中帮助学生了解独立性检验的思想.表8-3给出了反证法与独立性检验两种方法的比较.表8-3从表8-3的对比中,可以看出独立性检验的思想和反证法类似,但需要注意的是:在全部逻辑推理正确的情况下,反证法不会犯错误,而独立性检验可能会犯错误,对于这种错误概率的估计是2 独立性检验的重要组成部分.11/ 11。

【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)

【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)
当 2<xα时,没有充分的证据推断H0不成立,可以认为X和Y独立.
这种利用 2的取值推断分类变量X和Y是否独立的方法称为 2独立性检验,
简称独立性检验 .
探究新知
下表为独立性检验中几个常用的小概率值和相应的临界值
α

0.1
2.706
0.05
3.841
0.01
6.635
0.005
7.879
0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与
患肺癌有关联,此推断犯错误的概率不大于0.001.
典型例题
根据表中数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7775/7817≈0.9946 和 42/7817≈0.0054
吸烟者中不患肺癌和患肺癌的频率分别为
2099/2148≈0.9772 和 49/2148≈0.0228
中有 43 人的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中有
21 人饮食以蔬菜为主,另外 33 人则以肉类为主.请根据以上数据作出饮食习
惯与年龄的列联表,并利用 P(Y=1|X=0)与 P(Y=1|X=1)判断二者是否有关系.
[解]
用 Ω 表示共调查了 124 人所构成的集合,定义一对分类变量 X 和 Y
性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
探究新知
[解]
病人组中尿液为阳性和阴性的频率分别为:
29
7
≈0.805 6 和 ≈0.194 4.
36
36
对照组中尿液为阳性和阴性的频率分别为:
9
28
≈0.243 2 和 ≈0.756 8.
37
37

2024年高考数学一轮复习(新高考版)《列联表与独立性检验》课件ppt

2024年高考数学一轮复习(新高考版)《列联表与独立性检验》课件ppt

∴根据小概率值α=0.001的独立性检验,推断H0不成立,即认为“数 学成绩达标”与“运动达标”有关.
思维升华
独立性检验的考查,往往与概率和抽样统计图等一起考查,这类问题 的求解往往按各小题及提问的顺序,一步步进行下去,是比较容易解 答的,考查单纯的独立性检验往往用小题的形式,而且χ2的公式一般 会在原题中给出.
题型三 独立性检验的综合应用
例3 体育运动是强身健体的重要途径,《中国儿童青少年体育健康促进 行动方案(2020-2030)》(下面简称“体育健康促进行动方案”)中明确提 出青少年学生每天在校内参与不少于60分钟的中高强度身体活动的要求. 随着“体育健康促进行动方案”的发布,体育运动受到各地中小学的高 度重视,众多青少年的体质健康得到很大的改善.某中学教师为了了解体 育运动对学生的数学成绩的影响情况,现从该中学高三年级的一次月考 中随机抽取1 000名学生,调查他们平均每天的体育运动情况以及本次月 考的数学成绩情况,
(2)请估计该中学高三年级本次月考数学成绩的平均分(同一组中的数据用 该组区间的中点值作代表);
该中学高三年级本次月考数学成绩的平均分 x = 0.025×40 + 0.125×60 + 0.350×80 + 0.300×100 + 0.150×120 + 0.050×140=91.50, 估计该中学高三年级本次月考数学成绩的平均分为91.50分.
则b=
5
=889.50--55××44×2 4=0.85,
x2i -5 x 2
i=1
第九章 统计与成对数据的统计分析
§9.4 列联表与独 立性检验
考试要求
1.通过实例,理解2×2列联表的统计意义. 2.通过实例,了解独立性检验及其应用.
内容索引

独立性检验 列联表与独立性检验 教学PPT课件

独立性检验 列联表与独立性检验 教学PPT课件

38
7
45
合计
71
17
88
所以







数学成绩
学校
=
(×−×)
×××
≈ . < . =x0.1
根据小概率值=0.1的 独立性检验,没有充分证据推断H0不成立,因此可以
认为H0成立,即认为两校的数学成绩优秀率没有差异。
12
思考例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其
中间的四个格中的数是表
格的核心部分,给出了事件
{X=x,Y=y}(x,y=0,1)中样本
点的个数;右下角格中的数
是样本空间中样本点的总
数。







X
Y
X=0
X=1
Y=0
a
c
Y=1
b
d
合计
a+c
b+d
合计
a+b
c+d
n=a+b+c+d
2
复习回顾
两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大
中的原因吗?
例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率
有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不
太充分,在本例中,我们用 独立性检验对零假设H0进行了检验,通过计算,发现
≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所
分别考虑③中的四个差的绝对值很困难,我们需要找到一个既合理又能够计算分布的统

8.4列联表独立性检验

8.4列联表独立性检验

患心脏病 214 451 665
患其他病 597
不患心脏病 175 597 772
总计 389 1048 1437
患其他病
秃头 不秃头
患心脏病
相应的三维柱形图如图所 示, 比较来说 ,底面副对 角线上两个 柱体高度的乘 积要大一些 ,因此可以在 某种程度上认为“秃顶与 患心脏病有关”。
课题:选修2-3 8.4独立性检验
解:设H0:感冒与是否使用该血清没有关系。
1000258 284 242 216 2 K 7.075 474 526 500 500 因当H0成立时,K2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。
2
课题:选修2-3 8.4独立性检验
第四步:查对临界值表,作出判断。
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
课题:选修2-3 8.4独立性检验
思考
如果K 2 6.635,就断定H0不成立,这种判断出错的可能性有多大 ?
答:判断出错的概率为0.01。
9965(7775 49 42 2099)2 现在观测值k 56.632太大了, 7817 2148 9874 91 在H 0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99%的把握认为H 0不成立,即有99%的把握认为“吸烟 与患肺癌有关系”。
再冷的石头,坐上三年也会暖 !
独立性检验
2 n ( ad bc ) 随机变量-----卡方统计量 K 2 , (a b)(c d )(a c)(b d )

高中试卷-专题8.3 列联表与独立性检验(含答案)

高中试卷-专题8.3 列联表与独立性检验(含答案)

专题8.3 列联表与独立性检验姓名:班级:重点分类变量与列联表难点独立性检验例1-1.在一次独立性检验中,其把握性超过了%99,则随机变量2K 的可能值为( )。

A 、841.3B 、024.5C 、635.6D 、897.7【答案】D【解析】∵在一次独立性检验中,其把握性超过了%99,对应的临界值表中数值为小于01.0,查表可得01.0)635.6(2=≥K P ,故635.62>K ,故选D 。

例1-2.把两个分类变量的频数列出,称为( )。

A 、三维柱形图B 、二维条形图C 、列联表D 、独立性检验【答案】C【解析】选项A 、B 是粗略地判断两个分类变量是否相关的方法,错,选项C 用两个分类变量的频数列表,对,选项D 是通过列联表计算得到两变量是否相关的方法,错,故选C 。

例1-3.通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到统计量2K 的观测值892.4≈k ,参照附表,得到的正确结论是( )。

)(02k K P ≥100.0050.0025.00k 706.2841.3024.5A 、有%5.97以上的把握认为“爱好该项运动与性别有关”B 、有%5.97以上的把握认为“爱好该项运动与性别无关”C 、在犯错误的概率不超过%5的前提下,认为“爱好该项运动与性别有关”D 、在犯错误的概率不超过%5的前提下,认为“爱好该项运动与性别无关”【答案】C【解析】∵计算得到统计量值2K 的观测值841.3892.4>≈k ,参照题目中的数值表,得到正确的结论是:在犯错误的概率不超过%5的前提下,认为“爱好该运动与性别有关”,故选C 。

例1-4.某22⨯列联表:1y 2y 总计1x 431622052x 13121134总计56283339则随机变量2K 的值为 。

【答案】469.7【解析】469.728356134205)1621312143(33922=⨯⨯⨯⨯-⨯⨯=K 。

新教材2023高中数学第八章成对数据的统计分析8.3列联表与独立性检验8.3.2独立性检验课件新人教

新教材2023高中数学第八章成对数据的统计分析8.3列联表与独立性检验8.3.2独立性检验课件新人教
对实际生活或者生产都有一定的指导作用.
(2)考查独立性检验的综合问题时,常与统计、概率等
知识综合,一般需要根据条件列出 2×2 列联表,计算 χ2 的值,
从而解决问题.
【跟踪训练】
2.给出下列实际问题:
①一种药物对某种病的治愈率;
②两种药物治疗同一种病的效果是否有区别;
③吸烟者得肺病的概率;
④吸烟是否与性别有关联;
2
≈4.514.
探索点一
独立性检验
【例 1】在 500 人身上试验某种血清预防感冒的情况,把
他们一年中的感冒记录与另外 500 名未使用血清的人的感冒
记录进行比较,结果如下表所示.问:依据小概率值 α=0.01 的独
立性检验,能否认为该种血清能起到预防感冒的作用?
单位:人
感冒
血清
合计
未感冒 感冒
258
和 Y 有关联.
α
0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解析:因为 χ2>7.879,在临界值表中与 7.879 对应的是
0.005,所以可以在犯错误的概率不超过 0.005 的前提下,认为
X 和 Y 有关联.
5.某科研团队对 1 050 例某肺炎确诊患者的临床特征进
的海上航行中男乘客比女乘客更容易晕船?
解: 零假设为
H0:在 2~3 级风的海上航行中晕船和性别没有关联.
根据列联表中的数据,经计算得
2
2 71×(12×24-10×25)
χ=
22×49×37×34
≈0.076<2.706=x0.1.
根据小概率值 α=0.1 的独立性检验,没有充分证据推断

列联表与独立检验_课件

列联表与独立检验_课件
依据频率稳定于概率的原理,我们可以推断
P(Y=1|X=0)>P(Y=1|X=1),也就是说,如果从甲校和乙校各随机选 取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学 成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在 差异,甲校学生的数学成绩优秀率比乙校学生的高.
你认为“两校学生的数学成绩优秀率存在差异”这一结论是 否有可能是错误的?
精品 课件
高中数学选择性必修3
第八章 成对数据的统计分析
列联表与独立检验
新人教版
特级教师优秀课件精选
教学目标
了解独立性检验(只要求2×2列联表)的基本思想 .理解独立性检验中P( ≥K0)的具体含义. 掌握独立性检验的方法和步骤 .
教学重点
相互独立事件的概念以及概率积公式的应用,独立检验的方 法与步骤。
总结
2×2列联表作法(理解)
独立性检验
统计量的计算(理解)
理解独立性检验的思想(了解)
合计
9874
91
解:零假设为 Ho:吸烟与患肺之间无关联.
7817 2148 9965
根据列联表中的数据,经计算得到
据小概率值 =0.001的独立性检验,我们推断H。不成立,即认为吸烟与患肺关联,此推断犯错误的概率 不大于0.001. 根据 表 8.3-6 中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
(2)不对
独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方 法称为独立性检验.
(2)K2=
,
其中n=a+b+c+d为样本容量.
独立性检验的具体做 法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯
错误概率的上界α,然后查表确临定界__值_________ .
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外 772名不是因为患心脏病而住院的男性病人中有 175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏 病是否有关系?你所得的结论在什么范围内有效? 解:根据题目所给数据得到如下列联表:
秃顶 不秃顶 总计
患心脏病 600 500 400 300 200 100 0 214 175 451
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验
本节研究的是两个分类变量的独立性检验问题。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
判断 H 0是否成立的规则
如果 k 6.635 ,就判断 H 0 不成立,即认为吸烟与 患肺癌有关系;否则,就判断 H 0 成立,即认为吸烟 与患肺癌有关系。
H0 在该规则下,把结论“H 0 成立”错判成“ P( K 2 6.635) 0.01, 成立”的概率不会差过 即有99%的把握认为 H 0不成立。
再冷的石头,坐上三年也会暖 !
独立性检验
2 n ( ad bc ) 随机变量-----卡方统计量 K 2 , (a b)(c d )(a c)(b d )
临界值表
P(K2 k0 ) 0.50
0.40 0.708
其中n a b c d为样本容量。
0.25 1.323 0.15 2.072 0.10 2.706 0.05 3.841 0.025 5.024 0.010 6.635 0.005 7.879 0.001 10.828
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟
吸烟 总计
7775
2099 9874
42
49 91
7817
2148 9965
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
课题:选修2-3 8.4独立性检验
解:设H0:感冒与是否使用该血清没有关系。
1000258 284 242 216 2 K 7.075 474 526 500 500 因当H0成立时,K2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。
2
课题:选修2-3 8.4独立性检验
H0:面包份量足 ←→ H1:面包份量不足
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
二:求解假设检验问题
考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路:
1. 在H0成立的条件下,构造与H0矛盾的小概 率事件; 2. 如果样本使得这个小概率事件发生,就能 以一定把握断言H1成立;否则,断言没有 发现样本数据与H0相矛盾的证据。
0.10
再冷的石头,坐上三年也会暖 !
反证法原理与假设检验原理 反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
不吸烟
0.1
0
吸烟
吸烟
等高条形图更清晰地表达了两种情况下患肺癌的比例。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分 析,我们构造一个随机变量-----卡方统计量
n(ad bc) K , (1) (a b)(c d )(a c)(b d )
患心脏病 214 451 665
患其他病 597
不患心脏病 175 597 772
总计 389 1048 1437
患其他病
秃头 不秃头
患心脏病
相应的三维柱形图如图所 示, 比较来说 ,底面副对 角线上两个 柱体高度的乘 积要大一些 ,因此可以在 某种程度上认为“秃顶与 患心脏病有关”。
课题:选修2-3 8.4独立性检验
秃顶 不秃顶 总计 患心脏病 214 451 665 不患心脏病 175 597 772 总计 389 1048 1437
根据联表1-13中的数据,得到
2 1437 (214 597 175 451) 2 K 16.373 6.635. 389 1048 665 772
试画出列联表的条形图,并通过图形判断这种血清能否起到预 防感冒的作用?并进行独立性检验。
P(k≥k0) 0.50 0.40 0.25 0.15 k0 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
( 2)
那么这个值到底能告诉我们什么呢?
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
在H0成立的情况下,统计学家估算出如下的概率
即在 H0 成立的情况下, K2 的值大于 6.635 的概率非常小,近似 于0.01。
P( K 2 6.635) 0.01.
(2)
也就是说,在H0成立的情况下,对随机变量 K2进行多次观 测,观测值超过6.635的频率约为0.01。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
6、独立性检验的步骤
第一步:H0: 吸烟和患病之间没有关系 第二步:列出2×2列联表
患病
吸烟 不吸烟 总计 a c a+c
2
不患病
b d b+d
2
总计
a+b c+d a+b+c+d
第三步:计算
n(ad bc) K (a c)(b d )( a b)(c d )
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
两种变量:
定量变量:体重、身高、温度、考试成绩等等。 变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
8.4 列联表独立性分析案例
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
问题: 数学家庞加莱每天都从一家面包店
买一块1000g 的面包,并记录下买回的面 包的实际质量。一年后,这位数学家发 现,所记录数据的均值为 950g 。于是庞 加莱推断这家面包店的面包分量不足。 • 假设“面包份量足”,则一年购买面包的质量数据 的平均值应该不少于1000g ; • “这个平均值不大于950g”是一个与假设“面包份量 足”矛盾的小概率事件; • 这个小概率事件的发生使庞加莱得出推断结果。
思考
如果K 2 6.635,就断定H0不成立,这种判断出错的可能性有多大 ?
答:判断出错的概率为0.01。
9965(7775 49 42 2099)2 现在观测值k 56.632太大了, 7817 2148 9874 91 在H 0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99%的把握认为H 0不成立,即有99%的把握认为“吸烟 与患肺癌有关系”。
2
P(K2 k0 ) 0.50
k0 k0
0.40 0.25 0.15 0.455 0.708 1.323 2.072 0.025 0.010 0.005 3.841 5.024 6.635 7.879
0.10 2.706 0.001 10.828
P(K2 k0 ) 0.05
课题:选修2-3 8.4独立性检验
2 2
其中n a b c d为样本容量。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
9965(7775 49 42 2099) k 56.632 7817 2148 9874 91
2

独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
具体作法是:
(1)根据实际问题需要的可信程度确定临界值 k0;
(2)利用公式(1),由观测数据计算得到随机变量 K 2 的观测值; (3)如果 k k0 ,就以 (1 P( K k0 )) 100%的把握认为“X 与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。 在实际应用中,要在获取样本数据之前通过下表确定临界值:
第四步:查对临界值表,作出判断。
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
课题:选修2-3 8.4独立性检验
所以有99%的把握认为“秃顶患心脏病有关”。
相关文档
最新文档