8.4列联表独立性分析案例

合集下载

《列联表与独立性检验》教学分析

《列联表与独立性检验》教学分析

《列联表与独立性检验》教学分析一、本节知识结构框图二、重点、难点重点:22⨯列联表,独立性检验的思想和方法.难点:2χ统计量的导出和意义,独立性检验的思想和方法.三、教科书编写意图及教学建议统计最基本的思想是用样本推断总体,而估计和假设检验是两种基本而重要的推断方法.在前面的学习中,主要学习了统计估计的推断方法,例如,用样本数据的均值和方差分别估计总体的均值和方差;用样本相关系数估计两个数值变量的相关系数,从而推断这两个变量线性关系的密切程度;利用最小二乘思想估计一元线性回归模型中的参数等,本节结合具体实例,01,的分类变量的独立性,了解根据频率稳定到概率的原理及小概率原理,检验两个取值于{}独立性检验的思想方法,进一步提升学生的数据分析素养.本节内容对学生来说难度较大,涉及的基础知识有古典概型、条件概率、频率稳定到概率的原理及分类变量独立性的概念,涉及的统计思想方法主要是假设检验的思想方法.教科书结合丰富的实例,通过问题引导,采取了由易到难、逐步深入的处理方式,使学生了解独立性检验的基本思想.在本节教学中,应通过具体案例渗透独立性检验的基本思想和方法,使学生了解统计推断可能犯错误的特点,避免单纯地记忆独立性检验的基本步骤和机械地套用公式解决问题.应注重培养学生联系实际的意识,提高学生解决实际问题的能力.教科书注重信息技术与相关内容的有机融合,强调使用计算器、计算机等工具探索和解决问题.例如,在画等高堆积条形图时,借助信息技术作图,不但作出的图形准确美观,而且省时省力.面对复杂的计算,教学中应使用统计软件,解决计算量大的问题,使学生从烦琐的计算中解脱出来,把更多的精力放在对于独立性检验的基本思想的理解上.8.3.1分类变量与列联表教科书首先设置问题情境,对某中学全体学生分性别就体育锻炼的经常性进行普查,全校523名女生中有331人经常锻炼,601名男生中有473人经常锻炼,据此判断该中学学生不同性别在体育锻炼的经常性方面是否有差异.由于是普查数据,而且仅对这所学校进行判断,因此只需分别计算出女生经常参加体的比率和男生经常参加体育锻炼的比率,并比较这两个值是否相等.如果不相等,就认为不同性别在体育锻炼的经常性方面有差异,否则就认为没有差异.实际计算的结果显示经常参加体育锻炼的比率男生比女生高15.4个百分点.因此可判断该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.这个问题还可以从概率的角度进行解答.从女生和男生中各随机选取一名学生,分别计算两个群体中抽到经常参加体育锻炼学生的概率,并比较两个概率是否相等.如果不相等,就认为不同性别在体育锻炼的经常性方面有差异,否则就认为没有差异.若令0,1,X ⎧⎨⎩该生为女生,该生为男生,0,1,Y ⎧⎨⎩该生不经常锻炼,该生经常锻炼,则问题可以转化为比较条件概率|(10)P Y X ==和|(11)P Y X ==是否相等.如果数据是采用抽样调查得到的,怎样判断两个条件概率是否相等,从而推断两个分类变量是否存在关联性呢?接着教科书设置了例1,根据随机样本数据,推断两所学校学生数学成绩的优秀率是否有差异.根据频率稳定于概率的原理,直观上看,如果两校学生数学成绩优秀的频率差异较大,则可推断对应的两个条件概率不等,从而认为两校学生的数学成绩优秀率存在差异.基于所给的数据,计算得到甲校学生数学成绩优秀的频率为0.2326;乙校学生数学成绩优秀的频率为0.1556.因为两个频率存在明显差异,所以可以认为两校学生的数学成绩优秀率存在差异,并且甲校学生的数学成绩优秀率高于乙校.但是频率具有随机性,频率与概率之间存在误差,因此根据频率进行推断有可能犯错误.对此教科书设置了一个思考栏目,让学生思考上面推断的结论是否可能犯错误,进而深刻理解抽样数据的随机性特点,实际上也指出,例1给出的解答方法也是有缺陷的,为后面引出独立性检验方法作了铺垫.1.数值变量与分类变量数值变量的取值为实数,其大小和运算都具有实际含义.例如年龄、身高、体重、学习成绩等都是数值变量,张明的身高是180cm,李立的身高是175cm,说明张明比李立高5cm.常见数值变量的数字特征(如均值、方差、百分位数等)均有明确的含义.分类变量的取值表示个体所属类别,例如性别变量是分类变量,取男、女两个值;同样,数学考试等级是分类变量,取优、良、中等、及格、不及格五个值;等等.有时也可以把分类变量的不同取值用实数表示,但这些数值仅作为编号使用,通常没有大小关系和运算意义,例如,用0表示“男”,1表示“女”,性别变量这个分类变量的取值就变成0和1,但这里的0和1仅作为分类用,没有其他含义,比较0和1的大小没有意义,通常计算其均值和方差也没有意义.2.列联表列联表是由两个及两个以上分类变量进行交叉分类的频数分布表,教科书中仅涉及两个分类变量的列联表,并且每个变量只取两个值,这样的列联表称为2×2列联表.一般的独立性检验并不要求每个分类变量只取两个值.在教学中,不要求给出这些概念的严格定义,只需给出描述性的说明即可.3.例题及其教学例1给出了借助概率的观点研究“两校学生的数学成绩优秀率之间是否存在差异”的过程:(1)根据实际问题,引入样本空间,建立古典概型,并定义分类变量X和Y.(2)将样本数据整理成2×2列联表的形式.(3)计算并比较分类变量X和Y相应的频率.(4)用等高堆积条形图直观展示上述频率.(5)根据频率稳定于概率的原理,估计分类变量X和Y相应的条件概率,进而作出推断.在例1的教学中,要注意渗透用频率估计概率的思想.既要理解这种推断方法的合理性,又要认识到这种推断方法的缺陷.对于等高堆积条形图,可以借助统计软件绘制.对于例1,教科书中比较的是甲校学生中数学成绩不优秀和优秀的频率与乙校学生中数学成绩不优秀和优秀的频率,是从行的角度进行比较.同样地,也可以从列的角度进行比较:数学成绩不优秀的学生中甲校和乙校的频率分别为330.464871≈和380.53571≈2,数学成绩优秀的学生中甲校和乙校的频率分别为100.588217≈和70.411817≈,比较相应的频率,也能得出两校学生中数学成绩优秀率之间存在差异.4.例1后的“思考”例1事实上是根据两个频率的差异进行推断的,没有考虑随机性的影响.但事实上,即便两个样本来自同一个总体,也会因为随机性使得频率产生差异,因此需要用概率的方法进行推断.例1后安排的思考栏目,目的是让学生体会在样本推断总体的过程中,由于样本具有随机性,依据频率所作的推断可能会犯错误.8.3.2独立性检验假设检验是统计推断的一种基本形式,其基本思想是根据观察或试验的结果去检验一个假设(零假设)是否成立,即通过样本的某个指标对总体的某种属性进行推断,推断的结果是拒绝或接受零假设.独立性检验是假设检验的一个特例.独立性检验的基本原理是根据观测值与期望值的差异的大小作出推断,这种差异由2χ统计量进行刻画,其大小的标准根据推理有关联时犯错误的概率确定.独立性检验的依据是小概率原理,即小概率事件在一次试验中几乎不可能发生.在零假设成立的条件下,若一个不利于零假设的小概率事件在一次试验中发生了,则有理由拒绝零假设;若在一次试验中,此小概率事件没有发生,则没有充足的理由拒绝零假设,通常会接受零假设.教科书首先借助古典概型的观点对独立性检验问题进行分析,给出基于分类变量X 和Y 的零假设o H 的两种严格的数学表述.然后结合22⨯列联表,给出了在零假设o H 成立的前提下, 构造2χ统计量的全过程,通过推导过程让学生感悟其合理性.最后教科书总结了独立性检验的基本步骤,并与反证法进行了比较.1.独立性检验的基本步骤(1)提出零假设0:H X 和Y 相互独立对不同背景的实际问题,判断两种现象之间是否有关联或是否相互影响,需要给出严格的数学描述.当定义了两个只取两个值的分类变量X 和Y 后,由前面的分析可知,判断X 和Y 是否有关联只需判断(1|0)P Y X ==和(1|1)P Y X ==是否相等.根据条件概率的定义,可推出(1|0)(1|1)P Y X P Y X =====等价于事件{1}X =与{1}Y =相互独立,由后者又可推出{0}X =与{1},{1}Y X ==与{0},{0}Y X ==与{0}Y =都相互独立.如果这4组事件独立.则称分类变量X和Y 独立.因此,零假设可改述为0:H X 和Y 相互独立.(2)构造检验的统计量将样本数据整理成22⨯列联表的形式,4个积事件的观测频数分别为,,,a b c d .在X 和Y 独立的假设下,分别估计这4个积事件的期望频数,根据频率稳定到概率的原理,考虑所有对应频数的总的偏差并加以调整,构造2χ统计量.这种构造方法非常容易推广到取值超过两个的分类变量的独立性检验.根据2χ统计量的构造过程可知,2χ的值越小,零假设0H 成立的可能性越大;2χ的值越大,零假设0H 成立的可能性越小.为了方便查阅,这里给出2χ统计量的简化形式的推导过程.教科书中给出的该统计量最初的形式为22222()()()()()()()()()()()()()()()()a b a c a b b d c d a c c d b d a b c d n n n n a b a c a b b d c d a c c d b d n n n n χ++++++++⎡⎤⎡⎤⎡⎤⎡⎤----⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦=+++++++++++. 由上式得22222[()()][()()][()()][()()]()()()()()()()()na a b a c nb a b b d nc c d a c nd c d b d n a b a c n a b b d n c d a c n c d b d χ-++-++-++-++=+++++++++++, 把n a b c d =+++代入上式各项分子,得22222()()()()()()()()()()()()ad bc bc ad bc ad ad bc n a b a c n a b b d n c d a c n c d b d χ----=+++++++++++, 对上式右边的分式进行通分,得22()[()()()()()()()()]()()()()ad bc c d b d c d a c a b b d a b a c n a b c d a c b d χ-+++++++++++=++++. 进一步化简得2222()()()()()()()()()()()ad bc a b c d n ad bc n a b c d a c b d a b c d a c b d χ-+++-==++++++++. 上式等号右边即为教科书中给出的2χ统计量的简化形式.(3)确定检验规则,得出推断结论由2χ统计量的构造过程可以看出,2χ统计量的分布与n 有关.在零假设0H 成立的条件下, 统计学家证明,当n →∞时,2χ的分布收敛到随机变量2(1)χ的分布,后者就是自由度为1的卡方分布.也就是说,当n →∞时,对任意的0x ,都有()()22(1)P x P x χχ→,根据卡方分布的性质,对于事先给定的小概率值α,都可以找到相应的正实数a x ,使得()2(1)a P x χα=.在n 充分大时,可以忽略2χ和2(1)χ分布之间的误差,因此认为()2a P x χα=成立.这里的值a x 即可作为与小概率值α对应的判断2χ大小标准的临界值.根据列联表计算2χ的值,当2a x χ时,拒绝零假设,由()2P x αχα=知,犯错误的概率不超过α.当2x αχ<时,不能拒绝零假设,意味着在小概率值α的检验规则下,根据样本数据,没有足够理由认为零假设不成立.我们在作统计推断时,如果不能拒绝零假设,不妨暂且接受它.但这并不代表零假设就是成立的,只是表明若要拒绝零假设,则需要积累更多的证据,作进一步验证.当小概率值0.01α=时,临界值 6.635x α=,当2 6.635χ时,我们推断0H 不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过0.01;当2 6.635χ<时,我们没有充分证据推断0H 不成立,可以暂且认为X 和Y 独立,待有新的证据时再作进一步检验.下面我们提供一个应用独立性检验解决问题的案例,并给出完整的过程,供大家参考. 案例 为了研究一种新药对治疗某疾病是否有效,进行了临床试验.采用放回简单随机抽样的方法得到了如下数据:抽到服用新药的患者44名,其中34名痊愈,10名未痊愈;抽到服用没有任何疗效安慰剂的患者56名,其中32名痊愈,24名未痊愈.依据小概率值0.01α=的独立性检验,能否认为新药治疗该疾病有明显的效果?解:零假设为o H 新药治疗该疾病没有明显的效果.由样本数据可得列联表(表8-1).表8-1根据列联表中的数据, 经计算得到220.01100(34241032) 4.449 6.63544566634x χ⨯-⨯=≈<=⨯⨯⨯. 根据小概率值0.01α=的独立性检验,没有充分证据推断0H 不成立,因此可以认为0H 成立,即认为新药治疗该疾病没有明显的效果.药品对人类的健康至关重要,在没有充分证据表明新药对治疗疾病有效的情况下,必须慎重处理,可以等待时机成熟后,再作进一步试验.各类药品的使用在疾病治疗中具有十分重要的作用,一种新药在投放市场前需要检验其对疾病是否具有疗效.新药的推广使用涉及多方面的因素,成本往往很高,也伴随一定风险.因此,在对药品治疗疾病是否有效进行独立性检验时,一般会选取较小的小概率值α,以不轻易作出药品有效的结论.针对某些疾病,民间有些“食疗方法,这些方法往往简单易行、成本低廉,而且已流传多年,没有什么风险.在对这些“食疗”方法是否有疗效进行独立性检验时,通常不必像对药品的检验那样严苛,可以把小概率值α取得稍大一些.为了减少复杂的计算所花费的时间,同时对2χ分布有一个直观认识,建议使用GeoGebra 软件进行本案例的教学.利用该软件可以计算2χ的值.如图8-18,在“概率统计”视图下,在“统计”标签中选择卡方检验,只要输入观测频数,同时勾选预期次数,即可得到2χ的值为4.4494,即22222(3429.04)(1014.96)(3236.96)(2419.04) 4.449429.0414.9636.9619.04χ----=+++≈. 其中的p 值为0.0349,其含义是()2 4.44940.034P χ≈9.因为()2 6.6350.01P χ≈,所以0.01p >等价于2 6.635χ<.利用该软件还可以根据小概率值α求对应的临界值.如图8-19,在“分布”标签中选择卡方检验,输入自由度为1,概率值为0.1,即得到对应的临界值为2.7055.(4)分析X 和Y 之间的影响规律拒绝零假设,简单地认为X 和Y 有关联或相互影响,不一定是最终想要的结果.在很多时候还需要明确X 和Y 之间是什么样的关联或在多大程度上相互影响,这可以通过样本数据计算相应的频率,推断X 和Y 之间的影响规律.2.应用独立性检验解决实际问题时的注意事项(1)一般来说,样本量n a b c d =+++越大,2χ统计量的分布与2χ(1)分布的近似程度越高.因此,为了保证一定的精度,在实际应用中通常要求列联表中的四个数,,a b c 和d 都不小于5.(2)当零假设被接受时,也可能犯错误,至于犯这种错误的概率(不妨记为p )是多少,我们并不清楚.但是我们知道,当α增大时,p 会减小;反之,当α减小时,p 会增大.因此,在具体操作中,要根据实际问题,选择恰当的小概率值,不能一味地降低或提高α的取值.3.对犯错误概率的解释在零假设0H 成立的前提下,随着小概率值α的逐渐减小,2χ统计量对应的临界值0x 逐当增大,则事件2{}x αχ越来越不容易发生,零假设越来越不容易被拒绝;随着小概率值α的逐当增大,2χ统计量对应的临界值x α逐渐减小,则事件2{}x αχ越来越容易发生,零假设越来越容易被拒绝.例如,对于例3中的数据,经计算得2 4.881χ≈.(1)当小概率值α取0.005时,0.0057.879x =,此时20,0054.8817.879x χ≈<=,则没有充分理由拒绝零假设,因此可以接受0H ,即认为两种疗法的效果没有差异.(2)当小概率值α取0.05时,0.05 3.841χ=,此时20.054.881 3.841x χ≈>=,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05.(3)当小概率值α取0.1时,0.1 2.706χ=,此时20.14.881 2.706x χ≈>=,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.1.对于(2)和(3),用的是与(1)同一组数据,但都得到了与(1)相反的结论,可见推断的结论与检验规则有关.另外,由于依据不同的检验规则,(2)和(3)两个推断犯错误的概率上界是不同的,而这种犯错误的概率只能通过多次试验才能表现出来.因此在具体的问题中,所使用的小概率值往往是由有经验的专家事先确定的.4.样本量对于2χ独立性检验结果的影响对于例1列联表8.3-2中的数据,依据0.1α=的独立性检验,得出的结论是两校学生数学成绩的优秀率没有明显差异.假设对于例1中的问题我们得到如表82-的数据.表8-2显然,基于这些数据计算出的频率与例1中的相同.然而在相同的检验标准下作2χ独立性检验,可以推出两校学生数学成绩的优秀率有明显差异,结论却发生了变化.通常情况下,样本量越大,提供的信息越充分,观测的结果通常会更准确.与例1中的数据相比,这里的每个数据都变为原来的10倍,即样本量变为原来的10倍,这种差异无法通过频率的计算表现出来,而2χ独立性检验可能会得出不同的结论,可见2χ统计量能够有效地提取样本所包含的有用信息.5.例题及其教学关于两校学生数学成绩的优秀率是否有差异,例2利用独立性检验的方法得到的结论与例1用频率估计概率的方法得到的结论截然相反,应注意结合例2后的“思考”,使学生体会独立性检验的必要性.例3是检验甲、乙两种疗法的疗效哪个更好.在例3的教学中,应通过复习列联表的制作,引导学生运用学过的知识解决问题,熟悉运用独立性检验的方法解决具体问题的步骤,教学的重点应该放在解释独立性检验的基本思想上,避免学生单纯地记忆处理问题的步骤和机械套用公式进行计算.需要注意的是,利用独立性检验得出的结论是有条件的,不能在使用时随意扩大范围.例如,例3中的样本数据来自于某儿童医院,根据样本数据得出的结论能很好地适用于该儿童医院.若将这个结论推广到其他群体,则可能会犯错误.例4主要研究吸烟与患肺癌的关系,属于直接运用独立性检验的方法解决实际问题的经典范例.在例4的教学中,应让学生亲自处理数据、解决问题,从中体会统计思维和确定性思维之间的差异,在理解独立性检验思想的过程中,培养学生数据处理的能力,提升学生的数学运算、数据分析等核心素养.6.对132页观察栏目的说明在教科书表8.3-5中,对调两种疗法或两种疗效的位置,不会影响2χ值的计算结果.事实上,对调两种疗法的位置,相当于对调a与,c b与d的位置,由2χ的表达式知,并不影响2χ值的计算结果.同样地,对调两种疗效的位置,相当于对调a与,b c与d的位置,也不影响2χ值的计算结果.7.对本节最后思考栏目的说明可以在与反证法思想的比较中帮助学生了解独立性检验的思想.表8-3给出了反证法与独立性检验两种方法的比较.表8-3从表8-3的对比中,可以看出独立性检验的思想和反证法类似,但需要注意的是:在全部逻辑推理正确的情况下,反证法不会犯错误,而独立性检验可能会犯错误,对于这种错误概率的估计是2 独立性检验的重要组成部分.11/ 11。

教学设计2:§8.3 列联表与独立性检验

教学设计2:§8.3 列联表与独立性检验

§8.3列联表与独立性检验教学目标1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解2×2列联表独立性检验及其应用.教学知识梳理知识点一分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.知识点二2×2列联表1.2×2列联表给出了成对分类变量数据的交叉分类频数.2.定义一对分类变量X和Y,我们整理数据如下表所示:知识点三独立性检验1.定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.独立性检验解决实际问题的主要环节(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.思考独立性检验与反证法的思想类似,那么独立性检验是反证法吗?答案不是.因为反证法不会出错,而独立性检验依据的是小概率事件几乎不发生.教学案例案例一等高堆积条形图的应用例1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.解:作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计426594 1 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.反思感悟等高堆积条形图的优劣点(1)优点:较直观地展示了aa+b与cc+d的差异性.(2)劣点:不能给出推断“两个分类变量有关系”犯错误的概率.跟踪训练1.研究人员选取170名青年男女大学生,对他们进行一种心理测验.发现60名女生对该心理测验中的最后一个题目的反应是:作肯定的有18名,否定的有42名.110名男生在相同的题目上作肯定的有22名,否定的有88名.试判断性别与态度之间是否有关系.解:根据题目所给数据建立如下列联表:肯定否定总计女生184260男生2288110总计40130170比较来看,女生中肯定的人数比要高于男生中肯定的人数比,因此可以在某种程度上认为性别与态度之间有关. 案例二 由χ2进行独立性检验 命题角度1 有关“相关的检验”例2.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了 500位老年人,结果如下:(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此在该地区老年人中,需要帮助的老年人的比例的估计值为70500×100%=14%(2)χ2=500×(40×270-30×160)2200×300×70×430≈9.967.因为9.967>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.反思感悟 用χ2进行“相关的检验”步骤 (1)零假设:即先假设两变量间没关系. (2)计算χ2:套用χ2的公式求得χ2值.(3)查临界值:结合所给小概率值α查得相应的临界值x α. (4)下结论:比较χ2与x α的大小,并作出结论.跟踪训练2.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名. 所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),25周岁以下组工人有40×0.05=2(人).从中随机抽取2名工人,记至少抽到一名25周岁以下组工人的事件为A , 故P (A )=1-C 23C 25=710,故所求概率为710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人), 据此可得2×2列联表如下:所以得χ2=(a +b )(c +d )(a +c )(b +d )=100×(15×25-15×45)260×40×30×70=2514≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”. 命题角度2 有关“无关的检验”例3.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别.解:根据列联表中的数据,得到K 2=32468196196)2915716739(3922⨯⨯⨯⨯-⨯⨯=1.78.因为1.78<3.841,所以我们没有理由说“心脏搭桥手术”与“又发作过心脏病”有关,可以认为病人又发作心脏病与否与其做过何种手术无关. 反思感悟 独立性检验解决实际问题的主要环节(1)提出零假设H 0:X 和Y 相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值x α比较. (3)根据检验规则得出推断结论.(4)在X 和Y 不独立的情况下,根据需要,通过比较相应的频率,分析X 和Y 间的影响规律. 跟踪训练3.为了研究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高一在校生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关? 解:问题是判断学生选报文、理科是否与对外语的兴趣有关.列出2×2列联表如下:由公式得K 2的观测值k =361×(138×52-73×98)236×125×211×150≈1.871×10-4.因为1.871×10-4<2.706,故可以认为学生选报文、理科与对外语的兴趣无关. 课堂小结 1.知识清单: (1)分类变量. (2)2×2列联表. (3)等高堆积条形图. (4)独立性检验,χ2公式. 2.方法归纳:数形结合.3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题. 当堂检测1.下面是一个2×2列联表:则表中a ,b 处的值分别为( ) A .94,96 B .52,50 C .52,60 D .54,52【答案】C【解析】∵a +21=73,∴a =52,b =a +8=52+8=60.2.某班主任对全班50名学生进行了作业量的调查,数据如下表:则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( ) A .0.01 B .0.005 C .0.05 D .0.001【答案】C 【解析】由公式得χ2=50×(18×15-8×9)226×24×27×23≈5.059>3.841=x 0.05.∴犯错误的概率不超过0.05.3.(多选)若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( ) A .在犯错误的概率不超过0.01的前提下,认为吸烟和患肺癌有关系 B .1个人吸烟,那么这个人有99%的概率患有肺癌 C .在100个吸烟者中一定有患肺癌的人D .在100个吸烟者中可能一个患肺癌的人也没有 【答案】AD【解析】独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.4.某销售部门为了研究具有相关大学学历和能按时完成销售任务的关系,对本部门200名销售人员进行调查,所得数据如下表所示:根据上述数据能得出结论:有________以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”. 【答案】99% 【解析】由公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得χ2=200×(57×65-42×36)299×101×93×107≈9.67.因为9.67>6.635=x 0.01,所以有99%以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”.5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.(1)计算a ,b ,c (2)文科学生总成绩不好与数学成绩不好有关系吗? 解:(1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. 由b +c =913,得b =913-36=877. (2)计算随机变量K 2的观测值k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,因为P (K 2≥5.024)≈0.025,所以在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.。

【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)

【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)
当 2<xα时,没有充分的证据推断H0不成立,可以认为X和Y独立.
这种利用 2的取值推断分类变量X和Y是否独立的方法称为 2独立性检验,
简称独立性检验 .
探究新知
下表为独立性检验中几个常用的小概率值和相应的临界值
α

0.1
2.706
0.05
3.841
0.01
6.635
0.005
7.879
0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与
患肺癌有关联,此推断犯错误的概率不大于0.001.
典型例题
根据表中数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7775/7817≈0.9946 和 42/7817≈0.0054
吸烟者中不患肺癌和患肺癌的频率分别为
2099/2148≈0.9772 和 49/2148≈0.0228
中有 43 人的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中有
21 人饮食以蔬菜为主,另外 33 人则以肉类为主.请根据以上数据作出饮食习
惯与年龄的列联表,并利用 P(Y=1|X=0)与 P(Y=1|X=1)判断二者是否有关系.
[解]
用 Ω 表示共调查了 124 人所构成的集合,定义一对分类变量 X 和 Y
性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
探究新知
[解]
病人组中尿液为阳性和阴性的频率分别为:
29
7
≈0.805 6 和 ≈0.194 4.
36
36
对照组中尿液为阳性和阴性的频率分别为:
9
28
≈0.243 2 和 ≈0.756 8.
37
37

【高质量】列联表独立性分析案例PPT文档

【高质量】列联表独立性分析案例PPT文档

40
35 30 25 20 15 10
5 0
患肺癌
不患肺癌
三维 柱状图
不吸烟 吸烟
吸烟 不吸烟
设计意图:通过图形直观判断两个分类变量是否相关:
2) 通过图形直观判断两个分类变量是否相关:
60 推出矛盾,意味着结论A成立
并且在高一学习必修三概率统计时已经初步了解变量间的相关关系问题;
二维
(4)学生对利用计算机上数学课比较感兴趣,并能掌握计算机的基本操作;
列联表独立性分析案例
优选列联表独立性分析案例
教材分析 目标分析 特征分析 策略分析
过程分析
教材分析 目标分析 过特程征分析 教策法略分析 过评程价分析
教材分析
一)、教材的地位和作用 本节课是湘教版普通高中课程标准实验教科书选修1-2第
四章第三节第一课时的内容。主要内容是:列联表独立性分 析案例。独立性检验是《课程标准》中要求学生体验的重要 统计模型之一,该模型的教育价值:让学生在必修3课程学习 到的变量间的相关关系和选修1-2事件的独立性的基础上, 利用独立性检验进一步分析两个分类变量之间是否有关系, 为下一节学习一元线性回归案例和今后学习统计理论奠定基 础。
❖ 2)通过对具体问题作出独立性检验,明确独 立性检验的基本步骤,并能用其基本思想解 决实际问题。
目标分析
❖ 2、过程与方法 ❖ 1)通过探究“吸烟是否与患肺癌有关系”引出独
立性检验的问题,借助样本数据,列联表、柱形 图和条形图,使学生直观感觉到吸烟和患肺癌可能 有关系.这一直觉来自于观测数据,即样本问题是 这种来自于样本的印象能够在多大程度上代表总 体,这节课就是为了解决这个问题,让学生亲身 体验直观感受的基础上,提高学生的数据分析能 力. ❖ 2)经历判断“X与Y是否有关系”的一般步骤和利 用独立性检验来考察两个分类变量是否有关系, 获得较准确地给出这种判断的可靠程度的具体做

列联表独立性分析案例

列联表独立性分析案例

0.1%把握认为A与B无关
1%把握认为A与B无关
99.9%把握认A与B有关 99%把握认为A与B有关
10%把握认为A与B无关 90%把握认为A与B有关
没有充分的依据显示A与B有关,但也不能显示A与B无关
独立性检验的步骤
第一步:H0: 吸烟和患病之间没有关系
第二步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
k0
时就认为K2的观测
k 如就果认为k“两k个0 ,分就类认变为量“之两间个没分有类关变系量”之。-间---有临关界系值”;否则 0
按照上述规则,把“两个分类变量之间有没关系”错误的判断
为“两个分类变量之间有关系”的概率为KP2( k0 ).
在实际应用中,我们把 k k0解释为有(1 P(K 2 k)) 100%
列联表独立性分析案例
2020/12/11
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
2020/12/11
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有 175人秃顶。利用独立性检验方法判断秃顶与患心脏病是否有关 系?你所得的结论在什么范围内有效?
解:根据题目所给数据得到如下列联表:
秃顶 不秃顶
总计
患心脏病 214 451 665
2020/12/11
例2 为考察高中生的性别与是否喜欢数学课程之间的关系,在

列联表与独立性检验 课件

列联表与独立性检验 课件

n
n
反之,当这些量的取值较大时,就可以推断 H0 不成立.
显然,分别考虑③中的四个差的绝对值很困难. 我们需要找到一个既 合理又能够计算分布的统计量,来推断 H0 是否成立. 这里,我们将四个 差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
2
a
(a
b) (a n
c)
2
(a b)(a c)
下表给出了独立性检验中5个常用的小概率值和相应的临界值.
α
0.1 0.05 0.01 0.005 0.001

2.706 3.841 6.635 7.879 10.828
例如,对于小概率值 α 0.05 3.841 时,我们认为 X 和 Y 不独立,该推断犯错误的 概率不超过0.05;
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以 通过一个与 H0 相矛盾的小概率事件来实现. 在假定 H0 的条件下,对于有 放回简单随机抽样,当样本容量 n 充分大时,统计学家得到了 2 的近似 分布.
忽略 2 的实际分布与该近似分布的误差后,对于任何小概率值 α,可
以找到相应的正实数 xα,使得下面关系成立:
率分别为 33 0.7674 和 10 0.2326 ;乙校学生中数学成绩不优秀和数学
43
43
成绩优秀的频率分别为 38 0.8444 和 7 0.1556 .依据频率稳定于概率
45
45
的原理,我们可以推断,如果从甲校和乙校各随机选取一名学生,那么甲
校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率. 因此可以
(2)当 2 x 0.05 3.841 时,我们认为 X 和 Y 独立.
认为两校学生的数学成绩优秀率存在差异.

8.3列联表与独立性检验课件-高二数学人教A版选择性必修第三册

8.3列联表与独立性检验课件-高二数学人教A版选择性必修第三册

自主学习
2. 2×2 列联表:
一般地,假设有两个分类变量 X 和 Y,它们的取值分别为{x1,x2}和{y1,y2},其
样本频数列联表(称为 2×2 列联表)为
y1
y2
合计
x1 x2 合计
a c a+c
b d b+d
a+b c+d a+b+c+d
自主学习
(1)列联表是两个或两个以上分类变量的汇总统计表,现阶段我们仅研究 两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表 称为2×2列联表. (2)列联表有助于直a 观地观测数据之间的关系,如a表示既满足x1,又满 足y1的样本量,a+b 表示在x1情况下,又满足y1条件的样本所占的频率.
课后作业
对应课后练习
经典例题
题型二 独立性检验
解: (1)2×2 列联表如表所示:
教师年龄
对新课程教学模式
赞同
不赞同
老教师
10
10
青年教师
24
6
合计
34
16
合计
20 30 50
经典例题
题型二 独立性检验
(2)零假设为 H0:对新课程教学模式的赞同情况与教师年龄无关.
由公式得
χ2=50×
10×6-24×10 34×16×20×30
63
117
180
女生
42
82
124
合计
105
199
304
根据表中数据,则下列说法正确的是________.(填序号) ①性别与知道想学专业有关; ②性别与知道想学专业无关; ③女生比男生更易知道所学专业.
当堂达标
② 解析:
χ2=304×1806×31×2842×-10452××119197

2022年《列联表独立性分析案例》教学优秀教案1

2022年《列联表独立性分析案例》教学优秀教案1

列联表独立性分析案例一、学习目标1、通过对典型案例〔如“肺癌与吸烟有关吗〞〕的探究,了解独立性检验〔只要求2×2列联表〕的根本思想、方法及初步应用。

2、让学生经历数据处理的过程,提高探索解决问题的能力。

二、学习重点让学生体会独立性检验的根本思想三、学习难点了解独立性检验的根本思想;了解随机变量的含义。

四、学习过程〔一〕引入课题在许多实际问题中,我们需要考察两种因素的关系。

例如:数学解题能力是否与性别有关;高考升学率是否与补课有关。

为了分析这些问题,我们需要获取一些数据,并对数据进行分析处理,对所得的结论作出判断。

〔二〕案例讲解案例患肺癌与吸烟是否有关?肺癌与吸烟的调查数据分析:吸烟的人在调查总人数中所占的百分比:54%患肺癌的人在调查总人数中所占的百分比:60%既吸烟又患肺癌的人在调查总人数中所占的百分比:39%显然,54%60%39%。

我们有理由相信吸烟是与肺癌有关的。

在解决具体实例的根底上,教师要引导学生总结出一般情况下的解决问题的方法。

假设,那么吸烟是与肺癌无关联,可以认为它们相互独立。

这个式子还可以改写为:.在吸烟与患肺癌问题中,,这说明既吸烟又患肺癌的人数比独立时要多,在这种情况下,吸烟会使患肺癌的人数增加。

需要注意的是,在式子中的各个分式在实际中都是频率,不能等同于概率。

实际上,为了应用概率论得到统计量的近似的分布,统计学家最终选用了:来衡量独立性的大小,它可以化简为当时,有95%的把握判定两个属性不独立;当时,有99%的把握判定两个属性不独立。

〔三〕稳固练习打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得数据,试问:每一晚都打鼾与患心脏病有关系吗?有多大把握认为你的结论成立?解:由题意:,所以我们有99.9%的把握认为每一晚都打鼾与患心脏病有关系。

〔四〕课堂小结1.在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法。

独立性检验的思想来自于统计上的假设检验思想,它与反证法类似。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档