高维列联表独立性与相关性

合集下载

数学选修2-3 列联表独立性分析 精PPT课件

数学选修2-3 列联表独立性分析 精PPT课件

7
独立性检验
通过数据和图表分析,得到 结论是:吸烟与患病有关
用χ2统计量研究 这类问题的方法
步骤
结论的可靠 程度如何?
第一步:H0: 假设吸烟和患病之间没有关系 第二步:列出2×2列联表
吸烟 不吸烟
总计
患病
不患病
a
b
c
d
a+c
b+d
精选ppt课件2021
总计 a+b c+d a+b+c+d
8
第三步:引入一个随机变量:卡方统计量
n n n n n n
n1 n2
n2 n2
nn
nn
来衡量独立性的大小
可以化简为 2 n(n11n22 n12n21)2
n1 n2 n1n2
精选ppt课件2021
6
怎样描述实际观测值与估计值的差异呢?
统计学中采用
用 卡 方 统 计 量 :2
(观 测 值 预 期 值 )2 预 期 值
来 刻 画 实 际 观 测 值 与 估 计 值 的 差 异 .
未感冒
感冒
合计
使用血清
258
242
500
未使用血清
216
284
500
合计
474
526
1000
解:设H0:感冒与是否使用该血清没有关系。
2 1000258 284 242 2162 7.075
474 526 500 500
因当H0成立时,χ2≥6.635的概率约为0.01,故有99%的把握认
现在的 2 =7.307的观测值远大于6.635,出 现这样的观测值的概率不超过0.010。
故有99%的把握认为H0不成立,即有99%的把 握认为“患病与吸烟有关系”。

2023年高考数学一轮复习精讲精练(新高考专用)专题52:列联表独立性检验(讲解版)

2023年高考数学一轮复习精讲精练(新高考专用)专题52:列联表独立性检验(讲解版)

专题52:列联表独立性检验精讲温故知新1. 数值变量与分类变量数值变量:数值变量的取值为实数,其大小和运算都有实际含义.分类变量:这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示.注意点:分类变量的取值可以用实数来表示,例如男性,女性可以用1,0表示,学生的班级可以用1,2,3来表示.这些数值只作编号使用,并没有大小和运算意义.分类变量是相对于数值变量来说的.变量的不同“值”表示个体所属的不同类别,像这样的变量才是分类变量.2:列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K2=n(ad-bc)(a+b)(a+c)(b+d)(c+d),其中n=a+b+c+d为样本容量.3. 分类变量与列联表的实际应用利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将aa+b与cc+d⎝⎛⎭⎪⎫ba+b与dc+d的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.4. 独立性检验的理解1.独立性检验:利用χ2的取值推断分类变量X 和Y 是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验. 2.χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .注意点:(1)卡方越小,独立性越强,相关性越弱;卡方越大,独立性越弱,相关性越强.(2)当χ2≥x α时,我们就推断H 0不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过α;当χ2<x α时,我们没有充分证据推断H 0不成立 ,可以认为X 和Y 独立. 根据所给的观测值,与所给的临界值表中的数据进行比较,即可得出结论. 5. 有关“相关的检验” 用χ2进行“相关的检验”步骤 (1)零假设:即先假设两变量间没关系. (2)计算χ2:套用χ2的公式求得χ2值.(3)查临界值:结合所给小概率值α查得相应的临界值x α. (4)下结论:比较χ2与x α的大小,并作出结论. 6. 有关“无关的检验” 运用独立性检验的方法(1)列出2×2列联表,根据公式计算χ2. (2)比较χ2与x α的大小作出结论题型一:列联表例1:假设有两个变量X 和Y ,他们的取值分别为1x ,2x 和1y ,2y ,其列联表为:则表中a ,b 的值分别是( ) A .94,96 B .54,52C .52,50D .52,60【答案】D【详解】根据列联表知,=732152a -=,又8a b +=,所以60b =, 故选:D举一反三下列是关于出生男婴与女婴调查的22⨯列联表那么D __________.【答案】82【详解】解:由题意,4598E +=,35A D +=,45A B +=,35E C +=,180B C +=47A ∴=,92B =,88C =,82D =,53E =故答案为: 82.题型二:等高条形图例2:为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性40人,女性60人,绘制不同群体中倾向选择生育二胎与选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则关于样本下列叙述中正确的是( )A .是否倾向选择生育二胎与户籍无关B .是否倾向选择生育二胎与性别有关C .倾向选择生育二胎的人员中,男性人数与女性人数相同D .倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数 【答案】D【详解】对于A ,城镇户籍中40%选择生育二胎,农村户籍中80%选择生育二胎,相差较大,则是否倾向选择生育二胎与户籍有关,A 错误;对于B ,男性和女性中均有60%选择生育二胎,则是否倾向选择生育二胎与性别无关,B 错误; 对于C ,由于男性和女性中均有60%选择生育二胎,但样本中男性40人,女性60人,则倾向选择生育二胎的人员中,男性人数与女性人数不同,C 错误;对于D ,倾向选择不生育二胎的人员中,农村户籍有5020%10⨯=人,城镇户籍有5060%30⨯=人,农村户籍人数少于城镇户籍人数,D 正确.故选:D.举一反三为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如等高条形图:根据图中的信息,下列结论中不正确的是()A.样本中多数男生喜欢手机支付B.样本中的女生数量少于男生数量C.样本中多数女生喜欢现金支付D.样本中喜欢现金支付的数量少于喜欢手机支付的数量【答案】C【详解】对于A,由右图可知,样本中多数男生喜欢手机支付,A对;对于B,由左图可知,样本中的男生数量多于女生数量,B对;对于C,由右图可知,样本中多数女生喜欢手机支付,C错;对于D,由右图可知,样本中喜欢现金支付的数量少于喜欢手机支付的数量,D对.故选:C.题型三:独立性检验的概念及计算例3:(2022·湖北武汉·模拟预测)通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:跳绳性别合计男女爱好40 20 60 不爱好20 30 50已知()()()()()22n ad bcKa b c d a c b d-=++++,则以下结论正确的是()A.根据小概率值0.001α=的独立性检验,爱好跳绳与性别无关B.根据小概率值0.001α=的独立性检验,爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001 C.根据小概率值0.01α=的独立性检验,有99%以上的把握认为“爱好跳绳与性别无关”D.根据小概率值0.01α=的独立性检验,在犯错误的概率不超过1%的前提下,认为“爱好跳绳与性别无关”【答案】A【详解】由题知()()()()()22 2110(40302020)7.82260506050n ad bcKa b c d a c b d-⨯-⨯==≈++++⨯⨯⨯因为7.82210.828<,所以爱好跳绳与性别无关且这个结论犯错误的概率超过0.001,故A正确,B错误,又因为7.822 6.635>,所以有99%以上的把握认为“爱好跳绳与性别有关,或在犯错误的概率不超过1%的前提下,认为“爱好跳绳与性别有关.故C和D错误.故选:A.举一反三1.(2022·江西南昌·一模(理))根据分类变量x与y的观察数据,计算得到2 2.974K=,依据下表给出的2K 独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是()A.有95%的把握认为变量x与y独立B.有95%的把握认为变量x与y不独立C.变量x与y独立,这个结论犯错误的概率不超过10%D.变量x与y不独立,这个结论犯错误的概率不超过10%【答案】D【详解】因为2 2.974 2.706K=>,所以变量x与y不相互独立,这个结论犯错误的概率不超过10%.故选:D 2.(2022·四川雅安·三模(文))为考察一种新药预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的22K≈.参照附表,下列结论正确⨯列联表中,由列联表中的数据计算得29.616的是()附表:A.在犯错误的概率不超过0.1%的前提下,认为“药物有效”B.在犯错误的概率不超过0.1%的前提下,认为“药物无效”C.有99%以上的把握认为“药物有效”D.有99%以上的把握认为“药物无效”【答案】C解:因为29.616<<,所以有99%以上的把握认为“药物有效”.K7.87910.828K≈,即2故选:C.题型四:独立性检验的基本思想例4:(2022·江西·二模(文))千百年来,我国劳动人民在生产实践中根据云的形状、走向速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩销云,地上雨淋林”“日落云里走,雨在半夜后”……小明同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下22⨯列联表:并计算得到219.05K=,下列小明对地区天气判断正确的是()A.夜晚下雨的概率约为1 5B.未出现“日落云里走”,但夜晚下雨的概率约为12C.出现“日落云里走”,有99.9%的把握认为夜晚会下雨D.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关【答案】D【详解】根据表中数据可知,夜晚下雨的概率约为252511002P+==,所以A错.未出现“日落云里走”,但夜晚下雨的概率约为255254514P==+,故B错.219.0510.828K=>,对照临界值表可知,有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,但不能说有99.9%的把握认为夜晚会下雨,故C错,D对.故选:D举一反三(2022·安徽省芜湖市教育局模拟预测(理))为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设0H :“这种血清不能起到预防感冒的作用”,利用22⨯列联表计算的结果,认为0H 成立的可能性不足1%,那么2K 的一个可能取值为( )A .7.879B .6.635C .5.024D .3.841【答案】A【详解】若0H 成立的可能性不足1%,则2 6.635K >,由选项知:27.879K =. 故选:A.题型五:独立性检验解决实际问题例5:(2022·全国·高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?(2)从该地的人群中任选一人,A 表示事件“选到的人卫生习惯不够良好”,B 表示事件“选到的人患有该疾病”.(|)(|)P B A P B A 与(|)(|)P B A P B A 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R .(ⅰ)证明:(|)(|)(|)(|)P A B P A B R P A B P A B =⋅;(ⅱ)利用该调查数据,给出(|),(|)P A B P A B 的估计值,并利用(ⅰ)的结果给出R 的估计值.附22()()()()()n ad bc K a b c d a c b d -=++++,【解析】(1)由已知222()200(40906010)=24()()()()50150100100n ad bc K a b c d a c b d -⨯-⨯==++++⨯⨯⨯, 又2( 6.635)=0.01P K ≥,24 6.635>,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异. (2)(i)因为(|)(|)()()()()=(|)(|)()()()()P B A P B A P AB P A P AB P A R P B A P B A P A P AB P A P AB =⋅⋅⋅⋅,所以()()()()()()()()P AB P B P AB P B R P B P AB P B P AB =⋅⋅⋅ 所以(|)(|)(|)(|)P A B P A B R P A B P A B =⋅,(ii) 由已知40(|)100P A B =,10(|)100P A B =,又60(|)100P A B =,90(|)100P A B =, 所以(|)(|)=6(|)(|)P A B P A B R P A B P A B =⋅举一反三(2021·全国·高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++【详解】(1)甲机床生产的产品中的一级品的频率为15075% 200=,乙机床生产的产品中的一级品的频率为12060% 200=.(2)()22400150801205040010 6.63527013020020039K⨯-⨯==>>⨯⨯⨯,故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.精练巩固提升一、单选题1.(2022·全国·模拟预测)某初级中学有700名学生,在2021年秋季运动会中,为响应全民健身运动的号召,要求每名学生都必须在“立定跳远”与“坐位体前屈”中选择一项参加比赛.根据报名结果知道,有12的男生选择“立定跳远”,有34的女生选择“坐位体前屈”,且选择“立定跳远”的学生中女生占25,则参照附表,下列结论正确的是()附:()()()()()22n ad bc K a b c d a c b d -=++++,n =a +b +c +d .A .在犯错误的概率不超过2.5%的前提下,认为选择运动项目与性别无关B .在犯错误的概率不超过5%的前提下,认为选择运动项目与性别无关C .有97.5%的把握认为选择运动项目与性别有关D .有95%的把握认为选择运动项目与性别有关【答案】C 【详解】解:由题意得:设该校男生人数为x ,女生人数为y ,则可得如下表格:由题意知12411524y x y =+,即43y x =,又x +y =700,解得300,400,x y =⎧⎨=⎩则()2270015030015010046.67 5.024300400250450K ⨯⨯-⨯=≈>⨯⨯⨯,所以有97.5%的把握认为选择运动项目与性别有关.故选C . 2.(2022·四川成都·三模(理))在某大学一食品超市,随机询问了70名不同性别的大学生在购买食物时是否查看营养说明,得到如下的列联表:附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.根据列联表的独立性检验,则下列说法正确的是().A.在犯错误的概率不超过0.05的前提下认为该校大学生在购买食物时要查看营养说明的人数中男生人数更多B.在犯错误的概率不超过0.010的前提下认为该校女大学生在购买食物时要查看营养说明的人数与不查看营养说明的人数比为3 4C.在犯错误的概率不超过0.025的前提下认为性别与是否查看营养说明有关系D.在犯错误的概率不超过0.010的前提下认为性别与是否查看营养说明有关系【答案】C【详解】由题可得2270(15102025)= 5.83 5.02435353040K⨯⨯-⨯≈>⨯⨯⨯,∴在犯错误的概率不超过0.025的前提下认为性别与是否查看营养说明有关系.故选:C.3.(2021·全国·模拟预测(理))为了丰富教职工业余文化生活,某校计划在假期组织70名老师外出旅游,并给出了两种方案(方案一和方案二),每位老师均选择且只选择一种方案,其中有50%的男老师选择方案一,有75%的女老师选择方案二,且选择方案一的老师中女老师占40%,则参照附表,得到的正确结论是( )附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.A .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别有关”B .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别无关”C .有95%以上的把握认为“选择方案与性别有关”D .有95%以上的把握认为“选择方案与性别无关”【答案】C【详解】设该校男老师的人数为x ,女老师的人数为y ,则可得如下表格:由题意0.40.50.25x y =+,可得43y x =,可得30x =,40y =, 则()227015301510 4.667 3.84125453040K ⨯-⨯=≈>⨯⨯⨯, 但4.667 5.024<,所以无97.5%以上有95%以上的把握认为“选择方案与性别有关”.故选:C.4.(2021·安徽黄山·二模(理))下列命题:①在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于0,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③两个模型中残差平方和越小的模型拟合的效果越好;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大. 其中正确命题的个数是( )A .1个B .2个C .3个D .4个【答案】C解:①在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于0,表示回归效果越不好,①错误;②两个变量相关性越强,则相关系数的绝对值就越接近于1,②正确;③两个模型中残差平方和越小的模型拟合的效果越好,③正确;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,④正确.故选:C .5.(2022·河南·长葛市第一高级中学模拟预测(理))某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向全体学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘制成等高条形图(如图所示),则下列说法正确的是( ) ()20P K k ≥ 0.05 0.010k 3.841 6.635参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.A .参与调查的学生中喜欢攀岩的女生人数比喜欢攀岩的男生人数多B .参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多C .若参与调查的男、女生人数均为100人,则能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关D .无论参与调查的男、女生人数为多少,都能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关【答案】C【详解】对于选项A :因为参加调查的男、女生人数相同,而男生中喜欢攀岩的占80%,女生中喜欢攀岩的占30%,所以参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多,所以选项A 错误;对于选项B :参与调查的女生中喜欢攀岩的人数占30%,不喜欢攀岩的人数占70%,所以参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数少,所以选项B 错误;对于选项C :若参与调查的男、女生人数均为100人,根据图表,列出2×2列联表如下:所以()2220080702030500050.505 6.6351109010010099K ⨯⨯-⨯==≈>⨯⨯⨯, 所以在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关,C 正确;对于选项D :如果不确定参与调查的男、女生人数,无法计算2K ,D 错误.故选:C .6.(2022·山东聊城·一模)根据分类变量x 与y 的成对样本数据,计算得到2 6.147χ=.依据0.01α=的独立性检验()0.01 6.635x =,结论为( )A .变量x 与y 不独立B .变量x 与y 不独立,这个结论犯错误的概率不超过0.01C .变量x 与y 独立D .变量x 与y 独立,这个结论犯错误的概率不超过0.01【答案】C【详解】按照独立性检验的知识及比对的参数值,当2 6.147χ=,我们可以下结论变量x 与y 独立.故排除选项A,B;依据0.01α=的独立性检验()0.01 6.635x =,6.147<6.635,所以我们不能得到“变量x 与y 独立,这个结论犯错误的概率不超过0.01”这个结论.故C 正确,D 错误.故选:C7.(2022·天津·模拟预测)下列说法错误的是( )A .线性相关系数0r >时,两变量正相关 B .两个随机变量的线性相关性越强,则相关系数r 的值就越接近于1C .在回归直线方程ˆ0.20.8yx =+中,当解释变量x 每增加1个单位时,预报变量ˆy 平增加0.2个单位 D .对分类变量X 与Y ,随机变量2χ的观测值越大,则判断“X 与Y 有关系”的把握程度越大【答案】B【详解】A :线性相关系数0r >时,变量为正相关,正确;B :两个随机变量的线性相关性越强,则相关系数||r 的值就越接近于1,错误;C :在回归直线方程ˆ0.20.8yx =+中,当1x ∆=时,ˆ0.2y ∆=,正确; D :对分类变量X 与Y ,随机变量2χ的观测值越大,变量间的关系把握程度越大,正确.故选:B8.(2020·河南·模拟预测(文))2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播、微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,且有99%的把握但没有99.9%的把握认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( )附:()()()()()2n ad bc a b c d a c b d -++++,其中n a b c d =+++.A .130B .190C .240D .250【答案】B 【解析】【分析】设男、女学生的人数都为5x ,则男、女学生的总人数为10x ,建立22⨯列联表,由独立性检验算出2K ,结合观测值和选项可得答案.【详解】依题意,设男、女学生的人数都为5x ,则男、女学生的总人数为10x ,建立22⨯列联表如下,故()2222108310553721⋅-==⋅⋅⋅x x x x K x x x x ,由题意可得106.63510.82821x <<, 所以139.33510227.388x <<,结合选项可知,只有B 符合题意.故选:B.二、多选题9.(2021·福建福州·一模)“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如下所示的列联表,通过计算得到K 2的观测值为已知()2 6.6350.010P K =,()210.8280.001P K =,则下列判断正确的是( )A .在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”B .在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”C .有99%的把握认为“光盘行动”的认可情况与年龄有关D .在犯错误的概率不超过0.001的前提下,认为“光盘行动”的认可情况与年龄有关【答案】AC【详解】∵K 2的观测值为9,且P (K 2≥6.635)=0.010,P (K 2≥10.828)=0.001,又∵9>6.635,但9<10.828,∴有99%的把握认为“光盘行动”的认可情况与年龄有关,或者说,在犯错误的概率不超过0.010的前提下,认为“光盘行动”的认可情况与年龄有关,所以选项C 正确,选项D 错误,由表可知认可“光盘行动”的人数为60人,所以在该餐厅用餐的客人中认可“光盘行动”的比例为6010090⨯%≈66.7%, 故选项A 正确,选项B 错误.故选:AC.10.(2022·湖南岳阳·三模)下列说法正确的是( )A .线性回归方程y bx a =+必过(,)x yB .设具有线性相关关系的两个变量x ,y 的相关系数为r ,则r 越接近于0,x 和y 之间的线性相关程度越强C .在一个22⨯列联表中,由计算得2K 的值,则2K 的值越小,判断两个变量有关的把握越大D .若()2~1,X N σ,()20.2P X >=,则()010.3P X <<= 【答案】AD【详解】因为线性回归方程y bx a =+必过样本中心点(,)x y ,所以选项A 正确; 因为r 越接近于0,x 和y 之间的线性相关程度越弱,所以选项B 不正确;因为2K 的值越小,确定两个变量有关的把握的程度越小,所以选项C 不正确;因为()2~1,X N σ,所以()()()1011220.32P X P X P X <<=<<=->=,因此选项D 正确,故选:AD 三、填空题11.(2020·宁夏·固原一中模拟预测(文))在独立性检验中,统计量K 2有两个临界值:3.841和6.635.当K 2>3.841时,有95%的把握说明两个事件有关,当K 2>6.635时,有99%的把握说明两个事件有关,当K 2≤3.841时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算K 2=20.87.根据这一数据分析,我们有理由认为打鼾与患心脏病之间是________的(有关、无关).【答案】有关【详解】K 2=20.87>6.635时,有99%的把握说明打鼾与患心脏病有关.故答案为:有关12.(2022·全国·模拟预测)某大学为了解喜欢看篮球赛是否与性别有关,随机调查了部分学生,在被调查的学生中,男生人数是女生人数的2倍,男生喜欢看篮球赛的人数占男生人数的56,女生喜欢看篮球赛的人数占女生人数的13.若被调查的男生人数为n ,且有95%的把握认为喜欢看篮球赛与性别有关,则n 的最小值为______.【答案】12【详解】由题意得到如下列联表:所以2235263663822n n n n n n n n n n χ⎛⎫⋅-⋅⎪ ⎭⎝==⋅⋅⋅. 因为有95%的把握认为喜欢看篮球赛与性别有关,所以2 3.841χ≥,即3 3.8418n ≥, 3.841810.243n ⨯≥≈. 又2n ,3n ,6n 为整数,所以n 的最小值为12.故答案为:12 13.(2020·山西·大同一中模拟预测(理))某班主任对全班30名男生进行了作业量多少的调查,数据如下表:该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过________. 附表及公式:参考公式:K 2=2()()()()()n ad bc a b c d a c b d -++++. 【答案】0.05【详解】计算得K 2的观测值k =230(12828)14162010⨯⨯-⨯⨯⨯⨯≈4.286>3.841,则推断犯错误的概率不超过0.05.故答案为:0.05.14.(2022·辽宁葫芦岛·二模(理))下列说法:①线性回归方程y bx a =+必过(),x y ;②命题“21,34x x ∀≥+≥”的否定是“21,34x x ∃<+<”③相关系数r 越小,表明两个变量相关性越弱;④在一个22⨯列联表中,由计算得28.079K =,则有99%的把握认为这两个变量间有关系;其中正确..的说法是__________.(把你认为正确的结论都写在横线上) 本题可参考独立性检验临界值表: 【答案】①④详解:线性回归方程ˆˆˆybx a =+必过样本中心点(),x y ,故①正确. 命题“21,34x x ∀≥+≥”的否定是“21,34x x ∃≥+<” 故②错误③相关系数r 绝对值越小,表明两个变量相关性越弱,故不正确;④在一个22⨯列联表中,由计算得28.079K =,则有99%的把握认为这两个变量间有关系,正确.故答案为①④.四、解答题15.(2022·全国·高考真题(文))甲、乙两城之间的长途客车均由A 和B 两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,()2P K k0.100 0.050 0.010k 2.706 3.841 6.635【解析】(1)根据表中数据,A共有班次260次,准点班次有240次,设A家公司长途客车准点事件为M,则24012 ()26013==P M;B共有班次240次,准点班次有210次,设B家公司长途客车准点事件为N,则210()27840==P N.A家公司长途客车准点的概率为12 13;B家公司长途客车准点的概率为7 8 .(2)列联表22()()()()()n ad bc K a b c d a c b d -=++++=2500(2403021020) 3.205 2.70626024045050⨯⨯-⨯≈>⨯⨯⨯, 根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关. 16.(2020·全国·高考真题(文))某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,【详解】(1)由频数分布表可知,该市一天的空气质量等级为1的概率为216250.43100++=,等级为2的概率为510120.27100++=,等级为3的概率为6780.21100++=,等级为4的概率为7200.09100++=;(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100203003550045350100⨯+⨯+⨯=(3)22⨯列联表如下:()221003383722 5.820 3.84155457030K ⨯⨯-⨯=≈>⨯⨯⨯, 因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.。

高中数学知识点精讲精析 独立性检验 (4)

高中数学知识点精讲精析 独立性检验 (4)

1.2 独立性检验1.与列联表相关的概念:①分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.②列联表:分类变量的汇总统计表(频数表). 一般我们只研究每个分类变量只取两个值,⨯. 如吸烟与患肺癌的列联表:这样的列联表称为222.三维柱形图和二维条形图的概念:由列联表可以粗略估计出吸烟者和不吸烟者患肺癌的可能性存在差异.3. 独立性检验的基本思想:①独立性检验的必要性:列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上适用于总体.②独立性检验的步骤(略)及原理(与反证法类似):1.探究“吸烟是否与患肺癌有关系”引出独立性检验的问题【解析】 上例的解决步骤第一步:提出假设检验问题 H 0:吸烟与患肺癌没有关系↔ H 1:吸烟与患肺癌有关系第二步:选择检验的指标 22()K ()()()()n ad bc a b c d a c b d -=++++(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大. 第三步:查表得出结论2.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗? 【解析】由公式469.728356134205)1316212143(3392=⨯⨯⨯⨯-⨯⨯=K ,因为7.469>6.635,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关。

3.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别。

〖2021年整理〗《知识精讲列联表独立性分析》优秀教案

〖2021年整理〗《知识精讲列联表独立性分析》优秀教案

列联表独立性分析——知识精讲一、列联表独立性分析1.列联表教材引例中给出的表称为列联表,意思是要考虑调查的人的两种状态:是否吸烟,是否患肺癌;每种状态又分为两种情况:吸烟、不吸烟以及患肺癌、未患肺癌。

表中排成两列的数据是调查得来的结果,根据这4个数据来检验上述两种状态是否有关。

2.独立性分析利用随机变量22()()()()()n ad bcKa b c d a c b d-=++++(其中n a b c d=+++为样本容量)来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。

在列联表独立性检验中,随机变量的观测值2()()()()()n ad bca b c d a c b d-++++可以确定“与有关系”的可信程度。

(1)如果,就有的把握认为“与有关系”;(2)如果,就有的把握认为“与有关系”;(3)如果,就有99的把握认为“与有关系”;(4)如果,就有的把握认为“与有关系”;(5)如果,就有95的把握认为“与有关系”;(6)如果,就有90的把握认为“与有关系”;(7)如果 2.706k≤,就认为没有充分的证据显示“与有关系”。

二、范例剖析例1 磨牙不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:磨牙与肠道中有寄生虫有关吗?分析:根据题中的数据计算的值,对比表中的各个临界值说明把握程度。

解析:根据题意计算,得221633(22413553024)1244.51025413792481385K ⨯⨯-⨯=≈⨯⨯⨯, 因为1244.51010.828>,所以有%把握说磨牙与肠道中有寄生虫有关。

评注:独立性检验是考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度的重要方法。

独立性检验能帮助我们对日常生活中的实际问题做出合理的推断和预测,因此要在学习中,应通过案例分析,理解和掌握独立性检验的方法,体会其基本思想在解决实际问题中的应用,以提高我们分析和处理问题的能力。

列联表独立性分析案例演示文稿

列联表独立性分析案例演示文稿
吸烟
等高 条形图
患肺癌 不患肺癌
不吸烟
第15页,共29页。
吸烟与肺癌的调查数据
60
40
患肺 癌
不患 肺癌
总计
35 30
50 40
25
吸烟 39 15 54
20 15
吸烟
30
不吸烟 20
不吸 烟
21
25
46
10 5 0
患肺癌
不吸烟 吸烟
10 0
总计 60 40 100
不患肺癌
吸烟
不吸烟
100%
90%
练习:为考察高中生性别与是否喜欢数学课程之间的关系,在 某城市的某校高中生中随机抽取300名学生,得到如下列联表:试分析: 高中生的性别差异是否会对喜欢数学课程程度产生影响?为什么?

X

总计
喜欢数学课程
Y
37
35
72
不喜欢数学课程 85
143 228
总计 122 178 300
设计意图:发展学生的应用意识,是高中数学课程标准所 倡导的重要理念之一。在教学中以具体问题为载体,加深学 生对独立性检验的理解,体验数学在实际生活中的应用。
女生 男生
喜欢数学课程 不喜欢数学课程
第26页,共29页。
练习:请思考独立性检验基本思想的形成过程,以小组交流讨论方式, 完成如下表。
反证法 要证明结论A
在A不成立的前提下进行推 理
独立检验 备选假设H1
在H1不成立的条件下,即 H0成立的条件下进行推理
推出矛盾,意味着结论A成 立
推出有利于H1成立的小概率 事件(概率不超过a的事件) 发生,意味着H1成立的可能 性很大(可能性为1-a)

高维列联表独立性与相关性

高维列联表独立性与相关性
mijk ˆ G 2 ln 2 nijk ln n i 1 j 1 k 1 ijk
r c t 2

高维列联表的相关性
• 在三维列联表中,前面所有的独立性问题讨论完 后,可以进一步分析三个变量之间的相关关系。 • 相关关系有两种情况:
– 一种是饱和模型,表示为(ABC),即期望频数不能分解, 三个属性之间不仅两两存在交互作用,而且三个之间 也有交互作用;其期望频数的估计就是实际频数nijk。 – 另一种是齐次关联模型,表示为(AB,AC,BC),即期望 频数可分解,两两之间存在交互作用,但三个之间没 有交互作用;其期望频数的估计需要使用迭代算法。
• • • •
用期望频数定义条件独立性的方法: 若存在ξij,ωik使任意格都有: mijk ijik 则称A给定后B和C条件独立。 其中mijk的估计为: nij i k
ˆ mijk ni
高维列联表的独立性
• 与给定A后B和C条件独立类似,可以得到 给定B后A和C条件独立、给定C后A和B条 件独立的期望频数定义。 • 根据三维列联表独立性的三种情况下不同 的期望频数的估计,可以构造出似然比检 验统计量:
高维列联表的优比
• 我们知道,在优比等于1时,这两个属性相互独立 • 所以,对于属性A,B,C相互独立时,不论按哪个属 性分层,各层二维表的优比总等于1; • 对于A与(B,C)相互独立时,按属性A分层后第i层 二维c×t列联表的优比与i无关,故各层B与C的相 合程度相同;无论按B,或C分层,这些二维列联 表上的优比总等于1;由期望频数定义的独立性可 知:
高维列联表的优比
• 期望频数除用来描述列联表的独立性、相 关性外,还可以描述优势比。 • 优比不仅可以用于四格表,还可推广到一 般的二维列联表。 • 可以取二维表的两行两列来构造一个四格 表计算优比,二维表有若干个优比。 • 三维列联表可以按某一属性分层后形成若 干二维列联表再进行优比分析。

高维列联表 pearson和cmh检验法

高维列联表 pearson和cmh检验法

高维列联表 pearson和cmh检验法
高维列联表是指有多个行和多个列的列联表,其中每个单元格中包含了多个分类变量的数据。

在进行高维列联表分析时,需要选择合适的统计方法来检验变量之间的关系。

两种常见的方法是pearson检验法和cmh检验法。

pearson检验法是一种简单的列联表分析方法,它基于卡方统计量来计算各个变量之间的相关性。

该方法适用于二元变量或低维列联表。

当列联表中的变量维度较高时,pearson检验法可能会出现问题,因为其假设了各个变量之间的相关性是线性的。

相比之下,cmh检验法则是一种更为灵活的高维列联表分析方法。

该方法基于卡方分布和自由度来进行分析,可以有效处理高维度和非线性关系的数据。

cmh检验法不仅可以检验各个变量之间的相关性,还可以考虑多个变量同时影响结果的情况。

总的来说,pearson检验法和cmh检验法都是有用的数据分析工具,但它们各自的适用范围有所不同。

在进行高维列联表分析时,需要根据具体情况来选择合适的方法。

- 1 -。

第5章高维列联表

第5章高维列联表
n个个体中属于Ai、Bj、 Ck类的有nijk个,联合 概率为pijk
高维列联表的结构
【例】为了解不同年龄的男性,吸烟与呼吸系统疾病 之间的关系,调查数据见下表:
上表为三维2×2×2列联表。其中,“年龄”为层 属性,“呼吸情况”为行属性,“吸烟情况”为列 属性。
在每一层,都是一个二维列联表。
部分表中的关联性称为条件关联性,即某个属 性给定(被控制)时,另外两个属性之间的关系。
部分表的条件关联性可能和边缘表中的关联性 有较大差异,甚至是自相矛盾(辛普森悖论)。
正是边缘表与部分表分析的条件发生变化,所 以把压缩与分层结合起来分析是完全必要的。
部分表与边缘表
从分层后的两张二维表(部分表)中,根据各 自的卡方值可以看出,
2
nijk
ln
nik n jk nk nijk

2
nijk
ln
nij ni k ni nijk

2
nijk
ln
nijn jk n jnijk

t(r 1)(c 1) r(c 1)(t 1) c(r 1)(t 1)
在年龄<40的部分表中,吸烟情况与呼吸情况是相互独立的; 而在另一个部分表即年龄40~59的二维表中,二者则是相关
联的(或不独立)。
从按年龄合并、压缩后的二维表(边缘表)来 看,吸烟情况与呼吸情况之间是相关联的。
可见,部分表与边缘表关联性不一致,有时甚 至会明显矛盾,完全相反。
部分表与边缘表
如果条件独立性检验都被拒绝时,说明三 种属性之间具有相关关系,需要进一步分 析,以确定是否仅两两相关,还是包括三 次交互效应(称为饱和模型)。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P( BC | A) P( B | A) P(C | A) P( ABC ) P( AB) P( AC ) P( A) P( A) P( A)
高维列联表的独立性
pi jk
• 即
pi

pi j pi
pi k pi
pi jk =
pi j pi
pi k
• 四格表的优比用期望频数定义为:

mi1 j1 mi2 j2 mi1 j2 mi2 j1
,1 i1 i2 r ,1 j1 j2 c
• 其行与列分别是二维r*c列联表的第i1和i2行 与第j1和j2列,mij是期望频数:mij=E(nij) • 对于三维r*c*t列联表,我们按属性A分层, 将它变成r个二维c*t列联表,对第i层二维c*t 列联表计算优比: mij1k1 mij2 k2 ,1 j1 j2 c,1 k1 k2 t mij1k2 mij2 k1
mijk ˆ G 2 ln 2 nijk ln n i 1 j 1 k 1 ijk
r c t 2

高维列联表的相关性
• 在三维列联表中,前面所有的独立性问题讨论完 后,可以进一步分析三个变量之间的相关关系。 • 相关关系有两种情况:
– 一种是饱和模型,表示为(ABC),即期望频数不能分解, 三个属性之间不仅两两存在交互作用,而且三个之间 也有交互作用;其期望频数的估计就是实际频数nijk。 – 另一种是齐次关联模型,表示为(AB,AC,BC),即期望 频数可分解,两两之间存在交互作用,但三个之间没 有交互作用;其期望频数的估计需要使用迭代算法。
高维列联表的优比
• 期望频数除用来描述列联表的独立性、相 关性外,还可以描述优势比。 • 优比不仅可以用于四格表,还可推广到一 般的二维列联表。 • 可以取二维表的两行两列来构造一个四格 表计算优比,二维表有若干个优比。 • 三维列联表可以按某一属性分层后形成若 干二维列联表再进行优比分析。
高维列联表的优比
高维列联表的独立性
• 独立性的定义可以使用概率方式,也可以 采用期望频数来定义。三维列联表独立性 的定义与二维列联表类似。 • 在三维列联表中,令mijk为期望频数,若存 在αi,βj,γk使任意格(ijk)都有: mijk i j k • 则称A、B、C相互独立。 • 其中mijk的估计为: ni n j n k
高维列联表的优比
• 我们知道,在优比等于1时,这两个属性相互独立 • 所以,对于属性A,B,C相互独立时,不论按哪个属 性分层,各层二维表的优比总等于1; • 对于A与(B,C)相互独立时,按属性A分层后第i层 二维c×t列联表的优比与i无关,故各层B与C的相 合程度相同;无论按B,或C分层,这些二维列联 表上的优比总等于1;由期望频数定义的独立性可 知:
1 1 1 1 2 2 2 2 1 1 1 2
(ij1 j1k1ik1 )(ij2 j2k2 ik2 )
2 2
2 1
• 对相关关系的分析,还可以通过对数线性模型和 统计软件进行分析。
高维列联表的相关性
• 对期望频数的迭代估计类似于二维不完备 列联表中的迭代算法。 • 对仅有两两交互作用模型检验的原假设应 为:
mijk ij jkik
• 采用的似然比检验统计量与独立性检验的 统计量完全相同; • 当检验统计量的卡方值较小时,不拒绝原 假设;当卡方值较大时,拒绝原假设。
• • • •
用期望频数定义条件独立性的方法: 若存在ξij,ωik使任意格都有: mijk ijik 则称A给定后B和C条件独立。 其中mijk的估计为: nij i k
ˆ mijk ni
高维列联表的独立性
• 与给定A后B和C条件独立类似,可以得到 给定B后A和C条件独立、给定C后A和B条 件独立的期望频数定义。 • 根据三维列联表独立性的三种情况下不同 的期望频数的估计,可以构造出似然比检 验统计量:
• 对于齐次关联模型,各层二维列联表的优比都与在 第几层没有关系。当以属性A进行分层时,由下式 可证得结论,以B,C进行分层的情形与此类似。
mij1k1 mij2k2 mij1k2 mij2k1
jkj k (ij j k ik )(ij j k ik mij2 k2 mij1k2 mij2 k1

( i j 1 k1 )( i j 2 k2 ) ( i j 1 k2
2 1
j k j )( i j k ) j k j
1 1 1 2
2 k2 2 k1
高维列联表的优比
• 对于A给定后B和C条件独立时,按A分层的 二维列联表上的优比总等于1;且按B分层各 层A与C相合程度相同,按C分层各层A与B相 合程度相同。
ˆ ˆ ˆ ˆ mijk =npi jk npi p j p k n ni n j n k n2 n n n
高维列联表的独立性
• • • • 若存在αi,ηjk使任意格都有: mijk jk i 则称A和(B,C)相互独立。 其中mijk的估计为:m ni jk ˆ ijk n 与A和(B,C)相互独立的情况类似,可以得 到B和(A,C)以及C 和(A ,B)相互独立的期望 频数的定义。 • A给定后,B和C条件独立意味着:
相关文档
最新文档