高考必备——独立性检验-独立性检验

合集下载

高二数学人选择性必修件独立性检验

高二数学人选择性必修件独立性检验
研究某种疾病与某种基因是否 独立,如研究吸烟与肺癌的关
系。
02
社会学领域
研究两个社会现象是否独立, 如研究教育程度与职业选择的
关系。
03
经济学领域
研究两个经济指标是否独立, 如研究通货膨胀率与失业率的
关系。
03
独立性检验方法
卡方检验法
01
02
03
卡方统计量
用于衡量实际观测值与理 论期望值之间的差异,其 值越大,表明差异越显著 。
Spearman等级相关系数
同样用于衡量两个有序分类变量之间的关联程度,与Kendall's tau-b类似,但计算方 法略有不同。
04
数据处理与结果分析
数据收集与整理
数据来源
明确数据的来源,确保数据的真实性 和可靠性。
数据整理
将数据按照一定的格式进行整理,便 于后续的计算和分析。
数据筛选
根据研究目的,筛选与研究问题相关 的数据。
将计算得到的统计量与临界值进 行比较,判断假设是否成立。
意义探讨
根据假设检验的结果,探讨数据背 后的实际意义,如两个变量之间是 否存在关联等。
注意事项
在讨论结果时,需要注意结果的可 靠性、可重复性以及可能存在的误 差来源。
05
实际应用案例解析
医学领域案例:疾病与基因关系研究
01
研究目的
探究某种疾病与特定基因之间 的关联程度。
02
数据收集
收集患者的基因数据和疾病信 息。
03
独立性检验
通过卡方检验等方法,判断疾 病与基因之间是否存在统计学
上的独立性。
04
结果解读
若检验结果拒绝原假设,则认 为疾病与基因之间存在关联, 这为疾病的预防、诊断和治疗

高三独立性检验知识点总结

高三独立性检验知识点总结

高三独立性检验知识点总结高三是每个学生都将经历的重要时刻,而对于理科生来说,数学是其中最关键的一门学科。

而在数学中,统计学更是高中数学中的重要组成部分。

在统计学中,独立性检验是一个非常重要的概念和方法,它用于判断两个变量之间是否存在相关性。

本文将对高三独立性检验的相关知识点进行总结。

首先,我们需要了解什么是独立性检验。

独立性检验是用于检验两个变量之间是否存在相关性的一种统计方法。

在进行独立性检验时,我们通常有两个变量,一个为自变量,另一个为因变量。

我们的目标是通过样本数据来判断自变量与因变量之间是否存在相关性。

如果两个变量之间存在相关性,我们可以得出结论说它们之间不是独立的;如果两个变量之间没有相关性,我们可以得出结论说它们之间是独立的。

在独立性检验中,我们常用的方法是卡方检验。

卡方检验是一种常用的统计方法,用于判断两个变量之间是否存在相关性。

在进行卡方检验时,我们通常会建立一个观察值和期望值的对比表格。

观察值是通过实际的样本数据得出的,而期望值则是通过某种假设或模型推算出来的。

通过比较观察值和期望值的差异,我们可以判断两个变量之间是否存在相关性。

独立性检验的核心思想是通过计算观察值和期望值的差异,并根据差异的显著性来判断两个变量之间的关系是否存在。

在卡方检验中,我们通常要计算一个统计量,称为卡方值。

卡方值越大,说明观察值和期望值的差异越大,从而说明两个变量之间的相关性越强。

而卡方值的显著性则需要进行假设检验,通常使用显著性水平来进行判断。

如果卡方值小于显著性水平,则我们可以得出结论说两个变量之间不存在相关性;如果卡方值大于显著性水平,则我们可以得出结论说两个变量之间存在相关性。

在进行独立性检验时,我们还需要注意一些常见的误区和注意事项。

首先,样本容量要足够大。

只有样本容量足够大时,我们才能够得到可靠的统计推断。

其次,变量的取值要具有一定的多样性。

如果变量的取值过于集中,样本数据的信息就会不足,从而影响独立性检验的结果。

追踪考题 晒晒考点一独立性检验高考考点题型例析

追踪考题 晒晒考点一独立性检验高考考点题型例析

iiS€题晒晒看蛊一独立牲枪验高看看蛊题型例祈■江苏省盐城市时杨中学刘长柏随着新高考的不断深入,独立性检验及其综合应用也进入了高考命题者的视野。

独立性检验是考查两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度的一种重要的统计方法。

利用独立性检验,能够帮助同学们对日常生活中的实际问题作出合理的推断和预测。

因此,大家在学习中通过对统计案例的分析,理解和掌握独立性检验的方法,体会独立性检验的基本思想在解决实际问题中的应用,以提高大家处理实际问题的能力。

独立性检验既会单独考查一个知识点,也会与概率、随机变量的分布列与期望等交汇考查,这也为我们的学习及高考备考鸣响了警钟——不可忽视独立性检验综合应用题。

下面借助于考题举例说明。

亶接考査独立性检验侧/【2021年南京市、盐城市高三年级第一次模拟考试】某词汇研究机构为对某城市人们使用流行语的情况进行调査,随机抽取了200人进行调查统计,得下方的2X2列联表(表1)。

则根据列联表可知(表2P(K2>k)0.150.100.050.0250.0100.0050.001 k 2.072 2.706 3.841 5.024 6.6357.87910.828解析:K?200X(125X15—25X35严160X40X150X504.167>3,841,所以有95%的把握认为“经常用流行用语”与“年轻人”有关系,选A。

点评:本题主要考查了独殳性检验的直接应用,要想解答独立性检验问题应做好两方面:一是准确解读2X2列联表,落实表中相关数据;二是正确利用公式求出K2的观测值,并与临界值比较。

练习1:【2020年四川省绵阳南山中学高三一模】为调查某地区被隔离者是否需要社区非医护人员提供帮助,用简单随机抽样方法从该地区调査了500位被隔离者,结果如下:表3性别是否轟男女需要4030不需要160270表1年轻人非年轻人总计经常用流行用语12525150不常用流行用语351550总计16040200表4PU。

高考数学概率统计知识点总结(文理通用)

高考数学概率统计知识点总结(文理通用)

概率与统计知识点及专练(一)统计基础知识:1. 随机抽样:(1).简单随机抽样:设一个总体的个数为N ,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.常用抽签法和随机数表法.(2).系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样).(3).分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样.2. 普通的众数、平均数、中位数及方差: (1).众数:一组数据中,出现次数最多的数(2).平均数:常规平均数:12nx x x x n ++⋅⋅⋅+=(3).中位数:从大到小或者从小到大排列,最中间或最中间两个数的平均数(4).方差:2222121[()()()]n s x x x x x x n =-+-+⋅⋅⋅+-(5).标准差:s3 .频率直方分布图中的频率:(1).频率 =小长方形面积:f S y d ==⨯距;频率=频数/总数; 频数=总数*频率(2).频率之和等于1:121n f f f ++⋅⋅⋅+=;即面积之和为1: 121n S S S ++⋅⋅⋅+=4. 频率直方分布图下的众数、平均数、中位数及方差: (1).众数:最高小矩形底边的中点(2).平均数:112233n n x x f x f x f x f =+++⋅⋅⋅+ 112233n n x x S x S x S x S =+++⋅⋅⋅+(3).中位数:从左到右或者从右到左累加,面积等于0.5时x 的值(4).方差:22221122()()()nn s x x f x x f x x f =-+-+⋅⋅⋅+-5.线性回归直线方程:(1).公式:ˆˆˆy bx a=+其中:1122211()()ˆ()n ni i i ii in ni ii ix x y y x y nxybx x x nx====---∑∑==--∑∑(展开)ˆˆa y bx=-(2).线性回归直线方程必过样本中心(,) x y(3).ˆ0:b>正相关;ˆ0:b<负相关(4).线性回归直线方程:ˆˆˆy bx a=+的斜率ˆb中,两个公式中分子、分母对应也相等;中间可以推导得到6. 回归分析:(1).残差:ˆˆi i ie y y=-(残差=真实值—预报值)分析:ˆie越小越好(2).残差平方和:2 1ˆ() ni iiy y =-∑分析:①意义:越小越好;②计算:222211221ˆˆˆˆ()()()() ni i n niy y y y y y y y =-=-+-+⋅⋅⋅+-∑(3).拟合度(相关指数):2 2121ˆ()1()ni iiniiy y Ry y==-∑=--∑分析:①.(]20,1R∈的常数;②.越大拟合度越高(4).相关系数:()()n ni i i ix x y y x y nx y r---⋅∑∑==分析:①.[1,1]r∈-的常数;②.0:r>正相关;0:r<负相关③.[0,0.25]r∈;相关性很弱;(0.25,0.75)r∈;相关性一般;[0.75,1]r∈;相关性很强7. 独立性检验:(1).2×2列联表(卡方图): (2).独立性检验公式①.22()()()()()n ad bc k a b c d a c b d -=++++②.上界P 对照表:(3).独立性检验步骤:①.计算观察值k :2()()()()()n ad bc k a b c d a c b d -=++++ ②.查找临界值0k :由犯错误概率P ,根据上表查找临界值0k③.下结论:0k k ≥即认为有P 的没把握、有1-P 以上的有把握认为两个量相关;0k k <:即认为没有1-P 以上的把握认为两个量是相关关系。

独立性检验—高考真题

独立性检验—高考真题

独立性检验—高考真题一、解答题二、解答题1.一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g ).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.132.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2试验组的小白鼠体重的增加量从小到大排序为7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.219.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5(1)计算试验组的样本平均数;(2)(ⅰ)求40只小白鼠体重的增加量的中位数m ,再分别统计两样本中小于m 与不小于m 的数据的个数,完成如下列联表m <m≥对照组试验组(ⅱ)根据(i )中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:()()()()22()n ad bc K a b c d a c b d -=++++,()2P K k ≥0.1000.0500.010k2.7063.841 6.6352.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++()2P K k≥0.0500.0100.001k 3.841 6.63510.8283.某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级[0,200](200,400](400,600]1(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好空气质量不好附:22()()()()()n ad bcKa b c d a c b d-=++++,P(K2≥k)0.0500.010 0.001k 3.841 6.63510.8284.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++.P(K2≥k)0.0500.0100.001k 3.841 6.63510.8285.为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:是否需要志愿性别男女需要4030不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提供更好的调查方法来估计该地区老年人,需要志愿帮助的老年人的比例?说明理由附:P(2K k ≥)0.0500.0100.001k 3.841 6.63510.828()()()()()22n ad bc K a b c d a c b d -=++++6.甲、乙两城之间的长途客车均由A 和B 两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A 24020B 21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,()2P K k 0.1000.0500.010k2.7063.841 6.635参考答案:1.(1)19.8(2)(i)23.4m=;列联表见解析,(ii)能【分析】(1)直接根据均值定义求解;(2)(i)根据中位数的定义即可求得23.4m=,从而求得列联表;(ii)利用独立性检验的卡方计算进行检验,即可得解.【详解】(1)试验组样本平均数为:1(7.89.211.412.413.215.516.518.018.819.219.820.220+++++++++++39621.622.823.623.925.128.232.336.5)19.820++++++++==(2)(i)依题意,可知这40只小鼠体重的中位数是将两组数据合在一起,从小到大排后第20位与第21位数据的平均数,由原数据可得第11位数据为18.8,后续依次为19.2,19.8,20.2,20.2,21.3,21.6,22.5,22.8,23.2,23.6, ,故第20位为23.2,第21位数据为23.6,所以23.223.623.42m+==,故列联表为:m<m≥合计对照组61420试验组14620合计202040(ii)由(i)可得,2240(661414)6.400 3.84120202020K⨯⨯-⨯==>⨯⨯⨯,所以能有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异. 2.(1)75%;60%;(2)能.【分析】根据给出公式计算即可【详解】(1)甲机床生产的产品中的一级品的频率为15075%200=,乙机床生产的产品中的一级品的频率为12060%200=.(2)()22400150801205040010 6.63527013020020039K ⨯-⨯==>>⨯⨯⨯,故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.3.(1)该市一天的空气质量等级分别为1、2、3、4的概率分别为0.43、0.27、0.21、0.09;(2)350;(3)有,理由见解析.【分析】(1)根据频数分布表可计算出该市一天的空气质量等级分别为1、2、3、4的概率;(2)利用每组的中点值乘以频数,相加后除以100可得结果;(3)根据表格中的数据完善22⨯列联表,计算出2K 的观测值,再结合临界值表可得结论.【详解】(1)由频数分布表可知,该市一天的空气质量等级为1的概率为216250.43100++=,等级为2的概率为510120.27100++=,等级为3的概率为6780.21100++=,等级为4的概率为7200.09100++=;(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100203003550045350100⨯+⨯+⨯=(3)22⨯列联表如下:人次400≤人次400>空气质量好3337空气质量不好228()221003383722 5.820 3.84155457030K ⨯⨯-⨯=≈>⨯⨯⨯,因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.【点睛】本题考查利用频数分布表计算频率和平均数,同时也考查了独立性检验的应用,考查数据处理能力,属于基础题.4.(1)43 ,55;(2)能有95%的把握认为男、女顾客对该商场服务的评价有差异.【分析】(1)从题中所给的22⨯列联表中读出相关的数据,利用满意的人数除以总的人数,分别算出相应的频率,即估计得出的概率值;(2)利用公式求得观测值与临界值比较,得到能有95%的把握认为男、女顾客对该商场服务的评价有差异.【详解】(1)由题中表格可知,50名男顾客对商场服务满意的有40人,所以男顾客对商场服务满意率估计为1404 505P==, 50名女顾客对商场满意的有30人,所以女顾客对商场服务满意率估计为2303 505P==,(2)由列联表可知22100(40203010)1004.762 3.8417030505021K⨯-⨯==≈>⨯⨯⨯,所以能有95%的把握认为男、女顾客对该商场服务的评价有差异.【点睛】该题考查的是有关概率与统计的知识,涉及到的知识点有利用频率来估计概率,利用列联表计算2K的值,独立性检验,属于简单题目.5.(1)7014%500=,(2)有99%的把握(3)见解析【详解】(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为7014% 500=(2)22500(4027030160)9.96720030070430K⨯⨯-⨯==⨯⨯⨯.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.6.(1)A,B两家公司长途客车准点的概率分别为1213,78(2)有【分析】(1)根据表格中数据以及古典概型的概率公式可求得结果;(2)根据表格中数据及公式计算2K ,再利用临界值表比较即可得结论.【详解】(1)根据表中数据,A 共有班次260次,准点班次有240次,设A 家公司长途客车准点事件为M ,则24012()26013==P M ;B 共有班次240次,准点班次有210次,设B 家公司长途客车准点事件为N ,则210()27840==P N .A 家公司长途客车准点的概率为1213;B 家公司长途客车准点的概率为78.(2)列联表准点班次数未准点班次数合计A24020260B21030240合计4505050022()()()()()n ad bc K a b c d a c b d -=++++=2500(2403021020) 3.205 2.70626024045050⨯⨯-⨯≈>⨯⨯⨯,根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.。

高考数学一轮复习列联表与独立性检验

高考数学一轮复习列联表与独立性检验

.
(+)(+)(+)(+)
α
0.100
0.050
0.010

2.706
3.841
6.635
目录
解 (2)零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无
关,列联表如下表所示:
公司
班次是否准点
合计
准点班次数
未准点班次数
A
240
20
260
B
210
30
240
合计
450
50
的把握说变量X,Y有关系(填百分数).

解析:因为χ2≈4.328>3.841=x0.05,所以在犯错误的概率不超过0.05的前提下
认为变量X,Y有关系.所以最大有95%的把握说变量X,Y有关系.
答案:95%
目录
02
目录

分类变量与列联表
1.(多选)根据如图所示的等高堆积条形图,下列叙述正确的是
据中没有发现足够的证据支持结论“X与Y有关系”.
目录

某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3
000人,计算得χ2=6.023,则市政府断言市民收入增减与旅游愿望有关系的可
信程度是(
A.90%

B.95%
C.99%
D.99.5%
解析:B 由临界值表,得6.023>3.841=x0.05,所以可断言市民收入增减与旅
(2)根据公式χ2=
(− )2
计算;
(+)(+)(+)(+)
(3)比较χ2与临界值的大小关系,作统计推断.
目录

《独立性检验》

《独立性检验》

《独立性检验》一、内容与内容解析《独立性检验》为新课标教材中新增加的内容. 虽然本节是新增内容,理论比较复杂,教学时间也不长(1-2课时),但由于它贴近实际生活,在整个高中数学中,地位不可小视.在近几年各省新课标高考试题中,本节内容屡屡出现,而且多以解答题的形式呈现,其重要性可见一斑.该内容是前面学生在《数学3》(必修)中的统计知识的进一步应用,并与本册课本前面提到的事件的独立性一节关系紧密,此外还涉及到与《数学2-2》(选修)中讲到的“反证法”类似的思想.本小节的知识内容如右图。

“独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的,因此教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即借助等高条形图的方法,随后引出相对更精确地解决办法——独立性检验。

独立性检验的思想,建立在统计思想、假设检验思想(小概率事件在一次试验中几乎不可能发生)等基础之上,通常按照如下步骤对数据进行处理:明确问题→确定犯错误概率的上界α及2K 的临界值0k →收集数据→整理数据→制列联表→计算统计量2K 的观测值k →比较观测值k 与临界值0k 并给出结论.本节的重点内容是通过实例让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤.二、目标与目标解析本节课的教学目标是主要有:1.理解分类变量(也称属性变量或定性变量)的含义,体会两个分类变量之间可能具有相关性;2.通过对典型案例(吸烟和患肺癌有关吗?)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法、步骤及应用。

3.鼓励学生体验用多种方法(等高条形图法与独立性检验法)解决同一问题,并对各种方法进行比较。

4.让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性(如统计可能犯错误,原因可能是收集的数据样本容量小或样本采集不合理,也可能是理论上的漏洞,如在一次实验中,我们假设小概率事件不发生,这一点本身就值得质疑). 其中第2条是重点目标,也是《课程标准》中明确指出的教学要求之一. 三、教学问题诊断分析基于对学生已有数学水平的分析,在本节新学内容时,有以下几点是初学者不易理解或掌握的:1.2K 的结构比较奇怪,来的也比较突然,学生可能会提出疑问.关于这个问题的处理,要首先利用好前面对“比例”或者两个分类变量“独立”的分析。

高考数学一轮复习专题04 独立性检验(解析版)

高考数学一轮复习专题04 独立性检验(解析版)

概率与统计 专题四:独立性检验一、知识储备 1.22⨯列联表设X ,Y 为两个变量,它们的取值分别为12{}x x ,和12{}y y ,,其样本频数列联表(22⨯列联表)如下:2.独立性检验利用随机变量2K (也可表示为2χ)2()()()()()n ad bc a b c d a c b d -=++++(其中n a b c d =+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验. 3.独立性检验的一般步骤(1)根据样本数据列出22⨯列联表;(2)计算随机变量2K 的观测值k ,查下表确定临界值k 0:(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()20P K k ≥;否则,就认为在犯错误的概率不超过()20P K k ≥的前提下不能推断“X 与Y 有关系”.【注意】(1)通常认为 2.706k ≤时,样本数据就没有充分的证据显示“X 与Y 有关系”.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.二、例题讲解1.(2022·榆林市第十中学高三月考(文))随着经济的发展,人们的生活水平显著提高,健康意识不断增强,健康管理理念深入人心,人们参加体育锻炼的次数与时间在逐渐增加.某校一个课外学习小组为研究居民参加体育锻炼的时长(时长不超过60分钟)是否与性别有关,对某小区居民进行调查,并随机抽取了100名居民的调查结果,其中男性有55人,根据调查结果绘制了居民日均锻炼时间的频率分布直方图如下:(1)求样本中居民日均锻炼时间的中位数;(2)将日均锻炼时间不低于40分钟的居民称为“健生达人”(健康生活达人),已知样本中“健生达人”中有10名女性,根据已知条件完成下面22⨯列联表,并据此资料判断是否有95%的把握认为“健生达人”与性别有关.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.【答案】(1)32.8分钟;(2)表格见解析,没有95%的把握认为“健生达人”与性别有关. 【分析】(1)根据中位数的定义求样本中居民日均锻炼时间的中位数;(2)分析数据,完成列联表,计算2K ,通过比较其与临界值的大小,确定是否接受假设. 【详解】解:本题考查独立性检验.(1)由频率分布直方图知日均锻炼时间在[)0,30对应的频率为0.050.180.20.43++=,则中位数位于[)30,40,且中位数为0.500.43301032.80.25-+⨯=(分钟)(2)由频率分布直方图可知在抽取的100人中,“健生达人”有32人,从而22⨯列联表如下:得()210033103522 3.595 3.84155456832K ⨯-⨯=≈<⨯⨯⨯,所以没有95%的把握认为“健生达人”与性别有关2.(2022·江苏南京市·高三开学考试)科研小组为提高某种水果的果径,设计了一套实验方案,并在两片果园中进行对比实验.其中实验园采用实验方案,对照园未采用.实验周期结束后,分别在两片果园中各随机选取100个果实,按果径分成5组进行统计:[)21,26,[)26,31,[)31,36,[)36,41,[]41,46(单位:mm ).统计后分别制成如下的频率分布直方图,并规定果径达到36mm 及以上的为“大果”.(1)请根据题中信息完成下面的列联表,并判断是否有99.9%的把握认为“大果”与“采用实验方案”有关;(2)根据长期种植经验,可以认为对照园中的果径X 服从正态分布()2,N μσ,其中μ近似为样本平均数x ,5.5σ≈,请估计对照园中果径落在区间()39,50内的概率.(同一组中的数据以这组数据所在区间中点的值作代表)附:①()()()()()22n ad bc K a b c d a c b d -=++++;②若X 服从正态分布()2,N μσ,则()0.683P X μσμσ-<<+=,()220.954P X μσμσ-<<+=,()330.997P X μσμσ-<<+=.【答案】(1)列联表见解析,有99.9%的把握认为两者有关;(2)0.157. 【分析】(1)根据频率分布直方图分别求出采用实验方案大果和非大果数量及未采用实验方案大果和非大果数量,从而可得出列联表,再根据公式求出2K ,对照临界值表即可得出结论;(2)求出样本平均数x ,再根据正态分布的性质即可得出答案. 【详解】解:(1)由频率分布直方图可得:采用实验方案大果的数量为()50.1100.01010060⨯+⨯=个, 则非大果数量为1006040-=个,未采用实验方案大果的数量为()50.0400.02010030⨯+⨯=个, 则非大果数量为1003070-=个, 列联表如下:22006070304020010.8281001009011011K ⨯-⨯==⨯⨯⨯>,所以有99.9%的把握认为两者有关; (2)由题中数据,23.50.128.50.233.50.438.50.243.50.133.5x =⨯+⨯+⨯+⨯+⨯=, 则33.5μ=,则()()0.9970.683395030.157P X P X μσμσ-=++==<<<<.三、实战练习1.(2022·定远县育才学校高三开学考试(文))微信是腾讯公司推出的一种手机通信软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人.为了调查微信用户每天使用微信的时间,某经销化妆品的店家在一广场随机采访男性、女性用户各50名,将男性、女性平均每天使用微信的时间(单位:h )分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.(1)根据频率分布直方图估计女性平均每天使用微信的时间;(2)若每天玩微信超过4h 的用户称为“微信控”,否则称为“非微信控”,判断是否有90%的把握认为“微信控”与性别有关. 附表:(参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)【答案】(1)4.76()h ;(2)有90%的把握认为“微信控”与性别有关. 【分析】(1)用每个小矩形的面积乘以对应小矩形底边的中点,然后求和即可得到答案;(2)先通过频率分布直方图面积为1求出a ,进而根据参考公式求出K 2,然后将数据进行对比即可得到答案. 【详解】(1)由女性的频率分布直方图,可知女性用户平均每天使用微信的时间为0.1610.2430.2850.2070.129 4.76()h ⨯+⨯+⨯+⨯+⨯=.(2)由男性的频率分布直方图,可得2(0.040.1420.12)1a +++⨯=,解得0.08a =.由两个频率分布直方图,可得22⨯列联表如下:2K的观测值2100(38203012)2.941 2.70650506832k⨯⨯-⨯=≈>⨯⨯⨯,所以有90%的把握认为“微信控”与性别有关.2.(2022·河北唐山·高三开学考试)数字人民币是由央行发行的法定数字货币,它由指定运营机构参与运营并向公众兑换,与纸钞和硬币等价.截至2022年6月30日,数字人民币试点场景已超132万个,覆盖生活缴费、餐饮服务、交通出行、购物消费、政务服务等领域.为了进一步了解普通大众对数字人民币的感知以及接受情况,某机构进行了-次问卷调查,部分结果如下:(1)如果将高中及高中以下的学历称为“低学历”,大学专科及以上学历称为“高学历”,根据所给数据,完成下面的22⨯列联表;(2)若从低学历的被调查者中,按对数字人民币的了解程度用分层抽样的方法抽取8人,然后从这8人中抽取2人进行进一步调查,求被选中的2人中至少有1人对数字人民币不了解的概率;(3)根据列联表,判断是否有95%的把握认为“是否了解数字人民币”与“学历高低”有关? 附:()()()()()22n ad bc K a b c d a c b d -=++++【答案】(1)列联表答案见解析;(2)914;(3)没有95%的把握认为“是否了解数字人民币”与“学历高低”有关. 【分析】(1)根据题中所给数据完成22⨯列联表即可;(2)根据分层抽样分别求出不了解数字人民币和了解数字人民币的人数,再根据古典概型公式即可得解; (3)根据公式求出2K ,在参照临界值表即可得出结论. 【详解】解:(1)22⨯列联表如下:(2)从低学历被调查者中按对数字人民币的了解程度用分层抽样的方法抽取8人,抽取的8人中,不了解数字人民币的有81503400⨯=人, 了解数字人民币的有82505400⨯=人, 从这8人中抽取2人进行进一步调查,求被选中的2人中至少有1人对数字人民币不了解的概率2528C 91C 14P =-=.(3)根据列联表得()22800125250150275800 3.463 3.841275525400400231K ⨯⨯-⨯==≈<⨯⨯⨯.故没有95%的把握认为“是否了解数字人民币”与“学历高低”有关.3.(2022·广东实验中学高三月考)在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队统计了某地区1000名患者的相关信息,得到如下表格:(1)求这1000名患者的潜伏期的样本平均值x (同一组中的数据用该组区间的中点值作代表); (2)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过6天为标准进行分层抽样,从上述1000名患者中抽取200人,得到如下列联表请将列联表补充完整,并根据列联表判断是否有95%的把捏认为潜伏期与息者年龄有关;(3)以这1000名患者的潜伏期超过6天的频率,代替该地区1名患者潜伏期超过6天发生的概率,每名患者的潜伏期是否超过6天相互独立.为了深入研究,该研究团队随机调查了20名患者,其中潜伏期超过6天的人数最有可能(即概率最大)...........是多少? 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)5.4天;(2)列联表见解析,没有95%的把捏认为潜伏期与息者年龄有关.(3)潜伏期超过6天最有可能....是8人.【分析】(1)根据频率直方表求平均值即可.(2)由题设写出列联表,根据卡方检验公式计算卡方值,比照参考值即可知是否有95%的把捏认为潜伏期与息者年龄有关;(3)由题意知潜伏期超过6天的人数2(20,)5X B ,则202032()()()55k k kP X k C -==,应用不等法求最大概率时的k 值即可. 【详解】(1)10.08530.20550.3170.2590.13110.015130.005x =⨯+⨯+⨯+⨯+⨯+⨯+⨯ 5.4=天.(2)由题设知:[0,6]的频率为0.6,(6,14]的频率为0.4,故200人中潜伏期在[0,6]上有120人,在(6,14]上有80人. 列联表如下:∴22200(65453555) 2.083 3.84110010012080K ⨯⨯-⨯=≈<⨯⨯⨯,故没有95%的把捏认为潜伏期与息者年龄有关.(3)由患者潜伏期超过6天发生的概率400210005=, 设潜伏期超过6天的人数为X ,则2(20,)5XB ,∴202032()()()55k k kP X k C -==且020k ≤≤,*k N ∈,由题意,()(1)()(1)P X k P X k P X k P X k =≥=+⎧⎨=≥=-⎩,即2019112020202111202032325555{32325555k k k k k k k k k k k k C C C C --++----⎛⎫⎛⎫⎛⎫⎛⎫≥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎛⎫⎛⎫⎛⎫⎛⎫≥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭,化简得3(1)2(20)2(21)3k k k k +≥-⎧⎨-≥⎩,解得374255k ≤≤, ∴8k ,即潜伏期超过6天最有可能....是8人. 4.(2022·黑龙江高三其他模拟(文))据有关部门统计,2021年本科生的平均签约薪酬为每月4300元.2021年某高校毕业生就业指导中心为了分析本校本科毕业生的专业课成绩优秀与否与本科毕业生就业后获得薪酬的关系,随机调查了从学校毕业的200名本科毕业学进行研究.研究结果表明:在专业课成绩优秀的120名本科毕业生中有90人每月工资超过人民币4300元,另30人每月工资低于人民币4300元;在专业课成绩不优秀的80名本科毕业生中有20人每月工资超过人民币4300元,另60人每月工资低于人民币4300元. (1)试根据上述数据完成22⨯列联表;(2)能否在犯错误的概率不超过0.001的前提下认为“该高校本科毕业生的专业课成绩优秀”与“每月工资超过当年本科生的平均签约薪酬”有关系?参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【答案】(1)列联表见解析;(2)能. 【分析】(1)根据题目已知数据完成22⨯列联表;(2)计算2K,根据临界值表判断即可【详解】(1)22⨯列联表如下:(2)因为()22009060302016004810.828 120801109033K⨯⨯-⨯==>>⨯⨯⨯.所以能在犯错误的概率不超过0.001的前提下认为“该校毕业生的专业课成绩优秀”与“每月工资超过当年本科生的平均签约薪酬”有关系.【点睛】方法点睛:本题考查22⨯联表判断相关性,独立性检验的一般步骤:第一步,提出假设0H:两个分类变量A和B没有关系;第二步,根据22⨯列联表和公式计算2K统计量;第三步,查对课本中临界值表,作出判断。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.82
P( K 2 k0 )
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
例 1:研究吸烟与患肺癌的关系. 1.确定研究对象:吸烟与患肺癌的关系. 2.采集数据——列联表: 不患肺癌 不吸烟 吸烟 总计 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
不吸烟不患肺癌 吸烟不患肺癌 a c .即“ ” ab cd 不吸烟总数 吸烟总数
得 ad bc 0 ,所以 | ad bc | 越小,说明吸烟与患肺癌关系越弱,反之越强. (2)构造随机变量 K 2
n(ad bc) 2 (其中 n a b c d ) (a b)(c d )(a c)(b d )
2 2
0.15 2.072
0.10 2.706
0.05 3.841
0.025 5.024
0.010 6.635
0.005 7.879
0.001 10.828
,其中 n=a+b+c+d)
5.某校在规划课程设置方案的调研中, 随机抽取 160 名理科学生, 想调查男生、 女生对 “坐标系与参数方程” 与“不等式选讲”这两道题的选择倾向性,调研中发现选择“坐标系与参数方程”的男生人数与选择“不等 式选讲”的总人数相等,且选择“坐标系与参数方程”的女生人数比选择“不等式选讲”的女生人数多 25 人,根据调研情况制成如下图所示的列联表: 选择坐标系与参数方程 男生 女生 合计 160 60 选择不等式选讲 合计
高考必备——独立性检验
1.随机变量: K 2
n(ad bc) 2 , P( K 2 6.635 ) 0.010(小概率事件) (a b)(c d )(a c)(b d )
2.独立性检验:运用统计分析的方法确定分类变量的关系. (1)要判断“两个分类变量有关系” ; (2)假设结论不成立,即“ H 0 :两个分类变量没有关系” ; (3)确定一个判断规则的临界值 k0 :当 K 2 k0 时,认为“两个分类变量有关系” ,否则认为“两个分类 变量没有关系” ; ( k0 是根据允许误判概率的上限来确定的) (4)按照上述规则,误判概率为 P( K 2 k0 ) .
2
(3)科学研究表明: P( K 2 6.635 ) 0.010. 即“当 K 6.635时,事件发生的概率为 0.010(小概率 事件——几乎不可能发生) ” (4)根据所采集的数据算得:在 H 0 成立的情况下, K 56.632,远远大于 6.635,所以我们断定 H 0 不
2
2
女 20 30 50
合计 60 50 110
40 20 60 算得,
a+b
n ad-bc 2 c+d a+c
2
b+d
χ2=
110
40×30-20×20 60×50×60×50
≈7.8. 0.050 3.841 0.010 6.635 0.001 10.828
P(χ2≥x0) x0源自参照附表,得到如下说法,其中正确的是________. ①再犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别有关” ; ②再犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别无关” ; ③有 99%以上的把握认为“爱好该项运动与性别有关” ;
(Ⅰ)完成列联表,并判断在犯错误的概率不超过 0.025 的前提下,能否认为选题与性 别有关. (Ⅱ)按照分层抽样的方法,从选择“坐标系与参数方程”与选择“不等式选讲”的学生中 共抽取 8 人进行问卷.若从这 8 人中任选 3 人,记选择“坐标系与参数方程”与选择“不等式选讲”的人数 的差为 ,求 的分布列及数学期望 E . 附: K 2
④有 99%以上的把握认为“爱好该项运动与性别无关” . 4.近年来我国电子商务行业迎来发展的新机遇.2016 年双 11 期间,某购物平台的销售业绩高达 918 亿人民 币.与此同时,相关管理部门推出了针对电商的商品和服务的评价体系.现从评价系统中选出 200 次成功 交易,并对其评价进行统计,对商品的好评率为 0.6,对服务的好评率为 0.75,其中对商品和服务都作出 好评的交易为 80 次. (1)能否在犯错误的概率不超过 0.001 的前提下,认为商品好评与服务好评有关? (2) 若将频率视作概率, 某人在该购物平台上进行 5 次购物中, 设对商品和服务全好评次数为随机变量 X: ①求对商品和服务全为好评的次数 X 的分布列(概率用组合数算式表示) ; ②求 X 的数学期望和方程. P(K ≥k) k (K =
D.a=30,c=30
2.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有 99%以上的把握认为这个结论是成立的,下列说法中正确的是________. ①100 个吸烟者中至少有 99 人患有肺癌; ②1 个人吸烟,那么这个人有 99%的概率患有肺癌; ③在 100 个吸烟者中一定有患肺癌的人; ④在 100 个吸烟者中可能一个患肺癌的人也没有. 3.通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如下的列联表: 男 爱好 不爱好 合计 由χ =
成立,即“吸烟与患肺癌有关系”.误判概率不超过 P( K 2 6.635 ) 0.010.
【巩固训练】 1.假设有两个分类变量 X 和 Y 的 2×2 列联表: Y X x1 x2 总计 a c 60 10 30 40 ) a+10 c+30 100 y1 y2 总计
对同一样本,以下数据能说明 X 与 Y 有关系的可能性最大的一组为( A.a=45,c=15 B.a=40,c=20 C.a=35,c=25
(1)由列联表可直观的了解:吸烟群体和不吸烟群体患肺癌的可能性存在差异.. 3.独立性检验: (类似于反证法) (1)假设 H 0 :吸烟与患肺癌没有关系. 把表中数据用字母代替,得 不患肺癌 不吸烟 吸烟 患肺癌 总计
a c
b
d
ab
cd
总计
ac
bd
abcd
若“吸烟与患肺癌没有关系” ,则
相关文档
最新文档