16-17版 专题限时集训 第1部分 专题3 突破点8 回归分析、独立性检验汇总

合集下载

回归分析及独立性检验的基本知识点及习题集锦

回归分析及独立性检验的基本知识点及习题集锦

回归分析的基本知识点及习题本周题目:回归分析的基本思想及其初步应用本周重点:(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。

本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;本周内容:一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。

求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。

建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。

4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。

可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。

高考数学第1部分 重点强化专题 专题3 突破点8 独立性检验与回归分析

高考数学第1部分 重点强化专题 专题3 突破点8 独立性检验与回归分析
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
[变式训练1]二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:
使用年数x
2
3
4
5
6
7
售价y
[高考真题回访]
回访1变量的相关性
1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()
图8 1
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
D[对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]

高考数学(理)二轮复习练习:专题限时集训7 回归分析、独立性检验 Word版含答案

高考数学(理)二轮复习练习:专题限时集训7 回归分析、独立性检验 Word版含答案

专题限时集训(七) 回归分析、独立性检验(对应学生用书第91页)(限时:40分钟)1.(2017·石家庄一模)下列说法错误的是( )【导学号:07804050】A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^就增加0.2个单位C [根据相关定义知选项A ,B ,D 均正确;选项C 中,对分类变量X 与Y ,随机变量K 2的观测值k 越大,对判断“X 与Y 有关系”的把握程度越大,故C 错误.选C.]2.(2017·湖南名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为C .99.5%D .95%D [由图表中数据可得,当k >3.841时,有0.05的几率说明这两个变量之间的关系是不可信的,即有1-0.05=0.95的几率,也就是有95%的把握认为变量之间有关系,故选D.] 3.(2017·湖北七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):由上表可得回归方程为y ^=10.2x +a ^,据此模型,预测广告费为10万元时销售额约为( )【导学号:07804051】A .101.2万元B .108.8万元C .111.2万元D .118.2万元C [根据统计数据表,可得x =15×(2+3+4+5+6)=4,y =15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^=9.2,∴回归方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C.] 4.(2017·佛山二模)现行普通高中学生在高一升高二时面临着选文理科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如图7­7所示的两个等高堆积条形图.图7­7根据这两幅图中的信息,下列哪个统计结论是不正确的( ) A .样本中的女生数量多于男生数量B .样本中有理科意愿的学生数量多于有文科意愿的学生数量C .样本中的男生偏爱理科D .样本中的女生偏爱文科D [由图2知,样本中的女生数量多于男生数量,样本中的男生、女生均偏爱理科;由图1知,样本中有理科意愿的学生数量多于有文科意愿的学生数量,故选D.]5.(2016·汕头模拟)对四组不同数据进行统计,分别获得以下散点图,如果对它们的相关系数进行比较,下列结论中正确的是( )图7­8(1)图7­8(2)图7­8(3)图7­8(4)A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由给出的四组数据的散点图可以看出,图(1)和图(3)是正相关,相关系数大于0,图(2)和图(4)是负相关,相关系数小于0,图(1)和图(2)的点相对更加集中,所以相关性要强,所有r 1接近于1,r 2接近于-1,由此可得r 2<r 4<r 3<r 1.故选A.]6.(2017·南昌一模)设某中学的高中女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kgD .若该中学某高中女生身高为160 cm ,则可断定其体重必为50.29 kgD [因为回归直线方程y ^=0.85x -85.71中x 的系数为0.85>0,因此y 与x 具有正线性相关关系,所以选项A 正确;由最小二乘法及回归直线方程的求解可知回归直线过样本点的中心(x ,y ),所以选项B 正确;由于用最小二乘法得到的回归直线方程是估计值,而不是具体值,若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kg ,所以选项C 正确,选项D 不正确.]7.在用线性回归方程研究四组数据的拟合效果中,分别作出下列四个关于四组数据的残差图,则用线性回归模式拟合效果最佳的是( )ABCDC[当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,对比4个残差图,易知选项C的图对应的带状区域的宽度越窄.故选C.]8.(2017·江西南城一中、高安中学第九校3月联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=a +bc +d a +cb +d,得K 2=65×35×58×42≈9.616.参照下表,A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” C [K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.] 二、填空题9.(2017·汉中二模)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.【导学号:07804052】6 [x =5=5,y =5=5,代入回归直线方程,得14+c5=0.85×5-0.25,解得c =6.] 10.(2017·安徽百校联盟二模)已知x 、y 的取值为:从散点图可知y 与x 呈线性相关关系,且回归直线方程为y ^=1.2x +a ^,则当x =20时,y 的取值为________.27.6 [由表格可知x =3,y =7.2,所以这组数据的样本点的中心是(3,7.2),根据样本点的中心在回归直线上,得7.2=a ^+1.2×3,得a ^=3.6,所以这组数据对应的回归直线方程是y ^=1.2x +3.6,将x =20代入,得y =1.2×20+3.6=27.6.]11.(2017·山西太原五中一模)某小卖部销售某品牌的饮料的零售价与销量间的关系统计如下:已知x ,y 的关系符合回归方程y =b x +a ,其中b =-20.若该品牌的饮料的进价为2元,为使利润最大,零售价应定为________元. 3.75 [x =3.5,y =40,∴a ^=40-(-20)×3.5=110, ∴回归直线方程为:y ^=-20x +110,利润L =(x -2)(-20x +110)=-20x 2+150x -220, ∴x =15040=3.75元时,利润最大,故答案为3.75.]12.(2017·哈尔滨三中二模)以模型y =c e kx(e 为自然对数的底)去拟合一组数据时,为了求出回归直线方程,设z =ln y ,其变换后得到线性回归方程为z =0.4x +2,则c =________. e 2[∵y =c e kx,∴两边取对数,可得ln y =ln(c e kx )=ln c +ln e kx=ln c +kx , 令z =ln y ,可得z =ln c +kx , ∵z =0.4x +2, ∴ln c =2, ∴c =e 2.] 三、解答题13.(2017·石家庄一模)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如图7­9所示的茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.图7­9(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系?(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X 的分布列及数学期望. 附:K 2=n ad -bc 2a +b c +d a +cb +d,其中n =a +b +c +d .K 2=a +bc +d a +cb +d=20×20×28×12≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数X 的可能取值为0,1,2,3,4,P (X =0)=⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫1-352=4625,P (X =1)=C 1245⎝⎛⎭⎪⎫1-45⎝⎛⎭⎪⎫1-352+⎝ ⎛⎭⎪⎫1-452C 1235·⎝ ⎛⎭⎪⎫1-35=44625, P (X =2)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫1-352+C 1245⎝ ⎛⎭⎪⎫1-45·C 1235·⎝ ⎛⎭⎪⎫1-35+⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫352=169625, P (X =3)=C 1245⎝ ⎛⎭⎪⎫1-45⎝ ⎛⎭⎪⎫352+⎝ ⎛⎭⎪⎫452C 1235·⎝⎛⎭⎪⎫1-35=264625,P (X =4)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫352=144625,所以X 的分布列为所以E (X )=0×625+1×625+2×625+3×625+4×625=2.8.14.(2017·湖南三湘名校联盟三模)为了研究一种昆虫的产卵数y 和温度x 是否有关,现收集了7组观测数据列于下表中,并作出了散点图,发现样本点并没有分布在某个带状区域内,两个变量并不呈线性相关关系,现分别用模型①:y =C 1x 2+C 2与模型②:y =e C 3x +C 4作为产卵数y 和温度x 的回归方程来建立两个变量之间的关系.∑n i =1x i -xy i -y∑ni =1x i -x 2∑n i =1t i -ty i -y∑ni =1t i -t 2∑n i =1z i -zx i -x∑ni =1x i -x 2∑ni =1z i -zt i -t∑ni =1t i -t2其中t i =x 2i ,t =∑i =1t i ,z i =ln y i ,z =∑i =1z i ,附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=β^u +α^的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .图7­10(1)在答题卡中分别画出y 关于t 的散点图、z 关于x 的散点图,根据散点图判断哪一个模型更适宜作为回归方程类型?(给出判断即可,不必说明理由).图7­11(2)根据表中数据,分别建立两个模型下y 关于x 的回归方程;并在两个模型下分别估计温度为30℃时的产卵数.(C 1,C 2,C 3,C 4与估计值均精确到小数点后两位)(参考数据:e 4.65≈104.58,e4.85≈127.74,e5.05≈156.02)(3)若模型①、②的相关指数计算得分分别为R 21=0.82,R 22=0.96,请根据相关指数判断哪个模型的拟合效果更好.【导学号:07804053】[解] (1)画出y 关于t 的散点图,如图1;z 关于x 的散点图,如图2.图1 图2根据散点图可判断模型②更适宜作为回归方程类型. (2)对于模型①:设t =x 2,则y =C 1x 2+C 2=C 1t +C 2,其中C ^1=∑7i =1t i -ty i -y∑7i =1t i -t2=0.43,C ^2=y -C ^1t =80-0.43×692=-217.56,所以y =0.43x 2-217.56,当x =30时,估计温度为y 1=0.43×302-217.56=169.44. 对于模型②:y =e C 3x +C 4⇒z =ln y =C 3x +C 4,其中C ^3=∑7i =1z i -zx i -x∑7i =1x i -x2=0.32,C ^4=z -C ^3x =3.57-0.32×26=-4.75.所以y =e0.32x -4.75,当x =30时,估计温度为y 2=e0.32×30-4.75=e4.85≈127.74.(3)因为R 21<R 22,所以模型②的拟合效果更好.。

高中数学名师优编 考前专练 专题1.5 概率与统计-回归分析、独立性检验

高中数学名师优编  考前专练  专题1.5 概率与统计-回归分析、独立性检验

专题1.5 概率与统计-回归分析、独立性检验(1)频率分布直方图、茎叶图、平均数、方差,离散型随机变量的分布列与期望仍然是考查的热点,同时应注意和概率、平均数、分布列,期望,二项分布,正态分布等知识的结合,同时应注意独立性检验在实际生活中的应用.(2)求回归直线方程的一般步骤①作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布,即是否在一条直线附近,从而判断两变量是否具有线性相关关系.②当两变量具有线性相关关系时,求回归系数ˆˆa b、,写出回归直线方程. ③根据方程进行估计. (3)独立性检验的一般步骤①根据样本数据列出22⨯列联表;②计算随机变量2K 的观测值k ,查下表确定临界值k 0:③如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过20()P K k ≥;否则,就认为在犯错误的概率不超过20()P K k ≥的前提下不能推断“X 与Y 有关系”.注意:①通常认为 2.706k ≤时,样本数据就没有充分的证据显示“X 与Y 有关系”. ②独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.③独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.1.随着互联网的飞速发展,我国智能手机用户不断增加,手机在人们日常生活中也占据着越来越重要的地位.某机构做了一项调查,对某市使用智能手机人群的年龄、日使用时长情况做了统计,将18~40岁的人群称为“青年人”(引用青年联合会对青年人的界定),其余人群称为“非青年人”.根据调查发现“青年人”使用智能手机占比为60%,“非青年人”使用智能手机占比为40%;日均使用时长情况如下表:将日均使用时长在2小时以上称为“频繁使用人群”,使用时长在2小时以内称为“非频繁使用人群”.已知“频繁使用人群”中有34是“青年人”.现对该市“日均使用智能手机时长与年龄的关系”进行调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据上面提供的数据.(1)补全下列22⨯列联表;(2)根据列联表的独立性检验,判断有多大把握认为“日均使用智能手机时长与年龄有关”?附:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.以参考数据:独立性检验界值表K2.某线上学习平台为保证老学员在此平台持续报名学习,以便吸引更多学员报名,从用户系统中随机选出200名学员,对该学习平台的教学成效评价和课后跟踪辅导评价进行了统计,并用以估计所有学员对该学习平台的满意度.其中对教学成效满意率为0.9,课后跟踪辅导的满意率为0.8,对教学成效和课后跟踪辅导都不满意的有10人.(1)完成下面22⨯列联表,并分析是否有99.9%把握认为教学成效满意度与跟踪辅导满意度有关.(2)若用频率代替概率,假设在学习服务协议终止时对教学成效和课后跟踪辅导都满意学员的续签率为90%,只对其中一项不满意的学员续签率为60%,对两项都不满意的续签率为10%.从该学习平台中任选10名学员,估计在学习服务终止时续签学员人数.附:22⨯列联表参考公式:22()()()()()n ad bc k a b c d a c b d -=++++,n a b c d =+++.临界值:3.从集市上买回来的蔬菜仍存有残留农药,食用时需要清洗数次,统计表中的x 表示清洗的次数,y 表示清洗x 次后1千克该蔬菜残留的农药量(单位:微克).(1)在如图的坐标系中,描出散点图,并根据散点图判断,ˆˆˆybx a =+与ˆˆˆx y me n -=+哪一个适宜作为清洗x 次后1千克该蔬菜残留的农药量的回归方程类型:(给出判断即可不必说明理由)(2)根据判断及下面表格中的数据,建立y 关于x 的回归方程:表中ix i eω-=,5115i iωω==∑附:①线性回归方程ˆˆˆybx a =+中系数计算公式分别为()()()121n i in i iix x y y b x x ==--=-∑∑,ˆˆay bx =-;4.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据()(),1,2,,20i i x y i =⋅⋅⋅,其中i x 和i y 分别表示第i 个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得20180ii x==∑,2014000ii y==∑,()202180i i x x=-=∑,()20218000i i y y=-=∑,()()201700i ii x xy y =--=∑.(1)请用相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合; (2)求y 关于x 的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?参考公式:相关系数()()niix x y y r --=∑,对于一组具有线性相关关系的数据()(),1,2,3,,i i x y i n =⋅⋅⋅,其回归直线y bx a =+的斜率和截距的最小二乘估计分别为()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-.5.针对偏远地区因交通不便、消息闭塞导致优质农产品藏在山中无人识的现象,各地区开始尝试将电商扶贫作为精准扶贫的重要措施.为了解电商扶贫的效果,某部门随机就100个贫困地区进行了调查,其当年的电商扶贫年度总投入(单位:万元)及当年人均可支配年收入(单位:元)的贫困地区数目的数据如下表:(1)估计该年度内贫困地区人均可支配年收入过万的概率,并求本年度这100个贫困地区的人均可支配年收入的平均值的估计值(同一组数据用该组数据区间的中间值代表); (2)根据所给数据完成下面的列联表,并判断是否有99%的把握认为当地的人均可支配年收入是否过万与当地电商扶贫年度总投入是否超过千万有关.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.6.2020年,全球爆发了新冠肺炎疫情,为了预防疫情蔓延,某校推迟2020年的春季线下开学,并采取了“停课不停学”的线上授课措施.为了解学生对线上课程的满意程度,随机抽取了该校的100名学生(男生与女生的人数之比为1:1)对线上课程进行评价打分,若评分不低于80分视为满意.其得分情况的频率分布直方图如图所示,若根据频率分布直方图得到的评分不低于70分的频率为0.85.(1)求b的值,并估计100名学生对线上课程评分的平均值;(每组数据用该组的区间中点值为代表)(2)结合频率分布直方图,请完成以下22⨯列联表,并回答能否有99%的把握认为对“线上教学是否满意与性别有关”.附:随机变量()()()()()22n ad bcKa b c d a c b d-=++++7.在关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展.行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯.该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到如下的统计图表:(1)估算该市电动自行车骑乘人员的平均年龄;(2)根据所给的数据,完成下面的列联表:(3)根据(2)中的列联表,判断是否有99%把握认为遵守佩戴安全头盔与年龄有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,8.在一次模拟考试中,某校共有100名学生参加考试,其中语文考试成绩低于130的占95%,如果成绩不低于130的为特别优秀,数学成绩的频率分布直方图如图.(1)求数学成绩特别优秀的人数及数学成绩的平均分;(2)如果语文和数学两科都特别优秀的共有3人.根据以上数据,完成22⨯列联表,并分析是否有99%的把握认为语文特别优秀的同学,数学也特别优秀.参考数据:①22()()()()()n ad bcKa b c d a c b d-=++++;②0.4559.随着互联网行业、传统行业和实体经济的融合不断加深,互联网对社会经济发展的推动效果日益显著,某大型超市计划在不同的线上销售平台开设网店,为确定开设网店的数量,该超市在对网络上相关店铺做了充分的调查后,得到下列信息,如图所示(其中x 表示开设网店数量,y 表示这x 个分店的年销售额总和),现已知55118850,2000i ii i i x yy ====∑∑,求解下列问题;(1)经判断,可利用线性回归模型拟合y 与x 的关系,求解y 关于x 的回归方程;(2)按照经验,超市每年在网上销售获得的总利润w (单位:万元)满足25140w y x =--,请根据(1)中的线性回归方程,估算该超市在网上开设多少分店时,才能使得总利润最大.参考公式;线性回归方程y bx a =+,其中515221,i ii ii x y nx ya y bxb xnx==-=-=-∑∑10.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额x (单位:亿元)对年盈利额y (单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额i x 和年盈利额i y 的数据通过对比分析,建立了两个函数模型:①2y x αβ=+,②x t y e λ+=,其中,,,t αβλ均为常数,e 为自然对数的底数.令2,ln (1,2,,10)i i i i u x v y i ===,经计算得如下数据:(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(2)①根据(1)的选择及表中数据,建立y 关于x 的回归方程;(系数精确到0.01) ②若希望2021年盈利额y 为200亿元,请预测2021年的研发资金投入额x 为多少亿元?(结果精确到0.01)附:①相关系数()()niix x y y r --=∑,回归直线ˆˆˆya bx =+中:()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-;②参考数据:ln 20.693,ln5 1.609≈≈.11.某机构为了解某大学中男生的体重单位:kg )与身高x (单位:cm )是否存在较好的线性关系,该机构搜集了7位该校男生的数据,得到如下表格:根据表中数据计算得到y 关于x 的线性同归方程为ˆˆ1.15yx a =+ (1)求ˆa; (2)已知()()22121ˆ1ni i i ni i y yR y y ==-=--∑∑且当20.9R 时,回归方程的拟合效果非常好;当20.80.9R <<时,回归方程的拟合效果良好.试问该线性回归方程的拟合效果是非常好还是良好?说明你的理由.参考数据:()621ˆ49.12i i i y y=-=∑12.机动车行经人行横道时,应当减速慢行:遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.下表是某市一主干路口监控设备所抓拍的5个月内驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求违章人数y 与月份x 之间的回归直线方程ˆˆˆybx a =+; (2)预测该路口9月份的不“礼让行人”违章驾驶员人数;(3)交警从这5个月内通过该路口的驾驶员中随机抽查70人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:能否据此判断有97.5%的把握认为“礼让行人行为与驾龄有关?参考公式:()()()1122211ˆ====---==--∑∑∑∑nni iiii i n n i i i i x ynxyx x yy bx nx x x ,ˆˆay bx =-. 22()()()()()n ad bc a b c d a c b d χ-=++++(其中n a b c d =+++)13.宁夏西海固地区,在1972年被联合国粮食开发署确定为最不适宜人类生存的地区之一.为改善这一地区人民生活的贫困状态,上世纪90年代,党中央和自治区政府决定开始吊庄移民,将西海固地区的人口成批地迁移到更加适合生活的地区.为了帮助移民人口尽快脱贫,党中央作出推进东西部对口协作的战略部署,其中确定福建对口帮扶宁夏,在福建人民的帮助下,原西海固人民实现了快速脱贫,下表是对2016年以来近5年某移民村庄100位移民的年人均收入的统计:现要建立y 关于x 的回归方程,有两个不同回归模型可以选择,模型一(1)ˆˆˆybx a =+;模型二(2)2ˆˆˆycx d =+,即使画出y 关于x 的散点图,也无法确定哪个模型拟合效果更好,现用最小二乘法原理,已经求得模型一的方程为ˆ 3.1 2.8yx =-. (1)请你用最小二乘法原理,结合下面的参考数据及参考公式求出模型二的方程(计算结果保留到小数点后一位);(2)用计算残差平方和的方法比较哪个模型拟合效果更好,已经计算出模型一的残差平方和为521ˆ) 3.7i i i y y=-=∑(. 附:参考数据:51522150.525i ii ii t y t ytt ==-≈-∑∑,其中2i i t x =,1,2,3,4,5i =.参考公式:对于一组数据()11,u v ,()22,u v ,…,(),n n u v ,其回归直线ˆˆˆva u β=+的斜率和截距的最小二乘法估计公式分别为1221ˆni i i nii u v nuvunuβ==-=-∑∑,ˆˆav u β=-.14.某电器企业统计了近10年的年利润额y (千万元)与投入的年广告费用x (十万元)的相关数据,散点图如图,对数据作出如下处理:令ln i i u x =,ln i i v y =,得到相关数据如表所示:(1)从①y bx a =+;②()0,0ky m xm k =⋅>>;③2y cx dx e =++三个函数中选择一个作为年广告费用x 和年利润额y 的回归类型,判断哪个类型符合,不必说明理由; (2)根据(1)中选择的回归类型,求出y 与x 的回归方程;(3)预计要使年利润额突破1亿,下一年应至少投入多少广告费用?(结果保留到万元) 参考数据:103.6788e≈,33.678849.787≈.参考公式:回归方程ˆy a bt=+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii tty y btt==--=-∑∑,a y bt =-.15.为打造“四态融合、产村一体”望山、见水、忆乡愁的美丽乡村,增加农民收入,某乡政府统计了景区农家乐在2012—2018年中任选5年接待游客人数y (单位:万人)的数据如表:(1)根据数据说明变量x ,y 是正相关还是负相关;(2)求相关系数r 的值,并说明年份与接待游客数相关性的强与弱;(3)分析2012年至2018年该景区农家乐接待游客人数y 的变化情况,利用最小二乘法求该景区农家乐接待游客人数关于年份代号的回归直线方程;并预测该景区农家乐2020年接待游客人数约为多少万人(精确到小数点后2位数).附:回归直线的斜率和截距的最小二乘法估计公式,相关系数r 的公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-,()()niix x y y r --=∑当r 的绝对值大于0.75时认为两个变量之间有很强的线性关系.。

高考数学真题专题(理数)回归分析与独立性检验

高考数学真题专题(理数)回归分析与独立性检验

专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .0.4 2.3y x =+B .2 2.4y x =-C .29.5y x =-+D .0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑0.55=≈2.646.参考公式:相关系数()()ni it t y y r --=∑ 回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,=.a y bt -11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中i w =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:。

高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)

高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)

高考数学复习考点知识与题型专题讲解专题18 回归分析、独立性检验1.有关独立性检验的问题,解题思路如下:(1)利用频率估计概率;(2)根据题意,求得2K的值,对照临界值得结果.2.对于非线性回归方程及其应用,考查将非线性回归问题转化为线性回归问题求解,在解题的过程中,要注重回归方程的公式的正确计算,注意所给数据的正确应用.2倍.1 / 31(1)求表中a,b的值,并补全表中所缺数据;(2)运用独立性检验思想,判断是否有99.5%的把握认为中学生使用手机对学习有影响?参考数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】三省三校“3 3 3”2021届高考备考诊断性联考卷(二)【答案】(1)28,14,ab=⎧⎨=⎩,表格答案见解析;(2)有99.5%的把握认为中学生使用手机对学习有影响.【分析】(1)由题意可得122680,2a ba b+++=⎧⎨=⎩从而可求出,a b的值,进而可填出列联表;(2)直接利用公式()()()()()22n ad bcKa b c d a c b d-=++++求解,然后根据临界值表得结论【解析】(1)由己知得122680,2a ba b+++=⎧⎨=⎩解得28,14,ab=⎧⎨=⎩补全表中所缺数据如下:(2)根据题意计算观测值为()2280282614129.8257.87942384040K⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为中学生使用手机对学习有影响.2.某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度Cx︒时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a=+和z dx c=+(其中lnz y=)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程:(方程3 / 31表示为()y f x =的形式,数据计算结果保留两位小数)(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害. 附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 【试题来源】甘肃省兰州市2020-2021学年高三下学期诊断试题【答案】(1)乙同学模型的相关指数2R 更接近1;(2)应选择z dx c =+做为回归方程,0.22 2.22x y e -=;(3)近期当地不会发生虫害.【分析】(1)通过观察图象即可得出结论;(2)根据(1)的结论,应选择z dx c =+做为回归方程,利用最小二乘法即可求解,求出,d c 即可. (3)当25x =时,求出估计值,即可判断得出结论.【解析】(1)乙同学模型的相关指数2R 更接近1.(2)根据(1)的结论,应选择z dx c =+做为回归方程,根据公式,812221757826 3.30.22, 3.30.2226 2.425722826i i i nii x z nxzd c z dx xnx =-=--⨯⨯==≈=-≈-⨯=--⨯-∑∑, 0.22 2.42z x ∴=-,5 / 31故y 关于x 的回归方程为0.22 2.22x y e -=.(3)当25x =时,0.22 2.22 3.084x y e e e -==<,因此近期当地不会发生虫害. 3.人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:参考公式:相关系数()()niix x y y r --=∑,回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-. 【试题来源】2021年新高考测评卷数学(第二模拟)【答案】(1)答案见解析;(2)ˆ0.482192y x =+;(3)13100元.【分析】(1)将已知数据代入相关系数的求解公式即可得解;(2)根据题中数据及参考公式求得ˆb ,ˆa ,即可建立y 关于x 的线性回归方程;(3)由题意知半年人均盈余为ˆx y-,得到不等式ˆ4620x y -≥,解不等式即可. 【解析】(1)由题意知()()316839000000.983800018400iix x yy r --==≈⨯∑,因为y 与x 的相关系数近似为0.98,接近1,所以y 关于x 的线性相关程度非常高,因此可以用线性回归模型拟合y 与x 的关系.(2)()()()3113121683900000ˆ0.481412000000ii i ii xx y y bxx ==--==≈-∑∑,ˆˆ96320.48155002192ay bx =-≈-⨯=,所以ˆ0.482192y x =+. (3)半年人均盈余为ˆ0.4821920.522192x yx x x -=--=-, 令0.5221924620x -≥,得13100x ≥,故估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为131007 / 31元.4.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+dy c x=+建立y 关于x 的回归方程,令s =1t =得到如下数据:213t131i =∑21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374=15.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v uαβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数ni i u vnu vr -⋅∑.【试题来源】湖北省八市2021届高三下学期3月联考 【答案】(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54yx=-;(3)当温度为20时这种草药的利润最大.【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型dy c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz,利用基本不等式求得利润z 的最大值以及对应的x 值.【解析】(1)由题意知20.9953r =-,10.8858r ====,因为121r r <<,所有用dy c x=+模型建立y 与x 的回归方程更合适. (2)因为1311322113 2.1ˆ100.2113i ii ii t y t ydtt ==-⋅-===--∑∑, ˆˆ109.94100.16111.54cy dt =-=+⨯=,9 / 31所以ˆy关于x 的回归方程为10ˆ111.54y x=- (3)由题意知11012020(111.54ˆˆ)22zy x x x =-=--20012230.8()2x x =-+ 2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x 时等号成立,所以当温度为20时这种草药的利润最大.5.已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】山东省聊城市第一中学2021届高三一模检测题(一)【答案】(1)表格见解析,不能;(2)2930.【分析】(1)由已知完成列联表,结合公式计算2K 根据参考数据即可判断结果;(2)由分层抽样得在[)60,70里面抽6个,[)70,80里面抽4个,再用对立事件求解概率即可. 【解析】(1)做个皮尔逊卡方检验的话,有()2250286412 3.125 3.84132184010K ⨯⨯-⨯==<⨯⨯⨯故此不能推翻零假设,不能认定成绩和态度有关.(2)这样分层抽样,会在[)60,70里面抽6个,[)70,80里面抽4个,11 / 31设A 为没有人在[60,70)内的事件,则概率即为()1P P A =-3431029130C C =-=.6.某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++.【试题来源】江西省九所重点中学(玉山一中、临川一中等)2021届高三3月联合考试【答案】(1)该疫苗在M含量指标上是“安全的”;(2)表格见解析,没有. 【分析】(1)求出区间(]1.0,1.2上的频率,以及平均数即可得结论;(2)根据题意写出列联表,计算2K的值,并与3.841比较即可得出结论. 【解析】(1)由频率分布直方图得M含量数据落在区间(]1.0,1.2上的频率为0.150.20.03⨯=,故出现血症的比例为3%5%<,由直方图得平均数为0.30.20.50.30.70.30.90.17 1.10.030.606x=⨯+⨯+⨯+⨯+⨯=即志愿者的M含量的平均数为0.606%0.65%<综上,该疫苗在M含量指标上是“安全的”.(2)依题意得,抽取的50名志愿者中女性志愿者应为25人由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04 所以全部女性志愿者阳性共有2000.048⨯=人由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有4000.0312⨯=人因此男性志愿者被检测出阳性的人数是1284-=人.所以完成表格如下:由22⨯列联表可()22400419281961.375 3.84120020012388K⨯⨯-⨯=≈<⨯⨯⨯,由参考表格,可得,故没有超过95%的把握认为注射疫苗后,高铁血红蛋白血症与性别有关.7.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:(1)由上表数据可知,可用线性回归模型拟合y与x的关系.请用相关系数加以说明;(精确到0.01)(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.13 / 31参考公式:相关系数()()niix x y y r --=∑.线性回归方程ˆˆˆybx a =+中斜率和截距最小二乘估计计算公式:()()()121ˆniii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =-. 参考数据:()71()14.00i i i x x y y =--=∑,()7217.08i iy y =-=∑14.10≈.【试题来源】四川省成都市2021届高三第二次诊断性检测【答案】(1)答案见解析;(2)ˆ0.5 2.3yx =+,7.3万元. 【分析】(1)根据统计数据求x 、y 、()721i i x x =-∑,结合参考数据及相关系数公式,求相关系数r ,进而判断y 与x 的相关程度;(2)利用最小二乘法公式估计ˆb 、ˆa ,写出线性回归方程,进而将10x =代入估算求值.【解析】(1)由题意,知123456747x ++++++==,2.903.30 3.604.40 4.805.20 5.904.307y ++++++==,()()()()()()()()72222222211424344454647428i i x x =-=-+-+-+-+-+-+-=∑.所以结合参考数据知14.000.9914.10r ==≈≈.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系.15 / 31(2)因为()()()7172114ˆ0.528iii ii x x y y bx x ==--===-∑∑, 所以ˆˆ 4.30.54 2.3ay bx =-=-⨯=. 所以y 关于x 的线性回归方程为ˆ0.5 2.3y x =+,将10x =代入线性回归方程,得ˆ0.510 2.37.3y=⨯+=. 所以估算该种机械设备使用10年的失效费为7.3万元.8.人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【试题来源】2021年高三数学二轮复习讲练测(新高考版) 【答案】(1) 1.520.38x y e +=;(2)见解析.【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解 (2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解【解析】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c xy c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x y z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.17 / 31所以 1.520.38ln z x y =+=,所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍.【名师点睛】对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.9.随着手机游戏的发展,在给社会带来经济利益的同时,也使许多人深陷其中,从而产生一些负面的影响.A ,B 两所学校为了解学生每天玩游戏的时间,各自抽取了100名学生进行调查,得到的数据如表所示:A 学校B 学校(1)以样本估计总体,计算A 学校学生日游戏时间的平均数以及B 学校学生日游戏时间的中位数.(2)为了调查家长对孩子玩游戏的态度,学校相关领导随机抽取了200名男性家长和200名女性家长进行调查,并将所得结果统计如表所示,判断是否有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】普通高等学校招生全国统一考试数学预测卷(一)【答案】(1)A学校学生日游戏时间的平均数为64.7()min;B学校学生日游戏时间的中位数为74()min;(2)没有.【分析】(1)根据频率分布表,利用平均数公式求解;由中位数的定义求解;(2)根据22⨯列联表中的数据,利用()()()()()22n ad bcKa b c d a c b d-=++++求得2K的值,再与临界值表对照下结论.【解析】(1)A学校学生日游戏时间的平均数为3.50.1450.14550.16650.2750.18850.13950.0964.7⨯+⨯+⨯+⨯+⨯+⨯+⨯=()min.B学校学生日游戏时间的中位数为5037102070107425----+⨯=()min.19 / 31(2)由已知可得22⨯列联表:则()2240013639161648.17210.828200200297103K ⨯⨯-⨯=≈<⨯⨯⨯, 所以没有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关. 10.为了解国内不同年龄段的民众旅游消费的基本情况.某旅游网站从其数据库中随机抽取了1000条客户信息进行分析,这些客户一年的旅游消费金额数据如下表所示;把一年的旅游消费金额满8千元称为“高消费”,否则称为“低消费”. (1)从这些客户中随机选一人,求该客户是高消费的中老年人的概率; (2)完成下面的22⨯列联表,并判断能否有99%的把握认为旅游消费的高低与年龄有关.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++【试题来源】学科网2021年高三1月大联考考后强化卷(新课标Ⅱ卷)【答案】(1)15;(2)填表见解析;有.【分析】(1)用频率估计概率,计算样本中高消费的中老年人的频率即为概率;(2)将数据填入列联表,用2K的计算公式计算2K的观测值k,与附表中的数据比较可得出结论.【解析】(1)样本中总客户数为1000,其中高消费的中老年人有200人,随机选一人,则该客户是高消费的中老年人的概率为2001 10005=.(2)2×2列联表如下:21 / 31可得2K的观测值21000(300200100400)7.937400600700300k ⨯⨯-⨯=≈⨯⨯⨯, 因为7.937 6.635>,所以有99%的把握认为旅游消费的高低与年龄有关. 11.2020山东省旅游发展大会暨首届中国国际文化旅游博览会在济南奥体中心东荷体育馆隆重开幕.大会以“文旅融合发展,乐享好客山东”为主题,来自38个国家和地区的友好宾朋,跨越空间阻隔,相约线上交流,共同推动山东文化和旅游业发展谱写新的篇章.某机构为了解人们对博览会的关注度是否与年龄有关,随机抽取了200位市民(其中40周岁及以下与40周岁以上各100人)进行问卷调查,并得到如下的22⨯列联表:(1)根据22⨯列联表,判断是否有90%的把握认为对博览会的关注度与年龄有关;(2)若从关注度极高的被调查者中按年龄分层抽样的方法抽取9人了解他们从事的职业情况,再从9人中任意选取2人谈谈关注博览会的原因,求这2人中两个年龄段的市民各一人的概率.附:22()()()()()n ad bc Ka b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】普通高等学校招生全国统一考试数学预测卷(三)【答案】(1)有;(2)59.【分析】(1)根据22⨯列联表中的数据求得2K 值,再与临界值表对照下结论; (2)先利用分层抽样的方法抽取各层的人数,然后再求得9人中任意选取2人的基本事件数和这2人中两个年龄段的市民各一人的基本事件数,代入古典概型的概率公式求解.【解析】(1)由22⨯列联表可得22200(60524840) 2.899 2.70610010010892K ⨯⨯-⨯=≈>⨯⨯⨯,故有90%的把握认为对博览会的关注度与年龄有关.(2)根据题意,从关注度极高的被调查者中按年龄分层抽样的方法抽取9人, 则抽取40周岁及以下的有6095108⨯=人,40周岁以上的有954-=人. 从9人中任意选取2人的基本事件有29C 36=个,这2人中两个年龄段的市民各一人的基本事件有1154C C 20=个;则这2人中两个年龄段的市民各一人的概率205369P ==. 12.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:23 / 31(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()niix x y y r --=∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 临界值表:22.02.【试题来源】重组卷05-冲刺2021年高考数学之精选真题模拟重组卷(新课标卷)【答案】(1)0.84;管理时间y 与土地使用面积x 的线性相关程度为强相关;(2)有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.【分析】(1)根据参考公式和数据计算相关系数r 的值,并判断强弱关系;(2)根据列联表计算2K ,并和临界数表比较大小. 【解析】(1)1234535x ++++==,911142620165y ++++==, ()()()()()()()()113916231116331416niii x x y y =--=-⨯-+--+-⨯-∑()()()()43261653201637+--+--=,()()()()()()2222221132333435310ni i x x =-=-+-+-+-+-=∑, ()()()()()()22222219161116141626162016194ni i y y =-=-+-+-+-+-=∑44.04=≈,()()370.840.7544.04niix x y y r --==≈>∑, 所以管理时间y 与土地使用面积x 的线性相关程度为强相关.(2)由条件可知女性不愿意参与管理的人数为300140604060---=()223001406060402510.828200100180120K ⨯⨯-⨯==>⨯⨯⨯,所以有99.9%的把握认为村民的性别与参与管理的意愿具有相关性. 13.某公司对项目进A 行生产投资,所获得的利润有如下统计数据表:(1)请用线性回归模型拟合y 与x 的关系,并用相关系数加以说明; (2)该公司计划用7百万元对A 、B 两个项目进行投资.若公司对项目B 投资25 / 31()16x x ≤≤百万元所获得的利润y 近似满足:0.490.160.491y x x =-++,求A 、B 两个项目投资金额分别为多少时,获得的总利润最大? 附:①对于一组数据()11,x y 、()22,x y 、、(),n n x y ,其回归直线方程y bx a=+的斜率和截距的最小二乘法估计公式分别为1221ni ii nii x y nx yb xnx==-⋅=-∑∑,ˆa y bx=-. ②线性相关系数ni ix y nx yr -⋅=∑.一般地,相关系数r 的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱. 参考数据:对项目A 投资的统计数据表中111ni i i x y ==∑,212.24ni i y ==∑ 2.1≈.【试题来源】2021年高考数学金榜预测卷(山东、海南专用)【答案】(1)0.2y x =;答案见解析;(2)对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大.【分析】(1)计算出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出回归直线方程,并计算出相关系数r 的值,可得出结论;(2)求得()0.491.930.0411y x x ⎡⎤-++⎢+⎣=⎥⎦,利用基本不等式可求得y 的最大值,利用等号成立求得x 的值,即可得出结论.【解析】(1)对项目A 投资的统计数据进行计算,有3x =,0.6y =,52155i i x ==∑,所以515222151190.255535i ii i i x y x yb x x==-⋅-===-⨯-∑∑,0.60.230a y bx =--⨯==,所以回归直线方程为0.2y x =.线性相关系数55i ix y x yr -⋅==∑0.95340.95=≈>, 这说明投资金额x 与所获利润y 之间的线性相关关系较强, 用线性回归方程0.2y x =对该组数据进行拟合合理;(2)设对B 项目投资()16x x ≤≤百万元,则对A 项目投资()7x -百万元. 所获总利润()()0.490.490.490.27 1.930.60411110.x x y x x x ⎡⎤++-=⎥=--++⎢++⎣⎦1.93 1.65≤-=, 当且仅当()100.04194.x x =++,即 2.5x =时取等号, 所以对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大. 14.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:27 / 31根据以上数据,回答下面问题.(1)甲同学用曲线y =bx +a 来拟合,并算得相关系数r 1=0.97,乙同学用曲线y =ce dx 来拟合,并算得转化为线性回归方程所对应的相关系数r 2=0.99,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于x 的回归方程(系数精确到0.01). 参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令8820.4411ln ,0.84,()() 6.50,() 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑【试题来源】安徽省示范高中皖北协作区2021届高三下学期第23届联考 【答案】(1)答案见解析;(2)0.151.15x y e =.【分析】(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出x ,结合回归方程变形为ln ln y c dx =+,求出d 和ln c ,从而可求出回归方程.【解析】(1)因为1201r r <<<,所以dx y ce =更适合作为y 关于x 的回归方程类型. (2)12345678364.588x =++++++===,由dx y ce =得ln ln y c dx =+,即ln c dx ω=+,则1821()()6.50.1542()Niii ii x x d x x ωω==--==≈-∑∑, 13ln 0.84 4.50.1484c dx ω=-=-⨯≈,所以0.140.150.140.150.151.15dx x x x y ce e e e e +====. 【名师点睛】本题考查了回归方程的求解,本题第二问的关键是对回归方程,结合对数的运算性质进行变形,结合最小二乘法求线性回归方程的系数公式进行求解.15.打乒乓球是一项众多中学生喜爱的体育运动,某中学体育协会为了解这项运动与性别的关联性,随机调查了100名男生和100名女生,每位学生回答喜欢或不喜欢,得到下面的列联表:(1)分别估计该中学男、女生喜欢打乒乓球的概率;(2)能否有99.5%的把握认为中学生喜欢打乒乓球与性别有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【试题来源】吉林省白山市2021届高三第三次联考(4月份)【答案】(1)男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35;(2)有99.5%的把握认为中学生喜欢打乒乓球与性别有关.【分析】(1)根据题意,利用公式求得男生和女生喜欢打乒乓球的频率,从而估计出其概率;(2)由题意,求得2K的值,对照临界值得出结论.【解析】(1)由调查数据可知,男生喜欢打乒乓球的频率为550.55 100=,女生喜欢打乒乓球的频率为350.35 100=,因此该中学男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35.(2)因为2 2200(55653545)8001001009011099 K⨯⨯-⨯==⨯⨯⨯且80080087.879 99100>=>,所以有99.5%的把握认为中学生喜欢打乒乓球与性别有关.16.某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.29 / 31表中1i i u x =,8118i i u u ==∑(1)根据散点图判断:y a bx =+与dy c x=+哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.01);(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)附:对于一组数据1122(,),(,,,),()n n v v v ωωω⋯,其回归直线v αβω=+的斜率和截距的最小二乘估计分别为121()()()niii nii v v ωωβωω==--=-∑∑,v αβω=-.【试题来源】2021年高考数学考前信息必刷卷(江苏专用) 【答案】(1)d y c x =+更适合;(2)8.961.22y x=+;(3)至少印刷11120册才能使销售利润不低于80000元.【分析】(1)由散点图可知成反比例函数模型,故dy c x=+更适合; (2)令1u x=,根据表中的数据计算即可得y 关于u 的线性回归方程为1.228.96y u=+,进而得y 关于x 的回归方程为8.961.22y x=+; (3)根据题意只需解不等式8.969.22 1.2280x x x ⎛⎫-+≥ ⎪⎝⎭即可得答案.【解析】(1)由散点图判断,dy c x=+更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程. (2)令1u x=,先建立y 关于u 的线性回归方程,由于81821()()7.0498.9578.960.787()i iiiiu u y ydu u==-⋅-==≈≈-∑∑,所以 3.638.9570.269 1.22c yd u=-⋅=-⨯≈,所以y关于u的线性回归方程为 1.228.96y u=+,所以y关于x的回归方程为8.961.22yx =+(3)假设印刷x千册,依题意得8.969.22 1.2280x xx⎛⎫-+≥⎪⎝⎭,解得11.12x≥,所以至少印刷11120册才能使销售利润不低于80000元.31 / 31。

2017届高三数学二轮复习第1部分专题3突破点8回归分析、独立性检验理

2017届高三数学二轮复习第1部分专题3突破点8回归分析、独立性检验理

突破点8 回归分析、独立性检验提炼1变量的相关性(1)正相关:在散点图中,点散布在从左下角到右上角的区域.(2)负相关:在散点图中,点散布在从左上角到右下角的区域.(3)相关系数r:当r>0时,两变量正相关;当r<0时,两变量负相关;当|r|≤1且|r|越接近于1,相关程度越高,当|r|≤1且|r|越接近于0,相关程度越低.提炼2线性回归方程方程y^=b^x+a^称为线性回归方程,其中b^=∑i=1nx i y i-n x-y-∑i=1nx2i-n x2,a^=y--b^x-.(x-,y-)称为样本中心点.提炼3独立性检验(1)确定分类变量,获取样本频数,得到列联表.(2)求观测值:k=n ad-bc2a+b c+d a+c b+d.(3)根据临界值表,作出正确判断.如果k≥kα,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”.回访1 变量的相关性1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图8­1A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关D 对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A 正确.对于B 选项,由图知,由2006年到2007年矩形高度明显下降,因此B 正确.对于C 选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C 正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]2.(2012·全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1D 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1ny i -y ^i2∑i =1ny i -y2=1.]3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图8­2x y w∑8i =1 (x i -x )2∑8i =1 (w i -w )2∑8i =1 (x i -x )(y i -y )∑8i =1(w i -w )(y i -y )46.65636.8289.81.61 469108.8表中w i =x i ,w ]=8∑ i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑ni =1 u i -u2,α^=v -β^u .解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.2分(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,4分所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x .6分 (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.8分 ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.10分所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.12分 回访2 独立性检验4.(2012·辽宁高考)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图8­3将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷 合计 男女10 55 合计(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望E (X )和方差D (X ).附:K 2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2,P (K 2≥k )0.05 0.01 k3.8416.635解] (1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:非体育迷 体育迷 合计 男 30 15 45 女 45 10 55 合计75251002分将2×2列联表中的数据代入公式计算,得k =n n 11n 22-n 12n 212n 1+n 2+n +1n +2=100×30×10-45×15275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.6分(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.8分由题意知X ~B ⎝ ⎛⎭⎪⎫3,14,从而X 的分布列为 X 0 1 2 3 P2764276496416410分E (X )=np =3×14=34,D (X )=np (1-p )=3×14×34=916.12分热点题型1 回归分析题型分析:高考命题常以实际生活为背景,重在考查回归分析中散点图的作用、回归方程的求法和应用,难度中等.在一次抽样调查中测得样本的5组数据,得到一个变量y 关于x 的回归方程模型,其对应的数值如下表:x 0.25 0.5 1 2 4 y1612521(1)试作出散点图,根据散点图判断,y =a +bx 与y =x+m 哪一个适宜作为变量y 关于x 的回归方程模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立变量y 关于x 的回归方程;(3)根据(2)中所求的变量y 关于x 的回归方程预测:当x =3时,对应的y 值为多少?(保留四位有效数字)解] (1)作出变量y 与x 之间的散点图,如图所示,2分由图可知变量y 与x 近似地呈反比例函数关系,那么y =k x+m 适宜作为变量y 关于x 的回归方程模型.4分(2)由(1)知y =k x+m 适宜作为变量y 关于x 的回归方程模型,令t =1x,则y =kt +m ,由y与x 的数据表可得y 与t 的数据表如下:t 4 2 1 0.5 0.25 y1612521……………6分作出y 与t 的散点图,如图所示.8分由图可知y 与t 近似地呈线性相关关系.又t -=1.55,y -=7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,所以k =∑i =15t i y i -5t -y-∑i =15t 2i -5t 2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,m =y --k t -=7.2-4.1344×1.55≈0.8,所以y =4.134 4t +0.8,所以y 关于x 的回归方程为y =4.134 4x+0.8.10分(3)由(2)得y 关于x 的回归方程是y =4.134 4x+0.8,当x =3时,可得y =4.134 43+0.8≈2.178.12分1.正确理解计算b ^,a ^的公式和准确的计算,是求线性回归方程的关键.其中线性回归方程必过样本中心点(x -,y -).2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.变式训练1] (2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:x 1 2 3 4 5 y7.06.55.53.82.2(1)求y 关于x 的线性回归方程y =b x +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x 2,a ^=y --b ^x -.解] (1)x -=3,y -=5,2分∑i =15x i =15,∑i =15y i =25,∑i =15x i y i =62.7,∑i =15x 2i =55, 解得b ^=-1.23,a ^=8.69,4分 所以y ^=8.69-1.23x .6分(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,10分 所以当x =2.72,即年产量为2.72吨时,年利润z 取得最大值.12分热点题型2 独立性检验题型分析:尽管全国卷Ⅰ近几年未在该点命题,但其极易与分层抽样、概率统计等知识交汇,是潜在的命题点之一,须引起足够的重视.(2016·山西四校第二次联考)心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)几何题 代数题 总计 男同学 22 8 30 女同学 8 12 20 总计302050(1)能否据此判断有(2)经过多次测试后,甲每次解答一道几何题所用的时间在5~7分钟,乙每次解答一道几何题所用的时间在6~8分钟,现甲、乙各解同一道几何题,求乙比甲先解答完的概率;(3)现从选择做几何题的8名女生中任意抽取2人对她们的答题情况进行全程研究,记丙、丁2名女生被抽到的人数为X ,求X 的分布列及数学期望E (X ).附表及公式:P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828K 2=2a +bc +d a +cb +d,n =a +b +c +d .解题指导] 计算k ――→查表下结论――→几何概型求概率――→超几何分布求X 的分布列及E (X ). 解] (1)由表中数据得k=50×22×12-8×8230×20×30×20=509≈5.556>5.024,2分所以有97.5%的把握认为视觉和空间能力与性别有关.3分(2)设甲、乙解答一道几何题的时间分别为x ,y 分钟,则⎩⎪⎨⎪⎧5≤x ≤7,6≤y ≤8表示的平面区域如图所示.设事件A 为“乙比甲先做完此道题”,则x >y 满足的区域如图中阴影部分所示.5分 由几何概型可得P (A )=12×1×12×2=18,即乙比甲先解答完的概率为18.7分(3)由题可知,在选择做几何题的8名女生中任意抽取2人的方法有C 28=28种,其中丙、丁2人没有一个人被抽到的有C 26=15种;恰有一人被抽到的有C 12·C 16=12种;2人都被抽到的有C 22=1种.所以X 的可能取值为0,1,2,P (X =0)=1528,8分P (X =1)=1228=37,9分 P (X =2)=128.10分 X 的分布列为:X 0 1 2 P15283712811分E (X )=0×1528+1×37+2×128=12.12分求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到k 之后的结论.变式训练2] (名师押题)2016年1月1日起全国统一实施全面二孩政策.为了解适龄民众对放开生育二孩政策的态度,某市选取70后和80后作为调查对象,随机调查了100人,得到数据如下表:生二孩 不生二孩 总计 70后 30 15 45 80后 45 10 55 总计7525100(1)以这100人的样本数据估计该市的总体数据,且以频率估计概率,若从该市70后公民中随机抽取3人,记其中生二孩的人数为X ,求随机变量X 的分布列和数学期望;(2)根据调查数据,是否有90%以上的把握认为“生二孩与年龄有关”,并说明理由. 参考数据:P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 k 02.0722.7063.8415.0246.6357.879参考公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d解] (1)由已知得70后“生二孩”的概率为23,并且X ~B ⎝ ⎛⎭⎪⎫3,23,所以P (X =k )=C k 3⎝ ⎛⎭⎪⎫23k ⎝ ⎛⎭⎪⎫133-k(k =0,1,2,3),4分X 的分布列为X 0 1 2 3 P12729498276分所以E (X )=3×23=2.8分(2)由表中数据知k =100×30×10-45×15275×25×45×55=10033≈3.030>2.706,10分 所以有90%以上的把握认为“生二孩与年龄有关”.12分。

2023 高考 数据分析和独立性检验专题复习(学生版)

2023 高考 数据分析和独立性检验专题复习(学生版)

2023 高考数据分析和独立性检验专题复
习(学生版)
简介
这篇文档旨在为即将参加2023年高考的学生提供数据分析和
独立性检验方面的知识复。

数据分析和独立性检验是现代社会中非
常重要的技能,在高考中也常常出现。

通过本文档的复,学生们可
以更好地应对高考中的相关试题。

数据分析
数据分析是指在数据收集、处理、分析的基础上,利用统计学、计算机科学等相关技术,总结和归纳出数据所蕴含的信息,并提供
决策和预测的方法。

在高考数学和文综中,常常出现与数据相关的
试题,需要学生们具备数据分析的能力。

独立性检验
独立性检验是指在两个或更多的变量之间进行统计检验,判断它们是否独立的一种方法。

在高考数学中,“二项分布”和“卡方检验”都是独立性检验的内容,需要学生们掌握相关的知识点。

复建议
针对数据分析和独立性检验,建议学生们采取以下复策略:
- 理解基本概念:学生们需要对数据分析和独立性检验的基本概念有一个清晰的认识,做到心中有数。

- 熟练操作手法:学生们需要掌握数据分析和独立性检验的常用方法和相关公式,做到能够熟练运用到实际问题中。

- 多练例题:学生们需要通过大量的例题来提高自己的数据分析和独立性检验能力,加强对知识点的理解。

总结
通过本文档的复习,相信学生们可以更好地掌握数据分析和独立性检验的知识点,应对高考中的相关试题。

希望学生们在备战高考的过程中,能够不断提高自己的数学能力,取得优异的成绩。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

专题限时集训(八)回归分析、独立性检验[建议A、B组各用时:45分钟][A组高考达标]一、选择题1.(2016·威海二模)已知变量x,y满足关系y=0.2x-1,变量y与z负相关,则下列结论正确的是()A.x与y正相关,x与z负相关B.x与y负相关,x与z正相关C.x与y正相关,x与z正相关D.x与y负相关,x与z负相关A[由y=0.2x-1知,x与y正相关,由y与z负相关知,x与z负相关.故选A.]2.(2016·长沙模拟)某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:A.有99.5%的把握认为使用智能手机对学习有影响B.有99.5%的把握认为使用智能手机对学习无影响C.有99.9%的把握认为使用智能手机对学习有影响D.有99.9%的把握认为使用智能手机对学习无影响A[因为7.879<k<10.828,故有99.5%的把握认为使用智能手机对学习有影响,故选A.]3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( ) 【导学号:67722032】A.116B.18C.14D.12B [依题意可知样本中心点为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ^,解得a ^=18,故选B.]4. 已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′ ,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′C [画出散点图,作出直线y =b ′x +a ′与大致的线性回归直线.根据两直线的位置关系知b ′>b ^,a ^>a ′.]5.(2016·东北三省四市联考)某集团为了解新产品的销售情况,销售部在3月1日至3月5日连续五天对某个大型批发市场中该产品一天的销售量及其价格进行了调查,其中该产品的价格x (元)与销售量y (万件)的统计资料如下表所示:y ^=b ^x +40.若该集团将产品定价为10.2元,预测该批发市场的日销售量约为( )A .7.66万件B .7.86万件C .8.06万件D .7.36万件D [因为x -=15(9+9.5+10+10.5+11)=10,y -=15(11+10+8+6+5)=8,线性回归直线恒过样本中心点(x -,y -),将(10,8)代入回归直线方程得b ^=-3.2,所以y ^=-3.2x +40,将x =10.2代入得y =7.36,故选D.]二、填空题6.新闻媒体为了了解观众对央视某节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:否和性别有关”.参考附表:参考公式:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d99% [分析列联表中数据,可得k =110×(40×30-20×20)260×50×60×50≈7.822>6.635,所以有99%的把握认为“喜爱该节目与否和性别有关”.]7.以下四个命题,其中正确的是________.(填序号)①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量K 2的值越小,“X 与Y 有关系”的把握程度越大.②③ [①是系统抽样;对于④,随机变量K 2的值越小,说明两个变量有关系的把握程度越小.]8.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x2i =720.则家庭的月储蓄y 对月收入x 的线性回归方程为____________.附:线性回归方程y =bx +a 中,b =∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a =y --b x -,其中x -,y -为样本平均值.线性回归方程也可写为y ^=b ^x +a ^.y =0.3x -0.4 [由题意知n =10,x -=1n ∑i =1n x i =8010=8,y -=1n ∑i =1ny i =2010=2,又∑i =1nx 2i -n x -2=720-10×82=80,∑i =1nx i y i -n x -y -=184-10×8×2=24,由此得b =2480=0.3,a =y --b x -=2-0.3×8=-0.4, 故所求回归方程为y =0.3x -0.4.] 三、解答题9.(2016·重庆南开二诊模拟)某品牌新款夏装即将上市,为了对夏装进行合理定价,在该地区的ZZ 锁店各进行了两天试销售,得到如下数据:(1)归直线方程y ^=b ^x +a ^;(2)在大量投入市场后,销量与单价仍然服从(1)中的关系,且该夏装成本价为40元/件,为使该新夏装在销售上获得最大利润,该款夏装的单价应定为多少元?(保留整数)附:b ^=∑ n i =1(x i -x )(y i -y )∑ n i =1(x i -x )2=∑ n i =1x i y i -n x y∑ ni =1x 2i -n x2,a ^=y -b ^x .[解] (1)A ,B ,C 三家连锁店平均售价和销量分别为:(83,83),(85,80),(87,74),∴x =85,y =79,2分∴b =(83-85)×(83-79)+(85-85)×(80-79)×(87-85)×(74-79)(83-85)2+(85-85)2+(87-85)2=-2.25,4分∴a ^=y -b ^ x =270.25,∴y ^=-2.25x +270.25.6分(2)设该款夏装的单价应定为x 元,利润为f (x )元,则f (x )=(x -40)(-2.25x+270.25)=-2.25x2+360.25x-10 810.10分当x≈80时,f(x)取得最大值,故该款夏装的单价应定为80元.12分10.(2016·长春二模)近年来我国电子商务行业迎来蓬勃发展的新机遇,2015年双11期间,某购物平台的销售业绩高达918亿人民币.与此同时,相关管理部门推出了针对电商的商品和服务评价体系.现从评价系统中选出200次成功的交易,并对其评价进行统计,对商品的好评率为0.6,对服务的好评率为0.75,其中对商品和服务都作出好评的交易为80次.(1)是否可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关?(2)若将频率视为概率,某人在该购物平台上进行的5次购物中,设对商品和服务全好评的次数为随机变量X:①求对商品和服务全好评的次数X的分布列(概率用组合数算式表示);②求X的数学期望和方差.K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d[解](1)由题意可得关于商品和服务评价的2×2列联表如下:k=200×(80×10-40×70)2120×80×150×50≈11.111>10.828,可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关.6分(2)每次购物时,对商品和服务都好评的概率为25,且X 的取值可以是0,1,2,3,4,5.其中P (X =0)=⎝ ⎛⎭⎪⎫355;P (X =1)=C 15⎝ ⎛⎭⎪⎫251⎝ ⎛⎭⎪⎫354;P (X =2)=C 25⎝ ⎛⎭⎪⎫252⎝ ⎛⎭⎪⎫353;P (X =3)=C 35⎝ ⎛⎭⎪⎫253⎝ ⎛⎭⎪⎫352;P (X =4)=C 45⎝ ⎛⎭⎪⎫254⎝ ⎛⎭⎪⎫351;P (X =5)=⎝ ⎛⎭⎪⎫255. ①X 的分布列为:10分②由于X ~B ⎝ ⎛⎭⎪⎫5,25,则E (X )=5×25=2,11分D (X )=5×25×⎝ ⎛⎭⎪⎫1-25=65.12分[B 组 名校冲刺]一、选择题1.已知x ,y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a 等于( )【导学号:67722033】A .1.30B .1.45C .1.65D .1.80B [依题意得,x -=16×(0+1+4+5+6+8)=4,y -=16(1.3+1.8+5.6+6.1+7.4+9.3)=5.25.又直线y ^=0.95x +a ^必过样本中心点(x -,y -),即点(4,5.25),于是有5.25=0.95×4+a ^,由此解得a ^=1.45,故选B.]2.(2016·阜阳模拟)下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据,根据表中提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,则下列结论错误的是( )A.B .t 的取值必定是3.15 C .回归直线一定过(4.5,3.5)D .A 产品每多生产1吨,则相应的生产能耗约增加0.7吨 B [由题意,x -=3+4+5+64=4.5,因为y ^=0.7x +0.35,所以y -=0.7×4.5+0.35=3.5,所以t =4×3.5-2.5-4-4.5=3,故选B.]3.为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:(1)统计量:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(n =a +b +c +d ).(2)独立性检验的临界值表:A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关 C [k =40×(14×13-7×6)220×20×21×19≈4.912,3.841<k <6.635,所以有95%的把握认为环保知识测试成绩与专业有关.]4.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y =-4x +a .若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A.16B.13C.12D.23B [由题意可知x -=4+5+6+7+8+96=132,y -=90+84+83+80+75+686=80.又点⎝ ⎛⎭⎪⎫132,80在直线y ^=-4x +a 上,故a =106.所以回归方程为y =-4x +106.由线性规划知识可知,点(5,84),(9,68)在直线y =-4x +106的下侧.故所求事件的概率P =26=13.] 二、填空题5.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到2×2列联表:已知P (根据表中数据,得到k =50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文科与性别有关系出错的可能性约为________. 5% [∵4.844>3.841,且P (K 2≥3.841)≈0.05. ∴可认为选修文科与性别有关系出错的可能性为5%.]6.高三某班学生每周用于物理学习的时间x (单位:小时)与物理成绩y (单位:分)之间有如下关系:________.(精确到0.1)13.5 [由已知可得x -=24+15+23+19+16+11+20+16+17+1310=17.4,y -=92+79+97+89+64+47+83+68+71+5910=74.9,设回归直线方程为y ^=3.53x +a ^, 则74.9=3.53×17.4+a ^,解得a ^≈13.5.]三、解答题7.(2016·合肥二模)某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间x (月)和市场占有率y (%)的几组相关对应数据:(1) (2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%.(精确到月)附:b ^=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a ^=y --b ^x -.[解] (1)经计算b ^=0.042,a ^=-0.026, 所以线性回归方程为y ^=0.042x -0.026.6分(2)由上面的回归方程可知,上市时间与市场占有率正相关,即上市时间每增加1个月,市场占有率增加0.042个百分点.9分令y ^=0.042x -0.026>0.5,解得x ≥13,所以预计从上市13个月后,市场占有率能超过0.5%.12分8.(2016·沈阳模拟)为考查某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25. (1)求2×2列联表中的数据x ,y ,A ,B 的值;(2)绘制发病率的条形统计图,并判断疫苗是否有效?图8-5(3)能够有多大把握认为疫苗有效?附:K 2=n (ad -bc )2(a +b )(a +c )(c +d )(b +d ),n =a +b +c +d .[解] ”为事件A ,由已知得P (A )=y +30100=25,所以y =10,B =40,x =40,A =60.5分(2)未注射疫苗发病率为4060=23,注射疫苗发病率为1040=14.发病率的条形统计图如图所示,由图可以看出疫苗影响到发病率.10分(3)k =100×(20×10-30×40)250×50×40×60=1 000 00050×20×60=503≈16.67>10.828.所以至少有99.9%的把握认为疫苗有效.12分。

相关文档
最新文档