10-18高考真题分类第33讲 回归分析与独立性检验【学生试卷】

合集下载

【高考数学】专题十 概率与统计第二十九讲 回归分析与独立性检验(含答案)

【高考数学】专题十  概率与统计第二十九讲  回归分析与独立性检验(含答案)

取的 16 个零件的尺寸:
抽取次序 1
2
3
4
5
6
7
8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9
10
11
12
13
14
15
16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得
x
正确的是
A. x 与 y 正相关, x 与 z 负相关 C. x 与 y 负相关, x 与 z 负相关
2.(2014 湖北)根据如下样本数据
B. x 与 y 正相关, x 与 z 正相关 D. x 与 y 负相关, x 与 z 正相关
x
3
4
5
6
7
8
y
4.0
2.5
− 0.5
0.5
− 2.0
− 3.0
得到的回归方程为 yˆ = bx + a ,则
=
1 16
16 i =1
xi
=
9.97 , s
=
1 16
16 i =1
( xi
− x)2
=
1 16
(
16 i =1
xi2
−16x 2 )
16
16
0.212 , (i − 8.5)2 18.439 , (xi − x)(i − 8.5) = −2.78 ,其中 xi 为抽取的
i =1
i =1
第 i 个零件的尺寸, i =1,2,…,16.
专题十 概率与统计
第二十九讲 回归分析与独立性检验
2019 年

2018年高考数学理二轮复习练习:专题限时集训7 回归分析、独立性检验 含答案 精品

2018年高考数学理二轮复习练习:专题限时集训7 回归分析、独立性检验 含答案 精品

专题限时集训(七) 回归分析、独立性检验(对应学生用书第91页)(限时:40分钟)1.(2017·石家庄一模)下列说法错误的是( )【导学号:07804050】A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^就增加0.2个单位C [根据相关定义知选项A ,B ,D 均正确;选项C 中,对分类变量X 与Y ,随机变量K 2的观测值k 越大,对判断“X 与Y 有关系”的把握程度越大,故C 错误.选C.]2.(2017·湖南名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为C .99.5%D .95%D [由图表中数据可得,当k >3.841时,有0.05的几率说明这两个变量之间的关系是不可信的,即有1-0.05=0.95的几率,也就是有95%的把握认为变量之间有关系,故选D.] 3.(2017·湖北七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):由上表可得回归方程为y ^=10.2x +a ^,据此模型,预测广告费为10万元时销售额约为( )【导学号:07804051】A .101.2万元B .108.8万元C .111.2万元D .118.2万元C [根据统计数据表,可得x =15×(2+3+4+5+6)=4,y =15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^=9.2,∴回归方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C.] 4.(2017·佛山二模)现行普通高中学生在高一升高二时面临着选文理科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如图7­7所示的两个等高堆积条形图.图7­7根据这两幅图中的信息,下列哪个统计结论是不正确的( ) A .样本中的女生数量多于男生数量B .样本中有理科意愿的学生数量多于有文科意愿的学生数量C .样本中的男生偏爱理科D .样本中的女生偏爱文科D [由图2知,样本中的女生数量多于男生数量,样本中的男生、女生均偏爱理科;由图1知,样本中有理科意愿的学生数量多于有文科意愿的学生数量,故选D.]5.(2016·汕头模拟)对四组不同数据进行统计,分别获得以下散点图,如果对它们的相关系数进行比较,下列结论中正确的是( )图7­8(1)图7­8(2)图7­8(3)图7­8(4)A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由给出的四组数据的散点图可以看出,图(1)和图(3)是正相关,相关系数大于0,图(2)和图(4)是负相关,相关系数小于0,图(1)和图(2)的点相对更加集中,所以相关性要强,所有r 1接近于1,r 2接近于-1,由此可得r 2<r 4<r 3<r 1.故选A.]6.(2017·南昌一模)设某中学的高中女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kgD .若该中学某高中女生身高为160 cm ,则可断定其体重必为50.29 kgD [因为回归直线方程y ^=0.85x -85.71中x 的系数为0.85>0,因此y 与x 具有正线性相关关系,所以选项A 正确;由最小二乘法及回归直线方程的求解可知回归直线过样本点的中心(x ,y ),所以选项B 正确;由于用最小二乘法得到的回归直线方程是估计值,而不是具体值,若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kg ,所以选项C 正确,选项D 不正确.]7.在用线性回归方程研究四组数据的拟合效果中,分别作出下列四个关于四组数据的残差图,则用线性回归模式拟合效果最佳的是( )ABCDC[当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,对比4个残差图,易知选项C的图对应的带状区域的宽度越窄.故选C.]8.(2017·江西南城一中、高安中学第九校3月联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=a +bc +d a +cb +d,得K 2=65×35×58×42≈9.616.参照下表,A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” C [K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.] 二、填空题9.(2017·汉中二模)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.【导学号:07804052】6 [x =5=5,y =5=5,代入回归直线方程,得14+c5=0.85×5-0.25,解得c =6.] 10.(2017·安徽百校联盟二模)已知x 、y 的取值为:从散点图可知y 与x 呈线性相关关系,且回归直线方程为y ^=1.2x +a ^,则当x =20时,y 的取值为________.27.6 [由表格可知x =3,y =7.2,所以这组数据的样本点的中心是(3,7.2),根据样本点的中心在回归直线上,得7.2=a ^+1.2×3,得a ^=3.6,所以这组数据对应的回归直线方程是y ^=1.2x +3.6,将x =20代入,得y =1.2×20+3.6=27.6.]11.(2017·山西太原五中一模)某小卖部销售某品牌的饮料的零售价与销量间的关系统计如下:已知x ,y 的关系符合回归方程y =b x +a ,其中b =-20.若该品牌的饮料的进价为2元,为使利润最大,零售价应定为________元. 3.75 [x =3.5,y =40,∴a ^=40-(-20)×3.5=110, ∴回归直线方程为:y ^=-20x +110,利润L =(x -2)(-20x +110)=-20x 2+150x -220, ∴x =15040=3.75元时,利润最大,故答案为3.75.]12.(2017·哈尔滨三中二模)以模型y =c e kx(e 为自然对数的底)去拟合一组数据时,为了求出回归直线方程,设z =ln y ,其变换后得到线性回归方程为z =0.4x +2,则c =________. e 2[∵y =c e kx,∴两边取对数,可得ln y =ln(c e kx )=ln c +ln e kx=ln c +kx , 令z =ln y ,可得z =ln c +kx , ∵z =0.4x +2, ∴ln c =2, ∴c =e 2.] 三、解答题13.(2017·石家庄一模)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如图7­9所示的茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.图7­9(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系?(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X 的分布列及数学期望. 附:K 2=n ad -bc 2a +b c +d a +cb +d,其中n =a +b +c +d .K 2=a +bc +d a +cb +d=20×20×28×12≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数X 的可能取值为0,1,2,3,4,P (X =0)=⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫1-352=4625,P (X =1)=C 1245⎝⎛⎭⎪⎫1-45⎝⎛⎭⎪⎫1-352+⎝ ⎛⎭⎪⎫1-452C 1235·⎝ ⎛⎭⎪⎫1-35=44625, P (X =2)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫1-352+C 1245⎝ ⎛⎭⎪⎫1-45·C 1235·⎝ ⎛⎭⎪⎫1-35+⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫352=169625, P (X =3)=C 1245⎝ ⎛⎭⎪⎫1-45⎝ ⎛⎭⎪⎫352+⎝ ⎛⎭⎪⎫452C 1235·⎝⎛⎭⎪⎫1-35=264625,P (X =4)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫352=144625,所以X 的分布列为所以E (X )=0×625+1×625+2×625+3×625+4×625=2.8.14.(2017·湖南三湘名校联盟三模)为了研究一种昆虫的产卵数y 和温度x 是否有关,现收集了7组观测数据列于下表中,并作出了散点图,发现样本点并没有分布在某个带状区域内,两个变量并不呈线性相关关系,现分别用模型①:y =C 1x 2+C 2与模型②:y =e C 3x +C 4作为产卵数y 和温度x 的回归方程来建立两个变量之间的关系.∑n i =1x i -xy i -y∑ni =1x i -x 2∑n i =1t i -ty i -y∑ni =1t i -t 2∑n i =1z i -zx i -x∑ni =1x i -x 2∑ni =1z i -zt i -t∑ni =1t i -t2其中t i =x 2i ,t =∑i =1t i ,z i =ln y i ,z =∑i =1z i ,附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=β^u +α^的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .图7­10(1)在答题卡中分别画出y 关于t 的散点图、z 关于x 的散点图,根据散点图判断哪一个模型更适宜作为回归方程类型?(给出判断即可,不必说明理由).图7­11(2)根据表中数据,分别建立两个模型下y 关于x 的回归方程;并在两个模型下分别估计温度为30℃时的产卵数.(C 1,C 2,C 3,C 4与估计值均精确到小数点后两位)(参考数据:e 4.65≈104.58,e4.85≈127.74,e5.05≈156.02)(3)若模型①、②的相关指数计算得分分别为R 21=0.82,R 22=0.96,请根据相关指数判断哪个模型的拟合效果更好.【导学号:07804053】[解] (1)画出y 关于t 的散点图,如图1;z 关于x 的散点图,如图2.图1 图2根据散点图可判断模型②更适宜作为回归方程类型. (2)对于模型①:设t =x 2,则y =C 1x 2+C 2=C 1t +C 2,其中C ^1=∑7i =1t i -ty i -y∑7i =1t i -t2=0.43,C ^2=y -C ^1t =80-0.43×692=-217.56,所以y =0.43x 2-217.56,当x =30时,估计温度为y 1=0.43×302-217.56=169.44. 对于模型②:y =e C 3x +C 4⇒z =ln y =C 3x +C 4,其中C ^3=∑7i =1z i -zx i -x∑7i =1x i -x2=0.32,C ^4=z -C ^3x =3.57-0.32×26=-4.75.所以y =e0.32x -4.75,当x =30时,估计温度为y 2=e0.32×30-4.75=e4.85≈127.74.(3)因为R 21<R 22,所以模型②的拟合效果更好.。

玩转高中数学研讨 第33讲 回归分析与独立性检验

玩转高中数学研讨 第33讲  回归分析与独立性检验

专题十一 概率与统计第三十三讲 回归分析与独立性检验1.(2020•全国1卷)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:°C )的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(,)(1,2,,20)i i x y i =得到下面的散点图:由此散点图,在10°C 至40°C 之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( ) A. y a bx =+B. 2y a bx =+C. e xy a b =+D. ln y a b x =+【答案】D【解析】根据散点图的分布可选择合适的函数模型.【详解】由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y 和温度x 的回归方程类型的是ln y a b x =+.故选:D. 【点睛】本题考查函数模型的选择,主要观察散点图的分布,属于基础题.2.(2020•全国2卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得20160i ix==∑,2011200i i y ==∑,2021)80i i x x =-=∑(,2021)9000i iy y =-=∑(,201))800i i i x y x y =--=∑((.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);附:相关系数r =12211))))ni iiiin ni i x y x x y y y x ===----∑∑∑((((,≈1.414.【答案】(1)12000;(2)0.94;(3)详见解析【解析】(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;(2)利用公式20120202211()()()()iii iii i x x y y r x x y y ===--=--∑∑∑计算即可;(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.【详解】(1)样区野生动物平均数为201111200602020i i y ==⨯=∑, 地块数为200,该地区这种野生动物的估计值为2006012000⨯= (2)样本(,)i i x y (i =1,2,…,20)的相关系数为20120202211()()220.94809000()()iii iii i x x y y r x x y y ===--===≈⨯--∑∑∑(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性, 由于各地块间植物覆盖面积差异很大,从俄各地块间这种野生动物的数量差异很大, 采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性, 从而可以获得该地区这种野生动物数量更准确的估计.【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考查学生数学运算能力,是一道容易题.3.(2020•全国3卷)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,【答案】(1)该市一天的空气质量等级分别为1、2、3、4的概率分别为0.43、0.27、0.21、0.09;(2)350;(3)有,理由见解析. 【解析】(1)根据频数分布表可计算出该市一天的空气质量等级分别为1、2、3、4的概率; (2)利用每组的中点值乘以频数,相加后除以100可得结果;(3)根据表格中的数据完善22⨯列联表,计算出2K 的观测值,再结合临界值表可得结论.【详解】(1)由频数分布表可知,该市一天的空气质量等级为1的概率为216250.43100++=,等级为2的概率为510120.27100++=,等级为3的概率为6780.21100++=,等级为4的概率为7200.09100++=; (2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100203003550045350100⨯+⨯+⨯= (3)22⨯列联表如下:()221003383722 5.820 3.84155457030K ⨯⨯-⨯=≈>⨯⨯⨯,因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.【点睛】本题考查利用频数分布表计算频率和平均数,同时也考查了独立性检验的应用,考查数据处理能力,属于基础题.4.(2020•新全国1山东)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和2SO 浓度(单位:3μg/m ),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且2SO浓度不超过150”的概率;(2)根据所给数据,完成下面的22⨯列联表:(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与2SO浓度有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,2()P K k≥0.050 0.010 0.001k 3.841 6.635 10.828 【答案】(1)0.64;(2)答案见解析;(3)有. 【解析】(1)根据表格中数据以及古典概型的概率公式可求得结果;(2)根据表格中数据可得22⨯列联表; (3)计算出2K ,结合临界值表可得结论.【详解】(1)由表格可知,该市100天中,空气中的 2.5PM 浓度不超过75,且2SO 浓度不超过150的天数有32618864+++=天,所以该市一天中,空气中的 2.5PM 浓度不超过75,且2SO 浓度不超过150的概率为640.64100=; (2)由所给数据,可得22⨯列联表为:(3)根据22⨯列联表中的数据可得222()100(64101610)()()()()80207426n ad bc K a b c d a c b d -⨯⨯-⨯==++++⨯⨯⨯36007.4844 6.635481=≈>,因为根据临界值表可知,有99%的把握认为该市一天空气中 2.5PM 浓度与2SO 浓度有关.【点睛】本题考查了古典概型的概率公式,考查了完善22⨯列联表,考查了独立性检验,属于中档题.2016-2019年1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆybx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为 A .160 B .163 C .166 D .1702.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+y t ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+y t . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.3.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑721()0.55ii y y =-=∑7≈2.646.参考公式:相关系数()()niit t y y r --=∑ 回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()niii ni i t t y y b t t ==--=-∑∑,=.a y bt -答案部分1.C 【解析】因为22.5x =,160y =,所以160422.570a =-⨯=,42470166y =⨯+=,选C . 2.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 3.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.。

理科数学2010-2019高考真题分类训练专题十一概率与统计第三十三讲回归分析与独立性检验答案

理科数学2010-2019高考真题分类训练专题十一概率与统计第三十三讲回归分析与独立性检验答案

专题十一 概率与统计第三十三讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以$160422.570a=-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得, ˆ0.76150.411.8y=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【解析】画出散点图知0,0b a <>.5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.7.D 【解析】由回归方程为$y =0.8585.71知y 随x 的增大而增大,所以y 与具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得17t =(1+2+3+4+5+6+7)=417y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y btt ==--===-∑∑$,$ 4.30.54 2.3ay bt =-=-⨯=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下由2×2列联表中数据代入公式计算,得222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b =∴7()10P A。

考点11 回归分析与独立性检验(学生版)

考点11  回归分析与独立性检验(学生版)

考点11 回归分析与独立性检验概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。

例如:2021年全国高考乙卷(文)、(理)[17],2022年全国新高考卷Ⅱ[19],2022年全国乙卷(文)、(理)[19],2022年全国甲卷(文)[17],2022年北京高考[18]等都对数字特征与概率的计算问题进行了考查。

〔1〕回归分析的实际应用1.求回归直线方程(线性回归方程)的一般步骤 (1)画散点图; (2)求回归直线方程; (3)用回归直线方程进行预报。

2.利用回归方程进行预测,把回归直线方程看作一次函数,求函数值。

3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数bˆ。

4.回归方程的拟合效果,可以利用相关系数判断,当||r 越趋近于1时,两变量的线性相关性越强。

〔2〕独立性检验的实际应用 1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量2K 的观测值k ,查表确定临界值0k ;(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()02k K P ≥;否则,就认为在犯错误的概率不超过()02k K P ≥的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y有关系”。

2.独立性检验的应用可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。

具体做法是: (1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值0k ; (2)利用公式,由观测数据计算得到随机变量2K 的观测值k ;(3)如果0k k ≥,就说有()()%100102⨯≥-k K P 的把握认为“X 与Y 有关系”(或说在犯错误的概率不超过()2k K P ≥的前提下认为“X 与Y 有关系”),否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据(或说在犯错误的概率不超过()02k K P ≥的前提下不能认为“X 与Y 有关系”)。

高考数学总复习 10-3 相关关系、回归分析与独立性检验

高考数学总复习 10-3 相关关系、回归分析与独立性检验

高考数学总复习 10-3 相关关系、回归分析与独立性检1.(2011·济南模拟)对于回归分析,下列说法错误的是()A.在回归分析中,变量间的关系是非确定性关系,因此因变量不能由自变量唯一确定B.线性相关系数可以是正的或负的C.回归分析中,如果r=±1,说明x与y之间完全线性相关D.样本相关系数r∈(-1,1)[答案] D[解析]∵相关系数|r|≤1,∴D错.2.(2011·西安模拟)在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()①若K2的观测值满足K2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误A.①B.①③C.③D.②[答案] C[解析]①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A,B,③正确.排除D,选C.3.(文)(2011·陕西文,9)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如下图),以下结论正确的是()A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 [答案] A[解析] ∵回归直线方程y ^=a ^+b ^x 中a ^=y --b ^x -,∴y ^=y --b ^x -+b ^x ,当x =x -时,y ^=y -,∴直线l 过定点(x -,y -). (理)(2011·山东文,8)某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元[答案] B[解析] 此题必须明确回归直线方程过定点(x ,y ).易求得x =3.5,y =42,则将(3.5,42)代入y ^=b ^x +a ^中得:42=9.4×3.5+a ^,即a ^=9.1,则y =9.4x +9.1,所以当广告费用为6万元时销售额为9.4×6+9.1=65.5万元.4.(2011·湖南文,5)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由χ2=n ad -bc 2 a +b c +d a +c b +d算得,χ2=110× 40×30-20×20 260×50×60×50≈7.8.附表:A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” [答案] A[解析] 根据独立性检验的定义,由χ2≈7.8>6.635可知,有99%以上把握认为“爱好该项运动与性别有关”.5.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值计算,得∑i =18x i =52,∑i =18y i =228,∑i =18x 2i =478,∑i =18x i y i =1849,则其回归直线方程为( )A.y ^=11.47+2.62x B.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x[答案] A[解析] 由∑i =18x i =52,∑i =18y i =228知,x -=6.5,y -=28.5,b ^=∑i =18x i y i -8x -y-∑i =18x 2i -8x -2=1849-8×6.5×28.5478-8×6.52≈2.62,∴a ^=y --b ^x -=28.5-2.62×6.5=11.47.6.(2011·中山四校联考、湖南六校联考)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:A .甲B .乙C .丙D .丁[答案] D[解析] r 越接近1,相关性越强,残差平方和m 越小,相关性越强,故选D. 7.(2011·辽宁文,14)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.[答案] 0.254[解析] 由回归直线方程为y ^=0.254x +0.321知收入每增加1万元,饮食支出平均增加0.254万元.8.(2011·合肥模拟)已知x 、y 之间的一组数据如下表:3对于表中数据,甲、乙两同学给出的拟合直线分别为l 1:y =13x +1与l 2:y =12x +12,利用最小二乘法判断拟合程度更好的直线是________(填l 1或l 2).[答案] l 2[解析] 用y =13x +1作为拟合直线时,所得y 值与y 的实际值的差的平方和为s 1=73;用y =12x +12作为拟合直线时,所得y 值与y 的实际值的差的平方和为s 2=12.∵s 2<s 1,故用直线y =12x +12拟合程度更好.9.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:为χ2=50× 13×20-10×7 223×27×20×30≈4.844.因为χ2≥3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________.[答案] 5%[解析] 根据独立性检验临界值表可知“x 与y 有关系”的可信度,P (χ2≥3.841)=0.05,∴有95%的可能认为x 与y 有关系,即判断出错的可能性为5%.10.(2010·扬州模拟)为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩:(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理性建议.[解析] (1)x -=100+-12-17+17-8+8+127=100;y -=100+-6-9+8-4+4+1+67=100;∴s 2数学=9947=142,s 2物理=2507, 从而s 2数学>s 2物理,∴物理成绩更稳定.(2)由于x 与y 之间具有线性相关关系,根据回归系数公式得到b ^=∑i =17x i y i -7x -y-∑i =17x 2i -7x -2=497994≈0.5, a ^=y --b ^x -=100-0.5×100=50, ∴回归直线方程为y ^=0.5x +50.当y =115时,x =130,即该生物理成绩达到115分时,他的数学成绩大约为130分.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.11.(2010·广东文)某市居民2005~2009年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:根据统计资料,居民家庭平均收入的中位数是________,家庭年平均收入与年平均支出有________线性相关关系.[答案] 13 正[解析] 找中位数时,将样本数据按大小顺序排列后奇数个时中间一个是中位数,而偶数个时须取中间两数的平均数,由统计资料可以看出,年平均收入增多时,年平均支出也增多,因此两者正相关.12.(2011·佛山二模)在2010年春节期间,某市物价部门,对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一组数据如下表所示:x 的回归直线方程为________.[答案] y ^=-3.2x +40[解析] ∑i =15x i y i =392,x -=10,y -=8,∑i =15(x i -x -)2=2.5,代入公式,得b ^=-3.2,所以,a ^=y --b ^x -=40,故回归直线方程为y ^=-3.2x +40.13.(2011·东北四校联考)某小卖部为了了解热茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:由表中数据算得线性回归方程y =bx +a 中的b ≈-2,预测当气温为-5℃时,热茶销售量为________杯.(已知回归系数b =∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a =y --b x -)[答案] 70[解析] 根据表格中的数据可求得x -=14×(18+13+10-1)=10,y -=14×(24+34+38+64)=40.∴a =y --b x -=40-(-2)×10=60,∴y ^=-2x +60,当x =-5时,y ^=-2×(-5)+60=70.14.(2011·湖南六校联考)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:13回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程y ^=bx +a ;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?(参考公式:b =∑i =1nx i -x - y i -y -∑i =1nx i -x -2,a =y --b x -.)[解析] 将6组数据按月份顺序编号为1,2,3,4,5,6,从中任取两组数据,基本事件空间Ω={(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)}中共15个基本事件,设抽到相邻两个月的事件为A ,则A ={(1,2),(2,3),(3,4),(4,5),(5,6)}中共5个基本事件,∴P (A )=515=13.(2)由表中数据求得x -=11,y -=24, 由参考公式可得b =187,再由a =y --b x -求得a =-307,[来源:Z&xx&]所以y 关于x 的线性回归方程为y ^=187x -307.(3)当x =10时,y ^=1507,|1507-22|=47<2;同样,当x =6时,y ^=787,|787-12|=67<2.所以,该小组所得线性回归方程是理想的.15.(文)(2011·郑州市质检)某中学对高二甲、乙两个同类班级进行“加强…语文阅读理解‟训练对提高…数学应用题‟得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面2×2列联表,并问是否有75%的把握认为“加强…语文阅读理解‟训练对提高…数学应用题‟得分率”有帮助.参考公式及数据:χ2=n ad -bc a +b c +d a +c b +d,[甲班优秀人数为30人,优秀率为3050=60%,乙班优秀人数为25人,优秀率为2550=50%,所以甲、乙两班的优秀率分别为60%和50%.(2)因为χ2=50×50×55×45=10099≈1.010,所以由参考数据知,没有75%的把握认为“加强…语文阅读理解‟训练对提高…数学应用题‟得分率”有帮助.(理)(2011·福建普通高中质检)某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A、B两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如下.记成绩不低于90分者为“成绩优秀”.(1)个,求抽出的两个均“成绩优秀”的概率;(2)由以上统计数据填写下面列联表,并判断是否有90%的把握认为:“成绩优秀”与教学方式有关.附:χ2=n n 11n 2212n 21n 1+n 2+n +1n +2从不低于86分的成绩中随机抽取2个的基本事件为(86,93),(86,96),(86,97),(86,99),(86,99),(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),(96,99),(97,99),(97,99),(99,99),共15个.而事件A 包含基本事件:(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),(96,99),(97,99),(97,99),(99,99),共10个.所以所求概率为P (A )=1015=23.(2)由已知数据得χ2=40× 1×15-5×19 26×34×20×20≈3.137,由于3.137>2.706,所以有90%的把握认为“成绩优秀”与教学方式有关.1.甲、乙、丙三名射箭运动员在某次测试中各射箭20次,三人的测试成绩如下表s1、s2、s3) A.s3>s1>s2B.s2>s1>s3C.s1>s2>s3D.s2>s3>s1[答案] B[解析]计算可得甲、乙、丙的平均成绩都为8.5.s1=120[5 7-8.52+5 8-8.5 2+5 9-8.5 2+5 10-8.5 2]=2520.同理s2=2920,s3=2120,∴s2>s1>s3.2.(2010·厦门三中阶段训练)某校举行演讲比赛,9位评委给选手A打出的分数如茎叶图所示,统计员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若统计员计算无误,则数字x应该是()A.5 C .3 D .2[答案] D[解析] 去掉最低分87,去掉最高分94(假设x ≤4),则7×91=80×2+9+8+90×5+2+3+2+1+x ,∴x =2,符合题意,故选D.3.(2010·广东佛山)为了对2007年佛山市中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排列是60、65、70、75、80、85、90、95,物理分数从小到大排列是72、77、80、84、88、90、93、95.(1)若规定85分(包括85分)以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;(2)若这8位同学的数学、物理、化学分数事实上对应如下表:(3)求y 与x 、z 与x 的线性回归方程(系数精确到0.01),并用相关指数比较所求回归模型的效果.参考数据:x -=77.5,y -=85,z -=81,∑i =18 (x i -x -)≈1050,∑i =18 (y i -y -)2≈456,∑i =18(z i -z -)≈550,∑i =18 (x i -x -)(y i -y -)≈688,∑i =18 (x i -x -)(z i -z -)≈755,∑i =18 (y i -y ^i )≈7,∑i =18(z i -z ^i )2≈94,1050≈32.4,456≈21.4,550≈23.5.[解析] (1)这8位同学中恰有3位同学的数学和物理分数均为优秀,则需要先从物理的4个优秀分数中选出3个与数学优秀分数对应,种数是C 34A 33(或A 34),然后将剩下的5个数学分数和物理分数任意对应,种数是A 55.根据乘法原理,满足条件的种数是C 34A 33A 55.这8位同学的物理分数和数学分数分别对应的种数共有A 88.故所求的概率P =C 34A 33A 55A 88=114. (2)变量y 与x 、z 与x 的相关系数分别是 r =68832.4×21.4≈0.99,r ′=75532.4×23.5≈0.99可以看出,物理与数学、化学与数学的成绩都是高度正相关. (3)设y 与x 、z 与x 的线性回归方程分别是y ^=bx +a ,z ^=b ′x +a ′根据所给的数据可以计算出,b =6881050=0.65,a =85-0.65×77.5=34.63,b ′=7551050=0.72,a ′=81-0.72×77.5=25.20所以y 与x 和z 与x 的回归方程分别是 y ^=0.65x +34.63,z ^=0.72x +25.20,又y 与x 、z 与x 的相关指数是R 2=1-7456≈0.98,R ′2=1-94550≈0.83故回归模型y ^=0.65x +34.63比回归模型z ^=0.72x +25.20的拟合的效果好.。

高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)

高考数学复习考点知识与题型专题讲解专题18 回归分析、独立性检验1.有关独立性检验的问题,解题思路如下:(1)利用频率估计概率;(2)根据题意,求得2K的值,对照临界值得结果.2.对于非线性回归方程及其应用,考查将非线性回归问题转化为线性回归问题求解,在解题的过程中,要注重回归方程的公式的正确计算,注意所给数据的正确应用.2倍.1 / 31(1)求表中a,b的值,并补全表中所缺数据;(2)运用独立性检验思想,判断是否有99.5%的把握认为中学生使用手机对学习有影响?参考数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】三省三校“3 3 3”2021届高考备考诊断性联考卷(二)【答案】(1)28,14,ab=⎧⎨=⎩,表格答案见解析;(2)有99.5%的把握认为中学生使用手机对学习有影响.【分析】(1)由题意可得122680,2a ba b+++=⎧⎨=⎩从而可求出,a b的值,进而可填出列联表;(2)直接利用公式()()()()()22n ad bcKa b c d a c b d-=++++求解,然后根据临界值表得结论【解析】(1)由己知得122680,2a ba b+++=⎧⎨=⎩解得28,14,ab=⎧⎨=⎩补全表中所缺数据如下:(2)根据题意计算观测值为()2280282614129.8257.87942384040K⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为中学生使用手机对学习有影响.2.某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度Cx︒时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a=+和z dx c=+(其中lnz y=)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程:(方程3 / 31表示为()y f x =的形式,数据计算结果保留两位小数)(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害. 附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 【试题来源】甘肃省兰州市2020-2021学年高三下学期诊断试题【答案】(1)乙同学模型的相关指数2R 更接近1;(2)应选择z dx c =+做为回归方程,0.22 2.22x y e -=;(3)近期当地不会发生虫害.【分析】(1)通过观察图象即可得出结论;(2)根据(1)的结论,应选择z dx c =+做为回归方程,利用最小二乘法即可求解,求出,d c 即可. (3)当25x =时,求出估计值,即可判断得出结论.【解析】(1)乙同学模型的相关指数2R 更接近1.(2)根据(1)的结论,应选择z dx c =+做为回归方程,根据公式,812221757826 3.30.22, 3.30.2226 2.425722826i i i nii x z nxzd c z dx xnx =-=--⨯⨯==≈=-≈-⨯=--⨯-∑∑, 0.22 2.42z x ∴=-,5 / 31故y 关于x 的回归方程为0.22 2.22x y e -=.(3)当25x =时,0.22 2.22 3.084x y e e e -==<,因此近期当地不会发生虫害. 3.人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:参考公式:相关系数()()niix x y y r --=∑,回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-. 【试题来源】2021年新高考测评卷数学(第二模拟)【答案】(1)答案见解析;(2)ˆ0.482192y x =+;(3)13100元.【分析】(1)将已知数据代入相关系数的求解公式即可得解;(2)根据题中数据及参考公式求得ˆb ,ˆa ,即可建立y 关于x 的线性回归方程;(3)由题意知半年人均盈余为ˆx y-,得到不等式ˆ4620x y -≥,解不等式即可. 【解析】(1)由题意知()()316839000000.983800018400iix x yy r --==≈⨯∑,因为y 与x 的相关系数近似为0.98,接近1,所以y 关于x 的线性相关程度非常高,因此可以用线性回归模型拟合y 与x 的关系.(2)()()()3113121683900000ˆ0.481412000000ii i ii xx y y bxx ==--==≈-∑∑,ˆˆ96320.48155002192ay bx =-≈-⨯=,所以ˆ0.482192y x =+. (3)半年人均盈余为ˆ0.4821920.522192x yx x x -=--=-, 令0.5221924620x -≥,得13100x ≥,故估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为131007 / 31元.4.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+dy c x=+建立y 关于x 的回归方程,令s =1t =得到如下数据:213t131i =∑21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374=15.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v uαβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数ni i u vnu vr -⋅∑.【试题来源】湖北省八市2021届高三下学期3月联考 【答案】(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54yx=-;(3)当温度为20时这种草药的利润最大.【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型dy c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz,利用基本不等式求得利润z 的最大值以及对应的x 值.【解析】(1)由题意知20.9953r =-,10.8858r ====,因为121r r <<,所有用dy c x=+模型建立y 与x 的回归方程更合适. (2)因为1311322113 2.1ˆ100.2113i ii ii t y t ydtt ==-⋅-===--∑∑, ˆˆ109.94100.16111.54cy dt =-=+⨯=,9 / 31所以ˆy关于x 的回归方程为10ˆ111.54y x=- (3)由题意知11012020(111.54ˆˆ)22zy x x x =-=--20012230.8()2x x =-+ 2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x 时等号成立,所以当温度为20时这种草药的利润最大.5.已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】山东省聊城市第一中学2021届高三一模检测题(一)【答案】(1)表格见解析,不能;(2)2930.【分析】(1)由已知完成列联表,结合公式计算2K 根据参考数据即可判断结果;(2)由分层抽样得在[)60,70里面抽6个,[)70,80里面抽4个,再用对立事件求解概率即可. 【解析】(1)做个皮尔逊卡方检验的话,有()2250286412 3.125 3.84132184010K ⨯⨯-⨯==<⨯⨯⨯故此不能推翻零假设,不能认定成绩和态度有关.(2)这样分层抽样,会在[)60,70里面抽6个,[)70,80里面抽4个,11 / 31设A 为没有人在[60,70)内的事件,则概率即为()1P P A =-3431029130C C =-=.6.某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++.【试题来源】江西省九所重点中学(玉山一中、临川一中等)2021届高三3月联合考试【答案】(1)该疫苗在M含量指标上是“安全的”;(2)表格见解析,没有. 【分析】(1)求出区间(]1.0,1.2上的频率,以及平均数即可得结论;(2)根据题意写出列联表,计算2K的值,并与3.841比较即可得出结论. 【解析】(1)由频率分布直方图得M含量数据落在区间(]1.0,1.2上的频率为0.150.20.03⨯=,故出现血症的比例为3%5%<,由直方图得平均数为0.30.20.50.30.70.30.90.17 1.10.030.606x=⨯+⨯+⨯+⨯+⨯=即志愿者的M含量的平均数为0.606%0.65%<综上,该疫苗在M含量指标上是“安全的”.(2)依题意得,抽取的50名志愿者中女性志愿者应为25人由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04 所以全部女性志愿者阳性共有2000.048⨯=人由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有4000.0312⨯=人因此男性志愿者被检测出阳性的人数是1284-=人.所以完成表格如下:由22⨯列联表可()22400419281961.375 3.84120020012388K⨯⨯-⨯=≈<⨯⨯⨯,由参考表格,可得,故没有超过95%的把握认为注射疫苗后,高铁血红蛋白血症与性别有关.7.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:(1)由上表数据可知,可用线性回归模型拟合y与x的关系.请用相关系数加以说明;(精确到0.01)(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.13 / 31参考公式:相关系数()()niix x y y r --=∑.线性回归方程ˆˆˆybx a =+中斜率和截距最小二乘估计计算公式:()()()121ˆniii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =-. 参考数据:()71()14.00i i i x x y y =--=∑,()7217.08i iy y =-=∑14.10≈.【试题来源】四川省成都市2021届高三第二次诊断性检测【答案】(1)答案见解析;(2)ˆ0.5 2.3yx =+,7.3万元. 【分析】(1)根据统计数据求x 、y 、()721i i x x =-∑,结合参考数据及相关系数公式,求相关系数r ,进而判断y 与x 的相关程度;(2)利用最小二乘法公式估计ˆb 、ˆa ,写出线性回归方程,进而将10x =代入估算求值.【解析】(1)由题意,知123456747x ++++++==,2.903.30 3.604.40 4.805.20 5.904.307y ++++++==,()()()()()()()()72222222211424344454647428i i x x =-=-+-+-+-+-+-+-=∑.所以结合参考数据知14.000.9914.10r ==≈≈.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系.15 / 31(2)因为()()()7172114ˆ0.528iii ii x x y y bx x ==--===-∑∑, 所以ˆˆ 4.30.54 2.3ay bx =-=-⨯=. 所以y 关于x 的线性回归方程为ˆ0.5 2.3y x =+,将10x =代入线性回归方程,得ˆ0.510 2.37.3y=⨯+=. 所以估算该种机械设备使用10年的失效费为7.3万元.8.人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【试题来源】2021年高三数学二轮复习讲练测(新高考版) 【答案】(1) 1.520.38x y e +=;(2)见解析.【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解 (2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解【解析】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c xy c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x y z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.17 / 31所以 1.520.38ln z x y =+=,所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍.【名师点睛】对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.9.随着手机游戏的发展,在给社会带来经济利益的同时,也使许多人深陷其中,从而产生一些负面的影响.A ,B 两所学校为了解学生每天玩游戏的时间,各自抽取了100名学生进行调查,得到的数据如表所示:A 学校B 学校(1)以样本估计总体,计算A 学校学生日游戏时间的平均数以及B 学校学生日游戏时间的中位数.(2)为了调查家长对孩子玩游戏的态度,学校相关领导随机抽取了200名男性家长和200名女性家长进行调查,并将所得结果统计如表所示,判断是否有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】普通高等学校招生全国统一考试数学预测卷(一)【答案】(1)A学校学生日游戏时间的平均数为64.7()min;B学校学生日游戏时间的中位数为74()min;(2)没有.【分析】(1)根据频率分布表,利用平均数公式求解;由中位数的定义求解;(2)根据22⨯列联表中的数据,利用()()()()()22n ad bcKa b c d a c b d-=++++求得2K的值,再与临界值表对照下结论.【解析】(1)A学校学生日游戏时间的平均数为3.50.1450.14550.16650.2750.18850.13950.0964.7⨯+⨯+⨯+⨯+⨯+⨯+⨯=()min.B学校学生日游戏时间的中位数为5037102070107425----+⨯=()min.19 / 31(2)由已知可得22⨯列联表:则()2240013639161648.17210.828200200297103K ⨯⨯-⨯=≈<⨯⨯⨯, 所以没有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关. 10.为了解国内不同年龄段的民众旅游消费的基本情况.某旅游网站从其数据库中随机抽取了1000条客户信息进行分析,这些客户一年的旅游消费金额数据如下表所示;把一年的旅游消费金额满8千元称为“高消费”,否则称为“低消费”. (1)从这些客户中随机选一人,求该客户是高消费的中老年人的概率; (2)完成下面的22⨯列联表,并判断能否有99%的把握认为旅游消费的高低与年龄有关.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++【试题来源】学科网2021年高三1月大联考考后强化卷(新课标Ⅱ卷)【答案】(1)15;(2)填表见解析;有.【分析】(1)用频率估计概率,计算样本中高消费的中老年人的频率即为概率;(2)将数据填入列联表,用2K的计算公式计算2K的观测值k,与附表中的数据比较可得出结论.【解析】(1)样本中总客户数为1000,其中高消费的中老年人有200人,随机选一人,则该客户是高消费的中老年人的概率为2001 10005=.(2)2×2列联表如下:21 / 31可得2K的观测值21000(300200100400)7.937400600700300k ⨯⨯-⨯=≈⨯⨯⨯, 因为7.937 6.635>,所以有99%的把握认为旅游消费的高低与年龄有关. 11.2020山东省旅游发展大会暨首届中国国际文化旅游博览会在济南奥体中心东荷体育馆隆重开幕.大会以“文旅融合发展,乐享好客山东”为主题,来自38个国家和地区的友好宾朋,跨越空间阻隔,相约线上交流,共同推动山东文化和旅游业发展谱写新的篇章.某机构为了解人们对博览会的关注度是否与年龄有关,随机抽取了200位市民(其中40周岁及以下与40周岁以上各100人)进行问卷调查,并得到如下的22⨯列联表:(1)根据22⨯列联表,判断是否有90%的把握认为对博览会的关注度与年龄有关;(2)若从关注度极高的被调查者中按年龄分层抽样的方法抽取9人了解他们从事的职业情况,再从9人中任意选取2人谈谈关注博览会的原因,求这2人中两个年龄段的市民各一人的概率.附:22()()()()()n ad bc Ka b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】普通高等学校招生全国统一考试数学预测卷(三)【答案】(1)有;(2)59.【分析】(1)根据22⨯列联表中的数据求得2K 值,再与临界值表对照下结论; (2)先利用分层抽样的方法抽取各层的人数,然后再求得9人中任意选取2人的基本事件数和这2人中两个年龄段的市民各一人的基本事件数,代入古典概型的概率公式求解.【解析】(1)由22⨯列联表可得22200(60524840) 2.899 2.70610010010892K ⨯⨯-⨯=≈>⨯⨯⨯,故有90%的把握认为对博览会的关注度与年龄有关.(2)根据题意,从关注度极高的被调查者中按年龄分层抽样的方法抽取9人, 则抽取40周岁及以下的有6095108⨯=人,40周岁以上的有954-=人. 从9人中任意选取2人的基本事件有29C 36=个,这2人中两个年龄段的市民各一人的基本事件有1154C C 20=个;则这2人中两个年龄段的市民各一人的概率205369P ==. 12.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:23 / 31(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()niix x y y r --=∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 临界值表:22.02.【试题来源】重组卷05-冲刺2021年高考数学之精选真题模拟重组卷(新课标卷)【答案】(1)0.84;管理时间y 与土地使用面积x 的线性相关程度为强相关;(2)有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.【分析】(1)根据参考公式和数据计算相关系数r 的值,并判断强弱关系;(2)根据列联表计算2K ,并和临界数表比较大小. 【解析】(1)1234535x ++++==,911142620165y ++++==, ()()()()()()()()113916231116331416niii x x y y =--=-⨯-+--+-⨯-∑()()()()43261653201637+--+--=,()()()()()()2222221132333435310ni i x x =-=-+-+-+-+-=∑, ()()()()()()22222219161116141626162016194ni i y y =-=-+-+-+-+-=∑44.04=≈,()()370.840.7544.04niix x y y r --==≈>∑, 所以管理时间y 与土地使用面积x 的线性相关程度为强相关.(2)由条件可知女性不愿意参与管理的人数为300140604060---=()223001406060402510.828200100180120K ⨯⨯-⨯==>⨯⨯⨯,所以有99.9%的把握认为村民的性别与参与管理的意愿具有相关性. 13.某公司对项目进A 行生产投资,所获得的利润有如下统计数据表:(1)请用线性回归模型拟合y 与x 的关系,并用相关系数加以说明; (2)该公司计划用7百万元对A 、B 两个项目进行投资.若公司对项目B 投资25 / 31()16x x ≤≤百万元所获得的利润y 近似满足:0.490.160.491y x x =-++,求A 、B 两个项目投资金额分别为多少时,获得的总利润最大? 附:①对于一组数据()11,x y 、()22,x y 、、(),n n x y ,其回归直线方程y bx a=+的斜率和截距的最小二乘法估计公式分别为1221ni ii nii x y nx yb xnx==-⋅=-∑∑,ˆa y bx=-. ②线性相关系数ni ix y nx yr -⋅=∑.一般地,相关系数r 的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱. 参考数据:对项目A 投资的统计数据表中111ni i i x y ==∑,212.24ni i y ==∑ 2.1≈.【试题来源】2021年高考数学金榜预测卷(山东、海南专用)【答案】(1)0.2y x =;答案见解析;(2)对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大.【分析】(1)计算出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出回归直线方程,并计算出相关系数r 的值,可得出结论;(2)求得()0.491.930.0411y x x ⎡⎤-++⎢+⎣=⎥⎦,利用基本不等式可求得y 的最大值,利用等号成立求得x 的值,即可得出结论.【解析】(1)对项目A 投资的统计数据进行计算,有3x =,0.6y =,52155i i x ==∑,所以515222151190.255535i ii i i x y x yb x x==-⋅-===-⨯-∑∑,0.60.230a y bx =--⨯==,所以回归直线方程为0.2y x =.线性相关系数55i ix y x yr -⋅==∑0.95340.95=≈>, 这说明投资金额x 与所获利润y 之间的线性相关关系较强, 用线性回归方程0.2y x =对该组数据进行拟合合理;(2)设对B 项目投资()16x x ≤≤百万元,则对A 项目投资()7x -百万元. 所获总利润()()0.490.490.490.27 1.930.60411110.x x y x x x ⎡⎤++-=⎥=--++⎢++⎣⎦1.93 1.65≤-=, 当且仅当()100.04194.x x =++,即 2.5x =时取等号, 所以对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大. 14.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:27 / 31根据以上数据,回答下面问题.(1)甲同学用曲线y =bx +a 来拟合,并算得相关系数r 1=0.97,乙同学用曲线y =ce dx 来拟合,并算得转化为线性回归方程所对应的相关系数r 2=0.99,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于x 的回归方程(系数精确到0.01). 参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令8820.4411ln ,0.84,()() 6.50,() 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑【试题来源】安徽省示范高中皖北协作区2021届高三下学期第23届联考 【答案】(1)答案见解析;(2)0.151.15x y e =.【分析】(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出x ,结合回归方程变形为ln ln y c dx =+,求出d 和ln c ,从而可求出回归方程.【解析】(1)因为1201r r <<<,所以dx y ce =更适合作为y 关于x 的回归方程类型. (2)12345678364.588x =++++++===,由dx y ce =得ln ln y c dx =+,即ln c dx ω=+,则1821()()6.50.1542()Niii ii x x d x x ωω==--==≈-∑∑, 13ln 0.84 4.50.1484c dx ω=-=-⨯≈,所以0.140.150.140.150.151.15dx x x x y ce e e e e +====. 【名师点睛】本题考查了回归方程的求解,本题第二问的关键是对回归方程,结合对数的运算性质进行变形,结合最小二乘法求线性回归方程的系数公式进行求解.15.打乒乓球是一项众多中学生喜爱的体育运动,某中学体育协会为了解这项运动与性别的关联性,随机调查了100名男生和100名女生,每位学生回答喜欢或不喜欢,得到下面的列联表:(1)分别估计该中学男、女生喜欢打乒乓球的概率;(2)能否有99.5%的把握认为中学生喜欢打乒乓球与性别有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【试题来源】吉林省白山市2021届高三第三次联考(4月份)【答案】(1)男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35;(2)有99.5%的把握认为中学生喜欢打乒乓球与性别有关.【分析】(1)根据题意,利用公式求得男生和女生喜欢打乒乓球的频率,从而估计出其概率;(2)由题意,求得2K的值,对照临界值得出结论.【解析】(1)由调查数据可知,男生喜欢打乒乓球的频率为550.55 100=,女生喜欢打乒乓球的频率为350.35 100=,因此该中学男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35.(2)因为2 2200(55653545)8001001009011099 K⨯⨯-⨯==⨯⨯⨯且80080087.879 99100>=>,所以有99.5%的把握认为中学生喜欢打乒乓球与性别有关.16.某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.29 / 31表中1i i u x =,8118i i u u ==∑(1)根据散点图判断:y a bx =+与dy c x=+哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.01);(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)附:对于一组数据1122(,),(,,,),()n n v v v ωωω⋯,其回归直线v αβω=+的斜率和截距的最小二乘估计分别为121()()()niii nii v v ωωβωω==--=-∑∑,v αβω=-.【试题来源】2021年高考数学考前信息必刷卷(江苏专用) 【答案】(1)d y c x =+更适合;(2)8.961.22y x=+;(3)至少印刷11120册才能使销售利润不低于80000元.【分析】(1)由散点图可知成反比例函数模型,故dy c x=+更适合; (2)令1u x=,根据表中的数据计算即可得y 关于u 的线性回归方程为1.228.96y u=+,进而得y 关于x 的回归方程为8.961.22y x=+; (3)根据题意只需解不等式8.969.22 1.2280x x x ⎛⎫-+≥ ⎪⎝⎭即可得答案.【解析】(1)由散点图判断,dy c x=+更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程. (2)令1u x=,先建立y 关于u 的线性回归方程,由于81821()()7.0498.9578.960.787()i iiiiu u y ydu u==-⋅-==≈≈-∑∑,所以 3.638.9570.269 1.22c yd u=-⋅=-⨯≈,所以y关于u的线性回归方程为 1.228.96y u=+,所以y关于x的回归方程为8.961.22yx =+(3)假设印刷x千册,依题意得8.969.22 1.2280x xx⎛⎫-+≥⎪⎝⎭,解得11.12x≥,所以至少印刷11120册才能使销售利润不低于80000元.31 / 31。

高考真题——回归分析和独立性检验

高考真题——回归分析和独立性检验副标题一、选择题(本大题共9小题,共45.0分)1.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是()参考公式:K2=附表:列联表中c的值为30,b的值为35B. 列联表中c的值为15,b的值为50C. 根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”D. 根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4成绩视力 C. 智商 D. 阅读量3.下列两个变量中具有相关关系的是()A. 正方形的面积与边长B. 匀速行驶的车辆的行驶距离与时间C. 人的身高与体重D. 人的身高与视力4.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程=3-5x,变量x增加1个单位时,y平均增加5个单位;③线性回归方程=x+必过(,);④设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越高;⑤在一个2×2列联表中,由计算得K2的值,则K2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是()A. 0B. 1C. 2D. 35.某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理分数对应如下表:绘出散点图如下:根据以上信息,判断下列结论:①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;③甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高.其中正确的个数为A. 0B. 3C. 2D. 16.有人认为在机动车驾驶技术上,男性优于女性.这是真的么?某社会调查机构与交警合作随机统计了经常开车的100名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面的列联表:附:K2=据此表,可得()A. 认为机动车驾驶技术与性别有关的可靠性不足B. 认为机动车驾驶技术与性别有关的可靠性超过C. 认为机动车驾驶技术与性别有关的可靠性不足D. 认为机动车驾驶技术与性别有关的可靠性超过7.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y=b1x+a1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y=b2x+a2,相关系数为r2.则()A. B. C. D.8.由K2=得K2=≈8.333>7.879A. 有以上的把握认为“爱好该项运动与性别有关”B. 有以上的把握认为“爱好该项运动与性别无关”C. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别无关”9.有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和身体健康情况;④圆的半径与面积;⑤汽车的重量和每千米耗油量.其中两个变量成正相关的是()A. ①③B. ②④C. ②⑤D. ④⑤二、填空题(本大题共1小题,共5.0分)10.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生。

高考数学命题角度3.4独立性检验及回归分析大题狂练理(2021学年)

2018年高考数学命题角度3.4 独立性检验及回归分析大题狂练理编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018年高考数学命题角度3.4 独立性检验及回归分析大题狂练理)的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018年高考数学命题角度3.4独立性检验及回归分析大题狂练理的全部内容。

命题角度3。

4 独立性检验及回归分析1.专家研究表明,2。

5是霾的主要成份,在研究 2.5形成原因时,某研究人员研究了2。

5与燃烧排放的、、、等物质的相关关系.下图是某地某月2。

5与和相关性的散点图。

(Ⅰ)根据上面散点图,请你就,对 2.5的影响关系做出初步评价;(Ⅱ)根据有关规定,当排放量低于时排放量达标,反之为排放量超标;当2。

5值大于时雾霾严重,反之雾霾不严重.根据2。

5与相关性的散点图填写好下面列联表,并判断有多大的把握认为“雾霾是否严重与排放量有关”:雾霾不严重雾霾严重总计排放量达标排放量超标总计(Ⅲ)我们知道雾霾对交通影响较大。

某市交通部门发现,在一个月内,当排放量分别是60,120,180时,某路口的交通流量(单位:万辆)一次是800,600,200,而在一个月内,排放量是60,120,180的概率一次是,,(),求该路口一个月的交通流量期望值的取值范围。

附:0。

1000.0500.0100。

0012。

7063.8416.63510.828【答案】(Ⅰ)对有正相关关系,而对没有相关关系;(Ⅱ)见解析;(Ⅲ)见解析。

试题解析:(Ⅰ)对有正相关关系,而对没有相关关系。

(Ⅱ)列联表如下:雾霾不严重雾霾严重总计排放量达标13518排放量超标21012总计151530由表中数据可知。

文科数学2010-2019高考真题分类训练专题十概率与统计第二十九讲回归分析与独立性检验答案

专题十 概率与统计第二十九讲 回归分析与独立性检验答案部分 2019年1.解析 (1)由调查数据,男顾客中对该商场服务满意的比率为400.850=,因此男顾客对该商场服务满意的概率的估计值为0.8. 女顾客中对该商场服务满意的比率为300.650=,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)22100(40203010) 4.76250507030K ⨯⨯-⨯=≈⨯⨯⨯. 由于4.762 3.841>,故有95%的把握认为男、女顾客对该商场服务的评价有差异.2010-2018年1.C 【解析】因为变量x 和y 满足关系0.11y x =-+,其中0.10-<,所以x 与y 成负相关;又因为变量y 与正相关,不妨设z ky b =+(0)k >,则将0.11y x =-+代入即可得到:(0.11)0.1()z k x b kx k b =-++=-++,所以0.10k -<,所以x 与负相关,综上可知,应选C .2.A 【解析】画出散点图知0,0b a <>.3.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.4.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.5.D 【解析】由回归方程为$y =0.85x –85.71知y 随x 的增大而增大,所以y 与具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-,所以回归直线过样本点的中心(x ,y ), 利用回归方程可以预测估计总体,所以D 不正确.6.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 7.乙 数学 【解析】①由图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排名比总成绩排名靠前,故填乙.②由图可知,比丙的数学成绩排名还靠后的人比较多;而总成绩的排名中比丙排名靠后的人数比较少,所以丙的数学成绩的排名更靠前,故填数学.8.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 9.【解析】(1)由样本数据得(,)(1,2,,16)i x i i =L 的相关系数为16()(8.5)0.18ix x i r --==≈-∑.由于||0.25r <,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i )由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.(ii )剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.162221160.212169.971591.134ii x==⨯+⨯≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815--⨯≈,0.09≈. 10.【解析】(Ⅰ)由折线图中数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,89.232.9417.40))((717171=⨯-=-=--∑∑∑===i i i i i i i iy t y t y y t t,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得103.02889.2)())((ˆ71271≈=---=∑∑==i ii i it ty y t tb , 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I )由所给数据计算得17t =(1+2+3+4+5+6+7)=417y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y btt ==--===-∑∑$,$ 4.30.54 2.3ay bt =-=-⨯=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下由2×2列联表中数据代入公式计算,得222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b =∴7()10P A。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第33讲 回归分析与独立性检验 一、选择题
1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为
ˆˆˆy
bx a =+.已知10
1
225i
i x
==∑,10
1
1600i i y ==∑,ˆ4b
=.该班某学生的脚长为24,据此估计其身高为( ) A .160 B .163
C .166
D .170
2.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
根据上表可得回归本线方程
ˆˆˆy
bx a =+,其中ˆˆˆ0.76,b
a y bx ==-,据此估计,该社区一户收入为15万元家庭年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元
D .12.2万元
3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为(
) A .0.4 2.3y x =+ B .2 2.4y x =- C .29.5y x =-+ D .0.3 4.4y x =-+
4.
A .0a >,0b <
B .0a >,0b >
C .0a <,0b <
D .0a <,0b >
5.(2012新课标)在一组样本数据(x 1,y 1),(x
2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线1
12
y x =+上,则这组样本数据的样本相关系数为( ) A .−1 B .0
C .1
2
D .1
6.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,
y )
C .若该大学某女生身高增加1cm ,则其体重约增加0.85kg
D .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg
8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表
根据上表可得回归方程
ˆˆˆy
bx a =+中的ˆb 为9.4,据此
模型预报广告费用为6万元时销售额为( ) A .63.6万元 B .65.5万元 C .67.7万元 D .72.0万元
二、解答题
9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了
y 与时间变量t 的两个线性回归模型.根据2000年至
2016年的数据(时间变量t 的值依次为1217,,
…,)建立模型①:ˆ30.413.5=-+y
t ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+y
t . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
10.(2016年全国III )下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;
(Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:
7
1
9.32i
i y
==∑,7
1
40.17i i i t y ==∑

0.55=
2.646.
参考公式:相关系数()()
n
i
i
t t y y r
--=
∑ 回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:
1
2
1
()()
()n
i
i i n
i
i t
t y y b t
t ==--=
-∑∑,=.a y bt -
11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量
y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量
i y (i =1,2,
··
·,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
)y -表中i w =w =
1
8
8
1
i i w =∑.
(Ⅰ)根据散点图判断,y a bx =+与y c =+个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;
(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为
0.2z y x =-.根据(Ⅱ)的结果回答下列问题:
(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少?
(ⅱ)年宣传费x 为何值时,年利率的预报值最大?
附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为
1
2
1
()()
ˆ()
n
i
i
i n
i
i u u v v u u β
==--=-∑∑,ˆˆv u α
β
=-.
12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:
(Ⅰ)求y 关于t 的线性回归方程;
(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
()()
()
1
2
1
n
i
i
i n
i i t t y y b t t ∧
==--=
-∑∑,ˆˆa
y bt
=-
13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?
(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级
体育迷”中任意选取2人,求至少有1名女
性观众的概率.
附:2
1212
211222112
)(++++-=n n n n n n n n n χ,。

相关文档
最新文档