2020-2021学年高考数学(理)考点:变量间的相关关系、统计案例
2020届高考数学理一轮考点测试变量间的相关关系与统计案例

z= ln c+ kx.因为 z= 0. 3x+4,所以 ln c= 4,所以 c= e4.
二、高考小题
7.(2017 ·山东高考 ) 为了研究某班学生的脚长 x( 单位:厘米 ) 和身高 y( 单位:厘米 ) 的关系,从该班随机抽
取 10 名学生,根据测量数据的散点图可以看出
y 与 x 之间有线性相关关系.设其回归直线方程为
i=1
10i =1
10
1 10
∵ yi = 1600,∴
i=1
y
=
10
i
=
yi
1
=
160
.
又b^= 4,∴ a^= y - b^ x = 160-4×22. 5= 70.
∴回归直线方程为 y^= 4x+ 70. 将 x= 24 代入上式得 y^=4×24+ 70= 166. 故选 C. 8.(2017 ·全国卷Ⅲ ) 某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了 2016 年 12 月期间月接待游客量 ( 单位:万人 ) 的数据,绘制了下面的折线图.
2014 年 1 月至
根据该折线图,下列结论错误的是 (
)
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在 7, 8 月
D.各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较平稳
答案 A
解析 对于选项 A,由图易知月接待游客量每年 7, 8 月份明显高于 12 月份,故 A 错;对于选项 B,观察折线
A, B 两变量有更强的线性相关性.故选 D.
4.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有
2021年高考数学真题分类汇编 11.4 变量间的相关关系与统计案例 文

2021年高考数学真题分类汇编 11.4 变量间的相关关系与统计案例文考点一变量间的相关关系1.(xx湖北,6,5分)根据如下样本数据x 3 4 5 6 7 8y 4.0 2.5 -0.5 0.5 -2.0 -3.0得到的回归方程为=bx+a,则( )A.a>0,b<0B.a>0,b>0C.a<0,b<0D.a<0,b>0答案 A考点二独立性检验2.(xx江西,7,5分)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1成绩性别不及格及格总计男 6 14 20 女10 22 32 总计16 36 52表2视力性别好差总计男 4 16 20 女12 20 32 总计16 36 52表3智商性别偏高正常总计男8 12 20 女8 24 32 总计16 36 52表4阅读量性别丰富不丰富总计男14 6 20女 2 30 32总计16 36 52A.成绩B.视力C.智商D.阅读量答案 D3.(xx安徽,17,12分)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=P(K2≥k0) 0.10 0.05 0.010 0.005k0 2.706 3.841 6.635 7.879解析(1)300×=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生女生总计每周平均体育运动时间不超过4小时45 30 75每周平均体育运动时间超过4小时165 60 225总计210 90 300结合列联表可算得K2==≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.4.(xx辽宁,18,12分)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生60 20 80北方学生10 10 20合计70 30 100(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附: χ2=,P(χ2≥k)0.100 0.050 0.010k 2.706 3.841 6.635解析(1)将2×2列联表中的数据代入公式计算,得χ2===≈4.762.由于4.762>3.841,所以有95%的把握认为南方学生和北方学生在选用甜品的饮食习惯方面有差异.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3 ),(a2,b1,b3),(b1,b2,b3)}.其中a i表示喜欢甜品的学生,i=1,2.b j表示不喜欢甜品的学生,j=1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A表示“3人中至多有1人喜欢甜品”这一事件,则A={(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3),(a2,b1,b3),(b1,b2,b3)}.事件A是由7个基本事件组成的,因而P(A)=.32256 7E00 縀24134 5E46 幆27791 6C8F 沏q29939 74F3 瓳22879 595F 奟 32171 7DAB 綫v 38507 966B 陫23241 5AC9 嫉40655 9ECF 黏 22964 59B4 妴。
2021年高考数学 第十章 第3课时 变量间的相关关系、统计案例知能演练轻松闯关 新人教A版

2021年高考数学第十章第3课时变量间的相关关系、统计案例知能演练轻松闯关新人教A版1.(xx·辽宁六校联考)某产品在某零售摊位上的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:由上表可得回归直线方程y=b x+a中的b=-4,据此模型预计零售价定为15元时,每天的销售量为( )A.48个B.49个C.50个D.51个解析:选B.由题意知x=17.5,y=39,代入回归直线方程得a^=109.当x =15时,y^=109-15×4=49.2.(xx·湖南省五市十校联合检测)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K2=n(a+b)(c+d)(a+c)(b+d)算得,K2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析:选A.因为6.635<7.8<10.828,所以有99%以上的把握认为“爱好该项运动与性别有关”.3.(xx·云南昆明市调研测试)变量U与V相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U与V的线性回归分析,R2表示解释变量对于预报变量变化的贡献率,则R2=( )A.35B.45C.1 D.3解析:选C.依题意,注意到点(1,1.4),(2,2.2),(3,3),(4,3.8)均位于直线y -1.4=2.2-1.42-1(x -1),即y =0.8x +0.6上,因此解释变量对于预报变量变化的贡献率R 2=1.4.下列说法错误的是( )A .回归直线过样本点的中心(x ,y )B .线性回归方程对应的直线y ^=b ^x +a ^至少经过其样本数据点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好 解析:选B .回归直线必过样本点的中心,A 正确;由残差分析可知残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C 正确;在回归分析中,R 2越接近于1,模拟效果越好,D 正确;线性回归方程对应的直线y ^=b ^x +a ^一定经过样本点的中心(x ,y ),但不一定经过样本数据点,所以B 错误.5.(xx·山东东营模拟)已知变量x 与y 之间的回归直线方程为y ^=-3+2x ,若∑10i =1x i =17,则∑10i =1y i 的值等于( ) A .3 B .4 C .0.4D .40解析:选B .依题意x =1710=1.7, 而直线y ^=-3+2x 一定经过(x ,y ),所以y =-3+2x =-3+2×1.7=0.4,∴∑10i =1y i =0.4×10=4. 6.下面是一个2×2列联表则表中a ,b 解析:∵a +21=73,∴a =52. 又∵a +2=b ,∴b =54. 答案:52,547.(xx·辽宁大连市双基测试)已知下列表格所示数据的回归直线方程为y ^=3.8x +a ,则a 的值为________.解析:由已知得,x=4,y=258,因为点(x,y)在回归直线上,所以a=242.8.答案:242.88.(xx·山东济南市模拟考试)为了均衡教育资源,加大对偏远地区的教育投入,调查了某地若干户家庭的年收入x(单位:万元)和年教育支出y(单位:万元),调查显示年收入x与年教育支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y^=0.15x+0.2.由回归直线方程可知,家庭年收入每增加1万元,年教育支出平均增加________万元.解析:由题意知,0.15(x+1)+0.2-(0.15x+0.2)=0.15.答案:0.159.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)K2的观测值k=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关.10.某农科所对冬季昼夜温差与某反季节大豆种子发芽多少之间的关系进行分析研究,他们记录了12月1日至5日的昼夜温差与每天100颗种子的发芽数,数据如下:求线性回归方程,再用被选取的两组数据进行检验.(1)若先选取的是12月1日和5日的数据,请根据2日至4日的三组数据,求y关于x的线性回归方程y^=b^x+a^;(2)若由回归方程得到的估计数据与检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试判断(1)中所得到的线性回归方程是否可靠?解:(1)由数据,求得x=12,y=27,由公式,求得b^=52,a^=y-b^x=-3,所以y关于x的线性回归方程为y^=52x-3.(2)当x=10时,y^=52×10-3=22,|22-23|<2,同样,当x=8时,y^=52×8-3=17,|17-16|<2.所以,该农科所得到的线性回归方程是可靠的.[能力提升]1.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为7,则下列说法正确的是( )A.列联表中c的值为30,b的值为35B.列联表中c的值为15,b的值为50C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”解析:选C.由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c=20,b=45,选项A、B错误.根据列联表中的数据,得到K2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.2.(xx·安徽合肥检测)由数据(x1,y1),(x2,y2),…,(x10,y10)求得线性回归方程y^=b^x+a^,则“(x0,y0)满足线性回归方程y^=b^x+a^”是“x0=x1+x2+…+x1010,y0=y1+y2+…+y1010”的( )A.充分不必要条件B.必要不充分条件C.充要条件D.既不充分也不必要条件解析:选B.(x0,y0)为这10组数据的平均值,又因为回归直线y^=b^x+a^必过样本中心点(x,y),因此(x0,y0)一定满足线性回归方程,但坐标满足线性回归方程的点不一定是(x,y).3.(xx·山东菏泽调研)某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查对临界值表知P(K2≥3.841)≈0.05.对此,四名同学做出了以下的判断:p:有95%的把握认为“这种血清能起到预防感冒的作用”;q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒;r:这种血清预防感冒的有效率为95%;s:这种血清预防感冒的有效率为5%.则下列命题中,真命题的序号是________.(把你认为正确的命题序号都填上)①p∧綈q②綈p∧q③(綈p∧綈q)∧(r∨s)④(p∨綈r)∧(綈q∨s)解析:由题意,得K 2≈3.918,P (K 2≥3.841)≈0.05,所以只有第一位同学的判断正确,即有95%的把握认为“这种血清能起到预防感冒的作用”.由真值表知①④为真命题.答案:①④4.(xx·广东梅州一模)在xx 年8月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:直线方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.解析:x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,线性回归直线一定经过样本中心(x ,y ),即6+n5=-3.2⎝⎛⎭⎪⎫8+m 5+40, 即3.2m +n =42.又∵m +n =20,即⎩⎨⎧3.2m +n =42,m +n =20,解得⎩⎨⎧m =10,n =10,故n =10.答案:105.(xx·福建泉州一模)甲、乙两台机床生产同一型号零件.记生产的零件的尺寸为t(cm),相关行业质检部门规定:若t∈(2.9,3.1],则该零件为优等品;若t∈(2.8,2.9]∪(3.1,3.2],则该零件为中等品;其余零件为次品.现分别从甲、乙机床生产的零件中各随机地抽取50件,经质量检测得到下表数据:将频率视为概率,试根据样本估计总体的思想,估算甲机床生产一件零件的利润的数学期望;(2)对于这两台机床生产的零件,在排除其他因素影响的情况下,试根据样本估计总体的思想,估计约有多大的把握认为“零件优等与否和所用机床有关”,并说明理由.参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).参考数据:则有E(X)元).所以,甲机床生产一件零件的利润的数学期望为2.48元.(2)由表中数据可知:甲机床优等品40个,非优等品10个;乙机床优等品30个,非优等品20个.制作2×2列联表如下:≈4.762.计算K2的观测值k=50×50×70×30考察参考数据并注意到3.841<4.762<5.024,可知:对于这两台机床生产的零件,在排除其他因素影响的情况下,根据样本估计总体的思想,约有95%的把握认为“零件优等与否和所用机床有关”.6.(选做题)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧人数占女生人数的23.(1)若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则男生至少有多少人;(2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人?解:设男生人数为x ,依题意可得列联表如下:(1)则k >3.841,由K 2=3x 2(x 6×x 6-5x 6×x 3)2x ×x 2×x 2×x =38x >3.841,解得x>10.24.∵x2,x6为整数,∴若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则男生至少有12人.(2)没有充分的证据显示是否喜欢韩剧和性别有关,则k≤2.706.由K2=3x2(x6×x6-5x6×x3)2x×x2×x2×x=38x≤2.706,解得x≤7.216,∵x2,x6为整数,∴若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有6人.30580 7774 睴21734 54E6 哦36831 8FDF 迟E28794 707A 灺26561 67C1 柁333343 823F 舿27008 6980 榀30664 77C8 矈Z。
2021高考数学考点突破——统计与统计案例变量间的相关关系与统计案例学案

2021高考数学考点突破——统计与统计案例变量间的相关关系与统计案例学案【考点梳理】1.回来分析回来分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判定相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,关于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)假如散点图中点的分布从整体上看大致在一条直线邻近,称两个变量具有线性相关关系.2.线性回来方程(1)最小二乘法:使得样本数据的点到回来直线的距离的平方和最小的方法叫做最小二乘法.(2)回来方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回来方程为y ^=b ^x +a ^,则b ^=∑ni =1x i -x y i -y ∑ni =1 x i -x 2=∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a ^=y-b ^x .其中,b ^是回来方程的斜率,a ^是在y 轴上的截距.3.残差分析(1)残差:关于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估量值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数:R 2=1-∑ni =1y i -y ^i2∑ni =1 y i -y2.4.独立性检验(1)利用随机变量K 2来判定“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d则随机变量K2=n ad-bc2a+b a+c b+d c+d(其中n=a+b+c+d为样本容量).【考点突破】考点一、相关关系的判定【例1】(1)两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A.①②③ B.②③①C.②①③ D.①③②(2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(3)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3[答案] (1) D (2) C (3) A[解析] (1)第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,因此应该是①③②.(2)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y+a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(3)由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1. 【类题通法】1.利用散点图判定两个变量是否有相关关系是比较直观简便的方法.假如所有的样本点都落在某一函数的曲线邻近,变量之间就有相关关系.假如所有的样本点都落在某一直线邻近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.2.利用相关系数判定,当|r |越趋近于1,相关性越强. 当残差平方和越小,相关指数R 2越大,相关性越强. 【对点训练】1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.依照该图,下列结论中正确的是( )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20% [答案] B[解析] 因为散点图出现上升趋势,故交体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.2.四名同学依照各自的样本数据研究变量x ,y 之间的相关关系,并求得回来直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④[答案] D[解析] 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0C .12 D .1[答案] D[解析] 因为所有样本点都在直线y =12x +1上,因此这组样本数据完全正相关,故其相关系数为1.考点二、线性回来方程及应用【例2】某地随着经济的进展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表1:为了研究运算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:(1)求z 关于t 的线性回来方程;(2)通过(1)中的方程,求出y 关于x 的回来方程;(3)用所求回来方程推测到2020年年底,该地储蓄存款额可达多少?(附:关于线性回来方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )[解析] (1)由已知,得t =3,z =2.2,∑i =15t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-1.2×3=-1.4,∴z ^=1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8. (3)∵y ^=1.2×2 020-2 410.8=13.2,∴推测到2020年年底,该地储蓄存款额可达13.2千亿元. 【类题通法】回来直线方程中系数的2种求法(1)公式法:利用公式,求出回来系数b ^,a ^.(2)待定系数法:利用回来直线过样本点中心(x ,y )求系数. 【对点训练】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的阻碍.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑i =18(x i -x )2∑i =18(w i -w )2∑i =18(x i -x )(y i -y )∑i =18(w i -w )(y i -y )46.65636.8289.81.61 469108.8表中w i =x i ,w =18∑i =18w i .(1)依照散点图判定,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回来方程类型?(给出判定即可,不必说明理由)(2)依照(1)的判定结果及表中数据,建立y 关于x 的回来方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .依照(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:关于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回来直线v =α+βu 的斜率和截距的最小二乘估量分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .[解析] (1)由散点图能够判定,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回来方程类型.(2)令w =x ,先建立y 关于w 的线性回来方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,因此y 关于w 的线性回来方程y ^=100.6+68w , 因此y 关于x 的回来方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②依照(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.因此当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.【例3】如图是我国2008年至2020年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2020.(1)由折线图看出,可用线性回来模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回来方程(系数精确到0.01),推测2021年我国生活垃圾无害化处理量. 参考数据:∑ 7i =1y i =9.32,∑ 7i =1t i y i =40.17,∑7i =1y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑ ni =1t i -ty i -y∑ ni =1t i -t2∑ni =1y i -y2,回来方程y ^=a ^+b ^t 中斜率和截距的最小二乘估量公式分别为b ^=∑ni =1t i -ty i -y∑ ni =1t i -t2,a ^=y --b ^t .[解析] (1)由折线图中的数据和附注中的参考数据得 t =4,∑ 7i =1(t i -t )2=28,∑7i =1y i -y2=0.55,∑7i =1(t i -t )(y i -y )=∑ 7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89, 因此r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而能够用线性回来模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑ 7i =1t i -t y i -y∑7i =1t i -t2=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92.因此y 关于t 的回来方程为y ^=0.92+0.10t .将2021年对应的t =9代入回来方程得y ^=0.92+0.10×9=1.82. 因此推测2021年我国生活垃圾无害化处理量约为1.82亿吨. 【类题通法】线性回来分析确实是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,能够推测可能的结果,这确实是线性回来方程的差不多应用,因此利用最小二乘法求线性回来方程是关键,必须熟练把握线性回来方程中两个重要估量量的运算.【对点训练】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:经运算得16119.9716i i x x ===∑,0.212s ==≈,18.439≈,161()(8.5) 2.78i i xx i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅.(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否能够认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则能够认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,假如显现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能显现了专门情形,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估量这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()niix x y y r --=∑,0.09≈.[解析] (1)由样本数据得(,)(1,2,,16)i x i i =的相关系数为16116162211()(8.5)0.180.2121618.439()(8.5)ii ii i x x i r x x i ===--==≈-⨯⨯--∑∑∑.由于||0.25r <,因此能够认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于9.97,0.212x s =≈,由样本数据能够看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.(ii)剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=,这条生产线当天生产的零件尺寸的均值的估量值为10.02.162221160.212169.971591.134ii x==⨯+⨯≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815--⨯≈, 这条生产线当天生产的零件尺寸的标准差的估量值为0.0080.09≈.考点三、独立性检验【例4】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收成时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估量A的概率;(2)填写下面列联表,并依照列联表判定是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)(精确到0.01).附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828K2=n2a+b c+d a+c b+d.[解析] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估量值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估量值为0.66.因此,事件A的概率估量值为0.62×0.66=0.409 2.(2)由(1)知可得列联表箱产量<50 kg箱产量≥50 kg旧养殖法6238新养殖法34 66由表中数据及K 2的运算公式得, K 2=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估量值为50+0.5-0.340.068≈52.35(kg). 【类题通法】解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一样步骤:(1)依照样本数据制成2×2列联表; (2)依照公式K 2=n ad -bc 2a +ba +cb +dc +d运算K 2的观测值k ;(3)比较k 与临界值的大小关系,作统计推断. 【对点训练】为了了解某学校高二年级学生的物理成绩,从中抽取n 名学生的物理成绩(百分制)作为样本,按成绩分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],频率分布直方图如图所示,成绩落在[70,80)中的人数为20.(1)求a 和n 的值;(2)依照样本估量总体的思想,估量该校高二学生物理成绩的平均数x -和中位数m ; (3)成绩在80分以上(含80分)为优秀,样本中成绩落在[50,80)中的男、女生人数比为1∶2,成绩落在[80,100)中的男、女生人数比为3∶2,完成2×2列联表,并判定能否在犯错误的概率不超过0.05的前提下认为物理成绩优秀与性别有关.男生女生合计优秀 不优秀 合计附:参考公式和数据:K 2=n ad -bc 2a +bc +d a +cb +d, P (K 2≥k 0)0.500.05 0.025 0.005 k 00.4553.8415.0247.879[解析] (1), 解得a =0.05,则n =2010×0.05=40.(2)由频率分布直方图可知各组的频率分别为0.05,0.2,0.5,0.15,0.1, 因此x -=55×0.05+65×0.2+75×0.5+85×0.15+95×0.1=75.5, (m -70)×0.05=0.5-(0.05+0.2),得m =75.(3)由频率分布直方图可知成绩优秀的人数为40×(0.015+0.01)×10=10,则不优秀的人数为40-10=30.因此优秀的男生为6人,女生为4人; 不优秀的男生为10人,女生为20人. 因此2×2列联表如下:男生 女生 总计 优秀 6 4 10 不优秀 10 20 30 总计162440因此K 2=40×216×24×10×30≈2.222<3.841,因此在犯错误的概率不超0.05的前提下不能认为物理成绩优秀与性别有关.。
考点34 变量的相关关系与统计案例(学生版) 备战2021年新高考数学微专题补充考点精练

考点34 变量的相关关系与统计案例1、了解样本相关系数的统计含义,2、了解样本相关系数与标准化数据向量夹角的关系,了解一元线性回归模型及独立性检验的含义,3、了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,针对实际问题,会用一元线性回归模型进行预测.独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为中档题,高考中经常是将独立性检验与概率统计相综合进行命题,解题关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解问题.1、独立性检验利用随机变量2K (也可表示为2χ)2()()()()()n ad bc a b c d a c b d -=++++(其中n a b c d =+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验. 2、独立性检验的一般步骤 (1)根据样本数据列出22⨯列联表;(2)计算随机变量2K 的观测值k ,查下表确定临界值k 0:(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()20P K k ≥;否则,就认为在犯错误的概率不超过()20P K k ≥的前提下不能推断“X 与Y 有关系”.k≤时,样本数据就没有充分的证据显示“X与Y有关系”.【注意】(1)通常认为 2.706(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.(4)已知分类变量的数据,判断两类变量的相关性.可依据数据及公式计算2K,然后作出判断.3、相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫做相关关系.即相关关系是一种非确定性关系.当一个变量的值由小变大时,另一个变量的值也由小变大,则这两个变量正相关;当一个变量的值由小变大时,而另一个变量的值由大变小,则这两个变量负相关.【注意】相关关系与函数关系的异同点:共同点:二者都是指两个变量间的关系.不同点:函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系.4、非线性回归方程及应用求非线性回归方程的步骤:1.确定变量,作出散点图.2.根据散点图,选择恰当的拟合函数.3.变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.4.分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.5.根据相应的变换,写出非线性回归方程.1、【2020年高考全国Ⅰ卷理数】某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)x y i =得到下面的散点的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(,)(1,2,,20)i i图:由此散点图,在10°C 至40°C 之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是 A .y a bx =+ B .2y a bx =+ C .e x y a b =+D .ln y a b x =+2、【2020年高考全国Ⅰ卷理数】某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i=1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得20160i ix==∑,2011200i i y ==∑,2021)8(0ii x x =-=∑,2021)9000(i i y y =-=∑,201)()800(i i i y y x x =--=∑.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i ) (i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数12211)(()()()iiini n i ini x y r x y x y x y ===----=∑∑∑2 1.414≈.3、【2020年高考全国III 卷理数】某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天): 锻炼人次(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表); (3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附:K 24、【2020年高考山东】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和2SO 浓度(单位:3μg/m ),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且2SO浓度不超过150”的概率;(2)根据所给数据,完成下面的22⨯列联表:(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与2SO浓度有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,5、【2018年高考全国Ⅱ卷理数】下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5y t =-+;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5y t =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.6、【2018年高考全国Ⅲ卷理数】某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:()()()()()22n ad bcKa b c d a c b d-=++++,()2P K k≥0.0500.0100.001k 3.841 6.63510.828二年模拟试题题型一、独立性检验与线性回归方程1、(2020届山东省德州市高三上期末)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有()人附表:附:()()()()()22n ad bcKa b c d a c b d-=++++A.25B.45C.60D.752、(2020届山东省烟台市高三上期末)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如图所示的列联表.经计算2K的观测值 4.762k≈,则可以推断出()A.该学校男生对食堂服务满意的概率的估计值为5B.调研结果显示,该学校男生比女生对食堂服务更满意C.有95%的把握认为男、女生对该食堂服务的评价有差异D.有99%的把握认为男、女生对该食堂服务的评价有差异3、(2020届山东省德州市高三上期末)某公司为了了解年研发资金投人量x(单位:亿元)对年销售额y(单位:亿元)的影响.对公司近12年的年研发资金投入量i x 和年销售额i y 的数据,进行了对比分析,建立了两个函数模型:①2y x αβ=+,②x ty eλ+=,其中α、β、λ、t 均为常数,e 为自然对数的底数.并得到一些统计量的值.令2i i u x =,()ln 1,2,,12i i v y i ==⋅⋅⋅,经计算得如下数据:(1)请从相关系数的角度,分析哪一个模型拟合程度更好? (2)(ⅰ)根据(1)的选择及表中数据,建立y 关于x 的回归方程;(ⅱ)若下一年销售额y 需达到90亿元,预测下一年的研发资金投入量x 是多少亿元?附:①相关系数()()niix x y y r --=∑回归直线y a bx =+中公式分别为:()()()121n iii nii x x y y b x x ==--=-∑∑,a y bx =-;②参考数据:308477=⨯9.4868≈, 4.499890e ≈.4、(2020届山东省日照市高三上期末联考)某公司准备投产一种新产品,经测算,已知每年生产()515x x ≤≤万件的该种产品所需要的总成本()32231630910x C x x x =-++(万元),依据产品尺寸,产品的品质可能出现优、中、差三种情况,随机抽取了1000件产品测量尺寸,尺寸分别在[)25.26,25.30,[)25.30,25.34,[)25.34,25.38,[)25.38,25.42,[)25.42,25.46,[)25.46,25.50,[]25.50,25.54(单位:mm )中,经统计得到的频率分布直方图如图所示.产品的品质情况和相应的价格m (元/件)与年产量x 之间的函数关系如下表所示. 产品品质 立品尺寸的范围价格m 与产量x 的函数关系式优[)25.34,25.4634m x =-+中[)25.26,25.34 3255m x =-+差[]25.46,25.543205m x =-+以频率作为概率解决如下问题: (1)求实数a 的值;(2)当产量x 确定时,设不同品质的产品价格为随机变量ξ,求随机变量ξ的分布列; (3)估计当年产量x 为何值时,该公司年利润最大,并求出最大值.5、(2020届山东省潍坊市高三上学期统考)班主任为了对本班学生的考试成绩进行分析,决定从本班24名女同18名男同学中随机抽取一个容量为7的样本进行分析.(1)如果按照性别比例分层抽样,可以得到多少个不同的样本?(写出算式即可,不必计算出结果) (2)如果随机抽取的7名同学的数物理成绩(单位:分)对应如下表:①若规定85分以上(包括85分)为优秀,从这7名同学中抽取3名同记3名同学中数学和物理成绩均为优秀的人数为ξ,求ξ的分布列和数学期望;②根据上表数据,求物理成绩y 关于数学成绩x 的线性回归方程(系数精确到0.01);若班上某位同学的数学成绩为96分,预测该同学的物理成绩为多少分? 附:线性回归方程y bx a =+,其中121()()()niii nii x x y y b x x ==--=-∑∑,a y bx =-.6、(2020届山东省滨州市高三上期末)近年,国家逐步推行全新的高考制度.新高考不再分文理科,某省采用33+模式,其中语文、数外语三科为必考科目,每门科目满分均为150分.另外考生还要依据想考取的高校及专业的要求,结合自己的兴趣爱好等因素,在思想政治、历史、地理、物理、化生物6门科目中自选3门参加考试(6选3),每门科目满分均为100分.为了应对新高考,某高中从高一年级1000名学生(其中男生550人,女生450人)中,采用分层抽样的方法从中抽取n 名学生进行调查,其中,女生抽取45人. (1)求n 的值;(2)学校计划在高一上学期开设选修中的“物理”和“地理”两个科目,为了了解学生对这两个科目的选课情况,对抽取到的n 名学生进行问卷调查(假定每名学生在“物理”和“地理”这两个科目中必须选择一个科目且只能选择一个科目),下表是根据调查结果得到的一个不完整的22⨯列联表,请将下面的22⨯列联表补充完整,并判断是否有99%的把握认为选择科目与性别有关?说明你的理由;(3)在抽取到的45名女生中,按(2)中的选课情况进行分层抽样,从中抽出9名女生,再从这9名女生中抽取4人,设这4人中选择“物理”的人数为X ,求X 的分布列及期望.附:22()()()()()n ad bc K a b a c c d b d -=++++,n a b c d =+++题型二线性相关与概率的结合1、(2020届山东省潍坊市高三上期末)读书可以使人保持思想活力,让人得到智慧启发,让人滋养浩然正气书籍是文化的重要载体,读书是承继文化的重要方式某地区为了解学生课余时间的读书情况,随机抽取了n名学生进行调查,根据调查得到的学生日均课余读书时间绘制成如图所示的频率分布直方图,将日均课余读书时间不低于40分钟的学生称为“读书之星”,日均课余读书时间低于40分钟的学生称为“非读书之星”:已知抽取的样本中日均课余读书时间低于10分钟的有10人(1)求,n p的值;(2)根据已知条件完成下面的22列联表,并判断是否有95%以上的把握认为“读书之星”与性别有关?非读书之星读书之星总计(3)将上述调查所得到的频率视为概率,现从该地区大量学生中,随机抽取3名学生,每次抽取1名,已知每个人是否被抽到互不影响,记被抽取的“读书之星”人数为随机变量X,求X的分布列和期望()E X附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.2、(2020·湖北高三期末(理))某土特产超市为预估2020年元旦期间游客购买土特产的情况,对2019年元旦期间的90位游客购买情况进行统计,得到如下人数分布表.(1)根据以上数据完成22⨯列联表,并判断是否有95%的把握认为购买金额是否少于60元与性别有关.(2)为吸引游客,该超市推出一种优惠方案,购买金额不少于60元可抽奖3次,每次中奖概率为p(每次抽奖互不影响,且p的值等于人数分布表中购买金额不少于60元的频率),中奖1次减5元,中奖2次减10元,中奖3次减15元.若游客甲计划购买80元的土特产,请列出实际付款数X(元)的分布列并求其数学期望.附:参考公式和数据:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.附表:3、(2020·山东省淄博实验中学高三上期末)近年来,国资委.党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:(1)求出相关系数r 的大小,并判断管理时间与土地使用面积x 是否线性相关? (2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?(3)若以该村的村民的性别与参与管理意愿的情况估计贫困县的情况,则从该贫困县中任取3人,记取到不愿意参与管理的男性村民的人数为x ,求x 的分布列及数学期望. 参考公式:1()()nix x y y r --=∑22(),()()()()n ad bc k a b c d a c b d -=++++其中n a b c d =+++.临界值表:25.2≈。
专题68 变量间的相关关系与统计案例-高考数学复习资料(解析版)

D.58 件
【答案】A
【解析】由题中数据,得 x =10, y =38,回归直线y^=b^x+a^过点( x , y ),且b^=-2,代入得a^=58, 则回归方程y^=-2x+58,所以当 x=6 时,y=46,故选 A.
附: K 2
n(ad bc)2
.
(a b)(c d)(a c)(b d)
P(K2≥k) 0.050 0.010 0.001
k
3.841 6.635 10.828
【解析】 (1)由调查数据,男顾客中对该商场服务满意的比率为 40 0.8 ,因此男顾客对该商场服务满 50
意的概率的估计值为0.8.
支出费用为 3.00 万元的家庭购买水果和牛奶的年支出费用约为( )
A.1.795 万元
B.2.555 万元
C.1.915 万元
D.1.945 万元
【答案】A
【解析】
x
1 = ×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),
y
1 = ×(1.25+1.30+1.50+1.70
^
y=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=-30.4+13.5t 上下,
这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010 年
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
--
(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(x,y)称为
2020年高考山东版高考理科数学 12.5 变量间的相关关系与统计案例
12.5 变量间的相关关系与统计案例挖命题【考情探究】分析解读 1.理解用回归分析处理变量相关关系的数学方法,理解最小二乘法.2.了解独立性检验的基本思想,认识统计方法在决策中的作用.3.了解回归的基本思想方法及其简单应用.4.回归分析与独立性检验在今后的高考中分值可能会提高.本节在高考中主要以选择题、解答题的形式呈现,分值约为5分或12分,小题为容易题,解答题属中档题.破考点【考点集训】考点变量间的相关关系、统计案例1.(2018广东肇庆二模,5)已知x与y之间的一组数据:若y关于x的线性回归方程为=x+,,则的值为( )A.1.25B.-1.25C.1.65D.-1.65答案D2.(2017江西南城一中、高安中学等九校3月联考,7)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.由K2=-,得K2=-≈9.616.参照下表,正确的结论是( )A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案C3.(2018山东淄博一模,19)为了响应“文化强国建设”号召,某市把社区图书阅览室建设增列为重要的民生工程.为了解市民阅读需求,随机抽取市民200人做调查,统计显示,男士喜欢阅读古典文学的有64人,不喜欢的有56人;女士喜欢阅读古典文学的有36人,不喜欢的有44人.(1)能否在犯错误的概率不超过0.25的前提下认为喜欢阅读古典文学与性别有关系?(2)为引导市民积极参与阅读,有关部门牵头举办读书交流会,从这200人中筛选出5名男代表和4名女代表,其中有3名男代表和2名女代表喜欢古典文学.现从这9名代表中任选3名男代表和2名女代表参加交流会,记ξ为参加交流会的5人中喜欢古典文学的人数,求ξ的分布列及数学期望Eξ.附:K2=-,其中n=a+b+c+d.参考数据:解析(1)根据所给条件,制作2×2列联表如下:所以K2的观测值k=-=,因为K2的观测值k=>1.323,所以由所给临界值表可知,在犯错误的概率不超过0.25的前提下认为喜欢阅读古典文学与性别有关. (2)设参加交流会的5人中喜欢古典文学的男代表有m人,女代表有n人,则ξ=m+n,根据已知条件可得ξ的所有可能取值为1,2,3,4,5,P(ξ=1)=P(m=1,n=0)=·=,P(ξ=2)=P(m=1,n=1)+P(m=2,n=0)=·+·=,P(ξ=3)=P(m=1,n=2)+P(m=2,n=1)+P(m=3,n=0)=·+·+·=,P(ξ=4)=P(m=2,n=2)+P(m=3,n=1)=·+·=,P(ξ=5)=P(m=3,n=2)=·=,所以ξ的分布列是所以Eξ=1×+2×+3×+4×+5×=.思路分析(1)根据所给条件,制作列联表,求出K2的观测值k,由所给临界值表判断能否在犯错误的概率不超过0.25的前提下认为喜欢阅读古典文学与性别有关.(2)设参加交流会的5人中喜欢古典文学的男代表有m人,女代表有n人,则ξ=m+n,根据已知条件得ξ的所有可能取值,分别求出相应的概率,由此能求出ξ的分布列和数学期望.易错警示本题中有关独立性检验的计算是易失分点.要求学生提高计算能力.炼技法【方法集训】方法1 线性回归分析1.(2018广东七校期末联考,5)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表:由表中数据得回归直线方程=x+中的=-2,预测当气温为-4 ℃时,用电量度数为( )A.68B.67C.65D.64答案A2.(2017豫南九校2月联考,13)已知下表所示数据的回归直线方程为=4x+242,则实数a= .答案2623.(2017湖南百所重点中学阶段性诊断,18)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)这3年的前7个月中哪个月的月平均利润较高?(2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.相关公式:=---=--,=-.解析(1)由折线图可知5月和6月的月平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元),第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元),第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元),所以这3年的前7个月的总利润呈上升趋势.(3)∵=2.5,=5,12+22+32+42=30,1×4+2×4+3×6+4×6=54,=0.8,∴=--∴=5-2.5×0.8=3,∴=0.8x+3,当x=8时,=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.方法2 独立性检验1.(2017湖南邵阳二模,3)假设有两个分类变量X和Y的2×2列联表:对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( )A.a=45,c=15B.a=40,c=20C.a=35,c=25D.a=30,c=30答案A2.(2018山东实验中学上学期第二次诊断,11)某中学学生会为了调查爱好游泳运动与性别是否有关,通过随机询问110名性别不同的高中生是否爱好游泳运动得到如下2×2列联表:由K2=-并参照附表,得到的正确结论是( )附表:A.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别有关”B.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别无关”C.有99.9%的把握认为“爱好游泳运动与性别有关”D.有99.9%的把握认为“爱好游泳运动与性别无关”答案A3.(2018山东济南二模,19)2018年2月22日上午,山东省省委、省政府在济南召开山东省全面展开新旧动能转换重大工程动员大会,会议动员各方力量,迅速全面展开新旧动能转换重大工程.某企业响应号召,对现有设备进行改造,为了分析设备改造前、后的效果,现从设备改造前、后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在[20,40)内,则产品视为合格品,否则视为不合格品.下图是设备改造前样本的频率分布直方图,下表是设备改造后样本的频数分布表.设备改造前样本频率分布直方图设备改造后样本的频数分布表(1)完成下面的2×2列联表,并判断是否有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关;(2)根据频率分布直方图和频数分布表提供的数据,试从产品合格率的角度对改造前、后设备的优劣进行比较;(3)企业将不合格品全部销毁后,根据客户需求对合格品进行等级细分,质量指标值落在[25,30)内的定为一等品,每件售价240元;质量指标值落在[20,25)或[30,35)内的定为二等品,每件售价180元;其他的合格品定为三等品,每件售价120元.根据频数分布表,用该组样本中一等品、二等品、三等品各自在合格品中的频率代替从所有产品中抽到一件相应等级产品的概率.现有一名顾客随机购买两件产品,设其支付的费用为X(单位:元),求X的分布列和数学期望.附:K2=-.解析(1)2×2列联表如下:将2×2列联表中的数据代入公式计算得,K2=-≈12.210.∵12.210>6.635,∴有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.(2)根据频率分布直方图可知,设备改造前产品为合格品的概率约为=,根据频数分布表可知,设备改造后产品为合格品的概率约为=.显然设备改造后产品合格率更高,因此,设备改造后性能更优.(3)由频数分布表知,一等品的频率为,即从所有产品中随机抽到一件一等品的概率为;二等品的频率为,即从所有产品中随机抽到一件二等品的概率为;三等品的频率为,即从所有产品中随机抽到一件三等品的概率为.由已知得,随机变量X所有可能取值为240,300,360,420,480.P(X=240)=×=,P(X=300)=××=,P(X=360)=××+×=,P(X=420)=××=,P(X=480)=×=.所以,随机变量X的分布列为故随机变量X的数学期望E(X)=240×+300×+360×+420×+480×=400.过专题【五年高考】A组山东省卷、课标卷题组考点变量间的相关关系、统计案例1.(2017山东,5,5分)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+.已知x i=225,y i=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )A.160B.163C.166D.170答案C2.(2018课标Ⅱ,18,12分)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解析(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.3.(2018课标Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=-,.解析本题考查统计图表的含义及应用、独立性检验的基本思想及其应用.(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知m==80.列联表如下:(3)由于K2=-=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.思路分析(1)根据茎叶图中的数据大致集中在哪个茎,作出判断;(2)通过茎叶图确定数据的中位数,按要求完成2×2列联表;(3)根据(2)中的列联表,将有关数据代入公式计算得K2的值,查表作出统计推断.解后反思独立性检验问题的常见类型及解题策略(1)已知分类变量的数据,判断两个分类变量的相关性,可依据数据及公式计算K2,然后作出判断;(2)独立性检验与概率统计的综合问题,关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解.4.(2017课标Ⅱ,18,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:,K2=-.解析本题考查了频率分布直方图,独立性检验.(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.62×0.66=0.409 2.(2)根据箱产量的频率分布直方图得列联表:K2=-≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+-≈52.35(kg).解后反思解独立性检验问题的关注点:(1)两个明确:①明确两类主体;②明确研究的两个问题.(2)两个关键:①准确画出2×2列联表;②准确理解K2.5.(2015课标Ⅰ,19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:(i)年宣传费x=49时,年销售量及年利润的预报值是多少?(ii)年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=---,=-.解析(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=,先建立y关于w的线性回归方程.由于=---==68,=-=563-68×6.8=100.6,所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.(3)(i)由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,年利润z的预报值=576.6×0.2-49=66.32.(ii)根据(2)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12.所以当==6.8,即x=46.24时,取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.思路分析(1)根据散点图中点的分布趋势进行判断.(2)先设中间量w=,建立y关于w的线性回归方程,进而得y关于x的回归方程.(3)(i)将x=49代入回归方程求出y的预报值,进而得z的预报值,(ii)求出z关于x 的回归方程,进而利用函数方法求最大值.6.(2014课标Ⅱ,19,12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:=---,=-.解析(1)由所给数据计算得=×(1+2+3+4+5+6+7)=4,=×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,(t i-)2=9+4+1+0+1+4+9=28,(t i-)(y i-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,--===0.5,-=-=4.3-0.5×4=2.3,所求回归方程为=0.5t+2.3.(2)由(1)知,=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t=9代入(1)中的回归方程,得=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.易错警示解题时容易出现计算错误,计算时一定要仔细.B组其他自主命题省(区、市)卷题组考点变量间的相关关系、统计案例1.(2015福建,4,5分)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元答案B2.(2014重庆,3,5分)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是( )A.=0.4x+2.3B.=2x-2.4C.=-2x+9.5D.=-0.3x+4.4答案A3.(2014湖北,4,5分)根据如下样本数据得到的回归方程为=bx+a,则( )A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<0答案B【三年模拟】一、选择题(每小题5分,共15分)1.(2018陕西西安一中月考,5)已知变量x与变量y之间具有相关关系,并测得如下一组数据:则变量x与y之间的线性回归方程可能为( )A.=0.7x-2.3B.=-0.7x+10.3C.=-10.3x+0.7D.=10.3x-0.7答案B2.(2017湖南益阳调研,4)某公司2010~2015年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如下表所示:根据统计资料,得( )A.年利润中位数是16,y与x具有正的线性相关关系B.年利润中位数是17,y与x具有正的线性相关关系C.年利润中位数是17,y与x具有负的线性相关关系D.年利润中位数是18,y与x具有负的线性相关关系答案B3.(2017安徽合肥一中等四校联考,6)某品牌牛奶的广告费用x(万元)与销售额y(万元)的统计数据如下表:根据上表可得回归方程=x+中的为9.4,据此估计,广告费用为7万元时销售额为( )A.74.9万元B.65.5万元C.67.7万元D.72.0万元答案A二、填空题(每小题5分,共10分)4.(2018湖南师大附中月考(三),14)在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下2×2列联表:参照附表,在犯错误的概率不超过(填百分比)的前提下,可认为“该种疫苗有预防埃博拉病毒感染的效果”.参考公式:K2=-.答案5%5.(2017广东惠州第三次调研,14)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表):由最小二乘法求得回归方程为=0.67x+,则的值为.答案54.9三、解答题(共20分)6.(2019届山东实验中学高三第二次诊断)某二手车直卖网站对其所经营的一款品牌汽车的使用年数x与销售价格y(单位:万元/辆)进行了记录整理,得到如下数据:(1)画散点图可以看出,z与x有很强的线性相关关系,请求出z与x的线性回归方程(回归系数,精确到0.01);(2)求y关于x的回归方程,并预测某辆该款汽车使用年数为10年时售价约为多少.参考公式:=---=--,=-参考数据:x i y i=187.4,x i z i=47.64,=139,ln 1.03≈0.03,ln 1.02≈0.02.解析(1)由题意,知=×(2+3+4+5+6+7)=4.5,=×(3.00+2.48+2.08+1.86+1.48+1.10)=2,又x i z i=47.64,=139.所以=--=-≈-0.363.所以=-=2+0.363×4.5≈3.63,所以z与x的线性回归方程是=-0.36x+3.63.(2)因为z=ln y,所以y关于x的回归方程是=e-0.36x+3.63,令x=10,得=e-0.36×10+3.63=e0.03,因为ln 1.03≈0.03,所以=1.03,即某辆该款汽车使用年数为10年时售价约为1.03万元/辆.7.(2017安徽合肥二模,18)某校计划面向高一年级1 200名学生开设校本选修课程,为确保工作的顺利实施,先按性别进行分层抽样,抽取了180名学生对社会科学类,自然科学类这两大类校本选修课程进行选课意向调查,其中男生有105人.在这180名学生中选择社会科学类的男生、女生均为45人.(1)分别计算抽取的样本中男生及女生选择社会科学类的频率,并以统计的频率作为概率,估计实际选课中选择社会科学类的学生数;(2)根据抽取的180名学生的调查结果,完成下列列联表,并判断能否在犯错误的概率不超过0.025的前提下认为课程的选择与性别有关.附:K2=-,其中n=a+b+c+d.解析(1)由条件知,抽取的男生为105人,女生为180-105=75人,男生选择社会科学类的频率为,女生选择社会科学类的频率为,由题意知,高一年级的男生总数为1 200×=700,女生总数为1 200×=500,所以估计实际选课中选择社会科学类的学生数为700×+500×=600人.(2)根据统计数据,可得列联表如下:K2=-=≈5.1429>5.024,所以在犯错误的概率不超过0.025的前提下认为课程的选择与性别有关.。
2020版高考数学新增分大一轮新高考专用课件:第十一章 11.3 变量间的相关关系、统计案例
3.独立性检验的基本步骤是什么? 提示 列出2×2列联表,计算k值,根据临界值表得出结论. 4.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确? 提示 (1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行 统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实 际意义,否则,求出的线性回归方程毫无意义. (2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
传费x的回归方程类型?(给出判断即可,不必说明理由)
解 由散点图可以判断,y=c+d x 适宜作为年销售量y关于年宣传费x的回归 方程类型.
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
解 令 w= x,先建立 y 关于 w 的线性回归方程,由于
8
wi- w ·yi- y
123456
3.下面是2×2列联表:
y1 y2 总计
x1 a 21 73
x2 22 25 47
总计 b 46 120
则表中a,b的值分别为
A.94,72
B.52,50
√C.52,74
解析 ∵a+21=73,∴a=52.
又a+22=b,∴b=74.
D.74,52
123456
4.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次
上角到右下角,两个变量负相关.
(2)相关系数:当r>0时,正相关;当r<0时,负相关.
(3)线性回归方程中:当
^
b
>0时,正相关;当
^
b
<0时,负相关.
跟踪训练1 (1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,
高中数学变量间的相关关系、统计案例共51页文档
2、ห้องสมุดไป่ตู้冒一次险!整个生命就是一场冒险。走得最远的人,常是愿意 去做,并愿意去冒险的人。“稳妥”之船,从未能从岸边走远。-戴尔.卡耐基。
梦 境
3、人生就像一杯没有加糖的咖啡,喝起来是苦涩的,回味起来却有 久久不会退去的余香。
高中数学变量间的相关关系、统计案例 4、守业的最好办法就是不断的发展。 5、当爱不能完美,我宁愿选择无悔,不管来生多么美丽,我不愿失 去今生对你的记忆,我不求天长地久的美景,我只要生生世世的轮 回里有你。
END
16、业余生活要有意义,不要越轨。——华盛顿 17、一个人即使已登上顶峰,也仍要自强不息。——罗素·贝克 18、最大的挑战和突破在于用人,而用人最大的突破在于信任人。——马云 19、自己活着,就是为了使别人过得更美好。——雷锋 20、要掌握书,莫被书掌握;要为生而读,莫为读而生。——布尔沃
2023年高考数学(理科)一轮复习——变量间的相关关系与统计案例
索引
角度2 非线性回归方程及应用
例2 (2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1 TB =1 024 GB)级别跃升到PB(1 PB=1 024 TB),EB(1 EB=1 024 PB)乃至ZB(1 ZB=1 024 EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数 据量为0.49 ZB,2009年数据量为0.8 ZB,2010年增长到1.2 ZB,2011年数据 量更是高达1.82 ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的 数据量(单位:ZB)及相关统计量的值:
(1)“ 名 师 出 高 徒 ” 可 以 解 释 为 教 师 的 教 学 水 平 与 学 生 的 水 平 成 正 相 关 关
系.( √ ) (2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ ) (4)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大.( √ )
索引
4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度 x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数 据(xi,yi)(i=1,2,…,20)得到下面的散点图: 由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概念方法微思考
2.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?
提示 (1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.
(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
1.(2020•新课标Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率和温度(单位:的y x C)︒关系,在20个不同的温度条件下进行种子发芽实验,由实验数据,,2,,(i x )(1i y i =⋯得到下面的散点图:
20)
由此散点图,在至之间,下面四个回归方程类型中最适宜作为发芽率和温度的回10C ︒40C ︒y x 归方程类型的是 ()
A .
B .
C .
D .y a bx =+2y a bx =+x y a be =+y a blnx
=+【答案】D
【解析】由散点图可知,在至之间,发芽率和温度所对应的点在一段对数10C ︒40C ︒y x (,)x y 函数的曲线附近,
结合选项可知,可作为发芽率和温度的回归方程类型.
y a blnx =+y x 故选.
D
为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模y t 型.根据2000年至2016年的数据(时间变量的值依次为1,2,,建立模型①:t ⋯17);根据2010年至2016年的数据(时间变量的值依次为1,2,,建立模ˆ30.413.5y
t =-+t ⋯7)型②:.ˆ9917.5y
t =+(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.【解析】(1)根据模型①:,ˆ30.413.5y
t =-+计算时,;19t =ˆ30.413.519226.1y
=-+⨯=利用这个模型,求出该地区2018年的环境基础设施投资额的预测值是226.1亿元;根据模型②:,ˆ9917.5y
t =+计算时,;9t =ˆ9917.59256.5y
=+⨯=利用这个模型,求该地区2018年的环境基础设施投资额的预测值是256.5亿元;(2)模型②得到的预测值更可靠;
画出残差图,如图所示;。