高考必备——回归分析

合集下载

2025高考数学一轮复习-9.1.2-线性回归方程【课件】

2025高考数学一轮复习-9.1.2-线性回归方程【课件】

(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出). 根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概 率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千 件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料 成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选 择100元还是90元,请说明理由.
因为 y =3860=45,
8
uiyi-8 u y
i=1
所以b^ =
8
u2i -8 u 2
i=1
=1831..45- 3-8×8×0.03.411×545=06.611=100,
则a^ = y -b^ u =45-100×0.34=11, 所以y^ =11+100u, 所以 y 关于 x 的回归方程为y^=11+10x0.
三、非线性回归问题
知识梳理
解非线性回归分析问题的一般步骤 有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据 画出散点图,与学过的各种函数(幂函数、指数函数、对数函数等)的图 象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量 进行变换,把问题转化为线性回归分析问题,使之得到解决.
n
v2i -n
v
2
i=1
i=1
解 ①当产品单价为100元,设订单数为m千件,因为签订9千件订单的 概率为0.8,签订10千件订单的概率为0.2, 所以E(m)=9×0.8+10×0.2=9.2, 所以企业利润为 100×9.2-9.2×190.20+21=626.8(千元). ②当产品单价为90元,设订单数为n千件, 因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7, 所以E(n)=10×0.3+11×0.7=10.7,

高考数学基础训练:回归分析含详解

高考数学基础训练:回归分析含详解

高考数学基础训练:回归分析一、单选题1.某工厂对一批产品进行了抽样检测.右图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是.A .90B .75C .60D .452.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是()A .0.2B .0.8C .-0.98D .-0.73.为研究变量x ,y 的相关关系,收集得到下面五个样本点(x ,y ):x 99.51010.511y1110865若由最小二乘法求得y 关于x 的回归直线方程为 3.2y x a=-+,则据此计算残差为0的样本点是()A .(9,11)B .(10,8)C .(10.5,6)D .(11.5)4.据一组样本数据()11,x y ,()22,x y ,…,(),n n x y ,求得经验回归方程为ˆ 1.50.5yx =+,且3x =.现发现这组样本数据中有两个样本点()1.2,2.2和()4.8,7.8误差较大,去除后重新求得的经验回归直线l 的斜率为1.2,则()A .变量x 与y 具有正相关关系B .去除两个误差较大的样本点后,重新求得的回归方程仍为ˆ 1.50.5yx =+C .去除两个误差较大的样本点后,y 的估计值增加速度变快D .去除两个误差较大的样本点后,相应于样本点()2,3.75的残差为0.055.对于样本相关系数,下列说法错误的是()A .可以用来判断成对样本数据相关的正负性B .可以是正的,也可以是负的C .样本相关系数越大,成对样本数据的线性相关程度也越高D .取值范围是[]1,1-6.下列说法中正确的是A .先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是分层抽样法B .线性回归直线ˆˆy bxa =+不一定过样本中心()x y C .若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1D .若一组数据2,4,a ,8的平均数是5,则该组数据的方差也是57.某同学用收集到的6组数据对(),(1,2,3,4,5,6)i i x y i =制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线1l 的方程:µµ11y b x a =+$,相关系数为1r ,相关指数为21R :经过残差分析确定点E 为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线2l 的方程:µµ22y b x a =+$,相关系数为2r ,相关指数为22R .则以下结论中,正确的是()①10r >,20r >;②µ10b >,µ20b >;③µµ12b b >;④2212R R >A .①②B .①②③C .②④D .②③④8.已知变量y 关于x 的非线性经验回归方程为0.5ˆe bx y-=,其一组数据如下表所示:x 1234ye3e 4e 5e 若5x =,则预测y 的值可能为()A .152e B .112e C .7e D .5e 第II 卷(非选择题)请点击修改第II 卷的文字说明二、填空题9.高中女学生的身高预报体重的回归方程是 0.7575.5y x =-(其中x , y 的单位分别是cm ,kg ),则此方程在样本()160,46处残差的绝对值是______.10.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:甲乙丙丁R 20.980.780.500.85建立的回归模型拟合效果最好的同学是__________.11.在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (122,,,,n n x x x ≥⋅⋅⋅不全相等)的散点图中,若所有样本点()(),1,2,3,,i i x y i n =⋅⋅⋅都在直线210x y +-=上,则这组样本数据的相关系数r 为______.12.在一组样本数据()11,x y ,()22,x y ,…,()66,x y 的散点图中,若所有样本点(),i i x y ()1,2,,6i = 都在曲线212y bx =-附近波动.经计算6112i i x ==∑,6114i i y ==∑,62123ii x==∑,则实数b 的值为________.三、解答题13.某科技公司研发了一项新产品A ,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价x (千元)和销售量y (千件)之间的一组数据如下表所示:月份i 123456销售单价i x 99.51010.5118销售量iy 111086515(1)试根据1至5月份的数据,建立y 关于x 的回归直线方程;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过065.千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?参考公式:回归直线方程ˆˆˆybx a =+,其中i ii 122ii 1ˆnnx y n x yb xnx==-⋅⋅=-∑∑.参考数据:5i i i 1392x y ==∑,52i i 1502.5x ==∑.14.为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为2021年7月10日至9月10日,为了解直播的效果和关注度,该电商平台统计了已直播的2021年7月10日至7月14日时段中的相关数据,这5天的第x 天到该电商平台专营店购物的人数y (单位:万人)的数据如下表:日期7月10日7月11日7月12日7月13日7月14日第x 天12345人数y (单位:万人)75849398100(1)依据表中的统计数据,请判断该电商平台的第x 天与到该电商平台专营店购物的人数y (单位:万人)是否具有较高的线性相关程度?(参考:若0.30.75r <<,则线性相关程度一般,若0.75r >,则线性相关程度较高,计算r 时精确度为0.01)(2)求购买人数y 与直播的第x 天的线性回归方程;用样本估计总体,请预测从2021年7月10日起的第38天到该专营店购物的人数(单位:万人).参考数据:521(434i iy y =-=∑,51(64i i i x x y y =--=∑65.979≈.附:相关系数()()ni i x x y y r --=∑,回归直线方程的斜率121()()()niii nii x x y y bx x ==--=-∑∑ ,截距a y bx =-$$.15.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+或dy c x=+建立y 关于x 的回归方程,令s =1t x=得到如下数据:xyst10.15109.943.040.16113niii s ys y=-⋅∑13113iii t yt y=-⋅∑1322113ik ss=-∑1322113ii t t =-∑ 1322113ii yy =-∑13.94-2.111.670.2121.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适;(2)根据(1)的结果及表中数据,建立 y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为 1221ni i i nii u vnu v unuβ==-⋅=-∑∑, v u αβ=-,相关系数ni i u vnu vr -⋅∑.参考答案:1.A 【解析】【详解】样本中产品净重小于100克的频率为(0.050+0.100)×2=0.3,频数为36,∴样本总数为.∵样本中净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.75,∴样本中净重大于或等于98克并且小于104克的产品的个数为120×0.75=90.考点:频率分布直方图.2.C 【解析】【分析】由相关系数的绝对值越大,越具有强大相关性,即可求解【详解】∵相关系数的绝对值越大,越具有强大相关性,C 相关系数的绝对值最大约接近1,∴C 拟合程度越好.故选:C 3.B 【解析】【分析】先求出线性方程的样本中心点,从而可求得 3.240y x =-+,再根据残差的定义可判断.【详解】由题意可知,99.51010.511105x ++++==,111086585y ++++==所以线性方程的样本中心点为(10,8),因此有 8 3.21040aa =-⨯+⇒=,所以 3.240y x =-+,在收集的5个样本点中,(10,8)一点在 3.240y x =-+上,故计算残差为0的样本点是(10,8).故选:B 4.A 【解析】【分析】由条件可知样本中心不变,可求出新的回归直线方程,即可判断.【详解】因为重新求得的经验回归直线l 的斜率为1.2,所以变量x 与y 具有正相关关系,故A 正确;当3x =时,315055y ..=⨯+=,设去掉两个误差较大的样本点后,横坐标的平均值为x ',纵坐标的平均值为y ',则12636322n x x x x n n n ++⋅⋅⋅+--=--'==,1210510522n y y y n n n y ++⋅⋅⋅+--'==--=,因为去除两个误差较大的样本点后,重新求得回归直线l 的斜率为1.2,所以ˆ53 1.2a =⨯+,解得 1.4ˆa =,所以去除两个误差较大的样本点后的经验回归方程为ˆ 1.2 1.4yx =+,故B 错误;因为1.5 1.2>,所以去除两个误差较大的样本点后y 的估计值增加速度变慢,故C 错误;因为ˆ 1.22 1.4 3.8y=⨯+=,所以ˆ 3.75 3.80.05y y -=-=-,故D 错误.故选:A.5.C 【解析】【分析】根据相关系数的概念,依次分析各选项即可得答案.【详解】解:对于A 选项,当相关系数为正时,表明变量之间是正相关,相关系数为负数时,表明相关系数为负数,故A 选项正确;对于B ,D 选项,相关系数范围是[]1,1-,故可以为正,也可以为负,故B ,D 选项正确;对于C 选项,当相关系数为负数时,样本相关系数越大,线性相关性就越弱,故C 选项错误;故选:C6.D 【解析】A 是系统抽样,B 选项线性回归直线ˆˆy bxa =+一定过样本中心(),x y ,C 选项若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,D 选项若一组数据2,4,a ,8的平均数是5,求出a ,则该组数据的方差即可求解.【详解】A 选项:先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是系统抽样法,所以该选项不正确;B 选项:线性回归直线ˆˆy bxa =+一定过样本中心(),x y ,所以该选项不正确;C 选项:若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,所以该选项不正确;D 选项:若一组数据2,4,a ,8的平均数是5,24854a +++=,解得6a =,则该组数据的方差是()()()()22222545658554-+-+-+-=,所以该选项正确.故选:D 【点睛】此题考查抽样方法,回归直线,相关关系的辨析,求平均数和方差,关键在于熟练掌握相关概念和公式,准确计算.7.B 【解析】【分析】根据散点图逐项进行判断即可.【详解】①:由散点图可知,,x y 之间是正相关关系,所以10r >,20r >,故①正确;②③:由散点图可知,回归直线的斜率是正数,且1l 的斜率大于2l 的斜率,所以µ10b >,µ20b >,µµ12b b >,故②③正确;④:由散点图可知,去掉“离群点”E 后,相关性更强,拟合的效果更好,所以2212R R <,故④错误;故选:B.8.C 【解析】【分析】将0.5ˆe bx y-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,由样本中心()x z 必在回归直线0.5z bx =-上,可求出b ,从而即可求解.【详解】解:由题意,将0.5ˆe bx y-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,则x1234z13451234 2.54x +++==,13453.254z +++==,由0.5z bx =-,得3.25 2.50.5b =-,解得 1.5b =,所以 1.50.5e x y -=,所以当5x =时, 1.550.57e e y ⨯-==,故选:C.9.1.5##32【解析】【分析】利用回归直线方程,求出160x =的估计值,然后求解残差的绝对值.【详解】由样本数据得到,女大学生的身高预报体重的回归方程是 0.7575.5y x =-,当160x =时, 0.7516075.544.5y =⨯-=,此方程在样本()160,46处残差的绝对值:44.546 1.5-=.故答案为:1.5.10.选甲相关指数R 2越大,表示回归模型拟合效果越好.【解析】【分析】相关指数越大,相关性越强,拟合效果越好.根据相关指数的大小即可判断.【详解】相关指数2R 越大,相关性越强,回归模型拟合效果越好,所以效果最好的是甲.【点睛】如果两个变量间的关系是相关关系,相关指数2R 越大,相关系数r 越接近1,残差平方和越接近0,都代表拟合效果越好.11.1-【解析】【分析】根据直线斜率可知两个变量负相关,结合数据点都在直线上可确定1r =-.【详解】直线210x y +-=的斜率20k =-<,∴这两个变量成负相关,0r ∴<,又所有样本点都在直线210x y +-=上,1r ∴=-.故答案为:1-.12.1723【解析】【分析】设2t x =,可得回归直线方程为12y bt =-,求出样本中心点(),t y 代入可得b 的值.【详解】令2t x =则212y bx =-即12y bt =-,6212366i i x t ===∑,61147663ii y y ====∑,因为样本中心点237,63⎛⎫ ⎪⎝⎭在回归直线12y bt =-上,所以7231362b =-,可得:1723b =,故答案为:1723.13.(1)ˆ3240y x =-+.;(2)是.【解析】【分析】(1)先由表中的数据求出,x y ,再利用已知的数据和公式求出 ,ba ,从而可求出y 关于x 的回归直线方程;(2)当8x =时,求出 y 的值,再与15比较即可得结论【详解】(1)因为()199.51010.511105x =++++=,()1111086585y =++++=,所以23925108ˆ 3.2502.5510b -⨯⨯==--⨯,得()ˆ8 3.21040a=--⨯=,于是y 关于x 的回归直线方程为 3.240ˆyx =-+;(2)当8x =时,ˆ 3.284014.4y=-⨯+=,则ˆ14.4150.60.65yy -=-=<,故可以认为所得到的回归直线方程是理想的.14.(1)具有较高的线性相关程度(2) 6.470.8y x =+,314万人【解析】【分析】(1)由已知计算相关系数r 即可.(2)由列表计算 a、b ,可得线性回归方程进一步可得解.(1)由表中数据可得3,90x y ==,所以521()10i i x x =-=∑,又55211()434,()()64i i i i i y y x x y y ==-=--=∑∑,所以()()50.970.75i i x x y y r --=>∑,所以该电商平台直播黄金时段的天数x 与购买人数y 具有较高的线性相关程度.所以可用线性回归模型拟合人数y 与天数x 之间的关系.(2)由表中数据可得()()()5152164ˆ 6.410i i i i i x x y y b x x ==--===-∑∑,则ˆˆ90 6.4370.8a y bx =-=-⨯=,所以 6.470.8y x =+,令38x =,可得 6.4387031ˆ.84y =⨯+=(万人)15.(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54y x =-;(3)当温度为20时这种草药的利润最大.【解析】【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型d y c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz ,利用基本不等式求得利润z 的最大值以及对应的x 值.【详解】(1)由题意知20.9953r =-,10.8858r =,因为121r r <<,所有用d y c x =+模型建立y 与x 的回归方程更合适.(2)因为1311322113 2.1ˆ100.2113i i i i i t y t yd tt ==-⋅-===--∑∑,ˆˆ109.94100.16111.54cy dt =-=+⨯=,所以ˆy 关于x 的回归方程为10ˆ111.54y x=-(3)由题意知11012020(111.54ˆˆ)22z y x x x =-=--20012230.8()2x x =-+2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x =时等号成立,所以当温度为20时这种草药的利润最大.。

冲刺高考数学多元线性回归分析与逐步回归法

冲刺高考数学多元线性回归分析与逐步回归法

冲刺高考数学多元线性回归分析与逐步回归法在高考数学的广袤领域中,多元线性回归分析与逐步回归法犹如两颗璀璨的明珠,闪耀着智慧的光芒。

对于即将踏上高考战场的学子们来说,深入理解和掌握这两个重要的数学工具,无疑是在数学高分征途上迈出的坚实一步。

首先,让我们来揭开多元线性回归分析的神秘面纱。

多元线性回归分析,简单来说,就是研究一个因变量与多个自变量之间线性关系的一种统计方法。

想象一下,我们在生活中常常会遇到这样的情况:比如,想要预测一个地区的房价,我们可能会考虑到房屋的面积、房龄、地理位置等多个因素;又或者,预测学生的考试成绩,可能会关联到学习时间、参加课外辅导的次数、家庭学习氛围等多种变量。

在这些场景中,多元线性回归分析就派上了用场。

它的基本原理是通过建立一个数学模型,来描述因变量与多个自变量之间的线性关系。

这个模型通常可以表示为:Y = b₀+ b₁X₁+b₂X₂++ bₙXₙ +ε,其中 Y 是因变量,X₁、X₂、、Xₙ 是自变量,b₀是截距,b₁、b₂、、bₙ 是回归系数,而ε 则是随机误差。

那么,如何求解这些回归系数呢?这就需要运用到最小二乘法。

最小二乘法的核心思想是使得实际观测值与模型预测值之间的误差平方和最小。

通过一系列复杂的数学运算,我们可以得到回归系数的估计值,从而确定回归方程。

但是,在实际应用中,并不是所有的自变量都对因变量有显著的影响。

这时候,逐步回归法就登场了。

逐步回归法就像是一个精明的筛选者,它能够从众多的自变量中挑选出那些对因变量影响最为显著的变量,从而建立一个更加简洁、有效的回归模型。

逐步回归法主要分为向前逐步回归、向后逐步回归和双向逐步回归三种。

向前逐步回归是从没有自变量开始,逐步引入对因变量影响显著的自变量;向后逐步回归则是先将所有的自变量纳入模型,然后逐步剔除不显著的自变量;双向逐步回归则是结合了前两种方法的特点,既可以引入新的自变量,也可以剔除已有的自变量。

在高考中,多元线性回归分析与逐步回归法可能会以多种形式出现。

高考数学冲刺策略非线性回归分析与模型选择

高考数学冲刺策略非线性回归分析与模型选择

高考数学冲刺策略非线性回归分析与模型选择高考数学冲刺策略:非线性回归分析与模型选择在高考数学的备考中,非线性回归分析与模型选择是一个重要且具有一定难度的考点。

对于即将迎来高考的同学们来说,掌握有效的冲刺策略至关重要。

首先,我们来了解一下什么是非线性回归分析。

简单来说,非线性回归分析是处理变量之间非线性关系的一种统计方法。

与我们常见的线性关系不同,非线性关系的表达式更加复杂,可能是指数形式、对数形式、幂函数形式等等。

在高考中,常见的非线性模型有指数模型、对数模型、幂函数模型等。

以指数模型为例,比如 y = aebx ,其中 a 和 b 是待确定的参数。

在解决这类问题时,我们通常会通过对等式两边取对数,将其转化为线性形式,然后再进行参数的估计。

那么,在冲刺阶段,如何更好地掌握非线性回归分析与模型选择呢?第一步,要熟练掌握各种非线性模型的形式和特点。

这就需要我们对教材中的相关内容进行深入复习,弄清楚每个模型适用的情况。

比如,当数据呈现出快速增长或衰减的趋势时,可能适合使用指数模型;而当数据的增长或减少速度逐渐变慢时,对数模型可能更为合适。

第二步,要多做练习题。

通过大量的练习,我们可以更加熟悉不同类型的题目,提高解题的速度和准确性。

在做题的过程中,要注意总结解题的方法和技巧。

比如,对于给定的数据,如何通过观察初步判断可能适合的模型类型;如何利用给定的条件和数据进行参数的估计等等。

第三步,学会利用数学软件或工具辅助分析。

在现代科技的帮助下,我们可以利用一些数学软件,如 Matlab、SPSS 等,来对数据进行处理和分析。

这不仅可以提高我们的效率,还能让我们更加直观地看到数据的分布和模型的拟合效果。

第四步,注重思维的培养。

非线性回归分析不仅仅是计算和公式的运用,更需要我们具备逻辑思维和分析问题的能力。

在面对复杂的问题时,要能够冷静思考,从多个角度去分析和解决问题。

在实际解题中,模型选择是一个关键的环节。

我们需要根据数据的特点和问题的背景,合理地选择模型。

2018 高考 回归分析和独立性检验专题复习(学生版)

2018 高考 回归分析和独立性检验专题复习(学生版)

回归分析与独立性检验(一)变量间的相关关系、回归分析的基本思想及初步运用一、相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系. 二、散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图. 三、回归分析:对具有相关关系的两个变量进行统计分析的方法叫回归分析. 1、回归直线方程设所求的直线方程为y b x a ∧=+,其中121()(),()ni i i ni i x x y y b a y b x x x ==--==--∑∑,1111,,nni i i i x x y y nn====∑∑(,)x y 称为样本点的中心,回归直线过样本点的中心.回归方程的截距a 和斜率b 是用最小二乘法计算出来的. 2、相关系数:两个变量之间线性相关关系的强弱用相关系数r 来衡量.相关系数:()()ni i x x y y r --=∑0r >,表示两个变量正相关;0r <,表示两个变量负相关;r的绝对值越接近1,表明两个变量的线性相关性越强.r 的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系.通常,r 的绝对值大于0.75时,表明两个变量的线性相关性很强. (二)独立性检验的基本思想及其初步运用一、用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例:是否吸烟,是否患肺癌等 二、独立性检验的方法:列出两个分类变量的频数表(列联表),直观判断.一般步骤: (1)2*2列联表(2)提出假设:设p 与q 没有关系 (3)根据列联表中的数据2K 计算的值22()()()()()()n a d b c Kn a b c d a b c d a c b d -==+++++++其中为样本容量(4)根据计算得到的随机变量2K 的观测值作出判断如:24.232K =因为4.232介于临界值3.841和5.024之间,2( 3.841)p K ≥=0.05,所以两个分类变量没有关系的概率是5%,即两个分类变量有关系的概率为95%.【例1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得16119.9716i i x x ===∑,0.212s ==≈,18.439≈,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅. (1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小). (2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()ni i x x y y r --=∑0.09≈.【反馈检测1】下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32i i y ==∑,7140.17i i i t y ==∑0.55=2.646≈.参考公式:相关系数()()ni i t t y y r --=∑回归方程y a b t =+ 中斜率和截距的最小二乘估计公式分别为:121()()()ni i i ni i t t y y b t t ==--=-∑∑,=.a yb t -【例2】全国人大常委会会议于 2015年12月27日通过了关于修改人口与计划生育法的决定, “全面二孩”从2016年元旦起开始实施,A市妇联为了解该市市民对“全面二孩”政策的态度,随机抽取了男性市民30人、女性市民70人进行调查, 得到以下的22⨯列联表:(1)根椐以上数据,能否有090的把握认为A市市民“支持全面二孩”与“性别”有关?(2)现从持“支持”态度的市民中再按分层抽样的方法选出15名发放礼品,分别求所抽取的15人中男性市民和女性市民的人数;(3)将上述调查所得到的频率视为概率,.现在从A市所有市民中,采用随机抽样的方法抽取3位市民进行长期跟踪调查, 记被抽取的3位市民中持“支持”态度人数为X.①求X的分布列;②求X的数学期望()E X和方差()D X.参考公式:()()()()()22n a d b cKa b a d a c b d-=++++,其中n a b c d=+++【反馈检测3】【2017课标II ,理18】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg )某频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg, 新养殖法的箱产量不低于50kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:22()()()()()n a d b c K a b c d a c b d -=++++。

考点11 回归分析与独立性检验(学生版)

考点11  回归分析与独立性检验(学生版)

考点11 回归分析与独立性检验概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。

例如:2021年全国高考乙卷(文)、(理)[17],2022年全国新高考卷Ⅱ[19],2022年全国乙卷(文)、(理)[19],2022年全国甲卷(文)[17],2022年北京高考[18]等都对数字特征与概率的计算问题进行了考查。

〔1〕回归分析的实际应用1.求回归直线方程(线性回归方程)的一般步骤 (1)画散点图; (2)求回归直线方程; (3)用回归直线方程进行预报。

2.利用回归方程进行预测,把回归直线方程看作一次函数,求函数值。

3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数bˆ。

4.回归方程的拟合效果,可以利用相关系数判断,当||r 越趋近于1时,两变量的线性相关性越强。

〔2〕独立性检验的实际应用 1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量2K 的观测值k ,查表确定临界值0k ;(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()02k K P ≥;否则,就认为在犯错误的概率不超过()02k K P ≥的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y有关系”。

2.独立性检验的应用可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。

具体做法是: (1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值0k ; (2)利用公式,由观测数据计算得到随机变量2K 的观测值k ;(3)如果0k k ≥,就说有()()%100102⨯≥-k K P 的把握认为“X 与Y 有关系”(或说在犯错误的概率不超过()2k K P ≥的前提下认为“X 与Y 有关系”),否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据(或说在犯错误的概率不超过()02k K P ≥的前提下不能认为“X 与Y 有关系”)。

回归分析高考真题

回归分析高考真题

回归分析高考真题一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆybx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为()A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x (万元)8.28.610.011.311.9支出y (万元)6.27.58.08.59.8根据上表可得回归本线方程ˆˆˆybx a =+,其中ˆˆˆ0.76,b a y bx ==-,据此估计,该社区一户收入为15万元家庭年支出为()A .11.4万元B .11.8万元C .12.0万元D .12.2万元3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为()A . 0.4 2.3y x =+B . 2 2.4y x =-C . 29.5y x =-+D . 0.3 4.4y x =-+4.(2014湖北)根据如下样本数据x 345678y4.02.50.5-0.52.0- 3.0-得到的回归方程为ˆybx a =+,则A .0a >,0b <B .0a >,0b >C .0a <,0b <D .0a <,0b >5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为()A.−1B.0C.12D.16.(2012湖南)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确...的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg7.(2011山东)某产品的广告费用x与销售额y的统计数据如下表广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程ˆˆˆy bx a=+中的ˆb为9.4,据此模型预报广告费用为6万元时销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元二、解答题8.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.9.(2017新课标Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得16119.9716i i x x ===∑,s ==0.212≈18.439≈,161(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()niix x y y r --=∑,0.09≈.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑0.55=≈2.646.参考公式:相关系数(nii tt y y r --=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()nii i nii tt y y b tt ==--=-∑∑ ,=.a y bt -11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii xx =-∑821()ii w w =-∑81()()ii i xx y y =--∑81()()iii w w yy =--∑46.6563 6.8289.8 1.61469108.8表中i w =,w =1881ii w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-.12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t 1234567人均纯收入y2.93.33.64.44.85.25.9(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =-回归分析高考真题参考答案1.C【解析】因为22.5x =,160y =,所以 160422.570a =-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=,∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得,ˆ0.76150.411.8y=´+=(万元),选B .3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【解析】画出散点图知0,0b a <>.5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【解析】由回归方程为y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-,所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.7.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =.8.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.9.【解析】(1)由样本数据得(,)(1,2,,16)i x i i =的相关系数为16()(8.5)0.18ix x i r --==≈-∑.由于||0.25r <,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i )由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.(ii )剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=,这条生产线当天生产的零件尺寸的均值的估计值为10.02.162221160.212169.971591.134ii x==⨯+⨯≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815--⨯≈,0.09≈.10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89=-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721( 2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑,92.04103.0331.1ˆˆ≈⨯-≈-=t b y a.所以,y 关于t 的回归方程为:t y10.092.0ˆ+=.将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y.所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()108.8ˆ681.6(iii ii w w y y dw w ==--===-∑∑.ˆˆ56368 6.8100.6cy dw =-=-⨯=,所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x的回归方程为ˆ100.6y=+.(Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y的预报值ˆ100.6576.6y=+=年利润z 的预报值ˆ576.60.24966.32z=⨯-=.(ⅱ)根据(Ⅱ)得结果知,年利润z的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.12.【解析】(I )由所给数据计算得17t =(1+2+3+4+5+6+7)=417y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.37211()t tt =-∑=9+4+1+0+1+4+9=287111()t tt y y =--∑=(3)(1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.931.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y btt ==--===-∑∑ , 4.30.54 2.3ay bt =-=-⨯= .所求回归方程为 0.5 2.3y t =+.。

高考冲刺作业(80)(答案)回归分析、独立性检验

高考冲刺作业(80)(答案)回归分析、独立性检验

高考冲刺作业(80)2020年3月20日 (回归分析、独立性检验)考点1线性回归分析提示:由最小二乘法得回归直线方程:(认真阅读、深刻理解)y a bx =+,其中1122211()()()n niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.有时这样表述:对于一组数据11(,)u v ,22(,)u v ,L ,(,)n n u v ,其线性回归方程v u αβ=+的斜率和截距的最小二乘估计分别为:121()()()nii i nii uu v v uu β==--=-∑∑,v u αβ=-.1.(2015·重庆卷·文理)随着我国经济的发展,居民的储蓄存款逐年增长.设(Ⅰ)求y 关于t 的回归方程y bt a =+; 1.2 3.6y t =+(Ⅱ)用所求回归方程预测该地区2015年(6t =)的人民币储蓄存款. 10.8 2.已知x ,y 的取值如下表所示:如果y 与x 呈线性相关,且线性回归方程为 3.5y bx =+,则b = . 0.5b = 3.(2011·陕西卷·理科)设11(,)x y ,22(,)x y ,L ,(,)n n x y 是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是 DA.x 和y 的相关系数为直线l 的斜率B.x 和y 的相关系数在0到1之间C.当n为偶数时,分布在l两侧的样本点的个数一定相同D.直线l过点(,)x y Array4.已知x,y的取值如下表根据上表提供的数据,求出y关于x的线性回归直线方程为0.80.4y x=+,那么表中t的值为 CA.4.8B.5.2C.5.5D.5.65.设有一个线性回归方程为3 2.5y x=-,则变量x增加一个单位时 C A.y平均增加2.5个单位 B.y平均增加1个单位C.y平均减少2.5个单位D.y平均减少1个单位6.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查=+,其中0.76b=,a y bx社区一户收入为15万元家庭年支出为 BA.11.4万元B.11.8万元C.12.0万元D.12.2万元7.对四组变量,x y进行相关性检验,r是相关系数,已知①0.96r=,r=,②0.30③0.99r=-,④0.48r=-.则,x y线性相关程度最高的两组是 .8.(2010·湖南卷·文科)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是 AA.$10200=-- D.$10200y x=+ y xy x=-+ B.$10200y x=+ C.$10200考点2可线性化回归分析1.(2015·全国卷Ⅰ·文理)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (1,2,,8)i =L 数据作了初步处理,得到下面的散点图及一些统计量的值.表中i w =8118i i w w ==∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程; (Ⅲ)已知这种产品的年利率z 与x ,y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(i )年宣传费49x =时,年销售量及年利润的预报值是多少? (ii )年宣传费x 为何值时,年利率的预报值最大?解析:(Ⅰ)根据散点图判断,y c =+y 关于年宣传费x 的回归方程类型;年宣传费/千元(Ⅱ)根据(Ⅰ)的判断结果,令w =y c d ω=+,81821()()()iii ii w w y y d w w ==--==-∑∑108.8681.6=,56368 6.8100.6c y d ω=+=-⨯=,所以100.668y ω=+,于是y 关于x的回归方程是:100.6y =+(Ⅲ)(i )由0.2z y x =-及当49x =时,100.6y =+,0.2576.6z =⨯-4966.32=,年销售量576.6千元及年利润的预报值是66.32千元.(ii )由0.2z y x =-及100.6y =+0.2(100.6z x x =⨯+-=-+20.04+t =,2()13.620.04h t t t =-++,当 6.8t =,即46.24x =时,年利率的预报值最大.2.已知某种细菌的适宜生长温度为1025C C o o :,为了研究该种细菌的繁殖数量y (单位:个)随温度x (温度:C o )变化的规律,收集数据如下:对数据进行初步处理后,得到了一些统计量的值,如下表所示:其中,ln i i k y =,7117i i k k ==∑.参考数据: 5.5245e ≈.(Ⅰ)绘出y 关于x 的散点图,并根据散点图判断,y a bx =+与21c x y c e =哪一个适宜作为该种细菌的繁殖数y 关于温度x 的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.1).(Ⅲ)当温度为25C o 时,该种细菌繁殖数量的预报值为多少? 解析:(Ⅰ)根据散点图可知:21c x y c e =比较合适;(Ⅱ)由(Ⅰ)知,21c x y c e =得12ln ln y c c x =+,即2k m c x =+,712721()()()iii ii x x kk c x x ==--=-∑∑20.50.1830.2112=≈≈, 3.80.183180.5m k bx =-=-⨯≈,即1ln 0.5c =,所以 ln 0.50.2y x =+,于是y 关于x 的回归方程是:0.50.2x y e +=.(Ⅲ)当25x =时,0.50.225 5.5245y e e +⨯==≈,即当温度为25C o 时,该种细菌繁殖数量的预报值为245.3.噪音污染已经成为影响人们身体健康和生活质量的严重问题,为了了解声音强度D (单位:分贝)与声音能量I (单位:2/W cm )之间的关系,将测量得到的声音强度i D 和声音能量i I (1,2,,10i =L )数据作了初步处理,得到下面的散点图即一些统计量的值.(Ⅰ)根据散点图判断,D c dI =+与lg D a b I =+哪一个适宜作为声音强度D 关于声音能量I 的回归方程类型?(Ⅱ)根据表中数据,建立D 关于I 的回归方程;(Ⅲ)当声音强度大于60分贝时,属于噪音,会产生噪音污染,城市中某点P 共DIg g g gg g g ggg 1020 10 0 20 30 30 40 50 40 50 60受到两个声源的影响,这两个声音能量分别为1I ,2I ,且10121410I I +=.已知点P 的声音能量等于1I 和2I 声音能量之和,请根据(Ⅰ)中回归方程,判断点P 是否受到噪音污染的干扰,并说明理由.参考数据:其中表中lg i i W I =,101110i i W W ==∑,截距的最小二乘估计分别为:v u αβ=-,121()()()nii i nii uu v v uu β==--=-∑∑.解析:(Ⅰ)根据散点图可知,lg D a b I =+适宜作为声音强度D 关于声音能量I 的回归方程;(Ⅱ)由(Ⅰ)知,lg D a b I =+,D a bW =+,1011021()()5.1100.51()iii ii W W D D b W W ==--===-∑∑, 45.710(11.5)160.7a D bW =-=-⨯=,所以D 关于I 的回归方程为:160.710lg D I =+(Ⅲ)点P 的声音能量等于1I 和2I 声音能量之和,101212121410()()I I I I I I I -=+=++ 10102112410[5()]109I I I I --=++≥⨯,10min 160.710lg(109)60.710lg 960D -=+⨯=+>,P 会受到噪音污染的干扰.4.2019年12月以来,湖北省武汉市持续开展流感及相关疾病监测,发现多起病毒性肺炎病例,均诊断为病毒性肺炎/肺部感染,后被命名为新型冠状病毒肺炎( 2019Corona Virus Disease , 2019COVID ),简称“新冠肺炎”.下图是2020年1月15日至1月24日累计确诊人数随时间变化的散点图.为了预测在未采取强力措施下,后期的累计确诊人数,建立了累计确诊人数y 与时间变量t 的两个回归模型,根据1月15日至1月24日的数据(时间变量t 的值依次1,2,L ,10),建立模型y c dt =+和 1.5t y a b =+⋅.(Ⅰ)根据散点图判断,$y c dt =+和$ 1.5t y a b =+⋅哪一个适宜作为累计确诊人数y 与时间变量t 的回归方程类型?(给出判断即可,不必说明理由); (Ⅱ)根据(Ⅰ)的判断结果及附表中数据,建立y 关于t 的回归方程; (Ⅲ)以下是1月25日至1月29日累计确诊人数的真实数据,根据(Ⅱ)的结果时间1月25日 1月26日 1月27日 1月28日 1月29日 累计确诊人数的真实数据19752744451559747111①当1月25日至1月27日这3天的误差(模型预测数据与真实数据差值的绝对值与真实数据的比值)都小于0.1,则认为模型可靠,请判断(Ⅱ)的回归方程是否可靠?②2020年1月24日在人民政府的强力领导下,全国人民共同采取了强力的预防“新冠肺炎”的措施,若采取措施5天后,真实数据明显低于预测数据,则认为防护措施有效,请判断预防措施是否有效?附:对于一组数据11(,)u v ,22(,)u v ,L ,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为:121()()()nii i nii uu v v uu β==--=-∑∑,v u αβ=-参考数据:其中 1.5it i ω=,101110i i ωω==∑.解析:(Ⅰ)根据散点图可知:$ 1.5t y a b =+⋅适宜作为累计确诊人数y 与时间变t 的回归方程类型;(Ⅱ)令 1.5tω=,$y a b ω=+⋅,1011021()()()iii ii y y bωωωω==--=-∑∑$101102211010i ii ii y yωωωω==-=-∑∑,215470010193902076401019-⨯⨯==-⨯,390201910a y b ω=-=-⨯=,$1020y ω=+⋅,即 $1020 1.5t y =+⨯;(Ⅲ)①当11t =时,111.5100=,10201002010y =+⨯=,201019753519752010-=0.0170.1≈<,当12t =时,121.5150=,10201503010y =+⨯=,301027442744-=2660.0970.12744≈<,当13t =时,131.5225=,10202254510y =+⨯=,451045154515-50.14515=<.所以(Ⅱ)的回归方程可靠; ②当15t =时,$10150y =,远大于7111,所以防护措施有效.考点3独立性检验构造随机变量(卡方统计量)统计量2χ(也可表示2K),来判断“两个分类变量有关联”的方法称为独立性检验.其中22()()()()()n ad bca b c d a c b dχ-=++++,n a b c d=+++.1.(2010·课标全国卷·文科)为调查某地区老年人是否需要志愿者提供帮助,(Ⅰ)估计该地区老年人中,需要志愿提供帮助的老年人的比例;(Ⅱ)能否有99℅的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?解:(Ⅰ)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中需要帮助的老年人的比例的估计值为7014% 500=.(Ⅱ)22500(4027030160)9.96720030070430K⨯⨯-⨯=≈⨯⨯⨯.由于9.967 6.635>所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.2.(2014·辽宁卷)某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学(Ⅰ)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;(Ⅱ)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.22100(60102010)100 4.7627030802021K ⨯⨯-⨯==≈⨯⨯⨯, 710p =.3.(2018·全国卷Ⅲ·文理科)某工厂为了提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20名工人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min )绘制了如下茎叶图:(Ⅰ)根据茎叶图判断哪种生产方式的效率更高?并说明理由.(Ⅱ)求40名工人完成生产任务所需的时间的中位数m ,并将完成生产任务所(Ⅲ)根据(Ⅱ)中列联表,能否有99%把握认为两种生产方式的效率有差异? 解析:(Ⅰ)第二中生产方式效率更高.(Ⅱ)7981802m +==.(Ⅲ)2240(151555)10 6.63520202020K ⨯⨯-⨯==>⨯⨯⨯.所以有99%把握认为两种生产方式的效率有差异.4.(2019·全国卷Ⅰ·文科)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(Ⅰ)分别估计男、女顾客对该商场服务满意的概率;(Ⅱ)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?第一种生产方式第二种生产方式 8 8765 56 8 90 1 2 2 3 4 5 6 6 8 1 4 4 5 099 7 6 2 9 8 7 7 6 5 4 3 3 2 2 1 1 0 0解析:(Ⅰ)由调查数据,男顾客中对该商场服务满意的比率为400.850=,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为300.650=,因此女顾客对该商场服务满意的概率的估计值为0.6.22100(40203010) 4.76250507030K ⨯⨯-⨯=≈⨯⨯⨯.由于4.762 3.841>,故有95%的把握认为男、女顾客对该商场服务的评价有差异. 5.(2017·全国卷Ⅱ·文科)淡水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取100个网箱,测量各箱水产品的产量(单位:kg )某频率直方图如下:(Ⅰ)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg ”,估计A 的概率;0.62(Ⅱ)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖22200(62663438)15.70510010096104K ⨯⨯-⨯=≈⨯⨯⨯.6.(2017·全国卷Ⅱ·文科)淡水养殖场进行某水产品的新、旧网箱养殖方法的/kg旧养殖法kg新养殖法产量对比,收获时各随机抽取100个网箱,测量各箱水产品的产量(单位:kg )某频率直方图如下:(Ⅰ)设两种养殖方法的箱产量相互独立,记A 表示事件:旧养殖法的箱产量低于50kg ,新养殖法的箱产量不低于50kg ,估计A 的概率;(Ⅱ)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖(Ⅲ)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)7.(2013·福建卷)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:)[50,60,)[60,70,)[70,80,)[80,90,)[90,100, 分别加以统计,得到如图所示的频率分布直方图.(Ⅰ)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(Ⅱ)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完/kg旧养殖法kg新养殖法成列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?710p =,22100(45152515)25 1.797030604014K ⨯⨯-⨯==≈⨯⨯⨯.没有把握.8.(2010·辽宁卷·理科)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做实验,将这200只家兔随机地分成两组.每组100只,其中一组注射药物A ,另一组注射药物B .下表1和表2分别是注射药物A 和药物B 后的实验结果.(疱疹面积单位:2mm )(Ⅰ)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;(Ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的25周岁以上组25周岁以下组注射药物A 后皮肤疱疹面积的频率分布直方图注射药物B 后皮肤疱疹面积的频率分布直方图22200(70653530)24.5610010010595K ⨯⨯-⨯=≈⨯⨯⨯,210.828K >.有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高考必备——线性回归分析
【基础自测】
1.如果一组具有相关关系的数据1122(,),(,),
,(,),n n x y x y x y 作出散点图大致分布在一条直线附近,
那么我们称这样的变量之间的关系为 关系(也称一元线性相关),这条直线就是 ,记为 .其中:
1
2
1
()()()
n i
i
i n
i
i x x y y b x x ==--=
-∑∑12
21
n
i i
i n
i
i x y nx y
x
nx
==-=
-∑∑ ; a y bx =-
其中(,)i i x y 为样本数据,11,n n
i i i i
x x y y n n ==∑∑为样本平均数,(,)x y 称为 ,且所求线性回
归直线经过样本点中心点
当回归直线斜率0b >时,为线性 , 0b <
时为线性
特别注意: (1).以散点图分析线性相关关系,散点图是较粗略地分析和判断两个具有相关关系的变量是否线性相关的问题,如果是线性相关的,我们可以求其线性回归方程,如果不是线性向相关的,即使求得线性回归方程,也是无效的;也就是说不能对一些数据进行分析判断,不能应用它解决和解释一些实际问题.
(2).以相关系数分析线性相关关系的强弱 两个变量之间的相关关系的样本相关系数:
()()
n
i
i
x x y y r --=
∑可衡量是否线性相关,以及线性相性关系的强弱.由于分子与线性回归
方程中的斜率b 的分子一样(这也给出了公式的内在联系以及公式的记法),因此,当0r >时,两个变量正相关;当0r <时两个变量 .当r 的绝对值接近1,表明两个变量的线性相关性 ;当r 的绝对值接近0,表明两个变量之间几乎不存在线性相关关系.规定当0.75r >时,我们认为两个变量有很强的 相关关系.
【巩固练习】
1.某公司在2014年上半年的收入x (单位:万元)与月支出y (单位:万元)的统计资料如下表所示: 月份
1月份 2月份 3月份 4月份 5月份 6月份
收入x 12.3 14.5 15.0 17.0 19.8 20.6 支出Y 5.63 5.75 5.82 5.89 6.11 6.18 根据统计资料,则()
A . 月收入的中位数是15,x 与y 有正线性相关关系
B . 月收入的中位数是17,x 与y 有负线性相关关系
C . 月收入的中位数是16,x 与y 有正线性相关关系
D . 月收入的中位数是16,x 与y 有负线性相关关系 2.某工厂对新研发的一种产品进行试销,得到如下数据表:
根据如表可得线性回归方程=
x+
.其中
=﹣20,
=﹣b ,那么单价定为8.3元时,可预测销售
的件数为( )
A .82
B .84
C .86
D .88
3.下列说法错误的是( )
A .回归直线过样本点的中心(,)x y
B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1
C .对分类变量X 与Y ,随机变量2
K 的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小 D .在回归直线方程0.20.8y x =+中,当解释变量x 每增加1个单位时,预报变量y 平均增加0.2个单位 4.下列说法错误的是( )
A .自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;
B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强;
C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高;
D .在回归分析中,2
R 为0.98的模型比2
R 为0.80的模型拟合的效果好.
5.为了研究某种细菌在特定环境下,随时间变化繁殖情况,得如下实验数据,计算得回归直线方程为
ˆ0.850.25y
x =-.由以上信息,得到下表中c 的值为 .
天数t (天) 3 4 5 6 7 繁殖个数y (千个)
2.5
3
4
4.5
c
6.对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图;对变量u ,v 有观测数据(,
)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断。

( )
(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关 7.某产品的广告费用x 与销售额y 的统计数据如下表:
根据上表可得回归方程ˆˆˆy
bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为( ) A.63.6 万元 B.65.5万元 C.67.7万元 D.72.0万元
8.下表提供了某厂节能降耗技术改造后生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:
根据上表提供的数据,求得y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为( )
A .
3 B .3.15 C .3.5 D .4.5
9.有一位同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计得到了一天所卖的热饮杯数(y )与当天气温(x ℃)之间的线性关系,其回归方程为y
ˆ=-2.35x +147.77.如果某天气温为2℃时,则该小卖部大约能卖出热饮的杯数是( ).
A .140
B .143
C .152
D .156
1x 1y 1u 1v
10.为了解某地区某种农产品的年产量x(单位:吨)对价格y(单位:千元/吨)和利润z的影响,对近五年该农产品的年产量和价格统计如表:
(Ⅰ)求y关于x的线性回归方程=x+;
(Ⅱ)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数)
参考公式: ==, =﹣.
11.某公司为确定下一年度投入某种产品的宣传费,需了解 年宣传费x (单位:千元)对年销售量y (单位:t )和 年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量(1,2,...,8)i y i =数据作了初步处理,得到下
面的散点图及一些统计量的值。

表中i w =
8
1
i i w w ==∑
(Ⅰ)根据散点图判断,y a bx =+
与y c =+y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;
(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-。

根据(Ⅱ)的结果回答下列问题:
(i ) 年宣传费x=49时,年销售量及年利润的预报值是多少?
(ⅱ)年宣传费x 为何值时,年利润的预报值最大?
附:对于一组数据1122(,),(,),...,(,)n n u v u v u v ,其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为:
^
^^
1
2
1
()()
,()
n
i
i
i n
i
i u u v v v u
u u βαβ==--=
=--∑∑
12.
13.某厂生产不同规格的一种产品,根据检测标准,其合格产品的质量与尺寸x (mm )之间近似满足关系式(a , b 为大于0的常数).现随机抽取6件合格产品,测得数据如下:
对数据作了初步处理,相关统计量的值如下表:
(I)根据所给数据,求y 关于x 的回归方程;
(Ⅱ)按照某项指标测定,当产品质量与尺寸的比在区间内时为优等品,现从抽取的6件合格产品中再任选3件,记为取到优等品的件数,试求随机变量的分布列和期望. 附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别

()y g b
y ax =,
97e e ⎛⎫
⎪⎝⎭
ξξ()()()1122,,,,
,n n νμνμνμ=+μαβν1
2
21
ˆˆˆ,.n
i i
i n i i n n νμ
νμ
β
α
μβννν
==-⋅==--∑∑
14.为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.
(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;
(2)若这8位同学的数学、物理、化学分数事实上对应如下表:
①用变量y与x、z与x的相关系数说明物理与数学、化学与数学的相关程度;
②求y与x、z与x的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分时,估计其物理、化学两科的得分.
参考数据:,
,,
.。

相关文档
最新文档