一元线性回归模型典型例题分析

合集下载

高考数学复习典型题型专题讲解与练习94 一元线性回归模型及其应用

高考数学复习典型题型专题讲解与练习94 一元线性回归模型及其应用

高考数学复习典型题型专题讲解与练习 专题94 一元线性回归模型及其应用题型一 求回归直线方程例1.(2022·甘肃·临泽县第一中学高二阶段练习(文))已知变量x 和y 正相关,则由如下表所示的观测数据算得的线性回归方程为【答案】B 【解析】 【分析】先求出样本的中心点的坐标,再代入选项检验即得正确答案. 【详解】 由题得12345543210,10x -----+++++==0.92 3.1 3.9 5.1 4.15 2.9 2.10.9010y -----+++++==,所以样本中心点的坐标为(0,0),代入选项检验得选B. 故答案为B 【点睛】(1)本题主要考查回归方程直线的性质,意在考查学生对该知识的掌握水平.(2) (,)x y 称为样本点的中心,回归直线过样本点的中心.这是回归方程的一个重要考点,要理解掌握并灵活运用.规律方法 求线性回归方程的一般步骤(1)收集样本数据,设为(x i ,y i )(i =1,2,…,n )(数据一般由题目给出). (2)作出散点图,确定x ,y 具有线性相关关系. (3)把数据制成表格x i ,y i ,x 2i ,x i y i . (4)计算x -,y -,∑n i =1x 2i ,∑ni =1x i y i .(5)代入公式计算b ^,a ^,公式为⎩⎪⎨⎪⎧b ^=∑n i =1x i y i -n x - y -∑n i =1x 2i -nx -2,a ^=y --b ^x -.(6)写出线性回归方程y ^=b ^x +a ^.例2.(2019·新疆·乌鲁木齐市第二十中学高二期中)随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题某汽车销售公司作了一次抽样调查,并统计得出某款车的使用年限x 与所支出的总费用y (万元)有如表的数据资料:(1) 在给出的坐标系中作出散点图;(2)求线性回归方程ˆˆˆybx a =+中的ˆa 、ˆb ; (3)估计使用年限为12年时,车的使用总费用是多少?(最小二乘法求线性回归方程系数公式1221ˆn i i i n ii x y nxy bx nx==-=-∑∑, ˆˆay bx =-.) 【答案】(1)见解析; (2) 1.23b =0.08a =; (3)估计使用12年时,支出总费用是14.84万元.. 【解析】 【分析】(1)在坐标系中描点可得散点图;(2)代入公式可求;(3)根据方程代入x=12可得费用. 【详解】(1)散点图如图,由图知y 与x 间有线性相关关系.(2)∵4x =,5y =,51112.3i i i x y ==∑,52190i i x ==∑,∴2112.354512.31.2390541ˆ0b-⨯⨯===-⨯;5 1.2340.ˆ0ˆˆ8ay bx =-=-⨯=. (3)线性回归直线方程是 1.2308ˆ.0yx =+, 当12x =(年)时, 1.23120.0814.8ˆ4y =⨯+=(万元).即估计使用12年时,支出总费用是14.84万元. 【点睛】本题主要考查回归直线在生活中的应用,明确所给公式中各个模块的含义,代入公式可求.题目难度不大,侧重于应用性.例3.(2022·全国·高二单元测试)有一位同学家里开了一个小卖部,他为了研究气温对热茶销售的影响,经过统计,得到一个卖出热茶杯数与当天气温的对比表如下: 气温x/℃ -5 0 4 7 12 15 19 23 27 31 36热茶销售杯数y/杯 156 150 132 128 130 116 104 89 93 76 54(1)画出散点图;(2)你能从散点图中发现气温与热茶的销售杯数之间关系的一般规律吗? (3)如果近似成线性关系的话,请画出一条直线来近似地表示这种线性关系; (4)试求出回归直线方程;(5)利用(4)的回归方程,若某天的气温是2 ℃,预测这一天卖出热茶的杯数.【答案】(1)见解析;(2)见解析;(3)见解析;(4) 2.354774ˆ1.y x =-+;(5)143【解析】 【详解】分析:(1)以x 轴表示气温,以y 轴表示热茶杯数,可作散点图;(2)从图中可以看出,各点散布在从左上角到右下角的区域里,因此热茶的销售杯数与气温是相关的,气温越高,卖出去的热茶杯数越少;(3)从散点图可以看出,这些点大致分布在一条直线附近,根据不同的标准可以画出不同的直线来近似地表示这种线性相关关系; (4)由题中所给的数据求得回归方程即可;(5)结合回归方程的预测作用和(4)中的结论整理计算即可求得最终结果. 详解:(1)以x 轴表示气温,以y 轴表示热茶杯数,可作散点图如下图所示.(2)从图中可以看出,各点散布在从左上角到右下角的区域里,因此热茶的销售杯数与气温是相关的,气温越高,卖出去的热茶杯数越少.(3)从散点图可以看出,这些点大致分布在一条直线附近,根据不同的标准可以画出不同的直线来近似地表示这种线性相关关系,如图所示.(4)因112i i 1169x ,x 411∑===为335,11i 11228y ,xiyi 1411∑===778. 所2169122814778-111111b 1694335-1111⨯⨯=⎛⎫⨯ ⎪⎝⎭^以≈-2.35, 1228169a 2.35147.74.1111=+⨯=^所以回归直线方程y 2.35x 147.74.=-+^为(5)由(4)的方程,当x=2,y 4.70147.74143.04,=-+=^时因此若某天的气温为2 ℃,这一天大约可以卖出143杯热茶.点睛:(1)正确运用计算^a ,^b 的公式和准确的计算,是求线性回归方程的关键. (2)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.题型二 利用回归直线方程对总体进行估计例4.(2022·江西抚州·高二期末(理))保护生态环境,提倡环保出行,节约资源和保护环境,某地区从2016年开始大力提倡新能源汽车,每年抽样1000汽车调查,得到新能源汽车y 辆与年份代码x 年的数据如下表:(2)假设该地区2022年共有30万辆汽车,用样本估计总体来预测该地区2022年有多少新能源汽车.参考公式:回归方程y bx a =+斜率和截距的最小二乘估计公式分别为1221ni ii nii x y nx yb xnx==-=-∑∑,a y bx =-.【答案】(1)219y x =+ (2)27900 【解析】【分析】(1)第一步分别算第x ,y 的平均值,第二步利用1221ni ii nii x y nx yb xnx==-=-∑∑,a y bx =-即可得到方程.(2)由第一问的结果,带入方程即可算出预估的结果. (1)3x =,305070+100+110=725y ++=,1222222221130+250+370+4100+5110-5372==211+2+3+4+5-53ni ii ni i x y nx yb x nx==-⨯⨯⨯⨯⨯⨯⨯=⨯-∑∑,因为a y bx =-,所以72213=9a =-⨯,所以219y x =+(2)预测该地区2022年抽样1000汽车调查中新能源汽车数,当7x =时,217993y =⨯+=,该地区2022年共有30万辆汽车,所以新能源汽车93300000279001000N =⨯=. 规律方法 本题已知y 与x 是线性相关关系,所以可求出回归方程进行估计和预测.否则,若两个变量不具备相关关系或它们之间的相关关系不显著,即使求出回归方程也毫无意义.例5.(2022·陕西·西安中学高二期中(理))偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某科考试成绩与该科班平均分的差叫某科偏差(实际成绩-平均分=偏差).在某次考试成绩统计中,某老师为了对学生数学偏差x (单位:分)与物理偏差y (单位:分)之间的关系进行分析,随机挑选了8位同学,得到他们的两科成绩偏差数据如下:(1)若x 与y 之间具有线性相关关系,求y 关于x 的线性回归方程;(2)若该次考试该数学平均分为120分,物理平均分为91.5分,试由(1)的结论预测数学成绩为128分的同学的物理成绩.(下面是参考数据和参考公式)()()()()()()()()()818222222222120 6.515 3.513 3.53 1.520.550.510 2.518 3.532420151332510181256i ii ii x yx===⨯+⨯+⨯+⨯+⨯+-⨯-+-⨯-+-⨯-==+++++-+-+-=∑∑,回归直线方程为ˆˆˆy bx a =+,其中()()()1122211ˆˆˆnni i iii i nni ii i x y nxy x x y y b x nx x x ay bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑【答案】(1)11ˆ42yx =+ (2)94 【解析】 【分析】(1)根据最小二乘法即可求出y 关于x 的线性回归方程;(2)设该同学的物理成绩为ω,则物理偏差为91.5ω-,数学偏差为8,根据回归方程可知,1191.5842ω-=⨯+,即可解出.(1)由题意可得,20151332(5)(10)(18)582x +++++-+-+-==,()()()6.5 3.5 3.5 1.50.50.5 2.5 3.5988y +++++-+-+-==, 1222159324ˆ81285412568()2ni ii nii x y nxybxnx ==--⨯⨯===-⨯-∑∑,所以9151ˆˆ8422a y bx =-=-⨯=,故线性回归方程为11ˆ42yx =+. (2)由题意,设该同学的物理成绩为ω,则物理偏差为:91.5ω-. 而数学偏差为128-120=8,∴1191.5842ω-=⨯+,解得94ω=, 所以,可以预测这位同学的物理成绩为94.例6.(2022·广东揭阳·高二期末)从2018年1月1日起,广东、等18个保监局所辖地区将纳入商业车险改革试点范围,其中最大的变化是上一年的出险次数决定了下一年的保费倍率,具体关系如下表:有评估机构从以往购买了车险的车辆中随机抽取1000 辆调查,得到一年中出险次数的频数分布如下(并用相应频率估计车辆每年出险次数的概率):(1)求某车在两年中出险次数不超过2次的概率;(2)经验表明新车商业车险保费与购车价格有较强的线性相关关系,估计其回归直线方程为:1201600y x =+.(其中x (万元)表示购车价格,y (元)表示商业车险保费).李先生2016 年1月购买一辆价值20万元的新车.根据以上信息,试估计该车辆在2017 年1月续保时应缴交的保费,并分析车险新政是否总体上减轻了车主负担.(假设车辆下一年与上一年都购买相同的商业车险产品进行续保) 【答案】(1)0.8744;(2)3846元,减轻了车主负担. 【解析】 【分析】(1)利用互斥事件的概率公式列式计算即得;(2)求出下一年车险保费倍率X 的分布列,并求出期望,即可得出车主下一年的保费,并根据期望是否大于1得出结论. 【详解】(1)设某车在两年中出险次数为N , 则(2)(0)(1)(2)P N P N P N P N ≤==+=+=5005005003805001003803802210001000100010001000100010001000=⋅+⋅⋅+⋅⋅+⋅0.8744=, 所以某车在两年中出险次数不超过2次的概率为0.8744; (2)设该车辆2017 年的保费倍率为X ,则X 为随机变量,X 的取值为0.85 ,1,1.25 ,1.5 ,1.75 , 2, X 的分布列为:下一年保费倍率X 的期望为:()0.850.510.38 1.250.1 1.50.015 1.750.00420.0010.9615+E X =⨯⨯+⨯+⨯+⨯+⨯=,该车辆估计2017年应缴保费为:()1202016000.96153846⨯+⨯=元, 因0.96151<,则车险新政总体上减轻了车主负担.题型三 线性回归分析例7.(2022·山东·日照青山学校高二期末)共享单车进驻城市,绿色出行引领时尚,某市有统计数据显示,某站点6天的使用单车用户的数据如下,用两种模型①y bx a =+;②y a =分别进行拟合,得到相应的回归方程1ˆ10.7 3.4yx =+,2ˆ22.8y =,进行残差分析得到如表所示的残差值及一些统计量的值:(1)残差值的绝对值之和越小说明模型拟合效果越好,根据残差,比较模型①,②的拟合效果,应选择哪一个模型?并说明理由;(2)残差绝对值大于3的数据认为是异常数据,需要剔除,剔除异常数据后,重新求出(1)中所选模型的回归方程.(参考公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆay bx =-) 【答案】(1)该选模型①,理由见解析 (2)111y x =+ 【解析】 【分析】(1)求出两模型的残差值的绝对值之和进行比较即可,(2)先剔除异常数据,然后利用回归方程的公式结合已知数据进行计算即可 (1)应该选择模型①模型①的残差值的绝对值之和为1.1+2.8+7.5+1.2+1.9+0.4=14.9 模型②的残差值的绝对值之和为0.3+5.4+4.3+3.2+1.6+3.8=18.6. ∵14.9<18.6,∴模型①的拟合效果较好,应该选模型①.(2)剔除异常数据,即剔除第3天的数据后,得()1 3.563 3.65x =⨯-=,()14164340.65y =⨯-=, 511049343920i ii x y==-⨯=∑,522191382i i x ==-=∑.∴51522159205 3.640.6189.2ˆ11825 3.6 3.617.25i ii ii x y xybxx ==--⨯⨯====-⨯⨯-∑∑, ˆˆ40.611 3.61ay bx =-=-⨯=. ∴y 关于x 的回归方程为111y x =+.规律方法 (1)解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.(2)刻画回归效果的三种方法①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适. ②残差平方和法:残差平方和∑ni =1 (y i -y ^i )2越小,模型的拟合效果越好. ③决定系数法:R 2=1-∑ni =1(y i -y ^i )2∑ni =1 (y i -y -)2越接近1,表明回归的效果越好. 例8.(2022·河南·南阳中学高三阶段练习(文))2022年6月17日9时22分,我国酒泉卫星发射中心用长征2F 遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A 型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A 型材料更好地投入商用,拟对A 型材料进行应用改造、根据市场调研与模拟,得到应用改造投入x (亿元)与产品的直接收益y (亿元)的数据统计如下:当017x <≤时,建立了y 与x 的两个回归模型:模型①: 4.1109ˆ.yx =+,模型②:ˆ14.4y=;当17x >时,确定y 与x 满足的线性回归方程为ˆˆ0.7y x a =-+. (1)根据下列表格中的数据,比较当017x <≤时模型①,②的相关指数2R 的大小,并选择拟合精度更高、更可靠的模型,预测对A 型材料进行应用改造的投入为17亿元时的直接收益;(2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17亿元与20亿元时公司收益(直接收益+国家补贴)的大小.附: 刻画回归效果的相关指数()()22121ˆ1niii nii y yR y y ==-=--∑∑,且当2R 越大时,回归方程的拟合效果越好.用最小二乘法求线性回归方程ˆˆˆybx a =+的截距:ˆˆa y bx =-4.1≈ 【答案】(1)对A 型材料进行应用改造的投入为17亿元时的直接收益为72.93(亿元); (2)投入17亿元比投入20亿元时收益小. 【解析】 【分析】(1)根据模型和相关系数公式计算比较即可,然后将x =17代入较好的模型即可预测直接收益;(2)根据回归方程过样本中心点(,x y )求出ˆa,再令x =20算出预测的直接收益,即可算出投入20亿元时的总收益,与(1)中的投入17亿元的直接收益比较即可. (1)对于模型①,对应的15222740485460=387y ++++++=,故对应的()772221171750i i i i y y y y ==-=-=∑∑,故对应的相关指数2179.1310.9551750R =-≈, 对于模型②,同理对应的相关指数2220.210.9881750R =-≈, 故模型②拟合精度更高、更可靠.故对A 型材料进行应用改造的投入为17亿元时的直接收益为21.314.472.9ˆ3y=≈(亿元).另解:本题也可以根据相关系数的公式,直接比较79.13和20.2的大小,从而说明模型②拟合精度更高、更可靠. (2) 当17x >时, 后五组的2122232425235x ++++==,68.56867.5+66+65675y ++==,由最小二乘法可得()ˆ670.72383.1a=--⨯=, 故当投入20亿元时公司收益(直接收益+国家补贴)的大小为:0.72083.1+574.172.93-⨯+=>,故投入17亿元比投入20亿元时收益小.例9.(2022·陕西·高新一中高三阶段练习(理))2022年6月17日9时22分,我国酒泉卫星发射中心用长征2F 遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A 型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A 型材料更好地投入商用,拟对A 型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x (亿元)与产品的直接收益y (亿元)的数据统计如下:当017x <≤时,建立了y 与x 的两个回归模型:模型①: 4.1109ˆ.yx =+,模型②:ˆ14.4y=;当17x >时,确定y 与x 满足的线性回归方程为ˆˆ0.7y x a =-+.(1)根据表格中的数据,比较当017x <≤时模型①,②的相关指数2R 的大小,并选择拟合精度更高、更可靠的模型,预测对A 型材料进行应用改造的投入为17亿元时的直接收益; (2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17亿元与20亿元时公司收益(直接收益+国家补贴)的大小.附:刻画回归效果的相关指数()()22121ˆ1ni i i nii y yR y y ==-=--∑∑,且当2R 越大时,回归方程的拟合效果越好 4.1≈.用最小二乘法求线性回归方程ˆˆˆybx a =+的截距:ˆˆa y bx =-. 【答案】(1)2221R R >,模型②拟合精度更高、更可靠,收益为72.93;(2)投入17亿元比投入20亿元时收益小. 【解析】 【分析】(1)根据题意求得()1221i i y y =-∑,再根据2R 的计算公式,即可分别求得2212,R R ,则可判断不同模型的拟合度;(2)根据题意,求得回归直线方程,即可代值计算,求得预测值. (1)对于模型①,对应的15222740485460387y ++++++==,故对应的()12222111271750i i i i y y y y ==-=-=∑∑,故对应的相关指数2179.1310.9551750R =-≈, 对于模型②,同理对应的相关指数2220.210.9881750R =-≈, 故模型②拟合精度更高、更可靠.故对A 型材料进行应用改造的投入为17亿元时的直接收益为ˆ21.314.472.93y=≈. (2) 当17x >时, 后五组的212223242568.56867.5666523,6755x y ++++++++====,由最小二乘法可得67(0.7)238ˆ 3.1a=--⨯=, 故当投入20亿元时公司收益(直接收益+国家补贴)的大小为:0.72083.1574.172.93-⨯++=>,故投入17亿元比投入20亿元时收益小.题型四 残差分析与相关指数的应用例10.(2022·河北·藁城新冀明中学高二阶段练习)假定产品产量x (千件)与单位成本y (元/件)之间存在相关关系.数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归直线方程,对于单位成本70元/件时,预报产量为多少; (3)计算各组残差,并计算残差平方和; 【答案】(1)散点图见解析;(2)ˆ 1.8277.37yx =-+,4.050千件; (3)各组残差见解析,残差平方和为3.8182. 【解析】 【分析】(1)根据表中数据描点即可求解;(2)根据表中数据,求出x ,y ,612i i x =∑,61i i i x y =∑,代入公式求出线性回归方程的系数ˆb,进而求出ˆa即可得回归直线方程; (3)根据残差的定义及残差平方和公式即可求解. (1)解:散点图如下:(2) 解:因为2343453.56x +++++==,737271736968716y +++++==,61279ii x==∑,611481i ii x y==∑,所以6162221614816 3.571ˆ 1.82796 3.56i i i i ix yx ybx x==-⋅-⨯⨯==≈--⨯-∑∑,ˆˆ71 1.82 3.577.37ay bx =-=+⨯=, 所以回归直线方程为ˆ 1.8277.37yx =-+,令70y =,则70 1.8277.37x =-+,解得 4.050x ≈, 所以单位成本70元/件时,预报产量约为4.050千件. (3)解:各组残差分别为:()11173 1.822ˆ77.370.73ˆey y =--⨯+=-=-, ()22272 1.82377.370.0ˆˆ9ey y =--⨯+==-, ()33371 1.82477.370.9ˆˆ1ey y =--⨯+==-, ()44473 1.82377.37 1.0ˆˆ9ey y =--⨯+==-, ()55569 1.824ˆ77.37 1.09ˆey y =--⨯+=-=-, ()66668 1.825ˆ77.370.27ˆey y =--⨯+=-=-, 残差的平方和为()()()2222621220.730.090.91 1.09 1.090.27 3.2ˆ818ii i y y=--+++--==++∑. 规律方法 (1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差e ^1,e ^2,…,e ^n 来判断模型拟合的效果.(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.例11.(2022·河北·大名县第一中学高二阶段练习)随着中美贸易战的不断升级,越来越多的国内科技巨头加大了科技研发投入的力度.华为技术有限公司拟对“麒麟”手机芯片进行科技升级,根据市场调研与模拟,得到科技升级投入x (亿元)与科技升级直接收益y (亿元)的数据统计如下:当017x <≤时,建立了y 与x 的两个回归模型:模型①:ˆ 4.111.8yx =+;模型②:ˆ14.4y=;当17x >时,确定y 与x 满足的线性回归方程为0.7y x a =-+. (1)根据下列表格中的数据,比较当017x <≤时模型①、②的相关指数2R 的大小,并选择拟合精度更高、更可靠的模型,预测对“麒麟”手机芯片科技升级的投入为17亿元时的直接收益. (附:刻画回归效果的相关指数,()()22121ˆ1niii nii y yR y y ==-=--∑∑ 4.1≈)(2)为鼓励科技创新,当科技升级的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,比较科技升级投入17亿元与20亿元时公司实际收益的大小.附:用最小二乘法求线性回归方程ˆˆˆybx a =+的系数:()()()1122211ˆˆˆ,nni iii i i nniii i x ynx yxx y y bay bx xnx xx ====-⋅--===---∑∑∑∑ 【答案】(1)回归模型②,72.93(亿元);(2)投入20亿元时,公司的实际收益更大. 【解析】 【分析】(1)根据表中数据比较21R 和22R 可判断拟合效果,进而求出预测值; (2)求出,x y ,进而求出a ,得出回归方程得求出结果. 【详解】解:(1)由表格中的数据,182.479.2>,∴()()772211182.479.2iii i y y y y ==>--∑∑,∴()()772211182.479.211iit t y y y y ==-<---∑∑可见模型①的相关指数21R 小于模型②的相关指数22R . 所以回归模型②的拟合效果更好.所以当17x =亿元时,科技升级直接收益的预测值为ˆ21.314.421.3 4.114.472.93y=≈⨯-=(亿元). (2)当17x >时,由已知可得2122232425235x ++++==,68.56867.5666667.25y ++++==.∴0.767.20.72383.3a y x =+=+⨯=.∴当17x >时,y 与x 满足的线性回归方程为ˆ0.783.3yx =-+. 当20x时,科技升级直接收益的预测值为ˆ0.72083.369.3y=-⨯+=亿元.当20>亿元,x亿元时,实际收益的预测值为69.3574.3+=亿元72.93∴技术升级投入20亿元时,公司的实际收益更大.题型五非线性回归分析例12.(2022·全国·模拟预测)某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y表示每天使用扫码支付的人次,统计数据如下表所示:根据以上数据,绘制了如图所示的散点图.(1)根据散点图,判断在推广期内,y a bx=+与x=⋅(c,d均为大于零的常数)哪一个y c d适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及题干中表格内的数据,建立y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.参考数据:其中lg i i v y =,7117i i v v ==∑.参考公式:对于一组数据)()()(1122,,,,,,n n u v u v u v ⋅⋅⋅,其回归直线v u αβ=+的斜率和截距的最小二乘估计公式分别为1221ˆni i i nii uv nuvunuβ==-=-∑∑,ˆav u β=-. (3)推广期结束后,为更好地服务乘客,车队随机调查了100人次的乘车支付方式,得到如下结果: 已知该线路公交车票价2元,使用现金支付的乘客无优惠,使用公交卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据调查结果发现:使用扫码支付的乘客中有5人次乘客享受7折优惠,有10人次乘客享受8折优惠,有15人次乘客享受9折优惠.预计该车队每辆车每个月有1万人次乘车,根据所给数据,以事件发生的频率作为相应事件发生的概率,在不考虑其他因素的条件下,按照上述收费标准,试估计该车队一辆车一年的总收入.【答案】(1)x y c d =⋅适宜(2))(0.25ˆ 3.4710xy=⨯,活动推出第8天使用扫码支付的人次为347(3)199200元 【解析】 【分析】(1)根据散点图即可判断回归方程类型;(2)根据题意中的数据,利用最小二乘法求出ˆb ,进而求出ˆa,即可得出回归方程,令8x =求解即可;(3)根据题意分别求出享受7折优惠、8折优惠、9折优惠的收入,进而加起来即可. (1)根据散点图判断,x y c d =⋅适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型. (2)∵x y c d =⋅,∴两边同时取常用对数,得lg lg lg y c x d =+. 设lg a c =,lg b d =,则v a bx =+.∵4x =, 1.54v =,721140i i x ==∑,∴7172221750.1274 1.547ˆ0.2514074287i i i i i x v xvbx x==--⨯⨯====-⨯-∑∑,ˆˆ0.54av bx =-=,∴ˆ0.540.25v x =+,∴)(0.540.250.25ˆ10 3.4710xx y +==⨯,把8x =代入上式,得0.540.258 2.5420.54ˆ10101010347y+⨯===⨯=, ∴y 关于x 的回归方程为)(0.25ˆ 3.4710xy=⨯,活动推出第8天使用扫码支付的人次为347. (3)由题意,可知一个月中使用现金的乘客有1000人次,共收入100022000⨯=(元);使用公交卡的乘客有6000人次,共收入6000 1.69600⨯=(元).使用扫码支付的乘客有3000人次,其中,享受7折优惠的有500人次,共收入500 1.4700⨯=(元),享受8折优惠的有1000人次,共收入1000 1.61600⨯=(元),享受9折优惠的有1500人次,共收入1500 1.82700⨯=(元),故该车队一辆车一个月的收入为200096007001600270016600++++=(元).∴估计该车队一辆车一年的收入为1660012199200⨯=(元).规律方法求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性回归方程.例13.(2022·黑龙江·哈尔滨市第六中学校高二期末)区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术区块链作为构造信任的机器,将可能彻底改变整个人类社会价值传递的方式,2015年至2019年五年期间,中国的区块链企业数量逐年增长,居世界前列现收集我国近5年区块链企业总数量相关数据,如表注:参考数据5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =).附:样本()(),1,2,,i i x y i n =⋅⋅⋅的最小二乘法估计公式为1221ni ii nii x ynxy b xnx==-=-∑∑,a y bx =-(1)根据表中数据判断,y a bx =+与e dx y c =(其中e 2.71828=⋅⋅⋅,为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由)(2)根据(1)的结果,求y 关于x 的回归方程;(3)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司就获得此次信息化比赛的“优胜公司”,已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,则求甲公司获得“优胜公司”的概率. 【答案】(1)dx y ce = (2)0.75170.0591x y e -= (3)310【解析】【分析】(1)根据表中数据判断y 关于x 的回归方程为非线性方程;(2)令ln z y =,将y 关于x 的非线性关系,转化为z 关于x 的线性关系,利用最小二乘法求解;(3)利用相互独立事件的概率相乘求求解; (1)根据表中数据e dx y c =适宜预测未来几年我国区块链企业总数量. (2)e dx y c =,ln ln y dx c ∴=+,令ln z y =,则ln z dx c =+,5110.980 2.19655ii zz ====∑,5112345355ii xx =++++===∑由公式计算可知122140.457310.980.7517,5545ni ii n i i x znxzb x nx==-⨯==--=-∑∑ˆln 2.1960.751730.0591c z dx =-=-⨯=- ln 0.75170.0591y x ∴=-,即ln 0.75170.0591y x ∴=-,即0.75170.0591x y e -=所以y 关于x 的回归方程为0.75170.0591x y e -= (3)设甲公司获得“优胜公司”为A 事件. 则11123112113232352253210()P A ⨯+⨯⨯⨯+⨯⨯⨯==所以甲公司获得“优胜公司”的概率为310.例14.(2022·湖南·长沙一中高三阶段练习)数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1-9,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.(1)赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度y(秒)与训练天数x(天)有关,经统计得到如表的数据:现用by ax=+作为回归方程模型,请利用表中数据,求出该回归方程,并预测小明经过50天训练后,每天解题的平均速度y约为多少秒?(2)小明和小红在数独APP上玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,两人约定先胜4局者赢得比赛.若小明每局获胜的概率为23,已知在前3局中小明胜2局,小红胜1局.若每局不存在平局,请你估计小明最终赢得比赛的概率.参考数据(其中1iitx =)。

高一数学一元线性回归案例试题

高一数学一元线性回归案例试题

高一数学一元线性回归案例试题1. (2014•重庆一模)某小卖部销售一品牌饮料的零售价x (元/瓶)与销量y (瓶)的关系统计如下:已知x ,y 的关系符合线性回归方程,其中,.当单价为4.2元时,估计该小卖部销售这种品牌饮料的销量为( ) A.20 B.22 C.24 D.26 【答案】D【解析】利用平均数公式计算平均数,,利用b=﹣20求出a ,即可得到回归直线方程,把x=4.2代入回归方程求出y 值. 解:===3.5;==40,∴a=40﹣(﹣20)×3.5=110,∴回归直线方程为:=b +a=﹣20+110, 当=4.2时,=﹣20×4.2+110=26, 故选:D .点评:本题考查回归方程的求法,考查学生的计算能力,运算要细心.2. (2014•新余二模)已知某产品连续4个月的广告费用x i (i=1,2,3,4)千元与销售额y i (i=1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息: ①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系; ③回归直线方程=bx+a 中的b=0.8(用最小二乘法求得); 那么,当广告费用为6千元时,可预测销售额约为( ) A .3.5万元 B .4.7万元 C .4.9万元D .6.5万元【答案】B【解析】求出数据的中心点的坐标,代入回归直线方程求得系数a ,根据广告费用为6千元,求得预报变量y 的值. 解:∵=,=, ∴数据的中心为(,), 则=0.8×+a ,∴a=﹣,当广告费用为6千元时,可预测销售额y=0.8×6﹣0.1=4.7(万元). 故选:B .点评:本题考查了线性回归分析思想,考查了学生的数据处理能力,在回归分析中数据的中心在回归直线上.3. (2014•辽宁模拟)从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:身高x (cm )160165170175180)A.70.09kg B.70.12kg C.70.55kg D.71.05kg【答案】B【解析】根据所给的表格做出本组数据的样本中心点,根据样本中心点在线性回归直线上,利用待定系数法做出的值,现在方程是一个确定的方程,根据所给的x的值,代入线性回归方程,预报身高为172cm的高三男生的体重解:由表中数据可得==170,==69∵(,)一定在回归直线方程=0.56x+上故69=0.56×170+解得=﹣26.2故=0.56x﹣26.2当x=172时,=0.56×172﹣26.2="70.12"故选B.点评:本题主要考查线性回归方程的求解与运用,解题的关键是线性回归方程经过样本点的中心同时注意理解线性回归方程中相关系数的意义.4.(2014•郑州模拟)某车间加工零件的数量x与加工时间y的统计数据如表:现已求得上表数据的回归方程中的值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为()A.84分钟B.94分钟C.102分钟D.112分钟【答案】C【解析】根据表中所给的数据,做出横标和纵标的平均数,得到样本中心点,代入样本中心点求出a的值,写出线性回归方程.将x=100代入回归直线方程,得y,可以预测加工100个零件需要102分钟,这是一个预报值,不是生产100个零件的准确的时间数.解:由表中数据得:=20,=30,又值为0.9,故a=30﹣0.9×20=12,∴y=0.9x+12.将x=100代入回归直线方程,得y=0.9×100+12=102(分钟).∴预测加工100个零件需要102分钟.故选C.点评:本题考查线性回归方程的求法和应用,解题的关键是正确应用最小二乘法求出线性回归方程的系数的运算,再一点就是代入样本中心点可以求出字母a的值,是一个中档题目.5.(2012•吉安县模拟)已知x,y的取值如表:x1234从散点图分析,y与x线性相关,且回归方程为,则a=()A.﹣0.15B.﹣0.26C.﹣0.35D.﹣0.61【答案】A【解析】首先求出这组数据的横标和纵标的平均数,写出这组数据的样本中心点,把样本中心点代入线性回归方程求出a的值,解:∵,∴这组数据的样本中心点是(2.5,4.5),∵y与x线性相关,且,,∴4.5=1.86×2.5+a,,∴a=﹣0.15,故选A.点评:本题考查线性回归方程的求解和应用,是一个基础题6.(2012•湘潭模拟)一位母亲记录了儿子3~7岁时的身高,并根据记录数据求得身高(单位:cm)与年龄的回归模型为.若用这个模型预测这个孩子10岁时的身高,则下列叙述正确的是()A.身高一定是145cm B.身高在145cm以上C.身高在145cm左右D.身高在145cm以下【答案】C【解析】根据回归模型为,将x=10代入即可得到预测值.解:根据回归模型为,可得x=10时,=145cm故可预测10岁时的身高在145cm左右故选C.点评:本题考查回归模型的运用,解题的关键是理解回归模型的含义,从而合理预测.7.(2011•丰台区二模)已知x,y的取值如下表:从散点图可以看出y与x线性相关,且回归方程为,则a=()【答案】B【解析】本题考查的知识点是线性回归直线的性质,由线性回归直线方程中系数的求法,我们可知在回归直线上,满足回归直线的方程,我们根据已知表中数据计算出,再将点的坐标代入回归直线方程,即可求出对应的a值.解:∵点在回归直线上,计算得,∴回归方程过点(2,4.5)代入得4.5=0.95×2+a∴a=2.6;故选B.点评:本题就是考查回归方程过定点,考查线性回归方程,考查待定系数法求字母系数,是一个基础题8.(2010•沈阳三模)已知两个统计案例如下:①为了探究患慢性支气管炎与吸烟关系,调查了339名50岁以上的人,调查结果如表:②为了解某地母亲与女儿身高的关系,随机测得10对母女的身高如下表:则对这些数据的处理所应用的统计方法是()A.①回归分析②取平均值B.①独立性检验②回归分析C.①回归分析②独立性检验D.①独立性检验②取平均值【答案】B【解析】本题考查的知识点是回归分析和独立性检验的概念及用法,回归分析主要判断两个定量变量之间的相关关系,而独立性检验主要用来分析两个定性变量(或称分类变量)的关系,由题目可知①中两个变量是定性变量(或称分类变量),②中两个变量是两个定量变量,分析即可得到答案.解:∵①中两个变量是定性变量(或称分类变量),②中两个变量是两个定量变量,∴对这些数据的处理所应用的统计方法是:①独立性检验②回归分析故选B点评:要判断处理数据时应采用的统计方法,关键是要分析数据中两个变量是定性变量还是定量变量,回归分析主要判断两个定量变量之间的相关关系,而独立性检验主要用来分析两个定性变量(或称分类变量)的关系.9.(2005•上海模拟)某地2004年第一季度应聘和招聘人数排行榜前5个行业的情况列表如下:A.计算机,营销,物流B.机械,计算机,化工C.营销,贸易,建筑D.机械,营销,建筑,化工【答案】B【解析】由于用同一行业中应聘人数与招聘人数比值的大小来衡量该行业的就业情况,根据表格的数据可以分别求出所有行业的应聘人数与招聘人数比值,然后根据这些比值即可求解.解:依题意得化工行业的应聘人数小于招聘人数,物流的应聘人数小于招聘人数,且比值化工行业大于物流机械的应聘人数大于招聘人数,故选B.点评:本题的考点是回归分析,主要考查了统计表的识别能力,解题的关键是会根据表格找出以后条件解决问题.10.实验测得四组(x,y)的值分别为(1,2),(2,3),(3,4),(4,4),则y与x间的线性回归方程是()A.y=﹣1+x B.y=1+x C.y=1.5+0.7x D.y=1+2x【答案】C【解析】根据所给的四对数据,算出y与x的平均数,把所求的平均数代入求b的公式,算出b 的值,再把它代入求a的式子,求出a的值,写出线性回归方程即可.解:根据题意得:==2.5,==3.25,b==0.7,a=﹣b=3.25﹣0.7×2.5=1.5,∴y与x间的线性回归方程是y=1.5+0.7x.故选:C.点评:本题考查线性回归方程的求法,在一组具有相关关系的变量的数据间,利用最小二乘法做出线性回归方程的系数,再代入样本中心点求出a的值,本题是一个基础题.。

一元线性回归案例

一元线性回归案例
Hale Waihona Puke 0.5%和56.3%. OLS回归线为
S=963.191+18.501R
例9. CEO薪水与股本回报率
OLS回归线为 S=963.191+18.501R N=209, R^2=0.0132
企业股本回报率只能解释薪水变异中的 1.3%.
例2. 一个简单的工资方程
美国研究者以1976年的526名美国工人为样 本,OLS回归方程为:
W=-0.90 +0.54 E 这里W单位为美元/小时,E单位为年. E平均工资计算为5.90美元/小时. 根据消费者价格指数,这一数值相当于2003
年的19.06美元.
例2. 一个简单的工资方程
对同样的数据,但是把log(w)作为因变量, 得到的回归方程为:
Log(invpc)=-0.550+1.24log(price) (0.043) (0.382)
N=42 R^2=0.208 显著性检验不明显,事实上这一关系也是错误的,未
来我们将加上时间序列分析中特有的趋势分析说 名这个问题.
例8. 集装箱吞吐量与外贸额
2001-2006年中国集装箱吞吐量增长与外贸 额增长的弹性分析.以Y表示集装箱吞吐量( 百万标准箱),X表示外贸额(百亿美元).
出勤率无关,但这几乎不可能.
例5. 学校的数学成绩与学校午餐项目
以math10表示高中十年级学生在一次标准化 数学考试中通过的百分比.lnchprg表示有资 格接受午餐计划的学生的百分比.
若其他条件不变,若学生太贫穷不能保证正常 饮食,可以有资格接受学校午餐项目的资助, 他的成绩应有所提高.
例5. 学校的数学成绩与学校午餐项目
1992-1993学年美国密歇根州408所高中的 数据的OLS回归方程:

一元线性回归分析案例

一元线性回归分析案例

i=1
(2)当 r>0 时,称两个变量_正__相___关__;
当 r<0 时,称两个变量_负__相__关__;
当 r=0 时,称两个变量线性不相关.
【教材拓展】 1.相关关系与函数关系的异同 共同点:二者都是指两个变量间的关系; 不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确 定性关系,体现的不一定是因果关系,也可能是伴随关系. 2.从散点图看相关性 正相关:样本点分布在从左下角到右上角的区域内; 负相关:样本点分布在从左上角到右下角的区域内. 3.回归直线 y=bx+a 必过样本点的中心.
答案:68
1.四名同学根据各自的样本数据研究变量 x,y 之间的相关关系,并求得回归直线方
程,分别得到以下四个结论:
①y 与 x 负相关且 y=2.347x-6.423;②y 与 x 负相关且 y=-3.476x+5.648;③y 与
x 正相关且 y=5.437x+8.493;④y 与 x 正相关且 y=-4.326x-4.578.
(1)根据数据绘制的散点图能够看出可用线性回归模型拟合 y 与 x 的关系,请用相关
系数 r 加以说明;(系数精确到 0.001)
(2)建立 y 关于 x 的回归方程 y=bx+a(系数精确到 0.01);如果该公司计划在 9 月份
实现产品销量超 6 万件,预测至少需投入促销费用多少万元(结果精确到 0.01).
4.线性回归方程
假设样本点为(x1,y1),(x2,y2),…,(xn,yn),如果用x-表示x1+x2+n …+xn,用-y表
示y1+y2+n …+yn,则可以求得 b=
(x1-x-)(y1--y)+(x2-x-)(y2--y)+…+(xn-x-)(yn--y) (x1-x-)2+(x2-x-)2+…+(xn-x-)2

一元线性回归分析例题

一元线性回归分析例题

SPSS一元线性回归分析例题(体检数据中的体重和肺活量的分析)某单位对12名女工进行体检,体检项目包括体重(kg)和肺活量(L),数据如下:X(体重:kg) 42.00 42.00 46.00 46.00 46.00 50.0050.00 50.00 52.00 52.00 58.00 58.00Y(肺活量:L) 2.55 2.20 2.75 2.40 2.80 2.813.41 3.10 3.46 2.85 3.50 3.00用x表示体重,y表示肺活量,建立数据文件。

利用一元线性回归分析描述其关系。

基本操作提示:Step 1 建立数据文件,并打开该数据文件。

Step 2 选择菜单Analyz e→Regressio n→Linear,打开主对话框。

在“Dependent”(因变量)列表框中选择变量“肺活量”,作为线性回归分析的被解释变量;在“Independent”(自变量)列表框中选择变量“体重”,作为解释变量。

Step 3 单击“Statistics”按钮,在打开的对话框中,依次选择“Estimates”(显示回归系数的估计值)、“Confidence intervals”、“Model fit”(模型拟合)、“Descriptives”、“Casewise diagnostic”(个案诊断)和“All Cases”选项。

选择完毕后,单击“Continue”按钮,返回主对话框。

Step 4 单击“Plots”(图形)按钮,在打开的主对话框中,选择“DEPENDENT”(因变量)作为y轴变量,“*ZPRED”(标准化预测值)作为x轴变量;并在“Standardized Residual Plots”(标准化残差图)中选择“Histogram”(直方图)和“Normal probabilityplot”(正态概率图,即P-P图)选项。

选择完毕后,单击“Continue”按钮,返回主对话框。

Step 5 单击“Save”(保存)按钮,在打开的主对话框中,在“Predicted Values”(预测值)选项区域中选择“Unstandardized”和“S. E. ofmean predictions”(预测值均数的标准误差)选项;“PredictionIntervals”(预测区间)选项区域中选择“Mean”和“Individual”选项;“Residuals”(残差)选项区域中选择“Unstandardized”选项。

一元线性回归分析案例

一元线性回归分析案例

求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。
解:1、选取身高为自变量x,体重为因变量y,作散点图:
2、由散点图知道身高和体重有比较好的线性相 关关系,因此可以用线性回归方程刻画它们之间 的关系。
第17页/共39页
课题:选修2-3 8.5 回归分析案例
分析:由于问题中要求根 据身高预报体重,因此选 取身高为自变量,体重为 因变量.
再冷的石头,坐上三年也会暖 !
1. 散点图;
2.回归方程: yˆ 0.849x 85.172 身高172cm女大学生体重 yˆ = 0.849×172 - 85.712 = 60.316(kg)
本例中, r=0.798>0.75.这表明体重与身高有很强的线性相关关系,从而也表明我们 建立的回归模型是有意义的。
xi2
2
nx
,......(2)
i 1
i 1
其中x
1 n
n i 1
xi ,
y
1 n
n i 1
yi .
(x, y) 称为样本点的中心。
第8页/共39页
课题:选修2-3 8.5 回归分析案例
再冷的石头,坐上三年也会暖 !
1、回归直线方程
1、所求直线方程叫做回归直线方程;
相应的直线叫做回归直线。
2、对两个变量进行的线性分析叫做线性回归分析。
然后,我们可以通过残差 e1, e2 , , en 来判断模型拟合的效果,
判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析。
表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。
编号 1
2
3
4
5

一元线性回归模型习题及答案解析

一元线性回归模型习题及答案解析

一元线性回归模型一、单项选择题1、变量之间的关系可以分为两大类__________。

AA 函数关系与相关关系B 线性相关关系和非线性相关关系C 正相关关系和负相关关系D 简单相关关系和复杂相关关系 2、相关关系是指__________。

DA 变量间的非独立关系B 变量间的因果关系C 变量间的函数关系D 变量间不确定性的依存关系 3、进行相关分析时的两个变量__________。

AA 都是随机变量B 都不是随机变量C 一个是随机变量,一个不是随机变量D 随机的或非随机都可以 4、表示x 和y 之间真实线性关系的是__________。

CA 01ˆˆˆt tY X ββ=+ B 01()t t E Y X ββ=+ C 01t t t Y X u ββ=++ D 01t t Y X ββ=+5、参数β的估计量ˆβ具备有效性是指__________。

B A ˆvar ()=0βB ˆvar ()β为最小C ˆ()0ββ-= D ˆ()ββ-为最小 6、对于01ˆˆi i iY X e ββ=++,以σˆ表示估计标准误差,Y ˆ表示回归值,则__________。

BA i i ˆˆ0Y Y 0σ∑=时,(-)=B 2iiˆˆ0Y Y σ∑=时,(-)=0 C ii ˆˆ0Y Y σ∑=时,(-)为最小 D 2iiˆˆ0Y Yσ∑=时,(-)为最小 7、设样本回归模型为i 01i iˆˆY =X +e ββ+,则普通最小二乘法确定的i ˆβ的公式中,错误的是__________。

DA ()()()i i 12iX X Y -Y ˆX X β--∑∑=B ()i iii122iin X Y -X Y ˆn X -X β∑∑∑∑∑=C ii122iX Y -nXY ˆX -nXβ∑∑= D i i ii12xn X Y -X Y ˆβσ∑∑∑=8、对于i 01i i ˆˆY =X +e ββ+,以ˆσ表示估计标准误差,r 表示相关系数,则有__________。

2.4-5 一元线性回归的预测及实例

2.4-5 一元线性回归的预测及实例

区间估计思想: 区间估计思想:构造一个已知概率的统计量(如t分布的统 计量)该统计量包含Y0的真实均值和估计量,再将该统计 量取值的置信区间转化为Y0真实均值的置信区间
6
总体条件均值与个值预测值的区间估计 构造统计量
已知
Y0 = β 0 + β 1 X 0
2 ~ N (β , σ ) β1 1 ∑ xi2
E (Y0 ) = E ( β 0 + β 1 X 0 ) = E ( β 0 ) + X 0 E ( β 1 ) = β 0 + β 1 X 0
4
举例
所建立的家庭可支配收入利用 P34 例2.2.1 所建立的家庭可支配收入-消费支出 模型,求家庭可支配收入为6000 6000元时家庭消费支出均值 模型,求家庭可支配收入为6000元时家庭消费支出均值 和个值的预测值。 和个值的预测值
Y0 ( β 0 + β 1 X 0 ) t= ~ t (n 2) S Y
0
其中
S Y
0
1 (X 0 X )2 = σ ( + ) 2 n ∑ xi
2
Why?
8
置信区间的构造过程: 置信区间的构造过程:
易得:
P( t α < t < t α ) = 1 α
2 2

等价于
进而 于是,在1-α的置信度下,总体均值 总体均值E(Y|X0)的置信区间为 总体均值 的置信区间为
由P35 表2.2.1 可得: 可得:
10
解续: 解续: 进而,可求得: 进而,可求得:
E(Y|6000)预测值 预测值95%的置信区间为 预测值 的置信区间为

11
总体个值预测值的区间估计
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章 一元线性回归模型典型例题分析
例1、令kids 表示一名妇女生育孩子的数目,educ 表示该妇女接受过教育的年数。

生育率对教育年数的简单回归模型为
μββ++=educ kids 10
(1)随机扰动项μ包含什么样的因素?它们可能与教育水平相关吗?
(2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。

例2.已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为所受教育水平(年)。

随机扰动项μ的分布未知,其他所有假设都满足。

如果被解释变量新员工起始薪金的计量单位由元改为100元,估计的截距项与斜率项有无变化?如果解释变量所受教育水平的度量单位由年改为月,估计的截距项与斜率项有无变化?
例3.对于人均存款与人均收入之间的关系式t t t Y S μβα++=使用美国36年的年度数据得如下估计模型,括号内为标准差:
)
011.0()
105.151(067.0105.384ˆt
t Y S +=
2R =0.538 023.199ˆ=σ
(1)β的经济解释是什么?
(2)α和β的符号是什么?为什么?实际的符号与你的直觉一致吗?如果有冲突的话,你可以给出可能的原因吗?
(3)对于拟合优度你有什么看法吗? (4)检验统计值?
例4.下列方程哪些是正确的?哪些是错误的?为什么?
⑴ y x t n t t =+=αβ12,,, ⑵ y x t n t t t =++=αβμ12,,,
⑶ y x t n t t t
=++= ,,,αβμ12
⑷ ,,,y x t n t t t =++=αβμ12 ⑸ y x t n t t =+= ,,,αβ12 ⑹ ,,,y x t n t t =+=αβ12
⑺ y x t n t t t =++= ,,,αβμ12 ⑻ ,,,y x t n t t
t =++=αβμ12
其中带“^”者表示“估计值”。

例5.对于过原点回归模型i i i u X Y +=1β ,试证明
∑=

22
1)(i
u X
Var σβ
例6、对没有截距项的一元回归模型
i i i X Y μβ+=1
称之为过原点回归(regression through the origin )。

试证明
(1)如果通过相应的样本回归模型可得到通常的正规方程组
∑∑==0
0i
i
i X e e
则可以得到1β的两个不同的估计值: X Y =1~β, ()()∑∑=2
1
ˆi
i
i X Y X β。

(2)在基本假设0)(i =μE 下,1~
β与1
ˆβ均为无偏估计量。

(3)拟合线X Y 1ˆˆβ=通常不会经过均值点),(Y X ,但拟合线X Y 1~~β=则相反。

(4)只有1ˆβ是1
β的OLS 估计量。

解:
(1)由第一个正规方程
0=∑t
e

0)~(1=-∑t t X Y β 或
∑∑=t t X Y 1~β
求解得 X Y /~
1=β 由第2个下规方程
0)ˆ(1=-∑t
t
t
X Y
X β得
∑∑=21ˆt t
t
X Y
X β
求解得 )/()(ˆ2
1
∑∑=t
t
t X
Y X β
(2)对于X Y /~
1=β,求期望
1
1111)](){[1
)]
(1[1)()~
(ββμβμββ==+=+==X
X
E n X E X X n
E X X Y E E t t t t 这里用到了t X 的非随机性。

对于)/()(ˆ2
1
∑∑=t
t
t X
Y X β,求期望
)/()ˆ(21
∑∑=t t t X Y X E E β
122
12122)()1()()1()]([)1
()()1(
βμβμβ=+=+==∑∑∑∑∑∑∑∑t t t
t t t t t t
t t t E X X X X X X E X Y X E X
(3)要想拟合值X Y 1ˆˆβ=通过点),(Y X ,X 1ˆβ必须等于Y 。

但X X
Y
X X t
t
t ∑∑=21ˆβ,
通常不等于Y 。

这就意味着点),(Y X 不太可能位于直线X Y 1
ˆˆβ=上。

相反地,由于Y X =1~β,所以直线X Y 1
~
ˆβ=经过点),(Y X 。

(4)OLS 方法要求残差平方和最小
Min ∑∑-==
212)ˆ(t
t t
X Y e
RSS β 关于1
ˆβ求偏导得
0))(ˆ(2ˆ11
=--=∂∂∑t
t t X X Y RSS ββ

0)ˆ(1=-∑t
t
t
X Y
X β
()()∑∑=2
1
ˆi
i i X Y X β
可见1
ˆβ是OLS 估计量。

相关文档
最新文档