课时跟踪检测(十五) 回归分析的基本思想及其初步应用
2019-2020学年高中数学(人教版选修2-3)课时跟踪检测(十五) 回归分析的基本思想及其初步应用 Word版含答

课时跟踪检测(十五) 回归分析的基本思想及其初步应用一、选择题1.(福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x -.据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元解析:选B 由题意知,x -=8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元).2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:哪位同学建立的回归模型拟合效果最好?( ) A .甲 B .乙 C .丙D .丁解析:选A 相关指数R 2越大,表示回归模型的拟合效果越好.3.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )解析:选A 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.4.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.6万元 B .65.5万元 C .67.7万元D .72.0万元解析:选B 样本点的中心是(3.5,42), 则a ^=y -b ^x =42-9.4×3.5=9.1, 所以回归直线方程是y ^=9.4x +9.1, 把x =6代入得y ^=65.5.5.(湖北高考)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关解析:选C 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.二、填空题6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.答案:17.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R 2为________. 解析:回归平方和=总偏差平方和-残差平方和=80-60=20, 故R 2=2080=0.25⎝ ⎛⎭⎪⎫或R2=1-6080=0.25.答案:0.258.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:x =72,y =71,∑i =16x2i =79,∑i =16x i y i =1 481.则销量每增加1 000箱,单位成本下降________元. 解析:由题意知,b ^=1 481-6×72×7179-6×⎝ ⎛⎭⎪⎫722≈-1.818 2,a ^=71-(-1.818 2)×72≈77.36,y ^=-1.818 2x +77.36,销量每增加1 000箱,则单位成本下降1.8182元.答案:1.818 29.某中高二某班为了对即将上市的班刊进行合理定价,将对班刊按事先拟定的价格进行试销,得到如下数据:(1)求线性回归方程y =b x +a .(2)预计今后的销售中,销量与单价服从(1)中的关系,且班刊的成本是4元/件,为了获得最大利润,班刊的单价定为多少元?解:(1)x =8+8.2+8.4+8.6+8.8+96=8.5,y =90+84+83+80+75+686=80,∑i =14x i y i =8×90+8.2×84+8.4×83+8.6×80+8.8×75+9×68=4 066,∑i =14x2i =82+8.22+8.42+8.62+8.82+92=434.2,b ^=∑i =1n-x -y∑i =1n-x=4 066-6×8.5×80434.2-6×8.52=-20,a ^=y -b ^x =80+20×8.5=250, 所求线性回归方程为y ^=-20x +250.(2)获得利润z =(x -4)y =-20x 2+330x -1 000, 当x =8.25时,z max =361.25(元),所以当单价定为8.25元时,可获得最大利润.10.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量.参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17-y =0.55,7≈ 2.646.参考公式:相关系数r=∑i =1n-t-y ∑i =1n-t∑i =1n-y,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=∑i =1n-t-y∑i =1n-t,a ^=y -b ^t .解:(1)由折线图中的数据和附注中的参考数据得t =4,∑i =17(t i -t )2=28, ∑i =17-y =0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,∴r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得 b ^=∑i =17-t -y∑i =17-t=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^=0.92+0.10t .将2017年对应的t =10代入回归方程得y ^=0.92+0.10×10=1.92. 所以预测2017年我国生活垃圾无害化处理量约为1.92亿吨.11.假设关于某设备使用年限x (年)和所支出的维修费用y (万元)有如下统计资料:若由资料知,y 对x 呈线性相关关系,试求: (1)回归直线方程;(2)估计使用年限为10年时,维修费用约是多少? 解:(1)由表格中的数据可得x =15(2+3+4+5+6)=4y =15(2.2+3.8+5.5+6.5+7.0)=5.∑i =15x2i =22+32+42+52+62=90, ∑i =15x i y i =2×2.2+3×3.8+4×5.5+5×6.5+6×7.0=112.3,所以回归系数b ^=∑i =15xiyi -5x-y-∑i =15x2i -5x 2=112.3-5×4×590-5×42=12.310=1.23.可得a ^=y -b ^x =5-1.23×4=0.08. 所以回归直线方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元) 即估计用10年时,维修费约为12.38万元.。
高中数学课时跟踪检测(一)回归分析的基本思想及其初步应用新人教A版选修1_2

课时跟踪检测(一) 回归分析的基本思想及其初步应用一、选择题1.(重庆高考)已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4解析:选A 依题意知,相应的回归直线的斜率应为正,排除C 、D.且直线必过点(3,3.5),代入A 、B 得A 正确.2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:建立的回归模型拟合效果最好的同学是( ) A .甲 B .乙 C .丙D .丁解析:选A 相关指数R 2越大,表示回归模型拟合效果越好.3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71.则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,A 正确;由回归方程系数的意义可知回归直线过样本点的中心(x -,y -),B 正确;依据回归方程中b ^的含义可知,x 每变化1个单位,y ^相应变化约0.85个单位,C 正确; 用回归方程对总体进行估计不能得到肯定结论,故D 不正确.4.甲、乙、丙、丁4位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ^i )2,如下表:哪位同学的试验结果体现拟合A ,B 两变量关系的模型拟合精度高?( ) A .甲 B .乙 C .丙D .丁解析:选D 从题中的散点图上来看,丁同学的散点图中的点更加近似在一条直线附近;从残差平方和来看,丁同学的最小,说明拟合精度最高.5.(福建高考)已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:选C 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2. 而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑i =16x i y i -6x - y-∑i =16x 2i -6x -2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y --b ^x -=136-57×72=-13,所以b ^<b ′,a ^>a ′. 二、填空题6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为_________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1. 答案:17.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下表:则y 对x 的线性回归方程为________________. 解析:设y 对x 的线性回归方程为y ^=b ^x +a ^, 由表中数据得x -=176,y -=176,b ^=12,a ^=176-12×176=88,所以y 对x 的线性回归方程为y ^=12x +88.答案:y ^=12x +888.关于x 与y 有如下数据:为了对x ,y 两个变量进行统计分析,现有以下两种线性模型:甲:y ^=6.5x +17.5,乙:y ^=7x +17,则____________(填“甲”或“乙”)模型拟合的效果更好.解析:设甲模型的相关指数为R 21,则R 21=1-∑i =15y i -y ^i2∑i =15y i -y-2=1-1551 000=0.845;设乙模型的相关指数为R 22, 则R 22=1-1801 000=0.82.因为0.845>0.82,即R 21>R 22, 所以甲模型拟合效果更好. 答案:甲 三、解答题9.(新课标全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i =1nt i -t-y i -y-∑i =1nt i -t-2,a ^=y --b ^t -.解:(1)由所给数据计算得 t -=17×(1+2+3+4+5+6+7)=4,y -=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t -)2=9+4+1+0+1+4+9=28,∑i =17(t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17t i -t -y i -y-∑i =17t i -t-2=1428=0.5, a ^=y --b ^t -=4.3-0.5×4=2.3,所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得y ^=0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.10.在一段时间内,某种商品的价格x (元)和需求量y (件)之间的一组数据如下表:求出y 关于x 的线性回归方程,并说明拟合效果的好坏.(参考数据:∑5i =1x 2i =1 660,∑5i =1x i y i=3 992)解:从作出的散点图(图略)可看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得x -=18,y -=45.4.由计算公式得b ^=-2.35,a ^=y --b ^x -=87.7. 故y 关于x 的线性回归方程为y ^=-2.35x +87.7. 列表:所以∑5i =1 (y i -y i )2=8.3,∑i =1(y i -y )2=229.2. 相关指数R 2=1-∑5i =1y i -y ^i2∑5i =1y i -y -2≈0.964.因为0.964很接近于1,所以该模型的拟合效果好.。
回归分析的基本思想及其初步应用

回归分析的基本思想及其初步应用1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报. 2.线性回归模型(1)在线性回归直线方程y ^=a ^+b ^x 中,b ^=∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2,a ^=y --b ^x -,其中x -=1n ∑ni =1x i ,y -=1n∑ni =1y i ,(x ,y )称为样本点的中心,回归直线过样本点的中心. (2)线性回归模型y =bx +a +e ,其中e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量.[注意] (1)非确定性关系:线性回归模型y =bx +a +e 与确定性函数y =a +bx 相比,它表示y 与x 之间是统计相关关系(非确定性关系),其中的随机误差e 提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a ,b 的工具.(2)线性回归方程y ^=b ^x +a ^中a ^,b ^的意义是:以a ^为基数,x 每增加1个单位,y 相应地平均增加b ^个单位.3.刻画回归效果的方式方式方法计算公式 刻画效果R 2R 2=1-∑ni =1(y i -y ^i )2∑n i =1(y i -y )2R 2越接近于1,表示回归的效果越好残差图e ^i 称为相应于点(x i ,y i )的残差,e ^i =y i -y ^i残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高残差平方和∑ni =1(y i -y ^i )2 残差平方和越小,模型的拟合效果越好判断正误(正确的打“√”,错误的打“×”) (1)求线性回归方程前可以不进行相关性检验.( )(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )(3)利用线性回归方程求出的值是准确值.( ) 答案:(1)× (2)√ (3)×变量x 与y 之间的回归方程表示( )A .x 与y 之间的函数关系B .x 与y 之间的不确定性关系C .x 与y 之间的真实关系形式D .x 与y 之间的真实关系达到最大限度的吻合 答案:D在两个变量y 与x 的回归模型中,分别选择了4个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98 B .模型2的相关指数R 2为0.80 C .模型3的相关指数R 2为0.50 D .模型4的相关指数R 2为0.25 答案:A已知线性回归方程y ^=0.75x +0.7,则x =11时,y 的估计值为________. 答案:8.95探究点1 线性回归方程在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y 与腐蚀时间x 之间的一组观察值如下表.x (s) 5 10 15 20 30 40 50 60 70 90 120 y (μm)610101316171923252946(1)画出散点图;(2)求y 对x 的线性回归方程;(3)利用线性回归方程预测时间为100 s 时腐蚀深度为多少. 【解】 (1)散点图如图所示.(2)从散点图中,我们可以看出y 对x 的样本点分布在一条直线附近,因而求回归直线方程有意义.x =111(5+10+15+ (120)=51011,y =111(6+10+10+…+46)=21411,a ^=y -b ^x ≈21411-0.304×51011= 5.36. 故腐蚀深度对腐蚀时间的线性回归方程为y =0.304x + 5.36.(3)根据(2)求得的线性回归方程,当腐蚀时间为100 s 时,y ^=5.36+0.304×100=35.76(μm),即腐蚀时间为100 s 时腐蚀深度大约为35.76 μm.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系. (2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时钢水的含碳量x 与冶炼时间y (从炼料熔化完毕到出钢的时间)的数据(x i ,y i )(i =1,2,…,10)并已计算出=1589,i =110y i =1 720,故冶炼时间y 对钢水的含碳量x 的回归直线方程为y ^=1.267x -30.47. 探究点2 线性回归分析假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求相关指数R 2,并说明残差变量对有效穗的影响占百分之几? 【解】 (1)散点图如下.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,x -=30.36,y -=43.5,(1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模x 15.0 25.8 30.0 36.6 44.4 y39.442.942.943.149.2型的拟合效果,在此基础上,借助回归方程对实际问题进行分析. (2)刻画回归效果的三种方法①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适; ②残差平方和法:残差平方和 i =1n(y i -y ^i )2越小,模型的拟合效果越好;关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070由(2)可得y i -y ^i 与y i -y -的关系如下表:y i -y ^i -1 -5 8 -9 -3 y i -y --20-101020由于R 21=0.845,R 22=0.82,0.845>0.82, 所以R 21>R 22.所以(1)的拟合效果好于(2)的拟合效果. 探究点3 非线性回归分析某地今年上半年患某种传染病的人数y (人)与月份x (月)之间满足函数关系,模型为y =a e bx ,确定这个函数解析式.月份x /月 1 2 3 4 5 6 人数y /人526168747883【解】 设u =ln y ,c =ln a , 得u ^=c ^+b ^x ,则u 与x 的数据关系如下表:x12 3 4 56u =ln y 3.95 4.114.224.3044.356 7 4.418 8非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程. (4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果. (5)根据相应的变换,写出非线性回归方程.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:x(千册)1 2 3 5 10 20 30 50 100 200 y (元)10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费y (元)与印刷册数的倒数1x之间是否具有线性相关关系,如有,求出y 对x 的回归方程,并画出其图形.解:首先作变量置换u =1x,题目中所给的数据变成如下表所示的10对数据.u i 1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005 y i10.155.524.082.852.111.621.411.301.211.15然后作相关性检测.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系,由公式得a ^≈1.125,b ^≈8.973,所以y ^=1.125+8.973u ,最后回代u =1x ,可得y ^=1.125+8.973x.这就是题目要求的y 对x 的回归方程.回归方程的图形如图所示,它是经过平移的反比例函数图象的一个分支.1.关于回归分析,下列说法错误的是( ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,预报变量在y 轴C .回归模型中一定存在随机误差D .散点图能明确反映变量间的关系解析:选D.用散点图反映两个变量间的关系时,存在误差. 2.下列关于统计的说法:①将一组数据中的每个数据都加上或减去同一个常数,方差恒不变; ②回归方程y ^=b ^x +a ^必经过点(x ,y ); ③线性回归模型中,随机误差e =y i -y ^i ;④设回归方程为y ^=-5x +3,若变量x 增加1个单位,则y 平均增加5个单位. 其中正确的为________(写出全部正确说法的序号).解析:①正确;②正确;③线性回归模型中,随机误差的估计值应为e ^i =y i -y ^i ,故错误;④若变量x 增加1个单位,则y 平均减少5个单位,故错误. 答案:①②3.某商场经营一批进价是30元/台的小商品,在市场试销中发现,此商品的销售单价x (x 取整数)(元)与日销售量y (台)之间有如下关系:x 35 40 45 50 y56412811(1)画出散点图,并判断y 与x 是否具有线性相关关系;(2)求日销售量y 对销售单价x 的线性回归方程(方程的斜率保留一个有效数字); (3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量具有线性相关关系.(2)因为x -=14×(35+40+45+50)=42.5,(3)依题意有P =(161.5-3x )(x -30) =-3x 2+251.5x -4 845=-3⎝⎛⎭⎪⎫x -251.562+251.5212-4 845. 所以当x =251.56≈42时,P 有最大值,约为426元.故预测当销售单价为42元时,能获得最大日销售利润.知识结构深化拓展线性回归模型的模拟效果(1)残差图法:观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)残差的平方和法:一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.(3)R 2法:R 2的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.[注意] r 的绝对值越大说明变量间的相关性越强,通常认为r 的绝对值大于等于0.75时就是有较强的相关性,同样R 2也是如此,R 2越大拟合效果越好.[A 基础达标]1.废品率x %和每吨生铁成本y (元)之间的回归直线方程为y ^=256+3x ,表明( ) A .废品率每增加1%,生铁成本增加259元 B .废品率每增加1%,生铁成本增加3元 C .废品率每增加1%,生铁成本平均每吨增加3元 D .废品率不变,生铁成本为256元解析:选C.回归方程的系数b ^表示x 每增加一个单位,y ^平均增加b ^,当x 为1时,废品率应为1%,故当废品率增加1%时,生铁成本平均每吨增加3元.2.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程y ^=b ^x +a ^中,b ^=0.8(用最小二乘法求得),那么当广告费用为6千元时,可预测销售额约为( )A .3.5万元B .4.7万元C .4.9万元D .6.5万元解析:选B.依题意得x =4.5,y =3.5,由回归直线必过样本点中心得a ^=3.5-0.8×4.5=-0.1,所以回归直线方程为y ^=0.8x -0.1.当x =6时,y ^=0.8×6-0.1=4.7.3.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得的线性回归方程是( )A.y ^=11.47+2.62xB.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x 解析:选A.由题中数据得x =6.5,y =28.5,a ^=y -b ^x =28.5-2.62×6.5=11.47,所以y 与x 的线性回归方程是y ^=2.62x +11.47.故选A.4.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5.如果今年该地区财政收入10亿元,则年支出预计不会超过( )A .10亿元B .9亿元C .10.5亿元D .9.5 亿元解析:选C.代入数据y =10+e ,因为|e |≤0.5, 所以9.5≤y ≤10.5,故不会超过10.5亿元.5.某种产品的广告费支出x 与销售额y (单位:万元)之间的关系如下表:y 与x 的线性回归方程为y =6.5x +17.5,当广告支出5万元时,随机误差的效应(残差)为________.解析:因为y 与x 的线性回归方程为y ^=6.5x +17.5,当x =5时,y ^=50,当广告支出5万元时,由表格得:y =60,故随机误差的效应(残差)为60-50=10. 答案:106.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.解析:由e i 恒为0,知y i =y ^i ,即y i -y ^i =0, 故R 2=1-∑ni =1 (y i -y ^i )2∑n i =1 (y i -y )2=1-0=1.答案:17.某个服装店经营某种服装,在某周内获纯利y (元)与该周每天销售这种服装件数x 之间的一组数据关系见表:已知∑7i =1x 2i =280,∑7i =1x i y i =3 487. (1)求x ,y ;(2)已知纯利y 与每天销售件数x 线性相关,试求出其回归方程. 解:(1)x =3+4+5+6+7+8+97=6,y =66+69+73+81+89+90+917=5597.(2)因为y 与x 有线性相关关系,所以b ^=∑7i =1x i y i-7x y ∑7i =1x 2i -7x 2=3 487-7×6×5597280-7×36=4.75,a ^=5597-6×4.75=71914≈51.36.故回归方程为y ^=4.75 x +51.36.8.已知某校5个学生的数学和物理成绩如下表:(1)假设在对这5名学生成绩进行统计时,把这5名学生的物理成绩搞乱了,数学成绩没出现问题,问:恰有2名学生的物理成绩是自己的实际分数的概率是多少?(2)通过大量事实证明发现,一个学生的数学成绩和物理成绩具有很强的线性相关关系,在上述表格是正确的前提下,用x 表示数学成绩,用y 表示物理成绩,求y 与x 的回归方程; (3)利用残差分析回归方程的拟合效果,若残差和在(-0.1,0.1)范围内,则称回归方程为“优拟方程”,问:该回归方程是否为“优拟方程”?参考数据和公式:y ^=b ^x +a ^,其中.解:(1)记事件A 为“恰有2名学生的物理成绩是自己的实际成绩”, 则P (A )=2C 25A 55=16.(2)因为x =80+75+70+65+605=70,y =70+66+68+64+625=66,学生的编号i 1 2 3 4 5 数学x i 80 75 70 65 60 物理y i7066686462[B 能力提升]9.假设关于某设备的使用年限x和所支出的维修费用y(万元)有如表的统计资料:使用年限x 2 3 4 5 6 维修费用y 2.2 3.8 5.5 6.5 7.010.(选做题)某地区不同身高的未成年男性的体重平均值如表所示:身高x(cm)60708090100110体重y(kg) 6.137.909.9912.1515.0217.50身高x(cm)120130140150160170体重y(kg)20.9226.8631.1138.8547.2555.05 (1)(2)如果体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高175 cm 、体重82 kg 的在校男生体重是否正常? 解:(1)根据题表中的数据画出散点图如图所示.由图可看出,样本点分布在某条指数函数曲线y =c 1e c 2x的周围, 于是令z =ln y ,得下表:x 60 70 80 90 100 110 z 1.81 2.07 2.30 2.50 2.71 2.86 x 120 130 140 150 160 170 z3.043.293.443.663.864.01作出散点图如图所示:由表中数据可得z 与x 之间的回归直线方程为 z ^=0.662 5+0.020x ,则有y ^=e 0.662 5+0.020x .(2)当x =175时,预报平均体重为y ^=e 0.662 5+0.020×175≈64.23, 因为64.23×1.2≈77.08<82,所以这个男生偏胖.。
数学课后训练:回归分析的基本思想及其初步应用

课后训练一、选择题1.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是()A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合2.下列四个命题中正确的是( )①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.A.①③B.②④C.①④D.②③3.已知x,y取值如下表:若x,y y=0.95x+a,则a=( )A.0.325 B.2。
6C.2。
2 D.04.某学校开展研究性学习活动,某同学获得一组实验数据如下表:对于表中数据,( )A .y =2x -2B .12xy ⎛⎫= ⎪⎝⎭C .y =log 2xD .y =12(x 2-1)5.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0。
5.如果今年该地区财政收入10亿元,年支出预计不会超过( )A .10亿B .9亿C .10.5亿D .9.5亿6.某产品的广告费用x 与销售额y 的统计数据如下表:y bx a =+b 费用为6万元时销售额为( )A .63.6万元B .65。
5万元C .67.7万元D .72.0万元 二、填空题7.在研究身高和体重的关系时,求得R 2≈______,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.8.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:小李这5的方法,预测小李该月6号打6小时篮球的投篮命中率为__________.三、解答题9.恩格尔系数=食物支出金支出金额总额×100%.在我国,据恩格尔系数判定生活发展阶段的标准为:贫困:>60%,温饱:50%~60%,小康:40%~50%,富裕:<40%.据国家统计局统计显示,随着中国经济的不断发展,城镇居民家庭恩格尔系数不断下降,居民消费已从温饱型向享受型、发展型转变.如下表:(2)预报2013年的恩格尔系数;(3)求R2;(4)作出残差图.10.关于x与y有以下数据:已知x与y 6.5b ,(1)求y与x的线性回归方程;(2)现有第二个线性模型:y=7x+17,且R2=0。
回归分析基本思想及应用条件

回归分析基本思想及应用条件回归分析是一种常用的统计分析方法,用于研究变量之间的关系,并预测一个或多个自变量对因变量的影响。
本文将介绍回归分析的基本思想以及应用条件。
一、回归分析的基本思想回归分析的基本思想是基于最小二乘法,通过拟合曲线或平面,找到自变量与因变量之间的最佳关系模型。
这个模型可以用来预测因变量在给定自变量的情况下的取值。
回归分析的思想可以用以下数学公式表示:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y表示因变量,X1~Xn表示自变量,β0~βn表示回归系数,ε表示误差项。
回归分析的目标是通过最小化误差项来确定回归系数的值,使得拟合曲线与实际观测值之间的误差最小化。
二、回归分析的应用条件回归分析适用于以下条件:1. 自变量与因变量之间存在线性关系:回归分析假设自变量与因变量之间存在线性关系。
因此,在应用回归分析之前,需要通过观察数据和作图等方式来验证自变量与因变量之间的线性关系。
2. 自变量之间相互独立:回归分析要求自变量之间相互独立,即自变量之间不应存在多重共线性的问题。
多重共线性会导致回归系数的估计出现问题,降低模型的准确性。
3. 自变量和误差项之间不存在系统性关联:回归分析假设误差项与自变量之间不存在系统性关联。
如果存在系统性关联,会导致回归系数的估计出现偏差,影响模型的准确性。
4. 数据具有代表性:回归分析要求样本数据具有代表性,能够反映总体的特征。
因此,在进行回归分析之前,需要对样本数据的采集方法和样本容量进行科学设计,以确保数据的可靠性和准确性。
5. 误差项满足正态分布:回归分析假设误差项满足正态分布。
如果误差项不满足正态分布,可能会导致回归系数的估计出现偏差,使得模型的准确性降低。
总之,回归分析是一种重要的统计分析方法,可以用于研究变量之间的关系并进行预测。
但在应用回归分析时,需要注意以上提到的应用条件,以保证分析结果的准确性和可靠性。
2019-2020学年高中数学(人教版选修1-2)课时跟踪检测(一) 回归分析的基本思想及其初步应用 Word版含答

课时跟踪检测(一) 回归分析的基本思想及其初步应用一、选择题1.(重庆高考)已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:选A 依题意知,相应的回归直线的斜率应为正,排除C 、D.且直线必过点(3,3.5),代入A 、B 得A 正确.2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:建立的回归模型拟合效果最好的同学是( ) A .甲 B .乙 C .丙D .丁解析:选A 相关指数R 2越大,表示回归模型拟合效果越好.3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71.则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,A 正确; 由回归方程系数的意义可知回归直线过样本点的中心(x -,y -),B 正确;依据回归方程中b ^的含义可知,x 每变化1个单位,y ^相应变化约0.85个单位,C 正确; 用回归方程对总体进行估计不能得到肯定结论,故D 不正确.4.甲、乙、丙、丁4位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和 i =1n(y i -y ^i )2,如下表:哪位同学的试验结果体现拟合A ,B 两变量关系的模型拟合精度高?( ) A .甲 B .乙 C .丙D .丁解析:选D 从题中的散点图上来看,丁同学的散点图中的点更加近似在一条直线附近;从残差平方和来看,丁同学的最小,说明拟合精度最高.5.(福建高考)已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:选C 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2. 而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑i =16xiyi -6x - y-∑i =16x2i -6x -2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y --b ^x -=136-57×72=-13,所以b ^<b ′,a ^>a ′. 二、填空题6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为_________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1. 答案:17.某咖啡厅为了了解热饮的销售量y (个)与气温x (℃)之间的关系,随机统计了某4天的销售量与气温,并制作了对照表:由表中数据,得线性回归方程y =-2x +a .当气温为-4 ℃时,预测销售量约为________.解析:∵x =14(18+13+10-1)=10,y =14(24+34+38+64)=40,∴40=-2×10+a ,∴a =60,当x =-4时,y =-2×(-4)+60=68.答案:688.关于x 与y 有如下数据:为了对x ,y 两个变量进行统计分析,现有以下两种线性模型:甲:y ^=6.5x +17.5,乙:y ^=7x +17,则____________(填“甲”或“乙”)模型拟合的效果更好.解析:设甲模型的相关指数为R 21,则R 21=1-∑i =15-y ^∑i =15 -y-=1-1551 000=0.845;设乙模型的相关指数为R 2, 则R 2=1-1801 000=0.82.因为0.845>0.82,即R 21>R 2, 所以甲模型拟合效果更好. 答案:甲 三、解答题9.(新课标全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求y (2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i =1n-t--y-∑i =1n-t-,a ^=y --b ^t -.解:(1)由所给数据计算得t -=17×(1+2+3+4+5+6+7)=4,y -=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17 (t i -t -)2=9+4+1+0+1+4+9=28,∑i =17 (t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17-t--y-∑i =17-t-=1428=0.5, a ^=y --b ^t -=4.3-0.5×4=2.3, 所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得y ^=0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.10.(全国丙卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17-y =0.55,7≈2.646.参考公式:相关系数r=∑i =1n-t-y ∑i =1n-t2∑i =1n-y,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=∑i =1n-t-y∑i =1n-t,a ^=y -b ^t .解:(1)由折线图中的数据和附注中的参考数据得t =4,∑i =17(t i -t )2=28,∑i =17-y =0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,∴r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得 b ^=∑i =17-t -y∑i =17-t=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.。
人教版选修【1-2】1.1《回归分析的基本思想及其初步应用》习题及答案

数学·选修1-2(人教A版)1.1回归分析的基本思想及其初步应用►达标训练1.下列结论正确的是( )①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①② B.①②③C.①②④ D.①②③④解析:根据函数关系、相关关系、回归关系的概念可知选C.答案:C2.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是()A.总偏差平方和 B.残差平方和C.回归平方和 D.相关指数R2答案:B3.下表是某工厂6~9月份用电量(单位:万度)的一组数据:月份x 6789用电量y 653 2由散点图可知,用电量y与月份x间有较好的线性相关关系,其线性回归直线方程是错误!=-1。
4x+a,则a等于( )A.10.5 B.5。
25C.5。
2 D.14。
5解析:答案:D4.(2013·广东四校联考)某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)423 5销售额y(万元)49263954根据上表可得回归方程错误!=错误!x+错误!中的错误!为9.4,据此模型预报广告费用为6万元时销售额为()A.63。
6万元 B.65.5万元C.67.7万元 D.72.0万元答案:B5.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n 个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如右图),以下结论正确的是()A.直线l过点(错误!,错误!)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同答案:A6.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1:相关指数R2为0。
98B.模型2:相关指数R2为0。
知识讲解-回归分析的基本思想及其初步应用(文、理)

回归分析的基本思想及其初步应用【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。
2. 能作出散点图,能求其回归直线方程。
3. 会用所学的知识对简单的实际问题进行回归分析。
【要点梳理】要点一、变量间的相关关系1. 变量与变量间的两种关系:〔1〕 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S 与半径r 之间的关系S=πr 2为函数关系.〔2〕相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。
例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2. 相关关系的分类:〔1〕在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; 〔2〕两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据.4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
要点二、线性回归方程:1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程ˆˆˆybx a =+ 对于一组具有线性相关关系的数据11(,)x y ,22(,)x y ,……,(,)n n x y ,其回归直线ˆˆˆybx a =+的截距和斜率的最小二乘法估计公式分别为:121()()ˆ()niii nii x x y y bx x ==--=-∑∑,ˆˆay bx =- 其中x 表示数据x i 〔i=1,2,…,n 〕的均值,y 表示数据y i 〔i=1,2,…,n 〕的均值,xy 表示数据x i y i 〔i=1,2,…,n 〕的均值.a 、b 的意义是:以a 为基数,x 每增加一个单位,y 相应地平均变化b 个单位.要点诠释:①回归系数121()()ˆ()niii nii x x y y bx x ==--=-∑∑,也可以表示为1221ˆni ii nii x y nx ybxnx==-=-∑∑,这样更便于实际计算。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课时跟踪检测(十五) 回归分析的基本思想及其初步应用
一、选择题
1.(重庆高考)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )
A.y ^
=0.4x +2.3 B.y ^
=2x -2.4 C.y ^
=-2x +9.5
D.y ^
=-0.3x +4.4
解析:选A 依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5)代入A ,B 得A 正确.
2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:
甲 乙 丙 丁 R 2
0.98
0.78
0.50
0.85
哪位同学建立的回归模型拟合效果最好?( ) A .甲 B .乙 C .丙
D .丁
解析:选A 相关指数R 2越大,表示回归模型的拟合效果越好.
3.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
解析:选A 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
4.某产品的广告费用x 与销售额y 的统计数据如下表:
根据上表可得回归方程y ^=b ^x +a ^中的b ^
为9.4,据此模型预报广告费用为6万元时销售额为( )
A .63.6万元
B .65.5万元
C .67.7万元
D .72.0万元
解析:选B 样本点的中心是(3.5,42), 则a ^=y -b ^
x =42-9.4×3.5=9.1, 所以回归直线方程是y ^
=9.4x +9.1, 把x =6代入得y ^
=65.5.
5.(福建高考)已知x 与y 之间的几组数据如下表:
假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )
A.b ^>b ′,a ^>a ′
B.b ^>b ′,a ^
<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^
<a ′
解析:选C 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.
而利用线性回归方程的公式与已知表格中的数据,可求得b ^
=
∑i =1
6
x i y i -6x -·y
-
∑i =1
6
x 2i -6x -
2
=
58-6×72×
13
6
91-6×⎝⎛⎭
⎫722
=57,a ^=y --b ^x -=136-57×72=-13
,所以b ^<b ′,a ^
>a ′. 二、填空题
6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =1
2x +1上,则这组样本数据
的样本相关系数为________.
解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1. 答案:1
7.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R 2为________. 解析:回归平方和=总偏差平方和-残差平方和=80-60=20, 故R 2=20
80=0.25⎝⎛⎭⎫或R 2=1-6080=0.25. 答案:0.25
8.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:
x =72,y =71,∑i =16x 2
i =79,∑i =1
6x i y i =1 481.
则销量每增加1 000箱,单位成本下降________元. 解析:由题意知,b ^
=1 481-6×7
2×71
79-6×⎝⎛⎭
⎫722≈-1.818 2,
a ^=71-(-1.818 2)×72≈77.36,y ^
=-1.818 2x +77.36,销量每增加1 000箱,则单位
成本下降1.818 2元.
答案:1.818 2
9.某中高二某班为了对即将上市的班刊进行合理定价,将对班刊按事先拟定的价格进行试销,得到如下数据:
(1)求线性回归方程y =b x +a .
(2)预计今后的销售中,销量与单价服从(1)中的关系,且班刊的成本是4元/件,为了获得最大利润,班刊的单价定为多少元?
解:(1)x =8+8.2+8.4+8.6+8.8+9
6=8.5,
y =90+84+83+80+75+686
=80,
∑i =1
4
x i y i =8×90+8.2×84+8.4×83+8.6×80+8.8×75+9×68=4 066,
∑i =1
4
x 2i =82+8.22+8.42+8.62+8.82+92
=434.2, b ^=
∑i =1
n
(x i -x )(y i -y )
∑i =1
n
(x i -x )2
=4 066-6×8.5×80434.2-6×8.52
=-20,
a ^=y -
b ^
x =80+20×8.5=250, 所求线性回归方程为y ^
=-20x +250.
(2)获得利润z =(x -4)y =-20x 2+330x -1 000, 当x =8.25时,z max =361.25(元),
所以当单价定为8.25元时,可获得最大利润.
10.(全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^
=
∑i =1
n
(t i -t )(y i -y )
∑i =1
n
(t i -t )2
,a ^
=y
-b ^
t .
解:(1)由所给数据计算得
t =1
7
×(1+2+3+4+5+6+7)=4,
y =1
7
×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
∑
i=1
7
(t i-t)2=9+4+1+0+1+4+9=28,
∑
i=1
7
(t i-t)(y i-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
b
^=
∑
i=1
7
(t i-t)(y i-y)
∑
i=1
7
(t i-t)2
=14
28
=0.5,
a
^=y-b^t=4.3-0.5×4=2.3,
所求回归方程为y^=0.5t+2.3.
(2)由(1)知,b
^=0.5>0,
故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t=9代入(1)中的回归方程,得y^=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
11.假设关于某设备使用年限x(年)和所支出的维修费用y(万元)有如下统计资料:
x 2345 6
y 2.2 3.8 5.5 6.57.0
若由资料知,y对x呈线性相关关系,试求:
(1)回归直线方程;
(2)估计使用年限为10年时,维修费用约是多少?
解:(1)由表格中的数据可得
x=
1
5(2+3+4+5+6)=4
y=
1
5(2.2+3.8+5.5+6.5+7.0)=5.
∑i =1
5
x 2i =22+32+42+52+62
=90, ∑i =1
5
x i y i =2×2.2+3×3.8+4×5.5+5×6.5+6×7.0=112.3,所以回归系数
b ^=
∑i =15
x i y i -5x -y
-
∑i =1
5
x 2i -5x
2
=112.3-5×4×590-5×42
=12.310=1.23.
可得a ^=y -b ^
x =5-1.23×4=0.08. 所以回归直线方程为y ^
=1.23x +0.08.
(2)当x =10时,y ^
=1.23×10+0.08=12.38(万元) 即估计用10年时,维修费约为12.38万元.。