2019最新版高中数学 第三章 统计案例 3.2 回归分析学案 苏教版选修2-3
江苏省高二数学苏教版选修2-3教案:3.2 回归分析3

3.2回归分析(1)教学目标(1)通过实例引入线性回归模型,感受产生随机误差的原因;(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法; (3)能求出简单实际问题的线性回归方程. 教学重点,难点线性回归模型的建立和线性回归系数的最佳估计值的探求方法. 教学过程 一.问题情境1. 情境:对一作直线运动的质点的运动过程观测了次,得到如下表所示的数据,试估计当先作散点图,如下图所示:从散点图中可以看出,样本点呈直线趋势,时间与位置观测值y 之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据线性回归的系数公式,1221()ni i i ni i x y nx y b x n x a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑ 可以得到线性回归方为 3.5361 2.1214y x =+,所以当9x =时,由线性回归方程可以估计其位置值为22.6287y =2.问题:在时刻9x =时,质点的运动位置一定是22.6287cm 吗?二.学生活动思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映与y 之间的关系,y 的值不能由完全确定,它们之间是统计相关关系,y 的实际值与估计值之间存在着误差. 三.建构数学1.线性回归模型的定义:我们将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为,称之为随机误差;将y a bx ε=++称为线性回归模型. 说明:(1)产生随机误差的主要原因有:①所用的确定性函数不恰当引起的误差; ②忽略了某些因素的影响; ③存在观测误差.(2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理(这个问题在下一节课解决); ②在模型合理的情况下,如何估计,? 2.探求线性回归系数的最佳估计值:对于问题②,设有对观测数据(,)i i x y (1,2,3,,)i n =,根据线性回归模型,对于每一个i x ,对应的随机误差项()i i i y a bx ε=-+,我们希望总误差越小越好,即要使21nii ε=∑越小越好.所以,只要求出使21(,)()niii Q y x αββα==--∑取得最小值时的α,β值作为,的估计值,记为,.注:这里的i ε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离.用什么方法求,?回忆《数学3(必修)》“2.4线性回归方程”P71“热茶问题”中求,的方法:最小二乘法.利用最小二乘法可以得到,的计算公式为1122211()()()()nni i iii i nni ii i x x y y x ynx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑,其中11n i i x x n ==∑,11ni i y y n ==∑由此得到的直线y a bx =+就称为这对数据的回归直线,此直线方程即为线性回归方程.其中,分别为,的估计值,称为回归截距,称为回归系数,y 称为回归值. 在前面质点运动的线性回归方程 3.5361 2.1214y x =+中, 3.5361a =, 2.1214b =. 3. 线性回归方程y a bx =+中,的意义是:以为基数,每增加1个单位,y 相应地平均增加个单位;4. 化归思想(转化思想)在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式.(1)b y a x =+,令'y y =,1'x x=,则有''y a bx =+. (2)by ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+. (3)bxy ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+. (4)b x y ae =,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+.四.数学运用 1.例题:例1.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数.解:为了简化数据,先将年份减去1949,并将所得值用表示,对应人口数用y 表示,得807 909 975 1035 1107 1177 1246作出11个点(),x y 构成的散点图,由图可知,这些点在一条直线附近,可以用线性回归模型y a bx ε=++来表示它们之间的关系.根据公式(1)可得14.453,527.591.b a ⎧≈⎪⎨≈⎪⎩ 这里的,a b 分别为,a b 的估 计值,因此线性回归方程 为527.59114.453y x =+由于2004年对应的55x =,代入线性回归方程527.59114.453y x =+可得1322.50y =(百万),即2004年的人口总数估计为13.23亿.例2. 某地区对本地的企业进行了一次抽样调查,下表是这次抽查中所得到的各企业的人均资本(万元)与人均产出y (万元)的数据:(1)设y 与之间具有近似关系by ax ≈(,a b 为常数),试根据表中数据估计和的值; (2)估计企业人均资本为16万元时的人均产出(精确到0.01).分析:根据,y 所具有的关系可知,此问题不是线性回归问题,不能直接用线性回归方程处理.但由对数运算的性质可知,只要对by ax ≈的两边取对数,就能将其转化为线性关系.解(1)在by ax ≈的两边取常用对数,可得lg lg lg y a b x ≈+,设lg y z =,lg a A =,lg x X =,则z A bX ≈+.相关数据计算如图327--所示.仿照问题情境可得A ,的估计值A ,分别为0.2155,1.5677,A b ⎧=-⎪⎨=⎪⎩由lg 0.2155a =-可得0.6088a ≈,即,的估计值分别为0.6088和1.5677.(2)由(1)知1.56770.6088y x =.样本数据及回归曲线的图形如图328--(见书本102P页)当16x =时, 1.56770.60881647.01y =⨯≈(万元),故当企业人均资本为16万元时,人均产值约为47.01万元. 2.练习:104P 练习第题. 五.回顾小结:1. 线性回归模型y a bx ε=++与确定性函数y a bx =+相比,它表示y 与之间是统计相关关系(非确定性关系)其中的随机误差提供了选择模型的准则以及在模型合理的情况下探求最佳估计值,的工具;2. 线性回归方程y a bx =+中,的意义是:以为基数,每增加1个单位,y 相应地平均增加个单位;3.求线性回归方程的基本步骤. 六.课外作业:.。
(新人教版)2019版高中数学-第三章-统计案例-3.1-回归分析的基本思想及其初步应用学案-新人教

(新人教版)2019版高中数学-第三章-统计案例-3.1-回归分析的基本思想及其初步应用学案-新人教A版选修2-3【§3.1回归分析的基本思想及其初步应用学习目标 1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤.知识点一线性回归模型思考某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:推销员编1234 5号工作年限35679x/年推销金额2334 5y/万元请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?统计分析的一种常用方法.(3)对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线y =bx +a 的斜率和截距的最小二乘估计公式分别为b ^=∑i =1n (x i -x )(y i -y )∑i =1n (x i -x )2=∑i =1n x i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^ x ,其中(x ,y )称为样本点的中心.(4)线性回归模型y =bx +a +e ,其中a 和b 是模型的未知参数,e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量.知识点二 线性回归分析具有相关关系的两个变量的线性回归方程为y ^=b ^x +a ^.思考1 预报变量y ^与真实值y 一样吗?答案 不一定.思考2 预报值y ^与真实值y 之间误差大了好还是小了好?答案 越小越好.梳理 (1)残差平方和法①e ^i =y i -y ^i =y i -b ^x i -a ^ (i =1,2,…,n )称为相应于点(x i ,y i )的残差.②残差平方和 i =1n (y i -y ^i )2越小,模型的拟合效果越好.(2)残差图法 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(3)利用相关指数R 2刻画回归效果其计算公式为:R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2,其几何意义:R2越接近于1,表示回归的效果越好.知识点三建立回归模型的基本步骤1.确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.2.画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).3.由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程).4.按一定规则(如最小二乘法)估计回归方程中的参数.5.得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.1.求线性回归方程前可以不进行相关性检验.( ×)2.在残差图中,纵坐标为残差,横坐标可以选为样本编号.( √)3.利用线性回归方程求出的值是准确值.( ×)类型一求线性回归方程例1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:x 68112y 235 6 (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.⎝ ⎛⎭⎪⎪⎪⎪⎪⎫相关公式:b ^=∑i =1nx i y i -n x ·y ∑i =1n x 2i -nx 2,a ^=y -b ^x考点 线性回归方程题点 求线性回归方程解 (1)如图:(2)∑i =14x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9, y =2+3+5+64=4, i =14x 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7, a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程可知,当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.反思与感悟 (1)求线性回归方程的基本步骤①列出散点图,从直观上分析数据间是否存在线性相关关系.②计算:x ,y ,∑i =1nx 2i ,∑i =1n y 2i ,∑i =1n x i y i .③代入公式求出y ^=b ^x +a ^中参数b ^,a ^的值.④写出线性回归方程并对实际问题作出估计.(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.跟踪训练1 假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有如下的统计数据:由此资料可知y 对x 呈线性相关关系.(1)求线性回归方程;(2)求使用年限为10年时,该设备的维修费用为多少?考点 线性回归方程 题点 求线性回归方程 解 (1)由上表中的数据可得x =4,y =5,∑i =15x 2i =90,∑i =15x i y i =112.3,∴b ^=∑i =15x i y i -5x ·y∑i =15x 2i -5x2=112.3-5×4×590-5×42=1.23, ∴a ^=y -b ^x =5-1.23×4=0.08. ∴线性回归方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38. 即使用年限为10年时,该设备的维修费用约为12.38万元.类型二 回归分析 命题角度1 线性回归分析例2 在一段时间内,某种商品的价格x 元和需求量y 件之间的一组数据为:求出y 对x 的线性回归方程,并说明拟合效果的程度.考点 残差分析与相关指数 题点 残差及相关指数的应用解 x =15(14+16+18+20+22)=18,y =15(12+10+7+5+3)=7.4.∑i =15x 2i =142+162+182+202+222=1 660,∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,可得回归系数b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=620-5×18×7.41 660-5×182=-1.15, 所以a ^=7.4+1.15×18=28.1, 所以线性回归方程为y ^=-1.15x +28.1. 列出残差表:则∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2.R 2=1-∑i =15(y i -y ^i )2∑i =15(y i-y )2≈0.994.所以回归模型的拟合效果很好.反思与感悟 (1)该类题属于线性回归问题,解答此类题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模型的拟合效果,在此基础上,借助线性回归方程对实际问题进行分析. (2)刻画回归效果的三种方法①残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.②残差平方和法:残差平方和∑i =1n(y i -y ^i )2越小,模型的拟合效果越好.③相关指数法:R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2越接近1,表明回归的效果越好.跟踪训练2 关于x 与y 有如下数据:有如下的两个线性模型:(1)y ^=6.5x +17.5;(2)y ^=7x +17.试比较哪一个拟合效果更好.考点 残差分析与相关指数 题点 残差及相关指数的应用解 由(1)可得y i -y ^i 与y i -y 的关系如下表:∴∑i =15(y i -y ^i )2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,∑i =15(y i -y )2=(-20)2+(-10)2+102+02+202=1 000.∴R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1551 000=0.845.由(2)可得y i -y ^i 与y i -y 的关系如下表:∴∑i =15(y i -y ^i )2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,∑i =15(y i-y )2=(-20)2+(-10)2+102+02+202=1 000.∴R 22=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1801 000=0.82.由于R 21=0.845,R 22=0.82,0.845>0.82,∴R 21>R 22.∴(1)的拟合效果好于(2)的拟合效果. 命题角度2 非线性回归分析例3 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i=x i,w=18∑i=18wi.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少?②年宣传费x 为何值时,年利润的预报值最大? 附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α^=v -β^u .考点 非线性回归分析 题点 非线性回归分析解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68,c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.反思与感悟求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性回归方程.跟踪训练3 在一次抽样调查中测得样本的5个样本点,数值如下表:试建立y与x之间的回归方程.考点非线性回归分析题点非线性回归分析解由数值表可作散点图如图,根据散点图可知y与x近似地呈反比例函数关系,设y^=kx ,令t=1x,则y^=kt,原数据变为:t 4210.50.25y161252 1由置换后的数值表作散点图如下:由散点图可以看出y与t呈近似的线性相关关系,列表如下:所以t=1.55,y=7.2.所以b ^=∑i =15t i y i -5t y∑i =15t 2i -5t2≈4.134 4,a ^=y -b ^t ≈0.8.所以y ^=4.134 4t +0.8. 所以y 与x 之间的回归方程是y ^=4.134 4x+0.8.1.下列两个变量之间的关系不是函数关系的是( )A .角度和它的余弦值B .正方形的边长和面积C .正n 边形的边数和内角度数和D .人的年龄和身高 考点 回归分析题点 回归分析的概念和意义答案 D解析函数关系就是变量之间的一种确定性关系.A,B,C三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cos θ,g(a)=a2,h(n)=(n-2)π.D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选D.2.设有一个线性回归方程y^=2-1.5x,当变量x 增加1个单位时( )A.y平均增加1.5个单位B.y平均增加2个单位C.y平均减少1.5个单位D.y平均减少2个单位考点线性回归分析题点线性回归方程的应用答案 C解析由回归方程中两个变量之间的关系可以得到.3.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是( )A.①② B.①③ C.②③ D.③④考点回归分析题点回归分析的概念和意义答案 B解析由图易知①③两个图中样本点在一条直线附近,因此适合用线性回归模型.4.某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:由上表可得回归直线方程y^=b^x+a^中的b^=-5,据此模型预测当零售价为14.5元时,每天的销售量为( )A.51个B.50个C.54个D.48个考点线性回归分析题点线性回归方程的应用答案 C解析由题意知x=17.5,y=39,代入回归直线方程得a^=126.5,126.5-14.5×5=54,故选C.5.已知x,y之间的一组数据如下表:(1)分别计算:x,y,x1y1+x2y2+x3y3+x4y4,x21+x22+x23+x24;(2)已知变量x与y线性相关,求出线性回归方程.考点线性回归方程题点求线性回归方程解(1)x=0+1+2+34=1.5,y=1+3+5+74=4,x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,x21+x22+x23+x24=02+12+22+32=14.(2)b^=34-4×1.5×414-4×1.52=2,a^=y-b^x=4-2×1.5=1,故线性回归方程为y^=2x+1.回归分析的步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y^=b^x+a^);(4)按一定规则估算回归方程中的参数;(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.一、选择题1.对于线性回归方程y^=b^x+a^ (b^>0),下列说法错误的是( )A.当x增加一个单位时,y^的值平均增加b^个单位B.点(x,y)一定在y^=b^x+a^所表示的直线上C.当x=t时,一定有y=b^t+a^D.当x=t时,y的值近似为b^t+a^考点线性回归分析题点线性回归方程的应用答案 C解析线性回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在回归直线上.2.给定x与y的一组样本数据,求得相关系数r =-0.690,则( )A.y与x的线性相关性很强B.y与x的相关性很强C.y与x正相关D.y与x负相关考点线性相关系数题点线性相关系数的应用答案 D解析因为r<0,所以y与x负相关,又|r|∈[0.75,1]才表示y与x具有很强的线性相关性,所以选D.3.某校小卖部为了了解奶茶销售量y(杯)与气温x(℃)之间的关系,随机统计了某4天卖出的奶茶杯数与当天的气温,得到下表中的数据,并根据该样本数据用最小二乘法建立了线性回归方程y^=-2x+60,则样本数据中污损的数据y0应为( )A .58B .64C .62D .60考点 线性回归分析题点 线性回归方程的应用答案 B解析 由表中数据易知x =10,代入y ^=-2x +60中,得y ^=40.由y 0+34+38+244=40,得y 0=64.4.已知变量x 与y 负相关,且由观测数据求得样本平均数x =3,y =3.5,则由该观测数据求得的线性回归方程可能是( )A.y ^=-2x +9.5B.y ^=2x -2.4C.y ^=-0.3x -4.4D.y ^=0.4x +2.3考点 线性回归方程题点求线性回归方程答案 A解析因为变量x与y负相关,所以排除B,D,将样本平均数x=3,y=3.5代入选项验证可知,选项A符合题意.5.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )考点残差分析与相关指数题点残差及相关指数的应用答案 A解析用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.6.根据如下样本数据得到的回归方程为y^=b^x+a^,则( )A.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0考点线性回归分析题点线性回归方程的应用答案 B解析作出散点图如下:观察图象可知,回归直线y^=b^x+a^的斜率b^<0,当x=0时,y^=a^>0.故a^>0,b^<0.7.已知某地的财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5,如果今年该地区的财政收入为10亿元,那么年支出预计不会超过( )A.9亿元B.10亿元C.9.5亿元D.10.5亿元考点残差分析与相关指数题点残差及相关指数的应用答案 D解析y=0.8×10+2+e=10+e≤10.5.8.下列数据符合的函数模型为( )x 12345678910A.y=2+13x B.y=2e xC.y=21e x D.y=2+ln x考点非线性回归分析题点非线性回归分析答案 D解析分别将x值代入解析式判断知满足y=2+ln x.9.为了考查两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用最小二乘法求得的回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法中正确的是( )A .l 1与l 2有交点(s ,t )B .l 1与l 2相交,但交点不一定是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合考点 线性回归方程题点 样本点中心的应用答案 A解析 回归直线l 1,l 2都过样本点的中心(s ,t ),但它们的斜率不确定,故选项A 正确.二、填空题10.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.考点 线性相关系数题点 线性相关系数的应用答案 1解析根据样本相关系数的定义可知,当所有样本点都在一条直线上时,相关系数为1. 11.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R2为________.考点线性相关系数题点线性相关系数的应用答案0.25解析R2=1-6080=0.25.12.已知一个线性回归方程为y^=1.5x+45,x∈{1,5,7,13,19},则y=________.考点线性回归方程题点样本点中心的应用答案58.5解析∵x=1+5+7+13+195=9,且y^=1.5x+45,∴y=1.5×9+45=58.5.13.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=e bx+a的周围.令z^=ln y,求得线性回归方程为z^=0.25x -2.58,则该模型的回归方程为________.考点非线性回归分析题点非线性回归分析答案y=e0.25x-2.58解析因为z^=0.25x-2.58,z^=ln y,所以y=e0.25x-2.58.三、解答题14.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:y(小时)5 5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程y^=b^x+a^,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少时间?(注:b^=∑i=1nxiyi-n x y)∑i=1nx2i-n x2,a^=y-b^x)考点线性回归方程题点求线性回归方程解(1)散点图如图.(2)由表中数据得∑i =14x i y i =52.5,x =3.5,y =3.5,∑i =14x 2i =54,所以b ^=∑i =1nx i y i -n x y∑i =1nx 2i-n x 2=52.5-4×3.5×3.554-4×3.52=0.7,所以a ^=y -b ^x =3.5-0.7×3.5=1.05. 所以y ^=0.7x +1.05. 回归直线如图中所示.(3)将x =10代入回归直线方程,得y ^=0.7×10+1.05=8.05,所以预测加工10个零件需要8.05小时. 四、探究与拓展15.甲、乙、丙、丁4位同学各自对A ,B 两变量进行回归分析,分别得到散点图与残差平方和i =1n(y i -y ^i )2如下表:甲 乙 丙 丁散点图残差平方和 115 106 124 103以上的试验结果体现拟合A ,B 两变量关系的模型拟合精度高的是( ) A .甲 B .乙 C .丙 D .丁考点 残差分析与相关指数 题点 残差及相关指数的应用 答案 D解析 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2的表达式中 i =1n(y i -y )2为确定的数,则残差平方和越小,R 2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.16.为了研究某种细菌随时间x 变化繁殖个数y 的变化情况,收集数据如下:(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程;(3)计算相关指数R2,并描述解释变量与预报变量之间的关系.考点非线性回归分析题点非线性回归分析解(1)散点图如图所示:(2)由散点图看出样本点分布在一条指数曲线y =c1e c2x的周围,于是令z=ln y,则x 12345 6z 1.792.483.223.894.555.25所以z^=0.69x+1.115,则有y^=e0.69x+1.115.(3)∑i =16e ^2i =∑i =16(y i-y ^)2=4.816 1, ∑i =16 (y i -y )2≈∑i =16y 2i-6y 2≈24 642.83, R 2=1-∑i =16(y i -y ^i )2∑i =16(y i -y )2≈1- 4.816 124 642.83≈0.999 8,即时间解释了99.98%的细菌繁殖个数的变化.。
苏教版高中数学选修(2-3)课件3.2《回归分析》

灿若寒星整理制作
3.1回归分析的基本思想及 其初步应用
比《数学3》中“回归”增加的内
数学3——统计
容 选修2-3——统计案例
5. 引入线性回归模型
1. 画散点图
2. 了解最小二乘法 的思想
y=bx+a+e
6. 了解模型中随机误差项e产 生的原因
3. 求回归直线方程
y=bx+a
4. 用回归直线方程 解决应用问题
i=1
i 1
i 1
i=1
R2 1 3.1643 0.9999. 25553.3
即解释变量天数对预报变量繁殖细菌得个数解释了99.99%.
练习假设关于某设备的使用年限x和所支出的维修费用y(万
元),有如下的统计资料。
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
若由资料知,y对x呈线性相关关系。试求:
两个含有未知参数的模型:y(1) f (x, a)和y(2) g(x, b),
其中a和b都是未知参数。拟合效果比较的步骤为:
(1)分别建立对应于两个模型的回归方程 yˆ (1) f (x, aˆ)
与其yˆ (中2) 和分g别(x是, bˆ参),数a和abˆ的估bˆ计值;
n
(2)分别计算两个回归方程的残差平方和 Qˆ (1) ( yi yˆi(1) )2
最好的模型是哪个?
产卵数
400
300
200
100
0
0
5
10
15
20
25
30
35
40
-100
线性模型
苏教版高中数学选修2-33.2 回归分析学案

[学习目标] 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.了解回归分析的基本思想和初步应用.知识点一 线性回归方程1.对于n 对观测数据(x i ,y i )(i =1,2,3,…,n ),直线方程y ^=a ^+b ^x 称为这n 对数据的线性回归方程.其中a ^=y -b ^x 称为回归截距,b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n (x )2称为回归系数,y ^称为回归值.2.将y =a +bx +ε称为线性回归模型,其中a +bx 是确定性函数,ε称为随机误差. 思考 回归分析中,利用线性回归方程求出的函数值一定是真实值吗?答 不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食,是否喜欢运动等.知识点二 相关系数r 的性质 1.|r |≤1.2.|r |越接近于1,x ,y 的线性相关程度越强. 3.|r |越接近于0,x ,y 的线性相关程度越弱. 知识点三 显著性检验1.提出统计假设H 0:变量x ,y 不具有线性相关关系;2.如果以95%的把握作出判断,可以根据1-0.95=0.05与n -2在附录2中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平);3.计算样本相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2·∑i =1n(y i -y )2=∑i =1nx i y i -n x y(∑i =1nx 2i -n (x )2)·(∑i =1ny 2i -n (y )2);4.作出统计推断:若|r |>r 0.05,则否定H 0,表明有95%的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为x 与y 之间有线性相关关系.题型一 线性相关的判断例1 某校高三(1)班的学生每周用于数学学习的时间x (单位:h )与数学平均成绩y (单位:分)之间有表格所示的数据.(1)画出散点图; (2)作相关性检验;(3)若某同学每周用于数学学习的时间为18 h ,试预测其数学成绩. 解 (1)根据表中的数据,画散点图,如图.从散点图看,数学成绩与学习时间线性相关.(2)由已知数据求得x =17.4,y =74.9,∑i =110x 2i =3 182,∑i =110y 2i =58 375,∑i =110x i y i =13 578, 所以相关系数r =∑i =110x i y i -10x y(∑i =110x 2i -10(x )2)(∑i =110y 2i -10(y )2)≈0.920.而n =10时,r 0.05=0.632,所以|r |>r 0.05,所以有95%的把握认为数学成绩与学习时间之间具有线性相关关系. (3)用科学计算器计算,可得线性回归方程为y ^=3.53x +13.44.当x =18时,y ^=3.53×18+13.44≈77,故预计该同学数学成绩可得77分左右.反思与感悟 判断变量的相关性通常有两种方式:一是散点图;二是相关系数r .前者只能粗略的说明变量间具有相关性,而后者从定量的角度分析变量相关性的强弱.跟踪训练1 暑期社会实践中,小闲所在的小组调查了某地家庭人口数x 与每天对生活必需品的消费y 的情况,得到的数据如下表:(1)利用相关系数r 判断y 与x 是否线性相关;(2)根据上表提供的数据,求出y 关于x 的线性回归方程. 解 (1)由表中数据,利用科学计算器计算得:r =∑i =15x i y i -5x y(∑i =15x 2i -5(x )2)(∑i =15y 2i -5(y )2)≈0.975.因为r >r 0.05=0.878,所以y 与x 之间具有线性相关关系.(2)根据以上数据可得,b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=8.5,∴a ^=y -b ^x =44-8.5×5=1.5, ∴所求的线性回归方程为y ^=1.5+8.5x . 题型二 求线性回归方程例2 某班5名学生的数学和物理成绩如下表:(1)画出散点图;(2)求物理成绩y 对数学成绩x 的线性回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩. 解 (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25 054.∑i =15x 2i =882+762+732+662+632=27 174. 所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=25 054-5×73.2×67.827 174-5×73.22≈0.625.a ^=y -b ^x ≈67.8-0.625×73.2=22.05. 所以y 对x 的线性回归方程是y ^=0.625x +22.05.(3)x =96,则y ^=0.625×96+22.05≈82,即可以预测他的物理成绩是82.反思与感悟 (1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.(2)求线性回归方程,首先应注意到,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.跟踪训练2 如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图:(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55,7≈2.646. 参考公式:相关系数r =∑ni =1(t i -t -)(y i -y -)∑n i =1 (t i -t -)2∑ni =1(y i -y -)2,回归方程y ^=a ^+b ^t 中斜率和截距最小二乘估计公式分别为b ^=∑ni =1(t i -t -)(y i -b -)∑n i =1(t i -t -)2,a ^=y --b ^t -.解 (1)由折线图中数据和附注中参考数据得t -=4,∑7i =1(t i -t -)2=28,∑7i =1(y i -y -)2=0.55, ∑7i =1 (t i -t -)(y i -y -)=∑7i =1t i y i -t -∑7i =1y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99. 因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y -=9.327≈1.331及(1)得b ^=∑7i =1(t i -t -)(y i -y -)∑7i =1(t i -t -)2=2.8928≈0.103.a ^=y --b ^t -≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 题型三 非线性回归分析例3 某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数1x 之间是否具有线性相关关系;如有,求出y 对x的回归方程.解 令u =1x,原题中所给数据变成如下表示的数据:u =0.224 5,y =3.14,∑i =110u 2i -10(u )2=0.908 8,∑i =110u i y i -10u y =8.155 25,∑i =110y 2i -10(y )2=73.207,∴r =8.155 250.908 8×73.207≈0.999 8,查表得r 0.05=0.632,因为r >r 0.05,从而认为u 与y 之间具有线性相关关系. 回归系数b ^=8.155 250.908 8≈8.974,a ^=3.14-8.974×0.224 5≈1.125, 所以y ^=8.974u +1.125,所以y 对x 的回归方程为y ^=8.974x+1.125.反思与感悟 对非线性回归问题,若给出经验公式,采用变量代换把问题转化为线性回归问题.若没有经验公式,需结合散点图挑选拟合得最好的函数. 跟踪训练3 在试验中得到变量y 与x 的数据如下表: 试求y 与x 之间的回归方程,并预测x =40时,y 的值.解从散点图可以看出,两个变量x ,y 不呈线性相关关系,根据学过的函数知识,样本点分布的曲线符合指数型函数y =c 1e c 2x ,通过对数变化把指数关系变为线性关系,令z =ln y ,则z =bx +a (a =ln c 1,b =c 2). 列表:从散点图可以看出,两个变量x ,z 呈很强的线性相关关系.由表中的数据得到线性回归方程为z ^=0.277x -3.998.所以y 关于x 的指数回归方程为:y ^=e 0.277x-3.998.所以,当x =40时,y =e0.277×40-3.998≈1 190.347.1.在下列各量之间,存在相关关系的是________.①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的支出与收入之间的关系;⑤某户家庭用电量与电价之间的关系. 答案 ②③④2.如图是x 和y 的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.答案 D (3,10)解析 经计算,去掉D (3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.3.对具有线性相关关系的变量x 和y ,由测得的一组数据已求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________. 答案 y ^=-10+6.5x解析 由题意知x =2,y =3,b ^=6.5,所以a ^=y -b ^x =3-6.5×2=-10,即回归直线的方程为y ^=-10+6.5x .4.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1)求年推销金额y (2)若第6名推销员的工作年限为11年,试估计他的年推销金额. 解 (1)设所求的线性回归方程为y ^=b ^x +a ^,则b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=1020=0.5,a ^=y -b ^x =0.4. 所以年推销金额y 关于工作年限x 的线性回归方程为 y ^=0.5x +0.4.(2)当x =11时,y ^=0.5x +0.4=0.5×11+0.4=5.9(万元). 所以可以估计第6名推销员的年推销金额为5.9万元.1.相关系数rr 的大小与两个变量之间线性相关程度的强弱关系:(1)当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.当r =1时,两个变量完全正相关;当r=-1时,两个变量完全负相关.(2)|r|≤1,并且|r|越接近1,表明两个变量的线性相关程度越强,它们的散点图越接近于一条直线,这时用线性回归模型拟合这组数据的效果就越好;|r|越接近0,表明两个变量的线性相关程度越弱,通常当|r|>r0.05时,认为两个变量有很强的线性相关程度.此时建立的回归模型是有意义的.2.回归分析用回归分析可以预测具有相关关系的两个随机变量的取值.但要注意:①回归方程只适用于我们所研究的样本的总体.②我们建立的回归方程一般都有时间性.③样本取值的范围影响了回归方程的适用范围.④回归方程得到预报值不是变量的精确值,是变量可能取值的平均值.。
3.2.回归分析-苏教版选修2-3教案

3.2.回归分析-苏教版选修2-3教案教材基本信息•教材名称:苏教版高中数学选修2•单元名称:数据分析与统计•课时:3课时教学目标1.了解什么是回归分析。
2.学习回归分析的基本概念和方法。
3.掌握直线拟合和残差分析的实现方法。
4.理解回归分析在生活中的应用。
教学重点1.回归分析的基本概念和方法。
2.直线拟合和残差分析的实现。
教学难点1.理解回归分析的概念和方法。
2.掌握直线拟合和残差分析的实现步骤。
教学内容及安排一、引入1.通过一个实际问题引出回归分析的概念和应用。
2.以表格和图像等形式,引导学生识别数据之间的关系和规律。
二、回归分析的概念和方法1.回归分析的定义和基本概念。
2.以简单线性回归模型为例,介绍回归分析的方法。
–公式推导和参数估计。
–模型拟合与模型检验。
3.针对多元回归分析,简要介绍其方法和应用。
三、直线拟合的实现1.介绍直线方程和相关系数的定义和计算方法。
2.以实例为基础,讲解直线拟合的步骤和实现过程。
–用手动计算的方法计算,再用计算器或软件求解。
3.培养学生的数据分析能力,注重判断拟合效果和可靠性。
四、残差分析的实现1.残差的定义和计算方法。
2.残差分布图和残差散点图的绘制和解释。
3.强调残差分析及其结果对模型的影响。
五、回归分析在生活中的应用1.针对学生关心的实际问题,介绍回归分析的运用。
2.初步了解其在经济、社会学、医学和环境等领域的应用。
教学方法1.课件讲解:以幻灯片为主,结合实例、图像和文字呈现。
2.讨论和交流:引导学生大胆提问,鼓励学生尝试回答其他同学的问题。
3.实验探究:引导学生在问题解决中体验回归分析的乐趣和重要性。
教学手段1.课件展示。
2.板书和笔记。
3.实际数据和软件操作。
教学评估1.期中/期末考试考查学生对回归分析的掌握程度。
2.课堂测试考查学生对直线拟合和残差分析等具体内容的理解。
3.个人/小组报告,重点评估学生实践能力和解决问题的能力。
参考文献1.线性回归分析及其在医学中的应用[M]. 北京:人民卫生出版社,2001.2.Applied Linear Regression [M]. Third Edition, Wiley, 2013.3.单元教材和参考书中的相关内容。
苏教版高中数学选修2-3 3.2 回归分析(一)教案

回归分析【教学目标】1、知识与技能目标认识随机误差;2、过程与方法目标(1)会使用函数计算器求回归方程;(2)能正确理解回归方程的预报结果.3、情感、态度、价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,理解处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识,解决实际问题的能力.教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性.【教学重点】随机误差e的认识【教学难点】随机误差的来源和对预报变量的影响【教学方法】启发式教学法【教学手段】多媒体辅助教学【教学过程设计】预测出的体重都不同,让学生感知预报变量的变化受解析变量和随“身4、启发①:参考预测值时,我们希望高中组的三个值接近点好还是区别大点好?启发②:怎样就能更接近?学生回答“样本多一些”后教师电脑展示:用所有45组高二女生数据所求回归方程,以方便学生比较哪一个小组的预测值更接近老师的较多数据的预测值,相对而言,这个组的模拟效果就越好.启发③:为什么随着数据的增多,三组的预测值有可能会越接近?师问:随机误差e变小体现在哪里?师讲解:所以,有参考价值,它们的值越接近,就说明随机误差越小,当然就拟合的越好.当数据足够多,使用科学的方法,是能够制作出一份值得参考的“身高标准体重”的.回到刚才的问题,如果条件有素的影响,如遗传因素、使用的测量工具不同等.4、回答:接近点好.回答:回答:预测时解释变量取定预近,只有使随机误。
高中数学 3.2 回归分析教案2 苏教版选修23

3.2回归分析(2)教学目标(1)通过实例了解相关系数的概念和性质,感受相关性检验的作用; (2)能对相关系数进行显著性检验,并解决简单的回归分析问题; (3)进一步了解回归的基本思想、方法及初步应用. 教学重点,难点相关系数的性质及其显著性检验的基本思想、操作步骤. 教学过程 一.问题情境1.情境:下面是一组数据的散点图,若求出相应的线性回归方程,求出的线性回归方程可以用作预测和估计吗?2.问题:思考、讨论:求得的线性回归方程是否有实际意义. 二.学生活动对任意给定的样本数据,由计算公式都可以求出相应的线性回归方程,但求得的线性回归方程未必有实际意义.左图中的散点明显不在一条直线附近,不能进行线性拟合,求得的线性回归方程是没有实际意义的;右图中的散点基本上在一条直线附近,我们可以粗略地估计两个变量间有线性相关关系,但它们线性相关的程度如何,如何较为精确地刻画线性相关关系呢?这就是上节课提到的问题①,即模型的合理性问题.为了回答这个问题,我们需要对变量x 与y 的线性相关性进行检验(简称相关性检验). 三.建构数学1.相关系数的计算公式:对于x ,y 随机取到的n 对数据(,)i i x y (1,2,3,,)i n =L ,样本相关系数r 的计算公式为112222221111()()()()(())(())nniii ii i n nn niii i i i i i x x y y x y nx yr x x y y x n x y n y ======---==-⋅-⋅--∑∑∑∑∑∑.()22.相关系数r 的性质:246810051015系0246810051015(1)||1r ≤;(2)||r 越接近与1,x ,y 的线性相关程度越强; (3)||r 越接近与0,x ,y 的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 3.对相关系数r 进行显著性检验的步骤:相关系数r 的绝对值与1接近到什么程度才表明利用线性回归模型比较合理呢?这需要对相关系数r 进行显著性检验.对此,在统计上有明确的检验方法,基本步骤是:(1)提出统计假设0H :变量x ,y 不具有线性相关关系;(2)如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在附录2(教材P111)中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平);(3)计算样本相关系数r ;(4)作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系.说明:1.对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%. 2.这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.3.这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释. 4.对于上节课的例1,可按下面的过程进行检验: (1)作统计假设0H :x 与y 不具有线性相关关系;(2)由检验水平0.05与29n -=在附录2中查得0.050.602r =; (3)根据公式()2得相关系数0.998r =;(4)因为0.9980.602r =>,即0.05r r >,所以有95﹪的把握认为x 与y 之间具有线性相关关系,线性回归方程为$527.59114.453y x =+是有意义的. 四.数学运用 1.例题:例1.下表是随机抽取的8对母女的身高数据,试根据这些数据探讨y与x之间的关系.母亲身高/x cm154157158159160161162163女儿身高/y cm155156159162161164165166解:所给数据的散点图如图所示:由图可以看出,这些点在一条直线附近,因为()1541571638159.25x=+++÷=L,()1551561668161y=+++÷=L,()82222218()1541638159.2559.5iix x=-=++-⨯=∑L,()82222218()1551668161116iiy y=-=++-⨯=∑L,()8181541551631668159.2516180i iix y x y=-⨯++⨯-⨯⨯=∑L,所以963.01165.5980≈⨯=r,由检验水平0.05及26n-=,在附录2中查得707.005.0=r,因为0.9630.707>,所以可以认为x与y之间具有较强的线性相关关系.线性回归模型y a bxε=++中,a b 的估计值$,a b$分别为()81822181.345,8i iiiix y x ybx x==-=≈-∑∑$53.191a y bx=-≈-$,故y对x的线性回归方程为xy345.1191.53+-=).例2.要分析学生高中入学的数学成绩对高一年级数学学习的影响,在高一年级学生中学生编号1 2 3 4 5 6 7 8 9 10入学成绩x 63 67 45 88 81 71 52 99 58 76 高一期末成绩y65 78 52 82 92 89 73 98 56 75 x y (2)如果x 与y 之间具有线性相关关系,求线性回归方程;(3)若某学生入学数学成绩为80分,试估计他高一期末数学考试成绩.解:(1)因为()16367767010x =⨯+++=L ,()16578757610y =⨯+++=L ,101()()1894xy i i i L x x y y ==--=∑,2101()2474xx i i L x x ==-=∑,1021()2056yy i i L y y ==-=∑.因此求得相关系数为10110102211()()0.840()()iii xx yyi i i i x x y y L r L L x x y y ===--===--∑∑∑.结果说明这两组数据的相关程度是比较高的;小结解决这类问题的解题步骤:(1)作出散点图,直观判断散点是否在一条直线附近; (2)求相关系数r ;(3)由检验水平和2n -的值在附录中查出临界值,判断y 与x 是否具有较强的线性相关关系; (4)计算$a,b $,写出线性回归方程. 2.练习:104P 练习第1题. 五.回顾小结:1.相关系数的计算公式与回归系数b$计算公式的比较; 2.相关系数的性质;3.探讨相关关系的基本步骤. 六.课外作业:106P 习题3.2第1题.。
高中数学 第三章 统计案例 3.2 回归分析学案 苏教版选修23

3.2 回归分析1.会作出两个有关联变量的散点图,并利用散点图认识变量间的相关关系.2.了解线性回归模型,能根据给出的线性回归方程系数公式建立线性回归方程.(重点、难点)3.了解回归分析的基本思想、方法及简单应用.[基础·初探]教材整理1 线性回归模型阅读教材P 100~P 103“例1”以上部分,完成下列问题.1.线性回归模型的概念:将y =a +bx +ε称为线性回归模型,其中a +bx 是确定性函数,ε称为随机误差.2.线性回归方程:直线y ^=a ^+b ^x 称为线性回归方程,其中a ^称为回归截距,b ^称为回归系数,y ^称为回归值,其中⎩⎪⎨⎪⎧b ^=∑ni =1x i y i -n x - y -∑n i =1x 2i -n x -2,a ^=y --b ^x -.其中x -=1n∑n i =1x i ,y -=1n∑n i =1y i .设某大学生的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中正确的是________(填序号).(1)y 与x 具有正的线性相关关系; (2)回归直线过样本点的中心(x ,y );(3)若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ; (4)若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg.【解析】 回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,(1)正确;由回归方程系数的意义可知回归直线过样本点的中心(x ,y ),B 正确;∵回归方程y ^=0.85x -85.71,∴该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ,(3)正确;(4)不正确.【答案】 (1)(2)(3) 教材整理2 相关关系阅读教材P 104~P 105“例2”以上部分,完成下列问题. 1.相关系数是精确刻画线性相关关系的量.2.相关系数r =∑ni =1x i -x-y i -y-∑n i =1x i -x-2∑n i =1y i -y-2=∑ni =1x i y i -n x - y -⎝⎛⎭⎫∑ni =1x 2i -nx-2⎝⎛⎭⎫∑ni =1y 2i -ny-2.3.相关系数r 具有的性质: (1)|r |≤1;(2)|r |越接近于1,x ,y 的线性相关程度越强; (3)|r |越接近于0,x ,y 的线性相关程度越弱. 4.相关性检验的步骤:(1)提出统计假设H 0:变量x ,y 不具有线性相关关系;(2)如果以95%的把握作出推断,那么可以根据1-0.95=0.05与n -2在附录2中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平);(3)计算样本相关系数r ;(4)作出统计推断:若|r |>r 0.05,则否定H 0,表明有95%的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为y 与x 之间有线性相关关系.判断(正确的打“√”,错误的打“×”)(1)求回归直线方程前必须进行相关性检验.( ) (2)两个变量的相关系数越大,它们的相关程度越强.( ) (3)若相关系数r =0,则两变量x ,y 之间没有关系.( ) 【答案】 (1)√ (2)× (3)√[质疑·手记]预习完成后,请将你的疑问记录,并与“小伙伴们”探讨交流: 疑问1: 解惑: 疑问2: 解惑: 疑问3: 解惑:[小组合作型]回归分析的有关概念(1)有下列说法:①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法; ②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示; ③通过回归方程y ^=b ^x +a ^,可以估计和观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确的命题是__________(填序号).(2)如果某地的财政收入x 与支出y 满足线性回归方程y ^=b ^x +a ^+e (单位:亿元),其中b ^=0.8,a ^=2,|e |≤0.5,如果今年该地区财政收入10亿元,则今年支出预计不会超过________亿.【自主解答】 (1)①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y ^=b ^x +a ^的作用,故也正确.④在求回归方程之前必须进行相关性检验,以体现两变量的关系,故不正确.(2)由题意可得:y ^=0.8x +2+e ,当x =10时,y ^=0.8×10+2+e =10+e ,又|e |≤0.5,∴9.5≤y ^≤10.5.故今年支出预计不会超过10.5亿.【答案】(1)①②③(2)10.51.在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,然后利用最小二乘法求出回归直线方程.2.由线性回归方程给出的是一个预报值而非精确值.3.随机误差的主要来源(1)线性回归模型与真实情况引起的误差;(2)省略了一些因素的影响产生的误差;(3)观测与计算产生的误差.[再练一题]1.下列有关线性回归的说法,不正确的是________(填序号).【导学号:29440068】①自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;②在平面直角坐标系中用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图;③线性回归方程最能代表观测值x,y之间的关系;④任何一组观测值都能得到具有代表意义的回归直线方程.【解析】只有具有线性相关的两个观测值才能得到具有代表意义的回归直线方程.【答案】④求线性回归方程某班5学生A B C D E学科成绩数学成绩(x)8876736663物理成绩(y)7865716461(1)(2)求物理成绩y对数学成绩x的回归直线方程;(3)一名学生的数学成绩是96,试预测他的物理成绩.【精彩点拨】先画散点图,分析物理与数学成绩是否有线性相关关系,若相关,再利用线性回归模型求解.【自主解答】 (1)散点图如图所示.(2)由散点图可知y 与x 之间具有线性相关关系. 因为x -=15×(88+76+73+66+63)=73.2,y -=15×(78+65+71+64+61)=67.8,∑5i =1x i y i =88×78+76×65+73×71+66×64+63×61=25 054,∑5i =1x 2i =882+762+732+662+632=27 174.所以b ^=∑5i =1x i y i -5 x - y-∑5i =1x 2i -5x-2=25 054-5×73.2×67.827 174-5×73.22≈0.625, a ^=y --b ^x -≈67.8-0.625×73.2=22.05.所以y 对x 的回归直线方程是y ^=0.625x +22.05.(3)当x =96时,y ^=0.625×96+22.05≈82,即可以预测他的物理成绩是82.1.求线性回归方程的基本步骤:2.需特别注意的是,只有在散点图大致呈直线时,求出的线性回归方程才有实际意义,否则求出的回归方程毫无意义.[再练一题]2.某商场经营一批进价是30元/台的小商品,在市场调查中发现,此商品的销售单价x (x 取整数)元与日销售量y 台之间有如下关系:x35 40 45 50 y56412811(1)y 与x (方程的回归系数保留一位有效数字)(2)设经营此商品的日销售利润为P 元,根据(1)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.【解】 (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.设回归直线为y ^=b ^x +a ^,由题知x -=42.5,y -=34,则求得b ^=∑4i =1x i y i -4x - y-∑4i =1x 2i -4x-2=-370125≈-3, a ^=y --b ^x -=34-(-3)×42.5=161.5,∴y ^=-3x +161.5.(2)依题意有P =(-3x +161.5)(x -30)=-3x 2+251.5x -4 845=-3⎝ ⎛⎭⎪⎫x -251.562+251.5212-4 845. ∴当x =251.56≈42时,P 有最大值,约为426,即预测销售单价为42元时,能获得最大日销售利润. [探究共研型]线性回归分析探究1 作散点图的目的是什么?【提示】 直观分析数据是否存在线性相关关系.探究2 下表显示出变量y 随变量x 变化的一组数据,由此判断表示y 与x 之间的关系最可能的是________.(填序号)x 4 5 6 7 8 9 10 y14181920232528①线性函数模型;②二次函数模型;③指数函数模型;④对数函数模型.【提示】 画出散点图(图略),可以得到这些样本点在一条直线附近,故最可能是线性函数模型.故填①10名同学在高一和高二的数学成绩如下表:x 74 71 72 68 76 73 67 70 65 74 y76757170767965776272其中x 为高一数学成绩,y 为高二数学成绩. (1)y 与x 是否具有相关关系?(2)如果y 与x 具有线性相关关系,求回归直线方程.【精彩点拨】 可先计算线性相关系数r 的值,然后与r 0.05比较,进而对x 与y 的相关性做出判断.【自主解答】 (1)由已知表格中的数据,求得x =71,y =72.3,r =∑i =110x i -xy i -y∑i =110x i -x2∑i =110 y i -y2≈0.78.由检验水平0.05及n -2=8,在课本附录2中查得r 0.05=0.632,因为0.78>0.632, 所以y 与x 之间具有很强的线性相关关系. (2)y 与x 具有线性相关关系,设回归直线方程为y ^=a ^+b ^x ,则有b ^=∑i =110x i -xy i -y∑i =110x i -x2≈1.22,a ^=y --b ^x -=72.3-1.22×71=-14.32.所以y 关于x 的回归直线方程为y ^=1.22x -14.32.1.线性回归分析必须进行相关性检验;若忽略,则所求回归方程没有实际意义. 2.|r |越接近于1,两变量相关性越强,|r |越接近于0,两变量相关性越弱.[再练一题]3.关于两个变量x 和y 的7组数据如下表所示:x 21 23 25 27 29 32 35 y711212466115325试判断x 与y 之间是否有线性相关关系.【解】 x -=17×(21+23+25+27+29+32+35)≈27.4,y -=17×(7+11+21+24+66+115+325)≈81.3,∑7i =1x 2i =212+232+252+272+292+322+352=5 414,∑7i =1x i y i =21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542,∑7i =1y 2i =72+112+212+242+662+1152+3252=124 393,∴r =∑7i =1x i y i -7 x - y-∑7i =1x 2i -7x -2∑7i =1y 2i -7y-2=18 542-7×27.4×81.35 414-7×27.42124 393-7×81.32≈0.837 5. ∵0.837 5>0.755,∴x 与y 之间具有线性相关关系.[构建·体系]1.设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点得到的线性回归直线(如图321),以下结论正确的序号是__________.图321①直线l过点(x,y);②x和y的相关系数为直线l的斜率;③x和y相关系数在0到1之间;④当n为偶数时,分布在l两侧的样本点的个数一定相同.【解析】因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近于1,两个变量的线性相关程度越强,所以②③错误;④中n为偶数时,分布在l两侧的样本点的个数可能不相同,所以④错误;根据回归直线方程一定经过样本中心点可知①正确.【答案】①2.根据如下样本数据:x 345678y 4.0 2.5-0.50.5-2.0-3.0 得到的回归方程为y=bx+a,则下列说法正确的是__________.(填序号)①a>0,b>0;②a>0,b<0;③a<0,b>0;④a<0,b<0.【解析】由表中数据画出散点图,如图,由散点图可知b<0,a>0,故②正确.【答案】②3.设有一个回归方程为y ^=2-2.5x ,则变量x 每增加一个单位时,y =__________. 【导学号:29440069】【解析】 由回归系数的意义可知当变量x 增加一个单位时,y ^的平均改变量为b ^,由题目回归方程y ^=2-2.5x ,可得当变量x 增加一个单位时,y ^平均减少2.5个单位. 【答案】 平均减少2.5个单位4.对具有线性相关关系的变量x 和y ,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.【解析】 由题意知x =2,y =3,b ^=6.5,所以a ^=y -b ^x =3-6.5×2=-10,即回归直线的方程为y ^=-10+6.5x .【答案】 y ^=-10+6.5x5.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b ^x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【解】 (1)x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80.∵b ^=-20,a ^=y -b ^x , ∴a ^=80+20×8.5=250, ∴回归直线方程为y ^=-20x +250.(2)设工厂获得的利润为L 元,则L =x (-20x +250)-4(-20x +250)=-20⎝⎛⎭⎪⎫x -3342+361.25,∴该产品的单价应定为334元时,工厂获得的利润最大.我还有这些不足:(1) (2)我的课下提升方案: (1) (2)学业分层测评 (建议用时:45分钟)[学业达标]一、填空题1.如图322所示,对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2).由这两个散点图可以判断________.图322①变量x 与y 正相关,u 与v 正相关; ②变量x 与y 正相关,u 与v 负相关; ③变量x 与y 负相关,u 与v 正相关; ④变量x 与y 负相关,u 与v 负相关.【解析】 由图(1)知,x 与y 是负相关,由图(2)知,u 与v 是正相关,故③正确. 【答案】 ③2.已知对一组观测值(x i ,y i )(i =1,2,…,n )作出散点图后,确定具有线性相关关系,若对于y ^=a ^+b ^x ,求得b ^=0.51,x =61.75,y =38.14,则线性回归方程为________.【解析】 ∵a ^=y -b ^x =38.14-0.51×61.75=6.647 5≈6.65. ∴y ^=0.51x +6.65. 【答案】 y ^=0.51x +6.653.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型,预报广告费用为6万元时销售额为______万元.【解析】 样本中心点是(3.5,42),则a ^=y --b ^x -=42-9.4×3.5=9.1,所以回归直线方程是y ^=9.4x +9.1,把x =6代入得y ^=65.5.【答案】 65.54.对两个具有线性相关关系的变量进行回归分析时,得到一个回归方程y ^=1.5x +45,x ∈{1,5,7,13,14},则y -=________.【解析】 由x -=8,得y -=1.5×8+45=57. 【答案】 575.已知x ,y 的取值如下表:画出散点图,从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ^,则a ^=________. 【导学号:29440070】【解析】 因为回归方程必过样本点的中心(x -,y -),解得x -=2,y -=4.5,将(2,4.5)代入y ^=0.95x +a ^,可得a ^=2.6.【答案】 2.66.一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月羽绒服的销售量的件数约为________.【解析】 ∵样本点的中心为(10,38),∴38=-2×10+a ^. ∴a ^=58,即y ^=-2x +58. ∴当x =6时,y =46. 【答案】 467.对具有线性相关关系的变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),它们之间的线性回归方程是y =3x +20,若∑i =110x i =18,则∑i =110y i =________.【解析】 由于∑i =110x i =18,则x -=1.8,∵(x -,y -)在回归方程上, ∴y -=3×1.8+20=25.4, ∴∑i =110y i =10y -=254.【答案】 2548.已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5),则回归直线方程是________.【解析】 由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y ^-5=1.23(x -4),即y ^=1.23x +0.08.【答案】 y ^=1.23x +0.08 二、解答题 9.对于数据组:(1)(2)求线性回归方程.【解】 (1)作图略.x ,y 具有很好的线性相关性. (2)设y ^=a ^+b ^x ,因为x -=2.5,y -=5,∑4i =1x i y i =60, ∑4i =1x 2i =30,故b ^=60-4×2.5×530-4×2.52=2,a ^=y --b ^x -=5-2×2.5=0,故所求的回归直线方程为y ^=2x .10.下表为某地近几年机动车辆数与交通事故的统计资料,求出y 关于x 的线性回归方程.机动车辆数x /千台95110112120129135150180交通事故数y /千件6.27.5 7.78.5 8.79.8 10.2 13【解】 ∑8i =1x i =1 031,∑8i =1y i =71.6,∑8i =1x 2i =137 835,∑8i =1x i y i =9 611.7,x =128.875,y -=8.95,将它们代入⎩⎪⎨⎪⎧b ^=∑ni =1x i y i -n x - y -∑n i =1x 2i -n x -2,a ^=y --b ^x -,计算得b ^≈0.077 4.a ^=-1.025,所以,所求线性回归方程为y ^=0.077 4x -1.025.[能力提升]1.对具有线性相关关系的变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),它们之间的线性回归方程是y ^=3x +20,若∑10i =1x i =18,则∑10i =1y i =________. 【解析】 由∑10i =1x i =18,得x =1.8. 因为点(x ,y )在直线y ^=3x +20上,则y =25.4.所以∑10i =1y i =25.4×10=254. 【答案】 2542.(2016·徐州月考)已知对一组观测值(x i ,y i )(i =1,2,…,n )作出散点图后,确定具有线性相关关系,若对于y ^=a ^+b ^x ,求得b ^=0.51,x -=61.75,y -=38.14,则线性回归方程为________.【解析】 ∵a ^=y --b ^x -=38.14-0.51×61.75 =6.647 5≈6.65.∴y ^=0.51x +6.65.【答案】 y =0.51x +6.653.(2016·南京检测)若线性回归方程中的回归系数b ^=0,则相关系数r =________.【解析】 b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2,r =∑i =1nx i -x-y i -y-∑i =1nx i -x-2∑i =1ny i -y-2.由计算公式知,若b =0,则r =0. 【答案】 04.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,得到如下资料:日期 12月 1日 12月 2日 12月 3日 12月 4日 12月 5日 温差x (℃) 10 11 13 12 8 发芽y (颗)2325302616剩下的2组数据用于回归方程检验.(1)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?(3)请预测温差为14 ℃的发芽数.【解】 (1)由数据求得,x =12,y =27, 由公式求得,b ^=52,a ^=y -b ^x =-3.所以y 关于x 的线性回归方程为y ^=52x -3.(2)当x =10时,y ^=52×10-3=22,|22-23|<2;当x =8时,y ^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的. (3)当x =14时,有y ^=52×14-3=35-3=32,所以当温差为14 ℃时的发芽数约为32颗.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.2 回归分析学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.了解非线性回归分析.知识点一线性回归模型思考某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?梳理线性回归模型(1)随机误差具有线性相关关系的两个变量的取值x、y,y的值不能由x完全确定,可将x,y之间的关系表示为y =a +bx +ε,其中________是确定性函数,________称为随机误差. (2)随机误差产生的主要原因①所用的______________不恰当引起的误差; ②忽略了________________; ③存在________误差.(3)线性回归模型中a ,b 值的求法y =__________称为线性回归模型.a ,b 的估计值为a ^,b ^,则⎩⎪⎨⎪⎧b ^= ,o(a= .)(4)回归直线和线性回归方程直线y ^=a ^+b ^x 称为回归直线,此直线方程即为线性回归方程,a ^称为____________,b ^称为____________,y ^称为__________. 知识点二 样本相关系数r具有相关关系的两个变量的线性回归方程y ^=b ^x +a ^.思考1 变量y ^与真实值y 一样吗?思考2 变量y ^与真实值y 之间误差大了好还是小了好?梳理 样本相关系数r 及其性质(1)r =________________________________. (2)r 具有以下性质: ①|r |≤________;②|r |越接近于________,x ,y 的线性相关程度越强; ③|r |越接近于________,x ,y 的线性相关程度越弱. 知识点三 对相对关系数r 进行显著性检验的基本步骤 1.________________:变量x ,y 不具有线性相关关系;2.如果以95%的把握作出判断,那么可以根据1-0.95=0.05与n -2在教材附录2中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平); 3.计算__________________;4.作出统计推断:若|r |>________,则否定H 0,表明有________的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则________________原来的假设H 0,即就目前数据而言,没有充分理由认为y 与x 之间有线性相关关系.类型一 求线性回归方程例1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.(相关公式:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )反思与感悟 (1)求线性回归方程的基本步骤①列出散点图,从直观上分析数据间是否存在线性相关关系.②计算:x ,y ,∑i =1nx 2i ,∑i =1nx i y i .③代入公式求出y ^=b ^x +a ^中参数b ^,a ^的值. ④写出线性回归方程并对实际问题作出估计.(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.跟踪训练1 某班5名学生的数学和物理成绩如下表:(1)画出散点图;(2)求物理成绩y 对数学成绩x 的线性回归方程; (3)一名学生的数学成绩是96,试预测他的物理成绩.类型二线性回归分析例2 现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩(x)与入学后第一次考试的数学成绩(y)如下:请问:这10名学生的两次数学成绩是否具有线性关系?反思与感悟相关关系的两种判定方法及流程(1)利用散点图判定的流程(2)利用相关系数判定的流程计算r―→结合r与相关关系的关系判断跟踪训练2 一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少,随机器运转的速度而变化,下表为抽样试验的结果:对变量y与类型三非线性回归分析例3 下表为收集到的一组数据:(1)作出x与y(2)建立x与y的关系;(3)利用所得模型,估计当x=40时y的值.反思与感悟非线性回归问题的处理方法(1)指数函数型y=e bx+a①函数y=e bx+a的图象②处理方法:两边取对数,得ln y=ln e bx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.(2)对数函数型y=b ln x+a①函数y=b ln x+a的图象:②处理方法:设x′=ln x,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.(3)y=bx2+a型处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b. 跟踪训练3 已知某种食品每千克的生产成本y(元)与生产该食品的重量x(千克)有关,经生产统计得到以下数据:通过以上数据,判断该食品的生产成本y (元)与生产的重量x (千克)的倒数1x之间是否具有线性相关关系.若有,求出y 关于1x的回归方程,并估计一下生产该食品500千克时每千克的生产成本是多少.(精确到0.01)1.设有一个线性回归方程y ^=2-1.5x ,当变量x 增加1个单位时,y 平均________个单位. 2.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是________.(填序号)3.某厂节能降耗技术改造后,在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据如表:根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,则上表中的t =________.4.下表是x 和y 之间的一组数据,则y 关于x 的回归直线必过点________.5.已知x 、y 之间的一组数据如下表:(1)分别计算:x 、y 、x 1y 1+x 2y 2+x 3y 3+x 4y 4、x 21+x 22+x 23+x 24; (2)已知变量x 与y 线性相关,求出回归方程.回归分析的步骤(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量;(2)画出确定好的自变量和因变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y ^=b ^x +a ^); (4)按一定规则估计回归方程中的参数.答案精析问题导学 知识点一思考 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.设所求的线性回归方程为y ^=b ^x +a ^,则b ^=∑i =15(x i -x )(y i -y)∑i =15(x i -x)2=1020=0.5, a ^=y -b ^x =0.4.所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4. 梳理 (1)a +bx ε (2)①确定性函数 ②某些因素的影响 ③观测(3)a +bx +ε∑i =1nx i y i -n x y∑i =1nx 2i -n (x )2y -b ^x (4)回归截距 回归系数 回归值 知识点二 思考1 不一定. 思考2 越小越好.梳理 (1)∑i =1nx i y i -n x y(∑i =1nx 2i -n (x )2)(∑i =1ny 2i -n (y )2)(2)①1 ②1 ③0 知识点三1.提出统计假设H 0 3.样本相关系数r 4.r 0.05 95% 没有理由拒绝 题型探究例1 解 (1)如图:(2)∑i =14x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4,∑i =14x 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7, a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程可知,当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.跟踪训练1 解 (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25 054.∑i =15x 2i =882+762+732+662+632=27 174. 所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=25 054-5×73.2×67.827 174-5×73.22≈0.625. a ^=y -b ^x ≈67.8-0.625×73.2=22.05.所以y 对x 的线性回归方程是y ^=0.625x +22.05.(3)当x =96时,y ^=0.625×96+22.05≈82,即可以预测他的物理成绩是82. 例2 解 x =110(120+108+…+99+108)=107.8,y =110(84+64+…+57+71)=68.∑i =110x 2i =1202+1082+…+992+1082=116 584.∑i =110y 2i =842+642+…+572+712=47 384. ∑i =110x i y i =120×84+108×64+…+99×57+108×71=73 796.所以相关系数为r =73 796-10×107.8×68(116 584-10×107.82)(47 384-10×682)≈0.751.由检验水平0.05及n -2=8, 在附录2中查得r 0.05=0.632. 因为0.751>0.632,由此可看出这10名学生的两次数学成绩具有较强的线性相关关系. 跟踪训练2 解 由题中数据可得x =12.5,y =8.25,∑i =14x i y i =438,4x y =412.5,∑i =14x 2i =660,∑i =14y 2i =291, 所以r =∑i =14x i y i -4x y(∑i =14x 2i -4(x )2)(∑i =14y 2i -4(y )2)=438-412.5(660-625)×(291-272.25)=25.5656.25≈0.995. 由检验水平0.05及n -2=2,在教材附录表2中查得r 0.05=0.950,因为r >r 0.05,所以y 与x 具有线性相关关系.例3 解 (1)作出散点图如图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y =c 1e c 2x 的周围,其中c 1、c 2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a ,a =ln c 1,b =c 2的周围,这样就可以利用线性回归模型来建立y 与x 之间的非线性回归方程,数据可以转化为求得线性回归方程为z ^=0.272x -3.849,∴y ^=e0.272x -3.849.(3)当x =40时,y ^=e 0.272x -3.849≈1 131.跟踪训练3 解 设u =1x,通过已知数据得到y 与u 的相应数据为r =∑i =110u i ·y i -10u ·y(∑i =110u 2i -10·u 2)(∑i =110y 2i -10·y 2)≈0.999 8,于是有很大的把握认为y 与1x具有线性相关关系.而b ^=∑i =110u i ·y i -10u ·y∑i =110u 2i -10u 2≈8.973,a ^=y -b ^·u ≈1.126,于是y 与1x 的回归方程为y ^=8.973x+1.126.当x =500时,y ^=8.973500+1.126≈1.14.所以估计生产该食品500千克时每千克的生产成本是1.14元. 当堂训练1.减少1.5 2.①③ 3.3 4.(2.5,4)5.解 (1)x =0+1+2+34=1.5,y =1+3+5+74=4,x 1y 1+x 2y 2+x 3y 3+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+x 23+x 24=02+12+22+32=14.(2)b ^=34-4×1.5×414-4×1.52=2,a ^=y -b ^x =4-2×1.5=1,故y ^=2x +1.。