高中数学选修2-3公开课教案3.1回归分析的基本思想及其初步应用

合集下载

【最新】高中数学人教A版选修2-3教学案:3.1回归分析的基本思想及其初步应用-含解析

【最新】高中数学人教A版选修2-3教学案:3.1回归分析的基本思想及其初步应用-含解析

回归分析的基本思想及其初步应用预习课本P80~89,思考并完成以下问题1.什么是回归分析?2.什么是线性回归模型?3.求线性回归方程的步骤是什么?[新知初探]1.回归分析(1)回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(2)回归方程的相关计算对于两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ).设其回归直线方程为y ^=b ^x +a ^,其中a ^,b ^是待定参数,由最小二乘法得b ^=∑i =1n (x i -x )(y i -y )∑i =1n (x i -x )2=∑i =1n x i y i -nx y∑i =1n x 2i -n x 2, a ^=y -b ^x .(3)线性回归模型线性回归模型⎩⎪⎨⎪⎧y =bx +a +e ,E (e )=0,D (e )=σ2,其中a ,b 为模型的未知参数,通常e 为随机变量,称为随机误差.x 称为解释变量,y 称为预报变量.[点睛] 对线性回归模型的三点说明(1)非确定性关系:线性回归模型y =bx +a +e 与确定性函数y =a +bx 相比,它表示y与x 之间是统计相关关系(非确定性关系),其中的随机误差e 提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a ,b 的工具.(2)线性回归方程y ^=b ^x +a ^中a ^,b ^的意义是:以a ^为基数,x 每增加1个单位,y 相应地平均增加b ^个单位.2.线性回归分析(1)残差:对于样本点(x i ,y i )(i =1,2,…,n )的随机误差的估计值 e ^i =y i -y ^i 称为相应于点(x i ,y i )的残差,∑i =1n(y i -y ^i )2称为残差平方和.(2)残差图:利用图形来分析残差特性,作图时纵坐标为残差, 横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.(3)R 2=1-∑i =1n (y i -y ^i )2∑i =1n (y i -y )2越接近1,表示回归的效果越好.[小试身手]1.判断下列命题是否正确.(正确的打“√”,错误的打“×”)(1)残差平方和越小, 线性回归方程的拟合效果越好.( )(2)在画两个变量的散点图时, 预报变量在x 轴上,解释变量在y 轴上.( )(3)R 2越小, 线性回归方程的拟合效果越好.( )答案:(1)√ (2)× (3)×2.从散点图上看,点散布在从左下角到右上角的区域内, 两个变量的这种相关关系称为________.答案:正相关3.在残差分析中, 残差图的纵坐标为________.答案:残差4.如果发现散点图中所有的样本点都在一条直线上, 则残差平方和等于________, 解释变量和预报变量之间的相关系数等于________.答案:0 1或-1[典例] 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据。

高中数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第四课时 Word版含解析

高中数学人教A版选修2-3教案:3.1回归分析的基本思想及其初步应用第四课时 Word版含解析

第四课时教学目标 知识与技能通过典型案例的探究,进一步了解回归分析的基本思想和求回归方程的步骤. 过程与方法通过对回归模型的选择,使学生进一步体会建立回归模型的步骤,体会各个步骤的功能和重要性.情感、态度与价值观通过案例的分析,培养学生的探索精神,提高对数据的处理能力,并且使学生了解回归分析在生活实际中的应用,增强数学的应用意识,提高学习兴趣.重点难点 教学重点:掌握在解决实际问题的过程中寻找更好的模型的方法,总结求回归方程的步骤,会用合适的方法进行模型分析.教学难点:如何根据散点图选择合适的回归模型并对其拟合效果进行检验. 教学过程引入新课(2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于平均值的0.8为偏瘦,那么这个地区一名身高为175 cm ,体重为82 kg 的在校男生的体重是否正常?学生活动:合作交流,探讨方案并计算检验. 学情预测:方案一:计算相关系数r≈0.96>0.75,故y 与x 之间具有很强的线性相关性.设y 与x 之间的回归方程为y ^=b ^x +a ^,则b ^=∑i =112x i y i -12x y∑i =112x 2i -12x2≈0.431 9,a ^ =y -b ^x ≈-25.679,故回归方程为:y ^=0.431 9x -25.679. 当x =175时,y ^≈55.15.因为55.15×1.2=66.18<82,故这名男生偏胖. 方案二:画出散点图如图所示:由表中数据可得z 与x 之间的回归直线方程为z ^=0.693+0.020x ,则有 y ^=e 0.693+0.020x.当x =175时,y ^≈66.22,由于66.22×1.2=79.464<82,所以这名男生偏胖.设计目的:复习回归分析的基本步骤,让学生体会回归思想在实际问题中的应用,在操作过程中锻炼学生的数据处理能力.探究新知提出问题:虽然两种解法的结论是一致的,但分析过程同学们可以发现,两种解法中求得的体重平均值是不同的,试分析两种模型哪种更合适?学生活动:讨论交流.学情预测:可能学生会出现争论:一种观点:原因出在选取的回归模型不同,从散点图上观察,选取指数型模型可能更好,得到的答案可信度可能更高.另一种观点:计算x与y的相关系数可得:r≈0.96>0.75,显示具有很强的线性相关性,故采用线性回归模型不会出错.提出问题:怎样来评判这两种解法呢?学生活动:分组合作,讨论解决的方法.学情预测:可以求相关指数、计算残差平方和或画残差图来分析两种模型的拟合效果.对于方案1:残差平方和约为:190.424,相关指数:R21≈0.93,残差图:对于方案2:残差平方和约为:33.8,相关指数:R22≈0.988,残差图:通过图形可以发现,方案二在数据拟合效果上更好,故应该采用方案二的结论.设计目的:通过对问题的探讨,让学生回顾学过的比较回归模型拟合效果的方法,体会在进行回归分析时方程类型合理选取的重要性.理解新知提出问题:通过对上面问题的分析,同学们觉得进行线性回归分析时,确定完变量后是计算线性相关系数还是画散点图?学生活动:学生分组讨论.学情预测:应该是先画散点图,根据散点图判断出回归方程的类型进行求解,当根据图形无法确定哪种方程形式更合理时,可多设出几个方程分别求出,再根据残差分析和计算相关指数来比较回归方程的拟合效果,选择拟合效果最好的方程进行预测.教师:残差分析的作用不光在于比较回归模型的拟合效果,它还有一个重要的作用,就是通过残差样本点的分布,还可以发现样本点收集过程中的错误,有利于纠正采集中的错误.提出问题:同学们自己能否把回归分析的步骤补充完整.学生活动:分组讨论,合作交流.学情预测:(1)确定变量;(2)画散点图;(3)分析回归模型类型;(4)求回归方程;(5)分析拟合效果.设计目的:让学生整理回归分析的基本步骤,进一步明确每一个步骤的作用和重要性.运用新知例1通常一个人的身高越高,他的脚就越大,为了调查这一问题,对9名高三男生的身高和脚长进行测量,得到如下数据:(单位:cm)(2)如果一名学生的身高为185 cm,估计他的脚长.思路分析:先画出散点图,根据散点图确定回归模型的类型,然后求y与x之间的回归方程并进行预测.解:(1)根据上表中的数据,作出散点图.由图可以看出,身高与脚长之间的总体趋势成一条直线,即它们线性相关,因此可用线性回归模型来拟合,设线性回归模型为y ^ =b ^ x +a ^,由图中数据可求得回归方程为:y ^=0.163x -2.037.(2)当x =185时,y ^≈28.1,即当一名学生的身高185 cm 时,估计他的脚长为28.1 cm. 【变练演编】例2下表是1957年美国旧轿车价格的调查资料,以x 表示轿车的使用年数,y 表示相应的年均价格,求y 关于x 的方程.思路分析:根据散点图,判断回归方程的类型,当不能确定时,就多选择几个进行比较选择.解:画出散点图:根据样本点的分布规律,若选择线性回归模型,可设方程为y ^=b ^x +a ^,由图中数据可求得回归方程为:y ^=-255.14x +2 371.5,计算相关指数R 21=0.876 3.若选择指数型回归方程模型,可设为y ^=c 1ec 2x ,于是令z =lny ,变换后的数据:由图可知各点基本位于一条直线附近,由上表中数据可得线性回归模型为z ^=8.165-0.298x ,因此旧轿车的平均价格对使用年数的非线性回归模型为:y ^=e 8.165-0.298x计算相关指数R 22=0.992 4,因为R 22>R 21,故非线性回归模型y ^=e 8.165-0.298x的拟合效果更好.所以y 关于x 的方程应为y ^=e 8.165-0.298x.设计意图:进一步体会回归分析思想的应用,熟悉求回归方程的基本步骤.【达标检测】1.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量之间的相关关系.现取了8对观测值,计算得:∑i =18x i =52,∑i =18y i =228,∑i =18x 2i =478,∑i =18x i y i =1 849,则y 与x 的回归直线方程是( )A.y ^=11.47+2.62x B.y ^=-11.47+2.62x C.y ^=2.62x +11.47x D.y ^=11.47-2.62x2.相关的一组数据如下表所示,它们的线性回归方程为y ^=0x +1.5,则当解释变量x =1时,预测变量yA.1.5 B .1.3 C .1.4 D .1.55对于授课天数与分数是否存在回归直线,下列说法正确的是( ) A .一定存在 B .可能存在也可能不存在 C .一定不存在 D .以上都不正确 答案:1.A 2.A3.A 解析:作出散点图进行直观分析,也可以求出相关系数进行判断,答案选A. 课堂小结师生回顾课堂内容,由学生进行小结: 1.建立回归模型的基本步骤: 2.如何选择合适的回归模型:3.如何将非线性回归模型转化为线性回归模型. 补充练习 【基础练习】1.散点图在回归分析中的作用是( )A .查找个体个数B .比较个体数据大小关系C .探究个体分类D .粗略判断变量是否相关2.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵截距是a ,那么必有( )A .b 与r 的符号相同B .a 与r 的符号相同C .b 与r 的符号相反D .a 与r 的符号相反3.一组观察值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =a +bx i +e i (i =1,2,…,n),若e i 恒为0,则R 2为__________.答案或提示:1.D 2.A3.1 解析:e i =0, i =1ne 2i =0,R2=1,其实此时随机误差e 为0,即没有误差,y 与x是确定的函数关系.所以答案为1. 【拓展练习】求y 对x 的线性回归方程,并检验回归方程的显著性.解:x ≈0.543,y ≈20.74,∑7i =1x 2i =2.595,∑7i =1y 2i =3 094.72,∑7i =1x i y i =85.45. ∴b ^=85.45-7×0.543×20.742.595-7×(0.543)2≈12.46,a ^ =20.74-12.46×0.543≈13.97,∴所求回归直线方程为y ^=13.97+12.46x. 利用相关系数检验是否显著:∑7i =1x i y i -7x y ≈6.62,∑7i =1x 2i -7x 2≈0.531,∑7i =1y 2i -7y 2≈83.69, ∴r≈0.993,由于r >0.75,故钢线碳含量对于电阻的效应线性相关关系显著.设计说明本节课以问题创设情境引发矛盾,并引导学生分析矛盾产生的原因,以问题为主线,展开对建立回归方程各个步骤的分析,引导学生认识各个步骤的重要性,结合实际问题,以引起学生的重视.在问题的解决过程中,注意引导学生合作交流,以培养学生的团队合作精神,并让学生利用计算器进行分析验证,提高学生对数据的处理能力.由于本节课是建立在前三节课的基础上,故本节课定位于一节习题课,重点是对前三节内容的梳理和总结,帮助学生形成一个清晰的知识结构,强化回归思想的应用意识.备课资料(此栏目可参考:http://www.zhyh,org/?action=copyright!show&id=1829)如何利用Excel软件求回归模型的方程以及相关指数R2.Excel软件是一款功能强大的数据处理软件,利用软件中自带的功能,不但可以画出散点图,还可以根据数据轻松求出回归方程和相关指数R2,现举例说明:试建立y与x之间的回归方程.第一步:选中表格中的数据,粘贴到Excel中第二步:选中Excel中的数据第三步:单击菜单栏的插入——图表再在图表选项中选择散点图单击完成,得到如图所示的散点图第四步:右键单击散点图中的样本点选择:添加趋势线,选择不同的回归类型单击:选项勾选:显示公式和显示R平方值,单击确定从图中就可以得到回归方程和相关指数了.(设计者:杨雪峰)。

高中数学人教A版选修2-3课件:3.1回归分析的基本思想及其初步应用

高中数学人教A版选修2-3课件:3.1回归分析的基本思想及其初步应用

问题导学
Байду номын сангаас
当堂检测
解:(1)由表画出散点图,如图所示.
问题导学
当堂检测
(2)从上图可看出,这些点基本上散布在一条直线附近,可以认为 x 和 y 线性相关关系显著,下面求其回归方程,首先列出下表.
序号 1 2 3 4 5 6 7 8 ∑ xi 5 .6 6 .0 6 .1 6 .4 7 .0 7 .5 8 .0 8 .2 54.8 yi 130 136 143 149 157 172 183 188 1 258 x2 i 31.36 36.00 37.21 40.96 49.00 56.25 64.00 67.24 382.02 y2 i 16 900 18 496 20 449 22 201 24 649 29 584 33 489 35 344 201 112 xiyi 728.0 816.0 872.3 953.6 1 099.0 1 290.0 1 464.0 1 541.6 8 764.5
例 1 某工厂 1~8 月份某种产品的产量与成本的统计数据见 下表:
月份 产量 (t) 成本 (万元) 1 5 .6 130 2 6 .0 136 3 6 .1 143 4 6 .4 149 5 7 .0 157 6 7 .5 172 7 8.0 183 8 8 .2 188
以产量为 x,成本为 y. (1)画出散点图; (2)y 与 x 是否具有线性相关关系?若有,求出其回归方程. 思路分析:画出散点图,观察图形的形状得 x 与 y 是否具有线性相关 关系.把数值代入回归系数公式求回归方程 . x
3.回归模型拟合效果的刻画
类 别 残差图法 残差点比较均匀地落在 特 点 水平的带状区域内,说明 选用的模型比较适合,这 样的带状区域的宽度越 窄,说明模型拟合精度越 高 残差平方和法 残差平方和

人教A版高中数学选修2-3课件3.1回归分析的基本思想及其初步应用(一)

人教A版高中数学选修2-3课件3.1回归分析的基本思想及其初步应用(一)

(x1, y1)
o
(x2 , y2 )
x

a ^
易知,截距 ^ 和斜率 b 分别是使
Q( , ) yi yi yi ( xi )
取最小值时 , 的值。由于
n
Q( , ) [ yi xi ( y x) ( y x) ]2
n
xi2
nx y
i
,
2
nx
i1
i1
aˆ y bˆx

最小二乘法: yˆ bˆx aˆ
n
n
bˆ =
i=1(xi -x)(yi -y)
n
(xi -x)2
i=1
=
i=1xi yi -nxy
n
xi2-nx 2
i=1
,
aˆ=y-bˆ x.
其中x
2): 对具有相关关系的两个变量进行统计 分析的方法叫回归分析。

现实生活中存在着大量的相关关系。 如:人的身高与年龄;
产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等
探索:水稻产量y与施肥量x之间大致有何规 律?

施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
( y ix1 )[ yi i1 xi n( y x)] i1

(
y


x

i 1
)n[n
y

i1
n2
x
n n((xiyx)(yix)y]) 2
n
0,[
( xi

人教课标版高中数学选修2-3《回归分析基本思想及其初步应用(第2课时)》教案-新版

人教课标版高中数学选修2-3《回归分析基本思想及其初步应用(第2课时)》教案-新版

3.1 回归分析基本思想及其初步应用第二课时一、教学目标 1.核心素养:通过学习回归分析的基本思想及其初步应用,初步形成基本的数据分析能力. 2.学习目标(1)1.1.2.1 理解相关系数概念(2)1.1.2.2 判断刻画模型拟合效果的方法—相关指数和残差分析 (3)1.1.2.3 能用回归分析的方法对简单的案例进行分析. 3.学习重点判断刻画模型拟合效果的方法—相关系数、相关指数和残差分析 4.学习难点判断刻画模型拟合效果的方法—相关系数、相关指数和残差分析 二、教学设计 (一)课前设计 1.预习任务 任务1阅读教材P 4-P 6,思考在回归分析中,分析残差能够帮助我们解决那些问题?任务2刻画模型拟合效果的方法有哪些?2.预习自测1.下列说法正确的是 ( )A.在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法B.线性回归方程对应的直线a x b yˆˆˆ+=至少经过其样本数据点1122(,),(,),,(,)n n x y x y x y L 中的一个点C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,相关指数2R 为98.0的模型比相关指数2R 为80.0的模型拟合的效果差 【知识点:回归分析】解:C A.回归分析反映两个变量相关关系的数学方法,由建立回归方程来预报变量的情况.错误;B.线性回归方程对应的直线a x b yˆˆˆ+=,过其样本数据平均数点,错误;D.相关指数2R 越大,则相关性越强,模型的拟合效果越好. 错误;C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高. 正确.2.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下,其中拟合效果最好的模型是( ) A.模型1的相关指数2R 为0.99 B.模型2的相关指数2R 为0.88 C.模型3的相关指数2R 为0.50 D.模型4的相关指数2R 为0.20 【知识点:回归分析】解:A 由相关指数的意义知,2R 越大说明相关性越强,故选A. (二)课堂设计 1.知识回顾⑴对于一组具有线性相关关系的数据1122(,),(,),,(,)n n x y x y x y L ,1211,n n i i x x x x x n n =+++==∑L 121y y y 1y y ,nn i i n n=+++==∑L 则称点),y x (为样本点的中心. (2)线性回归方程:∧∧∧+=a x b y ,其中.1122211()()()n niii ii i nniii i x x y y x y nx yb x x xnx∧====---==--∑∑∑∑,a ∧=x b ∧-y(3)线性回归模型:y =bx +a +e 其中a 和b 为模型的未知参数,e 称为随机误差. 2.问题探究问题探究一 什么是相关系数?相关系数可以用来解释什么?●活动一 理论研究,概念学习—相关系数我们知道,两个变量x 和y 正(负)相关时,它们就有相同(反)的变化趋势,因此可以用回归直线来描述这种关系.与此相关的一个问题:如何描述x 和y 之间种线性关系的强弱?在统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值i x ,变量y 的观测值为i y (n i ≤≤1),则两个变量的相关系数r 的计算公式为∑∑∑===----=ni ni iini iiy yx x y yx x r 11221)()())((对于相关系数r ,当为正时,表明变量x 和y 正相关,当r 为负时,表明变量x 和y 负相关. 统计学认为,对于变量x,y ,如果[]75.0,1--∈r ,那么负相关很强;如果[]1,75.0∈r ,那么正相关很强;如果(]30.0,75.0--∈r 或[)75.0,3.0∈r ,那么相关性一般;若[]25.0,25.0-∈r ,那么相关性较弱.●活动二 学以致用,相关系数的应用例1 对下列各图中两个变量间的线性相关程度作出分析【知识点:相关系数】详解:图1,r =0.97相关性很强,而且是正相关;图2,r =-0.85相关性很强,而且是负相关 图3,r =0.24,不能用线性回归模型描述两个变量的关系;图4,r =-0.05乎没有什么关系,不能用线性回归模型描述两个变量的关系.点拨:当相关系数r 越接近1时,两个变量的线性相关程度越高,当相关系数r 越接近0时,两个变量的线性相关程度越低.问题探究二 什么是残差、及残差平方和、如何用残差判断拟合效果? ●活动一 残差的定义在线性回归模型中,e 是用bx +a 报真实值y 的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?在实际应用中,我们用回归方程∧∧∧+=a x b y 中的∧y 估计回归模型y =bx +a +e 中的bx +a .由于随机误差e =y -(bx +a ),所以∧∧-=y y e 是e 的估计值.对于样本点1122(,),(,),,(,)n n x y x y x y L 而言,它们的随机误差为,1,2,,i i i e y bx a i n =--=L 其估计值为∧∧∧∧--=-=a x b y y y e i i i i i 1,2,,i n =L 称i e ∧是相对于点),i i y x (的残差. ●活动二 学以致用,残差的应用如何发现数据中的错误,如何衡量模型的拟合效果?通过残差可以发现原始数据中的可疑数据,判断所建立模型的拟合效果.下表是女大学生身高和体重的原始数据以及相应的残差数据.我们可以利用图形来分析残差.作图时纵坐标为残差,横坐标可以选为样本的编号或者解释变量的数值,这样作出的图形称为残差图.下表是以女大学生编号为横坐标的残差图从残差图中可以看到第1个样本点和第6个样本点的残差较大,需要确认是否出现人为的错误.残差所能说明的情况:① 样本点的残差比较大,确认采集数据时是否出现人为的错误或其他原因;②残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高.●活动三 多角度刻画拟合效果从残差图中我们可以大致判断模型的拟合效果,能否定性分析模型的拟合效果呢? 我们可以用2R 是刻画回归效果的量,除了表示回归模型的拟合效果,也表示解释变量和预报变量的线性相关关系(在线性回归模型中).其计算公式是22121ˆ()1()ni i nii y yR y y ==-=--∑∑对于已获取的样本数据,2R 表达式中的()∑=-ni i y y 12为确定的数.因此2R 越大,说明残差平方和()21ˆni i y y=-∑越小,模型的拟合效果越好;2R 越小,说明残差平方和()21ˆni i y y =-∑越大,模型的拟合效果越差.在线性回归模型中,2R 越接近于1,回归的效果越好(因为2R 越接近于1,表示解释变量和预报变量的线性相关性越强).在线性回归模型中,2R 同时也表示解释变量对预报变量变化的贡献率.()()64.0ˆ112122≈---=∑∑==ni ini i i y yy y R ,即解释变量对预报变量变化约贡献了64%,而随机误差贡献了剩余的36%. 问题探究三●活动一 学以致用例2.某运动员训练次数与运动成绩之间的数据关系如下:根据数据分别计算相关系数、残差、相关指数2R ,判断能否用线性回归模型,若能求出回归方程并试预测该运动员训练47次以及55次的成绩,若不能说明理由. 【知识点:线性回归,线性相关关系】详解:(1)作出该运动员训练次数x 与成绩y 之间的散点图,如图1所示,由散点图可知,它们之间具有线性相关关系.(2)列表计算:由上表可求得875.40,25.39==y x ,12656812=∑=i ix ,13731812=∑=i iy ,1318081=∑=ii i yx ,所以88118822211()()8 1.0415.()iii ii i iii i x x y y x y x yb x x xx====---==≈--∑∑∑∑00302.0-≈-=x b y a ,所以回归直线方程为.00302.00415.1^-=x y(3)计算相关系数将上述数据代入0.992704r r ==,查表可知707.005.0=r ,而05.0r r >,故y 与x 之间存在显著的相关关系. (4)残差分析:作残差图如图2,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.计算残差的方差得884113.02=σ,说明预报的精度较高. (5)计算相关指数2R计算相关指数2R =0.9855.说明该运动员的成绩的差异有98.55%是由训练次数引起的. (6)做出预报由上述分析可知,我们可用回归方程.00302.00415.1^-=x y 作为该运动员成绩的预报值.将x =47和x =55分别代入该方程可得y =49和y =57, 故预测运动员训练47次和55次的成绩分别为49和57.点拨:1.解答本类题目应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析. 2.在使用回归方程进行预报时要注意:(1)回归方程只适用于我们所研究的样本的总体; (2)我们所建立的回归方程一般都有时间性; (3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值. 3.课堂总结【知识梳理】(1)在统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值i x ,变量y 的观测值为i y (n i ≤≤1),则两个变量的相关系数r 的计算公式为∑∑∑===----=ni ni iini iiy yx x y yx x r 11221)()())(((2)数据点和它在回归直线上相应位置的差异是随机误差的效应,称(1,2,3,n)i i e y y i ∧∧=-=L ,为残差.由,y ∧∧∧+=a x b i i 得(1,2,3,,)i i i e y b x a i n ∧∧∧=--=L .【重难点突破】(1)残差图分析:若残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度就越高.若残差点分布在其他形状的区域,则说明所选用的回归模型不是最好的,有改进的空间.(2)2R 越大,说明残差平方和21)y (∑=-ni i y 越小,模型的拟合效果越好;2R 越小,说明残差平方和21)y (∑=-ni i y 越大,模型的拟合效果越差.在线性回归模型中,2R 越接近于1,回归的效果越好(因为2R 越接近于1,表示解释变量和预报变量的线性相关性越强).在线性回归模型中, 2R 同时也表示解释变量对预报变量变化的贡献率. 4.随堂检测1.下列各组变量之间具有线性相关关系的是( ) A.出租车费与行驶的里程 B.学习成绩与学生身高 C.身高与体重 D.铁的体积与质量【知识点:线性回归,线性相关关系】解: C2.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y ^=b ^x +a ^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( ) A.b ^>b ′,a ^>a ′B.b ^ >b ′,a ^ <a ′C.b ^<b ′,a ^>a ′ D.b ^ <b ′,a ^<a ′【知识点:线性回归,线性相关关系】解:C b ′=2,a ′=-2,b ^ =57,a ^ =y -b ^ x =136-57×72=-13, ∴b ^ <b ′,a ^>a ′.选C.3.四名同学根据各自的样本数据研究变量y x ,之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且1.63.2-=∧x y ; ②y 与x 负相关且1.537.3--=∧x y ; ③y 与x 正相关且27.3-=∧x y ; ④y 与x 正相关且17.656.4+-=∧x y . 其中一定不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④【知识点:线性回归,线性相关关系】解:D ①中y 与x 负相关而斜率为正,不正确;④中y 与x 正相关而斜率为负,不正确. 4.如果散点图中的所有的点都在一条斜率不为0的直线上,则残差为_____,相关指数2R =_____. 【知识点:线性回归,线性相关关系】解:0, 1 由题意知,ˆi i y y = ∴相应的残差ˆˆ0i i i ey y =-=. 相关指数22121ˆ()110 1.()niii nii y yR y y ==-=-=-=-∑∑(三)课后作业 基础型 自主突破1.对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )相关系数为1r 相关系数为2r相关系数为3r 相关系数为4r A.24310r r r r <<<< B.31240r r r r <<<< C.13240r r r r <<<< D.31420r r r r <<<< 【知识点:相关系数】解:A2. 甲、乙、丙、丁四位同学在建立变量y x ,的回归模型时,分别选择了4中不同的模型,计算可得它们的相关指数2R 分别如下表,其中拟合效果最好的为( )A.甲B.乙C.丙D.丁 答案:A解析:【知识点:相关指数】3.已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4【知识点:回归方程,相关关系】解:A 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 与D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A 和B 中的直线方程进行检验,可以排除B ,只有A 可能.4.已知一组观测值1122,),(,),,(,)n n x y x y x y L (之间满足(1,2,,)y bx a e i n =++=L ,若e 恒为0,则2R 为 .【知识点:残差,相关指数】 答案:1.5.下表中给出了5组数据),(i i y x ,从中选出4组使其线性相关性最大,且保留第1组(-5,-3),那么应该去掉第_______组【知识点:残差分析】解: 3能力型 师生共研6.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归方程的回归系数是∧b ,回归截距是∧a ,那么必有( ) A .∧b 与r 的符号相同 B .∧a 与r 的符号相同 C .∧b 与r 的相反D .∧a 与r 的符号相反 【知识点:相关关系】解:.A ∧b 决定正相关还是负相关,与r 的符号相同.7.回归分析中,相关指数2R 的值越大,说明残差平方和( ) A.越小 B.越大C.可能大也可能小D.以上都不对【知识点:相关指数】解: A 由2R 和残差平方和公式易得.8. 若对于变量y 与x 的10组统计数据的回归模型中,相关指数95.02=R ,又知残差平方和为53.120,那么∑=-1012)(i iy y的值为( )A.241.06B.2410.6C.253.08D.2530.8【知识点:相关指数】解: B 由2R 和残差平方和公式易得. 9.已知x ,y 之间的一组数据如下表:对于表中数据,现给出如下拟合直线:①5457+=x y ;②12+=x y ;③52-58x y =;④x y 2=.根据最小二乘法的思想,其中拟合程度最好的直线是________.(填正确序号) 【知识点:样本点中心,回归方程】解:① 直线必过样本点中心(3,5),依次检验即可. 探究型 多维突破(一般为2道题,具体课时可相应灵活调整)10.假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,现测得5组数据如下表:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)球y 与x 间的回归方程,对于基本苗数56.7,预报其成熟期的有效穗;(3)求相关指数2R ,并说明残差变量对成熟期有效穗的影响占百分之几. 【知识点:散点图,回归方程,相关指数】 解:(1)略(2)由散点图可知,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.可求得线性回归方程为.291.0664.34x y +=∧当x =56.7时,.164.517.56291.0644.34≈⨯+=∧y 即估计其成熟期有效穗为51.164. (3)残差平方和为:,427.8512≈∑=i i e总偏差平方和:,18.50)512≈-∑=i i y y (故,832.018.50427.8-12≈=R 解释变量小麦基本苗数对成熟期有效穗的影响约占83.2%,残差变量的影响约占1-83.2%=16.8%.11.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得数据如下:(1)计算残差及残差和; (2)进行残差分析.【知识点:残差,残差分析,残差图】解:(1) 列出残差表(由已知可知7.91960.54668.0=+=∧y x y ,)如下所以残差平方和=2220.4-0.30.2 1.4+++=L ()()(),残差值如表中第四行的值.(2)残差分析:画出残差图,散点图(略),由散点图可以说明x 与y 有很强的相关性.可以观察到,第4个样本点和第5个样本点的残差比较大,需要纠正数据,重新利用线性回归模型拟合数据;残差图中的残差点比较均匀地落在水平的带状区域中,说明选用的线性回归模型较为合适,带状区域的宽度仅为1.3,比较狭窄,说明模型拟合精度较高. (四)自助餐1.从某大学随机抽取8名女大学生,其身高x (cm )和体重y (kg )的回归方程为712.85-849.0x y =∧,则身高172cm 的女大学生,由回归方程可以得知其体重( ) A.等于60.316kg B.约为60.316kg C.大于60.316kg D.小于60.316kg 【知识点:回归分析】 解:B2.在回归分析中,残差图的纵坐标为( ) A.残差 B.样本编号 C.等高条形图 D.独立性检验 【知识点:残差图】 解: A3.设1122(,)(,),,(,)n n x y x y x y L 是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( )A.直线l 过点(,)x yB.x 与y 的相关系数为直线l 的斜率C.x 与y 的相关系数在0到1之间D.当n 为偶数时,分布在l 两侧的样本点的个数一定相同 【知识点:回归分析,相关系数】 解:A4.对两个变量x 和y 进行回归分析,得到一组样本数据: 1122(,)(,),,(,)n n x y x y x y L ,则下列说法中不正确的是( )A.由样本数据得到的回归方程ˆˆˆybx a =+必过样本点的中心(,)x y B.残差平方和越小的模型,拟合的效果越好C.用相关指数R 2来刻画回归效果,R 2的值越小,说明模型的拟合效果越好D.若变量y 和x 之间的相关系数r =-0.936 2,则变量y 和x 之间具有线性相关关系 【知识点:回归分析,相关系数】解: C 解析:R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好. 5.如图所示的是四个残差图,其中回归模型的拟合效果最好的是( )【知识点:残差图】解:B 残差图中,只有A 、B 是水平带状区域分布,且B 中残差点散点分布集中在更狭窄的范围内所以B 项中回归模型的拟合效果最好.6.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值为别为11,9,8.5.若在实际问题中,y 的最大取值是10,则x 的最大取值不能超过( ) A.16 B.17 C.15 D.12【知识点:回归方程】 解:C7.一家工厂对职工进行技能培训,收集数据如下:两变量的回归直线方程为__________,该函数模型的残差平方和为__________,相关指数为__________.【知识点:回归方程,残差,相关指数】 解:. 5.9817.0+=∧x y 34.126 957.0.8.若回归直线方程中的参数0=∧b ,则相关系数为 . 【知识点:相关系数】 解:0.9.关于x 与y 有如下数据为了对x ,y 两个变量进行统计分析,现有以下两种线性模型,甲:5.175.6+=∧x y ,乙:177+=∧x y ,则模型__________拟合效果更好.(填“甲”或“乙”) 【知识点:回归分析,样本点中心】 解:甲.10.关于x 与y 有以下数据:已知x 与y 线性相关,由最小二乘法得ˆb =6.5, (1)求y 关于x 的线性回归方程.(2)现有第二个线性模型:ˆy=7x +17,且相关指数R 2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好?请说明理由. 【知识点:回归分析,相关指数】解:(1)依题意设y 关于x 的线性回归方程为ˆˆ6.5yx a =+, 1(24568)=55x =⨯++++,1(3040605070)=505y =⨯++++∵ˆˆ6.5yx a =+经过样本点的中心(,)x y , ∴50=6.5×5+ˆa,∴ˆa =17.5, ∴y 与x 的线性回归方程为ˆy=6.5x +17.5. (2)由(1)的线性模型得ˆi i y y -与i y y -的关系如下表:所以52222221ˆ()(0.5)( 3.5)10( 6.5)0.5155i i i y y=-=-+-++-+=∑, 52222221()(20)(10)100201000ii y y =-=-+-+++=∑,所以52211521ˆ()155110.8451000()iii ii y yR y y ==-=-=-=-∑∑. 由于21R =0.845,R 2=0.82知21R >R 2, 所以(1)的线性模型拟合效果比较好.11.假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有关的统计资料如表所示.(1)求线性回归方程ˆˆˆybx a =+; (2)若相关指数R 2=0.9587,说明其含义; (3)估计使用年限为9年时,维修费用是多少? 【知识点:回归分析,相关指数】 解:(1)由已知数据制成表:由此可得x =4,y =5,121()()1.23()niii nii x x y y b x x ∧==--==-∑∑,ˆˆ0.08ay bx =-= ∴回归直线方程为ˆy=1.23x +0.08. (2)R 2=0.958 7,说明该设备的维修费用有95.87%由使用年限引起的.所以回归模型的拟合效果好.(3)回归直线方程为ˆy =1.23x +0.08,当x =9(年)时,ˆy =1.23×9+0.08=11.15(万元),即估计使用9年时维修费用是11.15万元.。

人教版高中数学选修2-3第三章统计案例3.1回归分析的基本思想及其初步应用教案6

人教版高中数学选修2-3第三章统计案例3.1回归分析的基本思想及其初步应用教案6

§3.1 独立性检验(1)教学目标(1)通过对典型案例的探究,了解独立性检验(只要求22⨯列联表)的基本思想、方法及初步应用;(2)经历由实际问题建立数学模型的过程,体会其基本方法.教学重点、难点:独立性检验的基本方法是重点.基本思想的领会及方法应用是难点.教学过程一.问题情境5月31日是世界无烟日。

有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手。

这些疾病与吸烟有关的结论是怎样得出的呢?我们看一下问题:1.某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?二.学生活动为了研究这个问题,(1)引导学生将上述数据用下表来表示:患病未患病合计吸烟37 183 220不吸烟21 274 295合计58 457 515(2)估计吸烟者与不吸烟者患病的可能性差异:在吸烟的人中,有3716.82%220≈的人患病,在不吸烟的人中,有217.12%295≈的人患病.问题:由上述结论能否得出患病与吸烟有关?把握有多大?三.建构数学1.独立性检验:(1)假设0H :患病与吸烟没有关系.若将表中“观测值”用字母表示,则得下表:患病未患病合计吸烟 ab b a +不吸烟 cd d c + 合计c a +d b +d c b a +++(近似的判断方法:设n a b c d =+++,如果0H 成立,则在吸烟的人中患病的比例与不吸烟的人中患病的比例应差不多,由此可得a ca b c d≈++,即()()0a c d c a b a d b c +≈+⇒-≈,因此,||ad bc -越小,患病与吸烟之间的关系越弱,否则,关系越强.)设n a b c d =+++,在假设0H 成立的条件下,可以通过求 “吸烟且患病”、“吸烟但未患病”、“不吸烟但患病”、“不吸烟且未患病”的概率(观测频率),将各种人群的估计人数用,,,,a b c d n 表示出来.例如:“吸烟且患病”的估计人数为()a b a cn P AB n n n ++⨯≈⨯⨯; “吸烟但未患病” 的估计人数为()a b b dn P AB n n n ++⨯≈⨯⨯; “不吸烟但患病”的估计人数为()c d a cn P AB n n n ++⨯≈⨯⨯; “不吸烟且未患病”的估计人数为()c d b dn P AB n n n++⨯≈⨯⨯. 如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论. (2)卡方统计量:为了消除样本对上式的影响,通常用卡方统计量(χ22()-=∑观测值预期值预期值)来进行估计.卡方χ2统计量公式:χ222a b a c a b b d a n b n n n n n a b a c a b b d n n n n n n ++++⎛⎫⎛⎫-⨯⨯-⨯⨯ ⎪ ⎪⎝⎭⎝⎭=+++++⨯⨯⨯⨯22c d a c c d b d c n d n n n n n c d a c c d b d n n n n n n++++⎛⎫⎛⎫-⨯⨯-⨯⨯ ⎪ ⎪⎝⎭⎝⎭++++++⨯⨯⨯⨯()()()()()2n ad bc a b c d a c b d -=++++(其中n a b c d =+++) 由此若0H 成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274a b c d ====代入计算得χ211.8634=,统计学中有明确的结论,在0H 成立的情况下,随机事件“2 6.635χ≥”发生的概率约为0.01,即2( 6.635)0.01P χ≥≈,也就是说,在0H 成立的情况下,对统计量χ2进行多次观测,观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H 不成立,即有99%的把握认为“患病与吸烟有关系”.象以上这种用2χ统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验. 说明:(1)估计吸烟者与不吸烟者患病的可能性差异是用频率估计概率,利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,观测数据,,,a b c d 取值越大,效果越好.在实际应用中,当,,,a b c d 均不小于5,近似的效果才可接受.(2)这里所说的“呼吸道疾病与吸烟有关系”是一种统计关系,这种关系是指“抽烟的人患呼吸道疾病的可能性(风险)更大”,而不是说“抽烟的人一定患呼吸道疾病”. (3)在假设0H 下统计量χ2应该很小,如果由观测数据计算得到χ2的观测值很大,则在一定程度上说明假设不合理(即统计量χ2越大,“两个分类变量有关系”的可能性就越大).2.独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A和类B(如吸烟与不吸烟),Ⅱ也有两类取值:类1和类2(如患呼吸道疾病与不患呼吸道疾病),得到如下表所示:Ⅱ类1类2合计Ⅰ类Aa b ba+类B c d dc+合计ca+db+dcba+++推断“Ⅰ和Ⅱ有关系”的步骤为:第一步,提出假设H:两个分类变量Ⅰ和Ⅱ没有关系;第二步,根据2×2列联表和公式计算χ2统计量;第三步,查对课本中临界值表,作出判断.3.独立性检验与反证法:反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;独立性检验(假设检验)原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立.四.数学运用1.例题:例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用?未感冒感冒合计使用血清258 242 500未使用血清216 284 500合计474 526 1000分析:在使用该种血清的人中,有24248.4%500=的人患过感冒;在没有使用该种血清的人中,有28456.8%500=的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.解:提出假设0H :感冒与是否使用该种血清没有关系.由列联表中的数据,求得221000(258284242216)7.075474526500500χ⨯⨯-⨯=≈⨯⨯⨯∵当0H 成立时,2 6.635χ≥的概率约为0.01,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.例2.为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?有效 无效 合计 口服 58 40 98 注射 64 31 95 合计12271193分析:在口服的病人中,有5859%98≈的人有效;在注射的病人中,有6467%95≈的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明. 解:提出假设0H :药的效果与给药方式没有关系.由列联表中的数据,求得22193(58314064) 1.3896 2.072122719895χ⨯⨯-⨯=≈<⨯⨯⨯当0H 成立时,2 1.3896χ≥的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H ,即不能作出药的效果与给药方式有关的结论.说明:如果观测值22.706χ≤,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“0H 成立”,即Ⅰ与Ⅱ没有关系. 2.练习:课本第91页 练习第1、2、3题. 五.回顾小结:1.独立性检验的思想方法及一般步骤;2.独立性检验与反证法的关系.六.课外作业:课本第93页习题3.1 第1、2、3题.。

人教版高中数学选修2-3第三章3.1回归分析的基本思想及其初步应用

人教版高中数学选修2-3第三章3.1回归分析的基本思想及其初步应用

导入新课在《数学3》中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为:画散点图求回归直线方程用直线方程进行预报提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?函数关系是一种确定性关系,而相关关系是一种非确定性关系.那么,这节课我们就学习对具有相关关系的两个变量进行统计分析的一种常用方法——回归分析.1.1回归分析的基本思想及其初步应用教学目标知识目标通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.了解回归模型和函数模型的区别.任何模型只能近似描述实际问题.了解残差分析和指标R2的含义.能力目标具有初步应用回归分析的能力.情感目标通过对回归分析的基本思想的学习,能够在现实生活中应用此思想.教学重难点(1)了解线性回归模型与函数模型的差异;(2)了解判断刻画模型拟合效果的方法-相关指数和残差分析.解释残差变量的含义,了解偏差平方和分解的思想.探究对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),我们知道回归直线y=bx+a 的斜率和截距的最小二乘估计分别为ˆˆˆn i i i=1n 2i i=1(x -x)(y -y)b =,(x-x)a=y -bx,∑∑其中n ni ii=1i=111x=x,y=y,(x,y) n n∑∑称为样本点的中心,你能推导出这两个计算公式吗?回归直线过样本点的中心从已经学过的知识我们知道,斜距和斜率分别是使aˆb ˆˆi i i i Q(α,β)=y -y=y -(βx +α)取最小时的值.由于α,β∑n 2i i i=1Q(α,β)=[y -βx -(y -βx)+(y -βx)-α]n 2i i i i i=12{[y -βx -(y -βx)]+2[y -βx -(y -βx)][(y -βx)-α]+[(y -βx)-α]}⨯=∑ni i i=1ni i i=1[y -βx -(y -βx)](y -βx -α) =(y -βx -α)[y -βx -(y -βx)]∑∑注意到n ni i i=1i=1=(y -βx -α)[y -βx -n(y -βx)]∑∑=(y -βx-α)[ny -n βx-n(y -βx)]=0,n n 2i i i i i=1i=12=[y -βx -(y -βx)]+2[y -βx -(y -βx)](y -βx-α)+n(y -βx-α),∑∑继续∑n22i i i=1Q(α,β)=[y -βx -(y -βx)]+n(y -βx -α),因此∑∑∑22nn n22i i i i i=1i=1i=1=β(x -x)-2β(x -x)(y -y)+(y -y)+n(y -βx-α)⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦∑∑∑∑∑∑2nn22i i i i n2i=1i=1i nn 22i=1i i i=1i=12ni i=1(x -x)(y -y)[(x -x)(y -y)]=n(y -βx -α)+(x -x)β--(x -x)(x -x) +(y -y)继续在上式中,后两项和无关,而前两项为非负数,因此要使Q 取得最小值,当且仅当前两项的值均为0,即有∑∑nii i=1n2ii=1(x-x)(y -y)β=(x-x)这正是我们所要推导的公式.α,β例题1从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.解答第一步:画散点图020406080150155160165170175180身高/cm体重/k g第二步:求回归方程第三步:代值计算探究身高为172c m的女大学生的体重一定是60.316kg 吗?如果不是,其原因是什么?计算器得:故线性回归方程:当x=172时,0.849.b-85.712,a==ˆˆ85.712.-0.849x y=ˆˆy0.849172-85.712 60.316(kg)=⨯=020406080150155160165170175180身高/cm体重/k g显然,身高172cm 的女大学生的体重不一定是60.316kg ,但一般可以认为她的体重在60.316kg 左右,下图中的样本点和回归直线的相互位置说明了这一点.由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用线性回归模型y=bx+a+e来表示,这里a和b为模型的未知参数,e 是y与bx+a之间的误差.通常e为随机变量,称为随机误差.它的均值E(e)=0,方差D(e)=σ2>0,这样线性回归的完整表达式为y=bx+a+eE(e)=0,D(e)=σ2.注意存在误差的原因(1)随机误差,其大小取决于随机误差的方差. 在线性回归模型中,随机误差e 的方差 2越小,用bx+a 预报真实值y 的精度越高.(2)和为斜率和截距的估计值,它们与真实值a 和b 之间也存在误差.b ˆa ˆ要牢记!探究在线性回归模型中,e 是用bx+a 预报真实值y 的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?在实际应用中,我们用回归方程a ˆxb ˆyˆ+=中的估计bx+a. 由于随机误差e=y-(bx+a),所以是e 的估计值. 对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )yˆy ˆ-y eˆ=而言,它们的随机误差为e i =y i -bx i -a ,i=1,2,…,n ,其估计值为n,1,,2,...,i a ˆx b ˆy y ˆy e ˆi i i i =--=-=i eˆ称为相应于点(x i ,y i )的残差(residual).要牢记!思考如何发现数据中的错误?如何衡量模型的拟合效果?(1)可以利用残差图来分析残差特性;(2)可以利用.ˆˆnn22i i i2i =1i =1nn 22i i i =1i =1(y -y )(y -y)R =1-=(y -y)(y -y)∑∑∑∑来刻画回归的效果.何为残差图?残差图作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.编号12345671020304050607080-10-20-30-40-50-6090100要牢记!对R 2的理解(1)在含有一个解释变量的线性模型中,R 2恰好等于相关系数r 的平方.(2)对于已经获取的样本数据,R 2表达式中的为确定的数.因此R 2越大,意味着残差平方和越小,即模型的拟合效果越好;反之,越差.∑=n1i 2i )y -(y ∑=n1i 2i)y -(y要牢记!用身高预报体重时,需要注意以下问题(1)回归方程只适用于我们所研究的样本总体;(2)我们所建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出解释变量和预报变量的散点图,观察它们之间的关系;(3)由经验确定回归方程的类型;(4)按一定规则估计回归方程中的参数;(5)得出结果后分析残差图是否有异常,若有异常,检查数据是否有误,或模型是否合适等.要牢记!为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型和试比较哪一个模型拟合的效果更好.例题2关于X 与Y 有如下数据:x 24568y3040605070ˆy=6.5x +17.5ˆy =7x +17分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.ˆ∑∑52i i 2i=1152ii=1(y -y )155R =1-=1-=0.8451000(y-y)22R =1-ˆ∑∑52i i i=152i i=1(y -y )180=1-=0.821000(y -y),84.5%>82%,所以甲选用的模型拟合效果较好.解答课堂小结1.数学知识(1)建立回归模型及残差图分析的基本步骤;(2)不同模型拟合效果的比较方法;(3)相关指数和残差的分析.2. 数学思想数形结合的思想,化归思想及整体思想.3.数学方法数形结合法,转化法,换元法.高考链接1. (2007年浙江)某校有学生2000人,其中高三学生500人,为了了解学生身体素质情况,采用按年级分层抽样的方法,从该学生中抽取一个200人的样本,则样本中高三学生的人数为_________.解析:本题考查抽样的方法. 由已知抽样比200/2000=1/10,故样本中高三学生数为500*(1/10)=50.2.(2007年广东)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.x3456y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法y=bx+a .求出y关于x的线性回归方程ˆˆ(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?解析:(1)如下图01234567012345产量能耗66.54.5645342.53(2)y x in1i i =⨯+⨯+⨯+⨯=∑= 4.546543x =+++= 3.544.5432.5y =+++=866543i2222n1i 2x =+++=∑=ˆ266.5-4 4.5 3.566.5-63b ===0.786-4 4.586-81⨯⨯⨯ˆˆa=Y-bX =3.5-0.7 4.5=0.35⨯故线性回归方程为y=0.7x+0.35.(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35.课堂练习1.选择(1)下列说法中正确的有:()C①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(由函数关系),在散点图上各个点均在一条直线上A. ①②B. ②③C. ①③D. ①②③解析:若r>0,表示两个相关变量正相关,x增大时,y也相应增大,故①正确. r<0,表示两个变量负相关,x增大时,y也相应减小,故②错误. |r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故③正确.(2)对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合A效果最好的模型是()A.模型Ⅰ的相关系数r为0.98B.模型Ⅱ的相关系数r为0.80C.模型Ⅲ的相关系数r为0.50D.模型Ⅳ的相关系数r为0.25解析:根据相关系数的定义和计算公式可知,|r|≦1,且|r|越接近于1,相关程度越大,拟合效果越好;|r|越接近于0,相关程度越小,拟合效果越弱.(3)对有线性相关关系的两个变量建立的回归直线方程中,回归系数()A.可以小于0 B.小于0 C.能等于0 D.只能等于0a xb y ˆˆˆ+=b ˆ解析: 时,得r=0,这时不具有线性相关性,但能大于0,也能小于0.ˆb0=ˆbA2.解答题(1)现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试中的数学成绩(y),数据如下:学生号12345678910 x12010811710410311010410599108 y84648468696869465771试问这10个学生的两次数学考试成绩是否具有显著性线性相关关系?查表得自由度为10-2=8相应的相关关系临界值由知,两次数学考试成绩有显著性的线性相关关系.∑==101i 2i116584x∑==101i 2i47384y107.8x =68y =73796yx 101i ii∑==易得则相关系数为解答227379610107.868r 0.7506(11658410107.8)(473841068)-⨯⨯=≈-⨯-⨯0.05r 0.6021 =0.05r r >(2)观察两相关量得如下数据:x-1-2-3-4-553421 y-9-7-5-3-115379求两变量间的回归方程.i 12345678910x i -1-2-3-4-553421y i -9-7-5-3-115379x i y i 9141512551512149解答列表:∑∑∑10101022ii iii=1i=1i=1x =0,y =0,=110,=330,=110.y y xx∑∑10i i i=11022i i=1-10x y 110-100b ===1110-100-10y x x x ⨯⨯⨯a =y -bx =0-b 0=0⨯ˆy=x .所求回归直线方程为习题解答1. 画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.2. 分析残差可以帮助我们解决以下几个问题:(1)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错;(2)分析残差图可以发现模型选择是否合适.3.(1)解释变量和预报变量的关系是线性函数关系;(2)R2=1.。

人教版新课标高中数学精品系列 选修2-3 3.1回归分析的基本思想及其初步应用

人教版新课标高中数学精品系列 选修2-3  3.1回归分析的基本思想及其初步应用

在必修模块中 , 我们学习过关于抽样、 用 样本估计总体、线性回 归等基本知识.本 章中 , 我们将在此基础上 , 通过对典型例案 的讨论, 进一步讨论线性回归分 析方法及 其应用, 并初步了解独立性检验 的基本思 想, 认识统计方法在决策中 的作用 .
3.1回归分析的基本思想及其初步应用
我们知道 ,函数关系是一种确定 性关系 , 而相关关系是一种非确 定性关系 .回归分 析(regression analysis ) 是对具有相关关 系的两个变量进行统计 分 析的一种常用 方法.在《 数学3 》 中, 我们对两个具有线 性相关关系的变量利用回归分析 的方法 进行了研究, 其步骤为画散点图, 求回归 直线方程 , 并用回归直线方程进行预报.
作散点图如下:不难看出x,y成线性相关。
150 100 系列1 50 0 0 50 100 150
解(1)列出下表:
i 1 2 3 4 5 6 7 8 9 10
xi
10
20
30
40
50
60
70
80
90
100
yi
62
68
75
81
89
95
102
108
115
122
xiyi
620
1360
2250
3240
4450
简 单 随 机 抽 样
分 层 抽 样
系 统 抽 样
用样本 的频率 分布估 计总体 分布
用样本 数字特 征估计 总体数 字特征
线 性 回 归 分 析
统计的基本思想
实际 抽 样
样本
y = f(x)
模 分 析 拟
y = f(x)
y = f(x)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章、统计案例3.1回归分析的基本思想及其初步应用(共计4课时) 授课类型:新授课一、教学内容与教学对象分析学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。

二、学习目标1、知识与技能通过本节的学习,了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模型的基本步骤,并对具体问题进行回归分析,解决实际应用问题。

2、过程与方法 本节的学习,应该让学生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想,从散点图中点的分布上我们发现直接求回归直线方程存在明显的不足,从中引导学生去发现解决问题的新思路—进行回归分析,进而介绍残差分析的方法和利用R 的平方来表示解释变量对于预报变量变化的贡献率,从中选择较为合理的回归方程,最后是建立回归模型基本步骤。

3、情感、态度与价值观 通过本节课的学习,首先让显示了解回归分析的必要性和回归分析的基本思想,明确回归分析的基本方法和基本步骤,培养我们利用整体的观点和互相联系的观点,来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心。

加强与现实生活的联系,以科学的态度评价两个变量的相关系。

教学中适当地增加学生合作与交流的机会,多从实际生活中找出例子,使学生在学习的同时。

体会与他人合作的重要性,理解处理问题的方法与结论的联系,形成实事求是的严谨的治学态度和锲而不舍的求学精神。

培养学生运用所学知识,解决实际问题的能力。

三、教学重点、难点教学重点:熟练掌握回归分析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。

教学难点:求回归系数 a , b ;相关指数的计算、残差分析;了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。

四、教学策略:教学方法:诱思探究教学法学习方法:自主探究、观察发现、合作交流、归纳总结。

教学手段:多媒体辅助教学 五、教学过程: (一)、复习引入:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。

(二)、新课:探究:对于一组具有线性相关关系的数据:(11,x y ) , (22,x y ) ,…, (,n n x y ),我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:$ay bx =-$ (1) 121()()()niii nii x x y y bx x ==--=-∑∑$ (2)其中1111,n ni i i i x x y y n n ====∑∑,(,x y )成为样本点的中心.注:回归直线过样本中心.你能推导出这两个计算公式吗?从我们已经学过的知识知道,截距$a和斜率b $分别是使 21(,)()niii Q y bx a αβ==--∑取到最小值时,αβ的值. 由于 21(,)[()()]niii Q y x y x y x αββββα==---+--∑221{[()]2[()][()][()]}ni i i i i y x y x y x y x y x y x βββββαβα==---+---⨯--+--∑2211[()]2[()]()[()]nni i i i i i y x y x y x y x y x n y x βββββαβα===---+---⨯--+--∑∑注意到1[()]()niii y x y x y x βββα=-----∑1()[()]ni i i y x y x y x βαββ==-----∑11()[()]n ni i i i y x y x n y x βαββ===-----∑∑()[()]0y x n y n x n y x βαββ=-----=.221(,)[()]()ni i i Q y x y x n y x αββββα==---+--∑2222111()2()()()()nn nii i i i i i x x x x y y y y n y x βββα====----+-+--∑∑∑2222211221111()()[()()]()()[]()()()nniii i nni i i i nni i iii i x x y y x x y y n y x x x y y x x x x βαβ======----=--+----+---∑∑∑∑∑∑ 在上式中,后两项和,αβ无关,而前两项为非负数,因此要使Q 取得最小值,当且仅当前两项的值均为0,即有1221niii nii x y nx yy x xnxβαβ==⋅-⋅==--∑∑,.这正是我们所要推导的公式.下面我们从另一个角度来推导的公式. 人教A 版选修2-2P37习题1.4A 组第4题:用测量工具测量某物体的长度,由于工具的精度以及测量技术的原因,测得n 个数据12,,,n a a a L .证明:用这个数据的平均值11ni i x a n ==∑表示这个物体的长度,能使这n 个数据的方差211()()ni i f x x a n ==-∑最小.思考:这个结果说明了什么?通过这个问题,你能说明最小二乘法的基本原理吗?证明:由于211()()n i i f x x a n ==-∑,所以'12()()ni i f x x a n ==-∑,令'()0f x =, 得11ni i x a n ==∑。

可以得到, 11ni i x a n ==∑是函数()f x 的极小值点,也是最小值点.这个结果说明,用n 个数据的平均值11ni i a n =∑表示这个物体的长度是合理的,这就是最小二乘法的基本原理.由最小二乘法的基本原理即得定理 设x R ∈,12nx x x x n+++=L ,则2222222121211[()()()][()()()]n n x x x x x x x x x x x x s n n-+-++-≥-+-++-=L L (*) 当且仅当12nx x x x x n+++==L 时取等号.(*)式说明, 12nx x x x n+++=L 是任何一个实数x 与12,,,n x x x L 的差的平方的平均数中最小的数.从而说明了方差具有最小性,也即定义标准差的合理性.下面借助(*)式求2222211)()()(a bx y a bx y a bx y Q n n --++--+--=Λ的最小值.1122()()()n n y bx y bx y bx n-+-++-L1212n n y y y x x x b y b x n n++++++=-⋅=-⋅L L ,由(*)式知,2221122[()][()][()]n n Q a y bx a y bx a y bx =--+--++--L2221122[()()][()()][()()]n n y b x y bx y b x y bx y b x y bx ≥-⋅--+-⋅--++-⋅--L 2221122[()()][()()][()()]n n x x b y y x x b y y x x b y y =---+---++---L222111()2()()()nnni i i i i i i x x b x x y y b y y ====----+-∑∑∑222211221111()()[()()]()[]()()()nniii i nni i i i nni i iii i x x y y x x y y x x b y y x x x x ======----=--+----∑∑∑∑∑∑222211221111()()[()()]()[]()()()nn iii i nni i i i nni i iii i x x y y x x y y x x b y y x x x x ======----=--+----∑∑∑∑∑∑221211[()()]()()n i i ni i ni ii x x y y y y x x ===--≥---∑∑∑22211121()()[()()]()nnniii i i i i nii x x y y x x y y x x ====-----=-∑∑∑∑当且仅当a y b x =-⋅,且1122211()()()n niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑时, Q 达到最小值22211121()()[()()]()n nniii i i i i n ii x x y y x x y y x x ====------∑∑∑∑.由此得到,⎪⎪⎩⎪⎪⎨⎧-=-⋅-⋅=---=∑∑∑∑====.,x b y a xn xyx n y xx x y y x x b ni ini i in i i ni i i 2121121)())((其中b 是回归直线的斜率,a是截距.借助||||||||||||a b a b a b -≤+≤+r r r r r r和配方法,我们给出了人教A 版必修3的第二章统计第三节变量间的相关关系中回归直线方程y bx a =+的一个合理的解释.1、回归分析的基本步骤:(1) 画出两个变量的散点图. (2) 求回归直线方程.(3) 用回归直线方程进行预报.下面我们通过案例,进一步学习回归分析的基本思想及其应用. 2、举例:例1编号 123456 7 8 身高/cm 165 165 157 170 175 165155 170 体重/kg48 57 50 54 64614359求根据女大学生的身高预报体重的回归方程,并预报一名身高为 172 cm 的女大学生的体重.解:由于问题中要求根据身高预报体重,因此选取身高为自变量 x ,体重为因变量 y . 作散点图(图3 . 1 一 1)从图3. 1一1 中可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程来近似刻画它们之间的关系.根据探究中的公式(1)和(2 ) ,可以得到ˆˆ0.849,85.712ba ==-. 于是得到回归方程$084985.712y x =-.因此,对于身高172 cm 的女大学生,由回归方程可以预报其体重为$084917285.71260.316y =⨯-= ( kg ) .ˆ0.849b=是斜率的估计值,说明身高 x 每增加1个单位时,体重y 就增加0.849 位,这表明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱?在必修 3 中,我们介绍了用相关系数;来衡量两个变量之间线性相关关系的方法.本相关系数的具体计算公式为()()12211()()niii n niii i x x y y r x x y y ===--=--∑∑∑当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常,当r 的绝对值大于0. 75 时认为两个变量有很强的线性相关关系.在本例中,可以计算出r =0. 798.这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的.显然,身高172cm 的女大学生的体重不一定是60. 316 kg ,但一般可以认为她的体重接近于60 . 316 kg .图3 . 1 一 2 中的样本点和回归直线的相互位置说明了这一点.由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用下面的线性回归模型来表示:y bx a e =++, ( 3 )这里 a 和 b 为模型的未知参数,e 是 y 与%y bx a =+之间的误差.通常e 为随机变量,称为随机误差,它的均值 E (e )=0,方差D (e )=2()D e σ=>0 .这样线性回归模型的完整表达式为:2,()0,().y bx a e E e D e σ=++⎧⎨==⎩ (4) 在线性回归模型(4)中,随机误差e 的方差护越小,通过回归直线%y bx a =+ (5)预报真实值y 的精度越高.随机误差是引起预报值$y 与真实值 y 之间的误差的原因之一,大小取决于随机误差的方差.另一方面,由于公式(1)和(2)中$a和b $为截距和斜率的估计值,它们与真实值a 和b 之间也存在误差,这种误差是引起预报值$y 与真实值y 之间误差的另一个原因.思考:产生随机误差项e 的原因是什么?一个人的体重值除了受身高的影响外,还受许多其他因素的影响.例如饮食习惯、是否喜欢运动、度量误差等.事实上,我们无法知道身高和体重之间的确切关系是什么,这里只是利用线性回归方程来近似这种关系.这种近似以及上面提到的影响因素都是产生随机误差 e 的原因.因为随机误差是随机变量,所以可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为0,因此可以用方差2σ来衡量随机误差的大小. 为了衡量预报的精度,需要估计护的值.一个自然的想法是通过样本方差来估计总体方差.如何得到随机变量e 的样本呢?由于模型(3)或(4)中的e 隐含在预报变量 y 中,我们无法精确地把它从 y 中分离出来,因此也就无法得到随机变量e 的样本.解决问题的途径是通过样本的估计值来估计2σ.根据截距和斜率的估计公式(1)和(2 ) , 可以建立回归方程%y bx a =+,因此y 是(5)中%y 的估计量.由于随机误差%e y y =-,所以e y y =-$是e 的估计量.对于样本点(11,x y ) , (22,x y ) ,…, (,n n x y ) 而言,相应于它们的随机误差为,1,2,,i i i i i e y y y bx a i n =-=--=L ,其估计值为µµ$,1,2,,i i i i ie y y y bx a i n =-=--=$L , µie 称为相应于点(,)i i x y 的残差(residual ).类比样本方差估计总体方差的思想,可以用¶µ$22111(,)(2)22n i i e Q a b n n n σ===>--∑$ 作为2σ的估计量, 其中$a和b $由公式(1) (2)给出,Q ($a ,b $)称为残差平方和(residual sum of squares ).可以用¶2σ衡量回归方程的预报精度.通常,¶2σ越小,预报精度越高. 在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差µµµ12,,,n e e e L来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.表3一 2 列出了女大学生身高和体重的原始数据以及相应的残差数据.我们可以利用图形来分析残差特性作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.图 3 . 1 一 3 是以样本编号为横坐标的残差图.从图3 . 1 一 3 中可以看出,第 1 个样本点和第 6 个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.另外,我们还可以用相关指数2R 来刻画回归的效果,其计算公式是:µ22121()1()niii nii y y R y y ==-=--∑∑显然,2R 取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,2R 表示解释变量对于预报变量变化的贡献率. 2R 越接近于1,表示回归的效果越好(因为2R 越接近于1,表示解释变量和预报变量的线性相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析,也可以通过比较几个2R ,选择2R 大的模型作为这组数据的模型.在例 1 中,2R =0. 64 ,表明“女大学生的身高解释了64 %的体重变化”,或者说“女大学生的体重差异有 64 %是由身高引起的”.用身高预报体重时,需要注意下列问题:1.回归方程只适用于我们所研究的样本的总体.例如,不能用女大学生的身高和体重之间的回归方程,描述女运动员的身高和体重之间的关系.同样,不能用生长在南方多雨地区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高与直径之间的关系.2.我们所建立的回归方程一般都有时间性.例如,不能用 20 世纪 80 年代的身高体重数据所建立的回归方程,描述现在的身高和体重之间的关系.3.样本取值的范围会影响回归方程的适用范围.例如,我们的回归方程是由女大学生身高和体重数据建立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当(即在回归方程中,解释变量 x 的样本的取值范围为[155cm,170cm 〕 ,而用这个方程计算 x-70cm 时的y 值,显然不合适.)4.不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等) ;(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程 y=bx+a ) ;(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的探究:方案1(学生实施):(1)选择变量,画散点图。

相关文档
最新文档