第八章 §8.2 一元线性回归模型及其应用

合集下载

8.2 一元线性回归模型及其应用

8.2 一元线性回归模型及其应用

2500 2000 1500 1000 500
0
.
.............................................................................................112-55050000000 ... .
i 1
n
n
(xi x)2 ( yi y)2
i 1
i 1
n
xi yi nx y
i 1
n
(
xi2
2
nx )(
n
yi2
2
ny )
i 1
i 1
当r [0.75,1], 表明两个变量正相关很强;
当r [1, 0.75], 表明两个变量负相关很强;
当r [0.25, 0.25], 表明两个变量相关性较弱。
•几点坐说标明纵:轴为残差变量,横轴可以有不同的选择; 的错第•误一。个如若样果模本数点据型和采第选集6有个择错样的误本,点正就的确予残以差,纠比正残较,大差然,后图需再要中重确新认的利在点用采线集应性过该回程归中分模是型布否拟有在合人数以为 据;如果数横据轴采集为没心有错的误带,则形需区要寻域找其;他的原因。 样的另•带外状,区对残域差于的点宽远比度较离越均窄横匀,地轴说落明的在模水点型平拟的,合带精要状度区特越域高别中,,注回说归意明方选。程用的的预模报型精计度较越合高适。,这
的估计值eˆi yi yˆi程称相应残差 n Q(aˆ,bˆ)= ( yi yˆi )2为残差平方和。 i1
3.相关指数R2
n
(yi - yi)2
R2= 1-Fra biblioteki=1 n
(yi - y)2
i=1
R2越大 模型越

8.2一元线性回归模型及其应用(2)课件-2022-2023学年高二下学期数学人教A版(2019)选

8.2一元线性回归模型及其应用(2)课件-2022-2023学年高二下学期数学人教A版(2019)选

i1
i1
n
n
[( yi y) b(xi x)][( y bx) a] ( y bx a) [( yi y) b(xi x)]
i1
i1
n
n
( y bx a)( ( yi y) b (xi x))
i1
i1
( y bx a)[(n y n y) b(nx nx)] 0
i1
i1
i1
i1
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
n
( xi x)( yi y)
b i1 n
( xi x)2
i 1
新知探索
3.最小二乘法
n
n
(xi x)( yi y)
xi yi nx y
b i1
n
(xi x)2

i 1
ˆy bˆx
新知探索
问题2:依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y 关于父亲身高x的经验回归方程.
ˆy 0.839x 28.957
1). 当x=176时,y 177 ,如果一位父亲身高为176cm,他儿子长大后
身高一定能长到177cm吗?为什么?
儿子的身高不一定会是177cm,这是因为还有其他影响儿子 身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲 的身高不能完全决定儿子的身高,不过,我们可以作出推测,当 父亲的身高为176cm时,儿子身高一般在177cm左右.
n
因此可用 yi -(bxi a)来刻画各样本观测数据与直线y=bx+a的整体接近程度. i 1
新知探索
n
| yi (bxi a) |
i 1
n
残差平方和:Q(a,b) yi (bxi a)2 i1

8.2 一元线性回归模型及其应用教案

8.2 一元线性回归模型及其应用教案

8.2 一元线性回归模型及其应用一、教学目标知识与技能从相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤.过程与方法在发现直接求回归直线方程存在缺陷的基础上,引导学生去发现解决问题的新思路——进行回归分析,进而介绍残差分析的方法和利用R2来表示解释变量对于预报变量变化的贡献率.情感、态度与价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,掌握处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识解决实际问题的能力.教学中适当地利用学生的合作与交流,使学生在学习的同时,体会与他人合作的重要性.二、教学重难点教学重点:从残差分析、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;教学难点:了解评价回归效果的两个统计量:相关指数、残差和残差平方和.三、教学过程(一)新课导入(幻灯片)上表是上一节课我们从某大学选取8名女大学生其身高和体重数据组成的数据表,在上一节课中我们通过数据建立了回归直线方程,并根据方程预测了身高为172 cm的女大学生的体重.当时,我们提到根据回归直线方程求得的体重数据,仅是一个估计值,其与真实值之间存在着误差,为了综合分析身高和体重的关系,我们引入了线性回归模型y=bx+a+e 来表示两变量之间的关系,其中e为随机变量,又称随机误差.线性回归模型y=bx+a+e 增加了随机误差项e,因变量y的值由自变量x和随机误差e共同确定.假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上.但是,在图中,数据点并没有完全落在回归直线上.这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了,即自变量x 只能解释部分y 的变化. 同学们考虑一下,随机变量e 的均值是多少?方差又是多少? 活动设计:学生思考回答问题.设计意图:说明研究随机误差e 的必要性,通过研究随机误差e 可以分析预报值的可信度. 提出问题:既然可以用随机变量e 的方差来衡量随机误差的大小,即通过方差σ2来刻画预报变量(体重)的变化在多大程度上与随机误差有关,那么如何获得方差σ2呢? 活动结果:可以采用抽样统计的思想,通过随机变量e 的样本来估计σ2的大小. 设计目的:复习抽样统计思想,以便通过随机变量e 的样本来估计总体.探究新知提出问题:既然e 表示了除解释变量以外其他各种影响预报值的因素带来的误差,那么如何获得e 的样本来计算σ2呢? 学生活动:分组合作讨论交流.学情预测:由函数模型y ^=b ^x +a ^和回归模型y =bx +a +e 可知e =y -y ^,这样根据图表中女大学生的身高求出预报值,再与真实值作差,即可求得e 的一个估计值.教师:由于在计算回归直线方程时,利用公式求得的b ^和a ^为斜率和截距的估计值,它们与真实值a 和b 之间存在误差,因此y ^是估计值,所以e ^=y -y ^也是一个估计值. 由上可知,对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…n ,称其估计值e ^i =y i -y ^i 为相应于点(x i ,y i )的残差.将所有残差的平方加起来,这个和称作残差平方和. 类比样本方差估计总体方差的思想,可以用 作为σ2的估计量,通常,σ^2越小,预报精度越高.这样,当我们求得回归直线方程后,可以通过残差来判断模型拟合程度的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析. 设计目的:通过问题诱思,引入残差概念.(二)探索新知提出问题:对照女大学生的身高和体重的原始数据,结合求出的回归直线方程,求出相应的残差数据. 活动结果:提出问题:根据表格中的数据,以样本编号为横坐标,残差值为纵坐标,做出散点图(这样的散点图称作残差图).学生活动:分组合作,共同完成. 活动结果:残差图提出问题:观察上面的残差图,你认为哪几个样本点在采集时可能存在人为的错误?为什么?学生活动:分组讨论.活动结果:第一个和第六个样本点在采集过程中可能存在错误,因为其他的样本点基本都集中在一个区域内,只有这两个样本点的残差比较大,相对其他样本点来说,分布得较为分散. 提出问题:如何从残差图来判断模型的拟合程度? 学生活动:独立思考也可相互讨论. 活动结果:因为σ^2越小,预报精度越高,即模型的拟合程度越高,而σ^ 2越小,e ^的取值越集中,故若残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,且带状区域的宽度越窄,说明拟合精度越高,回归直线的预报精度越高.教师:在统计学上,人们经常用相关指数R 2来刻画回归的效果,其计算公式是:相关指数提出问题:分析上面计算相关指数R 2的公式,如何根据R 2来判断模型的拟合效果?22121()1()nii i n ii yy R yy ==-=--∑∑学生活动:独立思考也可相互讨论,教师加以适当的引导提示.活动结果:R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.提出问题:在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近1,表示回归的效果越好,即解释变量和预报变量的线性相关性越强,试计算关于女大学生身高与体重问题中的相关指数R2.提出问题:结合我们刚学习的概念,现在能否将建立回归模型的步骤补充完整?学生活动:讨论交流,合作完成.活动结果:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性,等等).若存在异常,则检查数据是否有误,或模型是否合适等.设计意图:设计问题,让学生讨论分析,得出使用回归方程进行预报需注意的问题,并让学生完善建立回归模型的步骤.在这个过程中,教师不宜做太多引导,要放手给学生,让学生讨论,充分参与进来.运用新知例1 一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?解:(1)根据表中数据作出散点图如下:散点图由散点图可知变量之间具有线性相关关系,可以通过求线性回归方程来拟合数据. 根据公式可求得加工时间对零件数的线性回归方程为y ^=0.668x +54.96. 残差数据如下表:(2)画出残差图残差图由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好,但需注意,由残差图也可以看出,第4个样本点和第5个样本点残差较大,需要确认在采集这两个样本点的过程中是否有人为的错误.点评:由散点图判断两个变量的线性相关关系,误差较大,利用残差图可以较好地评价模型的拟合程度,并能发现样本点中的可疑数据. 变练演编例2 在一段时间内,某种商品的价格x (元)和需求量y (件)之间的一组数据为:求出y 对x 的回归方程,并说明拟合效果的好坏. 解:作出散点图:从作出的散点图可以看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得x =18,y =45.4,由计算公式得b ^=-2.35,a ^=y -b ^x =87.7. 故y 对x 的回归方程为y ^=-2.35x +87.7,列表:y i -y ^i 1.2 -0.1 -2.4 0.3 1 y i -y10.64.6-2.4-4.4-8.4相关指数R 2≈0.946.因为0.964很接近1,所以该模型的拟合效果很好.变式1:若要分析是否在上述样本的采集过程中存在可疑数据,应如何分析? 活动设计:学生分组讨论,回顾课本解答问题. 活动成果:可以画出残差图来进行分析.变式2:既然利用残差图和相关指数都能够评价回归模型的拟合效果,能否总结一下两种方法各自的特点?活动成果:利用残差图可以直观展示拟合的效果,而且还可以发现样本数据中的可疑数据;而相关指数是把对拟合效果的评价转换为数值大小的判断,易于量化处理,并能在数量上表现解释变量对于预报变量变化的贡献率.设计意图:进一步熟悉判断拟合效果的方法以及各自的特点. 非线性回归分析2.现收集了一只红铃虫的产卵数y 和温度xoC 之间的7组观测数据列于下表:1)试建立产卵数y 与温度x 之间的回归方程;并预测温度为28oC 时产卵数目。

一元线性回归模型及其应用

一元线性回归模型及其应用

题型二 一元线性回归模型的应用
[探究发现]
(1)残差平方和与R2有怎样的关系?
n
yi-^yi2
i=1
提示:R2=1-
,即残差平方和越小,R2 越大.
n
yi--y 2
i=1
(2)R2的大小对模型的拟合效果有怎样的影响?
提示:R2越大,说明残差平方和越小,即模型的拟合效果越好.
[学透用活] [典例2] 假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5 组数据如下:
解:(1) x =16×(8+8.2+8.4+8.6+8.8+9)=8.5, y =16×(90+84+83+80+75+68)=80, ^a= y +20 x =80+20×8.5=250, 所以经验回归方程为^y=-20x+250. (2)工厂获得的利润 z=(x-4)y=-20x2+330x-1 000, 由二次函数知识可知当 x=343时,zmax=361.25(元). 故该产品的单价应定为 8.25 元.
2.一元线性回归模型参数的最小二乘估计 (1)经验回归方程:
对于一组具有线性相关关系的成对样本数据(x1,y1),(x2,y2),…,(xn,yn),
n
xi--x yi--y
n xiyi-n-x -y
i=1
i=1
由最小二乘法得^b=


n
xi--x 2
n x2i -n-x 2
i=1
i=1
^a=-y -^b-x .
(二)基本知能小试
1.判断正误
(1)在一元线性回归模型中,e 是 bx+a 预报真实值 y 的随机误差,它是一个
可观测的量.
()
(2)用最小二乘法求出的^b可能是正的,也可能是负的. (3)残差平方和越大,线性回归模型的拟合效果越好. (4)经验回归方程^y=^bx+^a必过点(-x ,-y =1 076.2.

2024春高中数学第8章成对数据的统计分析8-2一元线性回归模型及其应用8-2-1一元线性回归模型8

2024春高中数学第8章成对数据的统计分析8-2一元线性回归模型及其应用8-2-1一元线性回归模型8
Ƹ
(2)通过(1)中的方程,求出y关于x的回归方程.
[解]
=1.2t-1.4,代入t=x-2
Ƹ
017,z=y-5,
得-5=1.2(x-2

017)-1.4,
即=1.2x-2

416.8.
故y关于x的经验回归方程为=1.2x-2

416.8.
◆ 类型3 利用经验回归方程进行预测
【例3】 (源自湘教版教材)一个车间为了估计加工某种新型零件所
(√ )
(2)经验回归方程最能代表观测值x,y之间的线性关系,且回归直线
过样本点的中心(,
ҧ ).

(√ )
(3)求经验回归方程前可以不进行相关性检验.
( × )
(4)利用经验回归方程求出的值是准确值.
( × )

①④
2.下列有关经验回归方程=
ො +
叙述正确的是______(填序号).
位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并
由调查数据得到y对x的经验回归方程:=0.254x+0.321.由经验回

归方程可知,家庭年收入每增加1万元,年饮食支出平均增加
0.254
________万元.
0.254
[由于=0.254x+0.321知,当x增加1万元时,年饮食支出y增

①反映与x之间的函数关系;

②反映与x之间的函数关系;
③表示与x之间不确定关系;

④表示最接近与x之间真实关系的一条直线.
①④

[=
ො +
表示

与x之间的函数关系,而不是y与x之间的函数

关系,但它反映的关系最接近y与x之间的真实关系,故①④正确.]

新教材2023版高中数学第八章成对数据的统计分析8.2一元线性回归模型及其应用课件

新教材2023版高中数学第八章成对数据的统计分析8.2一元线性回归模型及其应用课件

巩固训练1 (1)为了解儿子身高与其父亲身高的关系,随机抽取5对 父子的身高数据如下:
父亲身高x/cm 174 176 176 176 178 儿子身高y/cm 175 175 176 177 177
则y对x的经验回归方程为( ) A.yො=x-1 B.yො=x+1 C.yො=88+12x D.yො=176
教材要点
要点一 一元线性回归模型
我们称ቊE
Y e
= bx + a = 0,D
+ e
e=,σ2为Y关于x的一元线性回归模型❶,其中
Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未 知参数,a称为___截__距___参数,b称为___斜__率___参数;e是Y与bx+a之 间的_随__机_误__差__.
2.某商品销售量y(件)与销售价格x(元/件)负相关,则其经验回归方 程可能是( )
A.yො=-10x+200 B.yො=10x+200 C.yො=-10x-200 D.yො=10x-200
答案:A
解析:∵y与x负相关,∴排除B,D,又∵C项中x>0时,yො <0不合题意,∴C 错.故选A.
3.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选 择了4种不同模型,计算可得它们的R2分别如下表:
8.2 一元线性回归模型及其应用
新知初探·课前预习
题型探究·课堂解透
课标解读 1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的 统计意义. 2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计 方法,会使用相关的统计软件. 3.针对实际问题,会用一元线性回归模型进行预测.
新知初探·课前预习
解析:令x=15,所以yො=0.76×15+0.4=11.8.

第八章 成对数据的统计分析-8.2一元线性回归模型及其应用-人A版(2019)数学-选择性必修第三册

第八章 成对数据的统计分析-8.2一元线性回归模型及其应用-人A版(2019)数学-选择性必修第三册
8.2一元线性回归模型及其应用
通过前面的学习我们已经了解到,根据成对样本数据的散 点图和样本相关系数,可以推断两个变量是否存在相关关系、 是正相关还是负相关,以及线性相关程度的强弱等.
思考:是否可以通过建立适当的统计模型来刻画两个变量之 间的相关关系?
课标要求
1.能根据给出的线性回归方程系数公式建立线性回归方程.2.了解随机 误差、残差、残差图的概念.3.会通过分析残差判断线性回归模型的拟 合效果.4.了解常见的非线性回归模型转化为线性回归模型的方法.
素养要求
1.通过对线性回归的分析,培养数据分析的素养. 2.借助回归模型的建立,培养数学建模、数据分析及数学运 算的素养.
探究点1 一元回归模型
生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说, 父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者 之间的关系,有人调查了14名男大学生的身高及其父亲的身高, 得到的数据如表1所示.
均值的理想状态应该为0. 如果随机误差是一个不为0的常数 e,则可以将 e 合并到截距项a
中,否则模型无法确定,即参数没有唯一解. 如果随机误差e=0,那么Y与x之间的关系就可用一元线性函数模
型来描述.
问题5:请根据以上的分析,你能建立一个数学模型表示儿子身高与父 亲身高的关系吗?
1.一元线性回归模型
由于随机误差表示大量已知和未知的各种影响之和,它们会相互抵
消,为使问题简洁,可以假设随机误差e的均值为0,方差为与父亲身高无
关的定σ 2值 .
即: E(e) 0, D(e) 2.
思考:为什么要假设E(e)=0,而不假设其为某个不为0的常数? 因为误差是随机的,即取各种正负误差的可能性一样,所以它们
b未知,我们能否通过样本数据估计参数a和b? Y bx a e,

8.2+一元线性回归模型及其应用(第2课时)

8.2+一元线性回归模型及其应用(第2课时)

年宣传费 x 的经验回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立 y 关于 x 的经验回归方程; (3)已知这种产品的年利润 z 与 x,y 的关系为 z=0.2y-x,根据(2)的结果回 答问题:
①年宣传费 x=49 时,年销售量及年利润的预报值是多少? ②年宣传费为多少时,年利润的预报值最大?
残差图.根据收集到的数据,计算得到如下值:
-x
-z
25
2.89
∑8
i=1
(zi--z )(xi--x )
48.48
-t
∑8
i=1
(xi--x )2
∑8
i=1
(ti--t )2
646
168
422 688
∑8
i=1
(yi--y )(ti--t )
70 308
其中 z=ln y,t=x2.
(1)根据残差图判断应选择哪个模型,并说明理由;
-x
-y
-w

i=1
(xi--x )2
∑8
i=1
(wi--w )2
46.6
563
6.8
∑8
i=1
(xi--x )(yi--y )
1.469
表中 wi= xi,-w =18∑ i=81wi.
289.8
1.6
∑8
i=1
(wi--w )(yi--y )
108.8
(1)根据散点图判断,y=a+bx 与 y=c+d x哪一个适宜作为年销售量 y 关于
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线v^=α^ +β^
n

u 的斜率和截距的最小二乘估计分别为β^ =i=1
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§8.2 一元线性回归模型及其应用学习目标 1.结合实例,了解一元线性回归模型的含义,了解模型参数的统计意义.2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.知识点一 一元线性回归模型称⎩⎪⎨⎪⎧Y =bx +a +e ,E (e )=0,D (e )=σ2为Y 关于x 的一元线性回归模型.其中Y 称为因变量或响应变量,x 称为自变量或解释变量,a 称为截距参数,b 称为斜率参数;e 是Y 与bx +a 之间的随机误差,如果e =0,那么Y 与x 之间的关系就可以用一元线性函数模型来描述. 知识点二 最小二乘法将y ^=b ^x +a ^称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的b ^,a ^叫做b ,a 的最小二乘估计,其中b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x 思考1 经验回归方程一定过成对样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的某一点吗? 答案 不一定.思考2 点(x ,y )在经验回归直线上吗? 答案 在.知识点三 残差与残差分析 1.残差对于响应变量Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的y ^称为预测值,观测值减去预测值称为残差. 2.残差分析残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析. 知识点四 对模型刻画数据效果的分析 1.残差图法在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.2.残差平方和法残差平方和∑i=1n(y i-y^i)2越小,模型的拟合效果越好.3.R2法可以用R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2来比较两个模型的拟合效果,R2越大,模型拟合效果越好,R2越小,模型拟合效果越差.思考利用经验回归方程求得的函数值一定是真实值吗?答案不一定,他只是真实值的一个预测估计值.1.求经验回归方程前可以不进行相关性检验.(×)3.利用经验回归方程求出的值是准确值.(×)4.残差平方和越小,线性回归模型的拟合效果越好.(√)5.R2越小,线性回归模型的拟合效果越好.(×)一、求经验回归方程例1某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:x 681012y 235 6(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程y^=b^x+a^;(3)试根据求出的经验回归方程,预测记忆力为9的同学的判断力.⎝⎛⎭⎪⎪⎫参考公式:b^=∑i=1nx i y i-n x·y∑i=1nx2i-n x2,a^=y-b^x解 (1)散点图如图所示:(2)x =6+8+10+124=9,y =2+3+5+64=4, ∑i =14x 2i =62+82+102+122=344, ∑i =14x i y i =6×2+8×3+10×5+12×6=158,b ^=158-4×9×4344-4×92=1420=0.7,a ^=y -b ^x =4-0.7×9=-2.3, 故经验回归方程为y ^=0.7x -2.3.(3)由(2)中经验回归方程可知,当x =9时,y ^=0.7×9-2.3=4,即预测记忆力为9的同学的判断力为4.反思感悟 求经验回归方程可分如下四步来完成 (1)列:列表表示x i ,y i ,x 2i ,x i y i . (2)算:计算x ,y,∑i =1nx 2i ,∑i =1nx i y i . (3)代:代入公式计算a ^,b ^的值. (4)写:写出经验回归方程.跟踪训练1 随着我国经济的发展,居民储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2015 2016 2017 2018 2019 时间代号t 12345储蓄存款y (千亿元)567810(1)求y 关于t 的经验回归方程y ^=b ^t +a ^;(2)用所求经验回归方程预测该地区2021年(t =7)的人民币储蓄存款.⎝ ⎛⎭⎪⎪⎫参考公式:b ^=∑i =1n t i y i-n t y ∑i =1n t 2i-n t 2,a ^=y -b ^t 解 (1)由题意可知,n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2.又∑i =1nt 2i =55,∑i =1nt i y i =120,计算得,b ^=1.2,a ^=y -b ^t =7.2-1.2×3=3.6. 故所求经验回归方程为y ^=1.2t +3.6.(2)将t =7代入y ^=1.2t +3.6,可得y ^=1.2×7+3.6=12(千亿元), 所以预测该地区2021年的人民币储蓄存款为12千亿元. 二、线性回归分析例2 已知某种商品的价格x (单位:元)与需求量y (单位:件)之间的关系有如下一组数据:求y 关于x 的经验回归方程,并借助残差平方和和R 2说明回归模型拟合效果的好坏. 解 x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=620-5×18×7.41 660-5×182=-1.15,a ^=7.4+1.15×18=28.1,所以所求经验回归方程是y ^=-1.15x +28.1. 列出残差表:所以∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R 2=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2≈0.994,所以回归模型的拟合效果很好. 反思感悟 刻画回归效果的三种方法(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适. (2)残差平方和法:残差平方和∑i =1n(y i -y ^i )2越小,模型的拟合效果越好.(3)R 2法:R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2越接近1,表明模型的拟合效果越好.跟踪训练2 为研究重量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:(1)作出散点图并求经验回归方程; (2)求出R 2; (3)进行残差分析. 解 (1)散点图如图.x =16×(5+10+15+20+25+30)=17.5,y =16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i =16x 2i =2 275,∑i =16y 2i =554.659 4,∑i =16x i y i =1 076.2, 计算得,b ^≈0.183,a ^≈6.285, 所求经验回归方程为y ^=0.183x +6.285. (2)残差表如下:y i -y ^i 0.05 0.005 -0.08 -0.045 0.04 0.025 y i -y-2.237-1.367-0.5370.4131.4132.313所以∑i =16(y i -y ^i )2≈0.013 18,∑i =16(y i -y )2≈14.678 3.所以R 2≈1-0.013 1814.678 3≈0.999 1,所以回归模型的拟合效果很好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有,则需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系. 三、非线性回归例3 下表为收集到的一组数据:x 21 23 25 27 29 32 35 y711212466115325(1)作出x 与y 的散点图,并猜测x 与y 之间的关系;(2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预测x =40时y 的值.解 (1)作出散点图如图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数型曲线y =c 12e c x 的周围,其中c 1,c 2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a (a =ln c 1,b =c 2)的周围,这样就可以利用经验回归模型来建立y 与x 之间的非线性经验回归方程了,数据可以转化为x 21 23 25 27 29 32 35 z1.9462.3983.0453.1784.1904.7455.784求得经验回归方程为z ^=0.272x -3.849, ∴y ^=e 0.272x-3.849.残差表如下:y i 7 11 21 24 66 115 325 y ^i 6.443 11.101 19.125 32.950 56.770 128.381 290.325 e ^i 0.557-0.1011.875-8.9509.23-13.38134.675(3)当x =40时,y ^=e 0.272×40-3.849≈1 131.反思感悟 非线性回归问题的处理方法 (1)指数函数型y =e bx +a ①函数y =e bx+a的图象,如图所示;②处理方法:两边取对数得ln y =ln e bx +a ,即ln y =bx +a .令z =ln y ,把原始数据(x ,y )转化为(x ,z ),再根据线性回归模型的方法求出a ,b . (2)对数函数型y =b ln x +a①函数y =b ln x +a 的图象,如图所示;②处理方法:设x ′=ln x ,原方程可化为y =bx ′+a , 再根据线性回归模型的方法求出a ,b . (3)y =bx 2+a 型处理方法:设x ′=x 2,原方程可化为y =bx ′+a ,再根据线性回归模型的方法求出a ,b . 跟踪训练3 为了研究甲型H1N1中的某种细菌随时间x 变化的繁殖个数y ,收集数据如下:天数x 1 2 3 4 5 6 繁殖个数y612254995190求y 关于x 的非线性经验回归方程. 解 作出散点图如图(1)所示.由散点图看出样本点分布在一条指数型曲线y =c e bx 的周围,则ln y =bx +ln c . 令z =ln y ,a =ln c ,则z =bx +a .x 1 2 3 4 5 6 z1.792.483.223.894.555.25相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.由表中数据得到经验回归方程为z ^=0.69x +1.115.因此细菌的繁殖个数y 关于天数x 的非线性经验回归方程为y ^=e 0.69x+1.115.1.(多选)以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是( )答案 AC解析 AC 中的点分布在一条直线附近,适合线性回归模型.2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R 2分别如下表:甲 乙 丙 丁 R 20.980.780.500.85哪位同学建立的回归模型拟合效果最好( ) A .甲 B .乙 C .丙 D .丁 答案 A解析 决定系数R 2越大,表示回归模型的拟合效果越好.3.已知人的年龄x 与人体脂肪含量的百分数y 的经验回归方程为y =0.577x -0.448,如果某人36岁,那么这个人的脂肪含量( ) A .一定是20.3%B .在20.3%附近的可能性比较大C .无任何参考数据D .以上解释都无道理 答案 B解析 将x =36代入经验回归方程得y =0.577×36-0.448≈20.3,故这个人的脂肪含量在20.3%附近的可能性较大,故选B.4.由变量x 与y 相对应的一组成对样本数据(1,y 1),(5,y 2),(7,y 3),(13,y 4),(19,y 5)得到的经验回归方程为y ^=2x +45,则y =________. 答案 63解析 ∵x =15(1+5+7+13+19)=9,y =2x +45,∴y =2×9+45=63.5.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =e bx+a的周围.令z ^=ln y ,求得经验回归方程为z ^=0.25x -2.58,则该模型的非线性经验回归方程为________. 答案 y ^=e 0.25x-2.58解析 因为z ^=0.25x -2.58,z ^=ln y , 所以y ^=e 0.25x-2.58.1.知识清单: (1)一元线性回归模型.(2)最小二乘法、经验回归方程的求法.(3)对模型刻画数据效果的分析:残差图法、残差平方和法和R 2法. 2.方法归纳:数形结合、转化化归.3.常见误区:不判断变量间是否具有线性相关关系,盲目求解经验回归方程致误.1.如果两个变量之间的线性相关程度很高,则其R 2的值应接近于( ) A .0.5 B .2 C .0 D .1 答案 D解析 R 2越接近于1,相关程度越高,故选D.2.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )答案 A解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.3.工人工资y (元)与劳动生产率x (千元)的相关关系的经验回归方程为y ^=50+80x ,下列判断正确的是( )A .劳动生产率为1 000元时,工人工资为130元B .劳动生产率提高1 000元时,工人工资平均提高80元C .劳动生产率提高1 000元时,工人工资平均提高130元D .当月工资为250元时,劳动生产率为2 000元 答案 B解析 因为经验回归方程的斜率为80,所以x 每增加1,y 平均增加80,即劳动生产率提高1 000元时,工人工资平均提高80元.4.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )A .y =a ·x bB .y =a +b ln xC .y =a ·e bxD .y =a ·e bx答案 B解析 由散点图可知,此曲线类似对数函数型曲线,因此可用函数y =a +b ln x 模型进行拟合. 5.(多选)对于经验回归方程y ^=b ^x +a ^(b ^>0),下列说法正确的是( ) A .当x 增加一个单位时,y ^的值平均增加b ^个单位 B .点(x ,y )一定在y ^=b ^x +a ^所表示的直线上 C .当x =t 时,一定有y =b ^t +a ^D .当x =t 时,y 的值近似为b ^t +a ^答案 ABD解析 经验回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在经验回归直线上.6.某地区近10年居民的年收入x 与年支出y 之间的关系大致符合y ^=0.8x +0.1(单位:亿元),预计今年该地区居民收入为15亿元,则今年支出估计是________亿元. 答案 12.1解析 将x =15代入y ^=0.8x +0.1,得y ^=12.1.7.若经验回归直线方程中的回归系数b ^=0,则样本相关系数r =________. 答案 0解析样本相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2与b^=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2的分子相同,故r=0.8.某品牌服装专卖店为了解保暖衬衣的销售量y(件)与平均气温x(℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:时间二月上旬二月中旬二月下旬三月上旬旬平均气温x(℃)381217旬销售量y(件)55m 3324由表中数据算出经验回归方程y^=b^x+a^中的b^=-2,样本点的中心为(10,38).(1)表中数据m=________;(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为________件.答案(1)40(2)14解析(1)由y=38,得m=40.(2)由a^=y-b^x得a^=58,故y^=-2x+58,当x=22时,y^=14,故三月中旬的销售量约为14件.9.已知变量x,y有如下对应数据:x 123 4y 134 5(1)作出散点图;(2)用最小二乘法求关于x,y的经验回归方程.解(1)散点图如图所示.(2)x=1+2+3+44=52,y=1+3+4+54=134,∑i=14x i y i=1+6+12+20=39,∑i=14x2i=1+4+9+16=30,b^=39-4×52×13430-4×⎝⎛⎭⎫522=1310,a^=134-1310×52=0,所以y^=1310x即为所求的经验回归方程.(1)求所支出的维修费y关于使用年限x的经验回归方程y^=b^x+a^;(2)①判断变量x与y之间是正相关还是负相关;②当使用年限为8年时,试估计支出的维修费是多少?解(1)∵∑i=15x i=20,∑i=15y i=25,∴x=15∑i=15x i=4,y=15∑i=15y i=5,∴b^=∑i=15x i y i-5x y∑i=15x2i-5x2=112-5×4×590-5×42=1.2,a^=y-b^x=5-1.2×4=0.2.∴所求经验回归方程为y^=1.2x+0.2.(2)①由(1)知b^=1.2>0,∴变量x与y之间是正相关.②由(1)知,当x=8时,y^=1.2×8+0.2=9.8,即使用年限为8年时,支出的维修费约是9.8万元.11.设两个变量x和Y之间具有线性相关关系,它们的样本相关系数是r,Y关于x的经验回归方程的回归系数为b^,回归截距是a^,那么必有()A.b ^与r 的符号相同 B.a ^与r 的符号相同 C.b ^与r 的符号相反 D.a ^与r 的符号相反答案 A解析 b ^与r 的符号相同.12.恩格尔系数是食品支出总额占个人消费支出总额的比重.据某机构预测,n (n ≥10)个城市职工购买食品的人均支出y (千元)与人均月消费支出x (千元)具有线性相关关系,且经验回归方程为y ^=0.4x +1.2,若其中某城市职工的人均月消费支出为5千元,则该城市职工的月恩格尔系数约为( )A .60%B .64%C .58%D .55% 答案 B解析 把x =5代入经验回归方程y ^=0.4x +1.2中,得y ^=0.4×5+1.2=3.2,则该城市职工的月恩格尔系数约为3.25=0.64=64%,故选B.13.(多选)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的经验回归方程为y ^=0.85x -85.71,则下列结论中正确的是( ) A .y 与x 具有正的线性相关关系B .经验回归方程过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可判定其体重必为58.79 kg 答案 ABC解析 A ,B ,C 均正确,是经验回归方程的性质,D 项是错误的,经验回归方程只能预测学生的体重,应为大约58.79 kg.14.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm,170 cm,182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm. 答案 185解析 因为儿子的身高与父亲的身高有关,所以设儿子的身高为Y (单位:cm),父亲身高为X (单位:cm),根据数据列表:由表中数据,求得回归系数b ^=1,a ^=3.于是儿子身高与父亲身高的关系式为Y =X +3, 当X =182时,Y =185.故预测该老师的孙子的身高为185 cm.15.已知变量y 关于x 的非线性经验回归方程为y ^=eb ^x -0.5,其一组数据如下表所示: x 1 2 3 4yee 3e 4e 6若x =5,则预测y 的值可能为( ) A .e 5 B .112e C .e 7 D .152e 答案 D解析 将式子两边取对数,得到ln y ^=b ^x -0.5, 令z =ln y ^,得到z =b ^x -0.5, 列出x ,z 的取值对应的表格如下:x 1 2 3 4 z1346则x =1+2+3+44=2.5,z =1+3+4+64=3.5,∵(x ,z )满足z =b ^x -0.5, ∴3.5=b ^×2.5-0.5,解得b ^=1.6, ∴z =1.6x -0.5,∴y ^=e 1.6x -0.5,当x =5时,y ^=e1.6×5-0.5=152e .16.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求经验回归方程y ^=b ^x +a ^,其中b ^=-20;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解 (1)由于x =16×(8+8.2+8.4+8.6+8.8+9)=8.5,y =16×(90+84+83+80+75+68)=80.所以a ^=y -b ^x =80+20×8.5=250, 从而经验回归方程为y ^=-20x +250.(2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20(x -8.25)2+361.25.故当单价定为8.25元时,工厂可获得最大利润.。

相关文档
最新文档