第1节 一元线性回归的经验公式与最小二乘法.

合集下载

第一课时 一元线性回归模型及其参数的最小二乘估计

第一课时 一元线性回归模型及其参数的最小二乘估计

解析 由题意得-x=3+4+4 5+6=4.5, -y=25+30+4 40+45=35. ∵回归直线方程^y=b^x+a^中b^=7,∴35=7×4.5+a^,解得a^=3.5, ∴^y=7x+3.5. ∴当 x=10 时,^y=7×10+3.5=73.5(万元). 答案 73.5
(2)列出下表,并用科学计算器进行有关计算.
i
1
2
3
4
5
xi
2
4
5
6
8
yi
30
40
60
50
70
xiyi
60
160
300
300
560
x2i
4
16
25
36
64
-x=5,-y=50,i=∑5 1x2i =145,i=∑5 1xiyi=1 380
5
∑xiyi-5-x

y
于是可得,b^=i=15
∑xi2-5-x 2
【训练2】 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四 次实验,得到的数据如下:
零件的个数x(个) 加工的时间y(h)
23 2.5 3
45 4 4.5
(1)已知零件个数与加工时间线性相关,求出y关于x的线性回归方程; (2)试预测加工10个零件需要多少时间?
4
解 (1)由表中数据,得∑xiyi=2×2.5+3×3+4×4+5×4.5=52.5, i=1
【迁移2】 (变条件,变设问)本例中近似方程不变,每小时生产有缺点的零件件数是 7,估计机器的转速. 解 因为 y=5710x-67,所以当 y=7 时,7=5710x-67,解得 x≈11,即估计机器的转速约为 11 转/秒.

一元线性回归模型及参数的最小二乘估计课件-高二数学人教A版(2019)选择性必修第三册

一元线性回归模型及参数的最小二乘估计课件-高二数学人教A版(2019)选择性必修第三册
2.方法归纳:数形结合、转化化归. 3.常见误区:不判断变量间是否具有线性相关关系,盲目求解经验回归方程 致误.
§8.2 一元线性回归模型及其应用 第1课时 一元线性回归模型及参数的最小二乘估计
1 一元线性回归模型 2 最小二乘法和
经验回归方程
3 利用经验回归方程
进行预测
01 一元线性回归模型
知识梳理
一元线性回归模型:我们称
Y=bx+a+e, Ee=0,De=σ2
为Y关于x的_一__元__线__性__回__归_
8
∑i=1xiyi-8 x b^ = 8
∑i=1x2i -8 x
y
2
=132245-6-8×8×52×25982=14,
所以a^ = y -b^ x =98-14×52=12,故经验回归方程为y^=14x+12.
(2)若该次考试数学平均分为120分,物理平均分为91.5分,试由(1)的结 论预测数学成绩为128分的同学的物理成绩.
n
(xi- x )2
n
x2i -n x 2
i=1
i=1
由题意可得 x =15×(1+1.5+2+2.5+3)=2, y =15×(0.9+0.7+0.5+0.3+0.2)=0.52.
5
(xi- x )(yi- y )=-1×0.38-0.5×0.18+0.5×(-0.22)+1×(-0.32)
i=1
(1)(2)(3)(4)(5)回归模型,(6)(7)函数模型.
练1习1 若某地财政收入x与支出y满足一元线性回归模型y=bx+a+e(单
位:亿元),其中b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入10亿
元,年支出预计不会超过
A.9亿元 C.10亿元

一元线性回归模型参数的最小二乘法估计

一元线性回归模型参数的最小二乘法估计

8.2.1一元线性回归模型1.生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表1所示.编号1234567891011121314父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180 儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182从图上看,散点大致分布在一条直线附近根据我们学过的整理数据的方法:相关系数r =0.886.父亲身高/cm180 175 170 165 160160 165 170 175180 185 190 ·· ·· · · · 儿子身高/cm· · · · ·185 1).问题1:可以得到什么结论?由散点图的分布趋势表明儿子的身高与父亲的身高线性相关,通过相关系数可知儿子的身高与父亲的身高正线性相关,且相关程度较高.2).问题2:是否可以用函数模型来刻画?不能,因为不符合函数的定义.这其中还受其它因素的影响.3).问题3:那么影响儿子身高的其他因素是什么?影响儿子身高的因素除父亲的身外,还有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素,儿子身高是父亲身高的函数的原因是存在这些随机的因素.4).问题4: 你能否考虑到这些随机因素的作用,用类似于函数的表达式,表示儿子身高与父亲身高的关系吗?用x表示父亲身高,Y表示儿子的身高,用e表示各种其它随机因素影响之和,称e为随机误差, 由于儿子身高与父亲身高线性相关,所以Y=bx+a.考虑随机误差后,儿子的身高可以表示为:Y=bx+a+e由于随机误差表示大量已知和未知的各种影响之和,它们会相互抵消,为使问题简洁,可假设随机误差e的均值为0,方差为与父亲身高无关的定值 . 2σ2即E e D eσ:()0,().==我们称①式为Y 关于x 的一元线性回归模型,其中,Y 称为因变量或响应变量,x 称为自变量或解释变量 . a 称为截距参数,b 称为斜率参数;e 是Y 与bx+a 之间的随机误差.2,()0,().Y bx a e E e D e σ=++⎧⎨==⎩① 2、一元线性回归模型如果用x 表示父亲身高,Y 表示儿子的身高,e 表示随机误差.假定随机误差e 的均值为0,方差为与父亲身高无关的定值 ,则它们之间的关系可以表示为2σ4.问题5:你能结合具体实例解释产生模型①中随机误差项的原因吗?产生随机误差e的原因有:(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等.(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差.(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差e的原因.8.2.2一元线性回归模型参数的最小二乘法估计二、自主探究问题1.为了研究两个变量之间的相关关系, 我们建立了一元线性回归模型表达式 刻画的是变量Y 与变量x 之间的线性相关关系,其中参数a 和b 未知,我们如何通过样本数据估计参数a 和b?2,()0,().Y bx a e E e D e σ=++⎧⎨==⎩问题2.我们怎样寻找一条“最好”的直线,使得表示成对样本数据的这些散点在整体上与这条直线最“接近”?从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与蓝色直线最接近”利用点到直线y=bx+a 的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.父亲身高/cm180 175 170 165 160160 165 170 175180 185 190 ·· ·· · · · 儿子身高/cm· · · · ·185 父亲身高/cm180 175 170 165 160160 165 170 175 180 185 190·· ·· · · · 儿子身高/cm· · · · ·185设满足一元线性回归模型的两个变量的n 对样本数据为(x 1,y 1),(x 2,y 2),…,(x n ,y n )父亲身高/cm180 175170165 160160165 170 175 180 185 190·· · · · · · 儿子身高/cm· ·· · · 185()()(1,2,3,,-).i i i i i i i i i i i y bx a e i n y bx a e e x y x bx a =++=⋅⋅⋅+=+由),得(显然越小,表示点,与点,的距离越小,()0,.i i i x y =即样本数据点离直线y=bx+a 的竖直距离越小,如上图特别地,当e 时,表示点在这条直线上1-)ni i i y bx a =+∑因此可用(来刻画各样本观测数据与直线y=bx+a 的整体接近程度.()iix y ,y=bx+a()i i x bx a +,·[]21(,)()ni i i Q a b y bx a ==-+∑残差平方和: 即求a ,b 的值,使Q ( a ,b )最小残差:实际值与估计值之间的差值,即 使Q 取得最小值,当且仅当b 的取值为121()()()nii i nii xx y y b xx ==--=-∑∑b.,ˆ,ˆ的最小二乘估计叫做求得a b a b(,).x y 经验回顾直线必经过的符号相同与相关系数r b ˆ最小二乘法我们将 称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法.ˆˆˆy bxa =+12111=i ni n22i ni n x x y y ˆb ,x x ˆˆa x y x y x xy b .i i i i i i ΣΣx )n ΣΣ(()()n ====⎧--⎪=⎪⎨-⎪⎪--=⎩-问题2:依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y 关于父亲身高x 的经验回归方程.儿子的身高不一定会是177cm ,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm 时,儿子身高一般在177cm 左右.当x=176时, ,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm 吗?为什么?177y ≈083928957ˆy .x .=+的意义?∧b残差的定义,e a bx Y ++=一元线性回归模型,,Y y 对于通过观测得响应到的数据称量为变观测值ˆ,y通过经验回归方程得到称为预报值的ˆ.ˆey y =-残观测值减去预报值称为即差判断模型拟合的效果:残差分析问题3:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效性吗?残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据或体重估计值等,这样作出的图形称为残差图.从上面的残差图可以看出,残差有正有负,残差点比较均匀地分布在横轴的两边,可以判断样本数据基本满足一元线性回归模型对于随机误差的假设.所以,通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假设,从而判断回归模型拟合的有效性.所以,只有图(4)满足一元线性回归模型对随机误差的假设图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型; 图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分; 图(3)说明残差的方差不是一个常数,随观测时间变大而变大图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.根据一元线性回归模型中对随机误差的假定,残差应是均值为0,方差为 的随机变量的观测值.2σ观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?1.残差等于观测值减预测值2.残差的平方和越小越好;3.原始数据中的可疑数据往往是残差绝对值过大的数据;4. 对数据刻画效果比较好的残差图特征:残差点比较均匀的集中在水平带状区域内.归纳小结(残差图中带状越窄,精度越高)1.关于残差图的描述错误的是( )A.残差图的横坐标可以是样本编号B.残差图的横坐标也可以是解释变量或预报变量C.残差点分布的带状区域的宽度越窄相关指数越小D.残差点分布的带状区域的宽度越窄残差平方和越小C 三、巩固提升2.根据如下样本数据:得到的经验回归方程为 ,则( ) A. >0, >0B. >0, <0C. <0, >0D. <0, <0 x 2 3 4 5 6 Y42.5-0.5-2-3a $a $a $a$$b $b$b$b $$ybx a =+$ B3.某种产品的广告支出费用x(单位:万元)与销售额Y(单位:万元)的数据如表:已知Y 关于x 的经验回归方程为 =6.5x+17.5,则当广告支 出费用为5万元时,残差为________. x 2 4 5 6 8Y 30 40 60 50 70$y当x=5时, =6.5×5+17.5=50,表格中对应y=60,于是残差为60-50=10.$y10一元线性回归模型的应用例1.经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.编号 1 2 3 4 5 6胸径/cm 18.1 20.1 22.2 24.4 26.0 28.3树高/m 18.8 19.2 21.0 21.0 22.1 22.1编号7 8 9 10 11 12胸径/cm 29.6 32.4 33.7 35.7 38.3 40.2树高/m 22.4 22.6 23.0 24.3 23.9 24.7dh· · ·· · · · · · · · · 解: 以胸径为横坐标,树高为纵坐标作散点图如下:散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.0.249314.84h d =+··· ·· · · · · · · · 用d 表示胸径,h 表示树高,根据据最小二乘法,计算可得经验回归方程为0.249314.84h d =+根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.编号胸径/cm 树高观测值/m 树高预测值/m 残差/m1 18.1 18.8 19.4 -0.62 20.1 19.2 19.9 -0.73 22.2 21.0 20.4 0.64 24.4 21.0 20.9 0.15 26.0 22.1 21.3 0.86 28.3 22.1 21.9 0.27 29.6 22.4 22.2 0.28 32.4 22.6 22.9 -0.39 33.7 23.0 23.2 -0.210 35.7 24.3 23.7 0.611 38.3 23.9 24.4 -0.512 40.2 24.7 24.9 -0.2以胸径为横坐标,残差为纵坐标,作残差图,得到下图.30252015-1.0-0.5 0.0 0.5 1.0· · · · · · · 残差/m· · · ·· 354045胸径/cm观察残差表和残差图,可以看到残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内 .可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.编号1 2 3 4 5 6 7 8 年份 1896 1912 1921 1930 1936 1956 1960 1968 记录/s 11.8010.6010.4010.3010.2010.1010.009.95例2.人们常将男子短跑100m 的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m 世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m 世界纪录关于纪录产生年份的经验回归方程以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图在左图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.将经验回归直线叠加到散点图,得到下图:76913031.4902033743.0ˆ1+-=t y用Y 表示男子短跑100m 的世界纪录,t 表示纪录产生的年份 ,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系 . 根据最小二乘法,由表中的数据得到经验回归方程为:从图中可以看到,经验回归方程较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗?你能对模型进行修改,以使其更好地反映散点的分布特征吗?仔细观察右图,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征注意到100m短跑的第一个世界纪录产生于1896年, 因此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,其中c1、c2为未知参数,且c2<0.y=f(t)=c1+c2ln(t-1895)这是一个非线性经验回归函数,如何利用成对数据估计参数c1、c2令x=ln(t-1895),则Y=c2x+c1对数据进行变化可得下表:编号 1 2 3 4 5 6 7 8 年份/t 1896 1912 1921 1930 1936 1956 1960 1968 x 0.00 2.83 3.26 3.56 3.71 4.11 4.17 4.29 记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95将x=ln(t-1895)代入:得 8012653.114264398.0ˆ2+-=x y上图表明,经验回归方程对于成对数据具有非常好的拟合精度.将经验回归直线叠加到散点图,得到下图: 8012653.114264398.0ˆ2+-=x y8012653.11)1895ln(4264398.0ˆ2+--=t y经验回归方程为对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?8012653.114264398.0ˆ2+-=x y① 2ˆ0.4264398ln(1895)11.8012653y t =--+② 我们发现,散点图中各散点都非常靠近②的图象, 表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.(1).直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).28212811ˆ,ˆQ Q (()0.004)0.669i i i i eu ===≈=≈∑∑8012653.114264398.0ˆ2+-=x y① 2ˆ0.4264398ln(1895)11.8012653yt =--+②(2).残差分析:残差平方和越小,模型拟合效果越好.Q 2明显小于Q 1,说明非线性回归方程的拟合效果 要优于线性回归方程.R 2越大,表示残差平方和越小,即模型的拟合效果越好 R 2越小,表示残差平方和越大,即模型的拟合效果越差. 21212ˆ()11()n i i nii i y y y y R ==-=-=--∑∑残差平方和。

一元线性回归方程教学课件

一元线性回归方程教学课件
第2页,共28页。
Y:人均食品支出
北京市城市居民家庭生活抽样调查图表
10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18
x:人均生活费收入
第3页,共28页。
§1.1 模型的建立及其假定条件
一、一元线性回归模型
例如:研究某市可支配收入X对人均消费支出Y 的影响。建立如下理论 回归模型:
总离差平方和 = 回归平方和 + 残差平方和
SST
=
SSR
+
SSE
H0: 1 0 H1: 1 0
F SSR /1 ~ F (1, n 2) SSE /(n 2)
拒绝域 F >Fα (1,n-2)
第21页,共28页。
三、 用样本可决系数检验回归方程的拟合优度
R2 = SSR
SST
R2=0时 表明解释变量X与被解释变量Y之间不存在线性关系; R2=1时 表明样本回归线与样本值重合,这种情况极少发生; 一般情况下,R2越接近1表示拟合程度越好,X对Y的解释能力越强。
Yi = 0 + 1 Xi + εi
其中: Yi——被解释变量;
ε I ——随机误差项;
Xi——解释变量; 0,1—回归系数
随机变量ε i包含:
回归模型中省略的变量; 确定数学模型的误差; 测量误差
第4页,共28页。
假设调查了某社区所有居民,他们的人均可支配 收入和消费支出数据如下:
X 80 100 Y
(ei为εi的估计值)
第9页,共28页。
注意:分清4个式子的关系 (1)理论(真实的)回归模型:
Yi 0 1Xi i
(2)理论(真实的)回归直线:
E( Y | X i ) 0 1X i

一元线性回归

一元线性回归

残差平方和决定系数首先看看几个定义:总体平方和TSS( total sum of squares)回归平方和RSS(regression sum of squares)残差平方和ESS(Residual sum of squares)其中,y i表示实验数据,f i表示模拟值,表示样本平均值。

决定系数(Coefficient of determination)在一定程度上反应了模型的拟合优度。

其实就是回归平方和在总体平方和中所占的比例。

因为TSS=RSS+ESSThe better the linear regression (on the right) fits the data in comparison to the simple average (on the left graph), the closer the value of R2 is to one. The areas of the blue squares represent the squared residuals with respect to the linear regression. The areas of the red squares represent the squared residuals with respect to the average value.红色区域是总体平方和,蓝色为残差平方和。

>> 为什么要用决定系数去反应拟合优度,而不用残差平方和呢?>> 因为,残差平方和与观测值的绝对大小有关,而决定系数是一个比例。

比如:有一组数据:1000,2000,35000...另一组数据:1,2,3.5...这个时候就会发现第一组数据的拟合后残差平方和会大很多,但是不见得,模型拟合优度就会差。

第三章 一元线性回归第一部分 学习指导一、本章学习目的与要求1、掌握一元线性回归的经典假设;2、掌握一元线性回归的最小二乘法参数估计的计算公式、性质和应用;3、理解拟合优度指标:决定系数R 2的含义和作用;4、掌握解释变量X 和被解释变量Y 之间线性关系检验,回归参数0β和1β的显著性检验5、了解利用回归方程进行预测的方法。

8.2.2一元线性回归模型的最小二乘估计课件(人教版)

8.2.2一元线性回归模型的最小二乘估计课件(人教版)
ෝ =0.839x +28.957,令
ෝ=x,则
通过经验回归方程
x=179.733,即当父亲身高为179.733cm时,儿子的平均身
高与父亲的身高一样.
对于响应变量Y , 通过视察得到的数据称为观测值 , 通
ෝ为预测值. 视察值减去预测值称为
过经验回归方程得到的
残差.
残差是随机误差的估计结果,通过对残差的分析可判
෡ 叫做b,a的最小二乘估计.
求得的,ෝ

ഥ); 与相关系数
易得: 经验回归直线必过样本中心(ഥ
,
r符号相同.
对于上表中的数据,利
用我们学过的公式可以计算出

=0.839
,ෝ
=28.957,求出儿
子身高Y关于父亲身高x的经验
回归方程为
ŷ 0.839 x 28.957
相应的经验回归直线如图所示.
n i =1
n i =1
n
n
Q(a,b ) = ( yi - bxi - a ) = [ yi - bxi - ( y - bx ) + ( y - bx ) - a ]
2
i =1
n
2
i =1
= [( yi y ) b( xi - x ) + ( y - bx ) - a ]
2
i =1
i =1
综上,当a)( y y )
i
i
i =1
.
n
( x - x)
2
i
i =1
ˆ
ˆ
a
=
y

bx
时, Q到达最小.
ˆ aˆ 称为Y 关于x 的经验回归方程,也称

一元回归方程公式

一元回归方程公式

一元回归方程公式回归分析只涉及到两个变量的,称一元回归分析。

一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量,被估计的变量,称因变量,可设为Y;估计出的变量,称自变量,设为X。

回归分析就是要找出一个数学模型Y=f(X),使得从X估计Y可以用一个函数式去计算。

当Y=f(X)的形式是一个直线方程时,称为一元线性回归。

这个方程一般可表示为Y=A+BX。

根据最小平方法或其他方法,可以从样本数据确定常数项A与回归系数B的值。

A、B确定后,有一个X的观测值,就可得到一个Y的估计值。

回归方程是否可靠,估计的误差有多大,都还应经过显著性检验和误差计算。

有无显著的相关关系以及样本的大小等等,是影响回归方程可靠性的因素。

回归方程公式:b=(x1y1+x2y2+...xnyn-nXY)/(x1+x2+...xn-nX)。

1、回归直线方程可以用最小二乘法求回归直线方程中的a,b,从而得到回归直线方程。

线性回归也是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。

按自变量个数可分为一元线性回归分析方程和多元线性回归分析方程。

2、回归方程是对变量之间统计关系进行定量描述的一种数学表达式。

线性回归模型,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。

其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。

3、最小二乘法又称最小平方法,是一种数学优化技术。

与最小二乘法不同的是,最大似然法需要已知这个概率分布函数,这在实践中是很困难的。

一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计和最小二乘估计相同。

课件1:§8.2 一元线性回归模型及其应用

课件1:§8.2 一元线性回归模型及其应用

.
≈1 530(人).
反思感悟
刻画回归效果的三种方法
(1)残差图法,残差点比较均匀地落在水平的带状区域内说明
选用的模型比较合适.
n
(2)残差平方和法:残差平方和
i=1
果越好.
^ 2
(yi-yi) 越小,模型的拟合效
n

^ 2
yi-yi
i=1
(3)R2 法:R2=1-
越接近 1,表明模型的拟合效果越好.
=1

∑ 2 -
=1
2
^
, = − .
解:(1)根据数据画出散点图(略),由散点图可知y与t线性相关.列表计算如下:
i
1
2
3
4
5

ti
1
2
3
4
5
15
yi
5
6
7
8
10
36
i2
1
4
9
16
25
55
tiyi
5
12
21
32
50
120
这里 n=5, =
1
15
1
36
=1
^
故所求经验回归方程为 =1.2t+3.6.
^
^
(2)将 t=6 代入 =1.2t+3.6,可得 =1.2×6+3.6=10.8(千亿元),
所以预测该地区的居民 2021 年的人民币储蓄存款为 10.8 千亿元.
反思感悟
求经验回归方程可分如下四步来完成
(1)列:列表表示 xi,yi,x2i ,xiyi.
因变量
2
Ee=0,De=σ
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x (元) 2 3 4 5 6 8 10 12 14 16 y (吨) 15 20 25 30 35 45 60 80 80 110 求 y 对 x 的回归方程.
1 10 1 10 yi 50 , 解 x xi 8 , y 10 i 1 10 i 1

l xx ( xi x )2 xi2 10x 2 210 ,
第七章
1
变量之间的关系大致有 两种,一是 函数 关系,
是确定性的,如 s = v t ; 另一种是相关关系,是不
确定的. 在社会经济领域,更多的是相关关系. 如投
入与产出、价格与需求的关系等等.
回归分析方法是处理变量间相互关系的有力 工具.
2
第一节
3
一、散点图与回归直线
将n对观察结果作为直角平面上的点,这样得 到的图形称为散点图.散点图可以帮助我们粗略地
看出 x 与 y 的相关关系的形式.
4
例1 价格与供给量的观察数据见下表: x (元) 2 3 4 5 6 8 10 12 14 16 y (吨) 15 20 25 30 35 45 60 80 80 110 散点图
120 100 80 60 40 20 0 0 5 10 15 20
图1
由图1可以看出,x 与 y 之间存在一定的相关关系,
i 1 n
i 1 2 i
Q(a , b) [ yi (a bxi )]2
i 1
n
达到最小. 上述原则即称为最小二乘原则,由此估计 a,b的方法称为最小二乘法. LSE (Least Square Estimation)
9
a , b 的求解:
n
Q(a , b) [ yi (a bxi )]
i 1
D 0 , 所以方程组有唯一解 由于 xi 不全相等,
ˆ ˆx , b ˆ yb a
x y
i 1 n i i 1 2 i
n
i
nx y

2
(x
i 1 n
n
i
x )( yi y ) .
11
x nx
2 ( x x ) i i 1
ˆx , b ˆ ˆ yb a
x y
i 1 n i i 1 2 i
n
i
nx y

2
(x
i 1 n
n
i
x )( yi y ) .
x nx
n i 1 n 2 i
2 ( x x ) i i 1
记 l xx ( xi x ) x nx ,
2 2
n
l yy ( yi y ) y ny ,
2
i 1 n
l xy ( xi x )( yi y ) xi yi nxy ,
i 1 i 1
i 1 n
i 1
2 i
2
n
ˆ 则 b
l xy l xx
显然回归直线经过散点图 ˆx . ˆ yb , a 的几何中心 ( x , y ) .
12
例2 价格与供给量的观察数据见下表:
10
na nxb ny n n 2 n x a ( x i )b x i yi i 1 i 1
系数行列式
D nx
n
2 2 2 n ( x n x ) n ( x x ) , i i x
n i 1 2 i
nx
n
n
i 1
i 1
n
2
Q a 2 [ yi (a bxi )] 0 i 1 n Q 2 [ yi (a bxi )]xi 0 i 1 b
na nxb ny n n —— 称为 正规方程组 2 n x a ( x i )b x i yi i 1 i 1 1 n 1 n 其中 x xi , y yi n i 1 n i 1
且这种关系是线性关系.
5
其他可能的相关关系见下图:
y





y




o
y
x

o
y
x






o
x
o
x
6
图 1的10个点虽然不在一直线上,但大致散布于 一条直线周围,我们把其表示为:
y a bx
~ N (0, 2 )
i 1
i 1
10
10
10
l xy ( xi x ) xi yi 10xy 1350,
2 i 1
i 1
13
10
l xx ( xi x )2 xi2 10x 2 210 ,
i 1
i 1
10
10
l xy ( xi x )2 xi yi 10xy 1350,
2 2 y ~ N ( a bx , ) , 其中 a, b及 都是 即对每一个x值, 不依赖于x 的未知参数. 称上述方程为 y 关于 x 的一
线性回归方程. 通常记为 元
ˆ a bx y
ˆ , 称a 为回归常数 ˆ 及b 由样本对 a, b 进行估计 , 得到a ,
b为回归系数 .
i 1
i 1
10
10
l xy ˆ b 6.4286, l xx
所以所求回归方程为
ˆx 1.4288, ˆ yb a
ˆ 1.4288 6.4286x . y
14
练习:
P240 习题七
15
7
求 a,b 估计值的方法:
(一) 作图法:简单方便,但精度差,局限性大; (二) 参数估计法:
最大似然估计法;
矩估计法; 最小二乘估计法(常用).
8
二、最小二乘法
根据上述假设,对 i 1,2,n,
n
yi a bxi i
i
如 a , b 的值能使
由于
|
i 1

i
| | 为最小,则该直线是较理想的选择. | 最小与 最小一致,故问题成为求 a , b ,使
相关文档
最新文档