案例分析一元线性回归模型
第三章 一元线性回归模型

第三章 一元线性回归模型一、预备知识(一)相关概念对于一个双变量总体,若由基础理论,变量和变量之间存在因果),(i i x y x y 关系,或的变异可用来解释的变异。
为检验两变量间因果关系是否存在、x y 度量自变量对因变量影响的强弱与显著性以及利用解释变量去预测因变量x y x ,引入一元回归分析这一工具。
y 将给定条件下的均值i x i yi i i x x y E 10)|(ββ+=(3.1)定义为总体回归函数(PopulationRegressionFunction,PRF )。
定义为误差项(errorterm ),记为,即,这样)|(i i i x y E y -i μ)|(i i i i x y E y -=μ,或i i i i x y E y μ+=)|(i i i x y μββ++=10(3.2)(3.2)式称为总体回归模型或者随机总体回归函数。
其中,称为解释变量x (explanatory variable )或自变量(independent variable );称为被解释y 变量(explained variable )或因变量(dependent variable );误差项解释μ了因变量的变动中不能完全被自变量所解释的部分。
误差项的构成包括以下四个部分:(1)未纳入模型变量的影响(2)数据的测量误差(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系(4)纯随机和不可预料的事件。
在总体回归模型(3.2)中参数是未知的,是不可观察的,统计计10,ββi μ量分析的目标之一就是估计模型的未知参数。
给定一组随机样本,对(3.1)式进行估计,若的估计量分别记n i y x i i ,,2,1),,( =10,),|(ββi i x y E 为,则定义3.3式为样本回归函数^1^0^,,ββi y ()i i x y ^1^0^ββ+=n i ,,2,1 =(3.3)注意,样本回归函数随着样本的不同而不同,也就是说是随机变量,^1^0,ββ它们的随机性是由于的随机性(同一个可能对应不同的)与的变异共i y i x i y x 同引起的。
一元线性回归模型案例分析

一元线性回归模型案例分析一元线性回归是最基本的回归分析方法,它的主要目的是寻找一个函数能够描述因变量对于自变量的依赖关系。
在一元线性回归中,我们假定存在满足线性关系的自变量与因变量之间的函数关系,即因变量y与单个自变量x之间存在着线性关系,可表达为:y=β0+ β1x (1)其中,β0和β1分别为常量,也称为回归系数,它们是要由样本数据来拟合出来的。
因此,一元线性回归的主要任务就是求出最优回归系数和平方和最小平方根函数,从而评价模型的合理性。
下面我们来介绍如何使用一元线性回归模型进行案例分析。
数据收集:首先,研究者需要收集自变量和因变量之间关系的相关数据。
这些数据应该有足够多的样本观测值,以使统计分析结果具有足够的统计力量,表示研究者所研究的关系的强度。
此外,这些数据的收集方法也需要正确严格,以避免因相关数据缺乏准确性而影响到结果的准确性。
模型构建:其次,研究者需要利用所收集的数据来构建一元线性回归模型。
即建立公式(1),求出最优回归系数β0和β1,即最小二乘法拟合出模型方程式。
模型验证:接下来,研究者需要对所构建的一元线性回归模型进行验证,以确定模型精度及其包含的统计意义。
可以使用F检验和t检验,以检验回归系数β0和β1是否具有统计显著性。
另外,研究者还可以利用R2等有效的拟合检验统计指标来衡量模型精度,从而对模型的拟合水平进行评价,从而使研究者能够准确无误地判断其研究的相关系数的统计显著性及包含的统计意义。
另外,研究者还可以利用偏回归方差分析(PRF),这是一种多元线性回归分析技术,用于计算每一个自变量对相应因变量的贡献率,使研究者能够对拟合模型中每一个自变量的影响程度进行详细的分析。
模型应用:最后,研究者可以利用一元线性回归模型进行应用,以实现实际问题的求解以及数据挖掘等功能。
例如我们可以使用这一模型来预测某一物品价格及销量、研究公司收益及投资、检测影响某一地区经济发展的因素等。
综上所述,一元线性回归是一种利用单变量因变量之间存在着线性关系来拟合出回归系数的回归分析方法,它可以应用于许多不同的问题,是一种非常实用的有效的统计分析方法。
一元线性回归案例

S=963.191+18.501R
例9. CEO薪水与股本回报率
OLS回归线为 S=963.191+18.501R N=209, R^2=0.0132
企业股本回报率只能解释薪水变异中的 1.3%.
例2. 一个简单的工资方程
美国研究者以1976年的526名美国工人为样 本,OLS回归方程为:
W=-0.90 +0.54 E 这里W单位为美元/小时,E单位为年. E平均工资计算为5.90美元/小时. 根据消费者价格指数,这一数值相当于2003
年的19.06美元.
例2. 一个简单的工资方程
对同样的数据,但是把log(w)作为因变量, 得到的回归方程为:
Log(invpc)=-0.550+1.24log(price) (0.043) (0.382)
N=42 R^2=0.208 显著性检验不明显,事实上这一关系也是错误的,未
来我们将加上时间序列分析中特有的趋势分析说 名这个问题.
例8. 集装箱吞吐量与外贸额
2001-2006年中国集装箱吞吐量增长与外贸 额增长的弹性分析.以Y表示集装箱吞吐量( 百万标准箱),X表示外贸额(百亿美元).
出勤率无关,但这几乎不可能.
例5. 学校的数学成绩与学校午餐项目
以math10表示高中十年级学生在一次标准化 数学考试中通过的百分比.lnchprg表示有资 格接受午餐计划的学生的百分比.
若其他条件不变,若学生太贫穷不能保证正常 饮食,可以有资格接受学校午餐项目的资助, 他的成绩应有所提高.
例5. 学校的数学成绩与学校午餐项目
1992-1993学年美国密歇根州408所高中的 数据的OLS回归方程:
一元线性回归模型典型例题分析

第二章 一元线性回归模型典型例题分析例1、令kids 表示一名妇女生育孩子的数目,educ 表示该妇女接受过教育的年数。
生育率对教育年数的简单回归模型为μββ++=educ kids 10(1)随机扰动项μ包含什么样的因素?它们可能与教育水平相关吗?(2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。
例2.已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为所受教育水平(年)。
随机扰动项μ的分布未知,其他所有假设都满足。
如果被解释变量新员工起始薪金的计量单位由元改为100元,估计的截距项与斜率项有无变化?如果解释变量所受教育水平的度量单位由年改为月,估计的截距项与斜率项有无变化?例3.对于人均存款与人均收入之间的关系式t t t Y S μβα++=使用美国36年的年度数据得如下估计模型,括号内为标准差:)011.0()105.151(067.0105.384ˆtt Y S +==0.538 023.199ˆ=σ (1)β的经济解释是什么?(2)α和β的符号是什么?为什么?实际的符号与你的直觉一致吗?如果有冲突的话,你可以给出可能的原因吗?(3)对于拟合优度你有什么看法吗? (4)检验统计值?例4.下列方程哪些是正确的?哪些是错误的?为什么?⑴ y xt n t t=+=αβ12,,, ⑵ yx t n t tt=++=αβμ12,,, ⑶ y x t n t t t=++= ,,,αβμ12⑷ ,,,y x t n t t t =++=αβμ12 ⑸ y x t n t t =+= ,,,αβ12 ⑹ ,,,y x t n t t=+=αβ12 ⑺ y x t n t t t =++= ,,,αβμ12 ⑻ ,,,y x t n t t t=++=αβμ12 其中带“^”者表示“估计值”。
例5.对于过原点回归模型i i i u X Y +=1β ,试证明∑=∧221)(iu X Var σβ例6、对没有截距项的一元回归模型i i i X Y μβ+=1称之为过原点回归(regression through the origin )。
8.2 一元线性回归模型及其应用教案

8.2 一元线性回归模型及其应用一、教学目标知识与技能从相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤.过程与方法在发现直接求回归直线方程存在缺陷的基础上,引导学生去发现解决问题的新思路——进行回归分析,进而介绍残差分析的方法和利用R2来表示解释变量对于预报变量变化的贡献率.情感、态度与价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,掌握处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识解决实际问题的能力.教学中适当地利用学生的合作与交流,使学生在学习的同时,体会与他人合作的重要性.二、教学重难点教学重点:从残差分析、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;教学难点:了解评价回归效果的两个统计量:相关指数、残差和残差平方和.三、教学过程(一)新课导入(幻灯片)上表是上一节课我们从某大学选取8名女大学生其身高和体重数据组成的数据表,在上一节课中我们通过数据建立了回归直线方程,并根据方程预测了身高为172 cm的女大学生的体重.当时,我们提到根据回归直线方程求得的体重数据,仅是一个估计值,其与真实值之间存在着误差,为了综合分析身高和体重的关系,我们引入了线性回归模型y=bx+a+e 来表示两变量之间的关系,其中e为随机变量,又称随机误差.线性回归模型y=bx+a+e 增加了随机误差项e,因变量y的值由自变量x和随机误差e共同确定.假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上.但是,在图中,数据点并没有完全落在回归直线上.这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了,即自变量x 只能解释部分y 的变化. 同学们考虑一下,随机变量e 的均值是多少?方差又是多少? 活动设计:学生思考回答问题.设计意图:说明研究随机误差e 的必要性,通过研究随机误差e 可以分析预报值的可信度. 提出问题:既然可以用随机变量e 的方差来衡量随机误差的大小,即通过方差σ2来刻画预报变量(体重)的变化在多大程度上与随机误差有关,那么如何获得方差σ2呢? 活动结果:可以采用抽样统计的思想,通过随机变量e 的样本来估计σ2的大小. 设计目的:复习抽样统计思想,以便通过随机变量e 的样本来估计总体.探究新知提出问题:既然e 表示了除解释变量以外其他各种影响预报值的因素带来的误差,那么如何获得e 的样本来计算σ2呢? 学生活动:分组合作讨论交流.学情预测:由函数模型y ^=b ^x +a ^和回归模型y =bx +a +e 可知e =y -y ^,这样根据图表中女大学生的身高求出预报值,再与真实值作差,即可求得e 的一个估计值.教师:由于在计算回归直线方程时,利用公式求得的b ^和a ^为斜率和截距的估计值,它们与真实值a 和b 之间存在误差,因此y ^是估计值,所以e ^=y -y ^也是一个估计值. 由上可知,对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…n ,称其估计值e ^i =y i -y ^i 为相应于点(x i ,y i )的残差.将所有残差的平方加起来,这个和称作残差平方和. 类比样本方差估计总体方差的思想,可以用 作为σ2的估计量,通常,σ^2越小,预报精度越高.这样,当我们求得回归直线方程后,可以通过残差来判断模型拟合程度的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析. 设计目的:通过问题诱思,引入残差概念.(二)探索新知提出问题:对照女大学生的身高和体重的原始数据,结合求出的回归直线方程,求出相应的残差数据. 活动结果:提出问题:根据表格中的数据,以样本编号为横坐标,残差值为纵坐标,做出散点图(这样的散点图称作残差图).学生活动:分组合作,共同完成. 活动结果:残差图提出问题:观察上面的残差图,你认为哪几个样本点在采集时可能存在人为的错误?为什么?学生活动:分组讨论.活动结果:第一个和第六个样本点在采集过程中可能存在错误,因为其他的样本点基本都集中在一个区域内,只有这两个样本点的残差比较大,相对其他样本点来说,分布得较为分散. 提出问题:如何从残差图来判断模型的拟合程度? 学生活动:独立思考也可相互讨论. 活动结果:因为σ^2越小,预报精度越高,即模型的拟合程度越高,而σ^ 2越小,e ^的取值越集中,故若残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,且带状区域的宽度越窄,说明拟合精度越高,回归直线的预报精度越高.教师:在统计学上,人们经常用相关指数R 2来刻画回归的效果,其计算公式是:相关指数提出问题:分析上面计算相关指数R 2的公式,如何根据R 2来判断模型的拟合效果?22121()1()nii i n ii yy R yy ==-=--∑∑学生活动:独立思考也可相互讨论,教师加以适当的引导提示.活动结果:R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.提出问题:在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近1,表示回归的效果越好,即解释变量和预报变量的线性相关性越强,试计算关于女大学生身高与体重问题中的相关指数R2.提出问题:结合我们刚学习的概念,现在能否将建立回归模型的步骤补充完整?学生活动:讨论交流,合作完成.活动结果:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性,等等).若存在异常,则检查数据是否有误,或模型是否合适等.设计意图:设计问题,让学生讨论分析,得出使用回归方程进行预报需注意的问题,并让学生完善建立回归模型的步骤.在这个过程中,教师不宜做太多引导,要放手给学生,让学生讨论,充分参与进来.运用新知例1 一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?解:(1)根据表中数据作出散点图如下:散点图由散点图可知变量之间具有线性相关关系,可以通过求线性回归方程来拟合数据. 根据公式可求得加工时间对零件数的线性回归方程为y ^=0.668x +54.96. 残差数据如下表:(2)画出残差图残差图由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好,但需注意,由残差图也可以看出,第4个样本点和第5个样本点残差较大,需要确认在采集这两个样本点的过程中是否有人为的错误.点评:由散点图判断两个变量的线性相关关系,误差较大,利用残差图可以较好地评价模型的拟合程度,并能发现样本点中的可疑数据. 变练演编例2 在一段时间内,某种商品的价格x (元)和需求量y (件)之间的一组数据为:求出y 对x 的回归方程,并说明拟合效果的好坏. 解:作出散点图:从作出的散点图可以看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得x =18,y =45.4,由计算公式得b ^=-2.35,a ^=y -b ^x =87.7. 故y 对x 的回归方程为y ^=-2.35x +87.7,列表:y i -y ^i 1.2 -0.1 -2.4 0.3 1 y i -y10.64.6-2.4-4.4-8.4相关指数R 2≈0.946.因为0.964很接近1,所以该模型的拟合效果很好.变式1:若要分析是否在上述样本的采集过程中存在可疑数据,应如何分析? 活动设计:学生分组讨论,回顾课本解答问题. 活动成果:可以画出残差图来进行分析.变式2:既然利用残差图和相关指数都能够评价回归模型的拟合效果,能否总结一下两种方法各自的特点?活动成果:利用残差图可以直观展示拟合的效果,而且还可以发现样本数据中的可疑数据;而相关指数是把对拟合效果的评价转换为数值大小的判断,易于量化处理,并能在数量上表现解释变量对于预报变量变化的贡献率.设计意图:进一步熟悉判断拟合效果的方法以及各自的特点. 非线性回归分析2.现收集了一只红铃虫的产卵数y 和温度xoC 之间的7组观测数据列于下表:1)试建立产卵数y 与温度x 之间的回归方程;并预测温度为28oC 时产卵数目。
一元线性回归案例

例8. 集装箱吞吐量与外贸额
2001-2006年中国集装箱吞吐量增长与外贸 额增长的弹性分析.以Y表示集装箱吞吐量 (百万标准箱),X表示外贸额(百亿美元). OLS回归方程为 Y=3.7667+0.509X (2.06) (31.78) t (5)=2.776 n=6 R^2=0.996
0.1
例8. 集装箱吞吐量与外贸额
例8. 集装箱吞吐量与外贸额
2001-2007年中国集装箱吞吐量增长与外贸 额增长的弹性分析.以Y表示集装箱吞吐量 增长率(%),X表示外贸额增长率(%). OLS回归方程为 Y=18.449+0.3155X (2.3982) (1.078) t (5)=2.015 n=7 R^2=0.1887
0.1
例4. 考试分数与出勤率
假如期末考试的分数(score)取决于出勤率 (attend)和影响考试成绩的其他无法观测因素 (如学生能力等): score= β1+β2 attend+u 许多不加分析的回归发现: 这一回归中β2 〈0,即分数与出勤率负相关. 这一模型在什么情况下满足均值独立条件? 除非学生学习能力、学习攻击、年龄及其他因素与 出勤率无关,但这几乎不可能.
例3. 静态菲利普斯曲线
时间序列数据 令inf(t)表示年通货膨胀率,unem(t)表示事业率, 下 列菲利普斯曲线假定了一个不变的自然失业率和 固定的通货膨胀率预期. Inf(t)=β1+β2 unem(t)+u 依据1948-1996年美国经济数据, OLS回归方程为 Inf(t)=1.42+0.468 unem(t) (1.72) (0.289) n=49 R^2=0.053
例5. 学校的数学成绩与学校午餐项目
一元线性回归分析案例

求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。
解:1、选取身高为自变量x,体重为因变量y,作散点图:
2、由散点图知道身高和体重有比较好的线性相 关关系,因此可以用线性回归方程刻画它们之间 的关系。
第17页/共39页
课题:选修2-3 8.5 回归分析案例
分析:由于问题中要求根 据身高预报体重,因此选 取身高为自变量,体重为 因变量.
再冷的石头,坐上三年也会暖 !
1. 散点图;
2.回归方程: yˆ 0.849x 85.172 身高172cm女大学生体重 yˆ = 0.849×172 - 85.712 = 60.316(kg)
本例中, r=0.798>0.75.这表明体重与身高有很强的线性相关关系,从而也表明我们 建立的回归模型是有意义的。
xi2
2
nx
,......(2)
i 1
i 1
其中x
1 n
n i 1
xi ,
y
1 n
n i 1
yi .
(x, y) 称为样本点的中心。
第8页/共39页
课题:选修2-3 8.5 回归分析案例
再冷的石头,坐上三年也会暖 !
1、回归直线方程
1、所求直线方程叫做回归直线方程;
相应的直线叫做回归直线。
2、对两个变量进行的线性分析叫做线性回归分析。
然后,我们可以通过残差 e1, e2 , , en 来判断模型拟合的效果,
判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析。
表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。
编号 1
2
3
4
5
计量经济学第二章 一元线性回归模型(1)(肖)

10
2.在经济学中,经济学家要研究个人
消费支出与个人可支配收入的依赖关系。
这种分析有助于估计边际消费倾向,就是
可支配收入每增加一元引起消费支出的平
均变化。
11
3.在企业中,我们很想知道人们对企
业产品的需求与广告费开支的关系。这种
研究有助于估计出相对于广告费支出的需
求弹性,即广告费支出每变化百分之一的
(2.3)
想想:结合表2.1的资料 ,怎样理解式(2.3)
变量Y 的原因, 给定变量X 的值也不能具
体确定变量Y的值, 而只能确定变量Y 的
统计特征,通常称变量X 与Y 之间的这种
关系为统计关系。
16
例如,企业总产出Y 与企业的资本投入
K 、劳动力投入L 之间的关系就是统计关 系。虽然资本K 和劳动力L 是影响产出Y 的两大核心要素,但是给定K 、L 的值并 不能确定产出Y 的值。因为,总产出Y 除 了受资本投入K、劳动力投入L 的影响外
在进入正式的回归理论之前,先斟酌一下变量y与变 量x可以互换的不同名称、术语。 Y 因变量 X 自变量
被解释变量 响应变量
被预测变量
解释变量 控制变量
预测变量
回归子
归回元
22
第二节
一、引例
一元线性回归模型
假定我们要研究一个局部区域的居 民消费问题,该区域共有80户家庭组成 ,将这80户家庭视为一个统计总体。
32
函数f (Xi)采取什么函数形式,是一个
需要解决的重要问题。在实际经济系统
中,我们不会得到总体的全部数据,因
而就无法据已知数据确定总体回归函数 的函数形式。同时,对总体回归函数的 形式只能据经济理论与经验去推断。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
案例分析一元线性回归
模型
Revised as of 23 November 2020
案例分析报告
(2014——2015学年第一学期)
课程名称:预测与决策
专业班级:电子商务1202
学号: 02
学生姓名:陈维维
2014 年 11月
案例分析(一元线性回归模型)
我国城镇居民家庭人均消费支出预测
一、研究目的与要求
居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。
从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。
例如,2008年全国城镇居民家庭平均每人每年消费支出为元,最低的青海省仅为人均元,最高的上海市达人均元,上海是黑龙江的倍。
为了研究全国居民消费水平及其变动的原因,需要作具体的分析。
影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。
为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。
二、模型设定
我研究的对象是各地区居民消费的差异。
居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。
而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。
所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。
因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。
因此建立的是2008年截面数据模型。
影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。
因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。
为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。
以下是2008年各地区城镇居民人均年消费支出和可支配收入表
数据来源:
作城镇居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图
从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立的计量经济模型为如下线性模型:
Yi=a+bXi+εi i=1,2,···n
一元线性回归预测法,是指两个具有线性关系的变量,配合线性回归模型,根据自变量的变动来预测因变量平均发展趋势的方法。
三、OLS 估计
采用OLS 法估计其模型的回归系数
最小平方法的中心思想,是通过数学模型,配合一条较为理想的趋势线。
这条趋势线必须满足以下两点要求:
(1)原数列的观察值与模型的估计值的离差平方和为最小;
(2)原数列的观察值与模型的估计值的离差总和为零。
1、首先进入Excel 程序,建立工作薄,接下来进行一元线性回归的输入形式。
2、计算2x 、2y 及xy ,分别在“D2、E2、F2”单元格通过相对引用输入计算公式并向下复制。
3、计算∑x 、∑y 、∑2x 、∑2y 及∑xy 。
4、一元线性回归系数的计算:
所以b=
a=
5、按bX a Y
+=ˆ计算估计值: 四、相关系数
相关系数是一元线性回归中用来衡量两个变量之间相关程度的重要指标。
主要有两种定义方法:根据总变差定义以及根据积差法定义,由于根据积差法定义的相关系数不需要先求回归模型的剩余变差,可以直接从样本数据中计算得到,所以在本案例中比较适合使用。
其定义为
相关系数2222y y n x x n y
x xy n r )()(∑∑∑∑∑∑∑---=;
五、模型检验
1、经济意义检验
所估计的参数,说明城镇居民人均年可支配收入每相差1元,可导致居民消费支出相差元,这与经济学中边际消费倾向的意义相符。
2、显着性检验
本案例中可决系数为(可决系数R 2
的大小表明了在y 的总变差中自由量x 变动所引起的百分比,它是评价两个变量之间线性相关关系强弱的一个重要指标。
),说明所建模型整体上对样本数据拟合较好,即解释变量“城镇居民人均年可支配收入”对被解释变量“城镇居民人均年消费支出”的绝大部分差异作出了解释。
对回归系数的t 检验:当显着性水平取α=,自由度为n-2=31-2=29
查相关系数临界值表,得(29)=。
因为R=>(29)=。
故在α=显着性水平之上,检验通过,说明两个变量之间相关关系显着,也就是表明,城镇人均年可支配收入对人均年消费支出有显着影响。
六、回归预测
1、计算估计标准误差。
查表确定)(2/2n t -α。
在Excel 中输入=POWER((E34-K8*C34-K6*F34)/(G33-2), 即可得到s y =
由图表中可以看出来,黑龙江省、贵州省、甘肃省、青海省、新疆省等地可支配收入以及消费支出都排名靠后。
还有其他部分省虽然可支配收入高于其他省,但是消费支出却少于其他,例如,山西省,江西省,河南省等(我选择的可支配收入的临界值是12000,消费水平的临界值是9000)。
其中大部分都是西部地区。
在西部大开发的推动下,如果西部地区的城市居民人均年可支配收入第一步争取达到2000美元(按现有汇率即人命币12245元),第二步再争取达到2500美元(即人民币元),利用所估计的模型可预测这时城市居民可能达到的人均年消费支出水平。
可以注意到,这里的预测是利用所示数据模型对被解释变量在不同空间状况的空间预测。
接下来进行预测:首先
所谓预测区间就是指在一定的显着性水平上,依据数理统计方法计算出的包含预测目标未来真实值的某一区间范围。
根据公式可以求得:
当显着性水平取α=,自由度n-m=31-2=29时,查t分布表得:
(29)=
第一步达到12245元的时候,预测区间为:
输入公式=H35-K29*K33,=H35+K29*K33,得:
预测区间为(,)
第二步达到元的时候,预测区间为:
输入公式=H36-K29*K33,=H36+K29*K33,得:
预测区间为(,)
七、总结
消费需求主要来源于居民的可支配收入,而居民的可支配收入又来自于居民的人均收入即狭义上的居民的固定工资,它是形成当期购买力最主要的来源,同样也是影响消费需求的最直接最重要的因素。
此次案例分析我以2008年全国各地可支配收入和消费支出数据资料为基础,假设人均年可支配收入为自变量X(单位:元),人均年消费支出为因变量y(单位:元),并做出可支配收入和消费支出的相关关系图。
从这两个变量的相关关系图可观测到两者之间的大体趋势,发现它们基本上呈现出一种直线的统计关系,所以我进一步进行回归分析,并进行线性相关系数R的显着性检验。
若|R|=1表示完全线性相关;0<|R|<1表示存在不同程度线性相关;|R|<为低度线性相关,<|R|<为中度线性相关,|R|>为高度线性相关。
|R|越接近于I,说明两个变量的相关程度越密切。
通过公式,利用Excel数字处理功能,进行数据处理和简单的线性相关分析,我得出2008年全国城镇居民可支配收入和消费需求的回归方程式:y=+。
相关系数为:R= ,R2=,说明2008年全国城镇居民可支配收入和消费支出之间存在着显着的相关关系。
居民可支配收入每增加1000元,消费支出将增加大约元。
可以这么说,居民可支配收入与消费需求状况紧密相关,可支配收入会对消费需求产生重要影响,即可支配收入的扩大或缩小会导致消费需求的相应的变化。
最后通过线性相关性的检验,证实前面得出的结论:居民的可支配收入对消费需求的影响十分显着。
居民可支配收入的稳定提高,使居民的消费需求有了最坚实的基础,进而提高居民的消费需求和消费支出,拥有一个稳定舒心的生活,高水平的居民可支配收入,是影响消费需求的决定性的因素。