7.线性回归分析
第7章 相关与回归分析。

第七章相关与回归分析学习内容一、变量间的相关关系二、一元线性回归三、线性回归方程拟合优度的测定学习目标1. 掌握相关系数的含义、计算方法和应用2. 掌握一元线性回归的基本原理和参数的最小二3. 掌握回归方程的显著性检验4. 利用回归方程进行预测5. 了解可化为线性回归的曲线回归6. 用Excel 进行回归分析一、变量间的相关关系1. 变量间的关系(函数关系)1)是一一对应的确定关系。
2)设有两个变量x和y,变量y 随变量x一起变化,并完全依赖于x,当变量x 取某个数值时,y依确定的关系取相应的值,则称y 是x的函数,记为y = f (x),其中x 称为自变量,y 称为因变量。
3)各观测点落在一条线上。
4)函数关系的例子–某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价)。
–圆的面积(S)与半径之间的关系可表示为S = π R2。
–企业的原材料消耗额(y)与产量x1、单位产量消耗x2、原材料价格x3间的关系可表示为y =x1 x2 x3。
单选题下面的函数关系是()A、销售人员测验成绩与销售额大小的关系B、圆周的长度决定于它的半径C、家庭的收入和消费的关系D、数学成绩与统计学成绩的关系2. 变量间的关系(相关关系)1)变量间关系不能用函数关系精确表达。
2)一个变量的取值不能由另一个变量唯一确定。
3)当变量 x 取某个值时,变量 y 的取值可能有几个。
4)各观测点分布在直线周围。
5)相关关系的例子–商品的消费量(y)与居民收入(x)之间的关系。
–商品销售额(y)与广告费支出(x)之间的关系。
–粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度 (x3)之间的关系。
–收入水平(y)与受教育程度(x)之间的关系。
–父亲身高(y)与子女身高(x)之间的关系。
3. 相关图表1)相关表:将具有相关关系的原始数据,按某一顺序平行排列在一张表上,以观察它们之间的相互关系。
2)相关图:也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用点描绘出来,通常以直角坐标轴的横轴代表自变量x,纵轴代表因变量y。
你应该要掌握的7种回归分析方法

你应该要掌握的7种回归分析方法标签:机器学习回归分析2015-08-24 11:29 4749人阅读评论(0) 收藏举报分类:机器学习(5)目录(?)[+]转载:原文链接:7 Types of Regression Techniques you should know!(译者/刘帝伟审校/刘翔宇、朱正贵责编/周建丁)什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。
这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
回归分析是建模和分析数据的重要工具。
在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。
我会在接下来的部分详细解释这一点。
我们为什么使用回归分析?如上所述,回归分析估计了两个或多个变量之间的关系。
下面,让我们举一个简单的例子来理解它:比如说,在当前的经济条件下,你要估计一家公司的销售额增长情况。
现在,你有公司最新的数据,这些数据显示出销售额增长大约是经济增长的2.5倍。
那么使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。
使用回归分析的好处良多。
具体如下:1.它表明自变量和因变量之间的显著关系;2.它表明多个自变量对一个因变量的影响强度。
回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。
这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。
我们有多少种回归技术?有各种各样的回归技术用于预测。
这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。
我们将在下面的部分详细讨论它们。
对于那些有创意的人,如果你觉得有必要使用上面这些参数的一个组合,你甚至可以创造出一个没有被使用过的回归模型。
但在你开始之前,先了解如下最常用的回归方法:1. Linear Regression线性回归它是最为人熟知的建模技术之一。
计量经济学习题及全部答案

计量经济学习题一一、判断正误1.在研究经济变量之间的非确定性关系时,回归分析是唯一可用的分析方法; 2.最小二乘法进行参数估计的基本原理是使残差平方和最小;3.无论回归模型中包括多少个解释变量,总离差平方和的自由度总为n -1; 4.当我们说估计的回归系数在统计上是显着的,意思是说它显着地异于0; 5.总离差平方和TSS 可分解为残差平方和ESS 与回归平方和RSS 之和,其中残差平方和ESS 表示总离差平方和中可由样本回归直线解释的部分; 6.多元线性回归模型的F 检验和t 检验是一致的;7.当存在严重的多重共线性时,普通最小二乘估计往往会低估参数估计量的方差; 8.如果随机误差项的方差随解释变量变化而变化,则线性回归模型存在随机误差项的自相关;9.在存在异方差的情况下,会对回归模型的正确建立和统计推断带来严重后果; 10...DW 检验只能检验一阶自相关; 二、单选题1.样本回归函数方程的表达式为 ;A .i Y =01i i X u ββ++B .(/)i E Y X =01i X ββ+C .i Y =01ˆˆi i X e ββ++D .ˆi Y =01ˆˆiX ββ+ 2.下图中“{”所指的距离是 ;A .随机干扰项B .残差C .i Y 的离差D .ˆiY 的离差 3.在总体回归方程(/)E Y X =01X ββ+中,1β表示 ;A .当X 增加一个单位时,Y 增加1β个单位B .当X 增加一个单位时,Y 平均增加1β个单位C .当Y 增加一个单位时,X 增加1β个单位D .当Y 增加一个单位时,X 平均增加1β个单位 4.可决系数2R 是指 ;A .剩余平方和占总离差平方和的比重B .总离差平方和占回归平方和的比重C .回归平方和占总离差平方和的比重D .回归平方和占剩余平方和的比重 5.已知含有截距项的三元线性回归模型估计的残差平方和为2i e ∑=800,估计用的样本容量为24,则随机误差项i u 的方差估计量为 ;A .B .40C .D .6.设k 为回归模型中的参数个数不包括截距项,n 为样本容量,ESS 为残差平方和,RSS 为回归平方和;则对总体回归模型进行显着性检验时构造的F 统计量为 ;A .F =RSSTSSB .F =/(1)RSS k ESS n k --C .F =/1(1)RSS k TSS n k --- D .F =ESSTSS7.对于模型i Y =01ˆˆi iX e ββ++,以ρ表示i e 与1i e -之间的线性相关系数2,3,,t n =,则下面明显错误的是 ;A .ρ=,..DW =B .ρ=-,..DW =-C .ρ=0,..DW =2D .ρ=1,..DW =08.在线性回归模型 011...3i i k ki i Y X X u k βββ=++++≥;如果231X X X =-,则表明模型中存在 ;A .异方差B .多重共线性C .自相关D .模型误设定9.根据样本资料建立某消费函数 i Y =01i i X u ββ++,其中Y 为需求量,X 为价格;为了考虑“地区”农村、城市和“季节”春、夏、秋、冬两个因素的影响,拟引入虚拟变量,则应引入虚拟变量的个数为 ;A .2B .4C .5D .610.某商品需求函数为ˆi C =100.5055.350.45i i D X ++,其中C 为消费,X 为收入,虚拟变量10D ⎧=⎨⎩城镇家庭农村家庭,所有参数均检验显着,则城镇家庭的消费函数为 ;A .ˆi C =155.850.45i X +B .ˆiC =100.500.45i X + C .ˆi C =100.5055.35i X +D .ˆiC =100.9555.35i X + 三、多选题1.一元线性回归模型i Y =01i i X u ββ++的基本假定包括 ;A .()i E u =0B .()i Var u =2σ常数C .(,)i j Cov u u =0 ()i j ≠D .(0,1)iu NE .X 为非随机变量,且(,)i i Cov X u =02.由回归直线ˆi Y =01ˆˆi X ββ+估计出来的ˆiY ; A .是一组平均数 B .是实际观测值i Y 的估计值 C .是实际观测值i Y 均值的估计值 D .可能等于实际观测值i Y E .与实际观测值i Y 之差的代数和等于零 3.异方差的检验方法有A .图示检验法B .Glejser 检验C .White 检验D ...DW 检验E .Goldfeld Quandt -检验4.下列哪些非线性模型可以通过变量替换转化为线性模型 ;A .i Y =201i i X u ββ++B .1/i Y =01(1/)i i X u ββ++C .ln i Y =01ln i i X u ββ++D .i Y =iui i AK L e αβE .i Y =1122012iiX X i e e u ββααα+++5.在线性模型中引入虚拟变量,可以反映 ;A .截距项变动B .斜率变动C .斜率与截距项同时变动D .分段回归E .以上都可以 四、简答题1.随机干扰项主要包括哪些因素它和残差之间的区别是什么2.简述为什么要对参数进行显着性检验试说明参数显着性检验的过程;3.简述序列相关性检验方法的共同思路; 五、计算分析题1.下表是某次线性回归的EViews 输出结果,根据所学知识求出被略去部分的值用大写字母标示,并写出过程保留3位小数;Dependent Variable: Y Method: Least Squares Included observations: 132.用Goldfeld Quandt -方法检验下列模型是否存在异方差;模型形式如下:i Y =0112233 i i i i X X X u ββββ++++其中样本容量n =40,按i X 从小到大排序后,去掉中间10个样本,并对余下的样本按i X 的大小等分为两组,分别作回归,得到两个残差平方和1ESS =、2ESS =,写出检验步骤α=;F 分布百分位表α=3.有人用广东省1978—2005年的财政收入AV 作为因变量,用三次产业增加值作为自变量,进行了三元线性回归;第一产业增加值——1VAD ,第二产业增加值——2VAD ,第三产业增加值——3VAD ,结果为:AV =12335.1160.0280.0480.228VAD VAD VAD +-+2R =,F =- ..DW =试简要分析回归结果; 五、证明题求证:一元线性回归模型因变量模拟值ˆi Y 的平均值等于实际观测值i Y 的平均值,即ˆiY =i Y ; 计量经济学习题二一、判断正误正确划“√”,错误划“×” 1.残差剩余项i e 的均值e =()i e n ∑=0;2.所谓OLS 估计量的无偏性,是指参数估计量的数学期望等于各自的真值; 3.样本可决系数高的回归方程一定比样本可决系数低的回归方程更能说明解释变量对被解释变量的解释能力;4.多元线性回归模型中解释变量个数为k ,则对回归参数进行显着性检验的t 统计量的自由度一定是1n k --;5.对应于自变量的每一个观察值,利用样本回归函数可以求出因变量的真实值; 6.若回归模型存在异方差问题,可以使用加权最小二乘法进行修正;7.根据最小二乘估计,我们可以得到总体回归方程;8.当用于检验回归方程显着性的F 统计量与检验单个系数显着性的t 统计量结果矛盾时,可以认为出现了严重的多重共线性9.线性回归模型中的“线性”主要是指回归模型中的参数是线性的,而变量则不一定是线性的;10.一般情况下,用线性回归模型进行预测时,单个值预测与均值预测相等,且置信区间也相同; 二、单选题1.针对同一经济指标在不同时间发生的结果进行记录的数据称为A .面板数据B .截面数据C .时间序列数据D .以上都不是 2.下图中“{”所指的距离是A .随机干扰项B .残差C .i Y 的离差D .ˆiY 的离差 3.在模型i Y =01ln i i X u ββ++中,参数1β的含义是A .X 的绝对量变化,引起Y 的绝对量变化B .Y 关于X 的边际变化C .X 的相对变化,引起Y 的平均值绝对量变化D .Y 关于X 的弹性4.已知含有截距项的三元线性回归模型估计的残差平方和为2i e ∑=90,估计用的样本容量为19,则随机误差项i u 方差的估计量为A .B .6C .D .55.已知某一线性回归方程的样本可决系数为,则解释变量与被解释变量间的相关系数为A .B .0.8C .D .6.用一组有20个观测值的样本估计模型i Y =01i i X u ββ++,在的显着性水平下对1β的显着性作t 检验,则1β显着异于零的条件是对应t 统计量的取值大于 A .0.05(20)t B .0.025(20)t C .0.05(18)t D .0.025(18)t7.对于模型i Y =01122ˆˆˆˆi ik ki iX X X e ββββ+++++,统计量22ˆ()/ˆ()/(1)ii i Y Y kY Y n k ----∑∑服从A .()t n k -B .(1)t n k --C .(1,)F k n k --D .(,1)F k n k --8.如果样本回归模型残差的一阶自相关系数ρ为零,那么..DW 统计量的值近似等于 ;A .1B .2C .4D .9.根据样本资料建立某消费函数如下i Y =01i i X u ββ++,其中Y 为需求量,X 为价格;为了考虑“地区”农村、城市和“季节”春、夏、秋、冬两个因素的影响,拟引入虚拟变量,则应引入虚拟变量的个数为A .2B .4C .5D .610.设消费函数为i C =012i i i i X D X u βββ+++,其中C 为消费,X 为收入,虚拟变量10D ⎧=⎨⎩城镇家庭农村家庭,当统计检验表明下列哪项成立时,表示城镇家庭与农村家庭具有同样的消费行为A .1β=0,2β=0B .1β=0,2β≠0C .1β≠0,2β=0D .1β≠0,2β≠0 三、多选题1.以i Y 表示实际观测值,ˆiY 表示用OLS 法回归后的模拟值,i e 表示残差,则回归直线满足A .通过样本均值点(,)X YB .2ˆ()i iY Y -∑=0 C .(,)i i Cov X e =0 D .i Y ∑=ˆiY ∑ E .i i e X ∑=0 2.对满足所有假定条件的模型i Y =01122i i i X X u βββ+++进行总体显着性检验,如果检验结果显示总体线性关系显着,则可能出现的情况包括A .1β=2β=0B .10β≠,2β=0C .10β≠,20β≠D .1β=0,20β≠E .1β=2β≠0 3.下列选项中,哪些方法可以用来检验多重共线性 ;A .Glejser 检验B .两个解释变量间的相关性检验C .参数估计值的经济检验D .参数估计值的统计检验E ...DW 检验 4.线性回归模型存在异方差时,对于回归参数的估计与检验正确的表述包括A .OLS 参数估计量仍具有线性性B .OLS 参数估计量仍具有无偏性C .OLS 参数估计量不再具有效性即不再具有最小方差D .一定会低估参数估计值的方差5.关于虚拟变量设置原则,下列表述正确的有A .当定性因素有m 个类型时,引入1m -个虚拟变量B.当定性因素有m个类型时,引入m个虚拟变量会产生多重共线性问题C.虚拟变量的值只能取0和1D.在虚拟变量的设置中,基础类别一般取值为0E.以上说法都正确四、简答题1.简述计量经济学研究问题的方法;2.简述异方差性检验方法的共同思路;3.简述多重共线性的危害;五、计算分析题1.下表是某次线性回归的EViews输出结果,被略去部分数值用大写字母标示,根据所学知识解答下列各题计算过程保留3位小数;本题12分Dependent Variable: YMethod: Least SquaresIncluded observations: 181求出A 、B 的值;2求TSS2.有人用美国1960-1995年36年间个人实际可支配收入X 和个人实际消费支出Y 的数据单位:百亿美元建立收入—消费模型 i Y =01i i X u ββ++,估计结果如下:ˆiY =9.4290.936i X -+ t :2R = ,F = ,..DW =1检验收入—消费模型的自相关状况5%显着水平; 2用适当的方法消除模型中存在的问题; 五、证明题证明:用于多元线性回归方程显着性检验的F 统计量与可决系数2R 满足如下关系: 计量经济学习题三 一、判断对错1、在研究经济变量之间的非确定性关系时,回归分析是惟一可用的分析方法;2、对应于自变量的每一个观察值,利用样本回归函数可以求出因变量的真实值;DW 检验临界值表α=3、OLS 回归方法的基本准则是使残差平方和最小;4、在存在异方差的情况下,OLS 法总是高估了估计量的标准差;5、无论回归模型中包括多少个解释变量,总离差平方和的自由度总为n -1;6、线性回归分析中的“线性”主要是指回归模型中的参数是线性的,而变量则不一定是线性的;7、当我们说估计的回归系数在统计上是显着的,意思是说它显着异于0; 8、总离差平方和TSS 可分解为残差平方ESS 和与回归平方和RSS,其中残差平方ESS 表示总离差平方和可由样本回归直线解释的部分;9、所谓OLS 估计量的无偏性,是指回归参数的估计值与真实值相等; 10、当模型中解释变量均为确定性变量时,则可以用DW 统计量来检验模型的随机误差项所有形式的自相关性;二、单项选择1、回归直线t ^Y =0ˆβ+1ˆβX t 必然会通过点 A 、0,0; B 、_X ,_Y ;C 、_X ,0;D 、0,_Y ;2、针对经济指标在同一时间所发生结果进行记录的数据列,称为 A 、面板数据;B 、截面数据;C 、时间序列数据;D 、时间数据;3、如果样本回归模型残差的一阶自相关系数ρ接近于0,那么DW 统计量的值近似等于 A 、0 B 、1 C 、2 D 、44、若回归模型的随机误差项存在自相关,则参数的OLS 估计量A 、无偏且有效B 、有偏且非有效C 、有偏但有效D 、无偏但非有效 5、下列哪一种检验方法不能用于异方差检验A、戈德菲尔德-夸特检验;B、DW检验;C、White检验;D、戈里瑟检验;6、当多元回归模型中的解释变量存在完全多重共线性时,下列哪一种情况会发生A、OLS估计量仍然满足无偏性和有效性;B、OLS估计量是无偏的,但非有效;C、OLS估计量有偏且非有效;D、无法求出OLS估计量;7、DW检验法适用于的检验A、一阶自相关B、高阶自相关C、多重共线性 D都不是8、在随机误差项的一阶自相关检验中,若DW=,给定显着性水平下的临界值d L=,d U=,则由此可以判断随机误差项A、存在正自相关B、存在负自相关C、不存在自相关D、无法判断9、在多元线性线性回归模型中,解释变量的个数越多,则可决系数R2A、越大;B、越小;C、不会变化;D、无法确定10、在某线性回归方程的估计结果中,若残差平方和为10,回归平方和为40,则回归方程的拟合优度为A、 B、 C、 D、无法计算;三、简答与计算1、多元线性回归模型的基本假设有哪些2、计量经济模型中的随机误差项主要包含哪些因素3、简答经典单方程计量模型的异方差性概念、后果以及修正方法;4、简述方程显着性检验F检验与变量显着性检验t检验的区别;5、对于一个三元线性回归模型,已知可决系数R2=,方差分析表的部份结果如下:1样本容量是多少2总离差平方和TSS为多少3残差平方和ESS为多少4回归平方和RSS和残差平方和ESS的自由度各为多少5求方程总体显着性检验的F统计量;四、案例分析下表是中国某地人均可支配收入INCOME与储蓄SAVE之间的回归分析结果单位:元:Dependent Variable: SAVEMethod: Least SquaresSample: 1 31Included observations: 31Variable CoefficientStd.Errort-Statistic Prob.CINCOME――――R-squared Mean dependent var AdjustedR-squared. dependent var. of regression Akaike info criterionSum squared resid1778097Schwarz criterion.Log likelihood F-statisticDurbin-Watsonstat ProbF-statistic1、请写出样本回归方程表达式,然后分析自变量回归系数的经济含义2、解释样本可决系数的含义3、写出t检验的含义和步骤,并在5%的显着性水平下对自变量的回归系数进行t 检验临界值: 29=;4、下表给出了White异方差检验结果,试在5%的显着性水平下判断随机误差项是否存在异方差;5、下表给出LM序列相关检验结果滞后1期,试在5%的显着性水平下判断随机误差项是否存在一阶自相关;计量经济学习题四一、判断对错1、一般情况下,在用线性回归模型进行预测时,个值预测与均值预测结果相等,且它们的置信区间也相同;2、对于模型Yi =β+β1X1i+β2X2i+……+βkXki+μi,i=1,2, ……,n;如果X2=X5+X6, 则模型必然存在解释变量的多重共线性问题;3、OLS回归方法的基本准则是使残差项之和最小;4、在随机误差项存在正自相关的情况下,OLS法总是低估了估计量的标准差;5、无论回归模型中包括多少个解释变量,总离差平方和的自由度总为n-1;6、一元线性回归模型的F检验和t检验是一致的;7、如果随机误差项的方差随解释变量变化而变化,则线性回归模型存在随机误差项的序列相关;8、在近似多重共线性下,只要模型满足OLS的基本假定,则回归系数的最小二乘估计量仍然是一BLUE估计量;9、所谓参数估计量的线性性,是指参数估计量是解释变量的线性组合;10、拟合优度的测量指标是可决系数R2或调整过的可决系数,R2越大,说明回归方程对样本的拟合程度越高;二、单项选择1.在多元线性回归模型中,若两个自变量之间的相关系数接近于1,则在回归分析中需要注意模型的问题;A、自相关;B、异方差;C、模型设定偏误;D、多重共线性;2、在异方差的众多检验方法中,既能判断随机误差项是否存在异方差,又能给出异方差具体存在形式的检验方法是A、图式检验法;B、DW检验;C、戈里瑟检验;D、White检验;3、如果样本回归模型残差的一阶自相关系数ρ接近于1,那么DW统计量的值近似等于A、0B、1C、2D、44、若回归模型的随机误差项存在异方差,则参数的OLS估计量A、无偏且有效B、无偏但非有效C、有偏但有效D、有偏且非有效5、下列哪一个方法是用于补救随机误差项自相关问题的A、OLS;B、ILS;C、WLS;D、GLS;6、计量经济学的应用不包括:A、预测未来;B、政策评价;C、创建经济理论;D、结构分析;7、LM检验法适用于的检验A、异方差;B、自相关;C、多重共线性; D都不是8、在随机误差项的一阶自相关检验中,若DW=,给定显着性水平下的临界值d L=,d U=,则由此可以判断随机误差项A、存在正自相关B、存在负自相关C、不存在自相关D、无法判断9、在多元线性线性回归模型中,解释变量的个数越多,则调整可决系数2RA、越大;B、越小;C、不会变化;D、无法确定10、在某线性回归方程的估计结果中,若残差平方和为10,总离差平方和为100,则回归方程的拟合优度为A、;B、;C、;D、无法计算;三、简答与计算1、多元线性回归模型的基本假设有哪些2、简述计量经济研究的基本步骤3、简答经典单方程计量模型自相关概念、后果以及修正方法;4、简述对多元回归模型01122...i i i k ki i Y X X X u ββββ=+++++进行显着性检验F 检验的基本步骤5、对于一个五元线性回归模型,已知可决系数R 2=,方差分析表的部份结果如下:1样本容量是多少2回归平方和RSS 为多少3残差平方和ESS 为多少 4回归平方和RSS 和总离差平方和TSS 的自由度各为多少 5求方程总体显着性检验的F 统计量;四、实验下表是某国1967-1985年间GDP 与出口额EXPORT 之间的回归分析结果单位:亿美元:Dependent Variable: EXPORT Method: Least Squares Sample: 1967 1985Included observations: 19VariableCoefficientStd. Errort-Statist icProb. CGDP――――R-squaredMean dependent varAdjusted R-squared. dependent var. of regressionAkaike infocriterionSum squared residSchwarz criterion Log likelihoodF-statisticDurbin-Watson statProbF-statistic1、请写出样本回归方程表达式,然后分析自变量回归系数的经济含义2、解释样本可决系数的含义3、写出t 检验的含义和步骤,并在5%的显着性水平下对自变量的回归系数进行t 检验临界值: 17=;4、下表给出了White 异方差检验结果,试在5%的显着性水平下判断随机误差项是否存在异方差;5、下表给出LM 序列相关检验结果滞后1期,试在5%的显着性水平下判断随机误差项是否存在一阶自相关;计量经济学习题五一、判断正误正确划“√”,错误划“x ”1、最小二乘法进行参数估计的基本原理是使残差平方和最小;2、一般情况下,用线性回归模型进行预测时,个值预测与均值预测相等,且置信区间也相同;3、如果随机误差项的方差随解释变量变化而变化,则线性回归模型存在随机误差项的序列相关;4、若回归模型存在异方差问题,应使用加权最小二乘法进行修正;5、多元线性回归模型的F 检验和t 检验是一致的;6、DW 检验只能检验随机误差项是否存在一阶自相关;7、总离差平方和TSS 可分解为残差平方RSS 和与回归平方和ESS,其中残差平方RSS 表示总离差平方和可由样本回归直线解释的部分;8、拟合优度用于检验回归方程对样本数据的拟合程度,其测量指标是可决系数或调整后的可决系数;9、对于模型011... 1,2,...,i i n ni i Y X X u i n βββ=++++=;如果231X X X =-,则模型必然存在解释变量的多重共线性问题;10、所谓OLS 估计量的无偏性,是指参数估计量的数学期望等于各自真值; 二、单项选择1、回归直线01ˆˆˆi iY X ββ=+必然会通过点A、0,0B、_X,_YC、_X,0D、0,_Y2、某线性回归方程的估计的结果,残差平方和为20,回归平方和为80,则回归方程的拟合优度为A、 B、C、 D、无法计算3、针对经济指标在同一时间所发生结果进行记录的数据列,称为A、面板数据B、截面数据C、时间序列数据D、时间数据4、对回归方程总体线性关系进行显着性检验的方法是A、Z检验B、t检验C、F检验D、预测检验5、如果DW统计量等于2,那么样本回归模型残差的一阶自相关系数ρ近似等于A、0B、-1C、1D、6、若随机误差项存在异方差,则参数的普通最小二乘估计量A、无偏且有效B、有偏且非有效C、有偏但有效D、无偏但非有效7、下列哪一种方法是用于补救随机误差项的异方差问题的A、OLS;B、ILS;C、WLSD、GLS8、如果某一线性回归方程需要考虑四个季度的变化情况,那么为此设置虚拟变量的个数为A、1B、2C、3D、49、样本可决系数R2越大,表示它对样本数据拟合得A、越好B、越差C、不能确定D、均有可能10、多元线性回归模型中,解释变量的个数越多,可决系数R2A、越大;B、越小;C、不会变化;D、无法确定三、简答题1、简述计量经济学的定义;2、多元线性回归模型的基本假设有哪些3、简答异方差概念、后果以及修正方法;4、简述t检验的目的及基本步骤;四、计算对于一个三元线性回归模型,已知可决系数20.8R ,方差分析表的部份结果如下:变差来源平方和自由度源于回归ESS 200源于残差RSS总变差TSS 221样本容量是多少2总变差TSS为多少3残差平方和RSS为多少4ESS和RSS的自由度各为多少5求方程总体显着性检验的F统计量值;计量经济学习题六-案例题一、根据美国各航空公司航班正点到达的比率X%和每10万名乘客投诉的次数Y 进行回归,EViews输出结果如下:Dependent Variable: YMethod: Least SquaresSample: 1 9Included observations: 91对以上结果进行简要分析包括方程显着性检验、参数显着性检验、DW值的评价、对斜率的解释等,显着性水平均取;2按标准书写格式写出回归结果;二、以下是某次线性回归的EViews输出结果,部分数值已略去用大写字母标示,但它们和表中其它特定数值有必然联系,分别据此求出这些数值,并写出过程;保留3位小数Dependent Variable: YMethod: Least SquaresSample: 1 13Included observations: 131求A 的值; 2求B 的值; 3求C 的值;三、用1970-1994年间日本工薪家庭实际消费支出Y 与实际可支配收入X 单位:103日元数据估计线性模型Y =01X u ββ++,然后用得到的残差序列t e 绘制以下图形; 1试根据图形分析随机误差项之间是否存在自相关若存在,是正自相关还是负自相关答:图形显示,随机误差项之间存在着相关性,且为正的自相关; 2此模型的估计结果为 试用DW 检验法检验随机误差项之间是否存在自相关;四、用一组截面数据估计消费Y —收入X 方程Y =01X u ββ++的结果为1根据回归的残差序列et 图分析本模型是否存在异方差注:abset 表示et 的绝对值;2其次,用White 法进行检验;EViews 输出结果见下表:附表:DW 检验临界值表α=White Heteroskedasticity Test:Dependent Variable: RESID^2 Method: Least Squares Sample: 1 60Included observations: 60若给定显着水平0.05α=,以上结果能否说明该模型存在异方差查卡方分布临界值的自由度是多少五、下图描述了残差序列{}t e 与其滞后一期值1{}t e -之间的散点图,试据此判断随机误差项之间是否存在自相关若存在,则是正自相关还是负自相关六、在一多元线性回归模型中,为检验解释变量之间是否存在多重共线性问题,以解释变量1x 作为被解释变量,对其余解释变量进行辅助回归,得到可决系数20.95R =;试计算变量1x 的方差扩大因子1VIF ,并根据经验判断解释变量间是否存在多重共线性问题七、下表是中国某地人均可支配收入INCOME 与储蓄SAVE 之间的回归分析结果单位:元:Sample: 1 31Included observations: 31VariableCoefficientStd. Errort-Statist ic Prob.CINCOME--R-squaredMean dependent varAdjusted R-squared. dependent var. of regressionAkaike infocriterionSum squared resid 1778097. Schwarz criterion Log likelihoodF-statisticDurbin-Watson statProbF-statistic1、请写出样本回归方程表达式,然后分析自变量INCOME 回归系数的经济含义2、解释可决系数的含义3、若给定显着性水平5%α=,试对自变量INCOME 的回归系数进行显着性检验已知0.025(29) 2.045t =4、在5%α=的显着性水平下,查31n =的DW 临界值表得 1.363L d =, 1.496U d =,试根据回归结果判断随机误差项是否存在一阶自相关5、下表为上述回归的White 检验结果,在5%α=的显着性水平下,试根据P 值检验判断随机误差项是否存在异方差 White Heteroskedasticity Test:F-statisticProbabilityObsR-squaredProbability计量经济学习题一答案一、判断正误1. × 2. √ 3. √ 4. √ 5. × 6. × 7. ×8. × 9. √ 10. √ 二、单选题每小题分,共15分1. D ;2. B ;3. B ;4. C ;5. B ; 6. B ;7. B ;8. B ;9. B ;10. A ; 三、多选题1. ABCE 2. BCDE 3. ABCE 4. ABCD 5. ABCDE ; 四、简答题1.随机干扰项主要包括哪些因素它和残差之间的区别是什么答:随机干扰项包括的主要因素有:1众多细小因素的影响;2未知因素的影响;3数据测量误差或残缺;4模型形式不完善;5变量的内在随机性;随机误差项羽残差不同,残差是样本观测值与模拟值的差,即i e =ˆi iY Y -;残差项是随机误差项的估计;2.简述为什么要对参数进行显着性检验试说明参数显着性检验的过程;答:最小二乘法得到的回归直线是对因变量与自变量关系的一种描述,但它是不是恰当的描述呢一般会用与样本点的接近程度来判别这种描述的优劣,而当获得以上问题的肯定判断之后,还需要确定每一个参数的可靠程度,即参数本身以及对应的变量该不该保留在方程里,这就有必要进行参数的显着性检验;这种检验是确定各个参数是否显着地不等于零;检验分为三个步骤:①提出假设:原假设0:0i H β=;备择假设1:0i H β≠ ②在原假设成立的前提下构造统计量:()ˆ~(1)ˆiit t n k Se ββ=--③给定显着性水平α,查t 分布表求得临界值/2(1)t n k α--,把根据样本数据计算出的t 统计量值t *与/2(1)t n k α--比较:若/2(1)t t n k α*>--,则拒绝原假设0H ,即在给定显着性水平下,解释变量i X 对因变量有显着影响;若/2(1)t t n k α*<--,则不能拒绝原假设0H ,即在给定显着性水平下,解释变量i X 对因变量没有显着影响.3.简述序列相关性检验方法的共同思路;答:由于自相关性,使得相对于不同的样本点,随机干扰项之间存在相关关系,那么检验自相关性,首先根据OLS 法估计残差,将残差作为随机干扰项的近似估计值,然后检验这些近似估计值之间的相关性以判定随机干扰项是否存在序列相关;各种检验方法就是在这个思路下发展起来的;五、计算分析题1.下表是某次线性回归的EViews 输出结果,根据所学知识求出被略去部分的值用大写字母标示,Dependent Variable: Y Method: Least Squares Included observations: 13解:A=ˆ()Se β=ˆt β=7.10604.3903=;B=2R =211(1)1n R n k -----=1311(10.8728)1321-----=由公式2ˆσ=21ien k --∑,得C=2ie ∑=2ˆ(1)n k σ--=21.1886(1321)--=; 2.用Goldfeld Quandt -方法检验下列模型是否存在异方差;模型形式如下:i Y =0112233 i i i i X X X u ββββ++++其中样本容量n =40,按i X 从小到大排序后,去掉中间10个样本,并对余下的样本按i X 的大小等分为两组,分别作回归,得到两个残差平方和1ESS =、2ESS =,写出检验步骤α=;α。
线性回归-误差项分析

线性回归-误差项分析
线性回归-误差项分析
当我们⽤线性回归模型去做回归问题时,会接触到误差项这个概念
对于⼀个线性回归模型
y(i)=θTxiy^{(i)}=\theta^Tx^{i}y(i)=θT xi
其实往往不能准确预测数据的真实值,这是很正常的,各种各样的因素会使真实值很难符合线性分布,但对于有些数据分布总体会符合线性分布,但不能完全接近,这是很合理的。
对于那些很接近线性分布的数据,可以训练模型去尽量的拟合数据。
对于每⼀个样本其实会有这样⼀个公式:
y(i)=θTxi+ε(i)y^{(i)}=\theta^Tx^{i}+\varepsilon^{(i)}y(i)=θT xi+ε(i)
其中ε(i)\varepsilon^{(i)}ε(i)就叫做误差项,如果这个误差项分布符合均值为0的正太分布,那么我们就可以认为我们得到的模型是正常的,也就是说得到了⼀个线性回归合理的模型。
但要做到这⼀步,跟数据的真实分布是有很⼤关系的。
7种回归方法!请务必掌握!

7种回归⽅法!请务必掌握!7 种回归⽅法!请务必掌握!线性回归和逻辑回归通常是⼈们学习预测模型的第⼀个算法。
由于这⼆者的知名度很⼤,许多分析⼈员以为它们就是回归的唯⼀形式了。
⽽了解更多的学者会知道它们是所有回归模型的主要两种形式。
事实是有很多种回归形式,每种回归都有其特定的适⽤场合。
在这篇⽂章中,我将以简单的形式介绍 7 中最常见的回归模型。
通过这篇⽂章,我希望能够帮助⼤家对回归有更⼴泛和全⾯的认识,⽽不是仅仅知道使⽤线性回归和逻辑回归来解决实际问题。
本⽂将主要介绍以下⼏个⽅⾯:1. 什么是回归分析?2. 为什么使⽤回归分析?3. 有哪些回归类型?线性回归(Linear Regression)逻辑回归(Logistic Regression)多项式回归(Polynomial Regression)逐步回归(Stepwise Regression)岭回归(Ridge Regression)套索回归(Lasso Regression)弹性回归(ElasticNet Regression)4. 如何选择合适的回归模型?1什么是回归分析?回归分析是⼀种预测建模技术的⽅法,研究因变量(⽬标)和⾃变量(预测器)之前的关系。
这⼀技术被⽤在预测、时间序列模型和寻找变量之间因果关系。
例如研究驾驶员鲁莽驾驶与交通事故发⽣频率之间的关系,就可以通过回归分析来解决。
回归分析是进⾏数据建模、分析的重要⼯具。
下⾯这张图反映的是使⽤⼀条曲线来拟合离散数据点。
其中,所有离散数据点与拟合曲线对应位置的差值之和是被最⼩化了的,更多细节我们会慢慢介绍。
2为什么使⽤回归分析?如上⾯所说,回归分析能估计两个或者多个变量之间的关系。
下⾯我们通过⼀个简单的例⼦来理解:⽐如说,你想根据当前的经济状况来估计⼀家公司的销售额增长。
你有最近的公司数据,数据表明销售增长⼤约是经济增长的 2.5 倍。
利⽤这种洞察⼒,我们就可以根据当前和过去的信息预测公司未来的销售情况。
你应该要掌握的7种回归分析方法

go你应该要掌握的7种回归分析方法标签: 机器学习回归分析2015-08-24 11:29 4749人阅读 评论(0) 收藏 举报 分类:转载:原文链接:7 Types of Regression Techniques you should know!(译者/刘帝伟 审校/刘翔宇、朱正贵 责编/周建丁)什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。
这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
回归分析是建模和分析数据的重要工具。
在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。
我会在接下来的部分详细解释这一点。
我们为什么使用回归分析?如上所述,回归分析估计了两个或多个变量之间的关系。
下面,让我们举一个简单的例子来理解它:比如说,在当前的经济条件下,你要估计一家公司的销售额增长情况。
现在,你有公司最新的数据,这些数据显示出销售额增长大约是经济增长的2.5倍。
那么使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。
使用回归分析的好处良多。
具体如下:1.它表明自变量和因变量之间的显著关系;2.它表明多个自变量对一个因变量的影响强度。
回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。
这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。
我们有多少种回归技术?有各种各样的回归技术用于预测。
这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。
我们将在下面的部分详细讨论它们。
对于那些有创意的人,如果你觉得有必要使用上面这些参数的一个组合,你甚至可以创造出一个没有被使用过的回归模型。
但在你开始之前,先了解如下最常用的回归方法:1. Linear Regression线性回归它是最为人熟知的建模技术之一。
线性回归分析步骤

线性回归分析步骤线性回归分析是一种统计学方法,用于确定两个变量之间的线性关系。
它可以用于预测特定的变量,并估计它们之间的关系。
它也可以用于识别影响变量的其他因素,以验证假设。
线性回归是定量分析的一个重要方面,可以帮助研究人员更好地理解数据,并从中得出有意义的结论。
本文将介绍线性回归分析的基本步骤,包括数据收集、数据分析、回归分析和结果解释。
首先,在进行线性回归分析之前,需要收集数据。
这可通过实验、观察、实地考察或从其他人获得这些资料。
通常,数据收集者需要有清晰的研究目的,确定有关数据的变量类型和范围,以及所涉及的样本大小。
收集的数据需要记录,以便进行数据分析的第二步。
接下来,需要对收集的数据进行分析。
其核心方法是计算两个变量之间的相关系数,以确定它们之间的线性关系。
如果两个变量之间呈线性关系,那么可以使用线性回归分析,以估计它们之间的相关性。
同时,在样本内可以应用其他技术,比如回归的分类、因变量的探索和多变量的线性回归分析,以帮助调查人员更好地理解数据。
第三步是实施回归分析,以估计变量之间的关系。
回归分析的过程包括选择回归模型、计算参数、检验模型好坏和比较模型之间的区别。
需要注意的是,计算参数时,应该考虑到所采用的统计方法,以确保结果的准确性。
最后,还需要解释结果,以获得有意义的结论。
结果解释可以采用模型诊断和参数检验的结果,以识别模型的弱点,并根据结果对结论进行调整。
另外,也可以检查预期的变量之间的联系,以及其他变量对模型结果的影响。
最后,可以利用结果改善和解释过程中的假设,以验证研究的可行性。
综上所述,线性回归分析是一种重要的定量分析技术,可以帮助研究人员更好地理解数据,以及从中得出有意义的结论。
它的基本步骤包括数据收集、数据分析、回归分析和结果解释。
在收集数据时,应记录所涉及的变量类型、范围和样本大小的信息;在进行数据分析时,要计算变量之间的相关系数;在运行回归分析时,应考虑回归模型、计算参数和检验模型的好坏;在解释结果时,应诊断模型弱点、检查预期变量及其他变量对模型结果的影响,以及利用结果改善和验证假设。
回归分析课件-第七章

第七章 多元线性回归模型的有偏估计
性质7.4的证明
并且
ˆ k trCov ˆ k E ˆ k MSE
2
i 1
p
i
i
k
2
k
2
i 1
p
i2
i
k
2
ˆ g1 k g 2 k ˆ g k
1949 年-1959 年法国进口总额与相关变量的数据 x1 149.3 171.5 175.5 180.8 190.7 202.1 202.1 212.4 226.1 231.9 239.0 x2 4.2 4.1 3.1 3.1 1.1 2.2 2.1 5.6 5.0 5.1 0.7 x3 108.1 114.8 123.2 126.9 132.1 137.7 146.0 154.1 162.3 164.3 167.6
第七章 多元线性回归模型的有偏估计
LS 估计的性能效果与设计矩阵 X 有关,当
R X X 接近是一个奇异阵时,即呈现所谓
的“病态”时,LS 估计的性能变坏。
上海财经大学 统计与管理学院 2
第七章 多元线性回归模型的有偏估计
例 7.2
表 7.1 是 Malinvand 于 1966 年提出的研究法国经济
上海财经大学 统计与管理学院 6
第七章 多元线性回归模型的有偏估计
将 x3 看作因变量, x1 自作解释变量,那么 x3 关于 x1 的一元线性回归方 程为
x3 60258 0.686x1 ,
这说明当 x1 变化时, x3 不可能保持一个常数,因此对回归系数的解释 就复杂了,不能仅从其符号上作解释, x1 与 x3 之间存在着多重共线性 关系,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
F越大越好. 当计算出的统计值 f > f(k-1, n-k), 就表示回归 效果是好的, 在 水平下, 已解释方差(Y的变化中已经解 释的部分)明显大于未解释方差(Y的变化中尚未解释的部 分).
9. 校正的判定系数(Adjusted R2)
统计量R2中不含有自由度。所谓校正的判定系数,就是 指“考虑了自由度的判定系数R2adj”。其定义如下:
如何分析固定资产投资与生产总值关系以及固定资产投资对生产总 值的影响?
年代 • • • • • • • • • • 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 • • • • • • • • • •
固定资产投资 额(亿元) 32917 37214 34202 55118 70477 88774 109998 137324 172291 224846 • • • • • • • • • •
所谓标准化就是指对变量Y, X2, · · · ,Xk进行如下处理:
xj
式中,
Sj
Xj Xj Sj
Y Y , y SY
1 1 2 2 ( X X ) , S ( Y Y ) ij j i Y n 1 i n 1 i
于是, 原始方程:
Y 0 1 X1 ..... k X k u
11. 回归系数的置信区间
给定一置信水平 , 用统计量
ˆ j j t ˆ ˆ
j
ˆ ˆ 得到区间 ( ˆ ˆ t / 2 (n k ) , ˆ ˆ t / 2 (n k )) 为 水平上 的置信区间.
例: =0.05, 则
ˆ p{t0.025 (n k ) t0.025 (n k )} 0.95 ˆ ˆ
e x
2
判定系数R2的定义为:
R
ˆ y y
2 2
cos
2
式中, xi
ˆ Y , 其经济解释为 ˆi Y X i X , yi Yi Y , y i
已解释变差占总变差的百分比.
7. 回归效果的F检验
检验回归效果的F统计量的定义式为:
ˆ ( y / k 1 ) 已解释方差 F 服从F(k-1, n-k)分布. 2 未解释方差 e /(n k )
第 7章
线性回归分析
变量之间的关系有两种: 确定型的函数关系
不确定型的函数关系
这里主要研究不确定型的函数关系,如收入 与受教育程度之间的关系,等等问题。 但它们 之间存在明显的相互关系(称为相关关系),又 是不确定的。
回归分析是研究随机变量之间相关关系的统计方 法。其研究一个被解释变量(因变量)与一个或 多个解释变量(自变量)之间的统计关系。
T 1 T ˆ (X X) X Y
6. 判定系数R2
R2 称为判定系数, 它反映了回归效果的好坏. 其定义可以从 线性回归的几何解释中引出. y 多元回归的几何解释的图 形与一元回归的几何解释 图形完全相同, 只是横坐 标 x 不再表示一个变量, 而是表示 k-1 个变量.
ˆ x ˆ y 1
(4) u ~ N(0, 2u In )
(5) E(XTu) =0 , 或者, X 为确定矩阵
1 1 X M 1
X 11 X 21 M X n1
X 1k ..... X 2 k M L L X nk .....
(6) 秩 ( X ) = k, ( k<n)
就转化为标准方程:
y 1 x1 ..... k xk
注: 在SPSS中, 所谓标准回归系数, 就是指这一方程的 回归系数.
举例 生产总值与固定资产投资额关系分析
固定资产投资是建造和购置固定资产的经济活动, 即固定资产再生产活动。固定资产再生产过程包括固定 资产更新(局部和全部更新)、改建、扩建、新建等活 动。固定资产投资是社会固定资产再生产的主要手段。 固定资产投资额是以货币表现的建造和购置固定资产活 动的工作量,它是反映固定资产投资规模、速度、比例 关系和使用方向的综合性指标。因此,分析研究固定资 产投资额与生产总值之间的关系具有很中演的意义。
2. 普通最小二乘法估计式
在模型中, 代入样本观测值之后, 可得
Y1 1 X 12 X 1k u1 M 0 M 1 M .... k M M Y 1 X X u n n2 nk n
R
2 adj
n 1 1 1 (1 R ) 2 nk y /(n 1)
2
e /(n k )
这样,R2adj剔除了自由度的影响。
10. 回归系数的 T 检验
假设Ho: j=0; 备择假设H1: j 0 (即 Ho 不成立).
用统计量:
ˆ j j t ˆ ˆ
国内生产总值 (亿元) 99215 109655 120333 135823 159878 183217 211924 257306 300670 335353
确定变量:国内生产总值Y,固定资产投资X
从固定资产投资额(亿元)与国内生产总值(亿元)的散点图我们也可以看出, 两者之间具有较为明显的线性关系。这种线性关系可以用下面的数学表达式来描 述: Y=a+bX 利用excel(或SPSS)计算,结果如下: Y= 66474.75532 + 1.284382367X 其统计检验值如下: 相关系数 r = 0.992269829 决定系数R2 = 0.984599413 F值 = 447.5281263 t值= 21.15486058 F0.10(1,9)=3.36 t0.025(9)=1.8331
用矩阵方式表达为
Y = X + u
其中, Y =(Y1, Y2, …, Yn)T u = (u1, u2, …, un)T = ( 0, 1, …, k)T
ˆ ( ˆ , ˆ ,..., ˆ )T 若估计出, 0 1 k
普通最小二乘法估计系数公式.
ˆ ˆ X 则有 Y
2. 高斯基本假设
对于线性回归模型
Yi 1 2 X i ui i =1,2, …,n, n为样本容量.
高斯基本假设如下: (1) ui 为随机变量 ( 本假设成立, 因为我们研究就是不 确定关系). (2) E(ui) =0, 随机干扰项的期望值等于零(本假设成立, 如果其均值不是零, 可以把它并入到 1 中). (3) Var(ui) =2u , 随机干扰项的方差等于常数(本假设 有可能不成立, 以后讨论不成立时如何处理). (4) E(uiuj)=0 (ij) 随机干扰项协方差等于零(本假设
E(Y X ) 1 2 X
反映出从“平均”角度看,是确定性关系。
例:地区的多孩率与人均国民收入的散点图如下:
多 孩 率 Y
人均收入X
这两个变量之间的不确定关系,大致可以用下式表示:
Y 1 2 LnX u
设 Z =Ln X ,可将上式线性关系为:
Y 1 2 Z u
线性回归的任务:就是用恰当的方法,估计出参 数 1, 2 ,并且使估计出来的参数具有良好的统 计特征,所以,回归问题从某种视角看,视同参 数估计问题。
如果把X,Y的样本观测值代到线性回归方程中,就得 到
Yi 1 2 X i ui i =1,2, …,n, n为样本容量.
从重复抽样的角度看, Xi,Yi也可以视为随机变量。
j
j
服从t (n-k), 可以完成上述假 设检验.
注意:
T 1 ˆ ˆ ˆ u c jj , c jj ( X X ) jj
当 t t (n k ) 时, H1成立, 即 j 显著异于0.
2
( n 5 时, 若取 =0.05, 则当t 2 时, 有H1 成立, 即j显 著异于0 ) 针对回归系数的 t 统计量的显著性检验, 决定了相应的变 量能否作为解释变量进入回归方程.
一. 一元线性回归
1.一元线性回归是研究一个自变量与一个因变量的统计 关系。
例:人均收入 X 与人均食品消费支出 Y 的散点图的关
系如图。
人 均 食 品 支 出 Y
人均收入X
这两个变量之间的不确定关系,可以用下式表示:
Y 1 2 X u
式中,人均食品消费支出Y 是被解释变量, 人均收入 X 是解释变量,1, 2是待估计参数;u 是随机干扰项, 且与 X 无关, 它反映了 Y 被 X 解释的不确定性。 如果随机干扰项 u 的均值为 0, 对上式求条件均值, 有
有可能不成立, 以后讨论不成立时如何处理). (5) ui 服从 N(0, 2u )分布; (6) E(Xiuj)=0, 对Xi 的性质有两种解释: a. Xi 视为随机变量, 但与uj无关, 所以(6)成立. b. Xi 视为确定型变量, 所以(6)也成立.
3. 普通最小二乘法 (OLS)
设线性回归模型
• 4. t检验
针对H0:a=0,给定显著性水平0.05,查t分布 表得自由度为n-k = 9的t检验临界值为t0.025(9) =1.8331。a的t统计量为21.15486058,大于 t0.025(9)=1.8331,拒绝H0,也就是说,固定 资产投资额是国内生产总值的显著变量。
www.themegallery.co m
即
ˆ ˆ ˆ ˆ t0.025 (n k ) ˆ ˆ t0.025 (n k )) 0.95 p(
14. 标准回归系数
在上述回归方程中, 自变量的单位对回归系数的数量 级有很大影响, 例如: 元、百元、千元、万元等。为了从 回归系数的大小中, 简单比较相应的自变量对因变量的 作用大小, 就应当剔除自变量单位的影响。一般的处理 方法是把所有的变量“标准化”。