备课笔记-回归检验
回归分析及独立性检验的基本知识点及习题集锦

回归分析的基本知识点及习题本周题目:回归分析的基本思想及其初步应用本周重点:(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;本周内容:一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。
4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。
可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。
回归系数检验

回归系数检验回归系数检验是一种统计方法,用于确定回归模型中自变量的系数是否与因变量存在显著相关性。
在回归分析中,我们建立了一个包含一个或多个自变量的回归模型,该模型用于预测因变量的值。
回归系数检验的目的是评估自变量的系数是否统计上显著不等于零,从而判断自变量是否对因变量产生重要影响。
在进行回归系数检验时,我们通常会构建一个假设检验。
假设检验的零假设 (H0) 是回归系数等于零,而备择假设 (H1) 是回归系数不等于零。
如果回归系数显著不等于零,我们会拒绝零假设,即认为自变量与因变量之间存在显著相关性。
反之,如果回归系数不显著,我们会接受零假设,即认为自变量对因变量没有显著影响。
回归系数检验的关键是计算 t 统计量和 p 值。
t 统计量用于反映回归系数的显著性,而 p 值用于评估 t 统计量的显著性。
t 统计量的计算方法为回归系数除以其标准误 (standard error)。
标准误可以通过计算回归模型的残差平方和与自由度的比值来获得。
计算出 t 统计量后,可以使用 t 分布表来确定与之对应的 p 值。
p 值是指在零假设成立时,观察到的 t 统计量或更极端的值出现的概率。
通常,我们使用一个事先设定的显著性水平 (例如0.05) 来进行判断。
如果 p 值小于显著性水平,则拒绝零假设,认为回归系数显著不等于零。
反之,如果 p 值大于显著性水平,则接受零假设,认为回归系数不显著。
除了 t 统计量和 p 值,回归系数检验还可以利用置信区间来评估回归系数的显著性。
置信区间是指回归系数的一个估计范围,其中包含了回归系数真值的可能区间。
通常,我们使用一个事先设定的置信水平 (例如95%) 来构建置信区间。
如果置信区间不包含零,就意味着回归系数在给定置信水平下是显著不等于零的。
回归系数检验可以应用于多元回归分析中的单个自变量或多个自变量。
对于多元回归分析,我们可以利用方差分析 (ANOVA) 来评估整体模型的显著性。
高三数学回归分析知识点

高三数学回归分析知识点回归分析是数学中一种重要的数据分析方法,主要用于研究变量之间的关系以及预测未来的趋势。
它在高三数学中也是一个重要的知识点。
本文将介绍高三数学回归分析的基本概念、方法和应用。
一、回归分析的基本概念回归分析是通过对一组相关变量的观测数据进行统计分析,建立一个数学模型,从而揭示变量之间的关系和规律。
在回归分析中,通常将一个或多个自变量与一个因变量进行关联,通过构建回归方程来描述这种关系。
回归分析可以帮助我们理解和预测变量之间的相互作用。
二、回归分析的方法1. 简单线性回归分析简单线性回归分析是回归分析的最基本形式,它研究两个变量之间的关系。
在简单线性回归中,假设自变量和因变量之间存在一个线性关系。
通过最小化残差平方和来确定最佳拟合直线,从而建立回归方程。
2. 多元线性回归分析多元线性回归分析是简单线性回归的扩展,它研究多个自变量与一个因变量之间的关系。
在多元线性回归中,需要选择合适的自变量,并进行变量筛选和模型检验,以建立具有良好拟合度和预测能力的回归方程。
3. 非线性回归分析非线性回归分析是在回归分析的基础上,考虑变量之间的非线性关系。
它通常通过将自变量进行变换或引入非线性项来拟合数据。
非线性回归可以更好地适应非线性数据的变化,提高模型的拟合度。
三、回归分析的应用1. 预测分析回归分析在预测分析中有着广泛的应用。
通过建立回归模型,我们可以根据已有的数据来预测未来的趋势和结果。
这在金融、经济学、市场营销等领域都有重要的应用价值。
2. 产品开发和优化回归分析可以用于产品开发和优化过程中。
通过分析自变量与因变量之间的关系,可以确定对于产品性能的重要影响因素,从而改进产品的设计和质量。
3. 策略制定在管理和决策层面,回归分析可以帮助制定策略和决策。
通过分析不同变量之间的关系,可以找到最佳决策方案,并预测其效果。
四、总结高三数学回归分析是一门重要的知识点,它可以帮助我们理解和分析变量之间的关系,并应用于实际问题的解决。
高一数学必修四线性回归分析知识点

高一数学必修四线性回归分析知识点【一】重点难点讲解:1.回归分析:就是对具有相关关系的两个变量之间的关系形式进行测定,确定一个相关的数学表达式,以便进行估计预测的统计分析方法。
根据回归分析方法得出的数学表达式称为回归方程,它可能是直线,也可能是曲线。
2.线性回归方程设x与y是具有相关关系的两个变量,且相应于n组观测值的n 个点(xi,yi)(i=1,......,n)大致分布在一条直线的附近,则回归直线的方程为。
其中。
3.线性相关性检验线性相关性检验是一种假设检验,它给出了一个具体检验y与x 之间线性相关与否的办法。
①在课本附表3中查出与显着性水平0.05与自由度n-2(n为观测值组数)相应的相关系数临界值r0.05。
②由公式,计算r的值。
③检验所得结果如果|r|≤r0.05,可以认为y与x之间的线性相关关系不显着,接受统计假设。
如果|r|>r0.05,可以认为y与x之间不具有线性相关关系的假设是不成立的,即y与x之间具有线性相关关系。
典型例题讲解:解:设数学成绩为x,物理成绩为,则可设所求线性回归模型为,计算,代入公式得∴所求线性回归模型为=0.74x+22.28。
说明:将自变量x的值分别代入上述回归模型中,即可得到相应的因变量的估计值,由回归模型知:数学成绩每增加1分,物理成绩平均增加0.74分。
大家可以在老师的帮助下对自己班的数学、化学成绩进行分析。
若由资料可知y对x成线性相关关系。
试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少分析:本题为了降低难度,告诉了y与x间成线性相关关系,目的是训练公式的使用。
(2)当x=10时,=1.23×10+0.08=12.38(万元)即估计使用10年时维修费用是12.38万元。
说明:本题若没有告诉我们y与x间是线性相关的,应首先进行相关性检验。
如果本身两个变量不具备线性相关关系,或者说它们之间相关关系不显着时,即使求出回归方程也是没有意义的,而且其估计与预测也是不可信的。
回归系数的估计及检验

回归系数的估计及检验回归分析是统计学中一种常用的分析方法,用于研究自变量与因变量之间的关系。
回归分析的核心是估计回归系数,通过对数据进行拟合,得到最佳的回归方程。
本文将对回归系数的估计及检验进行详细介绍。
一、回归系数的估计回归系数的估计可以使用最小二乘法。
最小二乘法是一种常见的参数估计方法,其目标是使观测值与拟合值之间的平方差最小化。
在回归分析中,我们通过最小化残差平方和来估计回归系数。
具体而言,通过最小化观测值与拟合值之间的差异,得到最优的回归系数估计。
二、回归系数的检验在回归分析中,我们需要对回归系数进行检验,以判断自变量对因变量的影响是否显著。
常见的回归系数检验方法包括t检验和F检验。
1. t检验t检验用于判断回归系数是否显著不等于零。
t检验的原假设是回归系数等于零,备择假设是回归系数不等于零。
通过计算回归系数的标准误差和t值,可以得到回归系数的t统计量。
根据t统计量和自由度,可以计算出对应的p值。
如果p值小于显著性水平(通常为0.05),则可以拒绝原假设,认为回归系数显著不等于零。
2. F检验F检验用于判断回归模型是否显著。
F检验的原假设是回归模型中所有回归系数都等于零,备择假设是至少存在一个回归系数不等于零。
通过计算回归模型的残差平方和和回归平方和,可以得到F统计量。
根据F统计量和自由度,可以计算出对应的p值。
如果p值小于显著性水平(通常为0.05),则可以拒绝原假设,认为回归模型显著。
三、回归系数的解释回归系数的估计和检验给出了自变量对因变量的影响程度和显著性。
回归系数的符号表示了自变量对因变量的正向或负向影响,而系数的大小表示了影响的程度。
例如,如果某个自变量的回归系数为正且显著,说明该自变量对因变量有正向影响,并且系数的绝对值越大,影响越显著。
回归系数的置信区间也是回归分析中常用的指标。
置信区间表示了对回归系数的估计的不确定性范围。
一般来说,置信区间越窄,对回归系数的估计越精确。
戏说统计学习笔记(4)——多元回归分析

戏说统计学习笔记(4)——多元回归分析我们已经发出了李连江教授的《戏说统计》课程中的三篇学习笔记:相关分析、显著性检验与回归分析。
今天,我们将发出第四篇学习笔记:多元回归分析。
希望我们的整理可以继续供大家讨论学习。
多元回归分析多变项分析:由面到体一果多因:多元回归分析提纲:1. 一果多因,与哲学上所说的一因多果相对应2. 净(偏)回归系数3. 多元回归系数是合力比如正相关和负相关,正相关就是往上拉,负相关就是往下拉。
当有多个自变量的时候,有的自变量往上拉,有的自变量往下拉,最后形成的力量就是合力。
4. 判定系数告诉我们合力的威力如果只有一个自变量,那么判定系数就告诉我们这一个自变量可以解释掉方差的百分之多少。
如果有多个自变量,那么就是这几个自变量合在一起的合力能够解释掉方差的百分之多少。
正文:第一点,一果多因我们想了解为什么工资会因人而异,头几次我们考虑到会不会是受教育程度影响。
但是我们根据常识也好,根据科学研究也好,我们知道一个结果不是因为一个原因。
一果多因的情况要求我们解释一个结果的出现或者因变项的变异的时候考虑到不止一个自变项,这个时候就要运用到多元回归分析。
多元指的是有两个或两个以上的自变项,这里需要注意的是回归分析只允许有一个因变量。
多元回归分析不是简单的多变项回归分析,而是多个自变项回归分析。
这个图表中,因变量是现在的年薪(红色圈中)。
在前面的分析中我们只看教育程度对工资的影响,现在我们既看教育程度又看是不是经理以及是不是少数民族。
在分析教育程度对工资的影响的时候,我们看到教育程度每增加一年,工资会增加3909。
但是现在的表中不是3909了,变成了1620了。
原因是什么呢?原因是只看教育程度对工资的影响,看的是它的毛重。
这个毛重里面,有一部分是教育程度的,还有一部分是受教育程度影响的人是不是能够当经理,这一部分是当经理的贡献。
我们现在如果把当经理的贡献拿掉以后,再看教育程度的贡献,仍然是教育程度每增加一年,会对工资有一定影响。
SAS备课笔记_简单线性回归、多元线性回归

回归分析-简单线性回归、多元线性回归比较:方差分析是处理试验数据的一类统计方法。
这类统计方法的特点是所考察的指标(因变量)Y 是测量得到的数值变量(连续变量),而影响指标的因子(自变量)水平是试验者安排的几个不同值(称这种因子为分类变量或离散变量)。
试验的目的是找出影响指标的主要因子及水平。
在实际问题中,还经常遇到这样一些数据,它们不是有意安排的试验得到的数据,而是对生产过程测量记录下来的数据。
对它们进行分析,目的是想找出对我们所关心的指标(因变量)Y 有影响为因素(也称自变量或回归变量)m x x x ,......,,21,并建立用m x x x ,......,,21预报Y 的经验公式。
对于现实世界,不仅要知其然,而且要知其所以然。
顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的比例是不够的,商家希望了解什么是影响顾客观点的因素,以及这些因素是如何起作用的。
类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,如何影响发病率的。
发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。
一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。
这种关系一般称为模型(model )。
假如用Y 表示感兴趣的变量,用X 表示其他可能与Y 有关的变量(x 也可能是若干变量组成的向量)。
则所需要的是建立一个函数关系Y=f(X)。
这里Y 称为因变量或响应变量(dependent variable, response variable ),而X 称为自变量,也称为解释变量或协变量(independent variable ,explanatory variable, covariate)。
建立这种关系的过程就叫做回归(regression )。
一旦建立了回归模型,除了对各种变量的关系有了进一步的定量理解之外,还可以利用该模型(函数或关系式)通过自变量对因变量做预测(prediction )。
回归知识点总结归纳

回归知识点总结归纳随着社会的发展和科技的进步,人们对于回归知识点的重视日益增加。
回归分析是一种用来探索变量之间关系的统计方法,它可以帮助我们理解变量之间的关系,并对未来的趋势进行预测。
在本文中,我们将对回归知识点进行总结归纳,以便读者更好地掌握这一重要的统计学方法。
一、回归分析的基本概念1.1 回归分析的定义回归分析是指通过确定两个或多个变量之间的数理关系,来预测一个或多个变量的方法。
在回归分析中,通常将要预测的变量称为因变量,而用来预测的变量称为自变量。
1.2 回归分析的类型回归分析可以分为线性回归分析和非线性回归分析两种类型。
其中,线性回归分析是指因变量和自变量之间的关系是线性的,而非线性回归分析则是指因变量和自变量之间的关系是非线性的。
1.3 回归分析的应用领域回归分析广泛应用于各个学科领域,如经济学、金融学、社会科学、生物学等。
它可以帮助研究者了解变量之间的关系,并为决策提供依据。
二、线性回归分析2.1 简单线性回归分析简单线性回归分析是指只包含一个自变量和一个因变量的回归分析方法。
其数学表达式可以表示为Y = α + βX + ε,其中Y表示因变量,X表示自变量,α和β分别为截距和斜率,ε为误差。
2.2 多元线性回归分析多元线性回归分析是指包含两个或多个自变量和一个因变量的回归分析方法。
其数学表达式可以表示为Y = α + β1X1 + β2X2 + … + βnXn + ε,其中X1、X2、…、Xn为自变量,β1、β2、…、βn为自变量的系数。
2.3 线性回归分析的模型拟合线性回归分析的模型拟合是指通过最小二乘法来拟合模型,使得因变量Y和自变量X之间的残差平方和最小化。
这样可以得到最优的模型参数估计值。
2.4 线性回归分析的检验线性回归分析的检验包括回归系数的显著性检验、模型拟合度的检验、残差的独立性检验等。
这些检验可以帮助我们判断模型的有效性和可靠性。
三、非线性回归分析3.1 非线性回归分析模型非线性回归分析模型包括指数模型、对数模型、幂函数模型等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.ttest 二个样本独立T检验use /stat/stata/webbooks/reg/elemapi2ttest api00, by(yr_rnd)Two-sample t test with equal variances2.检查回归模型残差的正态性一般的观点是多元回归要求残差为正态分布。
实际情况是,进行回归的有效性检验如t检验的P值、F检验的p值的情况下要求残差是正态性分布的,但回归系数估计的无偏性并不要求残差的正态性。
OLS只要求残差项(误差项)独立同分布。
此外,对X变量的正态分布假设也不是必要的,例如对虚拟变量的回归。
当我们进行回归分析时,通常用predict 命令提取回归的残差项,并用kdensity, qnorm, pnorm 等命令检验残差是否为正态分布。
use /stat/stata/webbooks/reg/elemapi2 //api00:学术绩效;ell:英语学习人数;emer:拥有证书的教师比例;regress api00 meals ell emerSource SS df MS Number of obs = 400F( 3, 396) = 673.00Model 6749782.75 3 2249927.58 Prob > F = 0.0000Residual 1323889.25 396 3343.15467 R-squared = 0.8360Adj R-squared = 0.8348Total 8073672 399 20234.7669 Root MSE = 57.82api00 Coef. Std. Err. t P>|t| [95% Conf. Interval]meals -3.159189 .1497371 -21.10 0.000 -3.453568 -2.864809ell -.9098732 .1846442 -4.93 0.000 -1.272879 -.5468678emer -1.573496 .293112 -5.37 0.000 -2.149746 -.9972456_cons 886.7033 6.25976 141.65 0.000 874.3967 899.0098predict r, resid //用predict命令求得残差kdensity r, normal //用kdensity命令进行核心密度估计并生成核密度图,其中normal选项要求正态密度和计算的核密度叠加。
核密度图可以相像成是一系列无限小的柱状图组合而成。
pnorm r // pnorm命令画出标准正态概率图(P-P)。
pnorm对数据中段的非正态性非常敏感。
qnorm r // qnorm命令画出变量r的分位数(与分位数的正态分布相反)。
qnorm对数据两端的非正态性比较敏感。
从上面两张图可以看到,残差分布稍微偏离正态分布,接受残差分布为正态分布的假设。
除图形检验外,还可以用数值方法检验分布的正态性。
其中一个检验程序是由Lawrence C. Hamilton 编写的,可以通过findit iqr 命令将其从网络中搜寻并安装,或者在Stata 中的帮助里查找iqr ,找到后击相对应的程序再点击、install 。
iqr r% severe outliers 0.00% 0.00%# severe outliers 0 0outer fences -269.4 265.9% mild outliers 0.25% 1.25%# mild outliers 1 5inner fences -154.7 151.2-------------------low high10 trim= -1.083median= -3.657 pseudo std.dev.= 56.69 (IQR= 76.47)mean= 7.4e-08 std.dev.= 57.6 (n= 400)另一个可用的检验是swilk 命令,是Shapiro-Wilk W 正态性检验,零假设为正态分布。
swilk r r 400 0.99641 0.989 -0.025 0.51006Variable Obs W V z Prob>zShapiro-Wilk W test for normal data从检验结果来看,p 值非常大(p=0.51),表明不能拒绝零假设。
3.检查残差的同方差(Checking Homoscedasticity of Residuals )OLS 的一个主要假设是残差方差是齐次的,即同方差。
如果模型拟合较好,残差图和拟合值应该是一致的。
如果残差的方差不是常数,意味着残差方差为“异方差”(heteroscedastic )。
可以用图形法,或者非图形法检测异方差。
较常用的图形法是画出残差与拟合值,即rvfplot 命令。
rvfplot , yline(0) // yline(0)选项指使用y=0作为参考线。
R e s i d u a l s 从图上可以看到数据点分布基本均匀,只是右端有点窄,这时可认为是同方差。
还有两个命令可以检验同方差,estat imtest 和estat hettest 。
第一个是White's test,第二个是Breusch-Pagan test。
二者的零假设均为方差残差是同方差。
因此,如果p值非常小,我们拒绝零假设,接受备择假设,即存在异方差。
estat imtest. estat imtestCameron & Trivedi's decomposition of IM-testSource chi2 df pHeteroskedasticity 18.35 9 0.0313Skewness 7.78 3 0.0507Kurtosis 0.27 1 0.6067Total 26.40 13 0.0150estat hettestBreusch-Pagan / Cook-Weisberg test for heteroskedasticityHo: Constant varianceVariables: fitted values of api00chi2(1) = 8.75Prob > chi2 = 0.0031从上面的结果来看,拒绝了同方差的零假设。
这两个检验对模型假设非常敏感,因此需要和图形诊断结合起来检验异方差,以及决定是否需要修正异方差。
从前面的例子来看,图形分析结果不是很明确。
如何修正异方差,则需要用GLS(广义最小二乘法)、FGLS(可行广义最小二乘法)、WLS(加权最小二乘法)估计来解决,或者使用稳健标准差进行回归(Stata的命令是在回归时加上robust参数)。
使用“OLS+稳健标准差”时对回归系数和标准差的估计都是一致的,并不需要知道条件方差函数的形式,在Stata中的操作也十分简单,在回归命令reg后加上选择项“robust”即可。
从理论上来讲,GLS是BLUE,但FGLS即非线性估计,也不是无偏估计,因此它不是BLUE。
FGLS 必须先用用样本数据来一致地估计扰动项的协方差矩阵V(X),然后再使用GLS,因此也被称为可行加权最小二乘法(FWLS),有,其中是V的一致估计,此时是数据集(y, x)的非线性函数,因此是y的非线性函数,一般来说是有偏的。
FWLS一般用于大样本理论中。
FWLS的另一个缺点是必段估计条件方差函数,而通常情况下并不知道条件方差的具体形式,如果该函数的设定不正确,则根据FWLS计算的标准差可能失效从而导致不正确的推断。
总之“OLS+稳健标准差”适用于更一般的情形,而FWLS更为有效,因此我们必须在稳健性和有效性之间作出选择。
具体来说,如果对V的估计不准确,FWLS估计效果不如“OLS+稳健标准差”。
Stock and Waston(2004)建议大多数情况下应该使用后者。
下面是一个完整诊断异方差和处理异方差的例子。
use nerlve.dta, clearreg lntc lnq lnpl lnpk lnpfrvfplot //画残差与拟合值的散点图rvpplot lnq //画残差与解释变量的散点图从上面两个图均可以看到残差和拟合值、解释变量均存在较大的波动,很可能存在异方差。
Estat imtest, white //怀特检验estat hettest, iid //默认设置为使用拟合值检验,同时假定扰动项独立同分布estat hettest, rhs iid //使用方程右边的解释变量进行检验estat hottest lnq, iid //各种BP检验结果的p值都拒绝同方差的原假设在stata中实现WLS的方法如下:reg (被解释变量)(解释变量1)(解释变量2)……[aweight=变量名]其中,aweight后面的变量就是权重,是我们设定的函数。
一种经常的设定是假设扰动项的条件方差是所有解释变量的某个线性组合的指数函数。
在stata中也可以方便地实现:首先做标准的OLS回归,并得到残差项;reg (被解释变量)(解释变量1)(解释变量2)……predict r, resid生成新变量logusq,并用它对所有解释变量做回归,得到这个回归的拟合值,再对这个拟合值求指数函数;gen logusq=ln(r^2)reg logusq (解释变量1) (解释变量2)……predict g, xbgen h=exp(g)最后以h作为权重做WLS回归;reg (被解释变量)(解释变量1)(解释变量2)……[aweight=h]如果我们确切地知道扰动项的协方差矩阵的形式,那么GLS估计是最小方差线性无偏估计,是所有线性估计中最好的。
显然它比OLS更有效率。
虽然GLS有很多好处,但有一个致命弱点:就是一般而言我们不知道扰动项的协方差矩阵,因而无法保证结果的有效性。
到现在我们已经有了两种处理异方差的方法:一是使用对异方差稳健的标准误调整t统计量,并以此作推断;另一种是设定异方差的形式,使用可行的GLS得到有效估计。
下面总结一下标准的OLS估计同上述两种方法的优劣,并结合检验异方差的方法,给出处理异方差的一般步骤。
4.检查多重共线性(Checking for Multicollinearity)多重共线性指两个以上解释变量有较强的关联性,这意味着它们之间是可以相互替代的。
我们主要关心多重共线性的程度有多少?因为从OLS估计的假设来看,多重共线性会导致回归系数标准误大幅增加,使得估计的回归系数不稳定。
可以使用vif命令在回归完成后检验多重共线性。
vif可以替代方差波动指标,如果VIF值大于10,说明存在多重共线性。