异方差
异方差

• • • • 异方差的概念 异方差性的后果 异方差的检验 异方差的补救措施
第一节 异方差的概念
一、异方差的性质 违反同方差的假定: 同方差: E( ) 2 异方差: E(i ) i2
Yi X i i
var( Y X i ) E(i ) i2
2 2 ˆ (( ) X ) ˆ i i ˆ )) E ( ) E ( ˆr( E (va ) 2 2 (n 1) X i Xi 2 i
X X (n 1)( X )
2 i 2 i 2 2 i
2 i
i2
ˆ) var(
第四节 异方差的补救措施 一、加权最小二乘法
Yi X i i
E(i ) 2 f ( X i )
变换模型: Yi f (Xi )
i
1 f (Xi )
2
Xi f (Xi )
i
f (Xi )
E ( i ) 2 E( ) 2 f (Xi ) f (Xi )
注意: ①当摸型含有多个解释变量时,应以每一个解释变 量为基准检验异方差。 ②此法只适用于递增型异方差。 ③对于截面样本,计算F统计量之前,必须先把数据 按解释变量的值从小到大排序。
三、white检验 White检验由H. White 1980年提出。GoldfeldQuandt 检验必须先把数据按解释变量的值从小到 大排序。White检验不需要对观测值排序,也不依 赖于随机误差项服从正态分布,它是通过一个辅 助回归式构造 2 统计量进行异方差检验。White 检验的具体步骤如下。以二元回归模型为例, yt = +1 xt1 +2 xt2 + ut ①首先对上式进行OLS回归,求残差 et 。 ②做如下辅助回归式, 2 et = 0 +1 xt1 +2 xt2 + 3 xt12 +4 xt22 + 5 xt1 xt2 + vt
计量经济学第九章异方差

四、异方差的补救措施
(一)加权最小二乘法 1.当 2i已知时: 考虑双变量PRF,
Y i B 1 B 2 X i ui (7)
var(ui ) i2
其中,Y为被解释变量,X为解释变量。假设误差方差 对模型(7)考虑如下变换:
i
Yi B 1(
是已知的。
i
1
) B2 (
ln ei2 B1 B2 ln X i vi
2
(3)
(4)检验零假设 B 0 ,即不存在异方差。如果 ln X i 和 ln ei2 之 间是统计显著的,则拒绝零假设:不存在异方差。
例子:利用方程(2)来说明帕克检验。把从该回归方程中得到的残差 用于模型(3),得到如下结果:
ln ei2 3.412 0.938 ln salesi se (4.972)
三、异方差的诊断
与多重共线性的情况一样,并没有诊断异方差的确定办法,只能借助一 些诊断工具判断异方差的存在。主要有:
1.根据问题的性质 2.残差的图形检验
(1)残差图可以是关于观察值与残差的散点图,也可以是残 ˆ 的散点图。这些图可以帮 差与解释变量,残差与估计值 Y i 助我们判断同方差假设或者是CLRM其他假设是否满足。 例子可参见美国行业利润,销售量和R&D支出。 由该例中关于观察值与残差的散点图可以得出结论,该模 型存在异方差。 2 e (2)此外,还可以利用残差的平方 i 与观察值或解释变量或 ei2 估计值的散点图来判断是否存在异方差。一般来说, 与变量 X 之间的散点图主要有如下样式。(见下一页) 图a到图c中,图a中残差平方与X之间没有可识别的系统模 式,所以不存在异方差;而图b到图e中两者都呈现出系统 关系,所以都可能存在异方差。
9第九章 异方差

七、案例—例9-2P207
现考虑工人的工资主要由受教育程度和工作年限所影响, 现收集了523个工人的工资、受教育程度、工作年限的数 据,详见表9-2。构建如下回归模型:
wagei B1 B2Edui B3Experi ui
一、异方差的性质---异方差举例
例图9-1:截面资料下研究居民家庭的储蓄行为
Yi=0+1Xi+i
Yi:第i个家庭的储蓄额 Xi:第i个家庭的可支配收入
高收入家庭:储蓄的差异较大 低收入家庭:储蓄则更有规律性,差异较小
i的方差呈现单调递增型变化
例9-1股票交易所经纪人佣金
• Y:佣金额;X:交易额; • Y对X的斜率:佣金率 • 结论:
如果存在异方差性,则表明确与解释变量的 某种组合有显著的相关性,这时往往显示出有 较高的可决系数以及某一参数的t检验值较大。
当然,在多元回归中,由于辅助回归方程中 可能有太多解释变量,从而使自由度减少,有 时可去掉交叉项。
四、异方差的修正:补救措施1-加权最小二乘法wls
模型检验出存在异方差性,可用加权最小二乘 法(Weighted Least Squares, WLS)进行估计。
X越大,对应的方差越小; X越小,对应的方差越大。 • 解读: 经纪公司对大机构投资者收取的佣金率差异小
对小机构投资者收取的佣金率差异大
例9-2 523个工人的工资等数据
• Y:工资;X1:教育程度;X2:工作年限 • 讨论: X1越大,Y的波动越大,扰动项的方差越大; X2越大, Y的波动越大,扰动项的方差越大。
或
Yi Xi
第三章异方差和自相关

2
第一节 异方差的介绍
一、异方差的定义及产生原因
▪ 异方差(heteroscedasticy)就是对同方差假设 (assumption of homoscedasticity)的违反。经典 回归中同方差是指随着样本观察点X的变化 i ,线 性模型中随机误差项 的方差并不改变,保持为
▪ 对每一个回归模型,计算残差平方和:记 值较小的一组子样本的残差平方和为 RSS1
= 1i2 ,xi 值较大的一组子样本的残差平
方和为 RSS2 = 2i2 。
13
▪ 第三步,建立统计量。
▪ 用所得出的两个子样本的残差平方和构成F统 计量:
F
2i
2
/(
n
2
d
1i
2
/(
n
2
d
k 1) k 1)
用OLS法。对 进行t检验,如果不显著,则没
有异方差性。否则表明存在异方差。 ▪ Park检验法的优点是不但能确定有无异方差性,
而且还能给出异方差性的具体函数形式。但也有
质疑,认为 仍可vi 能有异方差性,因而结果的真
实性要受到影响。
20
(四)Glejser检验法
▪ 这种方法类似于Park检验。首先从OLS回归取得
7
一、图示法
▪ 图示法是检验异方差的一种直观方法,通常有下 列两种思路:
▪ (一)因变量y与解释变量x的散点图:若随着x 的增加,图中散点分布的区域逐渐变宽或变窄,
或出现了偏离带状区域的复杂变化,则随机项可 能出现了异方差。
▪ (与x二的)散残点差图图,。或残者差在图有即多残个差解平释方变ˆ量i(2 时i2的可估作计残值)
异方差

3.模型的对数变换
在经济意义成立的情况下,如果对模型: 在经济意义成立的情况下,如果对模型:
Yi = b1 + b2 X i + u i 作对数变换, 代替, 作对数变换,其变量 Yi 和 X i 分别用 lnYi 和 lnXi 代替,即:
lnYi = b1 + b2 lnX i + ui
对数变换后的模型通常可以降低异方差性的影响: 对数变换后的模型通常可以降低异方差性的影响: (1)运用对数变换能使测定变量值的尺度缩小 运用对数变换能使测定变量值的尺度缩小。 (1)运用对数变换能使测定变量值的尺度缩小。 (2)经过对数变换后的线性模型 经过对数变换后的线性模型, (2)经过对数变换后的线性模型,其残差表示相对误差往往 比绝对误差有较小的差异。 比绝对误差有较小的差异。 注意:对变量取对数虽然能够减少异方差对模型的影响, 注意:对变量取对数虽然能够减少异方差对模型的影响,但应 注意取对数后变量的经济意义。 注意取对数后变量的经济意义。
Yt = β1 +β2 X2t +β3 X3t +ut
et2 (1)求回归估计式并计算 (1)求回归估计式并计算
(2)建立辅助函数 (2)建立辅助函数 建立辅助回归: 建立辅助回归:
ˆ ˆ ˆ ˆ ˆ ˆ ˆ et2 = α1 + α 2 X 2 t + α 3 X 3 t + α 4 X 22t + α 5 X 32t + α 6 X 2 t X 3 t
i = 1, 2, 3,..., n
因此同方差性指的是所有观测值的分散程度相同。 因此同方差性指的是所有观测值的分散程度相同。 同方差性指的是所有观测值的分散程度相同 异方差是指各观测值的分散程度有明显差异。 异方差是指各观测值的分散程度有明显差异。
4-异方差

5.
3 Spearman等级相关系数检验
1. 2. 3.
利用最小二乘法进行回归分析,计算残差 原假设:同方差;备择假设:异方差
ˆ µi
ˆ 对解释变量Xi和 µ i 分别按从小到大的顺序排列,并赋予1到n中的 一个顺序号表示其等级 ˆ 对每个下标i,计算Xi和 µ i 的等级差di
计算等级相关系数
四. 异方差的检验
图示法 Goldfeld-Quandt检验 Spearman等级相关系数检验 Glejser(戈里瑟)检验 Reset检验 White检验
1图示法
ˆ µ ˆ µ
X
X
ˆ µ ˆ Y
ˆ µ
ˆ Y
2 Goldfeld-Quandt检验
1.
建立两个子样本:按大小排列样本观测值,去除中间c个观测值 (c一般为样本容量的1/4到1/3)
第4章
异方差
主要内容
异方差的概念 产生异方差的原因 异方差的结果 异方差的检验 异方差的修正方法
统计知识复习
E(cX ) = cE( X ) 2 Var (cX ) = c Var ( X )
一. 异方差的概念
随机误差项的方差受到解释变量的影响,随解释变量 取值的变化而变化,称随机误差项存在异方差。 同方差(经典假设):随机扰动项ui对每一个样本点的 方差是一个常数 异方差:∂ µ i 与i有关,不再是常数,但ui仍然是一个服 从正态分布的随机变量 Var (µi) = σ2µ =常数
Yi = b0 + b1 ln X 1i + b2 ln X 2i + µ i
(产出) (资本) (劳动力)
对规模小的企业,在一定的劳动投入和资金投 入下,产出的波动幅度小,随机项的方差小 对规模大的企业,在一定的劳动投入和资金投 入下,产出的波动幅度大,随机项的方差大 随机误差项的方差随企业规模增大而递增
异方差

异方差问题1.什么是异方差?i ki k i i i u X X X Y +++++=ββββ 22110,ni ,,2,1 =221),,|(i i i i X X u Var σ= ,n i ,,2,1 =或者 2)(i i u Var σ=,n i ,,2,1 =同方差异方差2.异方差性的两个例子⏹收入与储蓄⏹打字出错个数与打字练习小时数3.异方差的类型同方差递增方差4.异方差性的后果(1)OLS 估计量仍然具有线性性和无偏性 证明:我们以一元线性回归模型为例来证明。
∑∑∑∑∑∑+-++=-==21010221)]()[()(ˆii i i i i i i i i ΔX X u X ΔX ΔX Y Y ΔX ΔX ΔY ΔX βββββ ∑+=i i u k 1β,其中∑=2iii ΔX ΔX k 。
⏹ 证明无偏性时只使用到两个假设:解释变量是外生的,误差的均值为零 ⏹ 下面证明OLS 估计量方差在同方差与异方差情况下不相等。
当假设为同方差时,1ˆβ的方差为 )var()var()ˆvar(11∑∑=+=i i i i u k u k ββ (由随机扰动项的无自相关性假设) ∑∑==)var()var(2i i i i u k u k (由同方差假设)∑∑∑∑=⎥⎥⎦⎤⎢⎢⎣⎡==22222222)(ii i iΔXΔX ΔX k σσσ当方差为异方差是,1ˆβ的方差为 ∑∑==2221)var()ˆvar(i i i i k u k σβ 22222222)()()(∑∑∑∑=⎥⎥⎦⎤⎢⎢⎣⎡=i i i i i i ΔX ΔX ΔX ΔX σσ (2)变量的显著性检验失去意义说明:如果在存在异方差的情况下,仍然使用常用的OLS 估计量表达式,则计算得到的方差通常是有偏的。
由于t 统计量和F 统计量的表达式中都包含样本标准差,因此计算得到的t 统计值和F 统计值都是有偏误的,则建立在其上的假设检验也是不可靠的。
异方差的名词解释

异方差的名词解释引言:在实际应用中,我们常常会遇到一种数据特征,即样本的方差不稳定的现象。
这种现象称为异方差,是统计分析中一个重要的概念。
本文将从定义、原因、影响以及如何处理异方差等方面进行探讨,以帮助读者更好地理解异方差的概念及其应用。
一、定义异方差(Heteroscedasticity)指的是在统计学中,方差并不是恒定的,而是与自变量的某些特征相关联。
换句话说,样本的方差会随着自变量的不同取值而发生变化。
二、原因异方差可能由多种因素引起。
常见的原因包括以下几个方面:1. 异常值:样本中存在极端值或异常值,使得方差的测量结果被拉大或压缩;2. 比例误差:不同自变量取值下,因变量的测量误差有一定的比例关系;3. 数据收集:数据收集过程中的误差,或者是相关变量的选择问题,可能导致异方差的出现。
三、影响异方差存在对统计分析结果产生不良影响的情况,对回归分析尤为关键。
以下是几个常见的影响:1. 回归系数估计值的不准确:异方差可能导致回归系数估计值的偏倚,进而影响模型的解释和预测能力;2. 统计检验结果的误导:异方差使得恰当的统计检验成为挑战,常见的问题是标准误估计的错误;3. 置信区间和预测区间的准确性下降:异方差可能导致对未来观测值进行预测时的不确定性增加。
四、处理方法针对异方差问题,有一些常用的方法可以帮助我们处理。
以下是几种常见的处理方法:1. 权重最小二乘法(Weighted Least Squares, WLS):根据异方差的特征,使用加权最小二乘法来估计回归系数。
即根据样本的方差-均值关系,为每个样本赋予相应的权重,从而平衡不同自变量值下对模型的贡献。
2. 魏布尔-克劳修斯检验(White-Huber test):该检验用于检验异方差的存在。
若检验结果表明存在异方差,则可以尝试使用WLS进行回归估计。
3. 变量转换(Variable Transformation):通过将特征变量进行线性或非线性的转换,以消除异方差的影响。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
观察是否存在明显的散点扩大、缩小或 观察是否存在明显的散点扩大、缩小或复杂型趋势 散点扩大 即不在一个固定的带型域中) (即不在一个固定的带型域中)
图形举例
用1998年四川省各地市州农村居民家庭消费支出与家庭纯 1998年四川省各地市州农村居民家庭消费支出与家庭纯 收入的数据,绘制出消费支出对纯收入的散点图, 收入的数据,绘制出消费支出对纯收入的散点图,其中用 表示农村家庭消费支出, 表示家庭纯收入。 X Y 1 表示农村家庭消费支出, 1 表示家庭纯收入。
同方差性:对所有的 i (i = 1,2,..., n) 有:Var(ui ) = σ 2 同方差性: 异方差性: 异方差性:Var(ui ) = σ i2 ,
i = 1, 2, 3,..., n
因此同方差性指的是所有观测值的分散程度相同。 因此同方差性指的是所有观测值的分散程度相同。 同方差性指的是所有观测值的分散程度相同 异方差是指各观测值的分散程度有明显差异。 异方差是指各观测值的分散程度有明显差异。
三、异方差性的影响
在使用OLS回归时,若出现了异方差,此时, 在使用OLS回归时,若出现了异方差,此时,参 OLS回归时 数估计的无偏性仍然成立, 数估计的无偏性仍然成立,即零均值假定仍然成立 ( E(ui ) = 0),但是会出现以下不良后果: ),但是会出现以下不良后果: 但是会出现以下不良后果 1.参数估计量非有效 方差不再是最小的) 参数估计量非有效( 1.参数估计量非有效(方差不再是最小的) 同方差假定是OLS估计方差最小的前提条件,所 估计方差最小的前提条件, 同方差假定是 估计方差最小的前提条件 当出现异方差时, 以,当出现异方差时,将不能再保证最小二乘估计的 方差最小。 方差最小。 2.变量的显著性检验失效 2.变量的显著性检验失效 由于异方差的影响, 由于异方差的影响,使得无法正确估计参数标准 误差, 统计量值不能正确确定, 误差,导致参数估计的 t 统计量值不能正确确定,如 统计量进行参数的显著性检验将失去意义 参数的显著性检验将失去意义。 果仍用 t 统计量进行参数的显著性检验将失去意义。
五、 异方差性的补救措施
1.模型的对数变换
在经济意义成立的情况下,如果对模型: 在经济意义成立的情况下,如果对模型:
Yi = b1 + b2 X i + u i 作对数变换, 代替, 作对数变换,其变量 Yi 和 X i 分别用 lnYi 和 lnXi 代替,即:
lnYi = b1 + b2 lnX i + ui
2.加权最小二乘法
用最小二乘法估计方程, 点击“ (1) 用最小二乘法估计方程 , 点击 “ Proc/Make Residual series”生成参差序列 命名为res 生成参差序列, res1 series”生成参差序列,命名为res1。 w=1/@abs(res1 11= /x1 12= /x1 (2) 生 成 w=1/@abs(res1 ) , w11=1/x1^0.5 , w12=1/x1 , 13= /x1 21= /x2 ,w22 /x2 22= w13=1/x1^2,w21=1/x2^0.5,w22=1/x2…… (3) 进 行 加 权 最 小 二 乘 估 计 ( 在 Option 选 项 卡 中 选 择 LS/TSLS, 输入一个权重序列) 通过white Weighted LS/TSLS , 输入一个权重序列 ) , 通过 white 检验选择最优的结果。 检验选择最优的结果。
第五节
异方差性
引子:更为接近真实的结论是什么? 引子:更为接近真实的结论是什么?
根据四川省2000 年 21个地市州医疗机构数与人口数资 根据四川省 2000年 21 个地市州医疗机构数与人口数资 2000 分析医疗机构与人口数量的关系, 料,分析医疗机构与人口数量的关系,建立卫生医疗 机构数与人口数的回归模型。对模型估计的结果如下: 机构数与人口数的回归模型。对模型估计的结果如下:
四、 异方差性的检验
1.相关图分析(针对一元回归模型) 1.相关图分析(针对一元回归模型) 相关图分析
方差描述的是随机变量取值的(与其均值的) 方差描述的是随机变量取值的(与其均值的)离散 程度。 程度。因为被解释变量 Y 与随机误差项 u 有相同的 方差,所以利用分析 Y 与 X 的相关图形,可以粗略 方差, 的相关图形, 之间是否有相关关系。 地看到 Y 的离散程度与 X 之间是否有相关关系。 的增加, 的离散程度为逐渐增大( 如果随着 X 的增加, 的离散程度为逐渐增大(或 Y 减小)的变化趋势,则认为存在递增型(或递减型) 减小)的变化趋势,则认为存在递增型(或递减型) 的异方差。 的异方差。
(3)计算 (3)计算 利用辅助回归函数的可决系数计算 nR2 ,n 为样本 容量。 容量。 (4)提出假设 (4)提出假设
H0 : α2 =...= α6 = 0,
(5)检验 (5)检验
H1 : α j j=2,,3,...,6)不全为零 (
对应的P值决定是否拒绝原假设(无自相关)。 根据 nR 2 对应的P值决定是否拒绝储蓄的差异较大 低收入家庭:储蓄则更有规律性,差异较小 µi的方差呈现单调递增型变化
4.数据的测量误差
样本数据的观测误差有可能随研究范围的扩大而增加, 样本数据的观测误差有可能随研究范围的扩大而增加 , 或随时间的推移逐步积累, 或随时间的推移逐步积累,也可能随着观测技术的提高而 逐步减小。 逐步减小。 例如,建立居民消费函数: 例如,建立居民消费函数: Ci=β0+β1Yi+µI 将居民按照收入等距离分成n组,取组平均数为样本 将居民按照收入等距离分成 组 观测值。 观测值。 一般情况下,居民收入服从正态分布: 一般情况下,居民收入服从正态分布:中等收入组 人数多,两端收入组人数少。 人数多,两端收入组人数少。而人数多的组平均数的误差 人数少的组平均数的误差大。 小,人数少的组平均数的误差大。 所以样本观测值的观测误差随着解释变量观测值的不同 所以样本观测值的观测误差随着解释变量观测值的不同 样本观测值的观测误差 而不同,往往引起异方差性。 而不同,往往引起异方差性。
六、 案例分析
一、问题的提出和模型设定
为了给制定医疗机构的规划提供依据, 为了给制定医疗机构的规划提供依据,分析比 较医疗机构与人口数量的关系, 较医疗机构与人口数量的关系,建立卫生医疗 机构数与人口数的回归模型。 机构数与人口数的回归模型。 假定医疗机构数与人口数之间满足线性约束, 假定医疗机构数与人口数之间满足线性约束, 则理论模型设定为: 则理论模型设定为: Yi Yi = b1 + b2 X i + u i 表示卫生医疗机构数, 表示人口数。 其中 Y i表示卫生医疗机构数, X i 表示人口数。
本节讨论四个问题: 本节讨论四个问题: ●异方差的概念和产生的原因 ●异方差产生的后果 ●异方差的检测方法 ●异方差的补救
一、异方差性的概念
方差是度量被解释变量 Y 的观测值围绕回归线
Yi = β1 + β 2 X 2i + β3 X 3i + ... + β k X ki 的分散程度。 的分散程度。
ˆ Yi = -563.0548 + 5.3735 X i
t = (-1.931062) (8.340265)
R 2 = 0.785456 R 2 = 0.774146
F = 69.56003
表示卫生医疗机构数( 式中 Y 表示卫生医疗机构数 ( 个 ) ,X 表示人口数 万人) 量(万人)。
模型显示的结果和问题
2.残差图分析 残差图分析
(1)观察残差图,看残差是否有明显变化 观察残差图,
(2)绘制出 ei2 − X i 散点图
多元回归时,可以用 值作为自变量进行观察 值作为自变量进行观察。 多元回归时,可以用y值作为自变量进行观察。
3.White检验 检验 3.
以一个二元线性回归模型为例,设模型为: 以一个二元线性回归模型为例,设模型为:
3.White 异方差一致协方差估计
1980年 white提出了当异方差形式未知时 提出了当异方差形式未知时, 1980年,white提出了当异方差形式未知时,对协 方差进行正确估计的估计量——异方差一致协方差矩阵, ——异方差一致协方差矩阵 方差进行正确估计的估计量——异方差一致协方差矩阵, 这意味着,在此基础上可以直接使用最小二乘法进行合 这意味着, 理的统计推断。 理的统计推断。 使用eviews进行 white 异方差一致协方差估计时 , 使用 eviews进行 white异方差一致协方差估计时 eviews 进行white 异方差一致协方差估计时, 只需在进行普通最小二乘估计时切换至option选项卡, option选项卡 只需在进行普通最小二乘估计时切换至option选项卡, 单 击 heteroskedasticity cosistent coefficient covariance, white项即可 项即可。 covariance,并选择 white项即可。 此方法估计得到的变量系数与普通最小二乘法是相 同的,所不同的是t检验结果做了修正。 同的 , 所不同的是 t 检验结果做了修正 。 该估计结果不 需要再做异方差检验。 需要再做异方差检验。
统计量远大于临界值, ● t统计量远大于临界值,可决系数和修正的可决系 统计量远大于临界值 数结果较好, 检验结果明显显著 检验结果明显显著; 数结果较好,F检验结果明显显著; 表明该模型的估计效果不错, 表明该模型的估计效果不错,可以认为人口数量 每增加1万人,平均说来医疗机构将增加5.3735 5.3735人 每增加1万人,平均说来医疗机构将增加5.3735人。 然而,这里得出的结论可能是不可靠的,平均说来 然而,这里得出的结论可能是不可靠的, 每增加1万人口可能并不需要增加这样多的医疗机构, 每增加1万人口可能并不需要增加这样多的医疗机构, 所得结论并不符合真实情况。 所得结论并不符合真实情况。 有什么充分的理由说明这一回归结果不可靠呢? 有什么充分的理由说明这一回归结果不可靠呢?更 为接近真实的结论又是什么呢? 为接近真实的结论又是什么呢?