分位数回归-高级计量

合集下载

分位数回归 基本无害的计量经济学

分位数回归 基本无害的计量经济学

分位数回归基本无害的计量经济学
分位数回归(Quantile Regression)是一种半参数统计方法,可以用来估计条件分位数函数。

与普通最小二乘法回归估计条件均值函数不同,分位数回归估计的是条件分位数函数,因此它可以提供更加丰富的信息。

分位数回归在许多领域都有广泛的应用,例如工资分布、生长曲线分析、产量分析等。

分位数回归的基本思想是通过最小化加权绝对残差之和来估计条件分位数函数。

具体来说,设有随机变量Y和自变量向量X,我们想估计Y在给定X=x时的第τ条件分位数,记为Q(τ|x),则可以通过最小化如下目标函数来获得估计值:
min ∑ρτ(yi-xiTβ)
其中,ρτ(u)=u(τ-I(u<0))是所谓的检验函数(check function),I(·)是示性函数。

与普通最小二乘法回归中的平方损失函数不同,分位数回归采用了加权绝对残差损失函数。

分位数回归具有以下优点:
1. 更加稳健,不受异常值和离群点的影响;
2. 不需要对误差项分布作任何分布假设;
3. 可以估计整个条件分布,而不仅仅是均值;
4. 可以捕捉到自变量对因变量不同分位数的不同影响。

分位数回归是一种基本无害的计量经济学方法,可以在许多领域发挥重要作用。

当然,它也有一些局限性,例如估计结果的解释可能会比较困难,并且计算过程相对复杂等。

但总体来说,它是一种非常有用的工具。

分位数回归及应用简介

分位数回归及应用简介

一、 引 言
1870 年 ,英国的高尔顿在研究人类身高的遗传
假设 ,那么在应用时就难以得到无偏的 、 有效的参数 估计量 。还有 ,大量的宝贵数据仅仅只能得到一条 回归曲线 ,而一条曲线所能提供的信息毕竟是有限 的 。所以人们在使用回归分析时 , 也在不断地探索 更新更好的方法 , 而条件更宽松 , 挖掘信息更丰富 者 ,当属分位数回归 。 自从 Koenker 和 Bassett ( 1978) [ 1 ] 最早提出线性 分位数回归的理论以后 , 当时由于分位数回归本身 计算的复杂性 ,所以它没能象经典的回归分析那样 迅速普及 ,但对它的理论研究一直在不断的完善中 。 随着计算机技术的不断突破 , 分位数回归软件包现 已是主流统计软件 R 、 SAS 等中的座上客了 ,分位数 回归也就自然而然地成为经济 、 医学 、 教育等领域的 常用分析工具 。
分位数回归及应用简介
李育安1 ,2
( 1. 中国人民武装警察部队学院 ,河北 廊坊 065000 ;2. 中国人民大学 统计学院 ,北京 100872)
摘要 : 文章介绍了分位数回归法的概念 、 算法及主流统计软件 R 和 SAS 计算时的语法 ,并通过实例与以 普通最小二乘法为基础的线性回归进行了对比 ,展现了分位数回归的巨大魅力 。 关键词 : 最小二乘法 ; 分位数回归 ; 恩格尔曲线 中图分类号 :O212. 1 文献标识码 :A 文章编号 :1007 - 3116 ( 2006) 03 - 0035 - 05
规律时发现 : 父母是高个子的 ,其子女的身高有低于 父母身高的趋势 ; 相反 , 父母是矮个子的 , 其子女的 身高却往往有高于父母身高的趋势 。从全局来看 , 高、 矮个子人的子女都有 “回归” 于一般人身高的期 望值 。这就是统计学上 “回归” 的最初涵义 。1886 年 ,高尔顿在论文中正式提出了 “回归” 的概念 。经 过他的学生皮尔逊多年的进一步的发展后 , 这个出 自于生物统计学领域的概念 , 便被推广为一般统计 方法论的重要概念 。 “回归分析” 悠久的历史 ,使其理论完美 ,计算工 具齐全 ,这其中又以基于最小二乘法的经典线性回 归在数据分析中遍地开花 。原因不外是最小二乘法 的解释与人们的直观想象一致 ; 同时该方法易于计 算 ,有时计算用手工 ,其优越性在前计算机时代是不 言而喻的 。尤其是当假设误差是正态分布时 , 它具 有如无偏性与有效等优良性质 ; 但是运用最小二乘 法的条件比较高 , 如线性回归模型要求满足同方差 性、 随机误差间两两不相关等条件 ,当需要进行回归 系数的显著性推断时 , 通常还要假设残差服从正态 分布 。尤其是当分布是重尾或有离群点时 , 其结果 的稳健性较差 。在实际问题中 , 完全满足这些基本 假设的情况并不多见 , 然而一旦违背了某一项基本

分位数回归及其实例

分位数回归及其实例

LP )估计其最小加权绝对偏分位数回归及其实例一、分位数回归的概念分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它 利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变 量的条件分布的相应的分位数方程。

与传统的OLS 只得到均值方程相比,它可以更详细地描述变量的统计分布。

传统的线性回归模型描述了因变量的条件分布受到自变量 X 的影响过程。

普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X 对于因变量y 的均值影响。

如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动 项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(M 切甩)。

但是在实际的经济生活中,这种假设常常不被满足,饲如数据出 现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再 具有上述优良性且稳健性非常差。

最小二乘回归假定自变量X 只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。

为了弥补普通最dx--乘法(OLs)在回归分析中的缺陷,Koenkel"和Pxassett 于1978年提出了分位数回归(Quantile Regression) 的思想。

它依据因变量的条 件分位数对自变量X 进行回归,这样得到了所有分位数下的回归模型。

因此分 位数回归相比普通最小二乘回归只能描述自变量X 对于因变量y 局部变化的影响而言,更能精确地描述自变量 X 对于因变量y 的变化范围以及条件分布形状 的影响。

分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸, 用多个分 位函数来估计整体模型。

中位数回归是分位数回归的特殊情况, 用对称权重解决 残差最小化问题,而其他的条件分位数回归则用非对称权重解决残差最小化。

一般线性回归模型可设定如下:x(t) t( I(t 0)), (0,1).在满足咼斯-马尔可夫假设前提下,可表示如下: E(y|x) 01X12X 2...k Xk其中U 为随机扰动项0, 1, 2,…,k 为待估解释变量系数。

分位数回归

分位数回归

分位数回归
分位数回归(英语:Quantile regression)是回归分析的方法之一。

最早由Roger Koenker和Gilbert Bassett于1978年提出。

一般地,传统的回归分析研究自变量与因变量的条件期望之间的关系,相应得到的回归模型可由自变量的估计因变量的条件期望;分位数回归研究自变量与因变量的条件分位数之间的关系,相应得到的回归模型可由自变量估计因变量的条件分位数。

相较于传统回归分析仅能得到因变量的中央趋势,分量回归可以进一步推论因变量的条件概率分布。

分量回归属于非参数统计方法之一。

分位数回归-高级计量

分位数回归-高级计量

• 对于之前的OLS来说,就是使得残差平方和最小, 即损失函数为平方损失函数,此为最小二乘回归; 而中位数回归的损失函数为绝对值损失函数,则称 为最小一乘回归,使得残差绝对值的和最小;
• 最小一乘回归是分位数回归的特例,在QR中,通过 计算数据点到回归线的加权距离(没有平方),赋 予拟合线下数据点的权重是 1-q ,赋予拟合线上数据 点的权重为 q 。对于选择的每个 q ,都会产生不同 的条件分位数拟合函数。
2020/4/2
---
4、分位数回归的估计方法与假设检验
• 如果散点图上侧分位数回归直线之间与下侧分位数 回归直线之间相比,上侧比较接近,则说明被解释 变量 yt 的分布是左偏的,反之是右偏的。
• 对于不同分位数回归函数,如果回归系数的差异很 大,说明在不同分位数上解释变量对被解释变量的 影响是不同的。
2020/4/2
---
4、分位数回归的估计方法与假设检验
对一个样本,估计的分位数回归式越多,对被解释 变量 yt 条件分布的理解就越充分。
以一元回归为例,如果用LAD(最小绝对离差和)法 估计的中位数回归直线与用OLS法估计的均值回归 直线有显著差别,则表明被解释变量 yt 的分布是非 对称的。
2、总体分位数与样本分位数
2020/4/2
---
2、总体分位数与样本分位数
2020/4/2
---
2、总体分位数与样本分位数
2020/4/2
---
2、总体分位数与样本分位数
2020/4/2
---
2、总体分位数与样本分位数
2020/4/2
---
2、总体分位数与样本分位数
2020/4/2
---

分位数回归使用残差绝对值的

分位数回归

分位数回归

分位数回归分位数回归及其实例一、分位数回归的概念分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变量的条件分布的相应的分位数方程。

与传统的OLS 只得到均值方程相比,它可以更详细地描述变量的统计分布。

传统的线性回归模型描述了因变量的条件分布受到自变量X 的影响过程。

普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X 对于因变量y 的均值影响。

如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(M Ⅵ甩)。

但是在实际的经济生活中,这种假设常常不被满足,饲如数据出现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再具有上述优良性且稳健性非常差。

最小二乘回归假定自变量X 只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。

为了弥补普通最dx--乘法(0Ls)在回归分析中的缺陷,Koenkel"和Pxassett 于1978年提出了分位数回归(Quantile Regression)的思想。

它依据因变量的条件分位数对自变量X 进行回归,这样得到了所有分位数下的回归模型。

因此分位数回归相比普通最小二乘回归只能描述自变量X 对于因变量y 局部变化的影响而言,更能精确地描述自变量X 对于因变量y 的变化范围以及条件分布形状的影响。

分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸,用多个分位函数来估计整体模型。

中位数回归是分位数回归的特殊情况,用对称权重解决残差最小化问题,而其他的条件分位数回归则用非对称权重解决残差最小化。

一般线性回归模型可设定如下:()((0)),(0,1).x t t I t ρττ=-<∈在满足高斯-马尔可夫假设前提下,可表示如下:01122(|)...k k E y x x x x αααα=++++其中u 为随机扰动项k αααα,...,,,210为待估解释变量系数。

分位数回归估计课件

分位数回归估计课件
对模型假设的依赖
在某些情况下,分位数回归的结果可能对模型假设的违背较为敏感。
分位数回归与其他方法的比较
与普通最小二乘法的比较
普通最小二乘法只关注数据的均值和方差,而 分位数回归可以提供更全面的信息。
与核密度估计的比较
核密度估计主要用于探索性数据分析,而分位 数回归主要用于因果关系推断。
与决策树和随机森林的比较
这些方法主要用于分类问题,而分位数回归主要用于回归问题。
05 分位数回归的未来发展
分位数回归的理论研究
01
深入研究分位数回归的理论基础,包括其假设、性 质和限制条件,以完善其理论体系。
02
探讨分位数回归与其他统计方法的结合,如混合模 型、贝叶斯方法等,以拓展其应用范围。
03
针对分位数回归的统计推断问题,研究更有效的推 断方法和理论。
灵活性
可以估计多个分位数,而不仅 仅是均值。
无分布假设
不需要假定误差项服从特定的 分布,比如正态分布。
刻画异质性
可以更好地捕捉数据的异质性 ,提供更全面的信息。
分位数回归的缺点
计算复杂度
相对于普通最小二乘法,计算成本较高。
解释性
分位数回归的系数较难解释,不如普通最小二乘法直观。
对离群值的敏感性
离群值可能会对分位数回归的结果产生较大影响。
$Y = Xbeta + epsilon$,其中$Y$是因变量,$X$是自变量,$beta$是待估 计的参数,$epsilon$是误差项。
非线性分位数回归模型
通过引入非线性函数或变换,使得模型能够更好地拟合非线性关系。
分位数回归的估计方法
最小二乘法
通过最小化残差平方和来估计参数。
迭代加权最小二乘法

分位数回归理论及其应用共3篇

分位数回归理论及其应用共3篇

分位数回归理论及其应用共3篇分位数回归理论及其应用1分位数回归理论及其应用分位数回归是一种重要的统计方法,可以有效地应用于对数据进行分析和建模。

本文将介绍分位数回归理论的概念、方法和应用,并通过实际案例来说明其在实践中的运用。

一、分位数回归理论概述分位数回归是通过对分位数进行建模,而不是对中心点(如平均数或中位数)进行建模的回归分析。

该方法可以帮助我们更好地理解数据的分布情况。

通常情况下,我们关注的是中位数或平均数,因为它们代表了数据集中的位置信息。

但是,在某些情况下,这些中心点可能无法提供足够的信息,或者它们可能无法很好地描述分布情况。

分位数回归方法就是通过对数据进行分位数的建模来解决这些问题。

分位数回归给出了不同分位数对自变量的响应,可以确定不同分位数下因变量与自变量之间的关系。

二、分位数回归方法1.示例数据在了解分位数回归方法之前,我们先介绍数据集。

假设我们有一组来自UNICEF的数据集,记录了不同国家儿童死亡率和GDP(卫生)支出的信息。

这些数据明显不是线性的,因为它们不能用单独的直线来描述。

2.分位数回归假设我们希望了解死亡率与GDP支出之间的关系。

我们可以在不同的分位数水平下,对死亡率和GDP支出之间的关系进行建模。

这个过程被称为分位数回归。

在本例中,我们将使用分位数水平为0.25、0.5和0.75。

我们可以首先在0.25和0.75分位数水平下建立模型,确定死亡率与GDP支出之间的关系。

然后,我们在0.5分位数水平下建立模型,确定这两个变量之间的中心关系。

3.结果分析在分位数回归分析后,我们可以得到以下结果。

在0.25分位数水平下,我们发现GDP支出与死亡率呈现负相关;在0.75分位数水平下,我们发现GDP支出与死亡率呈现正相关,这意味着一些经济条件较好的国家的死亡率可能会上升。

在0.5分位数水平下,我们可以看到两种情况都可能发生,因为这是分布的中心位置。

这种方法允许我们更灵活地研究不同分位数下的自变量与因变量之间的关系。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

映每个斜率在不同分位点的不同值。
• 5、分位数回归的Stata操作
2017/4/23
东北大学工商管理学院
33
2017/4/23
东北大学工商管理学院
34
予拟合线下数据点的权重是 1-q ,赋予拟合线上数据
点的权重为 q 。对于选择的每个 q ,都会产生不同 的条件分位数拟合函数。
2017/4/23
东北大学工商管理学院
23
4、分位数回归的估计方法与假设检验
对一个样本,估计的分位数回归式越多,对被解释
变量 yt 条件分布的理解就越充分。
以一元回归为例,如果用 LAD(最小绝对离差和 )法 估计的中位数回归直线与用 OLS 法估计的均值回归 直线有显著差别,则表明被解释变量 yt 的分布是非 对称的。
3、损失函数
• 线性损失函数
k1 ( a ), L( , a ) k2 (a ),
a a
• 其中,k1 和 k2 是两个常数,反映
时的损失程度。
在大于 a 和小于 a
• 当 k1 和 k2 相等时,可以得到绝对值形式的损失函数:
L( , a) a
2017/4/23
东北大学工商管理学院
14
2、总体分位数与样本分位数
2017/4/23
东北大学工商管理学院
15
2、总体分位数与样本分位数
2017/4/23
东北大学工商管理学院
16
2、总体分位数与样本分位数
2017/4/23
东北大学工商管理学院
17
2、总体分位数与样本分位数
2017/4/23
东北大学工商管理学院
2017/4/23
东北大学工商管理学院
7
2017/4/23
东北大学工商管理学院
8
1、OLS回归原理与QR估计的提出
• OLS回归的缺点:
• (1)对异常值特别敏感;
• (2)是均值回归,E( y | x) 只是刻画条件分布 y | x
集中趋势的指标,而我们关心 x 对整个条件分布 y |
x 的影响; • (3)假设严格,误差项条件均值为零,且方差独立 同分布,即 y | x 服从渐进正态分布;如果 y | x 不是 对称分布,则 E( y | x) 很难反映条件分布的全貌。
2017/4/23
东北大学工商管理学院
24
4、分位数回归的估计方法与假设检验
• 如果散点图上侧分位数回归直线之间与下侧分位数
回归直线之间相比,上侧比较接近,则说明被解释
变量 yt 的分布是左偏的,反之是右偏的。 • 对于不同分位数回归函数,如果回归系数的差异很 大,说明在不同分位数上解释变量对被解释变量的 影响是不同的。
变量条件均值的变化。
• OLS 回归模型着重考察 x 对 y 的条件期望 E( y | x) 的 影响,实际上是均值回归;
2017/4/23
东北大学工商管理学院
3
1、OLS回归原理与QR估计的提出
• 对于典型的一元回归模型:
y 0 1 x
E( x) E( ) 0 E(y x ) 0 1x
东北大学工商管理学院
12
1、OLS回归原理与QR估计的提出
• 人们也关心解释变量与被解释变量分布的中位数、分 位数呈何种关系。这就是分位数回归,它最早由 Koenker 和Bassett 于 1978 年提出,是估计一组回归变
量 X 与被解释变量 Y 的分位数之间线性关系的建模
方法,强调条件分位数的变化。
分位数回归
主要内容
1、OLS估计原理与QR估计的提出 2、总体分位数及样本分位数 3、损失函数
4、分位数回归的估计方法与假设检验 5、分位数估计的Stata操作
2017/4/23
东北大学工商管理学院
2
1、OLS回归原理与QR估计的提出
• 传统的回归分析主要关注均值,即采用因变量条件 均值的函数来描述自变量每一特定数值下的因变量 均值,从而揭示自变量与因变量的关系。这类回归 模型实际上是研究被解释变量的条件期望 ,描述了因

ˆ ( x) Le( x) L y y
• 如果损失的准则是 L(e) e2,那么就是OLS回归,最优预 测值为条件均值 E ( y x);如果损失准则是绝对误差损失, 那就是中位数回归,最优预测值为条件中位数 med ( y x)。
2017/4/23 东北大学工商管理学院 21
2017/4/23
东北大学工商管理学院
30
1、拟合优度检验
假设分位数回归直线为
ˆ ˆq xi y q
则 q 分位数的加权误差项的拟合值为:
ˆ Q q
而实际的样本 q 分位数的加权误差项为:
Q q
拟和优度准则表达式如下:
R
* q
ˆ Q q = 1 Q
q
2、斜率相等检验
• 斜率相等检验,即检验对于不同的分位点,估计得到的 结构参数(在线性模型中即为斜率)是否相等。 • 原假设被设定为:
2017/4/23
东北大学工商管理学院
25
4、分位数回归的估计方法与假设检验
不可微分,线性规划,单纯形法
2017/4/23 东北大学工商管理学院 26
4、分位数回归的估计方法与假设检验
2017/4/23
东北大学工商管理学院
27
4、分位数回归的估计方法与假设检验
ˆ N ( , A1BA1 ) q q
(外生性)
(球型扰动项)
2017/4/23
东北大学工商管理学院
4
1、OLS回归原理与QR估计的提出
2017/4/23
东北大学工商管理学院
5
1、OLS回归原理与QR估计的提出
y
E( y x) 0 1x
x
2017/4/23
东北大学工商管理学院
6
1、OLS回归原理与QR估计的提出
拟合值和残差
H0 :i (q1 )=i (q2 )=...=i (qm )
i 1,, k
其中 i 指常数项以外的解释变量所对应的(k-1)维参数

列向量。因此,原假设共含有(k-1) (m-1)个约束条件。
构造Wald形式的统计量检验零假设是否成立。 如果接受该假设,说明每个斜率对于不同分位点具有 不变性,此时,应该采用普通最小二乘估计;如果拒 绝该假设,说明模型应该采用分位数回归估计,以反
很难进行估计
协方差矩阵
2017/4/23
使用自助法来求聚类稳健标准误
东北大学工商管理学院 28
4、分位数回归的估计方法与假设检验
2017/4/23
东北大学工商管理学院
29
4、分位数回归的估计方法与假设检验
• 分位数回归估计的检验包括两部分:
• 一是与均值回归类似的检验,例如拟合优度检验、
拟似然比检验和Wald检验等; • 一是分位数回归估计特殊要求的检验,例如斜率相 等检验和斜率对称性检验等。
2017/4/23 东北大学工商管理学院 22
3、损失函数
• 对于之前的 OLS 来说,就是使得残差平方和最小,
即损失函数为平方损失函数,此为最小二乘回归; 而中位数回归的损失函数为绝对值损失函数,则称
为最小一乘回归,使得残差绝对值的和最小;
• 最小一乘回归是分位数回归的特例,在QR中,通过 计算数据点到回归线的加权距离(没有平方),赋
18
2、总体分位数与样本分位数
2017/4/23
东北大学工商管理学院
19
2、总体分位数与样本分位数
2017/4/23
东北大学工商管理学院
20
3、损失函数
• 在统计学中损失函数是一种衡量损失和错误程度的函数
,常记作 L() 。
• 建模的主要目的是在给定 x 时表示求 y 的条件预测值。
ˆ ( x) 表示预测函数,且 e( x) y y ˆ ( x) 表示预测误差。 设 y
2017/4/23 东北大学工商管理学院 9
1、OLS回归原理与QR估计的提出
异方差下的简单回归
2017/4/23
东北大学工商管理学院
10
1、OLS回归原理与QR估计的提出
异方差的一种情形
2017/4/23
东北大学工商管理学院
11
1、OLS回归原理与QR估计的提出
异方差下不同分位数的回归结果
2017/4/23
i 1 ei ) • 分位数回归使用残差绝对值的加权平均(如:
n 2 e 作为最小化的目标函数,而不是像OLS采用 i 1 i 作 n
为目标函数,不易受极端值影响,较为稳健; • 分位数回归还能提供关于条件分布 y | x 的全面信息。
2017/4/23 东北大学工商管理学院 13
1、OLS回归原理与QR估计的提出
相关文档
最新文档