最新张晓峒分位数回归讲义

合集下载

分位数回归ppt课件

分位数回归估计与经典模型的最小二乘估计相比较，有许多优点。
当数据出现尖峰或厚尾的分布、存在显著的异方差等情况，最小二乘估计将不再具有优良性质，且稳健性非常差。分位数回归系数估计结果比OLS估计更稳健，而且，分位数回归对误差项并不要求很强的假设条件，因此对于非正态分布而言，分位数回归系数估计量则更加稳健。
i

n
i : Y i

上式可等价为：
min (Yi )
R
i1
一般的
uu I u 0

分位数回归的损失函数为：
其中， I Z 为示性函数，Z是指示关系式。当分位数为0.5时，就是最小一乘回归，即中位数回归。
普通最小二乘估计基本思想目的原理算法前提假设假设要求检验类型承载信息极端值异方差拟合曲线计算方法
分位数回归估计
设法使所构建的方程和样本之间的距同普通最小二乘估计方法离最短借助数学模型对客观世界所存在的事同普通最小二乘估计方法物间的不确定关系进行数量化描写以平均数为基准，求解最短距离最小二乘法独立、正态、同方差强假设参数检验描述平均的总体信息无法考虑极端值的影响影响大只能拟合一条曲线求偏导解行列式，算法完备以不同的分位数为基准，求解最短距离加权最小一乘法独立弱假设非参数检验充分体现整个分布的各部分信息可以充分考虑极端值的影响影响小可以拟合一簇曲线自助方法估计标准误差，多种算法求解目标函数
min ( yi )2
R
i 1 n

样本中位数回归是使误差绝对值之和最小，即
min | yi |
R

分位数回归分析

分位数回归分析简介分位数回归分析（Quantile Regression Analysis）是一种统计分析方法，用来研究因变量与一个或多个自变量之间关系的非线性问题。

相比于传统的OLS（Ordinary Least Squares）回归分析，分位数回归分析更加灵活，能够提供对不同分位数的因变量条件分布的估计。

分位数回归的定义在传统的OLS回归中，我们通过找到一条线性回归方程来描述自变量和因变量之间的关系。

但是，OLS回归假设因变量在各个条件上的分布是相同的，即在不同的自变量取值下，因变量的条件分布是相同的。

而在分位数回归中，我们允许因变量在不同条件下的分布产生变化，因此可以更准确地描述不同区间的因变量与自变量之间的关系。

分位数回归的目标是找到一组系数，用于描述自变量与因变量在给定分位数时的关系。

分位数回归通过最小化残差的绝对值之和来估计这组系数。

这种方法使得我们能够探索不同分位数下自变量和因变量之间的变化。

分位数回归的优势相比于OLS回归，分位数回归具有以下优势：1.非线性建模能力：分位数回归能够对因变量和自变量之间的非线性关系进行建模，从而更准确地描述实际数据的特征。

2.探索条件分布的能力：由于分位数回归允许因变量在不同条件下的分布变化，因此可以提供对不同分位数的条件分布的估计，进一步帮助我们理解数据的性质。

3.对异常值的鲁棒性：分位数回归对异常值更加鲁棒，因为它通过最小化残差的绝对值之和来估计系数，而不是最小二乘法中常用的最小化残差的平方和。

4.考虑不完全因果关系：分位数回归可以用来研究因变量对自变量的影响程度，考虑到因变量可能由其他未观测的变量影响，从而提供了一种更加全面的因果分析方法。

分位数回归的应用分位数回归广泛应用于各个领域，以下是一些常见的应用场景：1.收入和贫困研究：分位数回归可以用来研究不同收入水平下的贫困率变化，进一步探讨收入不平等的影响因素。

2.教育研究：分位数回归可以用来研究教育水平对工资收入的影响情况，从而分析教育对个体生活水平的提高程度。

分位数回归分样本回归

分位数回归分样本回归一、基本概念分位数回归是一种回归分析方法，与传统的OLS回归不同，它能够揭示自变量对因变量在不同分位数上的影响。

在传统OLS回归中，我们只能得到因变量均值对自变量的影响，而分位数回归则能提供更加全面的信息。

分位数是指将一组数据按大小顺序排列后，划分为若干等份，每一份包含相同比例的数据。

例如，25%分位数就是将数据分为四份，每一份包含25%的数据。

二、应用场景分位数回归在经济学、社会科学等领域具有广泛的应用。

它能够帮助研究人员了解不同自变量对因变量在不同分位数上的影响程度，从而更好地理解数据背后的规律。

例如，在研究收入不平等问题时，传统OLS回归只能告诉我们收入水平对平均收入的影响，而分位数回归可以告诉我们不同收入水平下收入的分布情况，从而更全面地了解收入分配状况。

三、分位数回归分析步骤进行分位数回归分析一般需要以下几个步骤：1. 数据准备：收集所需的自变量和因变量数据，并进行必要的数据清洗和变量转换。

2. 模型设定：根据研究问题和数据特点，选择适当的分位数回归模型。

常用的模型包括线性分位数回归模型和非线性分位数回归模型。

3. 估计模型参数：利用最小二乘法或其他合适的方法，对模型进行估计，并得到各个分位数上的回归系数。

4. 模型诊断：对估计结果进行检验，包括残差分析、异方差性检验等，以确保模型的可靠性和有效性。

5. 结果解释：根据估计结果，解释自变量对因变量在不同分位数上的影响情况。

可以通过绘制分位数回归曲线或计算边际效应来展示结果。

四、分位数回归的优势和局限性分位数回归具有以下优势：1. 揭示了因变量在不同分位数上的影响情况，提供了更加全面的信息。

2. 对于非线性关系的建模更加灵活，适用性广泛。

然而，分位数回归也存在一些局限性：1. 对于数据量较小的样本，分位数回归可能会产生估计不准确的问题。

2. 分位数回归依赖于分位数的选择，不同的分位数选择可能会导致不同的结果。

五、总结分位数回归是一种重要的回归分析方法，能够揭示自变量对因变量在不同分位数上的影响。

分位数回归估计课件

对模型假设的依赖
在某些情况下，分位数回归的结果可能对模型假设的违背较为敏感。
分位数回归与其他方法的比较
与普通最小二乘法的比较
普通最小二乘法只关注数据的均值和方差，而分位数回归可以提供更全面的信息。
与核密度估计的比较
核密度估计主要用于探索性数据分析，而分位数回归主要用于因果关系推断。
与决策树和随机森林的比较
这些方法主要用于分类问题，而分位数回归主要用于回归问题。
05 分位数回归的未来发展
分位数回归的理论研究
01
深入研究分位数回归的理论基础，包括其假设、性质和限制条件，以完善其理论体系。
02
探讨分位数回归与其他统计方法的结合，如混合模型、贝叶斯方法等，以拓展其应用范围。
03
针对分位数回归的统计推断问题，研究更有效的推断方法和理论。
灵活性
可以估计多个分位数，而不仅仅是均值。
无分布假设
不需要假定误差项服从特定的分布，比如正态分布。
刻画异质性
可以更好地捕捉数据的异质性，提供更全面的信息。
分位数回归的缺点
计算复杂度
相对于普通最小二乘法，计算成本较高。
解释性
分位数回归的系数较难解释，不如普通最小二乘法直观。
对离群值的敏感性
离群值可能会对分位数回归的结果产生较大影响。
$Y = Xbeta + epsilon$，其中$Y$是因变量，$X$是自变量，$beta$是待估计的参数，$epsilon$是误差项。
非线性分位数回归模型
通过引入非线性函数或变换，使得模型能够更好地拟合非线性关系。
分位数回归的估计方法
最小二乘法
通过最小化残差平方和来估计参数。
迭代加权最小二乘法

分位数回归通俗理解

分位数回归通俗理解分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一，它利用解释变量的多个分位数（例如四分位、十分位、百分位等）来得到被解释变量的条件分布的相应的分位数方程。

与传统的OLS只得到均值方程相比，它可以更详细地描述变量的统计分布。

传统的线性回归模型描述了因变量的条件分布受到自变量X的影响过程。

普通最dx--乘法是估计回归系数的最基本的方法，它描述了自变量X对于因变量y的均值影响。

如果模型中的随机扰动项来自均值为零而且同方差的分布，那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE)；如果近一步随机扰动项服从正态分布，那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(MⅥ甩)。

但是在实际的经济生活中，这种假设常常不被满足，饲如数据出现尖峰或厚尾的分布、存在显著的异方差等情况，这时的最小二乘法估计将不再具有上述优良性且稳健性非常差。

最小二乘回归假定自变量X只能影响因变量的条件分布的位置，但不能影响其分布的刻度或形状的任何其他方面。

为了弥补普通最dx--乘法(0Ls)在回归分析中的缺陷，Koenkel"和Pxassett于1978年提出了分位数回归(Quantile Regression)的思想⋯。

它依据因变量的条件分位数对自变量X进行回归，这样得到了所有分位数下的回归模型。

因此分位数回归相比普通最小二乘回归只能描述自变量X对于因变量y局部变化的影响而言，更能精确地描述自变量X对于因变量y的变化范围以及条件分布形状的影响。

分位数回归能够捕捉分布的尾部特征，当自变量对不同部分的因变量的分布产生不同的影响时．例如出现左偏或右偏的情况时。

它能更加全面的刻画分布的特征，从而得到全面的分析，而且其分位数回归系数估计比OLS回归系数估计更稳健。

近10多年来，分位数回归在国外得到了迅猛的发展及应用，其研究领域包括经济、医学、环境科学、生存分析以及动植物学等方面(见本文第四部分)。

分位数回归参数估计 -回复

分位数回归参数估计-回复分位数回归是一种可以用于估计不同分位数之间关系的统计方法。

它在经济学、金融学和社会科学等领域广泛应用。

本文将分为三个部分来介绍分位数回归参数估计的方法和步骤。

第一部分：什么是分位数回归分位数回归是传统OLS（最小二乘法）回归的一种推广。

与OLS回归的目标是估计条件均值函数（即给定自变量的情况下，因变量的平均值），分位数回归的目标是估计给定分位数的条件函数（即给定自变量的情况下，因变量的特定分位数）。

这种方法的主要优势是能够提供关于因变量在不同条件下的不同分位数的有关信息。

在分位数回归中，我们首先假设有一个基本的线性模型：对于观测值i，有y_i = x_i'β+ ε_i，其中y_i 是因变量，x_i 是自变量，β是回归系数，ε_i 是误差项。

然而，与OLS回归不同的是，我们关心的是回归系数在不同分位数上的估计。

第二部分：分位数回归参数估计的步骤1. 选择分位数：首先，我们需要选择感兴趣的分位数进行回归分析。

常见的分位数包括中位数（50分位数）、上四分位数（75分位数）和下四分位数（25分位数），也可以选择其他分位数。

2. 估计回归系数：在选择了感兴趣的分位数后，我们可以使用极大似然估计、最小二乘法或其他统计手段对回归系数进行估计。

这里，我们以最小二乘法为例来说明估计方法。

a. 对于每个分位数q（对应着因变量y 在q 分位数处的值），我们定义一个新的误差项u_i=(y_i-x_i'β)。

在传统OLS回归中，我们用平方误差来度量误差项，但在分位数回归中，我们使用另一种度量标准，即绝对值误差（quantile loss function）。

b. 为了估计回归系数，我们通过最小化分位数损失函数来求解。

这可以通过线性规划等数值优化算法来实现。

3. 检验回归结果：在得到回归系数估计后，我们可以进行统计检验来评估模型的拟合度和显著性。

常见的检验方法包括计算标准误差、计算置信区间和进行假设检验。

张晓桐-计量经济

DRESt = -0.1957 RESt -1 +0.3258 DRESt-1
(-3.0)*
(2.8)
R2 = 0.16, DW = 2.1, T= 70, (1991:03-1996:12)
临界值为 -4.23。而-3.0 -4.23，所以误差序列是非平稳的，人民币元兑美元
汇率序列是一个含有均值、斜率双突变的单位根序列。
DF（Dickey-Fuller）、ADF（Augmented-Dickey-Fuller）检验。
数据生成过程: yt = yt-1 + ut , y0 = 0, ut IID(0, 2)
最常用的单位根检验方法。检验式有 3 种。 .12
DF
DF1
DF2
p1
.10
yt = yt-1 + j yt j + ut
0.M15ean Median Maximum 0M.1inimum Std. Dev. Skewness Kurtosis
0.05
0.000423 -0.028121 4.278126 -4.938927 1.713000 -0.002115 1.846687
Jarque-Bera 554.2285 Probability 0.000000
案例：人民币元兑美元汇率序列的单位根检验
1980 年 4 月 1 日开始，中国货币市场上出现了一种崭新而神秘的支付凭证，外汇兑换券。
1981～1984 年，经历了官方汇率与贸易外汇内部结算价并存。 1985～1993 年，官方汇率与外汇调剂价格并存的两个汇率双轨制时期。
造成了外汇市场秩序混乱，长期存在外汇黑市。 1995 年 7 月 1 日起，外汇券在中国市场上停止流通。 1994 年 1 月 1 日中国人民银行改人民币元兑美元汇率的双轨制为单轨制。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第15章分位数回归模型15.1 总体分位数和总体中位数15.2 总体中位数的估计15.3 分位数回归15.4 分位数回归模型的估计15.5 分位数回归模型的检验15.6 分位数的计算与分位数回归的EViews操作15.7 分位数回归的案例分析以往介绍的回归模型实际上是研究被解释变量的条件期望。

人们当然也关心解释变量与被解释变量分布的中位数，分位数呈何种关系。

这就是分位数回归，它最早由Koenker和Bassett(1978)提出，是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。

正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样，分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化，其中，中位数回归运用的是最小绝对值离差估计(LAD，least absolute deviations estimator)。

它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。

在残差检验、回归系数检验、模型设定、预测等方面则基本相同。

分位数回归的优点是，（1）能够更加全面的描述被解释变量条件分布的全貌，而不是仅仅分析被解释变量的条件期望（均值），也可以分析解释变量如何影响被解释变量的中位数、分位数等。

不同分位数下的回归系数估计量常常不同，即解释变量对不同水平被解释变量的影响不同。

另外，中位数回归的估计方法与最小二乘法相比，估计结果对离群值则表现的更加稳健，而且，分位数回归对误差项并不要求很强的假设条件，因此对于非正态分布而言，分位数回归系数估计量则更加稳健。

15.1 总体分位数和总体中位数在介绍分位数回归之前先介绍分位数和中位数概念。

对于一个连续随机变量y，其总体第τ分位数是y(τ)的定义是：y小于等于y(τ)的概率是τ，即τ = P( y≤y(τ)) = F(y(τ))其中P(⋅)表示概率，F(y(τ)) 表示y的累积（概率）分布函数(cdf)。

比如y(0.25) = 3，则意味着y≤ 3的概率是0.25。

且有y(τ) = F-1(y(τ))即F(y(τ))的反函数是y(τ)。

当τ=0.5时，y(τ)是y的中位数。

τ= 0.75时，y(τ)是y的第3/4分位数，τ= 0.25时，y(τ) 是y的第1/4分位数。

若y服从标准正态分布，y(0.5) = 0，y(0.95) =1.645，y(0.975) =1.960。

另外，如果随机变量y的分布是对称的，那么其均值与中位数是相同的。

当其中位数小于均值时，分布是右偏的。

反之，分布是左偏的。

对于回归模型，被解释变量y t对以X为条件的第τ分位数用函数y(τ)t|X表示，其含义是：以X为条件的y t小于等于y(τ)t|X的概率是τ。

这里的概率是用y t对X的条件分布计算的。

且有y(τ)t|X= F-1(y(τ)t|X)其中F(y(τ)t|X) 是y t在给定X条件下的累积概率分布函数(cdf)。

则y(τ)t|X称作被解释变量y t对X 的条件分位数函数。

而F '(y(τ)t|X)= f (y(τ)t|X)则称作分位数概率密度函数。

其中F'(y(τ)t|X)表示F(y(τ)t|X)对y (τ)t |X 求导。

15.2 总体中位数的估计在介绍分位数回归之前，先来看中位数的估计和中位数回归。

下面以连续变量为例介绍定理15.1。

定理15.1连续变量用y 表示，其概率密度函数用f (y )表示，累计概率密度函数用F (y )表示，y 的中位数用y (0.5)表示，则y 与任一值α的离差绝对值的期望)(α-y E 以α = y (0.5) 时为最小。

证明： )(α-y E =dy y f y dy y f y )()()()(--⎰⎰∞∞-+-αααα =)()()()(--y dF y y dF y ⎰⎰∞∞-+-αααα (15.1) 根据莱布尼兹公式，若dy y f F ba⎰=),()(αα，则有dy y fF b a⎰∂∂='ααα),()(。

令αα-),(y y f =，则有⎰⎰=∂∂='ba b ady dy y F -)-()(ααα。

运用于式（15.1），得αα∂-∂)(t y E =αααααα∂-∂+∂-∂⎰⎰∞∞dy y f y dy y f y )()()()(--=⎰⎰∞∞αα)(-)(-y dF y dF= 1-)(2))(-(1-)(])(-[1-)(-αααααF F F y dF F ==⎰∞式（15.1）求极小的一阶条件是αα∂-∂)(t y E = 0，即1-)(2αF =0，0.5)(=αF 。

这意味着α等于中位数y (0.5)。

α = y (0.5)与定理15.1等价的表述是∑-αy 以α = y(0.5)（中位数）时为最小。

因此，中位数回归估计量可以通过最小绝对离差法（least absolute deviation, LAD ）估计。

其中X 和β分别为(k ⨯1)阶列向量。

同理，对于线性回归模型y t = X 'β + u t ，通过求∑'-(0.5)ˆβX t y 最小，估计β的中位数回归系数估计量(0.5)ˆβ，从而得到y t 的中位数回归估计量(0.5))5.0(ˆ)ˆ(βX X =t y。

15.3 分位数回归Koenker 和Bassett(1978)证明，若用t y)(ˆτ表示y t 的分位数回归估计量，则对于以检查函数（check function ）w τ为权数，y t 对任意值α的加权离差绝对值和∑-ατt y w 只有在α =t y)(ˆτ时取得最小值。

其中∑-ατt y w = )())(1(::∑∑≥<-+---Ty t t T y i t i i y y ααατατ (15.2)τ∈(0, 1)。

据此，分位数回归可以通过加权的最小绝对离差和法（weighted least absolute deviation,WLAD ）进行估计。

根据式(15.2)，对于线性回归模型y t = X 'β + u t ，求第τ分位数回归方程系数的估计量)(ˆτβ的方法是求下式（目标函数）最小， ∑∑≥<+--=Tut T ut t t u u Q 0ˆ)(0ˆ)()()(ˆˆ)1(ττττττ∑∑'≥'<'-+'---=TX y t t TX y t t t t y y )()(ˆ:)(ˆ:)()ˆ()ˆ)(1(ττβτβτττβX βX (15.3) 其中t u)(ˆτ表示第τ分位数回归方程对应的残差。

τ∈(0, 1)。

第τ分位数的回归方程表达式是 t y )(ˆτ=)(ˆτβX ' 其中X ，β都是k ⨯1阶列向量。

)(ˆτβ称作分位数回归系数估计量，或最小绝对离差和估计量，估计方法称作最小绝对离差和估计法。

当τ=0.5时，式（15.3）变为 ∑∑∑='≥'<'-='-+'--=Tt t TX y t t TX y t t y y y Q t t 1)0.5(ˆ:)0.5(ˆ:)0.5(ˆ0.5)ˆ(0.5)ˆ(0.5)0.5()0.5(βX βX βX ββ t y )0.5(ˆ=)0.5(ˆβX '称作中位数回归方程，)0.5(ˆβ称作中位数回归系数估计量。

一旦得到估计的分位数回归方程，就可以计算分位数回归的残差t u)(ˆτ。

t t t t y y y u =-=)()(ˆˆττ-)(ˆτβX ' 对一个样本，估计的分位数回归式越多，对被解释变量y t 条件分布的理解就越充分。

以一元回归为例，如果用LAD 法估计的中位数回归直线与用OLS 法估计的均值回归直线有显著差别，则表明被解释变量y t 的分布是非对称的。

如果散点图上侧分位数回归直线之间与下侧分位数回归直线之间相比，相互比较接近，则说明被解释变量y t 的分布是左偏倚的。

反之是右偏倚的。

对于不同分位数回归函数如果回归系数的差异很大，说明在不同分位数上解释变量对被解释变量的影响是不同的。

15.4 分位数回归模型的估计由于目标函数（15.3）不可微，因此传统的对目标函数求导的方法不再适用。

估计分位数回归方程参数)(ˆτβ的一种较好的方法是线性规划方法。

基于Barrodale 和Roberts (1973，以下简写为BR )提出的单纯形法(simplex algorithm)，Koenker和D’Orey(1987)提出一种估计分位数回归系数的方法。

EViews 中应用的是上述算法的改进形式。

BR 算法由于其非有效性和大样本下的一些非优良特性曾备受批评。

Koenker 和Hallock(2001) 以及Portnoy 和Koenker(1997)通过模拟证实，与内点法(interior point method)等替代方法相比，BR 算法的估计次数往往较多，大约是样本容量的平方次数。

然而，改进的BR 算法的估计次数在一定程度上是可以接受的，大约是样本容量的线性倍次数，在实际中是可以使用的。

分位数回归方程的BR 算法原理略。

下面讨论分位数回归系数估计量的渐近分布。

在弱条件下，分位数回归系数渐近服从正态分布(Koenker, 2005)。

回归系数的方差协方差矩阵的计算在分位数回归的系数估计中占有重要位置。

其方差协方差矩阵的估计方法根据分位数密度函数是否与解释变量相关分为三种方法：①误差项独立同分布(i.i.d.)假设下的直接估计方法。

由Koenker 和Bassett(1978)提出。

②误差项独立但不同分布(i.n.i.d.)条件下的直接估计方法。

③误差项独立同分布(i.i.d.)和独立但不同分布(i.n.i.d.)条件下都可使用的自举法。

（1）独立同分布假设下的参数渐近分布Koenker 和Bassett(1978)在独立同分布假设下得出分位数回归系数渐近服从正态分布，可以表述为在弱条件下： )ˆ()()(ττββ-n ~))1(,0(12)(--J s N τττ (15.5) 其中)(lim )(lim TXX T X X J n ii i n '='=∞→∞→∑(15.6) ))((/1)(11)(τττ--='=F f F s (15.7)其中s (τ) 称为稀疏函数(Sparsity function)或分位数密度函数(quantile density function)。

s (τ)是分位数函数的导数，或在第τ分位数条件下概率密度函数的倒数(见Welsh,1988)。

另外，模型误差项独立同分布假设意味着s (τ)与解释变量X 无关，因此，分位数方程只和X 在局部期间相关，即所有的条件分位数平面互相平行。