广义自回归条件异方差模型加速模拟定价理论

第47卷第3期 2019年3月

同济大学学报（自然科学版）

JOURNAL OF TONGJI UNIVERSITYCNATURAL SCIENCE)

Vol. 47 No. 3

Mar. 2019

文章编号：〇253-374X(2019)03-0435-09DOI： 10.11908/j. issn. 0253-374x. 2019.03.019广义自回归条件异方差模型加速模拟定价理论

马俊美u，3,卓金武4，张建1，陈渌1

(1.上海财经大学数学学院，上海200433; 2.上海市金融信息技术研究重点实验室，上海200433;

3.应用数学福建省髙校重点实验室(莆田学院），福建莆田351100;

4.上海财经大学信息管理与工程学院，上海200433)

摘要：研究了广义自回归条件异方差(GARCH)模型下方差衍生产品的加速模拟定价理论.基于Black-Scholes模型下的产品价格解析解以及对两类标的过程的矩分析，提出了一种 GARCH模型下高效控制变量加速技术，并给出最优控制变量的选取方法.数值计算结果表明，提出的控制变量加速模拟方法可以有效地减小Monte Carlo模拟误差，提高计算效率.该算法可以方便地解决GARCH随机波动率模型下其他复杂产品的计算问题，如亚式期权、篮子期权、上封顶方差互换、Corridor方差互换以及Gamma方差互换等计算问题.

关键词：GARCH;随机波动率；加速；控制变量；方差衍生产品

中图分类号：F830. 9,0211. 5 文献标志码：A

Pricing Accelerated Simulation Theory of Generalized Autoregressive Conditional Heteroskedasticity Model

M A Junmei1，2,3，Z H U0 Jinwu4，Z H A N G Jian1，CHENLu1

(1. School of Mathematics, Shanghai University of Finance and Economics, Shanghai 200433, China；2. Shanghai Key Laboratory of Financial Information Technology, Shanghai 200433, China；3. Key Laboratory of Applied Mathematics, Fujian Province University (Putian University), Putian 351100, China；4. School of Information Management and Engineering, Shanghai University of Finance and Economics, Shanghai 200433, China)

A b stra ct：The accelerated simulation pricing theory of variance derivatives under generalized auto regressive conditional heteroskedasticity (GARCH) stochastic volatility model was studied. Based on the analytical solution under the Black-Scholes model and their moments analysis of these two kinds of processes, a more efficient acceleration technique of control variate was proposed and the method of selecting optimal control variate was also given. The numerical results show that the proposed accelerated simulation method of control variate effectively reduce the simulation error and improve the computational efficiency. The algorithm can also be used to solve the computational problems of other complex products under GARCH stochastic volatility model, such as Asian option, Basket option, Capped variance swap, Corridor variance swap and Gamma variance swap, etc.

K ey w ord s：GARCH; stochastic volatility; accelerate；control variate；variance derivatives

波动率是金融资产最重要的特征之一，特别是在定价中起决定因素.波动率通常定义为标的资产投资回报率的标准差，通常用来度量标的资产的风险或者不确定性.经典的Black-Scholes模型假设波动率是常数，这与实际金融市场得到的数据不一致. 金融实证研究表明：波动率最显著的一个特点就是具有“微笑”或者偏斜的曲线[1].此外，除了具有“微笑”曲线外，人们还发现波动率具有集聚性与时变性，分布呈尖峰厚尾性，还具有杠杆效应、日历效益效应等特性[2].针对市场波动率的这些特性，研究者们提出了一系列随机波动率模型来改进Black-Scholes模型，期望更好地刻画随机波动率特征.估量波动性的模型在过去的半个世纪里成为计量经济学和实证金融学中较为活跃的研究领域之一.概括起来主流的随机波动率模型主要有两类，一类是连续时间的随机波动率模型(S V模型），一类是离散时间的随机波动率模型（G ARC H模型).这两类模型被认为是最集中反映全球金融数据时间序列方差波动特点的模型，也是研究现代经济计量学的一个重点.在金融实务操作中，交易都是离散进行的，GARCH模型描述离散时间经济情形，更能反映实务中股票价格运行的实际情况.

收稿日期：2018-06-07

基金项目：国家自然科学基金(11271243,11226252);上海优秀青年基金(Z Z C D12007);应用数学福建省髙校重点实验室(莆田学院)开放课题(SX2017〇4)

第一作者：马俊美(1983—），女，讲师，理学博士，主要研究方向为金融数学与计算.E-mail:ma. junmei@mail. shufe. edu. cn

门限分位数自回归模型及在股市收益自相关分析中的应用摘要：门限分位数自然回归模型是一种非限行分位数回归模型，其可以应用讨论系统之中的门限效应。并且在该模型之中，自然回归阶数以及门限值的确定等都将会为模型的分析效果带来直接的影响。本文主要对门限分位数自然回归模型以及其在股市收益中的相关应用做出分析，希望能够给予同行业的工作人员提供一定参考价值。关键词：门限分位数；回归模型；股市收益；分析股市收益的自相关性是金融市场研究中的一个重要问题，研究人员针对于理性预定理论提出了有效的市场假说，奠定了传统的金融学基础。有效的市场假说理论认为在一个有效的市场之中，股市的价格或者收益直接地反映了所有可能会获得的信息，过去的收益以及未来的收益并不相关，股市的收益则是不可以预测的，反而言之如果股市的收益在时间上是自相关的，那么历史收益是可以影响当前的收益的，这也直接表明了有效市场假说是难以成立的，可以采取序列自相关分析的方法，对其有效市场假说做出相应验证。一、门限分位数自然回归模型的分析 1. 模型的表示分析主要是记{ yt }作为其1 维响应的变量，然而x =(1,yt -1,yy

-2,…,yt -p)T 主要是为p+1为向量组成的解释变量，然而{ yt }则是为1维门限的白能量，其自然回归模型之中的门限变量通常情况下是需要相应变量{ yt }的滞后项，而γ则表示为门限，其模型如下所示：和均值自激励门限自然回归的模型进行对比，门限分位数自回归模型存在着下述的优点：一是信息刻画更加全面，回归系数估计在不同的分位点可能存在着不同的表型，同时不同阶段的变量之间关系更加细致。二是具有比较强的稳健性，和均值自激励门限自回归模型要求误差项服从特定分布的不同，其允许误差项服从一般的非对称的分布。 2. 模型的定阶在门限分位数自然回归之中，最优滞后阶数p的选择是十分重要的，可以通过AIC的准确去进行实现，然而定义AIC的准则则是如下所示：可以看出，AIC主要由两个部分所组成，一是可以反映出模型的拟合程度，主要是为前半段进行表示。二是反映出模型的复杂城市，则是经过后半段进行表示。 3. 门限效应的诊断检验分析针对于门限效应而言，其诊断检验主要是包括了以下方面的内容：第一，门限效应存在性检验，主要检验两个阶段的门限效应

【最新整理，下载后即可编辑】一、门限面板模型概览如果你不愿意看下面一堆堆的文字，更不想看计量模型的估计和检验原理，那就去《数量经济技术经济研究》上，找一篇标题带有“双门槛（或者双门限）”的文章，浏览一遍，看看文章计量部分列示的统计量和检验结果。这样，在软件操作时，你就知道每一步得到的结果有什么意义，怎么解释了，起码心里会有点印象。一般情况下，一个研究生花费在研究上的时间越多，他的成果越丰富，也就是说，研究成果和研究时间存在某种正向关联。但是，这种关联是线性的吗？在最初阶段，他可能看了两三年的文献，也没有写出一篇优秀的文章，但是一旦过了这个基础期，他的能量和成果将如火山爆发一样喷涌出来，此时，他投入少量的时间，就能产出大量优质文章。再过几年，他可能会进入另外一种境界，虽然比以前有了极大提高，但是研究进入新的瓶颈期，文章发表的数量减少。由此可以看出，研究成果与研究年限存在一种阶段性的线性关系。这个基础期的结点、瓶颈期的起点就像“门槛”一样把研究阶段分成三个部分，在不同部分，成果和时间的线性关系都不同。这个效应被称为门槛效应或门限效应。门限效应，是指当一个经济参数达到特定的数值后，引起另外一个经济参数发生突然转向其它发展形式的现象。作为原因现象的临界值称为门限值。在上面的例子中，成果和时间存在非线性关系，但是在每个阶段是线性关系。有些人将这样的模型称为门槛模型，或者门限模型。如果模型的研究对象包含多个个体多个年度，那么就是门限面板模型。汉森（Bruce E. Hansen）在门限回归模型上做出了很多贡献。了解门限模型最好的办法，首先就要阅读他的文章。他的文章很有特点：条理很清晰，推导过程详细，语言简练，语法不复杂。有关他的论文、程序、数据可以参考Hansen的个人网站：

计量经济学简答题及答案 1、比较普通最小二乘法、加权最小二乘法和广义最小二乘法的异同。答：普通最小二乘法的思想是使样本回归函数尽可能好的拟合样本数据，反映在图上就是是样本点偏离样本回归线的距离总体上最小，即残差平方和最小∑=n i i e 12min 。只有在满足了线性回归模型的古典假设时候，采用OLS 才能保证参数估计结果的可靠性。在不满足基本假设时，如出现异方差，就不能采用OLS 。加权最小二乘法是对原模型加权，对较小残差平方和2i e 赋予较大的权重，对较大2i e 赋予较小的权重，消除异方差，然后在采用OLS 估计其参数。在出现序列相关时，可以采用广义最小二乘法，这是最具有普遍意义的最小二乘法。最小二乘法是加权最小二乘法的特例，普通最小二乘法和加权最小二乘法是广义最小二乘法的特列。 6、虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况? 答: 在模型中引入虚拟变量的主要方式有加法方式与乘法方式，前者主要适用于定性因素对截距项产生影响的情况，后者主要适用于定性因素对斜率项产生影响的情况。除此外，还可以加法与乘法组合的方式引入虚拟变量，这时可测度定性因素对截距项与斜率项同时产生影响的情况。 7、联立方程计量经济学模型中结构式方程的结构参数为什么不能直接应用OLS 估计？答：主要的原因有三：第一，结构方程解释变量中的内生解释变量是随机解释变

量,不能直接用OLS 来估计；第二，在估计联立方程系统中某一个随机方程参数时，需要考虑没有包含在该方程中的变量的数据信息，而单方程的OLS 估计做不到这一点；第三，联立方程计量经济学模型系统中每个随机方程之间往往存在某种相关性，表现于不同方程随机干扰项之间，如果采用单方程方法估计某一个方程，是不可能考虑这种相关性的，造成信息的损失。 2、计量经济模型有哪些应用。答：①结构分析，即是利用模型对经济变量之间的相互关系做出研究，分析当其他条件不变时，模型中的解释变量发生一定的变动对被解释变量的影响程度。②经济预测，即是利用建立起来的计量经济模型对被解释变量的未来值做出预测估计或推算。③政策评价，对不同的政策方案可能产生的后果进行评价对比，从中做出选择的过程。④检验和发展经济理论，计量经济模型可用来检验经济理论的正确性，并揭示经济活动所遵循的经济规律。 6、简述建立与应用计量经济模型的主要步骤。答：一般分为5个步骤：①根据经济理论建立计量经济模型；②样本数据的收集； ③估计参数；④模型的检验；⑤计量经济模型的应用。 7、对计量经济模型的检验应从几个方面入手。答：①经济意义检验；②统计准则检验；③计量经济学准则检验；④模型预测检验。 1、在计量经济模型中，为什么会存在随机误差项？答：①模型中被忽略掉的影响因素造成的误差；②模型关系认定不准确造成的误差；③变量的测量误差；④随机因素。这些因素都被归并在随机误差项中考虑。因此，随机误差项是计量经济模型中不可缺少的一部分。 2、古典线性回归模型的基本假定是什么？答：①零均值假定。即在给定x t 的条件下，随机误差项的数学期望（均值）为0，即t E(u )=0。②同方差假定。误差项t u 的方差与t 无关，为一个常数。③无自相关假定。即不同的误差项相互独立。④解释变量与随机误差项不相关假定。⑤正态性假定，即假定误差项t u 服从均值为0，方差为2 的正态分布。 3、总体回归模型与样本回归模型的区别与联系。答：主要区别：①描述的对象不同。总体回归模型描述总体中变量y 与x 的相互关系，而样本回归模型描述所观测的样本中变量y 与x 的相互关系。②建立模型的不同。总体回归模型是依据总体全部观测资料建立的，样本回归模型是依据样本观测资料建立的。③模型性质不同。总体回归模型不是随机模型，样本回归模型是随机模型，它随着样本的改变而改变。主要联系：样本回归模型是总体回归模型的一个估计式，之所以建立样本回归模

一、门限面板模型概览? 如果你不愿意看下面一堆堆的文字，更不想看计量模型的估计和检验原理，那就去《数量经济技术经济研究》上，找一篇标题带有“双门槛（或者双门限）”的文章，浏览一遍，看看文章计量部分列示的统计量和检验结果。这样，在软件操作时，你就知道每一步得到的结果有什么意义，怎么解释了，起码心里会有点印象。一般情况下，一个研究生花费在研究上的时间越多，他的成果越丰富，也就是说，研究成果和研究时间存在某种正向关联。但是，这种关联是线性的吗？在最初阶段，他可能看了两三年的文献，也没有写出一篇优秀的文章，但是一旦过了这个基础期，他的能量和成果将如火山爆发一样喷涌出来，此时，他投入少量的时间，就能产出大量优质文章。再过几年，他可能会进入另外一种境界，虽然比以前有了极大提高，但是研究进入新的瓶颈期，文章发表的数量减少。由此可以看出，研究成果与研究年限存在一种阶段性的线性关系。这个基础期的结点、瓶颈期的起点就像“门槛”一样把研究阶段分成三个部分，在不同部分，成果和时间的线性关系都不同。这个效应被称为门槛效应或门限效应。门限效应，是指当一个经济参数达到特定的数值后，引起另外一个经济参数发生突然转向其它发展形式的现象。作为原因现象的临界值称为门限值。在上面

的例子中，成果和时间存在非线性关系，但是在每个阶段是线性关系。有些人将这样的模型称为门槛模型，或者门限模型。如果模型的研究对象包含多个个体多个年度，那么就是门限面板模型。汉森（Bruce E. Hansen）在门限回归模型上做出了很多贡献。了解门限模型最好的办法，首先就要阅读他的文章。他的文章很有特点：条理很清晰，推导过程详细，语言简练，语法不复杂。有关他的论文、程序、数据可以参考Hansen的个人网站：。 Hansen于1996年在《Econometrica》上发表文章《Inference when a nuisance parameter is not identified under the null hypothesis》，提出了时间序列门限自回归模型（TAR）的估计和检验。之后，他在门限模型上连续追踪，发表了几篇经典文章，尤其是1999年的《Threshold effects in non-dynamic panels: Estimation, testing and inference》，2000年的《Sample splitting and threshold estimation》和2004年与他人合作的《Instrumental Variable Estimation of a Threshold Model》。在这些文章中，Hansen介绍了包含个体固定效应的静态平衡面板数据门限回归模型，阐述了计量分析方法。方法方面，首先要通过减去时间均值方程，消除个体固定效应，然后再利用OLS（最小二乘法）进行系数估计。如果样本数量有限，那么可以使用自举法（Bootstrap）重复抽取样本，提高门限效应的显著性检验效率。在Hansen（1999）的模型中，解释变量中不能包含内生解释变量，无法扩展

回归模型的残差分析山东胡大波判断回归模型的拟合效果是回归分析的重要内容，在回归分析中，通常用残差分析来判断回归模型的拟合效果。下面具体分析残差分析的途径及具体例子。一、残差分析的两种方法 1、差分析的基本方法是由回归方程作出残差图，通过观测残差图，以分析和发现观测数据中可能出现的错误以及所选用的回归模型是否恰当；在残差图中，残差点比较均匀地落在水平区域中，说明选用的模型比较合适，这样的带状区域的宽度越窄，说明模型的拟合精度越高，回归方程的预报精度越高。 2、可以进一步通过相关指数 ∑ ∑ = = - - - = n i i n i i i y y y y R 1 2 1 2 ^ 2 ) ( ) ( 1来衡量回归模型的拟合效果，一般规律是2 R越大，残差平方和就越小，从而回归模型的拟合效果越好。二、典例分析：例1、某运动员训练次数与运动成绩之间的数据关系如下：次数/x 30 33 35 37 39 44 46 50 成绩/y 30 34 37 39 42 46 48 51 试预测该运动员训练47次以及55次的成绩。解答：（1）作出该运动员训练次数x与成绩y之间的散点图，如图1所示，由散点图可知，它们之间具有线性相关关系。次数 i x 成绩 i y2 i x2 i y i x i y 30 30 900 900 900 33 34 1089 1156 1122 35 37 1225 1369 1295 37 39 1369 1521 1443 39 42 1521 1764 1638 44 46 1936 2116 2024 46 48 2116 2304 2208

一、门限面板模型概览如果你不愿意看下面一堆堆的文字，更不想看计量模型的估计和检验原理，那就去《数量经济技术经济研究》上，找一篇标题带有“双门槛（或者双门限）”的文章，浏览一遍，看看文章计量部分列示的统计量和检验结果。这样，在软件操作时，你就知道每一步得到的结果有什么意义，怎么解释了，起码心里会有点印象。一般情况下，一个研究生花费在研究上的时间越多，他的成果越丰富，也就是说，研究成果和研究时间存在某种正向关联。但是，这种关联是线性的吗？在最初阶段，他可能看了两三年的文献，也没有写出一篇优秀的文章，但是一旦过了这个基础期，他的能量和成果将如火山爆发一样喷涌出来，此时，他投入少量的时间，就能产出大量优质文章。再过几年，他可能会进入另外一种境界，虽然比以前有了极大提高，但是研究进入新的瓶颈期，文章发表的数量减少。由此可以看出，研究成果与研究年限存在一种阶段性的线性关系。这个基础期的结点、瓶颈期的起点就像“门槛”一样把研究阶段分成三个部分，在不同部分，成果和时间的线性关系都不同。这个效应被称为门槛效应或门限效应。门限效应，是指当一个经济参数达到特定的数值后，引起另外一个经济参数发生突然转向其它发展形式的现象。作为原因现象的临界值称为门限值。在上面的例子中，成果和时间存在非线性关系，但是在每个阶段是线性关系。有些人将这样的模型称为门槛模型，或者门限模型。如果模型的研究对象包含多个个体多个年度，那么就是门限面板模型。汉森（Bruce E. Hansen）在门限回归模型上做出了很多贡献。了解门限模型最好的办法，首先就要阅读他的文章。他的文章很有特点：条理很清晰，推导过程详细，语言简练，语法不复杂。有关他的论文、程序、数据可以参考Hansen的个人网站： https://www.360docs.net/doc/e318004966.html,/~bhansen/progs/progs_subject.htm。 Hansen于1996年在《Econometrica》上发表文章《Inference when a nuisance parameter is not identified under the null hypothesis》，提出了时间序列门限自回归模型（TAR）的估计和检验。之后，他在门限模型上连续追踪，发表了几篇经典文章，尤其是1999年的《Threshold effects in non-dynamic panels: Estimation, testing and inference》，2000年的《Sample splitting and threshold estimation》和2004年与他人合作的《Instrumental Variable Estimation of a Threshold Model》。在这些文章中，Hansen介绍了包含个体固定效应的静态平衡面板数据门限回归模型，阐述了计量分析方法。方法方面，首先要通过减去时间均值方程，消除个体固定效应，然后再利用OLS（最小二乘法）进行系数估计。如果样本数量有限，那么可以使用自举法（Bootstrap）重复抽取样本，提高门限效应的显著性检验效率。在Hansen（1999）的模型中，解释变量中不能包含内生解释变量，无法扩展应用领域。Caner和Hansen在2004年解决了这个问题。他们研究了带有内生变量和一个外生门限变量的面板门限模型。与静态面板数据门限回归模型有所不同，在含有内生解释变量的面板数据门限回归模型中，需要利用简化型对内生变量进行一定的处理，然后用2SLS（两阶段最小二乘法）或者GMM（广义矩估计）对参数进行估计。当然，有关门限回归模型的最新研究，还可以参考《Inflation and Growth: New Evidence From a Dynamic Panel Threshold Analysis》（Stephanie Kremer，Alexander Bick，Dieter Nautz，2009）。二、计量模型的假设、估计和检验略

残差分析的相关概念辨析及应用在研究两个变量间的关系时，首先要根据散点图来粗略判断它们是否线性相关，是否可以用线性回归模型来拟合数据．然后，可以通过残差^ ^2^1,,,n e e e 来判断模型拟合的效果，判断原始数据中是否存在可疑数据．这方面的分析工作称为残差分析.残差分析一般有两种方法:(1)作残差图；（2）利用相关指数R 2来刻画回归效果. .,,2,1,^^^^n i a x b y y y e i i i i i ^ i e 称为相应于点(x i ，y i )的残差．类比样本方差估计总体方差的思想，可以用)2)(,(2121^^ 1 ^2^2 n b a Q n e n n i i 作为σ2 的估计量，其中^a 和^b 由公式x b y a ^^ , n i i n i i i x x y y x x b 1 2 1 ^ )() )((给出，Q(^ a ， ^ b )称为残差平方和.可以用^ 2 衡量回归方程的预报精度．通常，^ 2 越小，预报精度越高．例1．设变量x,y 具有线性相关关系，试验采集了5组数据，下列几个点对应数据的采集可能有错误的是( ) A 点A B.点 B C.点 C D.点E 思路与技巧由散点图判断出，点A,B,C,D,F 呈线性分布，E 点远离这个区域，说明点E 数据有问题．解答D 评析可以用Excel 画散点图，样本的散点图可以形象的展示两个变量的关系，画散点图的目的是用来确定回归模型的形式，若散点图呈条状分布，则x 与y 有较好的线性相关关系，散点图除了条状分布，还有其他形状的分布．

例2．为研究重量x(单位：克)对弹簧长度y(单位：厘米)的影响，对不同重量的6根弹簧进行测量，得如下数据： (1)画出散点图． (2)如果散点图中的各点大致分布在一条直线的附近，求y与x之间的回归直线方程． (3)求出残差，进行残差分析．思路与技巧可以用Excel画散点图，由散点图发现x与y是否呈线性分布，由此判断x与y之间是否有较好的线性相关关系，若有，求出线性回归方程，再画出残差图，进行残差分析．解答 (1)由Excel表格画散点图如图 (2)设y?=bx+a是线性回归直线方程，

S门限模型的操作和结果详细解读文件编码（008-TTIG-UTITD-GKBTT-PUUTI-WYTUI-8256）

一、门限面板模型概览？如果你不愿意看下面一堆堆的文字，更不想看计量模型的估计和检验原理，那就去《数量经济技术经济研究》上，找一篇标题带有“双门槛（或者双门限）”的文章，浏览一遍，看看文章计量部分列示的统计量和检验结果。这样，在软件操作时，你就知道每一步得到的结果有什么意义，怎么解释了，起码心里会有点印象。？一般情况下，一个研究生花费在研究上的时间越多，他的成果越丰富，也就是说，研究成果和研究时间存在某种正向关联。但是，这种关联是线性的吗在最初阶段，他可能看了两三年的文献，也没有写出一篇优秀的文章，但是一旦过了这个基础期，他的能量和成果将如火山爆发一样喷涌出来，此时，他投入少量的时间，就能产出大量优质文章。再过几年，他可能会进入另外一种境界，虽然比以前有了极大提高，但是研究进入新的瓶颈期，文章发表的数量减少。由此可以看出，研究成果与研究年限存在一种阶段性的线性关系。这个基础期的结点、瓶颈期的起点就像“门槛”一样把研究阶段分成三个部分，在不同部分，成果和时间的线性关系都不同。这个效应被称为门槛效应或门限效应。？门限效应，是指当一个经济参数达到特定的数值后，引起另外一个经济参数发生突然转向其它发展形式的现象。作为原因现象的临界值称为门限值。在上面的例

子中，成果和时间存在非线性关系，但是在每个阶段是线性关系。有些人将这样的模型称为门槛模型，或者门限模型。如果模型的研究对象包含多个个体多个年度，那么就是门限面板模型。？汉森（Bruce E. Hansen）在门限回归模型上做出了很多贡献。了解门限模型最好的办法，首先就要阅读他的文章。他的文章很有特点：条理很清晰，推导过程详细，语言简练，语法不复杂。有关他的论文、程序、数据可以参考Hansen的个人网站：。？ Hansen于1996年在《Econometrica》上发表文章《Inference when a nuisance parameter is not identified under the null hypothesis》，提出了时间序列门限自回归模型（TAR）的估计和检验。之后，他在门限模型上连续追踪，发表了几篇经典文章，尤其是1999年的《Threshold effects in non-dynamic panels: Estimation, testing and inference》，2000年的《Sample splitting and threshold estimation》和2004年与他人合作的《Instrumental Variable E s t i m a t i o n o f a T h r e s h o l d M o d e l》。？在这些文章中，Hansen介绍了包含个体固定效应的静态平衡面板数据门限回归模型，阐述了计量分析方法。方法方面，首先要通过减去时间均值方程，消除个体固定效应，然后再利用OLS（最小二乘法）进行系数估计。如果样本数量有限，那么可以使用自举法（Bootstrap）重复抽取样本，提高门限效应的显着性检验效率。？

回归模型的残差分析山东胡大波判断回归模型的拟合效果是回归分析的重要内容，在回归分析中，通常用残差分析来判断回归模型的拟合效果。下面具体分析残差分析的途径及具体例子。一、残差分析的两种方法 1、差分析的基本方法是由回归方程作出残差图，通过观测残差图，以分析和发现观测数据中可能出现的错误以及所选用的回归模型是否恰当；在残差图中，残差点比较均匀地落在水平区域中，说明选用的模型比较合适，这样的带状区域的宽度越窄，说明模型的拟合精度越高，回归方程的预报精度越高。 2、可以进一步通过相关指数∑∑==--- =n i i n i i i y y y y R 1 2 1 2 ^ 2 )()(1来衡量回归模型的拟合效果，一般规律是2 R 越大，残差平方和就越小，从而回归模型的拟合效果越好。二、典例分析：例1、某运动员训练次数与运动成绩之间的数据关系如下：试预测该运动员训练47次以及55次的成绩。解答：（1）作出该运动员训练次数x 与成绩y 之间的散点图，如图1所示，由散点图可知，它们之间具有线性相关关系。（2）列表计算：由上表可求得875.40,25.39==y x ， 126568 1 2 =∑=i i x ，137318 1 2=∑=i i y ，

131808 1 =∑=i i i y x ，所以∑∑==---= 8 1 2 8 1 )() )((i i i i i x x y y x x β.0415.188 1 2 28 1≈--= ∑∑==i i i i i x x y x y x 00302.0-≈-=x y βα，所以回归直线方程为.00302.00415.1^ -=x y （3）计算相关系数将上述数据代入∑∑∑===---= 8 1 8 1 2 22 2 8 1 ) 8)(8(8i i i i i i i y y x x y x y x r 得992704.0=r ，查表可知 707.005.0=r ，而05.0r r >，故y 与x 之间存在显着的相关关系。（4）残差分析：作残差图如图2，由图可知，残差点比较均匀地分布在水平带状区域中，说明选用的模型比较合适。计算残差的方差得884113.02 =σ ，说明预报的精度较高。（5）计算相关指数2 R 计算相关指数2 R ＝0.9855.说明该运动员的成绩的差异有98.55％是由训练次数引起的。（6）做出预报由上述分析可知，我们可用回归方程 .00302.00415.1^ -=x y 作为该运动员成绩的预报值。将x ＝47和x ＝55分别代入该方程可得y ＝49和y ＝57，故预测运动员训练47次和55次的成绩分别为49和57. 点评：一般地，建立回归模型的基本步骤为：（1）确定研究对象，明确哪个变量是解释变量，哪个变量是预报变量；（2）画出确定好的解释变量和预报变量的散点图，观察它们之间的关系（如是否存在线性关系等）；（3）由经验确定回归方程的类型（如我们观察到数据呈线性关系，则选用线性回归方程y ＝bx ＋a ）；（4）按一定规则估计回归方程中的参数（如最小二乘法）；（5）得出结果后分析残差图是否有异常（个别数据对应残差过大，或残差呈现不随机的规律性等等），若存在异常，则检查数据是否有误，或模型是否合适等。例2、某城区为研究城镇居民月家庭人均生活费支出和月人均收入的相关关系，随机抽取

应用回归分析例库封面

一、案例背景文章通过分阶段建立多元线性回归模型，分析了改革开放32年来民航客运量与相关因素之间的关系。结果表明：在不同历史阶段影响民航客运量的因素有所不同，并且从经济学角度对所建立的模型给出了合理的解释。二、数据介绍数据来自《新中国五十五年统计资料汇编》和《中国统计年鉴2010》。三、分析过程根据以上的分析，自改革开放以来，将中国民航客运量的增长趋势分为三个阶段，这里还有一个问题，就是年段的划分选在何处会更合理呢？对于这个问题，我们主要依据表2中分段回归拟合的残差平方和的大小，同时结合自变量选择时考虑的诸多因素做适当调整。下面分阶段建立因变量y 关于自变量的各种组合的回归方程，这种组合方程共有 12552131555 C C C +++=-=个，根据自变量的选择准则，从中选择最优回归方程。 3.1 第一阶段：1978~1988年最优回归模型经过比较，在通过回归方程和回归系数的显著性检验的方程中（取显著性水平0.05α=），发现表3中的两个模型最优。由表3可见，模型一的各项指标都优于模型二，但是模型一中2x 的系数-0.290602β=<，与实际意义不符，最终消费与民航客运量应该正相关。模型二中3x 的系数-0.008703β=<，与实际意义相符合，铁路客运量与民航客运量应该负相关，出现与实际意义不符的情况可能是由变量间的多重共线性造成的，为此考察其它几项指标，见表4. 表3 两个最优回归模型比较模型 1978~1988年拟合回归方程标准残差复相关系数 PRESS AIC 模型一 721.0010-0.29060.690225 y x x =+ 41.91 0.9920 26372.68 111.0539 模型二 837.1212-0.00870.517435 y x x =+ 46.03 0.9904 52010.33 113.1177 表4 多重共线性、异常值诊断模型方差扩大因子绝对值最大的删除学生化残差SRE 最大库克距离最大杠杆值模型一 27.9371025VIF VIF ==> 2.60473< 0.57970.5> 0.45162ch > 模型二 4.9581035VIF VIF ==< 2.6833< 0.42700.5< 0.33642ch < 从表4可见，模型一的自变量间存在严重的多重共线性，而且存在异常值点，模型二的自变量间不存在多重共线性，而且没有异常值点。为了进一步考察模型二的拟合效果，做残

门限自回归模型及其在水文随机模拟中的应用* 王文圣,　袁　鹏,　丁　晶,　邓育仁 (四川大学水电学院,四川成都　610065) 摘　要:为了客观描述日流量变化的非线性特性,将一种非线性时序模型——门限自回归模型引入日流量随机模拟。根据我国金沙江流域屏山站观测资料建立了日流量随机模拟的门限自回归模型。实用性检验结果表明,该模型用于模拟日流量过程是可行的,成果实用。这种尝试为日流量随机模拟提供了一种考虑日流量非线性变化特性的新模型。关键词:门限自回归模型;日流量随机模拟;实用性检验中图分类号:P33;P333.6文献标识码:　B文章编号:1001-2184(2001)增-0047-04 1　引　言日流量随机模拟利用日流量涨落的统计特性,具体说是利用日流量在时序上的统计关系。这种统计关系非常复杂,为简化处理常常以线性来表征前后日流量的关系。在一般情况下,这种简化尚能反映日流量时序变化的主要特性。所以在日流量随机模拟时,当前广泛使用线性时序模型。但是日流量在时序上的前后流量关系是非线性的。例如,对大流域一次洪水的日流量过程涨水段的下部、中部和上部有着明显不同的涨率,前后流量关系显然不是线性的;同样在落水段的下部、中部和上部有着明显不同的退水率,前后流量关系也不是线性的。因此,为更全面地反映日流量时序变化的特性,最好考虑日流量在时序变化上的非线性特性。近来,非线性时序的分析获得了迅速的发展,并且相继出现了一系列非线性时序模型,比如门限自回归模型,双线性模型,指数自回归模型,状态依赖模型等。对双线性模型曾初步研究了在洪水模拟中应用的可能性[1]。门限自回归模型最近尝试应用于水文预报并获得较好的效果[2]。鉴于门限自回归模型在表征非线性特性上具有其独到之处,笔者将之引入日流量随机模拟并以某站日流量资料为基础,全面探讨了这种模型在日流量模拟中的可行性,模拟效果和优缺点等。 2　门限自回归模型的形式和基本特性 2.1　模型形式门限自回归模型由汤家豪1978年提出[3],用来解决一类非线性问题。其思路是:对研究对象按照不同区间建立若干个线性时序模型;然后将这些线性时序模型组合起来描述该对象非线性时序变化特性。对于时间序列{Z t},门限自回归模型的一般形　收稿日期:2000-08-14 *　基金项目:国家自然科学基金(49871018);高速水力学国家重点实验室开放基金资助项目(编号2008)式为: Z t U(1)0+∑ p 1 i=1 U(1)i Z t-i+E(1)t Z t-d F r1 U(2)0+∑ p 2 i=1 U(2)i Z t-i+E(2)t r1

第三章异方差与自相关广义线性模型本章继续讨论线性模型 Y =X β+ε, E (ε)=0 （所不同在于以前的关于误差方差的假定是 Var(ε)=σ2I n （这一章逐次推广讨论。第一节讨论异方差的存在与检验，尤其是在经济模型资料中的存在与影响，第二节讨论的是 n i diag Var i n ,,1,),,,()(2 221 已知（ 2 221222222212121,),,,,,,,,,()( diag Var 未知（ )ex p(),,,()(2 221 i i n Z diag Var ，未知（这些都是误差方差为对角阵的模型。第三节讨论自相关线性模型。首先讨论的是残差一阶自回归线性模型，它的残差满足 i i i 1 （ )(,0)(,)(,0)(22j i E E E j i i i （此时残差εi 的方差虽不为对角阵，但只含一个参数。接着我们介绍自回归条件异方差(ARCH)模型，它的误差假设是 i p i p i i 221102 （ )(,0)(,)(,0)(22j i E E E j i i i （因为模型计算中用到了广义矩估计方法(GMM)，我们在第四节又介绍了GMM 。第五节讨论的是 2 2 ,0)( M Var 未知，M 已知（第六节讨论的是 2 2 ,0)( M Var 未知，M 已知（所讨论的内容还是各种回归模型、算法及性质。第一节异方差的存在与检验一、异方差的存在与影响前面介绍的线性回归模型，都是假定随机误差项εi 独立同分布，有相同的方差

(Homoscedasticity) 2)( ,0)( i i Var E （但是实际抽样很难保证这一点。经济对象千差万别，可以按不同标准划分成不同的群体。这些群体间的差别导致样本方差不一致，于是就有所谓异方差(Heteroscedasticity): 2)( ,0)(i i i Var E （反映在散点图上，如下图可以明显看出样本方差与点 (X i , Y i )有关，随着样本数值增大而增大。图由于样本方差的差异，原来最小二乘估计的一些优良性质不再存在。如在一元线性回归 n i X Y i i i ,,1 ,10 （我们知道最小二乘估计 n i i XX i n j i n i i i XX XY Y S X X X X Y Y X X S S 1 1 2 1 1 )() )((? （ n i i XX i Y S X X X n X Y 11 0)(1 ?? （于是 )()()?(2 11i n i XX i Y Var S X X Var （ )()(1)?(2 10i n i XX i Y Var S X X X n Var （现在Var(Y i )不是常量，我们就无法证明0 1?,? 是最小方差线性无偏估计。显著性检验也成了问题。原来构造的F 统计量是分子分母都含有未知参数σ2, 可以分别提取公因式再约去，现在是异方差，按原来方法构造的F 统计量里的未知参数无法直接约去，预测精度也无法保证。差不多原来推导的各种统计方法、统计性质由于基础动摇而都需重新考虑。因此我们需要将一般线性回归模型推广。不过在推广之前，首先要解决异方差的检验问题。二、异方差的检验异方差的检验一般需要比较大的样本，一般都是作所谓残差分析。图

3.1 第二课时残差分析及回归模型的选择一、课前准备 1.课时目标 (1) 了解残差分析回归效果； (2) 了解相关指数2R 分析回归效果； (3) 了解常见的非线性回归转化为线性回归的方法. 2.基础预探 1.在线性回归模型y bx a e =++中，a b 和为模型的未知参数，e y 是与y bx a =+之间的误差，通常ｅ为随机变量，称为_______.它的均值E(ｅ)＝0，方差2 ()0D e σ=>. 线性回归模型的完整表达形式为2 ()0,()y bx a e E e D e σ=++??==? .在此模型中，随机误差ｒ的方差2 σ越小，通过回归直线y bx a =+预报真实值ｙ的精度越高. 2.对于样本点1122(,),(,), ,(,)n n x y x y x y 而言，相应于它们的随机误差为 (1,2,,)i i i i e y y y bx a i n =-=--=，其估计值为(1,2, ,)i i i i i e y y y bx a i n =-=--=， i e 称为相应于点(,)i i x y 的______.类比样本方差估计总体方差的思想，可以用 2 1 (,)2 Q a b n σ= -(ｎ＞2)作为2σ的估计量，其中a b 和由公式给出，()Q a b ,称为残差平方和.可以用2 σ衡量回归直线方程的预报精度.通常2 σ越小，预报精度越高. 3.在研究两个变量间的关系时，首先要根据散点图来粗略判断它们是否线性相关，是否可以用线性回归模型来拟合数据.然后，可以通过残差12,, n e e e 来判断模型拟合的效果，判断原始数据中是否存在可疑数据.这方面的分析工作称为_______. 4.用相关指数2 R 来刻画回归的效果，其计算公式是：2 2 12 1 () 1() n i i n i i y y R y y ==-=- -∑∑.显然2 R 取值越大，意味着残差平方和_______，也就是说模型的拟合效果________. 二、学习引领 1. 进行回归分析的步骤是什么？ (1)确定研究对象，明确是哪两个变量之间的相关关系. (2)画出散点图，观察它们之间的关系是否存在线性关系，也可计算变量间的线性相关系数的值来精确判断它们之间是否存在相关关系.如果不存在线性相关关系，判断散点图是否存在非线性相关关系.

1. 什么是时间序列？请收集几个生活中的观察值序列。按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。例如我把每天的生活费记录下来；零售商把每个月的销售额记下来，重要的是时间间隔和量纲要相同。 2. 时域方法的特点是什么？时域分析方法具有理论基础扎实、操作步骤规范、分析结果易于解释，是时间序列分析的主流方法等特点。 3、时域方法的发展轨迹是怎样的？ 1927年,英国统计学家G. U. Yule 提出AR模型(自回归（autoregressive, AR）模型); 1931年,英国统计学家、天文学家G. T. Walker提出MA模型(移动平均（moving average, MA）模型); 1931年,英国统计学家、天文学家G. T. Walker提出ARMA模型(自回归移动平均（autoregressive moving average, AR MA）模型) 1970年,美国统计学家G.E.P.Box和英国统计学家G.M.Jenkins提出ARIMA模型(求和自回归移动平均（autoregressive integrated moving average, ARIMA）模型，又称（Box—Jenkins 模型）)出版了《Time Series Analysis Forecasting and Control》; 美国统计学家,计量经济学家Robert F.Engle在1982年提出了自回归条件异方差（ARCH）模型,用以研究英国通货膨胀率的建模问题; Bollerslov在1985年提出了广义自回归条件异方差（GARCH）模型; Nelson等人指数广义自回归条件异方差（EGARCH）模型,方差无穷广义自回归条件异方差（IEGARCH）模型,依均值广义自回归条件异方差（EGARCH-M）模型。在非线性场合，Granger和Andersen在1978年提出了双线性模型；Howell Ttong在1978年提出了门限自回归模型（分段线性化构造）等等。模型分类主要有单变量、同方差场合的线性模型：AR, MA, ARMA, ARIMA；异方差场合的线性模型：ARCH, GARCH, EGARCH, IGARCH, GARCH-M；多变量场合的线性模型：协整(co-integration)理论，Granger, Engle 2003Nobel奖；非线性的时间序列分析：（分段线性化）门限自回归模型。还有时间序列分析软件SAS（Statistical Analysis System）系统专门模块：SAS/ETS(Econometric & Time Series)。

第五章异方差性用OLS 法得到的估计模型通过统计检验后，还要检验摸型是否满足假定条件。由第二章知，只有模型的5个假定条件都满足时，用OLS 法得到的估计量才具有最佳线性无偏特性。当一个或多个假定条件不成立时，OLS 估计量将丧失上述特性。本节讨论当假定条件不成立时，对参数估计带来的影响以及相应的补救措施。以下讨论都是在某一个假定条件被违反，而其他假定条件都成立的情况下进行。分为5个步骤。（1）回顾假定条件。（2）假定条件不成立对模型参数估计带来的影响。（3）定性分析假定条件是否成立。（4）假定条件是否成立的检验（定量判断）。（5）假定条件不成立时的补救措施。 5.1 异方差性的含义与产生的原因 5.1.1 同方差假定 -2 2 46810120 50 100 150 200 X Y 图5.1 同方差情形图5.2 同方差情形模型的假定条件⑴ 给出Var(u ) 是一个对角矩阵， Var(u ) = E(u u ' ) = σ 2I = σ 21 010 1?????????? ?? (5.1) 且u 的方差协方差矩阵主对角线上的元素都是常数且相等，即每一误差项的方差都是有限的相同值（同方差假定）；且非主对角线上的元素为零（非自相关假定），当这个假定不成立时，Var(u ) 不再是一个纯量对角矩阵。

Var(u ) = σ 2 Ω = σ 211220..00...0......00...TT σσσ???? ???????? ≠σ 2 I (5.2) 当误差向量u 的方差协方差矩阵主对角线上的元素不相等时，称该随机误差系列存在异方差，即误差向量u 中的元素u t 取自不同的分布总体。非主对角线上的元素表示误差项之间的协方差值。比如 Ω 中的 σi j 与σ 2的乘积 ,（i ≠ j ）表示与第i 组和第j 组观测值相对应的u i 与 u j 的协方差。若 Ω 非主对角线上的部分或全部元素都不为零，误差项就是自相关的。本节讨论异方差。下一节讨论自相关问题。以两个变量为例，同方差假定如图5.1和5.2所示。对于每一个x t 值，相应u t 的分布方差都是相同的。 5. 1.2 异方差表现与来源异方差通常有三种表现形式，（1）递增型，（2）递减型，（3）条件自回归型。递增型异方差见图5.3和5.4。图5.5为递减型异方差。图5.6为条件自回归型异方差。 123456720406080100120140160180200 Y 图5.3 递增型异方差情形图5.4 递增型异方差 012345670 50 100 150 200X Y -8 -6-4-20246 DJ PY 图5.5 递减型异方差图5.6 复杂型异方差产生的原因主要有以下几种： (1) 模型中遗漏了某些解释变量。