人口增长率的非参数自回归预测模型

人口增长率的非参数自回归预测模型
人口增长率的非参数自回归预测模型

收稿日期:2006201204

作者简介:巩永丽(1980—),女,山西永济人,西安理工大学硕士研究生,主要从事应用概率统计方面的研究.

山西师范大学学报(自然科学版)第21卷第1期Journal of Shanxi Nor mal University

Vol .21 No .12007年3月

Natural Science Editi on

M ar .2007

文章编号:100924490(2007)0120038205

人口增长率的非参数自回归预测模型

巩永丽1

,张德生1

,武新乾2

,姜爱平

1

(11西安理工大学理学院,陕西西安710054;21西北工业大学,陕西西安710072)

摘 要:针对传统的人口增长预测模型不能理想地捕获我国人口增长率数据的非线性性特征,本文基于局部线性非参数估计理论,对我国建国以来的年人口增长率建立了非参数自回归NAR (1)模型,并对

2000年~2003年的年人口增长率进行了预测,计算结果表明,相对于参数自回归模型而言,非参数自回

归模型能够很好地解决人口增长预测这一非线性问题,预测精度较高.关键词:非参数估计;非参数自回归模型;预测中图分类号:O29 文献标识码:A

0 引言

我国是一个发展中国家,又是世界上人口最多的国家,人口问题一直是制约我国经济和社会发展的首要因素,因此,能否对人口增长做出比较准确的预测,对于加速推进我国现代化建设有着极为重要的现实

意义.对于人口增长预测,传统的方法有增长曲线模型、灰色系统模型、系统动力学模型、自回归模型等.增长曲线模型预测方法

[1]

相对简单,但是精度不高;灰色系统模型

[1]

主要是对人口增长趋势波动进行分析,

它在预测资料不全或资料的波动太大、不平稳的发展趋势效果较好;系统动力学模型[1]

在分析问题、收集

资料、建立模型和求证的过程中都要消耗一定的财力、物力和人力,还需要占用大量的计算机工作时间,而且建模人员的专业水平也直接影响模型的质量和结果.自回归模型由于是线性参数化形式,难以较好的解决人口增长预测这一非线性问题.因此,本文尝试利用非参数估计方法,建立我国人口增长率的非参数自回归预测模型,结果表明非参数自回归模型用于人口预测可以获得令人满意的结果,可为相关部门制定人口政策提供科学的依据.

1 非参数自回归预测模型基本原理

1.1 非参数自回归模型

非参数自回归模型(NAR (p ))为:Y t =m (X t )+εt ,其中,解释性变量X t ∈R p

由响应变量(或被解释性变量)Y t ∈R 的一些滞后项所组成(p 为正整数);随机误差序列{εt }独立同分布,E (εt )=0,

E (ε2t )=σ2

,并且εt 与X s ,s ≤t 相互独立;未知函数m (?

)称为条件均值函数(或自回归函数).1.2 非参数预测

对一组平稳时间序列{Y t },t =1,2,...,n,我们的目的是对确定的正整数k,k ≥1,预测Y n +k 的值.非参数自回归模型对未知值Y n +k 进行预测的计算步骤如下:

(1)对这组平稳时间序列建立相应的非参数自回归模型

Y t =m (X t )+εt

(1)

其中X

t

=(Y t-1,Y t-2,...,Y t-p),随机误差序列{εt}独立同分布,并且εt与Y t-1,Y t-2,...,Y t-p相互独立, E(εt)=0,E(ε2t)=σ2.

(2)对上述非参数自回归模型(1)中的自回归函数m(?)采用非参数的方法进行估计,记作m^(?).

(3)利用m^(?)对未知值Y n+k(k≥1)进行非参数预测.

2 非参数自回归预测模型的建立

2.1 模型阶数p的选择

为了应用非参数自回归模型(1)对未知值Y

n+k

(k≥1)进行预测,必须首先确定滞后变量个数p的值.本文采用Cheng和Tong提出的一种相合的定阶方法[2],即C ross2Validation方法对p进行确定.

C ross2Validation方法的原理:对上述的非参数自回归模型(1)的一段样本Y1,Y2,...,Y n,令X t(k)=

(Y

t-1,Y t-2,...,Y t-k),定义cv(k)=

1

n-k6

n

t=k+1

{Y t-m^-t(X t(k))}2W(X t(k)),其中m^-t(?)是去掉第t个数

据后,对自回归函数m(?)的核估计,其阶数p用尝试阶数k代替,其估计为

m^-t(X t(k))=6n

s=k+1

s≠t

7k

i=1

K(

Y i-Y s-i

h

)Y

s 6n

s=k+1

s≠t

7k

i=1

K(

Y i-Y s-i

h

)

其中k(?)是核函数,W(?)为适当选取的非负权函数,对预先给定的模型(1)的阶数的上界L,在{1, 2,...,L}上极小化cv(k),这时模型阶数的估计p^满足cv(p^)=m in

1≤k≤L

cv(k).

2.2 自回归函数m(?)的估计

估计自回归函数m(?)的常用方法是N adaraya2W atson(N2W)核估计[3]和局部线性估计[4~6].相对于N2W核估计而言,局部线性估计可以减少N2W估计量的偏差,能自动适应设计点的边界,无须边界修正;在估计自回归函数的导数方面优于N2W估计,特别是无须核函数的可微性.因此,本文采用局部线性估计方法对自回归函数进行估计.

局部线性估计的思想:设m(X)在X=x处p+1阶导数存在(x可取x

i

,i=1,2,...,n).我们要估计m(x),为此,先把m(X)在X=x处进行泰勒展开

Y i=m(x)+m′(x)(X i-x)+εi,i=1,2,...,n

局部线性估计即为

m in{6n i=1[Y i-m(x)-m′(x)(X i-x)]2k h(X i-x)}

其中K

h (?)=K(

?

h

)/h,h为带宽,h的大小依赖于数据,一般与n有关.K(?)为核函数,本文使用抛物线核

K(u)=0.75(1-u2)+作为核函数.

2.3 窗宽的选择

对一组样本观测值{X

i

,Y i}而言,在给定核函数K(?)下,在X i处局部估计的核权函数为W i(X)=K h(X-X i).选择宽窗h的常用方法是1977年Stone提出的交错鉴定方法[3]

(C ro ss2V alidation2M ethod):在每个局部观察点X=X

i

,先从样本中剔除该观察点(X i,Y i);再将剩下的n-1个观察点在X=X i处进行核权局部估计;最后,通过比较平方拟合误差:cv(h)=n-16n i=1(Y i-m^n,-i(X))2W(X),选择使平方拟和误差达到最小的窗宽h.其中m^n,-i(?)是剔除第i个数据后,对自回归函数m(?)的局部线性估计.

2.4 非参数预测方法

本文采用循环预测法[7]进行预测.这种预测方法的主旨就是对一步向前预测值的循环使用,其基本

思想是:对于非参数自回归模型Y

t =m(X t)+εt,当k=1时(即对Y n+1预测时),和直接预测法相同,我们

?

9

3

?

 第1期 巩永丽 张德生 武新乾 姜爱平:人口增长率的非参数自回归预测模型

利用非参数方法对条件期望E (Y n +1|X n =X )进行估计,就可以得到一步预测值Y ^

n (1);当对Y n +2预测时,把一步预测值Y ^

n (1)添加到原样本(Y 1,Y 2,...,Y n )中组成新的样本(Y 1,Y 2,...,Y n ,Y ^

n (1)),再采用前述的非参数估计方法就可以得到两步预测值Y ^

n (2);然后再对构成的新样本(Y 1,Y 2,...,Y n ,Y ^

n (1),Y ^

n (2))采用非参数估计得到三步预测值Y ^

n (3),如此循环,直到得到所需要的k 步预测值为止.由于第k 步(k >1)预测时使用了Y n +1,Y n +2,...,Y n +k -1所包含的信息,因此,和直接预测方法相比,循环预测法预测误差较小.

3 人口增长率的非参数自回归预测模型

本文的研究样本是我国1949年~1999年的人口增长率的历史数据,样本容量n =51.首先用非参数自回归模型对其建模拟合,再对2000年~2003年的人口增长率作事后预测.(数据来源于《中国统计年

鉴》[8]

).图1是我国1949年~1999年的人口自然增长率,从图中数据分析可知:人口增长率序列是非平稳时间序列,而建立非参数自回归模型的前提是时间序列必须具有平稳性,因此,我们通过一阶差分将其转化为平稳序列.从图

2可以看出原序列经过一阶差分后达到平稳.

图1 我国1949年~1999年的人口自然增长率

Fig .1 Natural populati on gr owth rate of

our country fr om 1949t o 1999

图2 1949年~1999年的人口自然增长率(数据一阶差分后)

Fig .2 Natural population gr owth rate of our country fr om 1949to

1999(After the first order difference of daters )

先对人口增长率差分序列{ΔY t }建立参数自回归预测模型:(给定此模型阶数的上界为10时,使用A I C 准则确定的阶数为2阶,A I C =140.6697)

ΔY t =0.4581ΔY t-1-0.5054ΔY t-2

其中模型参数是由最小二乘估计得到的.

再对人口增长率差分序列{ΔY t }建立非参数自回归模型:

ΔY t =m (ΔY t-1,ΔY t-2,...,ΔY t-p )+εt

(2)

其中,随机误差序列{εt }独立同分布,E (εt )=0,E (ε2

t )=σ2

,εt 与ΔY t-1,ΔY t-2,...,ΔY t-p 相互独立.

利用C ro ss 2Validation 方法确定p 时取上界L =10,用M atlab 编程计算出相应的cv (k )值如图3所示.由图3可得,当k =1时,cv (k )值最小,即最佳模型的阶次为1阶,此时非参数自回归模型为

ΔY t =m (ΔY t-1)+εt

(3)

利用非参数自回归模型(3)对我国1949~1999年人口增长率差分序列进行非参数自回归估计(用交错鉴定法确定的最优窗宽h =1.45).表1给出了拟合所得的差分序列数据按照平稳化公式反推回来的人口增长率的拟合值与实际值,为便于比较,同时在表1中也列出了利用参数自回归模型(最小二乘估计)得到的拟合值.

从表1的拟合数据可以看出,局部线性估计优于线性最小二乘估计.同时通过图4我们也可以看出局部线性的拟合曲线与原始数据拟合程度较好.

?04?山西师范大学学报(自然科学版) 2007年 

表1 我国1949年-1999年人口增长率的非参数拟合结果

Tab .1 Nonpara metric esti m ati on for natural populati on gr owth rate of our country fr om 1949t o 1999

年份

实际值

局部线性

拟合值

最小二乘拟合值

年份

实际值

局部线性拟合值

最小二乘拟合值

年份

实际值

局部线性拟合值

最小二乘拟合值

194916.0016.0016.00195019.0019.0019.00195120.0020.4020.00195220.0020.4018.94195323.0023.4018.44195424.7924.7919.81195520.3220.3219.11195620.5020.5016.16195723.2323.2318.50195817.2417.2419.66195910.1910.1915.541960-4.57-4.5715.3419613.783.7812.14196226.9926.9923.42196333.3333.3329.84196427.6427.6421.01196528.3828.3815.20196626.2226.2218.41196725.5325.5317.05196827.3825.9617.83196926.0824.6619.02197025.8323.0017.49197123.3320.6218.03197222.1719.7617.02197320.8918.4817.75197417.4815.0717.74197515.6913.2816.83197612.6610.2517.74197712.069.6517.25197812.009.2818.51197911.619.9718.78198011.8710.2318.64198114.5512.9118.95198215.6814.0420.05198313.2912.9619.21198413.0812.7517.55198514.2612.2518.66198615.5713.5619.31198716.6114.6019.30198815.7313.7919.12198915.0413.1018.19199014.3913.5318.32199112.9813.3018.37199211.6011.9218.06199311.4511.2518.13199411.2111.1918.76199510.5510.1018.73199610.429.9718.551997

10.06

9.81

18.82

1998

9.14

8.89

18.72

1999

8.18

7.93

18.

48

图3模型的阶数及对应的cv (k )值Fig .3 Nonpara metric lag selecti on and

corres ponding cv (k )value

图4 1949年-1999年人口增长率历史数据及其

局部线性估计与最小二乘估计

Fig .4 The hist ory dater,the l ocal linear esti m ati on and the least square esti m ati on for natural populati on

gr owth rate of our country fr om 1949t o 1999

为便于进一步说明,我们将参数自回归模型的最小二乘估计和非参数自回归模型的局部线性估计的平均绝对误差与均方误差列于表2.

从表2可看出,局部线性估计的平均绝对误差与均方误差都比最小二乘估计小得多,前者的拟合度高

表2 平均绝对误差与均方误差的比较Tab .2 Comparisi ons of mean abs olute

err ors and mean squared err ors

局部线性估计

最小二乘法估计

MAE 0.92155.5347MSE

1.3504

6.5468

?

14? 第1期 巩永丽 张德生 武新乾 姜爱平:人口增长率的非参数自回归预测模型

于后者. 分别利用非参数自回归模型和参数自回归模型对2000年~2003年的人口增长率进行事后预测,结果如表3.

由表3可以看出,由非参数自回归模型所得到的关于2000年~2003年的事后预测精度

比用参数自回归模型[10]

得到的预测结果要好得多.综上可见,至少在人口增长预测的问题上本文所建立的非参数自回归模型是更合适更有效的.

表3 人口增长率的实际值与预测值Tab .3 The actual values and forecast values

f or natural populati on gr owth rate 年份

实际值

非参数自回归预测值

参数自回归预测值

20007.587.638.2120016.957.098.7120026.456.528.922003

6.01

5.95

8.76

参考文献:

[1]阿拉腾图雅,金良.人口预测模型[J ].内蒙古科技与经济,1999(4):21~27.

[2]Wolfgang Hardle,Rong Chen .Nonparametric ti m e analysis,a selective revie w with exa mp les[J ].Journal of Nonpara metric Statistics,1995,5:

157~184.

[3]叶阿忠.非参数计量经济学[M ].天津:南开大学出版社,2003.

[4]Masry E,Fan J.Local polynom ial esti m ati on of regressi on functi ons for m ixing p r ocesses[J ].Scand .J.Statist .1997,24:165~179.[5]Juan M.V ilar 2Fernandez,R icardo Cao .Nonpara metric forecasting in ti m e series[J ].A comparative study .SE I O 2006:15~19.[6]Nottingha m Q J,Cook D F .Local linear regressi on for esti m ating ti m e series data[J ].Comput .Statist .Data Anal,2001,37:209~217.[7]Xia Y,L iW K .A sy mp t otic behavi or of bandwidth selected by the cr oss 2validati on method f or l ocal polynom ial fitting .Journal ofMultivariate A 2

nalysis,2002,83:265~287.

[8]中国统计年鉴(2004)[M ].北京:中国统计出版社,2004.

[9]Rolf Tschernig and L ijian Yang.Nonpara metric lag selecti on f or ti m e series[J ].Journal of Ti m e Series analysis,2000,4:457~487.[10]熊建平,吴建华,万国金.AR 模型在人口增长预测中的应用[J ].计算机与现代化,2005,(10):11~12.

Nonparam etr i c Autoregressi on Pred i cti on

M odel on Popul a ti on Growth Ra te

GO NG Y ong 2li 1

,ZHANG D e 2sheng 1

,W U X i n 2q i a n 2

,J I ANG A i 2p i n g

1

(11S chool of Science,X i ′an U niversity of Tech .,X i ′an 710054,Shaanxi,China;

21School of Science,N orthw estern Polytechnial U niversity,X i ′an 710072,Shaanxi,China )

Abstract:The traditi onal populati on gr owth forecast model cannot ideally catch the nonlinear characteristic

of our country ′s populati on gr owth rate,s o this paper establishes the nonpara metric aut oregressi on 12D f orecast model on our country ′s populati on gr owth rate based on the l ocal linear esti m ati on theory,and app ly thismodel t o p redict the observati ons fr om 2000t o 2003.The computed results show that the nonpara metric aut oregressi on model can give better results than the para metric aut oregressi on model f or f orecasting populati on gr owth rate .

Key words:nonpara metric esti m ati on;nonpara metric aut oregressi on model;p redicti on

?24?山西师范大学学报(自然科学版) 2007年 

自回归分布滞后模型ADL的运用试验指导-时间序列分析

案例六 自回归分布滞后模型(ADL )的运用实验指导 一、实验目的 理解ADL 模型的原理与应用条件,学会运用ADL 模型来估计变量之间长期稳定关系。理解从经济理论上来说,两个经济变量之间的确有长期关系采用使用该模型进行估计。理解ADL 模型的优点:不管回归项是不是1阶单整或平稳都可以进行检验和估计。而进行标准的协整分析前,必须把变量分类成(0)I 和(1)I 。 二、基本概念 Jorgenson(1966)提出的(,p q )阶自回归分布滞后模型ADL(autoregressive distributed lag):011111 i t t p t p t t q t q i t i i y y y ταφφεθεθεβ-----='=++++--+∑x ,其中t i -x 是滞后i 期 的外生变量向量(维数与变量个数相同),且每个外生变量的最大滞后阶数为i τ,i β是参数向量。当不存在外生变量时,模型就退化为一般ARMA (,p q )模型。 如果模型中不含有移动平均项,可以采用OLS 方法估计参数,若模型中含有移动平均项,线性OLS 估计将是非一致性估计,应采用非线性最小二乘估计。 三、实验内容及要求 (1)实验内容 运用ADL 模型研究1992年1月到1998年12月我国城镇居民月对数人均生活费支出yt 和对数可支配收入xt 之间的长期稳定关系。 (2)实验要求 在认真理解模型应用条件的基础上,通过实验掌握ADL 模型的实际应用方法,并熟悉Eniews 的具体操作过程。 四、实验指导 (1)数据录入 打开Eviews 软件,选择“File”菜单中的“New --Workfile”选项,在“Workfile structure type ”栏选择“Dated-regular frequency ”,在“Data specification ”栏中“Frequency ”中选择“Monthly ”即月份数据,起始时间输入1992m1即1992年1月份,止于1998m12,点击ok ,见图6-1,这样就建立了一个工作文件。 图6-1 建立工作文件窗口

非参数回归模型资料

非参数回归模型

精品资料 仅供学习与交流,如有侵权请联系网站删除 谢谢2 非参数回归模型 非参数回归模型也叫多元回归模型,它是一种脱离于混沌理论的多条路段分析方法。它是对当前路段和几条相邻路段的交通流信息对当前路段进行交通流预测的单条路段分析的扩展。它不需要先验知识,只需要有足够的历史数据即可。它的原理是:在历史数据库中寻找与当前点相似的近邻,并根据这些近邻来预测下一时间段的流量。该算法认为系统所有的因素之间的内在联系都蕴含在历史数据中,因此直接从历史数据中得到信息而不是为历史数据建立一个近似模型。非参数回归最为一种无参数、可移植、预测精度高的算法,它的误差比较小,且误差分布情况良好。尤其通过对搜索算法和参数调整规则的改进,使其可以真正达到实时交通流预测的要求。并且这种方法便于操作实施,能够应用于复杂环境,可在不同的路段上方便地进行预测。能够满足路网上不同路段的预测,避免路段位置和环境对预测的影响。随着数据挖掘技术左键得到人们的认可和国内外学者的大量相关研究,使得非参数回归技术在短时交通流预测领域得到广泛应用。 非参数回归的回归函数()X g Y =的估计值()X g n 一般表示为: ()()∑==n i i i i n Y X W X g 1 其中,Y 为以为广策随机变量;X 为m 维随机变量;(Xi,Yi )为第i 次观测值,i=1,...,n ;Wi(Xi)为权函数.非参数回归就是对g(X)的形状不加任何限制,即对g (X )一无所知的情况下,利用观测值(Xi,Yi ),对指定的X 值去估计Y 值。由于其不需要对系统建立精确的数学模型,因此比较适合对事变的、非线性的系统进行预测,符合对城市交通流的预测,同时可以与历史平均模型实现优缺点的互补。 K 近邻法 Friedman 于1977年提出了K 近邻法。其并不是让所有的数据都参与预 测,而是以数据点到X 点的距离为基础,甲醛是只有离X 最近的K 个数据被用来估计相应的g(X)值。可以引入欧式空间距离d ,然后按这个距离将X1,X2,...,Xn 与X 接近的程度重新排序:Xk1,...,Xkn,取权值如下: Wki(X:X1,...,Xn)=ki,i=1,..,n 将与X 最近的前K 个观测值占有最大的权K=1,其余的观测值赋予权值k=0.最终得到应用于短时交通流预测的K 近邻法可表示为:

非参数回归模型

非参数回归模型 非参数回归模型也叫多元回归模型,它是一种脱离于混沌理论的多条路段分析方法。它是对当前路段和几条相邻路段的交通流信息对当前路段进行交通流预测的单条路段分析的扩展。它不需要先验知识,只需要有足够的历史数据即可。它的原理是:在历史数据库中寻找与当前点相似的近邻,并根据这些近邻来预测下一时间段的流量。该算法认为系统所有的因素之间的内在联系都蕴含在历史数据中,因此直接从历史数据中得到信息而不是为历史数据建立一个近似模型。非参数回归最为一种无参数、可移植、预测精度高的算法,它的误差比较小,且误差分布情况良好。尤其通过对搜索算法和参数调整规则的改进,使其可以真正达到实时交通流预测的要求。并且这种方法便于操作实施,能够应用于复杂环境,可在不同的路段上方便地进行预测。能够满足路网上不同路段的预测,避免路段位置和环境对预测的影响。随着数据挖掘技术左键得到人们的认可和国内外学者的大量相关研究,使得非参数回归技术在短时交通流预测领域得到广泛应用。 非参数回归的回归函数()X g Y =的估计值()X g n 一般表示为: ()()∑==n i i i i n Y X W X g 1 其中,Y 为以为广策随机变量;X 为m 维随机变量;(Xi,Yi )为第i 次观测值,i=1,...,n ;Wi(Xi)为权函数.非参数回归就是对g(X)的形状不加任何限制,即对g (X )一无所知的情况下,利用观测值(Xi,Yi ),对指定的X 值去估计Y 值。由于其不需要对系统建立精确的数学模型,因此比较适合对事变的、非线性的系统进行预测,符合对城市交通流的预测,同时可以与历史平均模型实现优缺点的互补。 K 近邻法 Friedman 于1977年提出了K 近邻法。其并不是让所有的数据都参与预测,而是以数据点到X 点的距离为基础,甲醛是只有离X 最近的K 个数据被用来估计相应的g(X)值。可以引入欧式空间距离d ,然后按这个距离将X1,X2,...,Xn 与X 接近的程度重新排序:Xk1,...,Xkn,取权值如下: Wki(X:X1,...,Xn)=ki,i=1,..,n 将与X 最近的前K 个观测值占有最大的权K=1,其余的观测值赋予权值k=0.最终得到应用于短时交通流预测的K 近邻法可表示为: ()()()()K t V t V g t V K i i ∑=+==+111

用R语言做非参数和半参数回归笔记学习资料

用R语言做非参数和半参数回归笔记

由詹鹏整理,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出! 教材为:Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. ------------------------------------------------------------------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍,偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅(2009). 计量经济分析方法与建模:EVIEWS应用及实例(第二版). 清华大学出版社. (P127/143) 7、李雪松(2008). 高级计量经济学. 中国社会科学出版社. (P45 ch3) 8、陈强(2010). 高级计量经济学及Stata应用. 高教出版社. (ch23/24) 【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型 ——Panel data 的半参数模型 ——Quantile Regression 三、不同的模型形式 1、线性模型linear models 2、Nonlinear in variables

自回归综合移动平均预测模型

自回归综合移动平均预测模型 数据采集 本文选取了2011年某省电力系统从1月1日开始之后80天的电力负荷观测,如表一。 第n天 负荷量第n天负荷量第n天负荷量第n天负荷量 1 2565957.38 21 2705368.6 41 2429907.99 61 2743833.56 2 2588923.0 3 22 2677964.55 42 2476962.26 62 2736933.52 3 2595037.39 23 2667444.01 43 2576255. 4 63 2773791.8 4 2621899.1 5 24 2659986.34 44 2614097.2 64 2748178.37 5 2605604.4 25 2646095.54 45 2680843.85 65 2737334.22 6 2597404.13 26 2652315.14 46 2775056.43 66 2720053.61 7 2363386.42 27 2641570.43 47 2728907.25 67 2700061.15 8 2620185.38 28 2584430.88 48 2611172.72 68 2709553.04 9 2615940.83 29 2474001.24 49 2601989.82 69 2681309.47 10 2615480.96 30 2396095.97 50 2668757.4 70 2683185.56 11 2612348.58 31 2288598.13 51 2677390.06 71 2661837.7 12 2610054.23 32 2166399.62 52 2695802.63 72 2644097.64 13 2610964.36 33 2062979.7 53 2689571.21 73 2685694.93 14 2637653.21 34 1997281.18 54 2654423.52 74 2702991.02 15 2633388.14 35 1925136.26 55 2642984.00 5 75 2687024.37 5 16 2640311.3 36 1970438.06 56 2712142.78 76 2680354.45 17 2678530.11 37 1976557.67 8 57 2754918.32 77 2682596.37 18 2687189.9 38 2050309.54 58 2758839.28 78 2695560.6 19 2694733.01 39 2154488.52 59 2817728.94 79 2674342.97 20 2709637.21 8 40 2384011.84 60 2759327.72 80 2685891.98 表1 数据处理 利用spass绘制时间序列原始数据的散点图

非参数统计模型

非参数统计第二次作业 ——局部多项式回归与样条回归 习题一: 一、本题是研究加拿大工人收入情况,即年龄(age)和收入(income)的关系。 此次共调查了205个加拿大工人的年龄和收入,所有工人都是高中毕业。且本题设定因变量为log.income,协变量为age,运用统计方法来拟合log.income 与age之间的函数关系。 二、模型的建立 1.估计方法的选取 拟合两个变量之间的函数关系,即因变量和协变量之间的关系,用回归估计的方法,回归估计包括参数回归估计和非参数回归估计。参数估计是先假定某种数学模型或已知总体的分布,例如总体服从正态分布,其中某些参数未知,如总体均值、方差等,然后利用样本去估计这些未知参数,常用的方法有极大似然估计,Bayes估计等,线性模型可以用最小二乘法估计。 非参数估计是不假定具有某种特定的数学模型,或总体分布未知,直接利用样本去估计总体的数学模型,常用的方法有局部多项式回归方法和样条函数回归方法。 本题调查了205个加拿大工人的年龄和收入,但是加拿大工人年龄和收入的具体分布未知,即这两个变量所能建立的数学模型未知,而且由协变量和因变量所形成的散点图可以看出它不符合某种特定的已知模型,需要进一步研究,然后拟合它们之间的函数关系。因此本题选用非参数回归估计的方法,来拟合因变量和协变量之间的关系。 针对此问题分别采用非参数估计中的局部多项式回归和样条函数回归方法对log.income 与age之间的函数关系进行估计。 2.局部多项式回归方法 局部多项式的思想是在某个点x附近,用一个多项式函数来逼近未知的光滑函数g(x)。选定局部邻域的大小h,对于任意给定某个点x 0,在其小邻域内展开泰勒公式,用一个p阶多项式来局部逼近g(x),然后再用极大似然估计。 (1)加拿大工人的收入(log.income)与年龄(age)之间的散点图如下所示:

非参数回归模型与半参数回归模型

第七章 非参数回归模型与半参数回归模型 第一节 非参数回归与权函数法 一、非参数回归概念 前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。另一类回归,非参数回归,则与参数回归正好相反。它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。 设Y 是一维观测随机向量,X 是m 维随机自变量。在第四章我们曾引进过条件期望作回归函数,即称 g (X ) = E (Y |X ) (7.1.1) 为Y 对X 的回归函数。我们证明了这样的回归函数可使误差平方和最小,即 22)]([min )]|([X L Y E X Y E Y E L -=- (7.1.2) 这里L 是关于X 的一切函数类。当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。 细心的读者会在这里立即提出一个问题。既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。 所以我们知道,参数回归与非参数回归的区分是相对的。用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。 二、权函数方法 非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式: ∑==n i i i n Y X W X g 1 )()( (7.1.3)

向量自回归与ARCH、GARCH模型

向量自回归 预测是计量经济分析的重要部分,宽泛的说,依据时间序列数据进行经济预测的方法有五种:(1)指数平滑法;(2)单一方程回归模型;(3)联立方程回归模型;(4)单整自回归移动平均模型;(5)向量自回归模型(V AR ,vector autoregression )。 一、V AR 的估计 V AR 方法论同时考虑几个内生变量,它看起来类似于联立方程模型。但是,在V AR 模型中,每一个内生变量都是由它的滞后或过去值以及模型中所有其他内生变量的滞后或过去值来解释。通常模型中没有任何外生变量。在联立方程模型中,我们把一些变量看作内生的,而另一些变量看作外生的或预定的,在估计这些模型之前,必须肯定方程组中的方程是可识别的,而为达到识别的目的,常常要假定某些预定变量仅出现在某些方程之中,这些决定往往是主观的,因此这种方法受到C.A.西姆斯(Christopher Sims )的严厉批评,他认为如果在一组变量中有真实的联立性,这些变量就应该平等对待,而不应事先区分内生和外生变量,以此思路,其推出了V AR 模型。 例我们想考虑中国的货币(M1)与利率(R )的关系。如果通过格兰杰因果关系检验,我们无法拒绝两者之间有双向因果关系的假设,即M1 影响R ,而R 反过来又影响M1,这种情形是应用V AR 的理想情形。假定每个方程都含有M1 和R 的k 个滞后值作为回归元,每个方程都可以用OLS 去估计,实际模型如下: 11111k k t j t j j t j t j j M M R u αβγ--===+++∑∑

2111k k t j t j j t j t j j R M R u αθλ--=='=+++∑∑ 其中u 是随机误差项,在V AR 术语中称为脉冲值(impulses )。在估计以上方程时,必须先决定最大滞后长度,这是一个经验问题,包括过多的滞后项将消耗自由度,而且会引入多重共线性的可能性,而包含过少的滞后值将导致设定误差,解决这个问题的方法之一就是使用赤池、施瓦茨或汉南—奎因准则中的某一个准则,并选择准则最低值的模型,因此,这个过程中试错法就不可避免。 值得注意的是,向量自回归模型中同时引入同一变量的几个滞后项,可能因多重共线性而使每个估计系数在统计上都不显著,但基于F 检验它们可能是联合显著的。 二、V AR 建模的一些问题 V AR 的倡导者强调此法有如下的优点:(1)方法简单,无需决定哪些变量是内生的,哪些变量是外生的,V AR 中的全部变量都是内生的。(2)估计简单:常用的OLS 法可以用于逐个估计每一个方程。 (3)在许多案例中,此方法得到的预测优于用更复杂的联立方程模型得到的预测。 但V AR 建模的批评者指出如下的一些问题: 1、不同于联立方程模型,V AR 利用较少的先验信息,所有是缺乏理论支撑的,因为在联立方程中排除或包含某些变量,对模型的识别起到关键性作用。 2、由于重点放到预测,V AR 模型不适合用于政策分析。 3、实际上,对V AR 建模最大的挑战在于选择适当滞后长度。假

自回归模型的参数估计案例

自回归模型的参数估计案例 案例一: 建立中国长期货币流通量需求模型。中国改革开放以来,对货币需求量(Y)的影响因素,主要有资金运用中的贷款额(X)以及反映价格变化的居民消费者价格指数(P)。 长期货币流通量模型可设定为 120e t t t t P Y X βμββ=+++ (1) 其中,e t Y 为长期货币流通需求量。由于长期货币流通需求量不可观测,作局部调整: 11()e t t t t Y Y Y Y δ---=- (2) 其中,t Y 为实际货币流通量。 将(1)式代入(2)得短期货币流通量需求模型: 0121(1)t t t t t Y X P Y δβδβδβδδμ-=+++-+ 表1中列出了1978年到2007年我国货币流通量、贷款额以及居民消费者价格指数的相关数据。 表1 年份 货币流通量Y (亿元) 居民消费者价格指数P (1990年=100) 贷款额X (亿元) 1978 212.0 46.2 1850.0 1979 267.7 47.1 2039.6 1980 346.2 50.6 2414.3 1981 396.3 51.9 2860.2 1982 439.1 52.9 3180.6 1983 529.8 54.0 3589.9 1984 792.1 55.5 4766.1 1985 987.8 60.6 5905.6 1986 1218.4 64.6 7590.8 1987 1454.5 69.3 9032.5

1988 2134.0 82.3 10551.3 1989 2344.0 97.0 14360.1 1990 2644.4 100.0 17680.7 1991 3177.8 103.4 21337.8 1992 4336.0 110.0 26322.9 1993 5864.7 126.2 32943.1 1994 7288.6 156.7 39976.0 1995 7885.3 183.4 50544.1 1996 8802.0 198.7 61156.6 1997 10177.6 204.2 74914.1 1998 11204.2 202.6 86524.1 1999 13455.5 199.7 93734.3 2000 14652.7 200.6 99371.1 2001 15688.8 201.9 112314.7 2002 17278.0 200.3 131293.9 2003 19746.0 202.7 158996.2 2004 21468.3 210.6 178197.8 2005 24031.7 214.4 194690.4 2006 27072.6 217.7 225347.2 2007 30375.2 228.1 261690.9 对局部调整模型0121(1)t t t t t Y X P Y δβδβδβδδμ-=+++-+运用OLS 法估计结果如图1: 图1 回归估计结果 由图1短期货币流通量需求模型的估计式: 1202.50.03577.45570.7236t t t t Y X P Y -=-+++

用R语言做非参数和半参数回归笔记

由詹鹏整理,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出! 教材为:Luke Keele:Semiparametric Regression for the Social Sciences.John Wiley &Sons,Ltd.2008. ------------------------------------------------------------------------- 第一章introduction:Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994).Applied Nonparametic Regresstion.较早的经典书 2、Hardle etc(2004).Nonparametric and semiparametric models:an introduction. Springer.结构清晰 3、Li and Racine(2007).Nonparametric econometrics:Theory and Practice.Princeton.较全面和深入的介绍,偏难 4、Pagan and Ullah(1999).Nonparametric Econometrics.经典 5、Yatchew(2003).Semiparametric Regression for the Applied Econometrician.例子不错 6、高铁梅(2009).计量经济分析方法与建模:EVIEWS应用及实例(第二版).清华大学出版社.(P127/143) 7、李雪松(2008).高级计量经济学.中国社会科学出版社.(P45ch3) 8、陈强(2010).高级计量经济学及Stata应用.高教出版社.(ch23/24) 【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型 ——Panel data的半参数模型 ——Quantile Regression 三、不同的模型形式 1、线性模型linear models 2、Nonlinear in variables

基于核估计的多变量非参数随机模型初步研究

基于核估计的多变量非参数随机模型初步研究 王文圣1,丁晶1 (1.四川大学水利水电学院,四川成都 610065) 摘要:本文基于核估计理论构造了多变量非参数模型。该模型是数据驱动的、不需识别和假定序列相依形式和概率分布形式的一类随机模型,克服了多变量参数模型的不足。实例统计试验表明,建议的多变量非参数模型是有成效的,为随机水文学发展提供了一些新思路。 关键词:核估计;多变量非参数模型;随机模拟;实用性检验 中图分类号:P333.9文献标识码:A 流域水资源的开发利用,不仅需要单站水文信息,而且需要流域内各站的水文信息。进行多站水文序列模拟的一个重要手段就是建立多站(变量)随机模型。目前,多变量随机模型[1]比较成熟的有自回归模型和解集模型。这两类模型的共同点是用有限个参数的线性函数关系描述水文现象。因此简便实用,能表征水文序列的统计特性和一般变化规律,但缺点也明显:①水文序列是一时间不可逆过程,而参数模型描述的是可逆过程,因此大多数参数模型难以反映其涨落不对称性;②水文现象受流域下垫面、人类活动、气候等多因素影响而变化错综,是一个高度复杂的非线性系统,而多数参数模型仅能表征变量及变量之间的线性相依结构,忽略了占据重要位置的非线性性;③水文变量概率密度函数复杂且未知,某一指定概率分布与真实分布存在着差异。如图1、2所示,正态分布、P-Ⅲ型分布都与直方图相差甚远,但χ2检验并不拒绝P-Ⅲ型分布和正态分布;而核估计和k最近邻估计与直方图比较接近。即概率分布具有不确定性;④模型参数由于抽样误差和估计方法不同具有不确定性。 为克服参数模型之不足,文献[2]提出了单变量非参数模型,径流模拟表明是满意的。在此基础上,本文基于核估计理论构造了多变量非参数模型。该模型避开了序列相依形式和模型结构的假设,不涉及模型参数估计,能反映各种复杂关系,较参数模型优越。以中国金沙江流域屏山站和宜宾—屏山区间两站日流量过程随机模拟为例,对建议模型进行了应用研究。 1 核估计理论[3] 1.1 多维核估计定义设X为d维随机变量,X1,X2,……X n为X的一样本。X的概率密度函数f(X)的核估计定义如下: (1)

非参数回归模型与半参数回归模型

第七章 非参数回归模型与半参数回归模型 第一节 非参数回归与权函数法 一、非参数回归概念 前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。另一类回归,非参数回归,则与参数回归正好相反。它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。 设Y 是一维观测随机向量,X 是m 维随机自变量。在第四章我们曾引进过条件期望作回归函数,即称 g (X ) = E (Y |X ) (7.1.1) 为Y 对X 的回归函数。我们证明了这样的回归函数可使误差平方和最小,即 22)]([min )]|([X L Y E X Y E Y E L -=- (7.1.2) 这里L 是关于X 的一切函数类。当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。 细心的读者会在这里立即提出一个问题。既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。 所以我们知道,参数回归与非参数回归的区分是相对的。用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。 二、权函数方法 非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式: ∑==n i i i n Y X W X g 1 )()( (7.1.3)

人口增长率的非参数自回归预测模型

收稿日期:2006201204 作者简介:巩永丽(1980—),女,山西永济人,西安理工大学硕士研究生,主要从事应用概率统计方面的研究. 山西师范大学学报(自然科学版)第21卷第1期Journal of Shanxi Nor mal University Vol .21 No .12007年3月 Natural Science Editi on M ar .2007 文章编号:100924490(2007)0120038205 人口增长率的非参数自回归预测模型 巩永丽1 ,张德生1 ,武新乾2 ,姜爱平 1 (11西安理工大学理学院,陕西西安710054;21西北工业大学,陕西西安710072) 摘 要:针对传统的人口增长预测模型不能理想地捕获我国人口增长率数据的非线性性特征,本文基于局部线性非参数估计理论,对我国建国以来的年人口增长率建立了非参数自回归NAR (1)模型,并对 2000年~2003年的年人口增长率进行了预测,计算结果表明,相对于参数自回归模型而言,非参数自回 归模型能够很好地解决人口增长预测这一非线性问题,预测精度较高.关键词:非参数估计;非参数自回归模型;预测中图分类号:O29 文献标识码:A 0 引言 我国是一个发展中国家,又是世界上人口最多的国家,人口问题一直是制约我国经济和社会发展的首要因素,因此,能否对人口增长做出比较准确的预测,对于加速推进我国现代化建设有着极为重要的现实 意义.对于人口增长预测,传统的方法有增长曲线模型、灰色系统模型、系统动力学模型、自回归模型等.增长曲线模型预测方法 [1] 相对简单,但是精度不高;灰色系统模型 [1] 主要是对人口增长趋势波动进行分析, 它在预测资料不全或资料的波动太大、不平稳的发展趋势效果较好;系统动力学模型[1] 在分析问题、收集 资料、建立模型和求证的过程中都要消耗一定的财力、物力和人力,还需要占用大量的计算机工作时间,而且建模人员的专业水平也直接影响模型的质量和结果.自回归模型由于是线性参数化形式,难以较好的解决人口增长预测这一非线性问题.因此,本文尝试利用非参数估计方法,建立我国人口增长率的非参数自回归预测模型,结果表明非参数自回归模型用于人口预测可以获得令人满意的结果,可为相关部门制定人口政策提供科学的依据. 1 非参数自回归预测模型基本原理 1.1 非参数自回归模型 非参数自回归模型(NAR (p ))为:Y t =m (X t )+εt ,其中,解释性变量X t ∈R p 由响应变量(或被解释性变量)Y t ∈R 的一些滞后项所组成(p 为正整数);随机误差序列{εt }独立同分布,E (εt )=0, E (ε2t )=σ2 ,并且εt 与X s ,s ≤t 相互独立;未知函数m (? )称为条件均值函数(或自回归函数).1.2 非参数预测 对一组平稳时间序列{Y t },t =1,2,...,n,我们的目的是对确定的正整数k,k ≥1,预测Y n +k 的值.非参数自回归模型对未知值Y n +k 进行预测的计算步骤如下: (1)对这组平稳时间序列建立相应的非参数自回归模型 Y t =m (X t )+εt (1)

基于非参数回归模型的短期风电功率预测 (1)

基于非参数回归模型的短期风电功率预测 王彩霞,鲁宗相,乔 颖,闵 勇,周双喜 (电力系统国家重点实验室,清华大学电机系,北京市100084) 摘要:随着风电接入规模的增加,风电功率预测日益重要。非参数估计方法是模型估计和预测的典型方法之一,在国内短期风电功率预测中尚无应用。文中将非参数回归技术应用于短期风电功率预测,包括风电功率点预测和风电功率概率区间预测。首先,基于非参数回归模型,建立风速与风电功率之间的转换模型,得到风电功率的点预测值;其次,基于经验分布模型与非参数回归技术,建立风电功率预测误差的概率分布函数,得到风电功率预测值的概率区间。以内蒙古某风电场为例,验证了将非参数回归技术应用于风电功率预测的有效性。关键词:风力发电;功率预测;点预测;概率区间预测;非参数回归 收稿日期:2010 02 13;修回日期:2010 06 17。 0 引言 近年来,并网型风电发展迅猛,风电的波动性已给电网调度带来严峻的挑战。风电功率预测是解决风电波动、实现风电与电力系统传统电源联合优化运行的关键技术之一。 风电功率预测按照预测的时间尺度划分一般分为超短期、短期和中长期预测[1]。超短期预测一般指6h 以内的预测,预测结果用于电力系统的在线优化运行,常采用基于历史风电功率数据的时间序列分析方法进行预测,例如自回归滑动平均(ARM A)模型[2 3]、Kalman 滤波[4]等。短期预测一般指对未来6h~48h 风电功率输出的预测,预测结果是电网安排日发电计划或进行电力市场交易的基础。中长期预测一般指未来几天的预测,预测结果主要用于安排风电机组的检修计划等。在实际应用中,短期预测和超短期预测应用较多。本文的研究对象为短期预测。 由于天气状况在未来6h~48h 内一般有较大的变化,因此,短期预测主要依赖于数值天气预报(numeric w eather predictio n,NWP ),通过建立NWP 的气象信息与风电功率输出之间的关系模型,将预测时段内的气象信息转换为风电功率输出。按建模方法的不同,短期风电功率预测可进一步分为物理方法和统计方法[5]。本文研究方法属于统计方法的范畴。 经过多年的积累,欧洲和美国已经有多款商业化的风电功率预测软件[6],如丹麦的WPPT 和Prediktor 、西班牙的SIPREOLICO 等。由于中国 的气候条件与欧美相比差异较大,因此有必要研究 适合中国风电场的风电功率预测方法。近几年,中国的风电功率预测研究也在逐步发展,但受气象服务条件的影响,预测方法大多基于历史数据和时间序列方法[7 9],对超短期预测较为有效,但对短期(如日前24h)风电功率的预测效果往往较差。随着风电的大规模接入,为电网安排发电计划服务的短期风电功率预测亟需展开。中国电力科学研究院开发 的基于NWP 的短期风电功率预测软件[10 11] ,采用的预测方法为反向传播(BP)神经网络,是一种在风电功率预测中应用广泛的典型方法。但是,神经网络方法对模型训练的时间较长,并且需要不断调试合适的隐含层神经元个数、合适的隐含层输出函数及合适的输出层输出函数等,才能得到收敛性较好的神经网络。非参数回归方法也是模型估计的典型方法之一,在国外已有采用基于统计模型的风电功率预测方法的范例[12]。非参数统计模型只需调整合适的窗宽即可应用模型进行预测,实用性比神经网络模型更佳。 本文以内蒙古某风电场为例,研究将非参数回归方法应用于国内短期风电功率预测的有效性。内蒙古气象局引进了美国国家大气研究中心(NCAR)和美国宾州大学(PSU)开发研制的第5代中尺度模式M M5(M esoscale Mo del 5),直接提供风机轮毂高度的NWP 信息,如风速、风向等。本文采用内蒙古气象局提供的NWP 数据,建立NWP 与风电功率输出之间的转换模型,得到风电功率的点预测值;基于经验分布模型和非参数回归方法,建立风电功率预测误差的概率分布函数,进而得到风电功率预测值的概率区间,辅助电网运行决策。 78 第34卷 第16期2010年8月25日V o l.34 No.16A ug.25,2010

自回归移动平均模型解析

第二章自回归移动平均模型 一些金融时间序列的变动往往呈现出一定的平稳特征,由 模型就是借助时间序列的随机性来描述平稳序列的相关性信息, 行建模和预测。 第一节ARMA 模型的基本原理 ARMA 模型由三种基本的模型构成:自回归模型( AR, Auto-regressive Model ),移动平 均模型(MA ,Moving Average Model )以及自回归移动平均模型 (ARMA ,Auto-regressive Moving Average Model )。 2.1.1自回归模型的基本原理 1. AR 模型的基本形式 AR 模型的一般形式如下: 办乂「1办」? 2办上 ....... \%申;t 其中,c 为常数项,'1, 2^ \模型的系数,;t 为白噪声序列。我们称上述方程为 p 阶自回归模型,记为 AR(p )。 2. AR 模型的平稳性 此处的平稳性是指宽平稳,即时间序列的均值,方差和自协方差均与时刻无关。 即若时 间序列{%}是平稳的,即 E(y t)=^, Var (y t 2 , Cov(y t , y —) = 。 为了描述的方便,对式(2.1 )的滞后项引入滞后算子。若 y t 二x t j ,定义算子“ L ”, r . k 使得y t =Lx t =为4 L 称为滞后算子。由此可知, L 人=X t±。 对于式子(2.1),可利用滞后算子改写为: y t =c 丄% 2 L 2% p L P % t 移项整理,可得: (1- 丄- 2L 2 - - p L p )y t 二c ;t Box 和 Jenkins 创立的 ARMA 并由此对时间序列的变化进

基于非参数GARCH模型的一种波动率估计方法

案例13 基于非参数GARCH 模型的一种波动率估计方法 一、文献及研究综述 波动率(volatility )是资产收益不确定性的衡量,它经常用来衡量资产的风险。一般来说,波动率越大,意味着风险越高。由于波动率在投资分析,期权定价等方面的重要性,近20年来一直是金融领域的一个研究热点,出现许多描述金融市场波动率的模型,最为典型的是Bollerslev (1986)提出的广义自回归条件异方差模型(GARCH 模型),而在实证中得到广泛应用的是其中的GARCH(1,1)模型,即条件方差不但依赖与滞后一期的扰动项的平方,而且也依赖于自身的滞后一期值,三者之间存在一种线形关系。针对三者之间的线形关系是否合适即能否用一种更有效的函数关系来描述的问题,人们进行了一些有意义的探索。Engel 和Gonzalez-Rivera(1991)采用半参数方法对条件方差进行建模,对扰动项的滞后值采取非参数形式,对条件方差自身的滞后值采用线形形式,两位的研究思路为人们以后的研究工作拓宽了思路。Peter Buhlmann 和Alexander J.MeNeil (2002)对三者之间的函数关系用一种非参数形式来描述,给出了一种全新的估计波动率的循环算法,并对这一全新的算法的可行性和有效性给出了证明,得出非参数形式的GARCH(1,1)对波动率的估计效果要强与参数形式的GARCH(1,1)。Antonio Cosma 和Fausto Galli (2005)利用Peter Buhlmann 和Alexander J.MeNeil 所提出的估计波动率的算法,对非参数形式的ACD 模型(Autoregressive Conditional Duration Model )的久期(duration)进行估计,也得出用该估计算法的非参数形式比参数形式的ACD 模型的估计效果优越。 本文采用非参数方法中的非参数可加模型,对条件方差采用非参数可加模型GARCH(1,1)形式进行建模,即对条件方差的滞后值和扰动项的滞后值分别采用不同的函数形式进行建模。估计方法是基于Peter Buhlmann 和Alexander J.MeNeil(2002)对非参数GARCH 估计时的算法思想,采取模拟数据和真实收益率数据分别同参数形式的GARCH(1,1)采用极大似然估计结果进行比较。文章下面的结构是:第二部分是有关方法的描述。第三部分是模拟实验。第四部分是实证部分。第五部分是本文结束语。 二、方法描述 ㈠ Bollerslev (1986)提出的标准的GARCH(1,1)形式: t t z ε=

用R语言做非参数和半参数回归笔记.docx

由詹鹏整理 ,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改 ,在此感谢孙老师的辛勤付出! 教材为:Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. ------------------------------------------------------------------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍 ,偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅(2009). 计量经济分析方法与建模:EVIEWS应用及实例(第二版). 清华大 学出版社. (P127/143) 7、李雪松(2008). 高级计量经济学. 中国社会科学出版社. (P45 ch3) 8、陈强(2010). 高级计量经济学及Stata应用. 高教出版社. (ch23/24) 【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型 ——Panel data 的半参数模型 ——Quantile Regression 三、不同的模型形式 1、线性模型linear models 2、Nonlinear in variables

相关文档
最新文档