时间序列分析部分讲义中国科学研究院安鸿志
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
时间序列分析 (J.D.Hamilton)
前言: 3.平稳ARMA过程(p49-78),
6.谱分析(p180-202),
11.向量自回归(p345-409),
21.异方差时间序列模型(p799-823).
3. 平稳ARMA过程
3.0 概述 (认识论,方法论,历史观,发展观)
什么是”回归模型”?
什么是”自回归模型”?
它们有什么联系 ?
为什么用”回归”一词 ?
它们的推广模型是什么 ?
它们的应用背景是什么 ?
* 考虑”父-子身高的关系”
X---父亲的身高,
Y---儿子的身高,
它们有关系吗? 有什么样的关系呢?
不是确定的关系! 又不是没有关系!
在同族中抽取n对父-子的身高, 即有n对数据:
(X1,Y1), (X2,Y2), … , (X n,Y n).
Y k ~ a + bX k , 1≤k≤n.
Y k = a + bX k + e k , 1≤k≤n. (0.1)
* 此为一元线性回归模型.
e k---个体差异, 其他因素, 等等.
* 如果, 如果能记录到一个父系的长子身高序列, 即X1,X2,…,X n , 显然, (X1,X2),(X2,X3),…,(X n-1,X n)
是(n-1)对父--子身高数据, 与(X k,Y k)相比, 这里的
Y k = X k+1 , k=1,2,…,n-1.
依同样论述有
X k +1 = a + bX k + e k , 1≤k≤n. (0.2)
* 此为一元线性自回归模型(自变元Y k是因变元X k的延迟) * 回归←英文翻译←Regression←(0.2),
具体说来如下:
μ--男人平均身高. 由(0.2)得
X k +1-μ = a + bX k + e k -μ (注意μ=(b-1)μ+bμ) = a +(b-1)μ + b(X k -μ)+ e k.
W k = (X k -μ)---第k代长子身高与平均身高之差,
c= a +(b-1)μ,
于是有
W k+1 = c + bW k + e k. (0.3) 特别人们发现: 0
平均说来, 当父亲身高超过平均身高时,
其子身高也会超过平均身高,
但是比父亲身高更靠近平均身高.
有回归平均身高的趋向!
稳定系统!
* 回归模型的推广: (线性模型)
* 增加自变元个数:
比如, 儿子身高不仅与父亲还与母亲, 甚至于祖父母
有关, 于是(0.1)式应推广为:
Y k = a + b1X1k +…+ b p X pk +e k , 1≤k≤n. (0.4) * 此为p元线性回归模型.
* 向非线性推广:
仍以父-子身高的关系为例, 它们的真实关系应是比
(0.1)式更一般的形式:
Y k = ϕ(X k )+ e k , 1≤k≤n. (0.5)
(0.4)式更一般的形式:
Y k = ϕ(X1k,…,X pk )+ e k , 1≤k≤n. (0.6) 近年来, 又引出了比(0.6)式更广的模型:
Y k =ϕ(X1k,…,X pk )+s(X1k,…,X pk )e k ,1≤k≤n. (0.7) * 此为异方差回归模型.
(0.7)式的更一般的形式:
Y k =ψ(X1k,…,X pk ;e k ),1≤k≤n. (0.8) 模型越复杂, 越近似真实情况, 也越难统计分析.
* 应用背景:非常广泛!主要用于预报,控制,检测,管理.
模型的获得方法有两类.
3.1 期望,平稳性,遍历性:
确切说, 是对(0.1)至(0.8)式中{e k}的最起码的假定, 根据这些假定就可以引出随机过程和各种模型概念, 用它们近似描述{e k}(本来是说不清的).而且, 对这些起码的假定, 也只是以最直观的方式, 而非严格的概率论观点, 加以介绍.
* 期望和随机过程
* 随机过程: {X(t);-∞ * 随机序列: {X k;k=…,-1,0,1,…},其中X k是随机变量. 特别当X k=X(kh)时,序列{X k}是过程{X(t)}的等间隔采样序列. 回忆随机变量X和它的样本的定义, 我们有: * 样本序列:{…,x-1,x0,x1,…}是序列{X k}的一个样本序列, 又称为一个实现, 又称为一个观测序列,等等. 请注意: 随机变量X的一个样本,就是一个数; 随机向量X的一个样本,就是一个向量数; 随机序列{X k}的一个样本, 是一个无穷数列; 在实际应用中, 我们无法记录无穷数列,从而在讨论随机序列{X k}的样本时, 只能考虑一个样本的有限部分, 比如{x1,x2,…,x n}是序列{X k}的一段观测值序列. 在理论讨论时,为了方便又不得不涉及无穷数列. 这些都 是学习和掌握时间序列分析时, 首先要认清的起点. ** 序列的分布 :回忆随机变量X的定义便知,它的特征被它的概率分布所确定. 同样, 随机序列也被它的概率分布所确定.不过, 随机序列的分布是无穷个随机变量的概率分布,其复杂性可以想得到. 这里为了避免涉及太深的概率论概念, 我们仅考虑最简单的特疏情况, 即X k~N(μk,σ2k), 它有密度 f k(x)=(2πσ2k)-1/2exp{(x-μk)2/2σ2k} 而且(X k+1,X k+2,…,X k+m)有联合正态分布. 于是有: * 期望(均值): EX k=⎰xf k(x)dx=μk, * 方差: Var(X k)=E(X k-μk)2=⎰(x-μk)2f k(x)dx=σ2k. * 自协方差: γkj=E[(X k-μk)(X j-μj)]=⎰⎰(x-μk)(y-μj)f kj(x,y)dxdy = E[(X j-μj)(X k-μk)]= γjk. 回忆二元随机变量X和Y的协方差定义便可理解上式. * 平稳序列:一类重要的特疏随机序列. 弱平稳序列: 如果μk=μ; γkj=γk-j=γj-k . 严平稳序列: 如果 (X k+1,X k+2,…,X k+m)的分布与k无关! 正态平稳序列: 弱平稳序列≅严平稳序列! ** 遍历性:一个重要性质—-时间序列统计分析的基础.