非线性时间序列

非线性时间序列
非线性时间序列

第六章 时间序列的平滑

引论

上一章我们引进非参数函数估计的基本概念,现在将它应用到时间序列别的重要平滑问题上. 对估计慢变化时间趋势,平滑技术是有用的图示工具,它产生了时域平滑(§). 对将来事件和与之相联系的现在与过去变量之间的关系的非参数统计推断导致了§的状态域平滑. § 引入的样条方法是对§引入的局部多项式方法的有用替代. 这此方法能够容易地推广到时间序列的条件方差(波动性)的估计,甚至整个条件分布的估计,参阅§.

时域平滑

6.2.1 趋势和季节分量

分析时间序列的第一步是画数据图. 这种方法使得人们可以从视觉上检查一个时间序列是否像一个平稳随机过程. 如果观察到趋势或季节分量,在分析时间序列之前通常要将它们分离开来.

假定时间序列{}t Y 能够分解成

t t t t Y f s X =++, ()

其中t f 表示慢变函数,称为“趋势分量”,t s 是周期函数,称为“季节分量”,t X 是随机分量,它被假定是零均值的平稳序列. 在使用这种分解之前,可以先用方差稳定变换或Box-Cox 变换. 这类幂变换有如下以参数λ为指标的形式

,0,()log(),0,

u g x u λλλ?≠=?=? ()

或具有在0λ=点处连续的变换形式

()(1)/g u u λλ=-.

这类变换由Box 和Cox (1964)给出. 注意,由在幂变换中数据必须是非负的,因此,在使用幂变换之前,可能必须先实施平移变换.

我们的目的是估计和提取确定性分量t f 和t s . 我们希望残差分量t X 是平稳的,

且能够用线性和非线性技术做进一步的分析. 通过推广Box 和Jenkins (1970)而发展的一个替代方法是对时间序列{}t Y 重复应用差分算子,直到被差分的序列表现为平稳为止. 这时,被差分的序列可以进一步平衡时间序列技术来处理. 作为说明Box 和Jenkins 方法的一个例子,我们先取S&P500指数的对数变换,然后计算一阶差分. 图给出了这个预处理序列. 所得序列基本上是该指数中变化的每日价格的百分比. 除了几个异常值(即1987年10月19日%的市场崩盘,金融市场称之为“黑色星期一”)外,这个序列显示出平稳性. 这个变换与金融工程中常用资产定价的几何布朗运动模型的离散化有关.

图 1972年1月3日至1999年12月31日(上图)和1999年1月4日至

1999年12月31日(下图)S&P500指数对数变换的差分

我们首先把注意力集中在没有季节分量的情形,即

,0t t t t Y f X EX =+=. ()

然后,我们再在§6.3.8中估计趋势和季节分量.

6.2.2 滑动平均

平均是最常用的消除随机噪声的技术. 假定趋势是慢变化的,使得其能够在大小为h 的局部时间窗中用常数来逼近,即

,t i t t i Y f X h i h ++≈+-≤≤. ()

这时t f 能够用该窗周围的局部平均来估计:

1

(21)h t i t i h f h Y -+=-=+∑, ()

随着中心t 的改变,局部窗也在移动. 例如,在图中,50t =处20h =所得的估计是落在第一个窗内的那些数据的平均. 窗的中心移动到新的点处以构成在这些点处的估计. 随着局部窗从左向右滑动,它的轨迹就是所得的滑动平均曲线. 这是滑动平均平滑的最简单的例子. 它常常被用来验证时间序列的趋势. 图描绘的是从1999年1月4日到1999年12月1日S&P500指数一个月和两个月的滑动平均.

图 1999年1月4日至12月31日S&P500指数和它的21个交易日(粗线)

和41个交易日(虚线)的滑动平均

在边界处,滑动平均估计的习惯做法是忽略超出观察时间范围的那些数据. 例如,2f 是用数据12,,h Y Y +的平均所得的简单估计(时间点2右边的数据比左边更多).

这种不对称平均可能会产生边界偏倚. 当边界处趋势陡峭且带宽又大时,这种边界效应更为明显. 正如图所示那样,在右边界处的滑动平均低估了趋势. 该问题能够通过使用局部线性平滑. (参见§6.2.6)或别的边界改善方法,比如,边界核方法(Gasser 和M üller 1979;M üller 1993)和数据削尖方法(Choi, Hall 和Bousson 2000)来减弱.

滑动平均数列()利用了时间t 周围两边的数据. 这样它还依赖于时间t 之后的数据. 为便于预报,单变滑动平均数列

*11h t i t i f h Y

--==∑ ()

也常被用来验证时间趋势. 数列仅用直到时间1t -的过去的数据.

6.2.3 核平滑

滑动平均估计的一个改善方法是引进一个加权设计. 这允许对所给时间点附近的数据给予较大的权数. 这也就得到了核回归估计,定义为 0

0101()()T t t t T t t t Y K h f t t K h ==-∑=-∑. () 这个估计还被称为Nadaraya-Watson 估计. 参阅Nadaraya (1964)和Watson (1964). 当我们使用均匀核()0.5(||1)K u I u =≤时,上述核估计就变成滑动平均估计(). 当核

函数有有界支撑[1,1]-时,核回归估计就是一个局部(21)h +数据的加权平均. 当核()K t 是模在零点的单峰函数时,0t 附近的数据点获得更多的权. 一般地,核函数不

要求有一个有界的支撑,只要它薄尾的(如它是一个有二阶矩的密度函数). K 的非负性要求还能被减弱. 带宽h 也不必是整数.

注意,在高斯核定义中的标准化常数和核的对称Beta 族只是用来保证函数K 是一个概率密度函数. 在核回归估计中它们并不起作用. 在计算时,我们常常标准化各种核函数使得它们如图那样有相同的最大值1. 由于这种标准化,()可以直观地理解为10{()/}T t K t t h =∑-数据点的有效平均. 当核函数有在(,0)-∞中的支撑时(这样的核还可看作是单边核),核回归估计所使用的数据仅到时间01t -. 这是单边滑动平均()的推广.

如同在核密度估计中那样,在核回归估计中带宽h 是一个重要参数. 如同在图中所显示的那样,大的带宽h 产生过度平滑的估计,遗漏趋势和所估计的峰和谷的度量上的一些可能的细节. 特别地,当使用大的带宽时,估计可能产生大的偏差. 当使用小的带宽时,仅有几个局部的数据被使用,降低了估计的方差,却导致所得估计是一条波动的曲线. 例如,用带宽0h =,滑动平均估计()简单地复制原始数据. 为了得到满意的结果需要反复尝试和修正. 带宽的数据驱动选择能够帮助我们确定所要的平滑度. 正如在§6.2.9所看到的那样,渐近方差本质上依赖于所研究的过程的相关结构. 因此,针对独立数据的由数据驱动选择的带宽在时域平滑中效果不佳. 实际上,Altman (1990),Chu 和Marron (1991a )以及Hart (1991)指出,对相依数据,通常的留一在外(leave-one-out ) 交叉核实方法效果不好. 这些作者提出了几个修正的方法. 对带宽选择的嵌入方法由Ray 和Tsay (1997)以及Beran 和Feng (2000)提出.

以上考虑能够通过计算核回归估计的偏倚和方差得到理解. 经过直接计算,在模型()下,核估计得偏倚为

0000101()()()T t t t t t T t t t f f K h E f f t t K h

==-∑--=-∑. 它不依赖于误差过程. 它实际上是一个逼近误差. 当带宽取得小时,逼近误差0t t f f -小,从而偏倚也小. 另一方面,当h 取得大时,大多数逼近误差0t t f f -是大的归因于t 和0t 间的距离是大的,因此,偏倚可能是大的. 这个线性估计的方差

还能够被计算. 令()X t γ是过程()X t 的自协方差函数,则

011

Var()(||)T T X i j t i j f i j w w γ===-∑∑. () 该方差依赖于自相关函数. 进一步简化需要渐近分析. 我们将在§6.2.9中讨论. 在那里我们将看到当k →∞时方差()X k γ的渐近行为. 但我们现在可以指出,当带宽小时,核平滑的方差增大,这归因于在局部领域中数据点数太小的缘故.

6.2.4 核平滑的变种

核平滑有许多变种. ()中的分母对相对于t 求导数和数学上的分析是不方便

的. 代替用核函数的高度作为权,我们还可用核函数下方的面积作为权. 由于核函数下方的总面积是1,分母不需要. 这就是隐含在Gasser-M üller 估计中的基本思想.

在现在的框架下,令(21)/2(1,,1)t s t t T =+=-,其中0s =-∞和T s =∞. Gasser 和M üller (1979)提出了以下的估计:

0101()t t T s h t t s t f K u t duY -==-∑?.

由于总的权

1001()()1t t T s h h s t K u t du K u t du -∞-∞=-=-=∑??,

所以没有分母. Gasser-M üller 估计是对Priestley 和Chao (1972)早期版本的一种修正. Priestley 和Chao (1972)给出的估计定义为

001()T

h t t t f K t t Y ==-∑.

这个估计简单地去掉了Nadaraya-Watson 估计的分母. 通过积分和变量变换逼近黎曼和,对适当选择的h ,我们得到总的权

00()/001(1)/1()()()T T T t h h h t h t K

t t K t t du K u du ---=-≈-=∑??,

如果0t 不太接近边界,且h 相对于T 小,并使得0(1)/t h -和0()/T t h -大,则上述积分近似地等同于

()1K u du ∞

-∞=?.

事实上,只要K 的支撑限制在区间00[(1)/,()/]t h T t h ---内,等式就精确地成立. 换句话,对不在边界区域的点0t ,总的权近似于1. 以上观点依赖于设计点为等间隔

的. 事实上,Priestley 和Chao 估计仅能用于等间隔情形. 它不能用于§所讨论的状态域平滑.

6.2.5 滤波

核回归是用于工程的卷积滤波的一种特殊形式. 一般地,一个长度为21h +的线性滤波定义为

h

i t i t i h f wY +=-=∑. ()

当K 有支撑[1,1]-时,核回归对应(/)(/)h

i j h w K i h K j h =-=∑. 滤波能够被设计为拥有各

种性质. 例如,它能够被设计成可以去掉高频信号(低通滤波),或低频信号(高通滤波)或超出某个频率范围的信号(带通滤波);见§2.3.3.核平滑是一种低通滤波.

线性滤波变换可以用递推方式来定义. 例如,单边滑动平均t f 可以对某个

1b <,利用下式来定义

1(1),2,,t t t f bY b f t T -=+-=,

这等价于用1,,t Y Y 的如下的加权滑动平均:

21121(1)(1)(1)t t t t t f bY b b Y b b Y b b Y ---=+-++-+-.

由于权以指数速度快速衰减,以上滤波实际上仅用了时刻t 附近的局部数据. 平滑的有效性依赖于参数b . 这种方法称为指数平滑.

指数平滑是用1/1h b λ=-的()(0)x h K x I x λ=≥的一种特殊的核平滑. 这是一种单边平滑. 它仅使用直到现大时刻t 的数据. 关于这方面内容的进一步讨论可参见Gijbels 、Pope 和Wand (1999).

6.2.6 局部线性平滑

局部常数逼近()能够通过使用局部线性逼近来改善. 我们把趋势i f 通过如下

线性函数局部地近似为i 的函数

(),||i t t i Y f f i t X i t h '≈+-+-≤.

这样,t f 就近似地看做上述局部线性模型的截距. 可见图中时刻200t =处的图示. 窗内的数据用一个线性回归来拟合. 对局部窗附件的数据用最小二乘方法,我们通过相对于a 和b 极小化下式可得到局部截距的估计

2

1{()}()T i

h i Y a b i t K i t =----∑.

这里引进核权是为了减少距离给定时间点t 较远的数据的贡献. 令t a 和t b 是最小二乘解. 这里用下标t 是为了表示所得的解依赖于给定的时间点t . 这时,t f 用局部截距t a 来估计,它有如下的精确表示

,,,,2,111/,(){()()()}T T

t i i t i t i h T T t i i f a w Y w w K i t S t i t S t =====---∑∑, ()

其中,1()()()T

j T j i h S t K i t i t ==∑--. 当t 从1取到T 时就得到整个趋势函数. 这样,局部

线性平滑实际上是一种移动线性回归方法. 正如图所示那样,在80t =处的估计由一个新的局部最小二乘问题得到. 在每个数据窗中拟合的直线用实线表示. 估计的局部截距的值位于虚垂直线和局部直线的交叉处. 局部斜率是时间趋势导数的估计. 此外,这些局部窗还可以互相重叠(见图). S-Plus 函数“”已写成程序差可用于计算图中的平滑曲线. 这个S-Plus 函数能够从本书的网址获得.

图 使用Epanechnikov 核和带宽20h =所得的1999年1月4日至1999年12月31日

S&P500指数局部线性拟合. 在每个窗中的虚抛物线表示每个局部数据点所得的权

局部线性平滑能够很容易地堆广到局部多项式平滑. 局部多项式拟合和它的应用的全面介绍可参阅Fan 和Gijbels (1996). 局部多项式拟合的优点总结在§6.3.3中. 注意,()中的权,t i w 满足

,,1,2,2,11()()()()()0.T

t i T T T T i w i t S t S t S t S t =-=-=∑ ()

这就蕴涵了如果趋势是线性的,t f t αβ=+,则局部线性平滑是无偏的:

,,11()/T T

t i t i t i i E f w i w t αβαβ===+=+∑∑.

换句话,无论趋势函数多以陡峭,只估计线性趋势时,局部线性平滑就是无偏的. 这

对在内部以及边界处的点t 的同样成立. 也就是说对于估计陡峭趋势,局部线性估计将有小的偏倚. 另一方面,因为类似于()的方程即便是近似地也都不成立,因此,对估计边界区域附近的点估计陡峭趋势,核平滑将有较大的偏差.

6.2.7 其他的平滑方法

核局部线性平滑有许多别的方法. 例如,Gasser 和M üller (1979)使用了不同于核和局部线性平滑的权形式,Jones (1997)介绍了局部线性平滑的各种形式. Fan 和Gijbels (1996)给出了各种平滑技术的概述,包括样本和正交级数方法. 核回归和局部多项式建模是基于在许多格子点上的局部近似. 诸如样条这样的全局逼近方法还能够用于对时间域的平滑. 这些思想将在关于状态域平滑的§中介绍.

对诸如时域平滑这样的等间隔设计,正交级数方法也非常容易使用. 其基本思想是先用正交矩阵对数据进行变换,然后,在高频点向零点有选择地调整系数(或向零点收缩它们). 平滑估计能够通过tapered 系数的逆变换来获得. 常用的正交变换包括傅里叶变换和小波变换. 它们的统计应用可参阅Ogden (1997)、Efromovich (1999)和Vidakovic (1999)等近期出版的专着.

6.2.8 季节分量修正

有许多实用的修正季节分量的方法. 在此我们概要地介绍一个方法以说明其基本大意.

假定()中的季节分量的周期是p ,即

1,0p k jp k k k s s s

+===∑. ()

后一个约束是一个可识别条件. 若此约束不成立时,只要加一个常数到趋势分量t f ,并在季节分量修正中减去相同的常数. 归因于约束(),当p 是一个奇数时,趋势能够方便地用具有(1)/2h p =-的滑动平均()来估计. 在()中季节分量平均掉,因而对趋势估计没有贡献. 当周期p 是偶数时,用如下稍加修改的形式估计趋势

11(0.50.5)/,/2t d t d t d t d t f Y Y Y Y p d p --++-+=++++=.

季节分量能够按如下步骤来估计. 就一个例子来说,我们假定要处理的月度数据,且周期12p =. 在3月的季节分量的值能用在3月所得一切观测值的移去趋势分量后的平均来很好地近似. 这就得到估计

[()/]

*

[()/]1()/{[()/][()/]1}T d k p k k jp k jp j d k p s Y f T d k p d k p --++=-+=-----+∑,

其中[]a 表示a 的整数部分,[/2]d p =. 在上述求和中对上下限所作的限制是为了保证数据不要太接近边界使得在趋势估计中边界影响达到最小. 这种初步估计可能不能精确地满足约束(). 但这能够容易地通过用下式估计季节分量{}k s 来作修正

*

*11,1,

,d k k i i s s d s k p -==-=∑.

以上方法还被用于没有趋势分量t f 的情形. 在这种情形,不需要移去趋势,即

令0.t f =

6.2.9 理论概况*

问题()的理论表述应该得到注意. 一个简单的方式是把所得的时间序列{}t Y 看作是来自如下连续过程的离散化样本路径

这种表述常常被用在金融时间序列建模中. 时间单位通常取年,每星期数据被看作是以1/52?=的速度抽自连续过程. 对金融中的期权定价和风险管理,这种表述是非常有效的. 然而,在时域平滑方面,这种述有一些缺点. 首先,为了能够相容地估计()f t ,我们需要在给定的时间0t 的周围用大小为0h →的窗局部化数据. 但是,只要过程()X t 是连续的,所有的局部数据0{():}Y t t t h ∈±都是高度相关的,且当0h →时,相关系数趋于1. 这就蕴涵了局部数据变化不大,因而也就不需要局部平滑. 正如在图中所看到的那样,局部数据变化很大,局部平滑就能改善趋势估计. 这样,以上表述从理论的观点来看似乎是病态的. 其次,在以上的表述下,趋势()f t 和随机误差()X t 有相似的光滑度(两者都是连续的). 因此,在()Y t 中没有希望将随机部分与趋势部分分离开来.

一个代替的表述是推广等间隔设计的非线性回归模型到时间序列框架. 假定所得到的时间序列是来自模型

(/),1,,,t t Y g t T X t T =+= ()

其中g 是平滑时间趋势函数,{}t X 是随机过程,0t EX =. 在这种表述下,我们现在能够利用平滑技术从随机噪声中分离出平滑趋势. 一个小的缺点是平滑趋势()(/)f t g t T =依赖于观测数量T . 这个问题早就出现在具有固定设计的非参数回归文献中. 实际上它不是一个严重问题. 渐近理论毕竟只是一个工具,为我们理解理论性质提供简化的结构. 用(/)g t T 建模趋势是捕捉趋势比噪声变化更慢这一特征的简单的技术手段.

在以上两种表述之间选择哪一个依赖于所研究的问题. 在纵向数据和泛函数据分析中,Hart 和Wehrly (1986)以及Silverman (1996)基本上是用前一种表述:人们通过模型()()()Y t f t X t =+观测到大量独立序列. 这种表述对他们的问题是适合的. 对时域平滑,模型()常被假定. 例如见Hall 和Hart (1990),Robinson (1997),以及Johnstone 和Silverman (1997). 这就保证了能捕捉到时间趋势比随机噪声更光滑这一特征. 进一步,它也保证了能相容地估计时间趋势.

由公式()能够获得核和局部线性平滑的渐近性质. 估计g 的偏倚与具有均匀设计的独立样本情形是相同的. 核和局部线性平滑的方差经繁琐的计算也可得到. 它们依赖于噪声过程{}t X 的协方差结构. 一般地,我们假定{}t X 的自方差函数满足

()Cov(,)~,X t t k X k X X C k k αγ-+≡→∞, ()

其中0,X C α>是常数. 在2.5.2中定义的分式ARIMA 过程就满足(). 我们将估计

()重写为(/)g t T . 对任何/(0,1)u t T =∈,使用(/)i EY g i T =和(),我们得到偏倚

1,1,{(/)()()(/)}

()()T

i Tu i T i Tu i w g i T g u g u i T u Eg u g u w =='∑----=∑. ()

注意,这个偏倚不依赖于误差过程{()}X t . 它完全是局部线性拟合的近似误差. 为理论叙述的简单,我们假定K 有有界支撑. 这个假定可以冗长的叙述为代价而得到减弱. 特别地,可以使用像高斯核这样的轻尾核. 由j μ表示()j v K v dv +∞-∞?.

在下面的定理中我们总结了渐近偏倚和方差,定理的证明放在§6.6.1. 注意,由于时间单位的尺度,/h T 和用在一般的非参数回归中的带宽是相同的.

定理 假定K 有有界支撑,满足0()1K μ=和1()0K μ=,且当/0h T →时,带宽h →∞.

(a )如果()g ''?存在,且在点u 处连续,则

3221()()()()(/){(/)}2

Eg u g u K g x x T o h T μ''-=+. (b )如果自方差函数X γ满足(),我们有

212212()()||,01,Var{()}2||||log(),1,()||||, 1.X X j X C K x K y x y dxdyh g u C K h h j K h ααααγα---∞-=-∞?-<??

?? () 定理表明,过程{}t X 的协方差结构对渐近方差有强烈的影响. 反过来这也影响到渐近最优带宽,并解释了为什么独立数据的数据驱动带宽选择不能直接应用到相依数据.

对核估计的类似于定理的结果由Hall 和Hart (1990)证明. 最近,这些结果被Beran 和Feng (2000)用不同于§6.6.1给出的方法推广到局部多项式拟合. 他们还证明了对anti-persistent 过程,渐近方差具有阶12d h --.

局部线性估计的渐近正态性也可以被建立. 如果误差过程{}t X 是高斯的,则它的加权平均估计()还是高斯的. 这样,局部线性估计的渐近正态性直接由定理得到. 此外,在正态假定下,Cs?rg?和Mielniczuk (1995)建立了类似于定理的最大偏差的渐近分布. 然而,对{}t X 的正态假定并不是本质的. 正如在Robinson (1997)中所证明的那样,这个条件可以去掉. 我们在此概要地叙述用于本章的技术. 令{}t ε是相对于它自身σ域的鞅差序列,即

假定{}t X 是一双边无穷阶滑动平均过程:

且2{}t ε是一致可积的,并满足

分式ARIMA 过程满足这三个假定. 考虑加权和

,,11T T T T t t T t t j j t j t S w X w a ε∞

-==-∞=??== ???∑∑∑,

它是鞅差序列的和. 由鞅的性质,

2

,1Var()T T t t j j t S w a ∞∞-=-∞=??= ???∑∑,

假定这个方差存在. 下面的定理由Robinson (1997)给出. 类似的结果还可在Ibragimov 和Linnik (1971)中发现.

定理 在上面所述的条件下,倘若

1/2,1max (Var())T T t t j T j t w a o S --==∑,

则有

1/2Var()N(0,1)D T T S S -??→.

对于局部线性估计(),易见

这时渐近正态性变为验证定理中所叙述的条件. 我们略去细节.

状态域平滑

6.3.1 非参数自回归

状态域平滑与非参数预报密切相关. 考虑一个平稳时间序列{}t X . 为了简单起见,我们考虑仅基于变量1t X -的预报. 基于1t X x -=的t X 的最优预报是给定1t X x -=时,t X 的条件期望

1()(|)t t m x E X X x -==,

它在所有的预报函数g 中极小化MSE

21{()}t t E X g X --.

这个函数还称为阶为1的自回归函数. 当{}t X 是零均值平稳高斯过程时,这个条件均值是线性函数()m x ax =,条件方差是常数. 这就得到一个AR (1)模型

1t t t X aX ε-=+.

一般地,函数()m x 不必是线性的,条件方差也不必是常数. 然而,总是能够以如下方式表示数据

11()()t t t t X m X X σε--=+, ()

其中21()Var(|)t t x X X x σ-==. 这里,t ε的条件均值为零,条件方差为1,即

11(|)0,Var(|)1t t t t E X X εε--==.

非参数平滑技术还能够用于包括自回归函数的估计以外的领域. 考虑一个双变量序列{(,):1,,}t t X Y t T =,它可以被看作是来自平稳过程的一个实现. 我们的兴趣是估计回归函数()(|)t t m x E Y X x ==. 为便于对问题的理解,我们记

()()t t t t Y m X X σε=+, ()

其中2()Var(|),t t t x Y X x σε==满足

(|)0,Var(|)1t t t t E X X εε==.

显然,这个结构包括通过取1t t Y X +=而把估计的自回归函数作为一个特定的例子. 下

面是三个有用的例子.

例 考虑平稳时间序列{}t Z . 对给定的k ,我们取1(),k t t t t Y Z X Z -==. 则目标函

数变为

1()(|)k k t t m x E Z Z x -==.

条件方差可以通过用221()()m x m x -来估计. 特别地,当1()m x 小得如例中所给的利率差分数据,2()m x 基本上就如同条件方差. 换句话,对下面图中所给的数据,均值回归函数是波动函数的平方

()x σ这就是由Stanton (1997)以及Fan 和Yao (1998)所给出的波动估计的基础. 图 对12个月国库券回报用局部线性拟合估计条件方差. (a )具有Epanechnikov 核和带宽索 3.06h =的局部线

性拟合的图示;(b )估计条件标准差用局部线性拟合(实曲线), Fan 和Yao (1998)的基于残差的方法(短虚曲线)和具有0.143α=和 1.324β=的参数模型()x x βσα=(长虚曲线)

例 再考虑平稳时间序列{}t Z . 我们取()t t Y I a Z b =<≤,它是区间(,]a b 上的示性函数,1t t X Z -=. 则目标函数变为

1()(|)t t m x P a Z b Z x -=<≤=.

特别地,如果a =-∞,我们就得到条件分布估计. 进一步,如果a y δ=-和b y δ=+,则当δ取值小时,()/(2)m x δ基本上就如同给定1t Z x -=时t Z 的条件密度. 这个条件密

度函数对了解给定1t Z x -=时t Z 分布的全貌是非常有用的. 特别地,自回归函数是这

个分布的中心,波动函数是这个分布的扩展. 这个思想形成了Fan 、Yao 和Tong (1996)估计条件密度(§)和与它们相关的泛函(§),以及Hall ,Wolff 和Yao (1999)估计条件分布函数(§),Polonik 和Yao (2000)估计最小量预报区域(§)等所用方法的起源.

例 对给定的时间序列{}t Z ,多步预报能够通过令t t d Y Z +=和t t X Z =来完成,其

中d 是预报步长数. 对这种情形,我们用非参数方法,基于变量t Z 来估计最优d 步预报

()(|)t d t m x E Z Z x +==,

下面的图画出了山猫数据的一步和两步预报. 把这个方法和例和例中的技术结合起来,我们能够估计多步预报的条件方差和条件密度.

6.3.2 局部多项式拟合

局部多项式拟合是一个用途广泛的非参数技术. 它拥有多种好的统计性质. 关于这些内容可参阅Fan 和Gijbels (1996).

令()()v m x 是定义在()中的回归函数v 阶导数. 局部多项式技术可非常方便地用来估计()()v m x ,包括回归函数本身(0)()()m x m x =. 由于回归函数的形式没有被指定,因而距离0x 远的数据点对0()m x 提供了很少的信息. 因此,我们只能使用0x 附近

的局部数据点. 假定()m x 在0x 点处有(1)p +阶导数. 由泰勒展开,对0x 局部邻域的

x ,我们有 ()1000()(){()}!

p p p m x x x O x x p +++-+-. () 在统计建模方面,对0x 周围的局部点,我们建模()m x 为

00()()p

j j j m x x x β=≈-∑. ()

参数{}j β依赖于0x ,故称之为局部参数. 显然,局部参数()0()/!v v m x v β=. 用局部数据拟合局部模型()可极小化

20010{()}()p T j t

j t h t t j Y X x K X x β==---∑∑, ()

其中h 是控制局部邻域大小的带宽.

作为一个说明的例子,我们取21()t t t Y X X -=-,其中t X 是12个月国库券回报. 带

宽为 3.06h =,它是由预渐近代入法(见§6.3.5)用C-程序“”计算得到的. 在012x =点处(百分数),线段(1)p =用来拟合在阴影区域0x h ±中的局部数据,在此对每个数据,权用虚曲线(对应于Epanechnikov 核)表示. 在0x 点处局部截距0β是拟合的线段和垂直线段间的交点. 这就构成了在点012x =处的回归函数(0)v =的估计. 沿着水平轴滑动这个窗,我们就获得在区间[3,14]上要估计的曲线. 条件标准差被展示在图(b )中. 基于残差来估计条件方差的方法由Fan 和Yao (1998)提出,其计算通过C 程序“”来实现(还可见§()m x x βα=常被用来对生产率动态的波动进行建模,它用长的虚曲线表示. 正如人们所看到的那样,在参数和非参数方法之间还存在本质差异,这对参数拟合是否合适提出了疑问. 选择带宽预渐近代入方法由Fan 和Gijbels (1995)提出,见§

用,0,,j j p β=,表示最小二乘问题()的解. ()0()v m x 的局部多项式估计是

0()!(0,1,,)v v m x v v p β==. 这里,

我们不用记号()

0()v m x 是为了避免由估计回归0()m x 的v 阶导函数所带来的混淆. 事实上,导数()m x '是用局部斜率来估计,而不是用估计的回归函数的导数来估计.

当0p =,局部多项式拟合退化为该回归估计

11()()()T

t t h t T t h t

Y K X x m x K X x =

=∑-=∑-, 它还被称为Nadaraya-Watson 估计. 因此,从局部逼近的观点来看,核回归估计是基于局部常数逼近的. 见().

使用矩阵记号来表示局部多项式回归更为方便. 用X 表示相应于()的设计矩阵:

1010001()()1()()p p T T X x X x X x X x ??-- ?= ? ?--??

X , 且令

01,

T p Y Y βββ???? ? ?== ? ? ? ? ?????y . 则加权最小二乘问题()能够写为

min()()T β

ββ--y X W y X , () 其中0(,,)T p βββ=,W 是对角矩阵,它的第i 个元素为0()h i K X x -. 解向量为

1()T T β-=X WX X Wy . ()

为了实现局部多项式估计,我们需要选择阶p ,带宽h 和核K . 当然,这些参数相互关联. 当h =∞时,局部多项式拟合就变成全局多项式拟合,阶p 决定模型的复杂性. 与参数模型不同,局部多项式拟合的复杂性主要是由带宽来控制. 因此,p 通常是较小的,故而选择p 的问题就变得不重要了. 如果目的是估计()v m ,则当p v -是奇数,局部多项式拟合自动修正边界偏倚. 进一步,当p v -是奇数,与1p -阶拟合(则1p v --是偶数)相比较,p 阶拟合包含了一个多余参数,但没有增加估计()v m 的方差. 不过这个多余参数创造了一个降低偏倚的机会,特别是在边界区域. 见Fan (1992)、Fan 和Gijbels (1992)、Hastie 和Loader (1993)、Ruppert 和Wand (1994). 因为这些理由,奇数阶拟合(选择p 使和p v -是奇数)比偶数阶拟合(选择1p -使得p v -是偶数)更好. 基于理论和实际的考虑,在Fan 和Gijbels (1996)中推荐阶1p v =+. 如果主要目的是估计回归函数,我们使用局部线性拟合,如果目标函数是一阶导数,我们就使用局部平方拟合,等等. 另一方面,带宽h 的选择在多项式拟合中起着重要作用. 太大的带宽引起过度平滑,产生过大的建模偏倚,而太小的带宽会导致不足平滑,获得受干扰的估计. 带宽可由使用者通过目测检查所得到的估计曲线来主观选择,或由数据通过极小化的估计理论风险来自动选择(见

6.3.5). 由于估计基于局部回归(),我们有理由要求一个非负权函数K. Fan, Gasser, Gijbels, Brockmann 和Engel (1995)已证明,对所有p 的选择和v ,最优权函数是23()(1)4

K z z +=-,它被称为Epanechnikov 核. 这样,它是一个万能的加

权方式,并对比较其他核提供了一个有用的基准. 正如在所证明的那样,对实际中使用的p 和v ,其他核具有几乎相同的有效性. 因此,核函数的选择并不是至关重要的.

将局部多项式估计与其他估计进行比较,包括Nadaraya-Watson 估计、Gasser 和M üller 估计和Priestley 和Chao 估计. 实际上,由Fan (1993a )可知,局部线性拟合在所有线性估计中是渐近最小最大的,而在所有可能的估计中几乎是最小最大的. 这种最小最大性质由Fan ,Gasser ,Gijbels ,Brockmann 和Engel (1995)推广到更一般的局部多项式拟合.

6.3.3 局部多项式估计的性质

整个这一节中,我们假定11(,),,(,)T T X Y X Y 是平稳序列. 令k i F 是有随机变量

{(,),1}j j X Y j k ≤≤生成的事件的σ域. 令()k α和()k ρ是它们相应的α和ρ混合系数.

用1v e +表示单位向量,其(1)v +位置的元素为1. 令

,001()()T

j T j h t t t S K X x X x ==--∑ ()

和T T =S X WX 是(1)(1)p p +?+矩阵,它位于(,)i j 的元素是,2T i j S +-.

首先,我们容易证明估计能够写为

01

1

T T

T t v v v t t X x e W Y h ββ+=-??== ???∑, () 其中有效核T v W 是核K 和一个多项式函数的乘积,其定义如下

11(){1,,,()}()/T T p T v v T W t e th th K t h -+=S . () 以上表达式显示除了“核”T v W 依赖于设计点1{,,}T X X 和位置0x 外,估计v β看起来

就像传统的核估计. 这就解释了为什么局部多项式拟合能够自动地适应各种设计框架和边界估计. 图给出了局部常数拟合(0)p =的有效核函数和对Epanechnikov 核K 在点00.05x =和00.5x =处的局部线性拟合(1)p =. 它们满足如下矩性质. 图 对局部常数拟合(0)p =和具有核K 为Epanechnikov 核的局部线性拟合(1)p =在内点00.5x =处(权由▲表

示)和边界点00.05x =(权由●表示)分配给局部数据点的有效权. 水平实线和虚线分别是真实函数和估计的函数在点00.05x =和00.5x =的高度. 它们的差是在这两个点处的偏倚. (a )Nadaraya-Watson 估计;(b )局部线性拟合. 为清楚起见,数据(?)不包含噪声

命题 有效权T v W 满足如下有限矩性质:

00,1()0,T q T t t v v q t X x X

x W v q p h δ=-??-=≤≤ ???

∑, 其中如果v q ≠,则,0v q δ=,否则为1.

证明 由T S 的定义

111,T v T T q v q e e δ-++==S S .

从而得到所要的结论.

作为命题的结果,当真实的回归函数()m x 是阶为p 的多项式时,v β的局部多项

式估计的无偏倚的. 为了获得更多有关有效核的知识,我们提供它的渐近形式. 我们首先引进一些记号. 令S 是(1)(1)p p +?+矩阵,它的第(,)i j 元素为2i j μ+-,其中()j j u K u du μ+∞

-∞=?. 定义等价核如下

*

110

()(1,,,)()()()p

T p T v v v K t e t t K t S t K t -+===∑S l l l , () 其中v S l 是1S -的(1,1)v ++l 元素.

命题 在定理的条件下,如果X 的边缘密度f 在点0x 处有连续的导数,则在对

0[,]x a b ∈和t 一致地有

*101()(){1()}()

T v v P T v W t K t O a Th f x +=+, 其中1/2(log /)T a h T Th =+. 对高阶核而言,等价核满足如下矩条件:

*,()0,q v v q u K u du v q p δ+∞

-∞=≤≤?.

证明 注意到,/()j T j S Th 基本上和具有诱导核*()()j K x x K x =的核密度估计是相同的. 因此,由定理,对0[,]x a b ∈一致地有

1,0()()()j T j j P T Th S f x O q μ-=+, ()

把()代入T S 的每一个元素就立即得到

1110(){1()}T P T T H S H f x O a ---=+S ,

或等价地有

0(){1()}T P T Tf x H H O a =+S S ,

其中diag(1,,,)p H h h =,因此,把这个式子代入v T W 的定义,我们得到

11101()(1,,,)(){1()}()T T p T v v P T v W t e t t K t o a Th f x -++=+S .

这就证明了第一个结果. 第二个结果用与命题相同的证明可得.

由()和命题,有

*01101{1()}()T t v v t P T v t X x K Y O a Th f x h β+=-??=+ ???

∑. () 因此,使用局部多项式估计就像使用具有已知设计密度f 的核回归估计一样. 这就解释了为什么局部多项式拟合适应于多种设计密度. 反过来,核回归估计在f 的导数偏大的区域有大的偏倚,即它不能适应高偏斜设计. 为了搞清楚这一点,想象真实的回归函数在这样的区域内有大的斜率. 对给定的0x ,由于设计密度的导数是大

的,故而在0x 的一边比另一边有更多的点. 当使用局部平均时,由于局部数据呈现

对称状态,故Nadaraya-Watson 估计向着有更多局部数据点的那一边产生偏倚. 由于局部数据多是非对称的,故而这个问题在边界区域更显着,见图. 另一方面,如果需要,局部多项式拟合造出非对称权以补偿这类设计偏倚(图(b )). 因此,它适合于各种设计密度和边界区域.

我们现在给出局部多项式估计的渐近偏倚和方差表达式. 对独立数据,我们通过在设计矩阵X 上加条件来获得偏倚和方差表达式. 然而,对诸如在例中所给出的时间序列,加在X 上的条件将意味着几乎是加在整个序列上. 因此,我们用渐近正态性而不是用条件期望来导出渐近偏倚和方差. 正如在§所解释的那样,状态局部化减弱了局部数据的相依结构. 因此,人们期望对独立数据的结果对具有某种混合条件的平稳序列依然成立. 混合条件和窗的大小是有关系的. 这点的严格叙述由在§6.6.2中的条件1(iv )给出. 下面属于Masry 和Fan (1997)的定理的证明将在§

定理 在§6.6.2的条件1下,如果1/(23)()p h O T +=,且(1)()p m +?在点x 处是连续的,则当T →∞时,

21*1N{0,()/()}D x f x σ--??→S S S ,

其中()0()((),,()/!)p T x m x m x p β=,*S 是(1)(1)p p +?+矩阵,它的第(,)i j 元素是222(),i j i j p v t K t dt +∞

+-+--∞=?c 是(1)p +维向量,其第i 个元素为2p i μ+-.

注意,由等价核的定义易见

因此,定理的直接推论是导数估计()v m x 是渐近正态的:

22*2(!)()()0,()v D v x K t dt N f x σ??????→??????

? () 当0v =时,()给出()m x 本身的渐近正态性.

局部多项式估计的渐近偏倚和渐近方差被自然地定义为

(1)1*

1!()AB()()(1)!p p p v v

v m x x t K t dt h p +++-=+?, () 22*221(!)()()AV()()v v v x K t dt

x Th f x σ+=?. ()

对给定的权函数w ,理想的带宽h 应极小化

这就得到渐近最优带宽

1/(23)21/(23)opt ,(1)2()()/()(){()}()p p v p p x w x f x dx h C K T m x w x dx σ+-++????=??????, ()

其中

1/(23)2*2,1*22(1)!(21)()()2(1){()}p v v p p v p v K t dt C K p v t K t dt ++??++??=+-??????.

然而,由于这种理想带宽依赖于未知函数,故它不是直接可用的. 我们将在§6.3.5中提出方法来估计它.

正如在上一节所叙述的那样,当p v -是奇数时,局部多项式拟合自动地适应边界区域. 为了说明这一点,我们沿用Gasser 和M üller (1979)的公式表示. 假定t X 有有界支撑,记为[0,1]. 则当核K 有有界支撑[0,1]时,(01)x ch c =≤<是右边界点. 我们现在考虑()v m x 在边界点x ch =处的行为. 为此,令

2,,(),()j j j c j c c c u K u du v u K u du μ∞∞

--==??. 在定义*,S S 和p c 中,我们用,,,j c j c v μ分别代替j μ和j v ,这就得到了*

,c c S S 和,p c c . 类

似地,在边界定义等价核为

则我们有下列结果,它的证明非常类似于定理的证明.

定理 假定§6.6.2中条件1成立,且(0)0f >. 如果1/(23)()p h O T +=,

(1)p m +和2f σ在点0处是右连续的,则当T →∞,

21*1N{0,(0)/(0)}D c c c f σ--??→+S S S ,

其中()0(0)((0),,(0)/!)p T m m p β=.

作为定理的推论,在边界点x ch =处,我们有如下渐近偏倚和方差: 和

22*2,21(!)(0)()AV()(0)

v c c v v K t dt x Th f σ∞-++=+?. 将它们与()和()相比较. 注意,当K 是对称的且p v -是偶数时,可以证明(Ruppert 和Wand1994)()中的系数是零. 在此,偏倚在内点比在边界点有较小的阶. 这就

是所谓的边界效应. 当p v -是奇数时,偏倚在内点和边界点具有相同的阶. 实际上,它们在1c =点处甚至是连续的,该点是内点和边界点之间的界. 因此,当p v -是奇数时,局部多项式拟合并没有产生额外的边界偏倚. 假定p v -奇数,且K 是对称的. 可以证明,对阶1p -和阶p 的局部多项式拟合有相同的渐近方差(参阅Fan 和Gijbels ,1996的§). 但后者有更多的参数以减少建模偏倚,特别是在边界区域. 这就是我们推荐适用奇数阶拟合的理论背景. 这真是一个奇妙的世界!

下面引理对导出局部多项式估计是非常有用的. 它是Mack 和Silverman (1982)的结果的推广.

引理 令11(,),,(,)T T X Y X Y 是平稳序列,满足混合条件|()|c βα≤-l l ,其中0c >和5/2β>. 进一步假定对某个2s >和区间[,]a b ,有

||s E Y <∞且[,]

sup ||(,)s x a b y f x y dy ∈<∞?,

其中f 表示(,)X Y 的联保密度. 此外,我们假定§6.6.2中条件1(ii )和(iii )成立. 令K 为具有界支撑的有界函数,满足Lipschitz 条件. 则倘若0h →,且对某个1

1220,s T h δδ--->→∞和 1( 1.5)()/25/4/25/40s T h βδββ-++-+--→,

我们有

11/2[,]1

sup |{()[()]}|[{/log()}]T h t t h t t P x a b t T

K X x Y E K X x Y O Th T --∈=---=∑. 注意,由于1122s T h δ---→∞,当混合系数指数衰减,则引理的最后一个条件自动

成立. 一般地,当β相当大时,上述引理中的最后一个条件成立.

我们现在叙述和证明局部多项式估计结果的一致收敛性.

定理 假定引理的条件成立,设计密度f 在[,]a b 上是一致连续的,且[,]inf ()0x a b f x ∈>. 则

1/2[{/log(1/)}]P O Th h -=.

在定理中取第(1)v +元素,我们有

211/2[{/log()}]v P O Th T +-=.

特别地,局部多项式估计有如下的一致收敛性:

11/2[,]sup |()()|[{/log(1/)}]p P x a b m x m x O h Th h +-∈-=+.

6.3.4 标准误差和估计偏度

局部多项式估计的标准误差对构造置信区间是有用的. 为了导出它们,我们暂时假定{(,)}i i X Y 是来自某总体的独立样本. 则由()有

11Var(|)()Var(|)()T T T β--=X X WX X W y X WX X WX .

注意,2Var(|)()i i i Y X X σ=. 由于所有运算都是对0i X x ≈局部地进行,故而上述条件

方差几乎是常数20()x σ. 使用这种局部同方差性,我们有

22210Var(|)diag((),,())()n n X X x I σσσ=≈y X .

当然,这个近似仅对那些0i X x ≈成立,但是,那些点实际是用于计算方差的数据点.

由此,我们有

21210Var(|)()()()T T T x βσ--≈X X WX X W X X WX .

条件方差20()x σ可以用一个先导带宽*h 和平方残差2

{(,)}t t X ε通过平滑来估计,其中()t t t Y m X ε=-. 这就得到协方差矩阵的一个估计 2

12100()()()()T T T x x σ--∑=X WX X W X X WX . ()

这是在Fan 和Gijbels (1995)中提出的估计条件方差的预渐近替代方法. 相反,许多作者使用了渐近替代方法,将估计代入诸如()和()的渐近表达式中. 这不仅导致了更多的未知函数需要估计,而且也降低了估计的准确性.

回忆定理中关于0β的定义. 与上面的讨论一样,我们可以得到对于独立样本的

局部多项式估计的偏倚是

10(|)()T T E ββ--=X X WX X Wr , 其中0β=-r m X ,其第i 元素由下式给出 (1)(2)120000()()()()(1)!(2)!

p p p p i i m x m x X x X x p p ++++=-+-++. 由Fan 和Gijbels (1995)提出的预渐近替代方法首先是利用2p +阶局部多项式拟合和先导带宽*h 来估计(1)0()p m x +和(2)0()p m x +. 这样就给出了r 的估计和估计的偏倚向量

10Bias()()T T x -=X WX X Wr , ()

对于相依数据而言,上面的讨论却不一定成立. 但是,如§所阐述的一样,局部数据的行为非常像局部独立数据. 这样,()和()给出了在混合条件下的渐近偏倚和渐近方差的一个相合估计. 实际上,利用()和核2K 类似的表示,我们很容易地看出上述偏倚和方差的估计相合的.

()

0()v m x 的偏倚可以通过0Bias()x 的(1)v +元素来估计,我们记它为0()v B x . 类似地,0()x ∑的(1)v +对角元素就是()0()v m x 的估计方差,相应地,我们记为0()v V x . 由定理可知,关于()0()v m x 的(1)α-水平的点置信区间大致是

1/2001/20()()()v v v m x B x z V x α-=±, () 其中1/2z α-是标准正态分布的(1/2)α-分位数.

估计偏倚涉及到高阶导数的估计,而这在普通样本量下通常估计得不好. 正因为这个原因,在置信区间的构造中常常忽略掉偏倚. 有人甚至讨论说,参数模型的置信区间忽略了偏倚,却也逼近得很准确. 为简单起见,我们称0()0B x =下的区间()为点置信区间. 图描述了估计回归函数1010()(|)t t m x E X X x +==和2020()(|)t t m x E X X x +==以及它们相应的逐点置信区间.

6.3.5 带宽选择

如§的解释一样,对于特定混合条件下的数据平稳序列,状态域平滑和独立数据的非参数回归表现很相似,因为加窗技巧弱化了局部数据间的相依性. 也部分地因为此原因,对于状态域平滑问题的带宽选择没有太多的研究. 然而,期望对于独立数据的带宽选择方法能继续应用到特定混合条件下的相依数据上来也是合理的.

下面我们就一些有用的方法做一总结. 当数据没有足够强的混合性时,减小方差的一般方法就是增加带宽.

交驻核实方法在平价一个估计的好坏以及估计预测误差时是非常有用的一个方法. 它的基本思想就是留下一个数据点作为模型的核实数据,而用其他所有的数据点来建立模型. 具体定义如下,

12,1CV(){()}T h i i

i i h T Y m X --==-∑, ()

其中,h i m -是在0v =及带宽h 下的局部多项式估计(),但是估计的时没有用到第i 个观察值. ()中的加法项是用{(,):}j j X Y j i ≠为训练数据集时,第i 个数据点的平方预测误差. 这种交叉核实方法的想法来自Allen (1974)和Stone (1974),但是计算却很麻烦. 为了便于计算,一个改进的方法由Wahba (1977)以及Craven 和Wahba (1979)提出,称为广义交叉核实方法(generalized cross-validation (GCV )). 这个准则具体描述如下. 由()可知,数据拟合值可以表示为

1((),,())()T T m X m X H h Y =,

图 山猫数据的局部线性拟合. (a )一步预测;(b )两步预测. 虚线表示逐点的置信水平为

95%的置信区间

其中()H h 为T T ?帽子矩阵,依赖于协变量X ,带宽h 和1(,,)T T Y Y Y =. ()H h 被称为平滑矩阵. 这样,GCV 方法选择带宽h 使得下式最小

12GCV()[tr{()}]MASE()h T I H h h --=-, ()

其中121MASE(){

()}T i i i h T Y m X -==∑为残差平方和的均值. 交叉核实方法的一个缺点就是它本身固有的多变性(参阅Hall 和johnstone, 1992). 此外,它也不能直接应用到估计导数曲线的带宽选择上. 嵌入方法就避免了这些问题.

它的基本思想就是寻找带宽h 使得估计积分均方误差(Mean integrated square error (MISE ))达到最小. 对于预渐近替代方法,对给定的权重函数w ,MISE 则定义为

2MISE(){()()}()v v h B x V x w x dx =+?, ()

其中()v B x 和()v V x 由()给出. 这个方法是由Fan 和Gijbels (1995)提出的,它依赖于先导带宽*h . 先导带宽可以通过他们提出的残差平方准则(Residual squares criterion (RSC ))来选择(参阅Fan 和Gijbels (1995)). 在本书中,所有的自动带宽选择都可以应用这种方法得到,而且可以通过本书提供的C 程序“”来实现. 这里包括了谱密度估计(§)和条件方差估计(§)的带宽选择方式. 残差平方准则是一种自动选取带宽的方法. 假设我们想利用p 阶局部多项式拟合方法在某一区间上来估计()()v m ?,其中p v -为奇数. 定义

2

00RSC(;)(){1(1)}x h x p V σ=++, 其中V 是矩阵

的第一个对角元素. 由()可知,V 是估计0()m x 的方差缩减量,因此,1V -相当于局部数据点的有效个数. 当h 很小时,V 会变大,当h 较大时,如果局部拟合的偏倚

较大,则2

0()x σ也会很大. 因此,RSC 折中了两种矛盾的需要. 记

为RSC 在区间[,]a b 上的积分表示. 在实际中,积分可用区间网格点求和来代替. 记最小化IRSC()h 所得的h 为h . 这个带宽在实践中起到了一定的作用. 为了得到最

优带宽,还需要一些修正. 记122T

p p p p C c S c μ-+=-,

11/(23)*2,*2*20(21)()adj (1){()}()p p p v v p t v v C K t dt p v K t dt K t dt ++??+??=??+-??

???. 这个修正的常数依赖于核K ,略微比1小. 残差平方准则选择的带宽为 RSC

,,adj v p v p h h =. 更多的细节可以参阅Fan 和Gijbels (1995).

由Ruppert ,Wand 和Sheather (1995)提出的嵌入方法是一种渐近替代方法. 它首先估计出导数(1)()p m x +,方差2()x σ和设计密度()f x ,然后将其代入到渐近偏倚和渐近方差表达式中,最后选择带宽使得被估计的MISE 最小. 先导带宽就是利用这种方法导出的.

由Ruppert (1997)提出的经验偏倚方法依赖于对偏倚的不同估计. 首先在h 的一列网格点处计算出0(;)v m x h ,通过它经验地估计出一列偏倚,并将其看成h 的函数.

记1b J >为一正整数,并且记12000,,,b

J h h h 为0h 邻域内一列值,分别计算00(;)v m x h l ,

1,,b J =l . 然后对某个整数1a ≥,通过普通的最小二乘方法使用模型

100100d ()d ()d ()p v p a v p v p a v x x h x h +-+-+-+-+++ () 去拟合合成数据000{(,(;)):1,,}v b h m x h J =l l l . 表达式()是00(;)v m x h l 的渐近“期望值”,因此,使用这个模型也显得比较自然. 然后为估计()0()v m x 我们可得到偏倚估计是

1100d ()d ()p v p a v p v p a v x h x h +-+-+-+-++. ()

关于带宽选择的更多的细节可以在上面引用的文章中找到. 它们也可以在Fan 和Gijbels (1996)的第四章和Fan 和Gijbels (2000)中找到.

样条方法

样条方法对于非参数建模是非常有用的一种方法. 它建立在全局逼近的基础上,是多项式技巧有用的推广. 一个多项式函数,它在任意点具有任意阶导数,因此,来逼近那种不同点上光滑程度不同的函数就不具有灵活性. 比如,图和图(a )中的函数就不能多项式函数很有效地逼近. 提高逼近灵活性的一种方法就是允许逼近函数的导数可以在一些特定的位置有不连续性. 这就导致了使用分块多项式,称为样条逼近. 逼近函数的导数不连续的那些位置称为节点. 关于样条在统计中的应用的有用的参考书可以参阅Wahba (1990),Green 和Gilverman (1994)及Eubank (1999).

6.4.1 多项式样条

作为对样条方法的简要介绍,我们用状态域平滑作为基本材料. 记1,,J t t 为一列给定的节点,且满足1J t t -∞<<<<+∞. 这些节点可以由数据分析专家或者数据本身来选择得到. 一个p 阶样条函数是指一(1)p -阶连续可导的函数,且在每一个

区间1121(,],[,],,[,],[,]J J J t t t t t t --∞+∞上为p 阶多项式函数. 任意一个拥有节点1,,J t t 的p 阶样条函数都可以表示为:

1

1()()J p j j j s x S x β++==

∑, ()

其中 1()(),1,,,(),1,, 1.p j j j J j S x x t j J S x x j p +-+?=-=??==+?? () 换句话说,所有拥有1,

,J t t 的p 阶样条函数组成的空间是(1)J p ++维的线性空间,函数{()}j S x 为其线性空间的基底,称为功效基底(power basis ). 样条功效基底有这样一个优点,从()的()()j S x j J ≤中删掉一个项就相当于删掉一个节点. 然而,

如图,功效样条基底有很大的多元相关系数,会导致设计矩阵近于退化. 另一个常用的样条基底是B-样条基底(见de Boor (1978)108页),它在数值计算中表现比较稳定(见图(b )). 但是,从基底中删除一项却不能对应于删除一个节点. 通常,三阶样条在实际中比较常用. 从现在起,为便于表示,我们着重考虑三阶样条逼近. 把()代入(),我们得到

41()()J t j j t t t j Y S X X βσε+=≈+∑.

忽略其异方差性,我们可以通过下式来估计未知参数{}j β:

4

211min {()}T J t j j t t j Y S X ββ+==-∑∑. () 记(1,,4)j j J β=+为最小二乘估计值. 这时,回归函数就由样条函数41()()

J

j j j m x S x β+==∑来估计. 由于它是三阶样条基底()的线性组合,因此,这是一个三阶样条函数.

图 节点为, 和的三阶样条的指数样条基底和B-样条基底. 任何节

点为, 和的三阶样条函数都是这些样条函数的线性组合

上述的多项式样条方法对节点{}j t 的选择比较敏感. 自动选择节点的一种方法是初始时安置许多节点,其中一些节点在节点选择过程中可以删除掉. 初始节点一般安置在X 协变量的次序统计量上. 比如,初始节点选择为(3),1,,[/3]j j t X j T ==. 现在我们可以把问题()看成普通的最小二乘问题,应用线性回归技巧在基底函数{()}j S x 中选择“显着性变量”. 这样,节点就被选择了.

我们现在简要地介绍逐点删除方法. 记j β为由()得出的最小二乘估计,()j SE β为其估计的标准误差. 这时,删除第0j 个节点,它满足:绝对值t 统计量||/()j j SE ββ (1)j J ≤≤最小. 重复上述过程(每一步删除一个节点). 这样,我们得到了一列模型,记下标为(0)j j J ≤≤:第j 个模型包含4J j +-个自由参数,残差平方和RSS j . 则我们选择模型j 使得修正的Mallows p C 准则最小(参阅Mallows (1973)):

2(4)j j C RSS J j ασ=++-, ()

其中σ为在初始模型(满模型)中估计出的标准差,α为平滑参数. Kooperberg 和Stone (1991)建议用3α=,而不是用更为传统的在Akaike 信息准则(AIC, AKaike,

相关主题
相关文档
最新文档