最小二乘法对多变点检验的性能研究
最小二乘法在数据处理中的应用

最小二乘法在数据处理中的应用嘿,朋友!想象一下这样一个场景:你正在为一个科学实验收集数据,一堆数字摆在你面前,就像一群调皮的小精灵,让你眼花缭乱,不知所措。
这时候,“救星”出现了,那就是最小二乘法!比如说,有个叫小李的科研工作者,正为他的实验数据愁眉苦脸。
他的实验是研究植物在不同光照条件下的生长速度。
经过一段时间的辛苦观察和记录,他得到了一堆光照时长和植物生长高度的数据。
可这些数据杂乱无章,怎么从中找出规律呢?这时候,最小二乘法就大显身手啦!它就像一个神奇的魔法棒,能把这些看似混乱的数据变得有条有理。
最小二乘法到底是怎么施展魔法的呢?简单来说,它就是要找到一条最合适的线或者曲线,来尽可能地靠近这些数据点。
这就好比你要穿过一片树林,找到一条最顺畅的小路,让你能以最省力的方式通过。
假设小李的数据点分布得比较接近一条直线,那最小二乘法就能算出这条直线的方程。
它会考虑每个数据点与这条假设直线的距离,然后通过一系列巧妙的计算,让这些距离的平方和最小。
这是不是很神奇?想象一下,如果没有最小二乘法,小李就得靠自己的眼睛和感觉去估摸数据的规律,那得多不靠谱啊!就像闭着眼睛在黑屋子里找东西,全凭运气。
在实际生活中,最小二乘法的应用可广泛啦!不只是科研领域,经济领域也少不了它。
比如说,预测股票价格的走势,分析市场的需求和供应关系等等。
它就像一个聪明的参谋,为决策者提供可靠的依据。
再比如,在工程领域,测量建筑物的变形、评估机器的性能,最小二乘法都能发挥巨大的作用。
它能帮助工程师们更准确地了解物体的状态,提前发现潜在的问题,避免出现大的失误。
你可能会想,这么厉害的方法,是不是很难掌握呢?其实不然!只要你有一些基本的数学知识,再加上一点耐心和细心,就能理解和运用它。
总之,最小二乘法在数据处理中简直就是一把“万能钥匙”,能打开数据背后隐藏的秘密之门,让我们更加清晰地看到事物的本质和规律。
它就像一位默默无闻的英雄,在幕后为我们的科学研究、经济决策和工程建设等众多领域提供着强大的支持和帮助。
最小二乘法对多变点检验的性能研究

8
河 南 师 范 大 学 学报 ( 自然 科 学 版 )
: ! 旦 Ⅲ+ 1 + I 竹 兰 竺 ) nI i 一 + 1 一 I 7 一 2n( 05n( ~ 口) n n( ) n(c ) 1 一 . I 1 ))
—
+ 1— 2 n I ( — m + 1 I n )一 I n I ( — m + 1 n I n )~ 2. 4
组 新值 /l 7 < " / < … < 。 ;
值之 点作为有关 参数 的点 估计 , 优点是 对随机误 差 的分 布不需要 作特定 的假设. 其 国内文献鲜 见研究最 小二 乘法识 别多变 点的性能 , 国外 至多用最小 二乘法讨 论 了误 差为线性 过程时 一个未知均 值变点 的估计 问题( 见
前述 文献 中的 J s a B i. uh n a) 本文通 过模拟 对最小二 乘法识 别多变点 的性能 做较为详 尽的研 究.
() 2 在约束条件 1 z 求 , <m <m 下, 使第一, 二两项之和 。 一∑ -( 一 m z 1
1 7 1
1 一
l
∑ : z一垄 (
)达 最小 记 所得 的 优 为 z到
,
;
( 在约束条件 1 < 讹 < 埘 下, m , 3 ) < 。 求 使第二, 三两项之和 W : ∑ ( 一 船 z :±:± [ ) : ! +∑ ( 苎 : z 一
)可 z . 即
引 设序 …, , 一∑ ) 理2 列X , z S 。 i( 一 -x : - I +∑ ( ) S x一 。 一mnS 。 s) 一 , i 卅 , , ( + …, C
收稿 日期 :0 9 0 — 2 20 — 5 0 作者 简 介 : 学新 (9 6 ) 男 , 北 宜城 人 , 张 16 - , 湖 中南财 经 政法 大学 博 士研 究 生 , 究 方 向 : 率 论与 数理 统 计 方法 应 用 研 概
汛期分期变点分析方法的原理及验证

基金项 目: 国家 自然科 学基金( 00 0 7 ; 省 自然科 学基 金(0 6 B 2 9 . 5 6 9 1 ) 湖北 20A A 2 ) 作者 简介 : 攀 (9 8)男 , 刘 17 , 湖南湘潭 人, 士 , 博 讲师 。 主要从事 水文及 水资 源开发 利用 研究 , 电 话) 2 8 7 5 8 电子 信箱 ) ua @ ( 0 7 67 3 6 ( l pn i
维普资讯
第2 3卷 第 6期
2 0 0 6年 1 2月
长 江
科
学 院 院 报
J un l fY n teRi r cet i R sac nt ue o ra a gz v i ic eerhIsi t o e S n f t
节( 跳跃 的确定 与检 验 ) 的大 检验 ” 。可见 , 采用 变 点
其中 q为变点个数 , 为数据 , ( = Y i C
+l… , , ) , 一1的均值 估 计 :
厅 :
。 m J
二
。
() 2
lt 1 rJ
12 概 率变 点 .
概率变点分析方法假定数据 ( =12 … , ) i ,,
服从 二项 式 分 布 且 相 互 独 立 [, , 点 , , 变 ( =1 ,
( 跳跃) 分析的方法来进行汛期分期 , 具有严格的假 设检验 , 可在一定程度上克服分期的主观性 。文献 [] 7介绍了变点分析方法及其在汛期分期 中的初步
应 用原 理 。本文 则 在 此 基 础上 , 统 地 提 出 3种 汛 系
Vn. 3 No 6 12 . De .2 0 0 6 c
文章编号 :0 15 8 (0 6 0 —0 70 10 —4 5 2 0 )60 2 —5
误差为单位根过程的非参数回归模型均值变点的检测

中图分类号: 22 O 1. 1
文献标识码: A
1 引言
变 点是用来描述函数或信号 的突然局部变化 ,在故障诊 断、金 融、医学等方 面都有 大量的
应用【2 l】 , ,如故障信号 的识别 、汇率变 点的研究 、心 电图中的心律检测等 。变 点分析本质 上属 于数理统计和非线性时间序列范畴,它引起 了国内外众多学者的关注【 】 3 。 ,
摘 要: 基于多分辨分析的小波 分析通过检N4 波系数的绝对值来检测数据中的变点 。本文利用 小波方法 , 和极 限定理对噪声为单位根过程的非参数 回归模型均值变 点进行检测。在原假设成立的条件下得 到任意尺度上检验的临界值 ,证 明检验 的一致性 ,并且给 出小波系数的阈值 。在备择假 设成立的
假设 1 () fx 为未知非参数回归函数,变点个数、位置及跳跃度都是未知的,而变点个数
的上 限 m 是 已知 的 。
假设2 i () U = 岛=∑ 一 ,其中{ } 1 J 满足∑ o歹 l 。 { , =12… ) o0I <。, e i ,, 是独 仁 i 立 同分布 随机变量序列,满足 E(t =0 D(t = e) , e) <∞。
,
() J ( u , J =2/ 2 一 ) 。 J ∈N, Fra bibliotek∈Z
函数 ,的连续小波变换如下
/ ( ,u u J N ∈ . ,札 k ) , ∈ , ) (d Z
当给 定离 散数 据集 Y = ( , , ) ,可 利用 与连 续 小波变 换 相对应 的离散 小波 变换 得 … 时
第2卷 第4 7 期
2 l 年0 月 0O 8
工
程
数
学
学
报
变点理论统计分析方法应用试例

变点理论统计分析方法应用试例摘要:变点是模型中突然发生变化的某个或某一些量变化的点。
研究突变点,通常能够发现事物的某种质的变化,差异基因表达检测就是寻找基因表达谱数据中样本数据相对于正常组样本数据有过表达的有变化的现象。
该文探讨变点理论的统计方法在差异基因表达检测中的应用。
关键词:变点理论统计方法差异表达基因检测中图分类号:p618.13 文献标识码:a 文章编号:1674-098x (2013)03(b)-0-02变点是是模型中突然发生变化的某个或某一些量发生变化的点。
研究突变点,通常能够发现事物的某种质的变化[1]。
随着科学发展,在临床医学上分析癌症病理时,通常都要挖掘基因表达谱数据中是否存在过高或者过低表达的“过表达”数据,也就是致癌基因表达值反映出来的突变点。
差异表达基因检测就是研究单基因水平的基因表达谱数据,从而发现不同环境实验条件下过表达的致癌基因。
1 基于变点理论的统计方法国外对于变点的研究中涉及比较早的是突变点,渐变式变点的研究也有一些成果。
针对位置参数模型,有人提出了变点的最小二乘法的估计。
中国科学院院士陈希孺教授认为:变点分析是数理统计以及非线性时间序列的范畴,统计判断变点问题,能够分析估计量的性质[1]。
变点问题涉及的模型主要有三种情况,即均值有突然变化的均值变点、回归系数有突然变化的回归变点和实践的概率有突然变化的概率变点。
变点问题中,可以是一系列的样本观察值按一定次序的先后排列,也可以是空间中的位置或者界面[2]。
因此,在研究基因表达谱数据中差异表达基因时,通常是研究在一系列样本值中有突然变化的一个或者多个均值变点。
设是独立随机变量,f1 和f2为两个不相等的连续分布函数,使得x1,…,xr iid.~f2,xr+1,…,xn iid.~f2。
则r(1<r < n)或r/n(记为t0)为序列的变点[3]。
变点理论把统计控制理论、估计和假设检验理论、非贝叶斯方法和贝叶斯方法结合起来,通过研究统计推断问题,对估计量的性质进行了统计分析,在医学、金融、工业自动控制等领域都有大量的应用[1]。
计量经济学简答题及答案2

计量经济学简答题及答案2计量经济学简答题及答案1、⽐较普通最⼩⼆乘法、加权最⼩⼆乘法和⼴义最⼩⼆乘法的异同。
答:普通最⼩⼆乘法的思想是使样本回归函数尽可能好的拟合样本数据,反映在图上就是是样本点偏离样本回归线的距离总体上最⼩,即残差平⽅和最⼩∑=ni i e 12min 。
只有在满⾜了线性回归模型的古典假设时候,采⽤OLS 才能保证参数估计结果的可靠性。
在不满⾜基本假设时,如出现异⽅差,就不能采⽤OLS 。
加权最⼩⼆乘法是对原模型加权,对较⼩残差平⽅和2i e 赋予较⼤的权重,对较⼤2i e 赋予较⼩的权重,消除异⽅差,然后在采⽤OLS 估计其参数。
在出现序列相关时,可以采⽤⼴义最⼩⼆乘法,这是最具有普遍意义的最⼩⼆乘法。
最⼩⼆乘法是加权最⼩⼆乘法的特例,普通最⼩⼆乘法和加权最⼩⼆乘法是⼴义最⼩⼆乘法的特列。
6、虚拟变量有哪⼏种基本的引⼊⽅式? 它们各适⽤于什么情况?答: 在模型中引⼊虚拟变量的主要⽅式有加法⽅式与乘法⽅式,前者主要适⽤于定性因素对截距项产⽣影响的情况,后者主要适⽤于定性因素对斜率项产⽣影响的情况。
除此外,还可以加法与乘法组合的⽅式引⼊虚拟变量,这时可测度定性因素对截距项与斜率项同时产⽣影响的情况。
7、联⽴⽅程计量经济学模型中结构式⽅程的结构参数为什么不能直接应⽤OLS 估计?答:主要的原因有三:第⼀,结构⽅程解释变量中的内⽣解释变量是随机解释变量,不能直接⽤OLS 来估计;第⼆,在估计联⽴⽅程系统中某⼀个随机⽅程参数时,需要考虑没有包含在该⽅程中的变量的数据信息,⽽单⽅程的OLS估计做不到这⼀点;第三,联⽴⽅程计量经济学模型系统中每个随机⽅程之间往往存在某种相关性,表现于不同⽅程随机⼲扰项之间,如果采⽤单⽅程⽅法估计某⼀个⽅程,是不可能考虑这种相关性的,造成信息的损失。
2、计量经济模型有哪些应⽤。
答:①结构分析,即是利⽤模型对经济变量之间的相互关系做出研究,分析当其他条件不变时,模型中的解释变量发⽣⼀定的变动对被解释变量的影响程度。
回归分析中的二阶段最小二乘法应用技巧(六)

回归分析中的二阶段最小二乘法应用技巧回归分析是一种常用的统计方法,用于研究自变量和因变量之间的关系。
在实际应用中,经常会遇到多重共线性、误差项的异方差性、模型的非线性等问题,这时候传统的普通最小二乘法可能无法有效估计模型参数。
为了解决这些问题,研究者们提出了许多改进的回归方法,其中二阶段最小二乘法是一种常用的方法。
本文将重点介绍二阶段最小二乘法的应用技巧。
一、二阶段最小二乘法简介二阶段最小二乘法是一种解决内生性问题的方法。
内生性是指自变量与误差项之间存在相关性,从而导致普通最小二乘法的估计结果出现偏误。
在这种情况下,使用二阶段最小二乘法可以得到更加准确的估计结果。
二阶段最小二乘法包括两个阶段。
在第一阶段,首先使用一个外生变量(instrumental variable)来估计内生变量的值。
在第二阶段,利用第一阶段得到的估计值,代入回归模型进行参数估计。
通过两个阶段的估计,可以有效解决内生性问题。
二、外生变量的选择在使用二阶段最小二乘法时,选择合适的外生变量非常重要。
外生变量必须满足两个条件:首先,外生变量与内生变量之间不能存在直接的影响关系;其次,外生变量与误差项之间也不能存在相关性。
只有满足这两个条件的外生变量才能有效地解决内生性问题。
在选择外生变量时,可以通过经济理论分析或者实证研究来确定。
比如,在研究教育对收入的影响时,家庭背景可能是一个内生变量,而父母的教育水平则可以作为外生变量。
通过这样的选择,可以有效地解决内生性问题。
三、异方差性的处理除了内生性问题外,回归分析中还经常会遇到误差项的异方差性问题。
异方差性是指误差项的方差不是恒定的,而是随着自变量的变化而改变。
这种情况下,普通最小二乘法的估计结果也会出现偏误。
为了解决异方差性问题,可以使用加权最小二乘法。
加权最小二乘法通过对观测值进行加权,使得不同观测值对估计结果的贡献与其方差成反比。
这样可以有效地消除异方差性带来的偏误。
四、模型的非线性在实际应用中,回归模型往往会存在非线性关系。
matlab中的偏最小二乘法(pls)回归模型,离群点检测和变量选择

matlab中的偏最小二乘法(pls)回归模型,离群点检测和变量选择【实用版】目录一、偏最小二乘法(PLS)简介二、PLS 回归模型的实现三、离群点检测方法四、变量选择方法五、实例应用六、模型评估与优化正文一、偏最小二乘法(PLS)简介偏最小二乘法(PLS)是一种多元统计数据分析方法,于 1983 年由S.Wold 和 C.Albano 等人首次提出。
PLS 实现了在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
与 PCA 方法相比,PLS 不仅解决了自变量共线性的问题,还考虑了自变量主元对于因变量变化的解释作用。
二、PLS 回归模型的实现在 MATLAB 中,可以通过调用 pls.m 函数建立 PLS 回归模型。
该函数返回一个包含成分列表的对象 PLS。
在构建模型时,需要对数据进行预处理,包括去除离群点和选择重要变量。
三、离群点检测方法离群点是指数据集中与其它数据点显著不同的点。
在 PLS 回归模型中,离群点可能会对模型的性能产生负面影响。
为了识别和处理离群点,可以采用以下方法:1.基于残差的方法:通过计算数据点预测残差并与某个阈值进行比较,判断该数据点是否为离群点。
2.基于距离的方法:计算数据点到其它数据点的距离,根据距离阈值判断是否为离群点。
3.基于聚类的方法:对数据集进行聚类分析,将距离聚类中心较远的点视为离群点。
四、变量选择方法在 PLS 回归模型中,变量选择是为了找到对因变量影响最大的自变量。
常用的变量选择方法包括:1.逐步回归法:从特征集开始,每一步根据某种准则(如 VIF、R 方等)移除一个特征,直到满足停止条件。
sso 回归法:在回归模型中添加 L1 惩罚项,使得部分系数变为0,从而实现变量选择。
3.主成分分析(PCA):将原始变量映射到新的主成分上,选择主要成分作为新变量,减少变量数量。
五、实例应用本文以基准近红外数据为例,建立 PLS 回归模型,并采用离群点检测和变量选择方法进行数据预处理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第37卷 第6期2009年11月河南师范大学学报(自然科学版)J our nal of H enan N or mal Univer sity (N atur al Science ) Vol.37 N o.6 N ov.2009 文章编号:1000-2367(2009)06-0007-04最小二乘法对多变点检验的性能研究张学新1,段志霞2(1.中南财经政法大学信息学院,武汉430060;2.济源职业技术学院基础部,河南济源459650)摘 要:给出了衡量最小二乘法识别多变点能力的方法,模拟研究了最小二乘法对不同数据生成过程的多变点检测效果,指出了最小二乘法的适用性,最后应用最小二乘法检测了中国主要经济部门的GDP 变点.关键词:最小二乘法;多变点检验;单位根过程;蒙特卡罗模拟中图分类号:C812文献标识码:A数据生成过程的结构突变是指系统受到诸如金融危机,体制变化等剧烈的外力冲击而发生的突然变化,是系统对外界条件的光滑变化而做出的突然响应,常见的有均值突变,频率突变,趋势突变,方差突变.突变分析,尤其是带单位根过程的突变分析是国内外比较热门的课题,各种变点检验的方法也在不断涌现.目前的研究大多集中于前述常见类型的突变,国外见文献[1-6],国内主要是各种方法在气候,交通等领域的应用,见文献[7-9]等.其中有些统计方法是有缺陷的,如用滑动t ,滑动F 检测法检测均值突变时,经常会检测到一些虚假的突变点,主要问题是不能确定突变的研究通常涉及到的非独立随机变量的分布.最小二乘法也是处理变点问题中使用较多的一种方法,它以观察值与理论值之差的平方和作为目标函数,以其达到极小值之点作为有关参数的点估计,其优点是对随机误差的分布不需要作特定的假设.国内文献鲜见研究最小二乘法识别多变点的性能,国外至多用最小二乘法讨论了误差为线性过程时一个未知均值变点的估计问题(见前述文献中的JushanBai).本文通过模拟对最小二乘法识别多变点的性能做较为详尽的研究.1 均值变点的最小二乘法估计设离散的模型是X i =a i +e i ,e i ~iid ,E(e i )=0,Var (e i )= 2,i =1, ,n,a m j =a {m j +1= =a m j +1-1=b j+1,j =0,1 ,q.这里q 是事先给定的变点个数,可以取充分大以满足实际要求,或者通过其它方法粗略估计得到.1=m 0<m 1< <m q <=n,m q +1=n+1,定义m i 是一个变点,当b i+1 b i 时,且在该点跃度是b i+1 b i .令T =T (m 1 ,m q ,b 1 ,b q+1)=!q+1j=1!m j -1i=m j-1(x i -b j )2,极小化它,求出未知的m 1 ,m q ,b 1 ,b q+1的估计值.易见,当固定m 1, ,m q 时,上式在b j =X m j-1+X m j-1+1+ +X m j -1m j -m j-1时达到最小值,因此极小化目标函数T =T(m 1 ,m q )=!q+1j=1!m j -1i=m j -1(x i -X m j-1+X m j -1+1+ +X m j -1m j -m j-1)2即可.引理1 设两序列X m , ,X i-1与X i , ,X n 的算术平均数分别为 X i 1, X i 2,则当(i-m)∀(n-i+1)最大时,S i =!i-1t=m (X t - X i 1)2+!nt=i (X t - X i 2)2达到最小.引理2 设序列X m , ,x n ,S i =!i-1t=m (X t - X i 1)2+!n t=i (X t - X i 2)2,S *=min (S m+1, ,S n ),C =收稿日期:2009-05-20作者简介:张学新(1966-),男,湖北宜城人,中南财经政法大学博士研究生,研究方向:概率论与数理统计方法应用.S *(2ln ln (n -m +1)+ln ln ln (n -m +1)-ln ( )-2ln (-0.5ln (1- )))n -m +1-2ln ln (n -m +1)-ln ln ln (n -m +1)-2.4,当S -S *>C 时,认为变点存在,且该检验有渐近水平 .引理2由文献[10]推广得到,用它检验变点存在与否.一旦确认存在变点,则遵循以下步骤极小化目标函数[10]:(1)取定一组初始值m 1, ,m q ,1=m 0<m 1< <m q <=n,m q+1=n +1;(2)在约束条件1<m 1<m 2下,求m 1,使第一,二两项之和W 12=!m 1-1i=1(x i -X 1+ +X m 1-1m 1-1)2+!m 2-1i=m 1(x i -X m 1+ +X m 2-1m 2-m 1)2达到最小,记所得的m 1为m #1;(3)在约束条件1<m 1<m 2<m 3下,求m 2,使第二,三两项之和W 23=!m 2-1i=m #1(x i -X m #1+ +X m 2-1m 2-m #1)2+!m 3-1i=m 2(x i -X m 2+ +X m 3-1m 3-m 2)2达到最小,记所得的m 2为m #2这样继续下去,得到一组新值m #1<m #2< <m #q ;(4)把它们作为初始值回到第一步,继续下去得到一组新值m ##1<m ##2< <m ##q ,再回到第一步,一直继续这个过程,直到新值与上一次的值完全相同时为止,记最后所得的值为m ^1, ,m ^q ,它就是变点m 1, ,m q 的估计.此时T 的最小值记为T q =T(m ^1, ,m ^q ).实际应用时变点个数q 是未知的,但总可取充分大的q 作为上限,再设定一个比1稍大的值比如1.1,找出使T k T q 1.1成立的最大的k,把它作为q 的估计.能用图像等方法预先设定更好.2 最小二乘法的性能比较研究2.1 衡量最小二乘法检验性能的方法统计假设检验时,由于样本的随机性,可能会犯两类错误,第二类错误是指当原假设H 0不真时,样本观测值没有落入拒绝域W ,从而没有拒绝原假设H 0.把不犯第二类错误的概率1-!称为检验的功效.在原假设(∃没有变点%)H 0:b 1=b 2= =b q +1下,变点估计(m ^1, ,m ^q )的分布是什么,目前理论上尚无答案,也就没有用精确的置信系数和置信区间估计来评价检验功效的办法.现引入欧氏距离d =&MM ^ &,其中M(m 1, ,m q )是真实变点的位置,M ^(m ^1, ,m ^q )是它的估计值.显然d 越小越好.选取∀,设定蒙特卡洛模拟次数N ,计算变点的估计落在区间d ∀的次数N rec ,则最小二乘法的识别能力(性能)可定义为:Pow er =N rec N.若取∀=1,2,22,其含义分别是点M ^(m ^1,m ^2)与点M(m 1,m 2)的对应坐标,一个完全相同,另一个只相差1;两个各相差1,或一个相同,另个相差2;两个都相差2.这种误差,在应用上可以容忍.下面做模拟研究,为方便,考虑两个变点情形,多个变点情形完全类似.2.2 不同数据生成过程的变点检验为比较,设定所有模拟次数均为1000次,取3段数据个数各n =50,总个数n =150,真实变点设为M(51,101),当误差标准差为1时,跃度是0.1,意指约为误差标准差的35%.若非声明,以下所说的结果都指模拟结果,且是针对∀=4(d 42)而言.均值突变 数据生成过程是X i =a i +e i ,e i ~iidU(-0.5,0.5),i =1,2,3,取a 1=0.1,a 2=0.2,a 3=0.3,结果只有4%,究其原因,是在每个变点处的跃度太小,数据近似平稳过程.但是使其他条件不变,只把每个变点处的跃度提高到约为误差标准差的70%,则结果提高到36%,假若跃度再提高到约为误差标准差的138%,则结果提高到87%.类似的,取数据生成过程是X i =a i +e i ,e i ~iid N (0,1),i =1,2,3,仍然使每个变点处的跃度依次约为误差标准差的35%,70%,138%(a 1=0.1,a 2=1.485,a 3=2.87),则结果依次为不超过5%,提高到29%,提8河南师范大学学报(自然科学版) 2009年高到88%以上.可见,最小二乘法的检验功效与各个信噪比|a i+1-a i |有很大关系,与误差项的分布关系不大;各个变点处的跃度越大,d 越小; 越小,d 越小,最小二乘法的性能越好.方差突变 设数据生成过程是X i =a i +e i ,e 1~iid N (1,1),e 2~iid N (1,2),e 3~iid N (1,3),结果只有0.2%,最小二乘法的性能较差.不含时间趋势的截距突变的单位根过程 数据生成过程是y t =#0+y t-1+#1D U 1t +#2DU 2t +e t ,e t ~iid N (0, 2),其中D U 1t =I (t >T b 1),D U 2t =I (t >T b 2),分别代表在时点T b 1,T b 2均值(截距)发生突变,改变量分别是#1,#2.取#0=1, =1,每个变点处的跃度约为误差标准差的1.38倍(#1=1.485,#2=2.87),结果为0,究其原因,当数据生成过程为单位根过程时,用于检验的模型已不是均值突变模型,为此,应向均值突变模型转换,先对数据{X t }进行差分,然后再用最小二乘法检验,结果竟达到99%以上,两个估计点与真实位置的误差均不超过1(d 2)的结果亦达60%以上,这与前面的均值突变模型的检验结果较吻合.含时间趋势的截距突变的单位根过程 数据生成过程是y t =#0+∃0t+y t-1+#1DU 1t +#2DU 2t +e t ,e t ~iidN (0, 2),其中DU 1t =I (t >T b 1),DU 2t =I (t >T b 2)的含义同前.对此种模型的检验,先对差分序列作时间退势回归,再对残差作最小二乘检验.取#0=1, =1,∃0=0.5,每个变点处的跃约为误差标准差的138%,结果几乎为0,究其原因,参数估计值^∃0向右偏离真值较远(多数在0.54左右),当估计改进为^∃0=0.52时,重新做上述模拟,结果改善到65%以上.含时间趋势的截距和斜率双突变的单位根过程 数据生成过程是y t =#0+∃0t +y t-1+#1DU 1t +#2D U 2t +∃1{DT 1t *+∃2{DT 2t *2+e t ,e t ~iid N (0, 2),其中DT 1*t =(t-T b 1)DU 1t ,{DT 2*t =(t-T b 2)D U 2t ,分别代表伴随均值发生突变,在时点T b 1,T b 2上斜率也发生突变,改变量分别是∃1,∃2.若模型中e t 取成一般的ARM A (p ,q)过程,则意味着对趋势函数的冲击是渐进完成的,这可能更符合现实经济运行情况.若考虑加入!pj =1c j %y t-j 又得如下模型,y t =#0+∃0t +y t-1+#1DU 1t +#2DU 2t +∃1DT 1*t +∃2{DT 2*t +!pj=1c j %y t-j +e t ,各变量含义同前.这两种模型的斜率随时间变化,不宜对时间作退势回归了.结论 最小二乘法对均值变点模型较适用,运用于其他模型时须向此方面转化.3 实 例考虑对1952-2003年中国主要经济部门GDP 的变点检验.为真实可信,数据特别取自文献[11],各年GDP 的估计是农业,工业,建筑业,交通与通讯业,商业,非物质服务业的GDP 估计加总.以{y t }表示GDP 序列,在作回归系数的显著性检验后常数项,时间趋势项均被剔除,再作单位根检验得AR (2)模型 %2^y t =0.044y t-1-0.403%y t-1(3.27)(-2.45)R 2=0.175, AI C =24.88 SC =24.96 ADF =3.27 D.W =1.97,或者y ^t =1.642y t-1-0.5974y t-2,括号()内是t 值,对应的概率P 值分别是0.0020,0.0181,所有信息表明模型拟合得较好,(在建模过程中发现中国GDP 过程是近似含时间趋势的两个单位根过程,y ^t =-1360.655t+1.603y t-1-0.525y t-2,时间变量t 值及对应的概率P 值分别是-1.654,0.105,t 的显著性检验不能通过显得较为勉强,若原文的数据再长一些,结论应会改变).若直接对二阶差分序列{%2yt }作单位根检验,ADF =-3.26,对应的P 值是0.0017,在1%的检显著性水平下,拒绝原假设,也得到{y t }含有两个单位根的结论.用最小二乘法对{%2y t }变点检测:(任意)设想5年左右有一个变化,则52个数据至多有11断点,分别计算T i ,得(T 1,T 2, ,T 10,T 11)=(15.3,14.9,7.79,6.34,6.05,5.82,5.67,5.45,5.34,4.62,4.42)∀1010,取q 为使T k T 111.1成立的最大的k =9,得变点估计M ^(9,10,33,34,35,37,43,44,46),进一步确认,得M ^(9,33,35,37,44,46),对应的年份是1962,1986,1988,1990,1997,1999;若从{T k }下降的梯度何9第6期 张学新等:最小二乘法对多变点检验的性能研究10河南师范大学学报(自然科学版) 2009年时开始一直趋于平缓考察,则得到5个年份:1962,1964,1987,1990,1997,1999.这两个检测结果与当年的经济实际运行情况非常吻合.查历史文献可知,1962年是∃压缩支出,平衡预算,加强财政管理%年,是政府工作报告中提出∃必须用几年的时间幅度调整国民经济%年;1964年则是农业学大寨,是大搞农田基本建设的一年;1987年是把农村改革引向深入,强调∃深化企业改革,压缩过度膨胀的预算外投资规模和过高的非生产性投资%的一年,是进一步加快和深化改革的一年;1990年十三届七中全会召开,是∃企业改革为重点%,加∃积极稳妥地推进粮食流通体制的改革%的一年;1997年则是∃农业和农村工作要着力做好八个方面的工作%的一年,是提出%三个有利于%的所有制形式,∃调整和完善所有制结构,进一步解放和发展生产力%的一年,是以∃国有企业改革为经济体制改革的重点%的一年;1999年则是亚洲金融危机影响扩散的一年,也是中央加快中西部地区发展的一年.参 考 文 献[1] Bai J.Least squares estimation of a shift in lin ear p roces ses[J].Journal of Tim e Series Analysis,1994,15:453-472.[2] Per ron P.T es tin g for a U nit Root in a Time Series w ith a Changing M ean[J].J ournal of Busin ess an d Economic Statistics,1990,8:153-162.[3] LanneLann e M,L tkep oh l H,Saikk on en paris on of unit r oot tests for time s eries w ith level s hifts[J].J ou rnal of Tim e S eries A!nalysis,2002,23:667-685.[4] Saikk on en P,L tk epohl H.T esting for a un it root in a tim e s eries w ith a level s hift at un know n time[J].Econometric T heory,2002,18:313-348.[5] Lavielle M,M ou lines E.Least!squares estimation of an u nknow n numb er of shifts in a time s eries[J].Journal of Time Series Analysis,2000,21:33-59.[6] Clemen te J,M onta s A,Reyes M.Testing for a unit root in variables w ith a double change in th e mean[J].Economics Letters,1998,59:175-182.[7] 齐培艳,田 铮.噪声为单位根过程的非参数函数变点的小波检测[J].控制理论与应用,2009,26(1):57-61.[8] 张建军,周后福.合肥气温和降水的突变特征分析[J].安徽农业科学,2007,35(9):2724-2726.[9] 龚志强,封国林.非线性时间序列的动力结构突变检测的研究[J].物理学报,2006,55(06):3180-3186.[10] 陈希孺.变点统计分析简介[J].数理统计管理,1991,10(2):52-53.[11] 安格斯麦迪森.中国经济的长期表现:公元960-2030年[M].伍晓鹰译.上海:上海人民出版社,2008:158.S imulation Study on the Power of Least!squares Test for Detecting Multiple BreaksZH ANG Xue!xin1,DUAN Zhi!x ia2(rmation S chool,Zhongnan University of Economics and Law,W uhan430060,Ch ina;2.Department of Basic,J iyuan Vocational and Techn ical C ollege,Jiyuan459650,C hina)Abstract:In this paper,a no vel scheme to measure the pow er of least!squares test fo r checking mult iple br eaks is pr esen! ted as well it s a pplicability to v ario us stream data pr ocessing sy stems discussed firstly,A lso a co nclusio n is g iv en that L east Squa re method can be suitable for mean break model,that sig nal!to!no ise r atio clo sely related to the test pow er w ill be indicated too,Finally,the GD P breaks from China's major eco no mic secto rs ar e detected}.Keywords:the po wer of least!squar es;multiple br eaks test;unit r oot pr ocess;M onte Carlo simulation。