基于核估计的多变量非参数随机模型初步研究

合集下载

基于随机过程的时间序列预测方法研究

基于随机过程的时间序列预测方法研究

基于随机过程的时间序列预测方法研究随机过程是现代数学理论中的一个重要分支,在很多领域中都有广泛的应用,其中之一就是时间序列预测。

时间序列预测是指对某个连续变量在时间上的变化趋势进行预测,对于经济、金融、气象、医学等领域来说都有着重要的应用价值。

本文将对基于随机过程的时间序列预测方法进行探讨。

一、随机过程随机过程指的是一个随机变量序列,其每个元素均为随机变量。

通常我们假设t 为时间,X(t) 为随机过程在时间 t 的取值。

对于任意一对时刻 t < s,相应的随机变量 X(t) 与 X(s) 是随机独立的,因此随机过程可以看作是在不同时间上的相互独立的随机变量的集合。

在随机过程的研究中,我们通常考虑一些概率分布函数,如均值、方差、自相关函数、谱密度等,这些统计量可以帮助我们描述随机过程的特征和性质。

二、时间序列预测时间序列预测是利用过去的数据来预测未来的趋势,它在很多领域中都有广泛的应用。

预测模型通常建立在时间序列的一些特殊性质和统计规律的基础上,比如自相关、平稳性、时间序列分解等。

传统的时间序列预测方法主要包括滑动平均法、指数平滑法、ARIMA 模型等。

然而这些方法都是非参数估计,容易受到数据噪声、缺失等因素的干扰,因此需要更复杂的模型和更多的技巧来提高预测的准确度。

三、随机过程在时间序列预测中的应用在时间序列预测中,随机过程可以为我们提供一些更高级的工具和框架。

下面我们主要介绍两个基于随机过程的时间序列预测方法。

1、状态空间模型状态空间模型是一种用于描述动态系统的模型,其中每个系统状态的转移是随机的。

状态空间模型的基本假设是,真实状态由一个向量表示,该向量由大致相同分布的噪声和其他未知因素决定。

状态空间模型通常用卡尔曼滤波器进行预测。

它可以将一个仅由当前时刻状态值和随机噪声构成的状态序列,转化为一个同时包含隐含状态和对应观测值的序列。

通过不断地更新和提炼状态的估计值,我们可以得到做出可靠的未来预测的可能性。

27_有限样本情况下的计量经济模型

27_有限样本情况下的计量经济模型

有限样本情况下的计量经济模型第一部分有限样本的定义与特性 (2)第二部分计量经济模型介绍 (4)第三部分有限样本对模型的影响 (7)第四部分模型稳健性检验方法 (11)第五部分估计方法的选择与比较 (15)第六部分有限样本下的假设检验 (18)第七部分实证研究案例分析 (20)第八部分改进模型与未来展望 (23)第一部分有限样本的定义与特性有限样本情况下的计量经济模型是一种广泛应用在实际经济问题研究中的工具。

当数据集的规模受到限制时,这些模型能够帮助我们从理论上和实践上对经济现象进行更深入的分析。

首先,我们要了解什么是有限样本。

在统计学中,样本是指从总体中抽取的一小部分观察值,用来代表整个总体的特性。

而在实际应用中,由于资源、时间或成本的限制,我们通常只能获取到一个有限的样本。

这个样本可能是包含数百个观察值的小型数据集,也可能是包含数千甚至数万观察值的大型数据集。

然而,无论样本大小如何,只要它不是包含了所有可能的观察值的总体,我们就将其称为有限样本。

那么,在有限样本情况下,计量经济模型有哪些特性呢?下面我们将从几个方面来探讨这个问题。

1.估计误差:由于我们只拥有关于总体的一部分信息,因此使用有限样本构建的模型会产生估计误差。

这种误差可以通过增加样本容量来减小,但是无法完全消除。

2.模型偏差:有限样本可能会导致模型参数的偏误。

例如,在线性回归模型中,如果存在异方差性或者多重共线性等问题,就可能导致参数估计结果偏离真实值。

3.假设检验:在有限样本情况下,我们需要对模型的假设进行谨慎的检验。

因为样本量较小,一些假设(如正态性、独立性等)可能并不成立。

如果不加以处理,这些假设不满足的情况将会影响模型的可靠性。

4.预测能力:对于有限样本的模型来说,其预测能力往往会受到限制。

特别是在样本容量较小的情况下,模型的预测性能往往不稳定,容易受到异常值的影响。

为了应对有限样本带来的挑战,我们需要采取一些策略来提高模型的质量。

核密度估计和非参数回归

核密度估计和非参数回归

核密度估计和⾮参数回归你可能听说过核密度估计(KDE:kernel density estimation)或⾮参数回归(non-parametric regression)。

你甚⾄可能在不知不觉的情况下使⽤它。

⽐如在Python中使⽤seaborn或plotly时,distplot就是这样,在默认情况下都会使⽤核密度估计器。

但是这些⼤概是什么意思呢?也许你处理了⼀个回归问题,却发现线性回归不能很好地⼯作,因为特性和标签之间的依赖似乎是⾮线性的。

在这⾥,核回归(kernel regression)可能是⼀种解决⽅案。

在这篇⽂章中,我们通过⽰例,并试图对内核估计背后的理论有⼀个直观的理解。

此外,我们还看到了这些概念在Python中的实现。

核回归图1:全球⾕歌搜索“chocolate”;x轴:时间,y轴:搜索百分⽐让我们从⼀个例⼦开始。

假设你是⼀个数据科学家,在⼀家糖果⼯⼚的巧克⼒部门⼯作。

你可能想要预测巧克⼒的需求基于它的历史需求,作为第⼀步,想要分析趋势。

2004-2020年的巧克⼒需求可能类似于图1中的数据。

显然,这是有季节性的,冬天的需求会增加,但是由于你对趋势感兴趣,你决定摆脱这些波动。

为此,你可以计算窗⼝为b个⽉的移动平均线,也就是说,对于每⼀个时刻t,你计算从t-b到t+b的时间段内需求的平均值。

更正式地说,如果我们有⼀段时间内观察到的数据X(1),…,X(n),即⼀个时间序列,窗⼝为b的移动平均值可以定义为从下图(图2)中可以看出,移动平均值是原始数据的平滑版本,平滑程度取决于带宽。

带宽越⼤,函数越平滑。

图2:窗⼝带宽为6、24和42的移动平均;x轴:时间,y轴:搜索百分⽐带宽的选择⾄关重要,但不清楚如何选择带宽。

如果带宽太⼩,我们可能⽆法摆脱季节性波动。

如果带宽太⼤,我们可能⽆法捕捉到趋势。

例如,如果我们选择带宽b = 0,则具有原始数据及其季节性。

相反,如果b = n,我们仅获得所有观测值的平均值,⽽看不到任何趋势。

核密度估计

核密度估计

kernel density estimation是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。

Ruppert 和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。

核密度估计在估计边界区域的时候会出现边界效应。

在单变量核密度估计的基础上,可以建立风险价值的预测模型。

通过对核密度估计变异系数的加权处理,可以建立不同的风险价值的预测模型。

[1]由给定样本点集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。

解决这一问题的方法包括参数估计和非参数估计。

参数估计又可分为参数回归分析和参数判别分析。

在参数回归分析中,人们假定数据分布符合某种特定的性态,如线性、可化线性或指数性态等,然后在目标函数族中寻找特定的解,即确定回归模型中的未知参数。

在参数判别分析中,人们需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。

经验和理论说明,参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距,这些方法并非总能取得令人满意的结果。

由于上述缺陷,Rosenblatt和Parzen提出了非参数估计方法,即核密度估计方法.由于核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,因而,在统计学理论和应用领域均受到高度的重视。

一些比较常用的核函数是:均匀核函数k(x)=1/2,-1≤x≤1 加入带宽h后:kh(x)=1/(2h),-h≤x≤h 三角核函数k(x)=1-|x|,-1≤x≤1 加入带宽h后:kh(x)=(h-|x|)/h^2,-h≤x≤h 伽马核函数kxi(x)=[x^(α-1)exp{-xα/xi}]/[(xi/α)^α.Γ(α)]1)基本原理:核密度估计的原理其实是很简单的。

环境污染对重庆市城乡居民收入差距的影响——基于半参数工具变量模型的分位数回归估计

环境污染对重庆市城乡居民收入差距的影响——基于半参数工具变量模型的分位数回归估计

EXPERIENCE区域治理环境污染对重庆市城乡居民收入差距的影响*——基于半参数工具变量模型的分位数回归估计重庆工商大学数学与统计学院 左思静摘要:半参数模型既含有参数分量,又含有非参数分量,比单纯的参数模型具有更强的解释性和灵活性。

但在分析实际问题时,数据往往含有内生变量,如果忽略内生变量的影响,则会造成估计有偏。

因此本文针对含有内生性解释变量的半参数回归模型,使用了基于工具变量的半参数模型的分位数回归估计探究了环境污染对重庆市城乡居民收入差距的影响,并选取年降水量作为工具变量。

分析结果表明:环境污染对重庆市城乡居民收入差距产生正向的影响,即环境污染越严重重庆市城乡居民收入差距越大;城市的对外开放度越大,则城乡的贫富差距越大,当开放地达到一定程度时,此趋势将会趋向缓和。

关键词:半参数模型;工具变量;分位数回归;内生变量中图分类号:O212.7 文献标识码:A 文章编号:2096-4595(2020)39-0014-0003近些年来随着我国经济的不断发展,中国也逐渐成长为世界的第二大经济体。

而经济的发展必定离不开工业的发展,那么环境污染势必是一个逃不开的话题,因此,有关于经济的发展与生态环境之间如何维护平衡,是近些年所需要重点关注的一项工作。

近些年来,响应国家“绿水青山就是金山银山”的号召,“禁塑令”等多种相关政策的出台也表明了如若不加以控制,环境问题将会愈来愈严重。

此外多项国家政策的出台也说明了国家在关注我国经济发展的同时对于解决环境污染也是刻不容缓,因为良好的生态环境势必会助力我国经济发展势如破竹般节节顺利,同样生态环境失衡也必将阻碍经济的发展。

金山、银山、绿水、青山都必须同步跟进,无论谁落下了脚步,对国家乃至世界的损害都是无法抹灭的,因此研究环境污染与经济之间存在的关系刻不容缓。

对于经济发展与环境之间存在的关系这一热门话题,也引得许多学者纷纷对其进行研究。

譬如陈华文和刘康兵[1]研究了经济增长与环境之间存在的某种关系,其结论表明了经济增长初期会造成环境质量恶化,在通过响应国家环境保护等相关政策的方法后,发现后期的经济增长对环境的污染状况有一定程度的改善。

Copula函数的非参数估计方法

Copula函数的非参数估计方法

Copula函数的非参数估计方法柳明珠;周天涛【摘要】非参数方法是概率统计学的一个分支。

核密度估计在估计边界区域的时候会出现边界效应。

我们证明了所给出的非参数条件核密度估计hn*(m,n)的一致强相合性。

%The non-parametric methodis a branch of probability statistics. Kernel density estimation will appear the boundary effect when estimating border region. This article proved the strong consistency of the given non-parametric condition kernel density estimation hn*(m,n).【期刊名称】《价值工程》【年(卷),期】2015(000)025【总页数】2页(P214-215)【关键词】非参数估计;Copula函数密度;条件核密度估计【作者】柳明珠;周天涛【作者单位】咸宁职业技术学院,咸宁437100;咸宁职业技术学院,咸宁437100【正文语种】中文【中图分类】F830本文根据核密度估计方法不利于和有关数据分布的先验知识,因此将一些数据分布不增设其他的假设,那就是一些从基本数据样本本身出面来研究数据分布估算特征的办法,经过对核密度估计变化系数进行加权处理,就应该建立不同的风险投资价值的假设模型。

参数估计一般应该分成参数回归分析法和参数判别分析法。

为了解释此个问题的现有的方法含有参数估计法和非参数估计法,对参数回归一系列的分析中。

非参数方法是概率统计学的一个分支,通常在一个统计课题中,如果确定或者假定了全体分布的清晰形式,并且其中含有一系列参数,要从来自全体的样本对这些参数做出的一系列估算或进行某种形式的假定检测,这种推理的方法称为非参数方法。

非参数估计方法

非参数估计方法

非参数估计方法张煜东;颜俊;王水花;吴乐南【摘要】为了解决函数估计问题,首先讨论了传统的参数回归方法.由于传统方法需要先验知识来决定参数模型,因此不稳健,且对模型敏感.因此,引入了基于数据驱动的非参数方法,无需任何先验知识即可对未知函数进行估计.本文主要介绍最新的8种非参数回归方法:核方法、局部多项式回归、正则化方法、正态均值模型、小波方法、超完备字典、前向神经网络、径向基函数网络.比较了不同的算法,给出算法之间的相关性与继承性.最后,将算法推广到高维情况,指出面临计算的维数诅咒与样本的维数诅咒两个问题.通过研究指出前者可以通过智能优化算法求解,而后者是问题固有的.【期刊名称】《武汉工程大学学报》【年(卷),期】2010(032)007【总页数】8页(P99-106)【关键词】参数统计;非参数统计;核方法;局部多项式回归;正则化方法;正态均值模型;小波;超完备字典;前向神经网络;径向基函数网络【作者】张煜东;颜俊;王水花;吴乐南【作者单位】东南大学信息科学与工程学院,江苏,南京,210096;哥仑比亚大学精神病学系脑成像实验室,纽约州,纽约,10032;东南大学信息科学与工程学院,江苏,南京,210096;东南大学信息科学与工程学院,江苏,南京,210096;东南大学信息科学与工程学院,江苏,南京,210096【正文语种】中文【中图分类】O212.70 引言函数估计[1]是一个经典反问题,一般定义为给定输入输出样本对,求未知的系统函数[2].传统的方法为参数方法,即构建一个参数模型,再定义某个误差项,通过最小化误差项来求解模型的参数[3].参数方法尽管较为简单,但不够灵活.例如参数模型假设有误,则会导致整个求解流程失败[4].因此学者们发展出不少新技术,非参数估计就是其中一项较好的方法.该方法无需提前假设参数模型的形式,而是基于数据结构推测回归曲面[5].本文首先研究了经典的2种参数回归方法:最小二乘法与内插函数法,分析了它们的不足,然后主要讨论8种非参数回归方法:核方法、局部多项式回归、正则化方法(样条估计)、正态均值模型、小波方法、过完全字典、前向神经网络、径向基函数网络,尤其详细介绍了其间的相关性与继承性.最后,研究了高维情况下面临的计算维数诅咒与样本维数诅咒.1 回归模型考虑模型yi=r(xi)+εi(1)式(1)中(xi,yi)为观测样本,假定误差ε具有方差齐性,则r=E(y|x)称为y对x的回归函数,简称回归.一般地,可以假设x取值在[0,1]区间内.定义“规则设计”为xi=i/n(i=1,2,…, n).并定义风险函数为(2)式(2)中为系统函数r的估计.回归一词源于高尔顿(Galton),他和学生皮尔逊(Pearson)在研究父母身高和子女身高的关系时,以每对夫妇的平均身高为x,取其一个成年儿子的身高为y,并用直线y=33.73+0.512x来描述y与x的关系.研究发现:如果双亲属于高个,则子女比他们还高的概率较小;反之,若双亲较矮,则子女以较大概率比双亲高.所以,个子偏高或偏矮的夫妇,其子女的身高有“向中心回归”的现象,因此高尔顿称描述子女与双亲身高关系的直线为“回归直线”[6].然而,并非所有的x-y函数均有回归性,但历史沿用了这个术语.更为精确的表达是“函数估计”.2 传统方法理论上描述一个函数需要无穷维数据,因此函数估计本身也可称为“无穷维估计”[7].传统的估计方法有下列两种极端情形.2.1 最小二乘法此时假设采用最小二乘法计算权值β=(β0,β1),得到的解为最小二乘估计[8],(3)则对给定样本点的估计可写为(4)这里Y=(y1,y2,…,yn)T.L=X(XTX)-1XT称为帽子矩阵[9].以5个样本点的一维规则设计矩阵为例,此时(5)L满足L=LT,L2=L.另外,L的迹等于输入数据的维数p,即trace(L)=p.这里输入数据是一维的,所以trace(L)=1.2.2 内插函数法此时对不加任何限制,得到的是该数据的一个内插函数[10].同样以5个样本点的一维规则设计矩阵为例,由于样本点的估计完全等于(y1,y2,…,yn)T,所以帽子矩阵为(6)2.3 两种方法的缺陷图1给出了这两种极端拟合的示意图,数据是被高斯噪声干扰的正弦函数,采用上述两种方法拟合,结果表明:最小二乘法过光滑,未展现数据内部的关系;而内插函数法忽略了噪声影响,显得欠光滑.从帽子矩阵也可看出,式(5)表明最小二乘法对每个数据的估计都利用了所有样本,这显然导致过光滑,且x值越大的数据权重越大,这明显与经验不符;反之,式(6)表明内插函数法仅仅利用了最邻近的样本数据,这显然导致欠光滑.图1 两种极端拟合Fig.1 Two extreme fitting2.4 非参数回归的优势非参数回归(non-parametric regression)作为最近兴起的一种函数估计方法,是一种分布无关(distribution free)的方法,即不依赖于数据的任何先验假设.与此对应的是参数回归(parametric regression),通常需要预先设置一个模型,然后求取该模型的参数.非参方法的本质在于:模型不是通过先验知识而是通过数据决定.需要注意的是,“非参数”并不表示没有参数,只是表示参数的数目、特征是可变的(flexible).由于非参方法无需数据先验知识,其应用范围较参数方法更广,且性能更稳健.其另一个优点是使用过程较参数方法更为简单.然而,它也存在缺点,一般结构更复杂,需要更多的运算时间.2.5 线性光滑器需要说明的是,最小二乘法、内插函数法、核方法、正则化方法、正态均值模型均是线性光滑器.定义为:若对每个x,存在向量l(x)=[l1(x),…,ln(x)]T,使得r(x)的估计可写为(7)则估计为一个线性光滑器[11].显然权重li(x)随着x而变化,这与信号处理中的“自适应滤波器”非常相似.3 核回归核方法[12]定义为(8)权重li由式(9)给出(9)这里h是带宽,K是一个核,满足K(x)≥0,以及(10)常用的核函数见表1.表1 常用的核公式Table 1 Frequently-used kernel formula核公式boxcarK(x)=0.5∗I(x)GaussianK(x)=12πexp-x22()EpanechnikovK(x)=34(1-x2)I(x)TricubeK(x)=7081(1-|x|3)3I(x)以boxcar核为例,帽子矩阵为(11)显然,这可视作最小二乘法与内插函数法的折中.为了估计带宽h,首先必须估计风险函数,一般可采用缺一交叉验证得分(12)这里为未用第i个数据所得到的估计,使CV最小的h,即为最佳带宽.为了加速运算,可将式(12)重新写为(13)这里Lii是光滑矩阵L的第i个对角线元素.另一种方法是采用广义交叉验证法,规定(14)这里v=tr(L).4 局部多项式回归采用核回归常会碰到下列2个问题[13]:1)若x不是规则设计的,则风险会增大,称为设计偏倚(design bias);2)核估计在接近边界处会出现较大偏差,称为边界偏倚(boundary bias).为了解决这2个问题,可采用局部多项式回归.局部多项式回归[14]可视作核估计的一个推广,首先定义权函数ωi(x)=K[(xi-x)/h],选择来使得下面的加权平方和最小(15)利用高等数学知识,可以看出解为(16)可见式(16)正好是核回归估计.这表明核估计是由局部加权最小二乘得到的局部常数估计.因此,若利用一个p阶的局部多项式而不是一个局部常数,就可能改进估计,使曲线更光滑.定义多项式(17)则局部多项式的思想是:选择使下列局部加权平方和(18)最小的a,估计依赖于目标值x,最终有(19)当p等于0时,等于核估计;当p=1时,称为局部线性回归(local linear regression)估计[15],由于其算法简单且性能优越,较为常用.5 基于正则化的回归为了描述方便,这里假设数据点为[(x0,y0),(x1,y1),…(xn-1,yn-1)].在风险函数(2)后增加一项惩罚项,一般设为r(x)的二阶导数(20)λ控制了解的光滑程度:当λ=0时,解为内插函数;当λ→∞时,解为最小二乘直线;当0<λ<∞时,是一个自然三次样条.需要注意下列事项:首先三次样条表示曲线在结点(knot)之间是三次多项式,且在结点处有连续的一阶和二阶导数;其次一个m阶样条为一个逐段m-1阶多项式,所以三次样条是4阶的(m=4);第三,自然样条表示在边界点处二阶导数为0,即在边界点外是线性的;第四,样条的结点等于数据点.为了加速计算,将数据点重新排序,假设a,b为样本点x的上下界,令a=t1≤t2≤…≤tn-1=b,这里t是x重新排序后的点,称为结点.可用B样条基(B-spline basis)[16]作为该三次样条的基,即(21)Pi称为控制点,共n-m个,形成一个凸壳.n-m个B样条基可通过如下计算,首先初始化:(22)然后对i=1,逐步+1,直到i=m-1,重复迭代下式:(23)若结点等距,则称B样条是均匀的(uniform),否则称为不均匀.如果两个结点相等,计算过程会出现0/0情况,此时默认结果为0.令矩阵B的第(i, j)元素bij=bj(xi),矩阵Ω的第(i, j)元素则控制点可由式(24)求得P=(BTB+λΩ)-1BTY(24)可见,样条也是一个线性光滑器.表面上看,基于核的估计与基于正则化的估计原理与模型均不一致,但是Silverman证明了如下定理,样条估计可视作如下所示的一种渐近的核估计(25)式中,f(x)是x的密度函数.(26)(27)显然,若样本x是规则设计,则f(x)=1, h(x)=(λ/n)1/4=h,li(x)∝K[(xi-x)/h],即此时样条估计可视作形如式(27)的渐近核估计.6 正态均值模型令φ1,φ2,…为一个标准正交基,则显然r(x)可以展开为定义(28)则随机变量Zj是正态分布,且均值与方差满足:E(Zj)=θj V(Zj)=σ2/n(29)可见,若估计出θ,则可近似求得因此正态均值模型将n个样本的函数估计问题转换为估计n个正态随机变量Zj的均值θ的问题[17].若直接令则显然得到一个很差的估计,下面给出风险更小的估计.首先,必须做出一个关于的风险估计,Stein给出下列定理:令为θ的一个估计,并令则的风险的一个无偏估计为(30)式中且D的第(i, j)个元素为g(z1,…,zn)的第i个元素关于zj的偏导数[18].假设式中b称为调节器,根据b的设置,存在下列3种情况:①b=(b,b,…,b),称为常数调节器(constant modulator),此时令式(30)最小的称为James-Stein估计;②b=(1,…,1,0,…,0),称为嵌套子集选择调节器(nested subset selection modulator),此时令式(30)最小的称为REACT方法.需要注意的是,若基选择傅立叶基,则该方法类似于频域低通滤波器方法.③b=(b1,b2,…,bn)满足1≥b1≥b2≥…≥bn≥0,称为单调调节器(monotone modulator),该方法理论最优,但是需要的运算量太大,几乎不实用.7 小波方法小波方法[19]适用于空间非齐次(spatially inhomogeneous)函数,即函数的光滑程度随着x会有本质性的变化.它可视作正态均值模型的推广,但存在两点区别:一是采用小波基代替传统的正交基,因为小波基较一般的正交基具有局部化的优点,能实现多分辨率分析;另一点是采用了一种称为“阈”的收缩方式.不妨假定父小波为φ,母小波为ψ,同时规定下标(j, k)的意义如下:fj,k(x)=2j/2f(2jx-k)(31)为了估计函数r,用n=2J项展开来近似r,(32)这里J0是任取常数,满足0≤J0≤J.α称为刻度系数,β称为细节系数.那么如何估计这些系数?首先计算(33)(34)Sk、Djk分别称为经验刻度系数与经验细节系数,可知Sk≈N(αj0,k,σ2/n),Djk≈N(βj,k,σ2/n),可估计方差为|∶k=0,…,2J-1-1)/0.6745(35)然后根据可得α与β的估计如下:(36)β的估计形式稍许复杂,采用硬阈与软阈的方式分别为(37)(38)之所以采用阈的形式,是因为稀疏性(sparse)的思想[20]:对某些复杂函数,在小波基上展开时系数也是稀疏的.因此,需要采用一种方式来捕获稀疏性.然而,传统的L2范数不能捕捉稀疏性,相反,L1范数与非零基数能够较好地捕捉稀疏性.例如,考虑n维向量a=(1,0,…,0)与b=(1/n1/2,…,1/n1/2),有‖a‖2=‖b‖2=1,可见,L2范数无法区分稀疏性.反之,‖a‖1=1,‖b‖1= n1/2,因此,L1范数能提取稀疏性;另外,若令非零基数为J(θ)={#(θi≠0)},则J(a)=1,J(b)=n,因此,非零基数也能提取稀疏性.最后,在正则化估计中若惩罚项分别为L1范数或非零基数,则最优估计恰好对应着软阈估计与硬阈估计.最后,需要解决阈估计中λ的计算问题,这里介绍两种最简单的方式:一是通用阈值(universal threshold),即对所有水平的分辨率阈值均一致,(39)另一种是分层阈值(level-by-level threshold),即对不同分辨率采用不同阈值,一般是通过最小化下式求得(40)式中nj=2j-1为在水平j的参数个数.8 超完备字典小波基较标准正交基的改进在于更加局部化,因此能实现对跳跃的捕捉.然而,虽然小波基非常复杂,但面对各种复杂的函数还是不够灵活.这种缺陷的根源在于:小波基是标准正交基,任意两个基函数之间正交,这保证了基函数简单完整的同时,也丧失了灵活性.基追踪(basis pursuit)方法[21]的思想是采用一种超完备(overcomplete)的基,例如对“光滑加跳跃”的函数,传统的傅立叶基能够捕捉光滑部分,但是难以捕捉跳跃部分;采用小波基能轻易捕捉跳跃部分,但是描述光滑部分较为困难.此时若将“傅立叶基”与“小波基”合并成一个新的基,则显然这种基能够轻松地估计“光滑加跳跃”函数.但是,这种新的基不再正交,它以牺牲正交性来获得更好的灵活性[22],故此时用“字典”来描述更精确,而本文为了简便统一仍采用“基”表述.9 前向神经网络以一个双层神经网络为例,记网络的输入神经元个数为m, 隐层神经元个数为n,输出层神经元个数为q,则网络结构如图2所示.图2 前向神经网络Fig.2 Forward neural network与上面几节线性方法不同的是,神经网络属于非线性统计数据建模(nonlinear statistical data modeling),其隐层暗含了“特征提取”的思想,且可视作输入数据在一种“自适应的非线性非正交的基”上的映射.同样地,此时基牺牲了正交性、线性、不变性,增加了计算负担,但换来了更加强大的灵活性[23].简而言之,前向神经网络采用了类似基追踪的方法[24],但基是自适应变化的、非线性的,因此更加灵活.前向神经网络与基追踪相似之处在于,两者的基都不是正交的,都是根据给定数据而自适应选取的最佳基.前向神经网络的优势在于无不需预选字典,字典在算法中自动生成,并可作为特征选择的一种方法.10 径向基函数网络首先观察径向基函数(RBF)神经元如图3所示.图3 RBF神经元图Fig.3 Neuron of RBF图中输入向量p的维数为R,首先p与输入层权值矩阵IW相减,然后求距离函数dist,再与偏置b1相乘,最后求径向基函数radbas(n)=exp(-n2),得到神经元的输出为a=radbas(‖IW-p‖b1)(41)整个RBF网络由两层神经元组成,第1层为S1个如图3所示的RBF神经元,第2层为S2个线性神经元,如图4所示.在第2层开始时,第1层的输出a首先经过线性层权值矩阵LW后与偏置b2相加,再通过一个纯线性(purelin)函数purelin(n)=n,得到网络输出y为y=purelin(LW×a+b2)(42)图4 RBF神经网络结构图Fig.4 Structure of RNN比较式(41)与式(9)可见,RBF网络与核方法非常类似,不同之处在于RBF网络的LW需要通过求解一个方程组,而核方法的权重是直接通过归一化计算求得,因此RBF网络预测结果更为逼近完全内插函数估计(注意不是未知函数r),而核方法计算更为简便[25].11 维数灾难将函数估计推广到高维,则会碰到维数诅咒(curse of dimensionality)[26](图5),它意味着当观测值的维数增加时,估计难度会迅速增大.维数诅咒有两层含义:一是计算的维数诅咒,指的是某些算法的计算量随着维数的增长而成指数增加.解决方法通常采用优化算法,例如遗传算法、粒子群算法、蚁群算法等[27].二是样本的维数诅咒,指的是数据维数为d时,样本量需要随着d指数增长.在函数估计中,第二层含义更为重要,这里给予详细解释.图5 样本的维数诅咒示意图Fig.5 Dimensionality curse of samples假设一个半径r维数为d的超球,被一个边长为2r维数为d的超立方体所包围,假设超立方体内存在一个均匀分布的点,则由于超球的体积为2rdπd/2/[dΓ(d/2)],超立方体的体积为(2r)d,因此该点同时也落在超球内的概率P为(43)令维数d由2逐步增长到20,则对应的概率P如图6所示.显然,当d=20时,P 仅为2.46×10-8.因此,若在2维空间中1个样本在半径r的意义下能逼近一个正方形,则在20维空间内,则需要1/2.46×10-8=4.06×107个样本才能在半径r的意义下逼近超立方体.图6 概率P与维数d的关系Fig.6 The curve of probability P against dimensionality d因此,在高维问题中,由于数据非常稀少,导致局部邻域中包含极少的数据点[28],因此估计变得异常困难.目前还没有较好的办法解决.12 结语将文中阐述的方法归结并示于图7.图7 非参数回归方法Fig.7 Survey of non-parametric regression methods不同类型方法的特点总结如下:a. 核方法、正则化方法、正态均值模型可以视作最基本最原始的方式.另外,正则化方法与正态均值模型可视作一类特殊的核方法.b. 核方法、局部多项式方法、正则化方法、正态均值模型、小波等方法在大多数情况下均非常类似.这些方法都包含了一个偏倚-方差平衡,所以都需要选择一个光滑参数.由于这些方法均是线性光滑器,所以均可以采用第4节中基于CV、GCV的方法.c. 小波方法一般面向空间非齐次函数.如果需要一个精确的函数估计,而且噪声水平较低,则小波方法非常有效.但若面对一个标准的非参数回归问题,而且感兴趣于置信集,则小波方法并不比其它方法明显更好.d. 超完备字典缺陷是丧失了基的正交性,因此估计系数变得复杂;优点是更为灵活,能够采用稀疏的系数描述复杂函数.e. 前向神经网络与RBF神经网络是基于不同的模型独立推导出来的,二者不可混淆.另外,神经网络方法的缺点是一般不考虑置信带,并常用训练误差代替风险函数,容易过拟合;优点是面向应用、思想简单且设计灵活.f. 理论上,这些方法没有大的差别,特别在用置信带的宽度来评价时.每种方法都有其拥护者与批评者,没有哪一种方法目前获得应用上的优势.一种解决方案是对每个问题都利用所有可行的方法,如果结果一致,则选择简单者;如果结果不一致,则必须探讨内在的原因.g. 所讨论的方法能够用于高维问题,然而,即使通过智能优化算法解决了计算的维数诅咒,仍然面对样本的维数诅咒.计算一个高维估计相对容易,然而该估计将不如一维情况下那么精确,其置信区间会非常大.但这并不表示方法失效,而是表示问题的固有困难.参考文献:[1]Neumeyer N.A note on uniform consistency of monotone function estimators [J]. Statistics & Probability Letters,2007,77(7):693-703[2]Sheena Y,Gupta A K.New estimator for functions of the canonical correlation coefficients [J]. Journal of Statistical Planning and Inference,2005,131(1):41-61.[3]张煜东,吴乐南,李铜川,等.基于PCNN的彩色图像直方图均衡化增强[J].东南大学学报,2010,40(1):64-68.[4]詹锦华.基于优化灰色模型的农村居民消费结构预测[J].武汉工程大学学报,2009,31(9):89-91.[5]Wasserman L. All of Nonparametric Statistics [M].New York:Springer-Verlag, Inc.[6]张煜东, 吴乐南, 吴含前.工程优化问题中神经网络与进化算法的比较[J].计算机工程与应用,2009,45(3):1-6.[7]Hansen C B.Asymptotic properties of a robust variance matrix estimator for panel data when T is large [J].Journal of Econometrics,2007,141(2):597-620.[8]Pokharel P P, Liu W F, Principe J C.Kernel least mean square algorithm with constrained growth [J].Signal Processing,2009,89(3):257-265.[9]Kalivas J H.Cyclic subspace regression with analysis of the hat matrix [J].Chemometrics and Intelligent Laboratory Systems,1999,45(1):215-224.[10]张煜东,吴乐南.基于二维Tsallis熵的改进PCNN图像分割[J].东南大学学报:自然科学版,2008,38(4):579-584[11]Geçkinli N C, Yavuz D.A set of optimal discrete linearsmoothers[J].Signal Processing,2001,3(1):49-62.[12]Antoniotti M,Carreras M,Farinaccio A,et al.An application of kernel methods to gene cluster temporal meta-analysis [J].Computers & Operations Research,2010,37(8):1361-1368.[13]Hsieh P F,Chou P W,Chuang H Y.An MRF-based kernel method for nonlinear feature extraction [J].Image and VisionComputing,2010,28(3):502-517.[14]Katkovnik V.Multiresolution local polynomial regression:A new approach to pointwise spatial adaptation [J].Digital Signal Processing,2005,15(1):73-116.[15]Baíllo A,Grané A.Local linear regression for functional predictor and scalar response [J].Journal of Multivariate Analysis,2009,100(1):102-111.[16]Zhang J W,Krause F L.Extending cubic uniform B-splines by unified trigonometric and hyperbolic basis [J].Graphical Models,2005,67(2):100-119.[17]张煜东,吴乐南,韦耿,等.用于多指数拟合的一种混沌免疫粒子群优化[J].东南大学学报,2009,39(4):678-683.[18]Chaudhuri S,Perlman M D.Consistent estimation of the minimum normal mean under the tree-order restriction [J].Journal of Statistical Planning and Inference,2007,137(11):3317-3335.[19]Labat D.Recent advances in wavelet analyses:Part 1.A review of concepts[J].Journal of Hydrology,2005,314(1):275-288.[20]Kunoth A.Adaptive Wavelets for Sparse Representations of Scattered Data[J].Studies in Computational Mathematics,2006,12:85-108.[21]Donoho D L, Elad M.On the stability of the basis pursuit in the presence of noise[J].Signal Processing,2006,86(3):511-532.[22]Malgouyres F.Rank related properties for Basis Pursuit and total variation regularization [J].Signal Processing,2007,87(11):2695-2707. [23]张煜东,吴乐南,韦耿.神经网络泛化增强技术研究[J].科学技术与工程,2009,9(17):4997-5002.[24]屠艳平,管昌生,谭浩.基于BP网络的钢筋混凝土结构时变可靠度[J].武汉工程大学学报,2008,30(3):36-39.[25]Zhang Y D,Wu L N,Neggaz N, et al.Remote-sensing Image Classification Based on an Improved Probabilistic NeuralNetwork[J].Sensors,2009,9:7516-7539.[26]Aleksandrowicz G,Barequet G.Counting polycubes without the dimensionality curse [J].Discrete Mathematics,2009,309(13):4576-4583. [27]张煜东,吴乐南,奚吉,等.进化计算研究现状(上)[J].电脑开发与应用,2009,22(12):1-5.[28]王忠,叶雄飞.遗传算法在数字水印技术中的应用[J].武汉工程大学学报,2008,30(1):95-97.。

非参数解集模型在月径流随机模拟中的应用

非参数解集模型在月径流随机模拟中的应用

核 密 度 估 计 既 与样 本 有 关 , 与核 函数 (・) 带 宽 系 数 又 及
文序列相依结构和概率 密度 函数形 式作某种假 定后用有 限个
参数 来 描 述 , 为 参 数 解 集 模 ( a m tcdsgrgtnr d 称 Pr e i i geao o— a r a i o
设单 变量 相 依 时 间序 列 } 依 赖 于前 P个 值 ,,




取 = (
, , ) 则 的条件概率密度 … ,
函数 为 J

笔 者 应 刚非 参 数 解 集 模 进 行 陕 北 地 区刘 家 河 站 月 径 流 随机 模 拟 , 以期 为该 地 水 资 源 利用 提 供 依 据 。 式 中 函数 。 用 核密 度 法 估 计 式 ( ) 3:
式中:() K ・ 为核函数, K 山 =1^ 满足I () ; 为带宽( ad ih Bnwd ) t
系数 ( 也称 窗宽系数 )n ; 为样本容量; 为 的 d× 维对称样本 s d 协方差矩阵 。 d:1 , ( ) 当 时 式 1 为一维 , , 中 为样本 S= 其
均方 差 。
第3 2卷第 8期
21 0 0年 8 1




Vo . 2. 1 3 No. 8 A g 2 0 u .,01
YELL OW RI VER
【 文 ・ 沙】 水 泥
非参数解集模型在月径流随机模拟中的应用
谢 萍萍 , 宋松 柏
( 西北农林科技大学 水利 与建筑工程学院, 陕西 杨凌 7 20 ) 1 10
数解 集 模 型 应用 于月 径 流 随 机模 拟 并 取 得 了 良好 的效 果 ; 鹏 袁 等 将 _ 参数 解 集模 型 应 用 于 金 沙 江 流 域 屏 山 站 汛 期 E径 流 1 | t
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于核估计的多变量非参数随机模型初步研究 王文圣1,丁晶1 (1.四川大学 水利水电学院,四川 成都 610065)

摘要:本文基于核估计理论构造了多变量非参数模型。该模型是数据驱动的、不需识别和假定序列相依形式和概率分布形式的一类随机模型,克服了多变量参数模型的不足。实例统计试验表明,建议的多变量非参数模型是有成效的,为随机水文学发展提供了一些新思路。 关键词:核估计;多变量非参数模型;随机模拟;实用性检验 中图分类号:P333.9 文献标识码:A

流域水资源的开发利用,不仅需要单站水文信息,而且需要流域内各站的水文信息。进行多站水文序列模拟的一个重要手段就是建立多站(变量)随机模型。目前,多变量随机模型[1]比较成熟的有自回归模型和解集模型。这两类模型的共同点是用有限个参数的线性函数关系描述水文现象。因此简便实用,能表征水文序列的统计特性和一般变化规律,但缺点也明显:①水文序列是一时间不可逆过程,而参数模型描述的是可逆过程,因此大多数参数模型难以反映其涨落不对称性;②水文现象受流域下垫面、人类活动、气候等多因素影响而变化错综,是一个高度复杂的非线性系统,而多数参数模型仅能表征变量及变量之间的线性相依结构,忽略了占据重要位置的非线性性;③水文变量概率密度函数复杂且未知,某一指定概率分布与真实分布存在着差异。如图1、2所示,正态分布、P-Ⅲ型分布都与直方图相差甚远,但χ2检验并不拒绝P-Ⅲ型分布和正态分布;而核估计和k最近邻估计与直方图比较接近。即概率分布具有不确定性;④模型参数由于抽样误差和估计方法不同具有不确定性。

为克服参数模型之不足,文献[2]提出了单变量非参数模型,径流模拟表明是满意的。在此基础上,本文基于核估计理论构造了多变量非参数模型。该模型避开了序列相依形式和模型结构的假设,不涉及模型参数估计,能反映各种复杂关系,较参数模型优越。以中国金沙江流域屏山站和宜宾—屏山区间两站日流量过程随机模拟为例,对建议模型进行了应用研究。

1 核估计理论[3] 1.1 多维核估计定义 设X为d维随机变量,X1,X2,……Xn为X的一样本。X的概率密度函数f(X)的核估计定义如下:

(1) 式中:X=(x1,x2,…,xd)T,Xi=(xi1,xi2,…,xid)T(i=1,2,…,n);K(·)为核函数,是一给定概率密度函数;h为带宽系数;n为样本容量;S是X的d×d维对称样本协方差矩阵。

1.2 核估计精度评价 核估计既同样本有关,又与K(·)和h的选取有关。在给定样本后,核估计的精度取决于K(·)及h的选取是否适当。常采用积分均方误差准

则 进行度量。MISE由偏差和方差组成。当K(·)固定时,若h选得过大,偏差较大,但降低了方差,故(X)对f(X)有较大的平滑,使得f(X)的某些特征被掩盖起来;若h选得过小,偏差减小了,但增大了方差,则(X)有较大的波动。显然同时减少偏差和方差是不可能的。

图1 屏山站1月31日流量概率密度估计 图2 宜-屏区间7月径流量概率密度估计(图例见图1) 1.3 K(·)和h的确定 依潘涅契科夫[4]和Scott[5]通过统计试验发现,当给定带宽系数,不同核函数对MISE的影响是很小的。实际工作中,选择满足一定条件的核函数即可[2]。本文采用标准高斯函数。 h随n增大而减小。h的确定还要考虑数据的密集程度,在数据密集区,h选小一点;在数据稀疏区,h选大一点。h的具体计算方法很多。这里使用LSCV法。LSCV是基于积分平方误差(Integrated Square Error(ISE))最小准则的一种计算方法。对多维随机变量X,ISE为:

(2) 式(2)中最后一项与h无关。LSCV就是取式(2)中前两项进行最小化,即 (3)

式中:当LSCV(h)最小时,h即为所求。 2 基于核估计的多变量非参数随机模型 2.1 模型建立 所谓多变量,可以是同一测站的几个水文变量,也可以是不同测站上的一种或几种变量。设{Xt}n(t可以是年,也可以是季、月、日)为多变量相依时间序列,Xt依赖于前P个值Xt-1,Xt-2,…,Xt-p,取Vt=(Xt-1,Xt-2,…,Xt-p)T,Xt的条件概率密度函数为:

(4) (4)式中: ,m为变量个数, 为j变量t时刻水文变量值;f(Xt,Vt)为m(P+1)维联合密度函数,fV(Vt)为mP维边缘密度函数。 由多维核估计知 (5) (6) 其中 (7) 式中:S为(Xt,Vt)的样本协方差矩阵;SX为Xt的m×m阶对称样本方差阵;SXV为Xt

与Vt的m×mP阶样本协方差阵;SV为Vt的mP×mP阶对称样本方差阵。Vi=(Xi-1,Xi-2,…,

Xi-p)T,Xi=(x(1)i,x(2)i,…,x(m)i)T,Vi和Xi(i=P+1,P+2,…n)来自实测样本。 当det(SV)≠0时(一般满足),S可分解为:

设SX-SXVS-1VSTXV=A,则S可作如下变化: (8)

(9) 将式(8)、(9)代入式(5)整理得: (10)

再将式(6)、(10)代入式(4)可得: (11) 其中, (12)

由式(11)知,条件密度函数(Xt/Vt)是n-P个m维高斯函数(均值向量Bi,方差矩阵C)的加权(权重为Wi)平均和。用式(11)可随机模拟Xt,其模拟式为: Xt=Bi+DEt (13) 式中:D为m×m阶标准差矩阵,C=DDT;Et是均值0,方差1的m维独立高斯随机变量。在条件Vt下,模拟序列Xt是来自条件概率密度函数式(11)的一个样本。到此,多变量P阶非参数模型建立完毕。

2.2 模型阶数P的确定 在K(·)给定后,建立非参数模型的关键是寻求最优h和确定P。P可由AIC准则确定。

2.3 模型算法 算法:①从实测资料中构造Xi和Vi(i=P+1,P+2,…,n);②计算协方差矩阵S;③给Vt赋初值;④给定Vt,由式(12)计算抽样概率Wi;⑤以概率Wi抽样Xi;⑥按式(13)模拟Xt;⑦给Vt重新赋值,转向第④步,继续模拟;满足模拟数时停止。

3 多变量非参数随机模型在日流量随机模拟中的应用 3.1 流域及资料情况 溪洛渡水电站的修建不仅要涉及自身的防洪安全,而且还要兼顾下游城市宜宾的安危,因此研究溪洛渡洪水(屏山站)和宜宾—屏山区间(简称宜-屏区间)洪水将至关重要。屏山站有48年(1940~1987)日流量过程,宜-屏区间日流量由岷江高场站实测日流量(1940~1987)按面积比获得。以上述两站日流量过程为例尝试将多变量非参数随机模型用于径流随机模拟研究,以检验该类模型的可行性和有效性。

3.2 模型建立 (i=1,2,…,48;j=1,2,…,365)表示屏山站、宜-屏区间日流量。计算各截口(天)斜方差矩阵S,建立各截口两变量非参数模型。经计算,P=1,汛期(5月1日~10月31日)h=0.532,非汛期(11月1日~次年4月30日)h=0379。构造各截口对应的Xi,Vi。当j≥2时,Xi=(),Vi=( )T(i=1,2,…,48);当j=1时,Xi=()

Vi=( )T(i=2,3,…,48)。由模型算法便可对屏山站日流量和宜-屏区间日流量同时进行随机模拟。

3.3 模型检验 建立各截口两变量非参数模型,随机模拟100个模拟样本(模拟样本容量与实测样本相同),用短序列法[1]对模型进行实用性检验。

3.3.1 日流量过程截口统计参数检验 截口统计参数有截口均值、S、Cv、Cs、滞时1、2的自相关系数R1,R2和最大值(Max)、最小值(Min)。统计了各统计量在不同站(区)不同模型情况下,在两个均方差检验标准下的通过率,结果载于表1。表中显示截口各统计参数的通过率是很理想的,表明各模型能很好地反映实测日流量过程的截口统计特性。

表1 截口各统计参数通过率(%) 站名 均值 S Cv Cs R1 R2 Max Min 屏山 宜-屏 100 97.3 100 100 97.8 100 87.5 98.4 100 100 100 100 100 96.7 98.9 91.8

3.3.2 时段量统计参数检验 检验时段有1、3、7、15、30d共5种,检验参数有时段量均值、Cv、Cs。成果载于表2中,可以看出:均值、Cv、Cs几乎都控制在一个均方差检验标准下。可见模型对各站(区)时段量统计参数都保持得很好。

3.3.3 月径流统计参数检验 为进一步验证模型的实用性,本文对5~10月径流统计参数进行了检验。成果载于表3中。该表显示:除极个别Cs控制在两个均方差检验标准下外,其余都控制在一个均方差检验标准下。说明各模型能保持好月径流统计参数。

3.3.4 年最大日流量季节性变化检验 分别模拟4800年日流量过程,统计年最大日流量在各月出现的百分比,载于表4。由表4看出,各模型能反映各站(区)年最大日流量季节性变化特性。

表2 时段洪量统计参数实用性检验 站名 时段洪量 W1日/108m3 W3日/108m3 W7日/108m3 W15日/108m3 W30日/108m3 参数 均值 Cv Cs 均值 Cv Cs 均值 Cv Cs 均值 Cv Cs 均值 Cv Cs

山 样本 14.8 0.24 0.79 42.9 0.23 0.78 93.4 0.23 0.89 182 0.22 0.87 321 0.22 0.79

模 均值 14.9 0.23 0.50 43.0 0.23 0.53 93.8 0.23 0.58 183 0.22 0.42 327 0.22 0.30

相关文档
最新文档