基于时间窗的自适应核密度估计运动检测方法

基于时间窗的自适应核密度估计运动检测方法
基于时间窗的自适应核密度估计运动检测方法

第32卷第3期通信学报V ol.32No.3 2011年3月Journal on Communications March 2011 基于时间窗的自适应核密度估计运动检测方法

周恩策,刘纯平,张玲燕,龚声蓉,刘全

(苏州大学计算机科学与技术学院,江苏苏州 215006)

摘 要:在对非参数核密度估计算法改进的基础上,针对远程视频监控中存在前景检测不够精确、实时性低等问题,提出了用于自适应背景更新的基于像素时间信息窗的核密度估计(TIW-KDE)算法,该算法充分利用时间轴上的前景帧的信息,自适应地将背景划分为动态背景区域和非动态背景区域,对动态背景区域用改进的非参数核密度估计算法进行更新,对非动态背景区域采用渐进式算法更新,有效解决了非参数核密度估计算法在背景更新时引起的背景污染和计算量大问题。实验结果表明,该算法在提高前景检测精确性的前提下,在处理实时性方面得到很大提高。

关键词:核密度估计;时间信息窗;前景检测;自适应背景更新

中图分类号:TP391.4 文献标识码:B 文章编号:1000-436X(2011)03-0106-09 Foreground object detection based on time information

window adaptive kernel density estimation

ZHOU En-ce, LIU Chun-ping, ZHANG Ling-yan, GONG Sheng-rong, LIU Quan

(Department of Computer Science and Technology, Soochow University, Suzhou 215006, China)

Abstract: There exist some problems, such as imprecise foreground object detection and lower real-time in remote video monitoring. Based modified non-parametric kernel density estimation, a new algorithm using time information win-dow-kernel density estimation (TIW-KDE) was proposed for adaptive background updating. The algorithm, which took full advantage of the information on the foreground frames along the time line, divided the background into dynamic background region and non-dynamic background region. For the dynamic background region, the algorithm used non-parametric kernel density estimation algorithm to update it, otherwise, the percent of background and current frame was used to progressively update the non-dynamic background region. This effectively settled the problems of back-ground dirt and decreases the complexity of computation in the background updating phase of the non-parametric kernel density estimation. The experimental results show that the algorithm improved the accuracy of the foreground object de-tection. Moreover, the algorithm also greatly improved the speed of the detection processing.

Key words: kernel density estimation; time information window; foreground object detection; adaptive background up-dating

收稿日期:2010-01-03;修回日期:2010-07-07

基金项目:国家自然科学基金资助项目(60873116, 61070223);江苏省自然科学基金资助项目(BK2008161, BK2009593, BK2009116)

Foundation Items: The National Natural Science Foundation of China (60873116, 61070223); The Natural Science Foundation of Jiangsu Province (BK2008161, BK2009593, BK2009116)

第3期 周恩策等:基于时间窗的自适应核密度估计运动检测方法 ·107·

1 引言

近年来,随着数字化处理、网络传输等网络通信技术的不断发展,远程网络视频监控系统势必将逐渐取代传统的监控系统而成为视频监控系统的主流。

从视频序列中分离出前景目标,是计算机视觉中的重要研究内容,在交通监测、人机交互、视频会议领域有着广泛的应用。背景减法是在摄像机静止条件下广泛应用的一种前景目标检测技术,具有概念清晰,不需要费时的光流场计算,速度比较快等优点,是当前计算机视觉领域的研究热点之一。

但随着研究不断的深入,对算法的要求也在不断的提高,特别是对较复杂场景情况下的前景检测。为此,研究人员提出了许多不同的方法。Colombari 等人把像素分布看作高斯分布,对背景

进行建模[1],

Stauffer 等人提出了基于混合高斯模型的背景差方法[2~4],针对高噪声的复杂背景,采用多个高斯分布描述像素过程,这类方法需要事先假定背景分布模型及进行模型参数估计和优化;Velastin 等人利用最近n 帧的中值作为背景模型[5],该方法在场景中存在多个运动目标或目标运动缓慢时,前景会污染背景;Oliver 等人提出背景特征化建模的方法[6],对较长时间内的背景图像数据进行主分量分析,利用主特征矢量张成的子空间描述背景,用当前图像与子空间的距离作为判决前景的

依据,取得了较好的效果,但需耗费大量内存,且检测精度低于混合高斯模型。对于复杂背景下运动弱小目标的检测,王博等人提出了根据不同像素点的时域起伏特性建立一个统一的模型来实现静态背景的移除[7],不过该方法在处理实时性上依赖于背景所占比例的大小,背景区域占的比例越小,则处理速度越慢;Elgammal 等人提出了基于核密度估计的非参数背景模型[8, 9],即对视频样本数据用核函数进行估计,选出概率密度最大的样本数据作为背景,该方法能够适应不同的场景,不同于GMM ,它充分利用最近的历史帧信息来表示背景模型,能够适应复杂的像素分布密度,克服像素值在短时间内频繁变化,因此能得到较准确的估计。不过由于采样样本中包含噪声且对图像非典型运动像素也进行了核密度估计,由此不可避免地造成计算量大,产生估计错误噪声等问题。

本文在Elgammal 等人[8, 9]的基础上,提出了一种基于像素时间信息窗的核密度估计前景检测算法。该方法利用分割出的前景帧信息,对每个像素维持一个时间信息窗,利用像素的时间信息窗中的信息有效的将所要更新的背景区域划分为动态背景区域和非动态背景区域,对满足条件的动态背景区域采用非参数核密度估计算法进行更新,在更新过程中引入假设检验判断样本分布,自适应的选取

核宽,有效地解决了估计的密度分布有毛刺出现或

图1 系统框架图

·108· 通 信 学 报 第32卷

过于平滑等现象;对满足非动态背景区域更新条件的背景区域采用渐进式方式进行更新,有效地去除了因光照变化引起的前景误判问题。同时对分割出的前景帧进行背景突变判断,若背景发生突变,则重新初始化背景。整个系统框架如图1所示。该方法保留了非参数核密度估计[8,9]能处理复杂背景及敏感度强的优点,且充分利用沿时间轴前景帧中的信息,自适应地对背景的不同区域采用不同的更新策略,有效解决了非参数核密度估计算法在背景更新时引起的背景污染和计算量大问题,并使核密度估计简单有效。

2 非参数核密度估计检测方法

视频序列中的每一像素取值可视为一个随机过程。由于场景的复杂性,背景密度分布不能简单的由一个单模态模型来完全描述,而且背景分布形式通常无法事先假设。因此,采用完全由视频数据来得到背景模型的核估计方法[8]非常适用于密度分布未知的计算机视觉问题分析。

设视频帧中有M 个像素点,每个像素点有N 个背景样本,则在时刻t ,视频帧中第i 个像素的像素值为()i x t ,该像素对应的第j 个背景样本的像素值

为,()i j x t ,则时刻t 像素i 的概率(())i P x t 可以通过

下式进行估计

,1

1(())(()())N

i i i j j P x t K x t x t N ==?∑ (1) 其中,K 为核估计子,假设K 服从正态分布,对于RGB 图像可以取R 、G 、B 分量做为特征值,如果它们相互独立,则N 个样本的概率之和为

2

(,)(,),,(()())211(())e i m i m j i m

x t x t d

N i j m P x t N

σ??

===

(2)

其中,d 为像素的特征维数,(,)()i m x t 为第i 个像素的第m 个特征值,,i m σ为第m 个特征的核宽。采用式(2)得到的概率如果满足

(())i f P x t T <

(3) 则

()i x t 为前景,其中T f 为整幅图像下的全局阈值。

3 自适应核密度估计运动检测

3.1 自适应核宽选取

核函数的核宽反映了单个样本对总体密度分布所做“贡献”的影响范围。在一定时间内采样的样本变化范围是有限的,且每个值都有成为背景的可能。样本值的变化范围越大说明每个样本应该在更大的范围内对总体密度分布有贡献,这时,核函数应该有较大的核宽;相反,样本值的变化范围越小,说明每个样本对总体密度分布的贡献相对集中,核函数应该具有较小的核宽。因此,用核密度估计算法进行背景更新时,选择合适的核宽[10,11]是非常重要的。

Ahmed Elgammal 、David Harwood [8]提出了一种用相邻样本的绝对差中位数m (MAD)来计算核宽的方法。其计算公式如下:

σ=

(4)

在动态背景区域,当背景像素沿时间轴的分布不是正态分布时,采用式(4)作为核宽估计顽健性更强。但是,在大多数情况下,非动态背景区域的背景像素沿时间轴呈现正态分布,此时,用样本方差来估计核函数核宽是最优估计。样本方差2σ可以由以下公式求得:

2

21

1()1N

i i x x N σ==??∑ (5) 图2(a)给出的是PETS2001上camera 视频序列

第900帧,像素点(169、148)位于图中白色圆点中,在895~910帧和975~1015帧期间,该像素点

对应样本集平稳波动,符合正态分本,此时用式(5)

能得到较小的核宽,如图2(b)所示;在910~975帧

(a) camera 序列第900帧

(b) 核宽选取比较

图2 本文算法与文献[8]算法核宽比较

第3期 周恩策等:基于时间窗的自适应核密度估计运动检测方法 ·109·

期间,由于静止的汽车开始移动,导致样本集波动幅度较大,不符合正态分布,此时用式(4)作为核宽更具合理性。

因此,若对背景像素沿时间轴的分布进行正态分布检验,区别分布形式,采用最合适的核宽估计公式,就可以获得更好的背景分割结果。本文对将要进行更新的背景像素点沿时间轴所获取的背景样本,进行数理统计上的偏度、峰度检验,以此判断所取样本是否近似拟合正态分布,若近似为正态分布,则选取式(5)来计算σ,否则选用式(4)来计算。

3.2 自适应背景更新策略

在室内或室外,图像序列内的场景会随着时间的推移发生许多变化。其中,比较明显的是光照亮度变化和背景物体移动。对于前者,背景图像会随光线而变化,与新引进的前景物体相混淆。对于后者,当物体移入或移出场景中,或者背景中的物体发生变化,如果变化持续很长时间,就需要修改背景模型。

为了更新背景模型,本文提出的策略是为图像中每一个像素点设置一个时间信息窗口,用于记录如下信息:最近N 个采样值、前景点比率f F 、像素点处于观察状态的持续时间f T 、像素未发生变化的持续时间g T 、像素点处于观察状态不需要更新的时间间隔u T 。其中,前景点比率是指N 个采样值中被判定为前景点的次数所占的比例。时间信息窗中各参数大小依据具体实验环境而定,若对于运动物体具有快速移动速度的高速公路等环境,处于观察状态像素点的持续时间f T 和像素点不需要更新的时间间隔u T 应较小,相对而言,若在运动物体缓慢移动的社区等环境,观察状态持续时间f T 和像素点不需要更新的时间间隔u T 应设的相对大些。 3.2.1 非动态背景区域自适应更新策略

设C ()I i 、B ()I i 分别为像素i 的当前帧和背景帧

的像素值,利用当前帧和背景帧之间的信息,采用

如下公式来统计像素未发生变化的连续帧数

g C B g ()1,()()()0, T i I i I i T T i ?+?

(6) 其中,g ()T i 为第i 个像素没有发生变化的帧数,阈

值T 由图像的噪声决定,当帧计数g ()T i 满足式(7),

就认为背景未发生大的变化,只需要渐进地来更新对应位置的背景像素值,其中α为更新速率。

B C g g B B (1)()(), ()()(), I i I i T i T I i I i αα?+=??=?

??其他

(7)

由于只是对非动态背景区域的像素进行渐进

更新,有效的解决了光照亮度变化引起的全局噪声以及物体移入或移出场景时造成的拖影和背景局部污染问题;同时避免背景快速更新时将前景轮廓更新到背景中的问题。

3.2.2 基于时间信息窗的动态背景区域自适应更新

策略 非参数核密度估计[8]虽然可以解决背景物体变前景和前景物体变背景等问题,但是其在学习阶段直接将视频序列像素值作为样本,而在实际应用中,学习时视频序列包含运动物体,这种做法势必将前景物体的取值也作为背景点计算进去,使得前景点包含在背景样本中导致误检,同时其对每个像素都进行了核密度估计计算,使得估计阶段计算量大,实时性不好,还容易导致对有些非典型运动像素估计错误,产生了大量的噪声。

不同于文献[8],本文利用像素的时间信息窗来对动态背景区域进行实时有效的更新。当f F A >时,像素点处于观察状态v S ,

此时像素点取值呈现较大波动,需要进一步观察,模型停止更新。如果该状

态持续时间f T 大于设定的间隔u T ,

就可以判定发生了光照亮度变化或移入移出新的物体等情况,背景

发生了变化,则自动根据最近的N 个采样值1X ,2X ,3X ,…,n X 利用式(1)进行背景模型更新。其中阈值A 根据图像分割的虚警率来设定。

由此可以看出,自适应背景模型更新算法能够根据像素点沿时间轴的动态信息决定背景模型是否需要更新。利用自适应背景模型就可以将运动物体从背景中分割出来。 3.2.3 突变背景的检测

利用3.2.1节和3.2.2节的方法虽然能更新背景模型,但是当发生因外界因素导致摄像头抖动偏移而导致背景突变时,需要快速地响应这种变化。本文通过对每幅新进图像中被检测为前景的像素个数进行累积,来统计背景中发生变化的范围,当它的个数超过整幅图像像素总数70%时,则立即用当前帧开始后的N 帧图像来更新背景模型中的样本,

保证背景模型得到及时的更新,否则仍采用上述方

法来更新背景。

3.2.4 算法步骤 1) 读入N 帧图像,对每个样本用式(1)进行非

·110·通信学报第32卷

参数核密度估计,取最大值用于背景建模,得到参考背景图像。

2) 读入视频帧,与参考图像进行背景差分,分割出前景图像。

3) 根据分割出的前景判断背景是否发生突变,若是,返回第1)步,若没有,进行第4)步。

4) 根据分割出的前景,依次更新像素的时间信息窗,若该像素点信息满足式(7),则对该像素点背景区域进行渐进式更新;若该像素点信息满足3.2.2节所示的非动态背景更新条件,则对该像素点背景区域用式(1)进行更新;若都不满足,则不更新背景。

5) 返回第2)步,直至处理完所有的视频帧。4实验结果及分析

本文算法对选取的停车场、商场、小区监控等具有复杂环境的视频进行实验,实验环境为CPU/P4 3.0GHz,内存为512MB的PC机器。文中给出将本文算法与文献[8, 9]提出的非参数核密度估计算法在PETS(performance evaluation of tracking and sur-veillance) 2001的视频序列camera、由宁波高新区东方瑞华信息技术有限公司提供的小区监控视频和商场的Pedestrian sequences视频序列上进行的实验比较。所有实验训练阶段采样50帧,为了更好地更新背景来进行前景分割,背景差分时全局阈值T 取50,非动态背景区域更新率α取0.1,由于camera 序列为停车场环境,前景目标停留时间较短,所以像素点处于观察状态不需要更新的时间间隔

u

T设为200,而对于小区视频序列和Pedestrian sequences视频序列,目标可能停留时间较长,像素点处于观察状态不需要更新的时间间隔

u

T设为400。

4.1实验结果比较

4.1.1与文献[8]的非参数核密度估计算法比较

图3给出了TIW-KDE运动目标检测方法和参考文献[8]中的方法的结果对比,其中图3(b)和图3(e)的是由参考文献[8]中的方法得出的检测结果,图3(c)和图3(f)是本文所提出的TIW-KDE方法的检测结果。

从图3(b)可以看出,在PETS 2001的视频序列camera上的第161帧中,非参数核密度估计算法[8]在前景检测时使用固定阈值,且在学习阶段直接将视频序列作为样本,将前景点像素也作为背景样本计算进去,导致了大量的噪声;图3(d)给出的是该视频序列上的第257帧,该帧是在光照缓慢变化的情况下,由于非参数核密度估计算法需要一段时间才能将光照变化更新到背景中去,因此在没有将光照变化更新到背景中之前,背景就很容易被误检为前景,如图3(e)所示。而本文提出的方法首先使用背景差分,有效滤除了大部分非典型运动像素产生的噪声,如图3(c)所示,同时对非动态背景区域进行渐进式更新,有效地避免了光照变化产生的前景误检情况,如图3(f)所示。

4.1.2与文献[9]算法比较

非参数核密度估计对每一帧的每一个像素进行核密度估计进行分割,同时对背景样本中的每一个像素用核密度估计算法进行估计来更新背景,不

可避免地产生计算量大、实时性差等问题。在此,

(a) 第161帧(b) 文献[8]结果(第161帧) (c) TIW-KDE结果(第161帧

)

(d) 第257帧(e) 文献[8]结果(第257帧) (f) TIW-KDE结果(第257帧)

图3 TIW-KDE算法与非参数核密度估计算法比较

第3期 周恩策等:基于时间窗的自适应核密度估计运动检测方法 ·111·

将本文算法与非参数核密度估计的改进算法(文献[9])通过2组实验进行比较。第1组实验主要验证本文算法对背景存在拖影等背景污染问题的改进。第2组实验借助实际监控视频验证算法在实际智能监控中对前景运动目标提取的顽健性。

第1组实验利用PETS 2001的视频序列camera 进行实验验证。区别于本文对非动态背景区域进行渐进式更新,文献[9]对非动态背景区域像素进行一定时间的观察,在确定像素值波动幅度较小或没有

变化的情况下,用当前帧像素全值来更新背景像素,由此不可避免地会将运动物体轮廓更新到背景中去,造成背景污染,如图4(b)中第200帧和第1 139帧中小椭圆标记所示;文献[9]虽然也只对动态背景区域核密度估计进行更新,但对动态背景进行实时更新,当背景样本集中包含前景物体时,会很容易

将前景物体更新到背景中去,造成背景中留有运动

第200帧 (非刚性前景) 第803帧 (刚性前景) 第1 139帧 (复杂环境)

(a) 原始视频典型帧

(b) 文献[9]算法背景更新效果

(c) TIW-KDE 算法背景更新效果

(d) 文献[9]算法前景提取效果

(e) TIW-KDE 算法前景提取效果

图4 TIW-KDE 算法与文献[9]算法的比较

·112· 通 信 学 报 第32卷

物体的拖影,干扰前景的检测,如图4(b)和图4(d)中803帧和1 139帧所示。本文对动态背景区域利用像素的时间信息窗对背景是否更新进行判断,确保了更新时背景样本值的有效性,背景更新结果如图4(c)所示,有效地去除了运动物体运动造成的拖影问题,更有利于前景的检测,如图4(e)所示,同时在算法实时性上得到了更大的提高。

为测试算法在实际智能监控中对前景目标提取的效果,第2组实验采用了实际监控序列——宁波高新区东方瑞华信息技术有限公司提供的小区监控视频(图5)。图5(a)第236帧为单个缓慢运动的行人,图5(a)第1 851

帧为轿车路过时行人放慢

第236帧 第1 851帧 第2 587帧

(a) 原始视频典型帧

(b) 文献[9]算法背景更新效果

(c) TIW-KDE 算法背景更新效果

(d) 文献[9]算法前景提取效果

(e) TIW-KDE 算法前景提取效果

图5 TIW-KDE 算法与文献[9]算法的比较

第3期 周恩策等:基于时间窗的自适应核密度估计运动检测方法 ·113·

速度或停留时的情景,图5(a)第2 587帧为面包车缓慢的行驶过路障时的情况。当前景运动较为缓慢或者前景较大且运动较为缓慢时,文献[9]算法因对前景区域用核密度算法实时更新极易污染样本,将前景更新到背景中去,如图5(b)所示,从而影响前景的检测,如图5(d)所示,本文提出的算法依据设定的时间信息窗的大小,有效地避免了背景的污染,如图5(c)所示,使得分割出来的前景更为清晰,如图5(e)所示。有利于后期的多目标跟踪和识别精

度的提高。

此外,为了验证本文算法在不均匀光照下前景检测的顽健性,本文选取商场的Pedestrian se-quences 视频序列做实验比较。如图6(a)第1 657帧和2 151帧所示,当目标靠近或远离地面反射光源时,造成目标周围亮度发生变化,文献[9]算法对非动态

背景区域以当前帧像素全值来更新背景像素,使得

第1 657帧 第1 952帧 第2 151帧

(a) 原始视频典型帧

(b) 文献[9]算法背景更新效果

(c) TIW-KDE 算法背景更新效果

(d) 文献[9]算法前景提取效果

(e) TIW-KDE 算法前景提取效果

图6 TIW-KDE 算法与文献[9]算法的比较

目标身上亮度与地面亮度差异较小,导致检测出的目标轮廓不完整,如图6(d)第1 657帧和2 151帧所示。而本文算法实时的以渐进式方式更新背景区域,有效避免了光照变化产生的影响,使得目标轮廓更为完整清晰,如图6(e)所示,有利于后期的目标跟踪和行为识别研究。

不同的多个视频序列实验结果表明本文提出的算法TIW-KDE具有较好的顽健性。该算法能够将前景和背景很好的分离,并能够对前景运动目标提取清晰的轮廓,能有效地减轻拖影,为后期的目标跟踪和识别提供良好的前景分割图像。

4.2时间对比

在视频处理中,实时性是制约智能视频监控应用的一个重要因素,因此在实际应用中,算法的速度是一个关键。文献[9]算法由于每帧都依据前景对背景进行核密度更新,所以对于每帧的处理时间取决于该帧中运动前景所占的比例,前景比例越大,处理时间越长,且在每个更新点位置用非参数核密度估计更新背景的时间复杂度为2

()

O n。本文由于依据像素时间信息窗中的像素

点处于观察状态不需要更新的时间间隔

u

T对背景

进行不定时的动态更新,由于在实验中

u

T大于样本集数目n,因此每个更新点位置用非参数核密度估计更新背景的平均时间复杂度为()

O n。图7给出了本文算法与文献[9]算法在视频序列camera上的时间对比。在50~650帧期间,每帧中检测出的前景占较小比例,处理时间较快,在650~1250帧期间,前景中运动物体所占比例增大,每帧平均处理时间大幅增加。

图7 TIW-KDE算法与文献[9]算法的时间对比

总体上来说,文献[9]算法对每帧的处理速度依赖于每帧中前景目标所占比例的大小,波动幅度较大;而本文算法在降低无效计算的同时,在处理速度上具有均匀性。为了进一步验证本文所提出算法在前景检测中的实时性,还将本文算法和文献[9]算法在其他视频上做了时间比较分析,本文算法在处理速度上能提高50%左右。大量实验结果表明,以时间信息窗中的信息为判断依据来进行背景更新,在很大程度上减少了核密度估计的无效计算次数,使处理更加迅速,提高了算法的实时性。

5结束语

本文引进假设检验,提出了一种自适应核宽选取的核密度估计运动检测方法。该方法能够得到更为合理的背景模型,有利于运动目标的检测。同时充分利用前景帧的信息,提出时间信息窗的概念,利用像素的时间信息窗自适应地更新背景,有效地解决了光照变化造成的前景混淆、物体的移入移出造成的背景污染问题。由于只对运动区域背景间歇性地采用核密度估计进行更新,在前景检测实时性上得到了很大的提升。从实际监控视频中对前景目标的分割和算法时间复杂度2个方面的实验可以看出,该算法可以较好地应用于目前基于网络传输的远程智能实时监控系统。

参考文献:

[1] COLOMBARI A, FUSIELLO A, MURINO V. Segmentation and

tracking of multiple video objects[J]. Pattern Recognition, 2007, 40(4): 1307-1317.

[2] STAUFFER C, GRIMSON E. learning patterns of activity using

real-time tracking[J]. IEEE Transactions on Pattern Recognition Ma-chine Intelligence, 2000, 22(8): 747-757.

[3] ZIVKOVIC Z. Improved adaptive Gaussian mixture model for back-

ground subtraction[A]. Proceedings of the 17th International Confe-rence on Pattern Recognition[C]. Cambridge, United Kingdom, 2004.28-31.

[4] SONG X H, CHEN Y, GENG J F. A robust moving objects detection

algorithm based on gaussian mixture model[A]. International Confe-rence on Information Technology and Computer Science[C]. 2009.

566-569.

[5] LO B P L, VELASTIN S A. Automatic congestion detection system

for underground platforms[A]. Proceedings of International Sympo-sium on Intelligent Multimedia, Video and Speech Processing[C].

Hong Kong, China, 2001. 158-161.

[6] OLIVER N M, ROSARIO, PENTLAND A P. A Bayesian computer

vision system for modeling human interactions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 831-843.

(下转第124页)

周恩策(1985-),男,江苏盐城人,苏州大学硕士生,主要研究方向为图像处理、模式识别。

严芬(1978-),女,江苏靖江人,博士,扬州大学讲师、硕士生导师,主要研究方向为网络与信息安全。

YUAN Y, WANG Y J, XUE Z. Coordinated attack modeling based on attack tree[J]. Information Security and Communications Privacy, 2006,(3): 55-57.

[8] SEYIT A C, BULENT Y. Modeling and detection of complex at-tacks[A]. 3th International Conference on Security and Privacy in Communication Networks[C]. Nice, France, 2007. 234-243.

[9] 李跃志, 崔金生, 刘晓然. 基于攻击树的自动攻击模型研究[J]. 中

国新通信, 2009, (19): 62-64.

LI Y Z, CUI J S, LIU X R. Study on active attack model based on at-tack tree[J]. CHINA New Telecommunications, 2009, (19): 62-64. [10] EVANS S, WALLER J. Risk-based security engineering through the

eyes of the adversary[A]. Proceedings of the 6th IEEE Systems, Man and Cybernetics Information Assurance Workshop[C]. New York, 2005. 158-165.

[11] 甘早斌, 吴平, 路松峰等. 基于扩展攻击树的信息系统安全风险评

估[J]. 计算机应用研究, 2007,24(11):153-156,160.

GAN Z B, WU P, LU S F, et al . Information system security risk evaluation based on attack tree[J]. Application Research of Computers, 2007,24(11):153-156,160.

[12] 陈莉, 方勇, 刘亮等. 基于扩展攻击树的文件安全度评估研究[J].

信息网络安全, 2010,(2): 67-69.

CHEN L, FANG Y , LIU L, et al . Reseraches of file security risk eval-uation based on attack tree[J]. Netinfo Security, 2010,(2):67-69. [13] SCHNEIER B. Secrets and Lies: Digital Security in a Networked

World[M] . New York : John Wiley and Sons, 2000.

[14] CNCERT/CC. CNCERT/CC 2008年网络安全工作报告[EB/OL].

https://www.360docs.net/doc/808717203.html,/stats/cert_stats.html, Seq, 2008.

CNCERT/CC. CNERT/CC notes the report of 2008 networks' security work[EB/OL]. https://www.360docs.net/doc/808717203.html,/stats/cert_stats.html, Seq, 2008. [15] EV ANS S, HEINBUCH D, WALLNER J, et al . Risk-based systems

security engineering stopp ing attacks with intention[J]. IEEE Security & Privacy, 2004, 2 (6) : 59-62.

作者简介:

殷新春(1962-),男,江苏姜堰人,博士,扬州大学教授、博士生导师,主要研究方向为密码学与信息安全。

黄皓(1957-),男,江苏南京人,博士,南京大学教授、博士生导师,主要研究方向为计算机信息系统安全和网络安全。

(上接第114页)

[7] 王博, 刘德连, 张建奇. 基于背景移除的时域目标检测[J]. 通信学

报, 2009,30(7):67-72.

WANG B, LIU D L, ZHANG J Q. Temporal filtering for target detec-tion algorithm based on static background elimination[J]. Journal on Communications, 2009, 30(7): 67-72.

[8] ELGAMMAL A, DURAISWAMI R, HARWOOD D. Background and

foreground modeling using nonparametric kernel density estimation for visual surveillance [J]. Proceedings of the IEEE, 2002, 90(7): 1151-1163.

[9] 徐东彬,黄磊,刘昌平.自适应核密度估计运动检测方法[J].自动化学

报, 2009,35(4):379-385.

XU D B, HUANG L, LIU C P. Adaptive kernel density estimation for motion detection[J]. Acta Automatical Sinica, 2009, 35(4): 379-385. [10] KATKOVNIK V, SHMULEVICH I. Nonparametric density esti-mation with adaptive varying window size[A]. Image and Signal Processing for Remote Sensing VI [C]. Barcelona, Spain, 2001. 141-150.

[11] BIN L, YING Y , GEOFFREY I. A comparative study of bandwidth

choice in kernel density estimation for na?ve bayesian classification[A]. Advances in Knowledge Discovery and Data Mining[C]. Springer Berlin/Heidelberg, 2009.302-313.

作者简介:

刘纯平(1971-),女,重庆人,博士,苏州大学副教授、硕士生导师,主要研究方向为图像处理与分析、模式识别与计算机视觉、信息融合等。

张玲燕(1986-),女,山东泰安人,苏州大学硕士生,主要研究方向为图像处理、模式识别。

龚声蓉(1966-),男,湖北天门人,博士,苏州大学教授、硕士生导师,主要研究方向为多媒体通信、模式识别与机器视觉等。

刘全(1969-),男,内蒙古牙克石人,博士后,苏州大学教授、博士生导师,主要研究方向为软件系统分析与设计、网络信息安全与处理、机器学习及自动推理等。

核密度图详解

R语言与非参数统计(核密度估计) 背景 核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。 原理 假设我们有n个数X1-Xn,我们要计算某一个数X的概率密度有多大。核密度估计的方法是这样的: 其中K为核密度函数,h为设定的窗宽。 核密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。基于这种想法,针对观察中的第一个数,我们都可以f(x-xi)去拟合我们想象中的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后,取平均。如果某些数是比较重要,某些数反之,则可以取加权平均。 但是核密度的估计并不是,也不能够找到真正的分布函数。 代码作图示例 我们可以举一个极端的例子:在R中输入: ●[plain]view plaincopyprint? 1.plot(density(rep(0, 1000))) 可以看到它得到了正态分布的曲线,但实际上呢?从数据上判断,它更有可能是一个退化的单点分布。 但是这并不意味着核密度估计是不可取的,至少他可以解决许多模拟中存在的异方差问题。比如说我们要估计一下下面的一组数据: ●[plain]view plaincopyprint? 1.set.seed(10) 2.dat<-c(rgamma(300,shape=2,scale=2),rgamma(100,shape=10,scale=2))

核密度估计是在概率论中用来估计未知的密度函数

核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。 假设我们有n个数X1-Xn,我们要计算某一个数X的概率密度有多大。核密度估计的方法是这样的: 其中N(x,z)为正太分布的概率密度函数,z为设定的参数。 (1)基本原理: 核密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很比大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。基于这种想法,针对观察中的第一个数,我们都可以f(x-xi)去拟合我们想象中的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后,取平均。如果某些数是比较重要,某些数反之,则可以取加权平均。 (2)存在的问题: 我感觉这种方法会存在一个问题。 边界问题。比如满足[0,1]之间的均匀分布的数有1000w个,人工大致已经可以看出概率分布。但用核密度估计估计出来的结果会非常奇怪。[-1,0]和[1,2]之间的数的概率密度不会被估计为0。主要原因是因为有边界的影响。具体怎么影响,我还没有想或者看明白。 我也是初看核密度估计,有不对的地方,欢迎大牛拍砖。 kernel density estimation是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。 核密度估计在估计边界区域的时候会出现边界效应。 在单变量核密度估计的基础上,可以建立风险价值的预测模型。通过对核密度估计变异系数的加权处理,可以建立不同的风险价值的预测模型。

概率密度估计

1、概率密度函数 在分类器设计过程中(尤其是贝叶斯分类器),需要在类的先验概率和类条件概率密度均已知的情况下,按照一定的决策规则确定判别函数和决策面。但是,在实际应用中,类条件概率密度通常是未知的。那么,当先验概率和类条件概率密度都未知或者其中之一未知的情况下,该如何来进行类别判断呢?其实,只要我们能收集到一定数量的样本,根据统计学的知识,可以从样本集来推断总体概率分布。这种估计方法,通常称之为概率密度估计。它是机器学习的基本问题之一,其目的是根据训练样本来确定x(随机变量总体)的概率分布。密度估计分为参数估计和非参数估计两种。 2、参数估计 参数估计:根据对问题的一般性认识,假设随机变量服从某种分布(例如,正态分布),分布函数的参数可以通过训练数据来估计。参数估计可以分为监督参数估计和非监督参数估计两种。参数估计当中最常用的两种方法是最大似然估计法和贝叶斯估计法。 监督参数估计:样本所属类别及条件总体概率密度的形式已知,表征概率密度的某些参数是未知的。 非监督参数估计:已知样本所属的类别,但未知总体概率密度函数的形式,要求推断出概率密度本身。 3、非参数估计 非参数估计:已知样本所属的类别,但未知总体概率密度函数的形式,要求我们直接推断概率密度函数本身。即,不用模型,只利用训练数据本身来对概率密度做估计。 非参数估计常用的有直方图法和核方法两种;其中,核方法又分为Pazen窗法和KN近领法两种。

概率密度估计--参数估计与非参数估计 我们观测世界,得到了一些数据,我们要从这些数据里面去找出规律来认识世界,一般来说,在概率上我们有一个一般性的操作步骤 1. 观测样本的存在 2. 每个样本之间是独立的 3. 所有样本符合一个概率模型 我们最终想要得到的是一个概率密度的模型,有了概率密度模型以后,我们就可以统计预测等非常有用的地方,因此,首要任务是找出一些概率分布的概率密度模型。 我们来分析一下上面的三个步骤,第一第二都很好解决,关于第三点,我们可以有不同的处理方式 如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解了,只是需要确定其中的参数而已,这种情况就是属于参数估计问题。 如果我们研究观测的对象,也很难说这些观测的数据符合什么模型,参数估计的方法就失效了,我们只有用非参数估计的办法去估计真实数据符合的概率密度模型了。 因此,本文主要讨论参数估计和非参数估计问题

核密度估计

kernel density estimation是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert 和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。核密度估计在估计边界区域的时候会出现边界效应。在单变量核密度估计的基础上,可以建立风险价值的预测模型。通过对核密度估计变异系数的加权处理,可以建立不同的风险价值的预测模型。 [1] 由给定样本点集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布符合某种特定的性态,如线性、可化线性或指数性态等,然后在目标函数族中寻找特定的解,即确定回归模型中的未知参数。在参数判别分析中,人们需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。经验和理论说明,参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距,这些方法并非总能取得令人满意的结果。由于上述缺陷,Rosenblatt和Parzen提出了非参数估计方法,即核密度估计方法.由于核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,因而,在统计学理论和应用领域均受到高度的重视。一些比较常用的核函数是:均匀核函数k(x)=1/2,-1≤x≤1 加入带宽h后:kh(x)=1/(2h),-h≤x≤h 三角核函数k(x)=1-|x|,-1≤x≤1 加入带宽h后:kh(x)=(h-|x|)/h^2,-h≤x≤h 伽马核函数kxi(x)=[x^(α-1)exp{-xα/xi}]/[(xi/α)^α.Γ(α)] 1)基本原理: 核密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很比大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。基于这种想法,针对观察中的第一个数,我们都可以f(x-xi)去拟合我们想象中的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后,取平均。如果某些数是比较重要,某些数反之,则可以取加权平均。

R核度估计和多元统计

R的核密度估计和多元统计 R核密度估计KDE 密度估计函数density默认情况下在512个点上估计密度值这些估计点可能有些会分布在原始数据的左侧所以要查看原始数据后的密度图形我们需要从这些估值点选取比原始数据大的数据点。libraryEcdat dataEarningspackageEcdat ind Earningsageg1 x Earningsyind/1000 f densityxn1000 froot densitysqrtxn1000 ind2 frootx sqrtminx 选取比原始数据大的数据点plotfxfytypelylimc0.035xlimc0100 ylabDensityyxlabyincome in 1000lwd2 ablineh0 f2 .5frooty / frootx linesfrootxind22 f2ind2typel ylimc0.035xlimc0100ylabDensityyxlabyincome in 1000 mainTKDElty2lwd2 ablineh0 legend60.03cKDETKDEltyc12lwd2 残差的获得R 如果模型拟合可以直接返回残差省事了直接用否则我们可以使用residuals模型拟合结果databmwpackageevir bmw as.vectorbmw nlengthbmw fitAR1 arimabmw order c10 0 acf fitAR1residualslag.max20 main acf residualsfitAR1lag.max20 main 两者结果一致R语言多元统计包简介:各种假设检验统计方法聚类分析数据处理https://www.360docs.net/doc/808717203.html,/统计分析生物信息sas matlab R语言Multivariate Statistics 多元统计网址https://www.360docs.net/doc/808717203.html,/web/views/Multivariate.html 转https://www.360docs.net/doc/808717203.html,/Rbbs/posts/list/223.page 基本的R包已经实现了传统多元统计的很多功能然而CRNA的许多其

核密度估计

核密度估计 对于一组关于X 和Y 观测数据 (){} 1 ,n i i i x y =,我们假设它们存在如下关系: ()i i i y m x ε=+,通常我们的目的在于估计()m x 的形式。在样本数量有限的情况下,我们 无法准确估计()m x 的形式。这时,可以采用非参数方法。在非参数方法中,并不假定也不固定()m x 的形式,仅假设()m x 满足一定的光滑性,函数在每一点的值都由数据决定。显然,由于随机扰动的影响数据有很大的波动,极不光滑。因此要去除干扰使图形光滑。 最简单最直接的方法就是取多点平均,也就是每一点()m x 的值都由离x 最近的多个数据点所对应的y 值的平均值得到。显然,如果用来平均的点越多,所得的曲线越光滑。当然,如果用n 个数据点来平均,则()m x 为常数,这时它最光滑,但失去了大量的信息,拟合的残差也很大。所以说,这就存在了一个平衡的问题,也就是说,要决定每个数据点在估计()m x 的值时要起到的作用问题。直观上,和x 点越近的数据对决定()m x 的值所应起越大的作用,这就需要加权平均。因此,如何选择权函数来光滑及光滑到何种程度即是我们这里所关心的核心问题。 一、核密度估计 对于数据12,,,n x x x K ,核密度估计的形式为: ()11?n i h i x x f x K nh h =-??= ??? ∑ 这是一个加权平均,而核函数(kernal function )()K g 是一个权函数,核函数的形状和值域控制着用来估计()f x 在点x 的值时所用数据点的个数和利用的程度,直观来看,核密度估计的好坏依赖于核函数和带宽h 的选取。我们通常考虑的核函数为关于原点对称的且其积分为1,下面四个函数为最为常用的权函数: Uniform : ()1 12 I t ≤ Epanechikov : ()()23 114 t I t -< Quartic : ()()215 1116 t I t -< Gaussian 21 2t -

核密度估计的实现与简单应用

福州大学数学与计算机科学学院2008级数学与应用数学专业应用统计分析方向--应用数学实习 1.实习日记 2.实习作业 3.实习总结 4. 成绩评定 班级: 应数(2)班 姓名: 唐昌宏 学号: 030801218 指导老师: 吕书龙 实习地点: 福州大学 实习日期: 2011.6.27~2011.7.8

实习日记 2011.6.27 星期一确定实习内容 这个学期,我学习了许多关于统计计算与非参数统计的知识,以及假设检验、回归、正态性检验在R软件上的实现,还有R软件的一些其他的基本操作,如:作图、矩阵运算、数据导入、编程等。通过对自己弱点的分析,决定将实习目的定为:课堂上讲过的部分内容(非参数密度估计及其简单应用)在R软件中的实现,做到“理解理论知识、实现理论知识”。 2011.6.28 星期二复习巩固要用到的理论知识 针对要做的内容(核密度估计),对其理论知识做比较系统的复习,重点复习该方法的适用范围、计算方法、公式推导、实现过程,为之后的写算法、编程序打下理论基础。 2011.6.29 星期三复习巩固要用到的R软件命令 既然是自己编写程序,就避免不了对程序好坏的评价,因此就需要将自己编程计算的结果与R软件的计算结果进行比较;其次,在编程序时可以直接使用R 软件中已有的函数,以简化程序的篇幅。因此,复习巩固R软件命令是必要的。2011.6.30 星期四学习相关的数值计算方法 由于我想要用估计出的核密度函数来计算概率值,这就免不了要计算积分值,因此,我重点学习了数值计算中的快速、高精度算法。如:Gauss—Legendre 求积公式。 2011.7.1 星期五搜索非参数密度估计的图书 为了解决非参数密度估计的程序设计,我专门查找了图书馆的相关书籍,有许多介绍非参数统计的书籍,但每本书的侧重点有所不同。我就根据自己的需要,找到了一本对核回归有比较详细介绍的《非参数估计》作为我的参考书籍。 2011.7.4 星期一学习非参数密度估计的相关理论 今天主要任务是学习非参数密度估计的相关理论,包括:基本方法、应用方向以及具体的公式推导。在此基础上,写出相应的R程序,并在R软件中进行模拟,分析模拟的结果。

基于核密度估计的上证a股收益率分析

第六章 基于核密度估计的上证A 股收益率分析 一、模型的相关理论知识 (一)问题的提出 经济计量研究中常用的是参数估计,即假定经济变量之间具有一定的函数关系,且函数形式是可以确定的,可以写成带参数的形式进行估计,经典的线性回归和非线性回归就属于参数估计方法。但经济变量之间的关系未必是线性关系或可线性化的非线性关系,而变量之间的真实关系到底是什么又很难确定。因而当模型及参数的假定与实际背离时,就容易造成模型设定误差。此时,基于经典假设模型所做出的预测,很难达到预期的效果。针对该问题,非参数估计方法提供了最佳的解决办法,它使我们能寻找到最精确的非线性系统来描述变量之间的内在关系。非参数估计的回归函数的形式可以任意,没有任何约束,解释变量和被解释变量的分布也很少限制,因而有较大的适应性,其目的在于放松回归函数形式的限制,为确定或建议回归函数的参数表达式提供有用的工具,从而能在广泛的基础上得出更加带有普遍性的结论。核估计就是一种非参数估计方法,主要用于对随机变量密度函数进行估计。 (二)核密度估计方法的原理 设12,, n x x x 是从具有未知密度函数()f x 的总体中抽出的独立同分布样本, 要依据这些样本对每一x 去估计()f x 的值。 密度估计最基本的方法是直方图估计,我们可以从直方图估计导出密度核估计。作直方图时,先用点{}1k i i a =把直线分成若干小的计数区间。这样,计数区间的端点与宽度都是固定的。记i N 为样本点12,, n x x x 落在第i 个计数区间[) 1,i i a a +里的个数,则密度函数()f x 在[)1,i i a a +里的函数估计值就取为: k i a x a a a n N x f i i i i i ,,1,,) ()(?11 =<≤-=++ 这样的直方图估计结果是阶梯函数,如果对每个x ,各作一个以x 为中点的 小计数区间[),x h x h -+, 再对落在该计数区间的样本点计数,设为,N x h (),则 密度估计为:(,)?()2N x h f x nh =。其与直方图不同在于它的计数区间端点划分不是固定的,而是随x 而变,可以自始至终保持x 点在计数区间中间。不过此时计数 区间宽度h 一般是固定的。如果引进均匀核函数00.5 11 ()0 x K x -≤

概率密度函数的估计

Xuegong Zhang, Tsinghua University 贝叶斯决策: 已知)(i P ω和)|(i p ωx ,对未知样本分类(设计分类器) 实际问题: 已知一定数目的样本,对未知样本分类(设计分类器) 怎么办? 一种很自然的想法: 首先根据样本估计)|(i p ωx 和)(i P ω,记)|(?i p ωx 和)(?i P ω 然后用估计的概率密度设计贝叶斯分类器。 ——(基于样本的)两步贝叶斯决策 “模式识别基础”教学课件 希望:当样本数∞→N 时,如此得到的分类器收敛于理论上的最优解。 为此, 需 )|()|(?i N i p p ωωx x ??→?∞→ )()(?i N i P P ωω??→?∞→ 重要前提: z 训练样本的分布能代表样本的真实分布,所谓i.i.d 条件 z 有充分的训练样本 本章研究内容: ① 如何利用样本集估计概率密度函数?

Xuegong Zhang, Tsinghua University “模式识别基础”教学课件 3.2参数估计的基本概念和方法 (part1) 参数估计(parametric estimation): z已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。 几个名词: 统计量(statistics):样本的某种函数,用来作为对某参数的估计 θ∈ 参数空间(parametric space):待估计参数的取值空间Θ

Xuegong Zhang, Tsinghua University ② 各类样本集i X ,c i ,,1L =中的样本都是从密度为)|(i p ωx 的总体中独立抽取出来的,(独立同分布,i.i.d.) ③ )|(i p ωx 具有某种确定的函数形式,只其参数θ未知 ④ 各类样本只包含本类分布的信息 其中,参数θ通常是向量,比如一维正态分布),(2 1 σμi N ,未知参数可能是??????=2i i i σμθ此时)|(i p ωx 可写成),|(i i p θωx 或)|(i p θx 。 “模式识别基础”教学课件 鉴于上述假设,我们可以只考虑一类样本,记已知样本为 {}N x x x ,,,21L =X 似然函数(likelihood function ) )|()|,,,()|()(121θθθθi N i N x p x x x p p l ∏====L X —— 在参数θ下观测到样本集X 的概率(联合分布)密度 基本思想: θ θ?=)(θl

空间平滑和核密度估计

空间平滑和核密度估计 接下来的几个案例介绍GIS空间分析中常用的两个操作:空间平滑(spatial smoothing)和空间插值(spatial interpolation)。两者关系密切,他们都可以用于显示空间分布态势及空间分布趋势。 本案例用空间平滑的方法研究中国南方台语地名的分布。介绍两种空间平滑的方法:移动搜索法(floating catchment area,FCA)以及核密度估计法。 移动搜索法是以某点为中心画一个圆或者正方形作为滤波窗口,用窗口内的平均值或点密度作为该点的值。将窗口在研究区内移动,直到得到所有位置的平均值。 核密度估计法与FCA的方法类似。两者的区别,在FCA法中,所有对象参与者平均值计算时的权重相同,而在核密度估计法中,距离较近的对象,权重较大。这种方法在在分析和现实点数据时尤其有用。核密度方程的几何意义为:密度分布在每个Χi中心处最高,向外不断降低,当距离中心达到一定的阈值范围(窗口边缘)处密度为0。 与FCA法中窗口的作用类似,较大的阈值揭示一种区域分布态势,而较小的阈值 则强调局部分布差异。ArcGIS内置有核密度估计工具。在空间分析下的Density下。 案例名称:用空间平滑分析中国南方的台语地名分布 所需数据: 1.钦州市乡镇地名的点图层qztai,属性TAIl为地名的TAIl语(=1)或非TAIl语(=0)标记。 2.qzcnty为研究区内6个县的边界图层。 Part1:基于移动搜索法(FCA)的空间平滑。 关键:计算各点之间的距离矩阵 将TAIl语地名点连接到距离矩阵 提取窗口内的距离矩阵 计算窗口内的TAIl语地名比率 将TAIl语点名比重值连接到点图层 绘制TAIl语地名比重图 1.计算各点之间的距离矩阵:在ArcToolbox中,依次选择Analysis Tools > Proximity > Point Distance.在Input Features和Near Features栏都输入qztai(Point),将输出的表命名为Dist_50KM.dbf。Search radius输入50KM。这样我们就用距离表来处理50km以内的不同窗口。在距离表Dist_50km.dfb中,列数据INPUT_FID为起点,而NEAR_FID为终点。

核密度估计

对于一组关于X 和Y 观测数据 (){} 1 ,n i i i x y =,我们假设它们存在如下关系: ()i i i y m x ε=+,通常我们的目的在于估计()m x 的形式。在样本数量有限的情况下,我们 无法准确估计()m x 的形式。这时,可以采用非参数方法。在非参数方法中,并不假定也不固定()m x 的形式,仅假设()m x 满足一定的光滑性,函数在每一点的值都由数据决定。显然,由于随机扰动的影响数据有很大的波动,极不光滑。因此要去除干扰使图形光滑。 最简单最直接的方法就是取多点平均,也就是每一点()m x 的值都由离x 最近的多个数据点所对应的y 值的平均值得到。显然,如果用来平均的点越多,所得的曲线越光滑。当然,如果用n 个数据点来平均,则()m x 为常数,这时它最光滑,但失去了大量的信息,拟合的残差也很大。所以说,这就存在了一个平衡的问题,也就是说,要决定每个数据点在估计()m x 的值时要起到的作用问题。直观上,和x 点越近的数据对决定()m x 的值所应起越大的作用,这就需要加权平均。因此,如何选择权函数来光滑及光滑到何种程度即是我们这里所关心的核心问题。 一、核密度估计 对于数据12,,,n x x x K ,核密度估计的形式为: ()11?n i h i x x f x K nh h =-?? = ??? ∑ 这是一个加权平均,而核函数(kernal function )()K g 是一个权函数,核函数的形状和值域控制着用来估计()f x 在点x 的值时所用数据点的个数和利用的程度,直观来看,核密度估计的好坏依赖于核函数和带宽h 的选取。我们通常考虑的核函数为关于原点对称的且其积分为1,下面四个函数为最为常用的权函数: Uniform : ()1 12 I t ≤ Epanechikov : ()()23 114 t I t -<

相关文档
最新文档