遥感影像数据挖掘研究进展_周小成

遥感影像数据挖掘研究进展_周小成
遥感影像数据挖掘研究进展_周小成

遥感影像数据挖掘研究进展

周小成,汪小钦

(福州大学福建省空间信息工程研究中心,数据挖掘与信息共享教育部重点实验室,福州350002)

逐一细化成精细类别,通过加入决策函数一步一步地进

行分类。典型的决策树方法有分类回归树(CART)、ID3、

C5.0等。与传统的单层最大似然法分类器相比,决策树可

以在不同的分类等级与节点上采用不同的特征子集,甚至可

以采用不同的分类器;可以选用较少的特征,避免高维数据

带来的系列问题[14]。在实际中,一般类别都交错分布,在这

种情况下,可以采用空间分割聚类的方法,即分割线两边在

当前情况下具有最大的对比度,子集内可以有多个类型分

布而不再要求分割到单个的类别[15]。

利用数据挖掘技术从GIS和遥感影像中发现知识,可以

改善土地利用分类的精度。Huang[16](1997)等用C4.5算法

从GIS数据和SPOT多光谱图像数据中提取知识进行湿地

分类。Eklund,et al.[17](1998)在土壤盐碱度分析中,采用

C4.5归纳学习算法从TM图像和地图数据提取到相关知

识。布和敖斯尔[18](1999)提出了基于知识发现和决策规则

基础的盐碱地GIS和遥感分类的方法。Deren LI[19](2000)

提出了空间对象尺度和像素尺度两个学习尺度用于从空间

数据中归纳学习。用C5.0归纳学习算法发现有关空间分布

模式和形状特征规则,然后用总结的模式对图像重新分类。

通过与单纯Bayes分类结果的比较,总体分类精度大大提高。

潘永生[20](2002)利用改进的决策树算法和修剪算法对乳腺

疾病图像进行数据挖掘,证明了决策树算法在医学图像数据

挖掘领域有着广泛的应用前景。

2.2.2利用空间知识规则辅助分类

利用空间数据挖掘理论挖掘的空间关联规则、空间特征

规则、空间聚类规则等空间知识规则可以提高遥感解译的可

靠性、精度和速度[21]。如森林迹地海拔高于100m,居民地

和道路相连等。王雷[22](2001)利用遥感影像分类获取的地

物类型分别与坡向叠加,生成坡向直方图。发现旱地偏东向

的频率较高,居民地则是偏南向的频率较高。这种方法提高

了遥感非监督分类的效率与可靠性,有助于地学规律的发现

与描述。杨存建[23](2001)通过对不同类型居民地的遥感影

像特征、光谱特征和空间关系分析,从而发现居民地的光谱

特征知识、空间关系知识,建立了基于知识的遥感图像居民

地信息提取模型。Brodley C.E.[24](2002)提出了利用高维

遥感数据在土地覆盖分类时融入领域知识的新方法。利用统计学和机器学习领域最新的理论,采用一个被称为推进(boosting)的技术,它允许对类别成员进行充分的评估。该

方法允许基于辅助信息对分离性很差的类别进行区分。

对于在特征空间中寻找特征模式,由于样本集之间互相

重叠或者由于离散样本相互干扰的原因,往往很难获取细节性和过程性的分布结构,从而影响结果的精度和解释力。骆剑承[25](1999)提出了空间逐步寻优的数据挖掘方法(SOMM)。SOMM应用于遥感影像特征挖掘中,考虑了遥感影像的地学特征,在模型中融合了地学知识,在其所建模型

中含有地学特征,从分类结果看,用SOMM分层分类法比传统的一般统计分类方法分类精度高[26]。遥感图像理解中的结构模式识别是实现图像理解极具优势的方法,GIS属性数据融入遥感图像理解具有重要意义,它们要求系统具有知识获取和知识处理的能力。专家系统也具有解决问题的能力, 但由于知识获取的困难,必须借助数据挖掘技术。神经网络和进化计算均具有上述功能,它们的结合更能发挥各自的优势,并能较好地解决GlS数据融入遥感图像处理的问题[27]。基于自组织地图(SOM)人工神经网络算法,Evangelou I.[28] (2001)提出了一种用于图像数据挖掘和知识发现的方法,能够使我们获得经过简化的图像数据空间的图片。

2.3图像聚类

Soh Leen-Kiat等[29~30](1998,1999)建立了一个通用

的研究遥感影像数据挖掘模型。应用该模型实现了一个全自动挖掘遥感影像的技术,它通过非监督聚类学习有意义的类别或模式。Soh Leen-Kiat(1999)还研究了一个集成数据

库知识发现和数据挖掘到传统图像处理算法的分割方

法[31],该方法可用来分析和分割非结构的卫星影像中的自然景观。图像的类别数目可自动被确定。该方法已经成功应用到ERS1 SAR、TM、NOAA超高分辨率辐射仪(AVHRR) 数据中的自然景观分类中。此外,Chunyu Zhao(2001)探讨

了空间数据挖掘中粗集理论的应用可能性和基于数学形态学遥感图像聚类方法[32]。聚类方法是用于热点目标识别的重要方法。Tay,Seng Chuan[8](2003)提出了不同的方法来

去除伪热点。在获取热点和对其分类时用聚类和Hough变换来确定目标的模式。如果是火灾,那通常不会以规则的模式如直线来蔓延,依据这一模式来判断伪预警点。并且示范了利用空间数据挖掘技术从NOAA影像上获取热点目标时剔除伪预警点的方法。利用遥感信息挖掘技术可用于疾病监测和防治。可配合地面监测,研究病原体或媒介的可能孽生地。利用历史遥感资料结合疾病的既往分布,预测疾病未来潜在的疫区[9~10]。

Aldridge[11](1998)在粗集理论支持下,利用RS-GKDD

(Rough Set Based Geographic Knowledge Induction)方法对新

西兰Dunedin附近的滑坡影像进行了研究,发现了高程、岩

性与滑坡之间的显著关系。马建文[12](2001)在遥感弱信息

和临边效应信息提取方面做了大量的研究,认为基于傅立叶

变换和小波变换在遥感影像数据挖掘方面具有很好的应用

前景。通过不同空间时间序列和不同探测机理的遥感数据

融合,增强遥感图像的几何、时间和光谱分辨率,提高对目标

的识别能力也已成为数据挖掘的热点问题[13]。

2.4空间关联规则挖掘

遥感影像中“深层知识”,如空间位置分布规律、空间关

联规则、形态特征区分规则等,必须通过运算和学习才能挖

掘出来。图像数据库中的空间关联规则挖掘与事务数据库

中的存在着一些差异。一个图像可以包含多个对象,每个对

象可以有许多特征,如颜色、形状、纹理、关键字和空间位置。

这样可能存在大量的关联。利用多级分辨率挖掘方法可大

大降低总体数据挖掘的代价,而又不损失数据挖掘结果的质

量和完整性。这是一种在大型图像数据库中挖掘关联的高

效方法。

59

2005.3综述遥感信息

法来压缩多光谱可视化信息到利于管理的尺寸。Soh,

Leen-Kiat[29~31](1998,1999)等设计了一个海冰分割系统

-ASIS(Automated Sea Ice Segmentation)。该系统集成了图

像处理、数据挖掘和机器学习方法来确定ERS和

RADARSAT SAR图像上海冰的实际类别数。ASIS能够用

作一个预处理工具,帮助分析海冰图像以及作为人工分类海

冰图像的一个基础。Hinke,T.H.[51](2000)指出了一系列

对于遥感数据挖掘系统的需求,并且设计了一个称为ADAM

的数据挖掘系统。系统具有目标独立挖掘、矢量数据(以多

光谱或融合数据为代表)关联规则挖掘、纹理特征间关联规

则挖掘几个遥感数据挖掘功能。Marchisio,Giovanni B.[52]

(2000)设计一个了多光谱图像融合GIS数据的挖掘系统。

数据挖掘和信息恢复模块借助GIS数据从遥感影像上获取

信息。Durbha,Surya S.[53](2002)分析了模拟大气、场景和

传感器参数的可视化遥感数据挖掘的发展。通过修改这些

领域现有的模型,在软件环境中利用IDL开发完成了一个可

视化遥感挖掘系统。一个图形用户界面能够使用户利用预

定义的菜单交互式选择不同土地覆盖类型(如水体,农田,土

壤等)以及生成可视化场景。系统可以表示一个模拟的

Landsat ETM,SPOT XS和最新的QuickBird传感器数据。

4小结

根据以上研究进展的分析,可以看出,遥感影像数据挖

掘是一个有着广阔应用前景的研究领域。遥感影像数据挖

掘还应着力解决和注意的几个问题是:①空间图形和图像数

据的一体化管理及操作,基于数字图像直接进行建模的数据

挖掘模型。②随着新型遥感卫星的增多,连续打开卫星数据

必将成为空间代理部门的一件繁重的任务。用户在寻找他

们需要的数据来测试算法和方法也必将变得十分困难。因

此,研究能够通过内容有效查询图像的方法,提供高效的可

视化数据挖掘环境势在必行。③由于遥感数据具有诸多特

点,因此在遥感数据库进行知识发现,需要克服使用单一技

术的缺陷,即需要融合多种不同空间数据挖掘技术发现隐含

知识的难题。④必须借助高效的索引技术来提高空间数据

的处理效率。由于“维数灾难”现象,应开发能够支持高维数

据的索引机制及聚类方法。对于大规模高维空间而言,人为

确定聚类算法的输入参数是很困难的,需要着力开发自适应

无参数的聚类算法。

参考文献

1何国金,胡德永,从柏林,等.卫星遥感数据开采与知识发现的信息论方法[J]..遥感技术与应用,1999,14(1):42~48.

2李德仁,王树良,史文中,等.论空间数据挖掘与知识发现[J].武汉大学学报(信息科学版),2001,26(6):491~499.

3Datcu M.,Seidel K.Image information mining:exploration of image content in large archives[C].IEEE Aerospace Conference Proceedings,2000

(3):253~264.

4Klose Aljoscha,Kruse Rudolf,Gross Hermann.Tuning on the fly of structural image analysis algorithms using data mining[C].Proceedings of

SPIE-The International Society for Optical Engineering,2000.4055:311~321.

5Ding Qin,Khan Maleq,Roy Amalendu.Proceedings of the ACM symposium on applied computing[C].2002.426~431.

6Heas Patrick,Datcu Mihai,Abdellani Malika,Giros Alain.Image Time Series Mining for Dynamic Scene Understanding[C].International Geo-

science and Remote Sensing Symposium(IGARSS).2003(2):1380~1382.

7Szu Harold H,Le Moigne,Jacqueline.Integration of local texture information in the automatic classification of Landsat images[C].Proceedingsof

SPIE-The International Society for Optical Engineering,1997(3078):116~127.

8Tay Seng Chuan,Hsu Wynne,Lim,Kim Hwa.Spatial Data Mining:Clustering of Hot Spots and Pattern Recognition[C].International Geo-

science and Remote Sensing Symposium(IGARSS).2003(6):3685~3687.

9张波,张治英,徐德忠.MODIS遥感图像在江宁县江滩钉螺分布研究中的应用[J].中华流行病学杂志,2003,24(4):257~261.

10张治英,徐德忠,周晓农.应用LANDSAT ETM+图像监测江宁县江滩钉螺孽生地[J].第四军医大学学报2003,24(2):139~142.

11Colin HAldridge.Discerning Landslide Hazard Using a Rough Set Based Geographic Knowledge Discovery Methodology[C].The 11th Annual

Colloquium of the Spatial Information Research Centre University of Otago,Dunedin,New Zealand,1999.

12马建文,赵忠明,布和敖斯尔.遥感数据模型与处理方法〔M〕,北京:中国科学技术出版社,2001.

13毛克彪,田庆久.空间数据挖掘技术方法及应用[J].遥感技术与应用,2002,17(4):198~204. 14王晋年,张兵,刘建贵.以地物识别和分类为目标的高光谱数据挖掘[J].图形图像学报,1999,4(11):957~964.

15周成虎,骆剑承,杨晓梅,等.遥感影像地学理解与分析[M].北京:科学出版社.1999.

16Huang Xueqiao and John R.Jensen.AMachine-Learning Approach to Automated Knowledge Based Building for Remote Sensing Image Analysis

with GIS Data[J].Photogrammetry Engineering and Remote Sensing,1997,63(10):1185~1184.

17Eklund P.W.,Kirbky S.D.,A.Salim.Data mining and soil salinity analysis[J].Int.J.of GIS,1998,12(3):247~268.

18布和敖斯尔.基于知识发现和决策规则的盐碱地遥感分类方法研究[J].中国图像图形学报,1999,4(11):965~969.

19Deren LI,Kaichang DI,Deyi https://www.360docs.net/doc/4011927621.html,nd use classification of remote sensing image with GIS data,Based on spatial data mining techniques[J].In-

ternational Archives of Photogrammetry and Remote Sensing,2000,XXXIII(part B3):Amsterdam,238~245.

20潘永生,庄天戈.决策树算法及其在乳腺疾病图像数据挖掘中的应用[J].计算机应用研究,2002,19(9):78~79.

21李德仁,王树良,史文中,等.论空间数据挖掘与知识发现[J].武汉大学学报(信息科学版),2001,26(6):491~499

22王雷,冯学智,都金康.遥感影像分类与地学知识发现的集成研究[J].地理研究,2001,2(5):637~643.

23杨存建,周成虎.基于知识发现的TM图像居民地自动提取研究[J].遥感技术与应用,2001,11(1):1~6.

61

2005.3综述遥感信息

挖掘关联规则问题就是产生支持度和置信度分别大于

用户给定的最小支持度和最小可信度的关联规则。马超

飞[33](2003)针对遥感数据挖掘的特点,提出了三种遥感数

据中关联规则挖掘方向:遥感数据多维量化规则挖掘;遥感

数据时间序列关联规则挖掘;遥感数据特征关联规则的挖

掘。并利用NOAA卫星AVHRR数据的甚高时间分辨率和

基于时序的关联规则挖掘方法集中研究时序图像数据的关

联规则。挖掘出了地表温度、土壤水分和沙尘暴的关联规

则:地面温度高容易产生沙尘,地面温度低不容易产生沙尘。

关联规则应用到大型图像数据库中时,一种挖掘是针对

大型图像集挖掘,另一种挖掘是针对图像、文字数据的组合

集挖掘[34]。图像相联规则挖掘方法远未成熟,主要问题在

于套用传统模型不能较好地反映图像数据的特征,因此,有

必要对相联规则模型进行改进研究。颜雪松[35](2003)提出

了一种在二维彩色图像中发现关联规则的挖掘算法。该算

法的优点在于可以在图像中发现关联规则;产生规则的效率

很高;不会产生无意义或无效的规则;算法的主要部分是自

动进行的。利用传统的相联规则思想,结合图像数据的特

性,李雄飞[36](2002)提出了三维相联规则模型。在模型中

着重强调了形状、颜色、空间位置三者之间的依赖程度,并在此基础上提出了图像数据挖掘方法。Zequn G.[37](2003)提

出了在特定向量形式上用位(bit)连续格式比较空间数据集

的方法。马超飞[33](2003)综合LANDSAT卫星ETM数据

以及DEM土地利用等GIS数据,通过Apriori基本算法以及

系列算法修剪,挖掘出地形坡度、植被覆盖、耕地分布与土壤侵蚀强度之间的关联规则。Qin Kun[38](2003)研究了格子

理论和基于格子理论关联规则挖掘算法,并且讨论了光谱特

征挖掘、纹理特征挖掘、形状特征挖掘和空间分布规律挖掘。分析了遥感影像挖掘在自动分类、遥感影像智能恢复方面的应用。

2.5影像变化检测

利用数据挖掘的理论和方法,可从多时相的遥感影像上

挖掘出目标的变化模式。Yamamoto,Takahiro[39](1999)提

出了一个利用3维分割技术检测时态变化的方法。该方法

在现行的多时相和多光谱Landsat TM图像中得到成功应

用。为了检测遥感影像数据中的环境变化,Eklund,Peter[40] (2000)提出了一个挖掘不同来源遥感影像数据的图像理解

方法,着眼于大量图像数据集中的知识发现以满足环境监测

的直接需要。并且提出了一个基于小波理论的分级方案。

该方案集成了用于遥感图像数据知识发现的粗糙集理论和

图像理解技术。Li,J.[41](2001)采用模糊特征进行遥感影

像数据库实施和数据挖掘方面的应用研究。通过综合校正,

地理配准,每日观测和半月最大NDVI这一系列AVHRR影

像的处理,用于建立数据库。试验中NDVI合成影像的特性

是可以覆盖大的地理区域并且适合观察生物量的季节变化。利用模糊对象查询进行诸如异常检测、相似时间序列检测,

达到空间和时态数据挖掘的目的。

Li,Jiang[42](2002)采用监督分类、边缘检测和多边形拟

合技术恢复和表示遥感影像中感兴趣形状。对于校正和配

准的时间序列Landsat MSS影像进行实验。结果表明基于

形状变化检测的方法非常有效。这使得该方法在研究湖泊

对短期气候变化、洪水或干旱等的响应检测方面具有潜在的应用价值。此外,王铮[43](2002)研究了城市土地利用状况

演变预测的地学数据挖掘技术。

2.6高光谱遥感数据挖掘

高光谱遥感数据,以极大的数据量为特征。高光谱信息

挖掘技术是高光谱数据应用延拓与深入的重要环节,其核心

在于光谱信息的挖掘。基于高光谱遥感信息的特点,王晋

年[14](1999)探讨分析了以地物识别与分类为目标的高光谱

数据挖掘技术,包括基于模式识别的高光谱信息挖掘技术、

基于光谱波形特征的挖掘技术以及亚像元光谱信息挖掘。

宫鹏[44](1999)提出结合模式识别方法可通过高光谱遥感影

像对森林进行很好的分类。由于高光谱遥感图像通常涉及

非常大的数据量,因此,提取数据主成分的组分分析对于高

光谱遥感数据挖掘非常有用。最近,人们已经感兴趣图像分

析中独立组份分析(ICA)的应用。ICA能够被看作组分分析

的一种方法。ICA方法用来生成尽可能是统计独立的组分。

Chen C.H.[45](2002)开发了一个节点累积量ICA(JC-ICA)

算法,可以借助神经网络高效的执行。由于它是一个遥感数

据挖掘非常有用的工具,利用该算法特别在高光谱图像分析

中取得了一定效果。张杰林[46](2002)采用多源空间数据挖

掘、弱信息提取、光谱建模及分类识别等关键技术,结合岩

石矿物光谱吸收特征形成机理分析,开展了成像光谱矿物填

图技术的研究。根据实际的成像光谱数据特点与应用需求,

提出成像光谱数据挖掘与矿物填图技术应用流程。野外实

测岩性波谱数据的数据挖掘可以为高光谱遥感建模提供依

据。针对实测波谱数据的特点,张振飞[47](2003)设计了一

种基于Monte Carlo抽样进化机制的CHC(cross generation

elitist selection,heterogeneous,cataclysmic mutation)遗传算法

用于多类岩性判别。此外,Zhang Xiongfei[48](2003)提出了

一套分析高光谱数据的通用数据挖掘方法。在利用数据挖

掘方法深入分析获取的光谱、实验的图像和生物参数间潜在

的关系方面进行了一些基础的探索,并且得到一些预想的结

果。

高光谱数据挖掘当前的主要任务是:基于地物光谱特征

及光谱数据库、知识库,在高光谱超维特征空间中充分挖掘

地物的光谱信息,以达到地物识别的目的,并针对不同的应

用目标发展相应的光谱信息挖掘模型与技术。

3遥感影像数据挖掘的原型系统

面向遥感影像数据挖掘的原型系统还较少。Koperski,

Krzysztof[49](2002)将S-Plus和VisiMine特征结合产生了

一个交互式遥感数据浏览和分析的独特环境。为增强

VisiMine系统的图像信息挖掘功能,Tilton,James C.(2002)

提出了利用分层分割技术把HSEG算法集成到VisiMine系

统中的方法[50]。VisiMine图像信息挖掘系统利用聚类和分

60

遥感信息综述2005.3

摘要:遥感影像数据挖掘是一个有着广阔应用前景的研究领域。由于遥感影像数据库的海量特征,遥感影像数据挖掘已

成为空间数据挖掘的主流。依据遥感影像数据挖掘的方法和目的,从图像索引和检索、图像分类、图像聚类、空间关联规则挖

掘、影像变化检测以及高光谱数据挖掘六个方面对遥感影像数据挖掘的国内外研究现状进行了综述。并指出了遥感影像数

据挖掘和知识发现中应该着力解决和注意的几个问题。

关键词:遥感影像;空间数据挖掘(SDM);知识发现(KDD)

中图分类号:P237.3文献标识码:A文章编号:1000-3177(2005)79-0058-05 1引言

随着遥感影像的爆炸式增长,信息提取的能力与效率已

成为限制遥感应用发展的瓶颈问题。空间数据挖掘(SDM,

Spatial Data Mining)与知识发现(KDD,Knowledge Discovery

from Databases)概念的提出及其理论体系的建立为解决这一

问题提供了一种全新的视角。由于遥感影像数据库的海量

特征,遥感影像数据挖掘已成为空间数据挖掘的主流。数据

挖掘(DM),其前身是知识发现(KDD),属于机器学习的范

畴,也是数据库发展与人工智能技术相结合的产物。一般说

来,KDD侧重目的和结果,而DM侧重于处理过程和方

法[1]。卫星遥感数据库作为数据库的一种,对于赋存其中的

信息处理与识别,自然可以借鉴一般意义上的DM和KDD

技术;而作为图像数据库,有着区别于一般关系数据库和事

务数据库的信息内容,隐含着丰富的时间、光谱和空间信息。

因而,就这类库中的知识发现而言,数据挖掘也应具有特殊

的过程和方法。本文就是对最近几年遥感影像数据挖掘国

内外研究现状的综述。

2遥感影像数据挖掘研究现状

传统的遥感图像处理侧重于目标信息的增强和解译,而

遥感影像数据挖掘侧重于从遥感影像中发现图像目标之间

潜在的和隐藏的有用的模式和规则。遥感影像数据挖掘需

要借助遥感图像处理的方法,但其目的是对遥感影像目标更

高层面的归纳和总结。这是遥感影像数据挖掘和传统遥感

图像处理之间的联系和区别。着眼于遥感数据挖掘理论的

应用成果,本文主要从图像索引和检索、图像分类、图像聚

类、空间关联规则挖掘、多时相影像变化检测以及高光谱数

据挖掘六个方面予以概述。

2.1图像索引和检索

将数据挖掘技术应用于遥感影像库,能够挖掘隐藏在遥

感影像中丰富的时间、空间和光谱知识等规则,为智能信息

处理服务[2]。在图像搜索中,遥感影像分析家面对着海量数

据的困难。Datcu Mihai等[3](2000)开发了一个智能卫星信

息挖掘系统来搜集大数据集中的地理信息。该智能系统允

许通过地理位置、获取时间、传感器类型的查询来获取数据。

Klose Aljoscha等[4](2000)开发了基于结构化的图像分析算

法模型,提出了支持和自动适应变化的图像处理技术。使用

的技术来自对图像属性和最佳参数矢量间关系的数据挖掘。

Ding Qin(2002)讨论了P树结构及其变化的数学特性[5]。

实现了快速的P树生成和操作的运算法则。Heas,

Patrick[6](2003)提出了一个动态场景理解概念,并且应用在

多光谱图像序列上。该挖掘工具能够巡查和发现存在于设

定窗口中的空间-时态模式。随着多维遥感数据量的迅猛

增长,地球科学家需要更加有效的方法来搜索和分析这些数

据。作为完成数据挖掘最有力工具之一的图像内容提取技

术迅速兴起。最有前景的图像内容提取方法之一是图像分

类,图像分类给图像中的每一像素赋予一个标签。Szu

Harold H.[7](1997)提出了把通过小波变换获取的信息集成

到神经网络分类器中的方法。以TM影像作为试验数据集,

利用边缘纹理小波变换的局部分析法,可以生成图像统计纹

理信息,实现图像内容的提取。

2.2图像分类

2.2.1利用决策树方法

决策树是多层分类器的一种方法,可以形成比较复杂的

决策面,此时一个未知类别的像元可以采用一个或者几个决

策函数逐一分级分类成某个特定的类别。决策树分类的模

型要求各种类别之间具有内在的等级归属关系,可以按照其

收稿日期:2004-09-02修订日期:2005-01-09

基金项目:科技部973重大基础研究前期专项(编号:2003CCA02100)和福建省教育厅项目(编号:K04016)资助

作者简介:周小成(1977~)男,陕西渭南人,硕士,实习研究员。主要从事资源与环境遥感应用研究。已发表论文4篇。E-mail:zxcffh@https://www.360docs.net/doc/4011927621.html,

58

Brodley,C.E.,Friedl,Mark A.McIver,Douglas K.Integration of domain knowledge in the form of ancillary map data into supervised classifi-

cation of remotely sensed data[C].International Geoscience and Remote Sensing Symposium(IGARSS),2002(2):1038~1040.

25骆剑承,周成虎.空间逐步寻优的数据挖掘法的多波段影像分类研究[J].地球信息科学,1999(1):52~59.

26Han Ling,Wu Hanning.The Accuracy Test of SeveralClassification Modelsof Remote Sensing Images[C].Proceedingsof the InternationalSym-

posium on Test and Measurement,2003(6):4431~4434.

27林剑,鲍光淑,陈绍求.GlS数据融入遥感图像理解的模型初探[J].物探化探计算技术,2002,24(1):62~67.

28Evangelou I,Hadjimitsis D,Lazakidou A,Clayton C.Data Mining and Knowledge Discovery in Complex Image Data using Artificial Neural Net-

works[C].17th International Conference on Logic Programming ICLP,2001.

29Soh,Leen~Kiat;Tsatsoulis,Costas,Automated sea ice segmentation(ASIS)[C].International Geoscience and Remote Sensing Symposium

(IGARSS),1998(2):586~588.

30Soh,L.-K.;Tsatsoulis,C.Unsupervised segmentation of ERS and radarsat sea ice images using multiresolution peak detection and aggregated

population equalization[J].International Journal of Remote Sensing,1999,20(15):3087~3109.

31Soh,Leen-Kiat;Tsatsoulis,Costas,Segmentation of satellite imagery of natural scenes using data mining[J].IEEE Transactions on Geoscience

and Remote Sensing.1999,37(21):1086~1099.

32Chunyu Zhao,Lingkui Meng,Changqing Huang.The study of relevant techniques for intellectual integration of GIS and RS[C].Proc.ACRS

2001~22nd Asian Conference on Remote Sensing,.2001(2):1285~1290.

33马超飞,刘建强.遥感图像多维量化关联规则挖掘[J].遥感技术与应用,2003,18(4):243~247.

34Zhang Ji,Wynne Hsu,Lee M L.Image mining issues,frameworks,and techniques[C] .Proceedings of the ACM SIGKDD.International Con-

ference on Knowledge Discovery&Data Mining(KDD22001),2001.

35颜雪松,蔡之华.一种基于图像的关联规则发现算法的研究[J] .计算机工程与应用,2003,39(2):209~211.

36李雄飞,宋海玉,谢忠时,等.图像数据挖掘模型与方法[J].吉林大学学报(工学版),2002,32(1):90~92.

37Zequn,G.Scan patterns for association rule mining of image data[C].Proceedings of SPIE-The International Society for Optical Engineering,

2003(4898):212~219.

38Qin Kun,Guan Zequn,Li Deren.The Methods of Remote Sensing Image Mining Based on Concept Lattice.Proceedings of SPIE-The Inter-

national Society for Optical Engineering,2003,5286(1):254~259.

39Yamamoto,Takahiro;Hanaizumi,Hiroshi.Change detection method for remotely sensed multi-spectral and multi-temporal images using 3-

D segmentation[C].International Geoscience and Remote Sensing Symposium(IGARSS),1999(1):77~79.

40Eklund,Peter;You,Jane;Deer,Peter,Mining remote sensing image data:An integration of fuzzy set theory and image understanding tech-

niques for environmental change detection[C].Proceedings of SPIE-The International Society for Optical Engineering,2000(4057):265~

272.

41Li,J.;Narayanan,R.M.;Waltman,W.J.;Peters,A.J.Fuzzy feature-based image mining in remote sensing[C].Proceedings of SPIE-

The International Societ for Optical Engineering,.2001(4384):46~55.

42Li,Jiang;Narayanan,Ram M.Shape-based change detection and information mining in remote sensing[C].International Geoscience and Re-

mote Sensing Symposium(IGARSS),2002(2):1035~1037.

43王铮,吴健平,邓悦.城市土地利用演变信息的数据挖掘———以上海市为例[J].地理研究,2002,21(6):675~681.

44宫鹏.遥感生态测量学进展〔J〕.自然资源学报.1999,14(4):313~317.

45Chen C.H..The use of independent component analysis as a tool for data mining[C].International Geoscience and Remote Sensing Symposium

(IGARSS).2002(2):1032~1034.

46张杰林,曹代勇.成像光谱数据挖掘与矿物填图技术研究[J].遥感技术与应用,2002,17(5):259~263.

47张振飞,胡光道,杨明国.基于进化策略的CHC遗传算法及岩性波谱识别[J].地球科学—中国地质大学学报,2003,28(3):351~355.

48Zhang XiongFei,Li Xing,Zhang Xia.The preliminary research in using the technology of data

mining to analyze the remote sensing data[C].Pro-

ceedings of SPIE-The International Society for Optical Engineering,2003(2):980~985.

49Koperski,Krzysztof;Marchisio,Giovanni;Aksoy,Selim;Tusk,Carsten..Applicationsof terrain and sensor data fusion in image mining[C].In-

ternational Geoscience and Remote Sensing Symposium(IGARSS),2002(2):1026~1028.

50Tilton,James C.;Marchisio,Giovanni.Image information mining utilizing hierarchical segmentation[C].International Geoscience and Remote

Sensing Symposium(IGARSS),2002(2):1029~1031.

51Hinke,T.H.;Novotny,J.Data mining on NASA's Information Power Grid[C].Proceedings of The Ninth International Symposium on High

-Performance Distributed Computing,2000.292~293.

52Marchisio,G.B.;Koperski,K.;Sanella,M.Querying remote sensing and GIS repositories with spatial association rules[C].IEEE Geoscience

and Remote Sensing Symposium,IGARSS 2000(7):3054~3056.

53Durbha,Surya S.King,Roger L.,Wasson.Virtual remote sensing:A holistic modeling approach.InternationalGeoscience and Remote Sensing

Symposium(IGARSS)[C].2002(2):723~725. (下转第42页)

62

遥感信息综述2005.3

取煤火信息还不精确,必须结合煤田分布、地质条件以及实

地勘查验证,对遥感影像圈定的煤火信息进行修正,缩小煤

火靶区。

(3)由于热红外波段的分辨率不高,影响了煤火区地面

实际定位的精度。如果换用航空热红外数据,或者是用高光

谱数据(如ASTER)结合高空间分辨率数据(如QUICK-

BIRD/IKONOS)效果可能更好。

参考文献

1吕鸿.中德连手向煤火开战.人民网.https://www.360docs.net/doc/4011927621.html,/BIG5/guoji/1030/2080423.html

2 A.PRAKASH,R.GENS and Z.VEKERDY.Monitoring coal fires using multi-temporal night-time thermal images in a coalfield in north-

west China[J].Int.J.Remote Sensing,1999,20(14):2883~2888.

3 A.PRAKASH,E.J.FIELDING,R.GENS.Data fusion for investigating land subsidence and coal fire hazards in a coal mining area[J].Int.

J.Remote Sensing,2001,22(6):921~932.

4康高峰,雷学武,万余庆,等.遥感技术在煤矿区地质灾害中的应用[J].中国煤田地质,2000,12(2):23~25.

5万余庆,闫永忠.高光谱技术在汝箕沟煤田烧变岩和Fe3+丰度信息提取中的方法研究[J].国土资源遥感,2003,56(2):50~54.

6吴君丽,赵伟,刘俊荣.CBERS-1卫星IRMSS数据在中国北方汝箕沟煤田煤层自燃区遥感分析中的试应用研究[J].航天返回与遥感,

2001,22(2):59~64.

7雷学武,万余庆,李宝春.乌达矿区煤层自燃现状及成因初析[J].中国煤田地质,1999,11(4).

8吴德文,张远飞,朱谷昌.遥感图像岩石信息提取的最优密度分割方法[J].国土资源遥感,2002(4):51~54.

A Research on Coalfield Fire Monitoring in Wuda Mining Area

at Inner Mongolia Based on Remote Sensing and GIS

JIANG Wei-guo①,LI Jia-hong②,LI Jing①,YANG Bo①,ZHANG Song-mei①②

(①College ofResources Science&Technology,Beijing Normal University,Beijing100875,China;

②National Remote Sensing Center ofChina,Beijing100036,China)

Abstract:Coalfield fire information is extracted by use of thermal infrared and multi-spectrum image data of Landsat TM in 1997 and

ETM+in 2002.The development situation of coalfield fire areas in different periods is analyzed and determined with the help of GIS

overlay function.The result indicates that the coalfield fire conditions in Wuda coal mining area at Inner Mongolia have remarkably

changed during the past years from 1997 to 2002.The area of coalfield fire has expanded,and its intensity enhanced gradually.The

increased area has reached up to 0..16 km2per year.

Key words:remote sensing;geographic information system;thermal infrared image;Wuda mining area;coalfield fire monitoring

(上接第62页)

An Overview about Study in Data Mining from Remote Sensing Images

ZHOU Xiao-cheng①,WANG Xiao-qin②

(①Spatial Information Research Center ofFujian Province,Fuzhou University,Fuzhou350002,China;

②Key LaboratoryofData Mining and Information Share Education Department in Fuzhou University,Fuzhou350002,China)

Abstract:Data mining from remote sensing images which is characteristic of huge data amounts is a study domain with broad applica-

tions and becomes its mainstream.Focus on the latest development of data mining in the country and abroad,the paper summaris the

advance into six aspects,namely:search,image classification,image clustering,spatial associate rule,change detection and hyper-

spectral remote sensing image respectively.Finally,a few problems which should be solved and pay attention to in data mining from

remote sensing image are discussed.

Key words:remote sensing image;spatial data mining;knowledge discovery from databases

42

遥感信息应用技术2005.3

数据挖掘研究的现状与发展趋势_郑继刚

数据挖掘研究的现状与发展趋势 郑继刚,王边疆 (保山学院数学系,云南保山678000) 影响其空间分布的因素之间的关系;预测型的模 型用来根据给定的一些属性预测某些属性,如分类模 型和回归模型等. 目前,主要在空间数据挖掘的体系结构和挖掘过 程做了大量研究,包括面向对象的空间数据库的数据 挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类 挖掘、挖掘空间数据的偏离和演变规则、基于多专题 地图的挖掘、交叉概化、基于时空数据的概化、并行数 据挖掘、统计分析与数据挖掘的协同和遥感影像的挖 掘等,主要采用了基于统计学和概率论、集合论、机器 学习、仿生物学、地球信息学的研究方法. 4.2多媒体数据挖掘 多媒体数据,包括图形、图像、文本、文档、超文 本、声音、视频和音频数据等,数据类型复杂.随着信 息技术的进步,人们所接触的数据形式越来越丰富, 多媒体数据的大量涌现,形成了很多海量的多媒体数 据库[8].这些数据大多是非结构化数据、异构数据, 特征向量通常是数十维甚至数百维,转化为结构数据 和降维成了多媒体数据挖掘的关键技术. 有研究者提出了多媒体数据挖掘的系统原型 MDMP,将多媒体数据的建模表示、存储和检索等多 媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联 规则挖掘、分类与聚类分析等挖掘方法,广泛地应用 于医学影像诊断分析、卫星图片分析、地下矿藏预测 等各种领域. 4.3时序数据挖掘 时序数据挖掘通过研究信息的时间特性,深入洞 悉事物进化的机制,揭示其内在规律(如波动的周期、 振幅、趋势的种类等),成为获得知识的有效途径.关 键问题是要是寻找一种合适的序列表示方式,基于点 距离和关键点是常用的算法,但都不能完整表示出序 列的动态属性.时序数据挖掘的主要技术有趋势分析 和相似搜索,在宏观的经济预测、市场营销、客流量分 析、太阳黑子数、月降水量、河流流量、股票价格波动 等众多领域得到了应用.

伦敦大学学院时空分析和大数据挖掘授课型研究生申请要求

伦敦大学学院 时空分析和大数据挖掘授课型研究生申请要求

伦敦大学学院简介 学校名称伦敦大学学院 学校英文名称University College London 学校位置英国 | 英格兰 | 伦敦 2020 QS 世界排名8 伦敦大学学院概述 伦敦大学学院(University College London),英文简称UCL,建校于1826年,位于英国伦敦,世界著名的顶尖高等学府,为享有顶级声誉的综合研究型大学,其排名稳居世界各类权威榜单英国前五。 伦敦大学学院位居2020QS世界大学排名世界第8 ,2020泰晤士高等教育世界大学排名世界第15,2020USNews世界大学排名世界第21 , 2019软科世界大学学术排名(ARWU)世界第15 ,在REF 2014 英国大学官方排名中科研实力以及影响力均位列全英第1 。同时位列2018ARWU学科排名医疗技术世界第2,心理学、人体生命科学世界第3;2019QS学科排名中教育学、建筑学世界第1,人类学、考古学、解剖生理学世界前5 , 时空分析和大数据挖掘专业简介 时空分析和大数据挖掘 时空分析和大数据挖掘专业相关信息 专业名称时空分析和大数据挖掘 专业英文名称Spatio-temporal Analytics and Big Data Mining MSc 隶属学院工程科学学院 学制1年 语言要求雅思6.5(6)托福92(读写24听说20) GMAT/GRE 要求不需要

2020 Fall 申请时间11月 学费(当地货币)28,530 时空分析和大数据挖掘课程内容 序号课程中文名称课程英文名称 1 * 伦敦大学学院时空分析和大数据挖掘研究生申请要求由 Mastermate 收集并整理,如果发现疏漏,请以学校官网为准

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

遥感数据特征

常用遥感数据特征总结 按照遥感平台类型,遥感技术可以分为航宇遥感、航天遥感、航空遥感、地面遥感四类。其中航天遥感平台发展最快,应用最广。很据航天遥感平台的服务内容,可以将其分为气象卫星系列、陆地卫星系列和海洋卫星系列。不同的卫星系列所获得的遥感数据有着不同的特征,常常应用于不同的应用领域,在进行检测研究时,常常根据不同的卫星资料特点,选择不同的遥感数据。下文简单总结了几种常用的航天遥感数据特征。 1 气象卫星系列 气象卫星是最早发张起来的环境卫星。从1960年美国发射第一颗实验性气象卫星(TIROS)以来,已经有多种实验性或者业务性气象卫星进入不同轨道。气象卫星资料已经在气象预报、气象研究、资源调查海洋研究等方面显示出了强大的生命力。 气象卫星主要有以下几种系列:60年代——TIROS系列、ESSA系列、Nimus 系列;70年代——ITOS系列、NOAA系列、SMS系列、GOES系列、MeteopII、GMS、Meteosat;80年代后,主要以NOAA系列为代表。我国的气象卫星发展比较晚,FY-1是我国发射的第一颗1988年9月7日发射成功。气象卫星主要有以下特征。 (1)轨道。气象卫星轨道可以分为两种,低轨和高轨。低轨是近极低太阳同步轨道,简称极地轨道,轨道高度800~1600km,南北向绕地球运转。对东西宽约2800km的带状地域进行观测,由于与太阳同步,使卫星每天在固定的时间经过每个地方的上空,资料获得时具有相同的照明条件。高轨是指地球同步轨道,轨道高度36000km左右,相对于地球静止,能够观测地球1/4的面积,有3—4颗卫星形成观测网,对某一固定地区,每隔20~30min获取一次资料,由于它相对于地球静止,可以作为通讯中继站,用于传送各种天气资料。 (2)短周期重复观测。地球同步卫星观测周期为0.5小时一次,极轨卫星为约为0.5~1天/次,时间分辨率较高。有助于对地面快速变化的动态检测。 (3)成像面积大,有助于获得宏观同步信息,减少数据处理容量。 (4)资源来源连续、实时性强、成本低 NOAA系列。 NOAA-11卫星:发射日期1988年9月24日,正式运行日期1988年11月8日,轨道高度841公里,轨道倾角98.9度,轨道周期:101.8分。 NOAA-12卫星:发射日期1991年5月14日,正式运行日期1991年9月17日轨道高度804公里,轨道倾角98.6度,轨道周期101.1分。 NOAA-14卫星:发射日期1994年12月30日,正式运行日期1985年4月10日,轨道高度845公里,轨道倾角99.1度,轨道周期101.9分。 NOAA-15卫星:发射日期1998年5月13日,正式运行日期1998年12月15日轨道高度808公里,轨道倾角98.6度,轨道周期101.2分。 NOAA-16卫星:发射日期2000年9月12日,正式运行日期2001年3月20日,轨道高度850公里,轨道倾角98.9度,轨道周期102.1分。

时空关联性分析方法研究与应用

时空关联性分析方法研究与应用 摘要:随着信息技术、通讯技术、数字存储技术和高速数据获取技术的迅猛发展,在交通、电力、物流、环境监控、工业生产等领域积累了大量与时间和地理空间相关的数据资源,可这些随时随地获取的、呈爆炸性增长的数据资源在给我们带来丰富信息的同时,“数据越丰富,知识越贫乏”的问题则日益突出。近年来,越来越多的学者认识到,通过研究空间对象随时间的变化规律,发现数据的时空关联规则,分析数据的时空变化趋势并预测未来的时空状态,对于规划建设、指挥调度、应急管理、信息服务等具有重要的应用价值。本文研究的目的是面向智能交通领域,在时空关联性分析基础上,利用时空关联规则挖掘方法获取含时空约束的关联规则,从而进行交通拥堵趋势分析,为道路导航、趋势查询、交通控制等提供辅助决策信息。时空关联性分析是研究空间对象随时间的变化规律,反映时空数据在时间和空间上的关联性,时空关联规则挖掘作为时空关联性分析的主要方法之一,目前已有不少学者对其进行了研究或应用。本文详细介绍了时空关联规则挖掘的研究现状,通过分析现有时空关联规则算法在同时考虑时间和空间约束方面的不足,实现了一种新的时空关联规则挖掘方法。文中首先对时空数据进行空间关联性分析和时间段划分形成事务表,然后对空间关联的项集进行连接并产生时空关联规则。在算法执行过程中,对关联规则挖掘相关的阈值进行了分析,使挖掘所得的结果能更好的满足用户的需求。算法分析和实验对比表明,同时考虑时间和空间约束,能够在分析过程中及时过滤不相关的数据,提高时空关联规则的获取效率,能够有效地发现时空关联规则。在理论研究的基础上,本文设计并实现了一个基于时空关联规则分析交通拥堵趋势的原型系统,可有效地实现时空关联性分析和结果的可视化。 关键词:时空关联性分析,时空关联规则,可视化,阈值分析,交通拥堵 时空关联性分析绪论 当前像气象预报、环境监测和交通控制等领域,在问题的求解过程中越来越需要同时考虑时间和空间因素,而时空关联性分析的目标就是明确时空数据的时间有效性和空间可达性,从而在时间和空间上进行有效的趋势分析和预测。时空关联规则挖掘作为时空关联性分析的主要方法之一,将作为本文研究的重点,用时空关联规则挖掘方法来分析含时间和空间约束的时空关联性,从而进行趋势分析与预测。本章首先阐述了时空关联规则的研究背景,并介绍了国内外学者和研究人员在时空关

利用主题模型的遥感图像场景分类

第36卷第5期2011年5月武汉大学学报#信息科学版 Geo matics and Informat ion Science of W uhan U niver sity V ol.36N o.5M ay 2011 收稿日期:2011-03-15。 项目来源:国家自然科学基金资助项目(40801183,60890074)。 文章编号:1671-8860(2011)05-0540-04文献标志码:A 利用主题模型的遥感图像场景分类 徐 侃1 杨 文1 陈丽君1 孙 洪1 (1 武汉大学电子信息学院,武汉市珞喻路129号,430079) 摘 要:提出了一种基于主题模型与特征组合相结合的遥感图像分类方法。该方法首先对图像进行尺度不变特征变换(SIF T )、几何模糊特征(G B)和颜色直方图特征(CH )提取,接着利用潜在概率语义分析(pL SA )模型分别对所得到的图像特征进行潜在主题的挖掘,然后对所得到的主题概率特征进行组合,最后利用支持向量机(SV M )分类器进行场景分类。实验表明,与传统分类方法相比,主题模型更具优势;与使用单特征相比,特征组合具有更高的分类准确率。 关键词:场景分类;特征组合;pL SA 模型;支持向量机中图法分类号:P237.4 近年来,为了跨越底层视觉特征与高层语义之间的障碍,使用中间语义来对场景进行分类的方法受到了广泛的关注。然而,中间语义的生成通常需要大量的人工标注样本。为了克服这一困难,一些文本主题模型的方法被应用到图像场景分类之中[1-4] ,这些方法可以将高维度的特征向量变换到低维度的潜在语义空间之上。但是,由于主题分析模型是根据图像中视觉词汇出现的总体情况来进行分析的,所以这种方法并没有考虑到视觉词汇在空间的分布特点,同时图像特征的使用也仅限于单一的特征。对于数量及分辨率都迅速增长的遥感图像而言,相对应的场景与地物类别也与日俱增,这使得人们对分类方法有了更高的要求[5-8]。本文提出了一种将主题模型与特征组合相结合的遥感图像分类方法。 1 图像特征 目前用于图像分类的特征主要包括纹理、颜色、形状、空间位置以及上下文先验信息特征等,这些特征在对图像进行表达时都有各自的侧重点。本文实验中主要使用三种特征的互补性分别对图像的结构、颜色和边缘进行描述,并将它们组合之后用于图像分类。1尺度不变特征变换(scale -inv ariant feature transform,SIFT )[5]。构 造SIFT 描述算子时,以关键点为中心选取一个16@16的像素区域,将其划分为4@4个子块,分 别在每个子块上计算8个方向的梯度直方图,最后产生的SIFT 特征向量就有16@8=128维。o颜色直方图(colorhist,CH )。基于不同的颜色空间,可统计出不同的颜色直方图。本文采用RGB 颜色空间,其中各通道上的直方图维数为40,然后将所得直方图串联,最终形成120维的颜色直方图特征。?几何模糊特征(g eo metr ic blur,GB)[9]。本文先对图像进行边缘提取,得到稀疏信号,然后分别在三个通道上利用高斯核函数与图像卷积计算GB 描述子。各通道上的维数均为68,将其串联得到204维的GB 特征。 2 语义模型 由于计算机与人对图像信息的理解存在着客观区别,因而语义提取的有效性从很大程度上影响了图像分类的准确性,因此,越来越多的语义模型被引入到图像分类中来。目前被广泛使用的两种语义模型pLSA (pr obabilistic latent semantic analysis)和LDA (latent dirichlet analy sis)都属于将特征向量降维到潜在语义空间上的生成模型。在降维之前,实验中所使用的三种特征组合起来共有128+120+204=452维。而在经过语

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。 关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势 Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining. Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency 1引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 江西理工大学

常见国产卫星遥感影像数据的简介

北京揽宇方圆信息技术有限公司 常见国产卫星遥感影像数据的简介 本文介绍了常见国产卫星数据的简介、数据时间、传感器类型、分辨率等情况。 中国资源卫星应用中心产品级别说明 ◆1A级和1C级产品均为相对辐射校正产品,只是不同卫星选用的生产参数不同。 ◆2级,2A级和2C级产品均为系统几何校正产品,只是不同卫星选用的生产参数不同。 其中: ■GF-1卫星和ZY3卫星归档产品为1A级,ZY1-02C卫星数据归档产品级别为1C级,其他卫星归档级别为2级! ◆归档产品是指:该类产品已经存在于系统中,仅需要从存储系统中迁移出来.即可供用户下载的数据。 ◆生产产品是指:该类产品不是已经存在的产品,需要对原始数据产品进行生产,然后再提供给用户下载的数据。

■当用户需要的产品级别是上述归档的级别,直接选择相应的产品级别,然后查询即可! ■当用户需要的产品级别不是上述归档的级别,就需要进行生产.本系统提供GF-1卫星和ZY3卫星2A级的生产产品,ZY1-02C卫星2C级的生产产品,在选择需要的级别查询后,无论有没有数据,在查询结果页上方有一个“查询0级景”按钮,点击此按钮后,进行数据查询,如果有数据,选择需要的产品直接订购,即可选择需要的产品级别。 国产卫星 一、GF-3(高分3号) 1.简介 2016年8月10日6时55分,高分三号卫星在太原卫星发射中心用长征四号丙运载火箭成功发射升空。 高分三号卫星是中国高分专项工程的一颗遥感卫星,为1米分辨率雷达遥感卫星,也是中国首颗分辨率达到1米的C频段多极化合成孔径雷达(SAR)成像卫星,由中国航天科技集团公司研制。 2.数据时间 2016年8月10日-现在 3.传感器 SAR:1米 二、ZY3-02(资源三号02星) 1.简介 资源三号02星(ZY3-02)于2016年5月30日11时17分,在我国在太原卫星发射中心用长征四号乙运载火箭成功将资源三号02星发射升空。这将是我国首次实现自主民用立体测绘双星组网运行,形成业务观测星座,

SPOT卫星遥感影像数据基本参数

SPOT5遥感卫星基本参数 北京揽宇方圆信息技术有限公司 前言: 遥感传感器是获取遥感数据的关键设备,由于设计和获取数据的特点不同,传感器的种类也就繁多,就其基本结构原理来看,目前遥感中使用的传感器大体上可分为如下一些类型:(1)摄影类型的传感器; (2)扫描成像类型的传感器; (3)雷达成像类型的传感器; (4)非图像类型的传感器。 无论哪种类型遥感传感器,它们都由如下图所示的基本部分组成: 1、收集器:收集地物辐射来的能量。具体的元件如透镜组、反射镜组、天线等。 2、探测器:将收集的辐射能转变成化学能或电能。具体的无器件如感光胶片、光电管、光敏和热敏探测元件、共振腔谐振器等。 3、处理器:对收集的信号进行处理。如显影、定影、信号放大、变换、校正和编码等。具体的处理器类型有摄影处理装置和电子处理装置。 4、输出器:输出获取的数据。输出器类型有扫描晒像仪、阴极射线管、电视显像管、磁带记录仪、XY彩色喷笔记录仪等等。 虽然不同卫星的基本组成部分是相同的,但是由于,各个组成部分的具体构造的精细度又是不同的,的,所以不同的卫星具有不同的分辨率。 一、法国SPOT卫星 法国SPOT-4卫星轨道参数: 轨道高度:832公里 轨道倾角:98.721o 轨道周期:101.469分/圈 重复周期:369圈/26天 降交点时间:上午10:30分 扫描带宽度:60 公里 两侧侧视:+/-27o 扫描带宽:950公里 波谱范围: 多光谱XI B1 0.50 – 0.59um 20米分辨率B2 0.61 – 0.68um B3 0.78 – 0.89um SWIR 1.58 – 1.75um

遥感影像数据挖掘研究进展_周小成

遥感影像数据挖掘研究进展 周小成,汪小钦 (福州大学福建省空间信息工程研究中心,数据挖掘与信息共享教育部重点实验室,福州350002) 逐一细化成精细类别,通过加入决策函数一步一步地进 行分类。典型的决策树方法有分类回归树(CART)、ID3、 C5.0等。与传统的单层最大似然法分类器相比,决策树可 以在不同的分类等级与节点上采用不同的特征子集,甚至可 以采用不同的分类器;可以选用较少的特征,避免高维数据 带来的系列问题[14]。在实际中,一般类别都交错分布,在这 种情况下,可以采用空间分割聚类的方法,即分割线两边在 当前情况下具有最大的对比度,子集内可以有多个类型分 布而不再要求分割到单个的类别[15]。 利用数据挖掘技术从GIS和遥感影像中发现知识,可以 改善土地利用分类的精度。Huang[16](1997)等用C4.5算法 从GIS数据和SPOT多光谱图像数据中提取知识进行湿地 分类。Eklund,et al.[17](1998)在土壤盐碱度分析中,采用 C4.5归纳学习算法从TM图像和地图数据提取到相关知 识。布和敖斯尔[18](1999)提出了基于知识发现和决策规则 基础的盐碱地GIS和遥感分类的方法。Deren LI[19](2000) 提出了空间对象尺度和像素尺度两个学习尺度用于从空间 数据中归纳学习。用C5.0归纳学习算法发现有关空间分布 模式和形状特征规则,然后用总结的模式对图像重新分类。 通过与单纯Bayes分类结果的比较,总体分类精度大大提高。 潘永生[20](2002)利用改进的决策树算法和修剪算法对乳腺 疾病图像进行数据挖掘,证明了决策树算法在医学图像数据 挖掘领域有着广泛的应用前景。 2.2.2利用空间知识规则辅助分类 利用空间数据挖掘理论挖掘的空间关联规则、空间特征 规则、空间聚类规则等空间知识规则可以提高遥感解译的可 靠性、精度和速度[21]。如森林迹地海拔高于100m,居民地 和道路相连等。王雷[22](2001)利用遥感影像分类获取的地 物类型分别与坡向叠加,生成坡向直方图。发现旱地偏东向 的频率较高,居民地则是偏南向的频率较高。这种方法提高 了遥感非监督分类的效率与可靠性,有助于地学规律的发现 与描述。杨存建[23](2001)通过对不同类型居民地的遥感影 像特征、光谱特征和空间关系分析,从而发现居民地的光谱 特征知识、空间关系知识,建立了基于知识的遥感图像居民

基于时空数据挖掘的案事件时空分析研究开题报告

如文档对您有帮助,欢迎下载支持,谢谢! 福州大学硕士研究生论文开题报告

一、论文选题依据(包括本课题国内外研究现状述评,研究的理论与实际意义,对科技、经济和社会发展的作用等) 1. 选题依据 1.1研究背景 上世纪90年代以来,为适应全球信息高速公路建设的潮流,我国先后启动了面向政府办公业务的十二个重点信息应用系统工程,简称“十二金工程”[1]。公安信息化工程(即“金盾工程”)就是其中重要的业务系统之一。经过十几年的发展,基本实现了以全国犯罪信息中心(CCIC)为核心,以各项公安业务应用为基础的信息共享和综合利用,为各项公安工作提供强有力的信息支持。与此同时,公安信息系统中也积累了海量的业务信息,其中案事件信息达数百万条,且以每年100至120万条的速度递增[2]。 然而,面对日益庞大的案事件信息和日趋复杂的犯罪形势,以传统的查询、统计等方法和技术很难发现其中隐藏的关联、规律和发展趋势,数据丰富而知识贫乏在相当程度上制约了打击预防犯罪工作的开展。近年来,大数据成为新的创新、竞争和生产力的前沿领域,基于案事件全量大数据的获取、组织、管理和利用为解决上述问题提供了机遇,提出了挑战。因此,利用案事件大数据,分析、挖掘犯罪在空间和时间上的分布规律和变化趋势,获得其隐含的知识和洞察力,为制定犯罪控制策略、识别犯罪模式、优化警力部署和警区规划等提供科学依据,从而增强公安部门打击预防犯罪的能力,提高警务决策水平,具有重要的意义。 1.2 研究意义 案事件的发生与所处的社会、经济、人口和环境之间构成一个复杂系统[3-4]。犯罪问题也是一个复杂的社会问题,受社会环境、经济、人口、文化、心理等多种因素的共同影响,所以可以认为案事件在微观上的技术、手段和宏观上的时空分布规律的变化存在着所处社会环境的表征。以边沁(Jeremy Bentham)为代表的古典犯罪学派和犯罪学之父龙勃罗梭(Cesare Lombroso)开创的实证学派都对犯罪成因做了相关研究。菲利(Enrico Ferri)还系统提出了犯罪原因三元论:人类学因素、自然因素和社会因素[5],李斯特(Frantz von Liszt)认为自然因素只是社会因素的一种,主张二元论,即社会因素和个人因素[6]。这些理论只能定性地说明和解释犯罪行为产生的原因,包括现代犯罪成因研究采用多元回归等统计方法建立的各种犯罪学模型也只能在一定意义上验证已有理论,定量解释和预测较大时间、空间跨度下犯罪行为的变化趋势[7],且具有一定的滞后性,而对于小范围、中短期警务决策所起的作用微乎其微。 以往对案事件的分布研究主要集中于对犯罪空间集聚情况的识别与探测,对时间信息没有充分利用和深度挖掘[8-9],越来越多的研究者发现,案事件从大时间尺度到小时间尺度都表现出一些季节性、周期性甚至是昼夜更替的时间分布特征,犯罪时空分布研究领域也越来越受到关注[10]。时空数据挖掘作为一个新兴的研究领域,正致力于开发和应用新兴的计算技术来分析海量、高维的时空数据,揭示时空数据中的有价

遥感影像数据产品级别

遥感影像数据产品级别 卫星数据服务商北揽宇方圆信息技术有限公司是国内规模最大、服务最稳定、服务质量最高的卫星影像数据综合应用服务企业,一直致力于为用户提供全球中、高分辨率卫星影像数据及基于遥感数据的应用服务。多颗国际领先的高分辨率遥感卫星数据资源,这些卫星群能够以极快地速度为用户提供全球各地的超高分辨率影像。 0级:经数据重构,未进行任何处理的原始数据;所有的通信信息(比如:同步帧、通信头和重复数据)被移除。 1A级:经数据重构,具有时间参考、辅助信息(包括辐射、几何校正系数等)以及地理坐标参数等(如:平台星历等,并没有应用于0级产品)的未进行任何处理的原始数据。 1B级:在1A级产品的基础上处理至传感器单元(并不是所有数据都有L1B级数据)。 2级: 与1级数据具有相同分辨率和位置的地球物理参量数据产品。 3级: 投影至统一时空格网尺度,通常具有一定完整性和一致性的数据产品。4级: 模型输出结果或从低级数据分析得到的结果。 该分级体系的一个重要方面是它的每一级是积累的,新的一个级别是由其下一级别生成同时它也是上一级产品的输入数据。0级数据基本上是原始的、未经任何处理的仪器和传感器数据。虽然它是基本的数据级别,但我们通常不会使用它,对传感器本身准确性和敏感性比较感兴趣的人将会是它的用户。0级数据的主要作用是作为数据处理链中的原始数据被用来生成更高级别的数据产品。1级数据可以恢复为0级,同时1级数据也是生成更高级别数据的基础。 2级数据可直接用于大多数的科学研究。相对于1级数据来说,2级数据可能由于某些原因(比如:在空间尺度或光谱范围等方面做了缩减)要小一些。3级产品可能会更小,以便其更容易被使用,同时规则的空间和时间组织使得这些数据更容易与不同数据源的数据结合使用。一般地,随着处理技术的改进,数据集本身将会变得更小,但其在科学应用中的价值和效用将会变的更大。 对于遥感影像预处理类型和程度来说,采用统一的处理级别体系来描述其优

数据挖掘在化学化工中的研究进展

数据挖掘在化学化工中的研究进展 发表时间:2018-09-18T20:57:39.343Z 来源:《基层建设》2018年第23期作者:韦丽群 [导读] 摘要:作为一项交叉学科,数据挖掘在当今的大数据时代已经被应用到很多的领域之中,并且发挥着显著的作用。 广州正虹环境科技有限公司广东广州 510530 摘要:作为一项交叉学科,数据挖掘在当今的大数据时代已经被应用到很多的领域之中,并且发挥着显著的作用。随着数据挖掘在化学化工这一领域中的广泛应用,有效的使这一领域实现了研究思路以及研究手段的进一步丰富。极大的推动了化学领域的良好发展,为当今时代的经济以及科技的进一步发展极大程度的提供了有利条件。本文就是对数据挖掘在化学化工中的研究进展进行分析,希望可以起到良好的作用。 关键词:数据挖掘;化学化工;研究进展 近年来,随着经济以及科技的进一步发展,数据技术也取得了不断的发展,因此在各个行业中也都积累了大量的数据。随着大数据时代的到来,表面的数据已经难以满足人们对数据的进一步需求,因此数据挖掘也就被各个行业进行了广泛的应用,进而取得了进一步的发展。尤其是对于化学化工领域而言,数据挖掘的应用实现了其研究思路以及研究手段的进一步创新,有效的促进了化学化工业的良好发展。本文就是对其在化学化工领域中的应用以及发展进行研究。 图1 一、数据挖掘在化工建模中的应用 在化工领域中,化工建模一直都是一项难度较大的内容。在实际的建模过程中往往会因为很多条件以及因素的交互性或者是非线性对系统造成影响,一次就是化工建模的难度进一步加大。但是随着数据挖掘这一技术在化学化工领域中的应用,凭借其算法丰富的优势使得化工建模实现了进一步的优化。将神经网络算法在化工建模中进行合理的应用,能够对任意的非线性映射以任意的精度来逼近,这样就可以实现对含噪声以及非线性的数据进行更加有效的处理;将遗传算法在化工建模中进行合理的应用,可以在不需要对问题模型的相关特征进行依赖的情况下来实现对非线性问题的良好解决,这样解决问题的方式在鲁棒性以及全局性的方面都有着最佳的优势,使化工建模的效率实现了进一步的提高,同时使其并行性的特点得以实现;主元分析在化工建模中的合理应用,通过对数据的简化、对数据的压缩、对数据的建模等来实现对非线性数据的有效解决;偏最小二乘法在化工建模中的合理应用,使得自变量的回归建模以及多变量的回归建模发挥出更加显著的优势[1]。 二、数据挖掘使化工工艺条件的应用实现了进一步的优化 数据挖掘技术在化学化工领域中的合理应用,可以在海量的高维、交互以及无序的自变量的数据库里对潜在的因变量信息以及能够导向的因变量信息进行发现。数据挖掘技术在化学化工中的应用,通过对聚类算法、分类决策树算法以及分类树算法等进行合理的应用,来实现对多维的无序自变量以及特定的因变量进行最优选择。数据挖掘这一特点在化学化工中的合理应用,将会使化工工艺实现进一步的优化。其自变量可以是多维的工艺条件以及非线性的工艺条件,因变量是特定的化学工艺结果,因此应用数据挖掘技术可以实现对不同算法的进一步优化,这样就可以科学的对最佳工艺条件进行确定。 三、数据挖掘在数据库平台的应用 数据库就是一个对决策的过程、集成以及交互都实现支持以及管理的数据集合。数据挖掘技术在数据库平台的应用,对于大量的无序数据以及非线性数据,可以采用关联、聚类、模糊集、最小冗余以及最大权重等的特征算法进行应用,来实现对非线性数据信息的系统进行整合。数据挖掘技术在化学化工中的应用,可以使人们在对各种数据之间的关联进行分析以及查找的时候,通过人机交互界面来更加直观、更加简洁的呈现,进一步为这项工作的实施提供了便利,同时可以将模糊偏好有效的引入到数据信息查找的条件之中,这样就可以有效的使搜索结果在灵活性方面得以显著的提高。因此,数据挖掘技术在数据库平台中的应用,可以有效的实现对化工数据的聚类以及关联,从而有效的实现对化工数据库的建立以及对化工的应用软件进行进一步的开发,因此这也是数据挖掘技术应用在化学化工领域之中的一个热点内容[2]。 四、数据挖掘在化学化工安全生产中的应用 化学化工企业是最容易发生安全事故的企业,所以化学化工的安全生产一直都是人们所广泛关注的话题。采用传统的方法对化学化工生产中的安全事故不能做到有效的预防和控制,只能够小心谨慎的进行安全事故的监控与排查,所以对于化学化工企业的安全事故而言,传统的办法都太过被动,因此在对化学化工安全事故进行控制的过程中也没有取得满意的效果,导致化学化工企业在生产的过程中,安全事故频频发生[3]。 随着近年来数据挖掘技术被应用到化学化工的领域之中,并且取得了良好的发展,使的化学化工企业的安全事故得到了有效的控制,因此也就进一步的实现了化学化工企业的按安全生产。随着模糊理论以及Bayes的主观算法等科学应用,使得不确定性的推理方法被数据挖掘技术也有效的提供,进而实现了对安全事故在其发生的原因以及发生的征兆间进行随机性的以及模糊性的不确定关系的有效研究。将化工厂对大量运行数据的储存作为依据,将数据挖掘技术在特定算法方面进行科学合理的运用,来实现对每一个事故的征兆对于其运算结

常用的遥感卫星影像数据有哪些

北京揽宇方圆信息技术有限公司 常用的遥感卫星影像数据有哪些 公司拥有WorldView、QuickBird、IKONOS、GeoEye、SPOT、高分一号、资源三号等卫星的代理权,与国内多家遥感影像一级代理商长期合作,能够为客户提供全天候、全覆盖、多分辨率、多尺度的影像产品 WorldView,分辨率0.5米 WorldView卫星系统由两颗(WorldView-I和WorldView-II)卫星组成。WorldView-I全色成像系统每天能够拍摄多达50万平方公里的0.5米分辨率图像,并具备现代化的地理定位精度能力和极佳的响应能力,能够快速瞄准要拍摄的目标和有效地进行同轨立体成像。WorldView-II多光谱遥感器具有8个波段,平均重访周期为一天,每天采集能力达到97.5万平方公里。

QuickBird,分辨率0.61米 QuickBird具有较高的地理定位精度,每年能采集7500万平方公里的卫星影像数据,在中国境内每天至少有2至3个过境轨道,有存档数据约500万平方公里,重访周期为1-6天,每天采集能力达到21万平方公里。 IKONOS,分辨率0.8米 IKONOS卫星是世界上第一颗高分辨率卫星,开启了商业高分辨率卫星的新时代,同时也创立了全新的商业化卫星影像标准。全色影像分辨率达到了0.8米,多光谱影像分辨率4米,平均重访周期3天。

Geoeye,分辨率0.41米 GeoEye-1卫星具有分辨率最高、测图能力极强、重返周期极短的特点。全色影像分辨率达到了0.41米,多光谱影像分辨率1.65米,定位精度达到3米,重访周期2-3天,每天采集能力70万平方公里。

数据挖掘在中国的现状和发展研究.

万方数据 万方数据 万方数据 万方数据 万方数据 Vo.l18.N.o3管理工程学报2004年第3期圈回[l4j网[l6j皿[lsj[l9j厂.Ll周生炳,张钱,成栋.于规则面向属性的数据库归纳的无回基溯算法[7软件学报,9,()63681.1917:7一7.90蒋嵘,李德毅,范建华.数值型

数据的泛概念树的自动生成方法【1计算机学报,0,()4046i.2025:一7.037一」一一尸十勺,1,刁[7软件学报,0,()7574J.2016:一4.013周水庚,周傲类,曹晶.基于数据分区的DSABCN算法【l计J.算机研究与发展,0,0)13192030:一1.07155「一-,,‘ ,郭建生,,赵奕施鹏飞一种有效的用于数据挖掘的动态概念毛国君,椿年.于项目序列集操作的关联规则挖掘算法刘基]i计算机学报,0,()4742I.2224:1一2.05IL尸聚类算法[l软件学报,0,()一9.J.2114:2510258内、内j「一一J魏李,宫学庆,钱卫宁,高维空间中的离群点发现〔l软件等.J.学报,0,32:8一9.221()20200门仁」程岩,黄梯云.粗糙集中定量关联规则的发现及其规则约简的方法研究【〕管理工程学报,0,()7-7J2113:7.053esLF飞)4俞蓓,王军,叶施仁.基于近邻方法的高维数据可视化聚类方苑森森,程晓青,数量关联规则发现中的聚类方法研究【l计i.法〔7计算机研究与发展,0,()747.J.2036:-07120r..L算机学报,0,()87812028:一7.036倪志伟,蔡庆生,方瑾.用神经网络来挖掘数据库中的关联规内、〕‘ 一一J「陈宁,陈安,周龙骥.大规模交易数据库的一种有效聚类算法[7软件学报,0,()4544J.2114:7一8.02L则【l系统仿真学报,0,()65671.2016:-.0288J内几6lesEtM,rSneJAgimadlaosstlsrPtKadrlrhsapcifpieeH,e.tonpitnoaar陆建江.数据库中布尔型及广义模糊型加权关联规则的挖掘dai仁lIicprGoaiDtMngamnZ.vehtferhainatignntaeogpcaindrdKolgDsvr,eroorhiGSTyrdnweeceRscMngpsI,ladioyeahanaonFacs20.一3.rni,112

讲堂郑宇:多源数据融合与时空数据挖掘(上)

讲堂郑宇:多源数据融合与时空数据挖掘(上) 本文根据郑宇博士在中国人工智能学会AIDL第二期人工智能前沿讲习班所作报告《多源数据融合与时空数据》编辑整理而来,在未改变原意的基础上略作了删减。本文转载自“AI科技评论”,转载已获得授权。谢谢介绍,谢谢邀请!大家经常听到的机器学习、人工智能这些概念,大部分应用案例都是在图形图像以及自然语言处理方面,在城市里跟我们生活比较接近的,特别是应用在时空数据的例子比较少。现在我就用城市大数据为例子,来说明一下机器学习如何应用于时空数据领域。 大家都知道我们现在生活越来越现代化,但是问题越来越多:交通拥堵、环境恶化、能耗增加。要解决这些问题在很多年前看似几乎不可能,因为城市设置非常复杂,环环相扣,牵一发而动全身,现在由于有了各种传感器技术的成熟和云计算单元的成熟,使得我们有各种各样的大数据,从社交媒体到交通流量,从气象条件到地理信息,如果使用得当的话,我们就能够用这些数据来发现城市面临的问题,并进一步通过组合这些数据来解决我们面临的挑战。基于这样的机遇和挑战,我们在2008年就提出了城市计算这样一个愿景,包括以下四个层面:从下往上(下图)有城市感知数据获取,城市数据的管理,城市数据的分析和挖掘到最后服务的提

供。虽然我们今天主题是叫机器学习,但是我想你们肯定想,机器学习到底能解决什么城市问题。在机器学习真正落地的过程中,可能还要依托于其他的平台甚至于其他的学科,包括数据管理。我就成体系地讲讲到底机器学习算法怎么改变我们生活中的方方面面。 从最下面的层面来看,城市数据感知这部分,其实每个层面都发现我们都需要用机器学习的方法来做一些事情,这个层面是概念上划分的,实际说是互相有交集的。 城市数据获取 我们看城市数据的获取,获取方式主要有两种: ●第一种,以传统传感器为感知的方法●第二种,以人为中心的感知方法 第一个,以传统传感器的感知方法进一步可以分成两个子类,要么把传感器放在一些固定的地方,要么把传感器装在一些移动的物体上面,比如说在公交车、出租车上装传感器,但是不管哪一种,一旦装完之后人就不参与了,这个数据自动传到我们后台。 另外一个,以人为中心的感知,这是比较新的概念,也叫群体感知,这里面也分成两个方面,一个叫做被动式群体感知,一个叫主动式群体感知。被动式群体感知,每天每个人都在参与,我们并不知道我们打电话的时候,我们的数据可以拿去改进通话网络的质量;我们并不知道我们公交车上下车刷

数据挖掘研究及发展现状

数据挖掘技术的研究现状及发展方向 摘要:数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展方向。 关键词:数据挖掘;神经网络;决策树;粗糙集;模糊集;研究现状;发展方向 The present situation and future direction of the data mining technology research Abstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advantages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international research situation and focus of data mining in details, and pointed out the development trend of data mining. Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development direction 0 引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖,从而达到为决策服务的目的。在这种情况下,一个新的技术——数据挖掘(Data Mining,DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。 数据挖掘通常又称数据库中的知识发现(Knowledge Discovery in Databases),是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 1 数据挖掘算法 数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。 数据选择:确定发现任务的操作对象,即目标对象; 预处理:包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等; 转换:消减数据维数或降维; 数据开采:确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等,并确定使用什么样的开采算法; 解释和评价:数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用。十大经典算法如图2: 目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

相关文档
最新文档