论空间数据挖掘和知识发现的理论与方法

论空间数据挖掘和知识发现的理论与方法
论空间数据挖掘和知识发现的理论与方法

第27卷第3期武汉大学学报?信息科学版Vol.27No.3 2002年6月G eomatics and Information Science of Wuhan University J une2002文章编号:1000-050X(2002)03-0221-13文献标识码:A

论空间数据挖掘和知识发现的理论与方法

李德仁1 王树良1 李德毅2 王新洲3

(1 武汉大学测绘遥感信息工程国家重点实验室,武汉市珞喻路129号,430079)

(2 中国电子系统工程研究所,北京市万寿路6号,100039)

(3 武汉大学测绘学院,武汉市珞喻路129号,430079)

摘 要:首先分析了空间数据挖掘和知识发现(SDM K D)的内涵和外延;然后分别研究了用于SDM K D的概率论、证据理论、空间统计学、规则归纳、聚类分析、空间分析、模糊集、云理论、粗集、神经网络、遗传算法、可视化、决策树、空间在线数据挖掘等理论和方法及其进展;最后展望了SDM K D的发展前景。

关键词:空间数据挖掘;知识发现;理论方法

中图法分类号:P208;TP309.13;TP18

由于雷达、红外、光电、卫星、电视摄像、电子显微成像、CT成像等各种宏观与微观传感器的使用,空间数据的数量、大小和复杂性都在飞快地增长,已经远远超出了人的解译能力。终端用户不可能详细地分析所有的这些数据,并提取感兴趣的空间知识,致使“空间数据爆炸但知识贫乏”。因此,利用空间数据挖掘和知识发现[1] (SDM K D,spatial data mining and knowledge dis2 covery)从空间数据库中自动或半自动地挖掘事先未知却潜在有用的空间模式变得十分必要。空间数据基础设施为SDM K D构造了大环境。SDM K D当前相当于数据库技术在70年代所处的地位,迫切需要理论和方法指导,需要类似于关系模式、DBMS系统和SQL查询语言等模型和工具,才能使SDM K D的应用得以普遍推广。其中,理论方法的好坏,将直接决定SDM K D所发现知识的优势。

1 SDM KD的基本涵义

SDM K D挖掘的空间知识主要包括空间的关联、特征、分类和聚类等规则及例外。一般表现为一组概念、规则、法则、规律、模式、方程和约束等形式的集合,是对数据库中数据属性、模式、频度和对象簇集等的描述。SDM K D是计算机技术、数据库应用技术和管理决策支持技术等发展到一定阶段、多学科交叉的新兴边缘学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果[2]。SDM K D因解决“空间数据爆炸但知识贫乏”的现象而发展。

SDM K D是数据挖掘和知识发现(DM K D, data mining and knowledge discovery)的分支学科,但SDM K D不同于普通的DM K D,它的对象是空间数据库或空间数据仓库,有别于常规的事务型数据库,比一般数据挖掘的发现状态空间理论[3]增加了尺度维(scale)。机器学习侧重于设计新的方法从数据库中提取知识的技术行为,而SDM K D是从已经存在于空间数据库中的数据内挖掘知识的过程。与传统的地学数据分析相比, SDM K D更强调在隐含未知情形下对空间数据本身分析上的规律挖掘,空间知识分析工具获取的信息更加概括、精练。高于空间数据库的空间数据仓库,遵循一定的原则用多维数据库来组织和显示数据,将不同数据库中的数据粗品汇集精化成为半成品或成品(数据件),稍加整理可被直接用于SDM K D。在数字地球中,空间数据挖掘的对象一般为空间数据仓库[4]。

 收稿日期:2002-01-09。

 项目来源:国家重点基础研究发展规划(973计划)资助项目(G199********);国家高技术研究发展计划(863计划)资助项目(2001AA135081);国家自然科学基金资助项目(40023004;49874002);教育部博士点基金资助项目(98049801);香港理工大学科研基金资助项目(1.34.37.9709)。

2 SDM KD的理论和方法

目前,用于表示空间数据的方法多数是基于经典的确定集合理论(如概率论),每一个空间实体都与单一的属性说明有关,属性之间被表示为清晰的边界。可是,复杂多变的现实世界并非总是如此,故当研究不能精确描述的空间实体的空间数据时,经典集合理论被扩展(如云理论),用于实现定量和定性的相互转换。

2.1 概率论

概率论(pobability theory)根据随机概率挖掘含有不确定性的空间数据库,发现的知识被表示成给定条件下某一假设为真的条件概率,常用作背景知识。在用误差矩阵描述遥感分类结果的不确定性时,可以用这种背景知识表示不确定性的置信度。Lenarcik和Piasta[5]把概率论和粗集相结合,利用条件属性推理决策知识,开发了Pro2 bRough系统(probabilistic rough classifiers genera2 tion)。利用基于决策树的概率图模型,Frasconi、G ori和Soda[6]对带有图形属性的数据库进行挖掘,得到了用于指导机器学习的知识。区域土壤属性的空间分析常通过概率样本来实现。对于无概率样本的区域,Brus和Gruijter[7]设计了利用概率样本内插回归的方法估求其土壤属性的一般模式;Sester[8]利用基于导师的机器学习技术,从给定样本空间数据库中获取了指导空间数据自动解译和操作的知识。

2.2 证据理论

证据理论(evidence theory)是概率论的一个扩展(又称dempster-shafer理论),是由可信度函数(度量已有证据对假设支持的最低程度)和可能函数(衡量根据已有证据不能否定假设的最高程度)所确定的一个区间[9]。当证据未支持部分为空时,证据理论等同于传统概率论。证据理论将实体分为确定部分和不确定部分,可以用于基于不确定性的空间数据挖掘。利用证据理论的结合规则,可以根据多个带有不确定性的属性进行决策挖掘[10]。两两比较法也用于属性不确定性的知识发现[11,12]。证据理论发展了更一般性的概率论,却不能解决矛盾证据或微弱假设支持等问题。

2.3 空间统计学

空间统计学(spatial statistics)是依靠有序的模型描述无序事件,根据不确定性和有限信息分析、评价和预测空间数据[13]。它主要运用空间自协方差结构、变异函数或与其相关的自协变量或局部变量值的相似程度实现基于不确定性的空间数据挖掘。基于足够多的样本,在统计空间实体的几何特征量的最小值、最大值、均值、方差、众数或直方图的基础上,可以得到空间实体特征的先验概率,进而根据领域知识发现共性的几何知识。空间统计学拥有较强的理论基础和大量的成熟算法,能够改善GIS对随机过程的处理,估计模拟决策分析的不确定性范围,分析空间模型的误差传播规律,有效地综合处理数值型空间数据,分析空间过程,预测前景,并为分析连续域的空间相关性提供理论依据和量化工具等。所以,空间统计学是基本的数据挖掘技术,特别是多元统计分析(如判别分析、主成分分析、因子分析、相关分析、多元回归分析等)。

Cressie[13]利用地理统计数据、栅格数据和点数据三种空间数据描述现实世界,并据此提出了一个通用模型。由于大部分空间数据挖掘的研究偏重于提高静态数据查询的效率,所以Wang、Yang和Muntz[14,15]基于统计信息,研究了一种由用户定义的主动空间数据挖掘的方法。应用空间统计学的克吕格方法,由一组已分类的观测点直接估计未观测点位的属于各类别的验后概率,求得类别变量在任一位置上所观测到的各类别的概率知识,就可以从影像上获取模糊分类信息[16,17]。冯建生[18]也利用空间统计学揭示了影响冲击韧性的因素知识。

但是,空间统计学的数据不相关假设,在空间数据库或空间数据仓库中常常难以得到满足,当实际数据互相依赖时将引起问题。回归模型可以缓和这一矛盾,但建模过程非常复杂。空间统计学能够有效地处理数值型数据,却难以分析字符型数据。在应用空间统计学时,需要同时具备空间领域知识和统计学知识,故不适合于终端用户。统计方法也不能对非线性规划或符号值精确建模,不能处理不完整、不确定性数据,计算代价昂贵。同时,当知道非匀质实体的某种属性可能发生,但却不知道也难以构建其概率分布模型时,模糊集比空间统计学更利于发现隐藏在这种不确定性中的知识。

2.4 规则归纳

规则归纳(rules induction)是在一定的知识背景下,对数据进行概括和综合,在空间数据库或空间数据仓库中搜索和挖掘以往不知道的规则和规律,得到以概念树形式(如GIS的属性概念树和空间关系概念树)给出的高层次的模式或特征。背景知识可以由SDM K D的用户提供,也可以作

222 武汉大学学报?信息科学版 2002年

为SDM K D的任务之一自动提取。在推理方法中,归纳不同于基于公理和演绎规则的演绎,以及基于公认知识的常识推理,而是根据事例或统计的大量事实和归纳规则进行的。决策规则是数据库中总的或部分的数据之间的相关性,是归纳方法的扩充,其条件为归纳的前提,结果为归纳的结论,大致包括关联规则、顺序规则、相似时间序列、If-Then规则等。

空间关联规则发现是SDM K D的重要内容。目前的研究主要集中在提高算法的效率和发现多种形式的规则两方面,并以逻辑语言或类SQL语言方式描述规则,以使SDM K D趋于规范化和工程化。一条空间关联规则可表示为X→Y(c%, s%,i%),其中,X和Y是空间或非空间谓词的集合,c%、s%和i%分别是规则的可信度、支持度和兴趣度。K operski和Han[19]提出了一种在地理信息数据库中挖掘强空间关联规则(空间数据库中使用频率较高的模式或关系)的算法,并给出了两步式的空间优化技术。程继华和施鹏飞[20]提出了多层次关联规则的挖掘算法,利用集合“或”、

“与”运算求解频繁模式,提高了挖掘的效率。许龙飞和杨晓昀[21]分析了广义关联规则模型的挖掘方法、挖掘策略和规则挖掘语言。Han、Karypis和Kumar[22]提出了挖掘关联规则的智能数据分配和混合分类两个Apriori并行算法。Ek2 lund、K irkby和Salim[23]在土壤盐度分析中把决策支持系统和GIS数据相结合,发现了用于环境规划和二级土壤盐碱化监测的关联规则。As2 pinall和Pearson[24]把风景生态学、环境模型和GIS结合在一起,通过综合地理评估,研究了美国黄石国家公园的汇水处环境条件,发现了用于环境保护的关联规则。涂星原[25]研究了基于数值属性的关联规则的挖掘。Clementini、Felice和K operski[26]在宽边界的空间实体中挖掘出了多层次的空间关联规则。左万利[27]研究了在含有类别属性的数据库中提取关联规则的类型转换技术。丁祥武[28,29]在关联规则模型中增加了描述关联规则时效性的时态信息。丁祥武[30]根据数据记录之间的时间间隔和相邻记录中项目的类别合并同类记录,肖利等[31]用时间窗刻画时间约束。程继华等[32]提出了基于概念的关联规则的挖掘算法。肖利等[33]提出了一个基于关系操作的挖掘广义关联规则算法,在多概念层上交互挖掘关联规则。面向属性归纳(attribute oriented induction,简称AOI),亦称概念提升,适于数据分类[34]。但对于涉及不同主题地图信息的系统,要求面向属性归纳方法能够分析不同主题地图上的不同空间特征之间的关系。

当数据之间的规律无法用关联规则描述时,肖利等[35]挖掘的转移规则描述系统此时期到下个时期的状态按照一定的概率进行转移,下个时期的状态取决于前期的状态和转移概率。朱明、王俊普和蔡庆生[36]在实例特征矩阵的基础上,提出了一个最优特征集的启发式搜索算法,并将其与特征选择的贪心算法[37]相比较。

序列规则和时间紧密相关。Kriegel等[38]在分析巴西Logoa de Araruama的盐渍海岸礁湖的时间序列的空间数据时,发现了保持水文和盐分平衡的知识。丁祥武[30]提出了序列规则中相邻项目集之间的时间间隔约束,欧阳为民和蔡庆生[39]将序列模式的发现从单层概念扩展到多层概念,提出了自顶向下逐层递进的方法,在不同概念层发现序列模式。偏离检测是数据挖掘的一种启发式方法,欧阳为民和蔡庆生[40]将使数据序列突然发生大幅度波动的数据认作例外,提出了一种线性的偏离检测算法。在数据库变化不大时,渐进式序列规则挖掘算法能够利用前次的结果加速本次挖掘过程[41]。序列规则挖掘还有序列规则的维护等问题尚待解决。

此外,杨学兵等[42]的实时数据挖掘算法能在实时过程控制中自动挖掘,并根据挖掘的知识预测趋势。Levene和Vincent[43]发现了关系数据库的功能独立和包含独立的规则,信息处理使用了基于知识规则挖掘的分类方法[44,45]。当没有背景知识时,空间数据挖掘应该考虑聚类分析。

2.5 聚类分析

聚类分析(clustering analysis)主要是根据实体的特征对其进行聚类或分类,按一定的距离或相似测度在大型多维空间数据集中标识出聚类或稠密分布的区域,将数据分成一系列相互区分的组,以期从中发现数据集的整个空间分布规律和典型模式[46]。聚类分析是统计学的一个分支,与规则归类不同的是,聚类算法无需背景知识,能直接从空间数据库中发现有意义的空间聚类结构。已有的聚类算法多为模式识别设计,用特征表示的目标为多维特征空间的一个点,在特征空间中聚类。空间数据库中的聚类是对目标的图形直接聚类,聚类形状复杂,数据量庞大,使用经典的基于多元统计分析的聚类法则速度慢、效率低。这对空间数据挖掘中的聚类算法提出了更高要求,如能处理点、线、面等任意形状,计算效率高,算法需要的参数能自动确定或用户易确定。Murray

322

第3期 李德仁等:论空间数据挖掘和知识发现的理论与方法

和Estivill-Castro[47]回顾了探测性空间数据分析的聚类发现技术。

聚类算法主要有分割和层次两类。分割算法根据目标到聚类中心的距离迭代聚类,适用于聚类为凸形、类间相距较远且直径相差不悬殊的情况,否则会分割错误[48]。为了改善分割算法,在CLARANS(cluster analysis algorithms)的基础上, Ng和Han[49]提出了随机搜索的改进K-medoid 算法,Ester等[50]用基于R树的数据聚焦法进一步提高其效率。周成虎和张健挺[51]则提出了基于信息熵的时空数据分割聚类模型。层次算法将数据集分解成树状图子集,直到每个子集只包含一个目标,可用分裂或合并的方法构建。它无需参数,但要定义停止条件。

概念聚类是分割算法的一种延伸,它用描述对象的一组概念取值将数据划分为不同的类,而不是基于几何距离来实现数据对象之间的相似性度量[52]。概念聚类能够输出不同类以确定其属性特征的覆盖,并对聚类结果给予解释。当利用概念聚类实行空间数据挖掘时,需对数值型字段数据概念化。Han和Fu[53]先用相同的小间隔将数值字段中的数据分段,然后将数据段合并成期望的数据个数基本相同的概念段,实现较简单,效率较高。但是他用于分割每个数值型字段的数据段的Interval是一个不变的量,用于概念分段的标准只有数据个数,没有考虑数据的分布。为此,李世祥和李涛涛[54]采用变间隔分割数据,考虑了概念分段时的数据个数和数据分布。

Ester、Kriegel和Xu[55]使用聚类技术研究了在大型空间数据库中挖掘类别判读知识的技术。Knorr和Ng[56]分析了空间数据挖掘中的聚类和特征关系,提出了发现聚合亲近关系和公共特征的算法。Edwin等[57]通过构造地理信息系统中的聚类器,发现了空间物体的边界形状匹配关系的部分规律。Lin、Zhou和Liu[58]根据类别和特征,研究了空间数据库中的临近关系匹配算法。Tung、Hou和Han[59]提出了一种在空间数据挖掘中实行空间聚类时,处理河流、高速公路等阻隔的算法。Murray和Shyy[60]在分布显示和空间数据挖掘中集成了属性和空间特征,提出了一种交互的探测性空间数据聚类分析技术。

此外,还有基于密度的DBSCAN算法[48]、针对栅格数据的基于数学形态学的算法[61]、模糊聚类[63]和神经网络聚类方法[18]等。

2.6 空间分析

空间分析(spatial analysis)是利用一定的理论和技术对空间的拓扑结构、叠置、图像、空间缓冲区和距离等进行分析的方法总称,目的在于发现有用的空间模式。探测性的数据分析(explorato2 ry data analysis,EDA)采用动态统计图形和动态链接技术显示数据及其统计特征,发现数据中非直观的数据特征和异常数据。Ester、Kriegel和Sander[63]在空间数据库管理系统的基础上,基于邻图和邻径,提出了针对空间数据库的挖掘空间相邻关系知识的算法。邸凯昌[61]把探测性的数据分析与空间分析相结合,构成探测性的空间分析(exploratory spatial analysis,ESA),再次与AOI 结合,则形成探测性的归纳学习(exploratory in2 ductive learning,EIL),它们能在SDM K D中聚焦数据,初步发现隐含在数据中的某些特征和规律。Murray和Estivill-Castro[47]对探测性空间数据分析的聚类发现技术作了回顾。图像分析可直接用于发现含有大量图形图像数据的空间数据挖掘,也可作为其他知识发现方法的预处理手段。

Reinartz[64]给出了他关于现实世界的数据挖掘方案及其实验结果。高光谱成像获取的地表图像包含了丰富的空间、辐射和光谱三重信息。王晋年等[65]认为高光谱信息挖掘技术是高光谱数据应用延拓与深入的重要环节,其核心在于光谱信息的挖掘。他们基于高光谱遥感信息的特点,探讨分析了以地物识别与分类为目标的高光谱数据挖掘技术,包括基于模式识别的高光谱信息挖掘技术、基于光谱波形特征的挖掘技术以及亚像元光谱信息挖掘。马建文和马超飞[66]分析了地面物质和结构光谱与卫星遥感信息之间的关系,建立了空间角度模型,通过对TM卫星数据的挖掘说明了基于空间角度算法在处理多波段遥感数据时的数学能力。布和敖斯尔[67]提出了基于知识发现和决策规则的盐碱地GIS和遥感分类的方法,把盐碱地分类的地学专家思想和区域专家的思想应用到GIS数据挖掘中,并把从GIS数据库中发现的知识,按一定的规则应用到华北平原地区的盐碱地分类的决策中,能够简化数据运算过程,减少或避免分类过程中人为误差的产生。陈春香[68]应用机器学习中的数据驱动发现学习方法处理广东云浮-阳春地区的地球化学数据的实践证明,可以挖掘出隐含在数据间的各参数间的相互关系及参数组合规律,加强人们对数据的理解,为地球化学找矿提供更合理的决策信息。周成虎和张健挺[51]从信息熵的基本概念出发,认为地学空间数据子集划分产生的互信息或熵减源于子集划分,使得各个子集的不确定性或模糊性

422 武汉大学学报?信息科学版 2002年

降低,并且子集之间的差异性增大,因此具有最大熵减的子集划分方案代表一定的地学模式和地学规律。并以此为基础分别探讨了地学数据属性要素的子集划分产生多维属性关联规则,以及通过空间和时间的子集分割来进行聚类的方法。Es2 ter等[69]以空间的点为基本单位,研究了多空间物体的相邻关系的处理技术,集成了空间数据挖掘算法和空间数据库管理系统,同时利用相邻图形和路径以及小型的初始数据库操作挖掘空间模式,使用相邻索引来提高初始数据库的处理效率。Mouzon、Dubois和Prade[70]在空间可能因果关系的属性异常诊断索引中,使用一致和诱导的算法挖掘了属性不确定性对异常诊断影响的知识。2.7 模糊集

模糊集(fuzzy sets)用隶属函数确定的隶属度描述不精确的属性数据,重在处理不精确的概率[71,72]。模糊性是客观的存在,系统的复杂性愈高,对它的精确化能力就愈低,模糊性愈强。在空间数据挖掘中,模糊集可用作模糊评判、模糊决策、模糊模式识别、模糊聚类分析、合成证据和计算置信度等。模糊集在GIS中把类型、空间实体分别视为模糊集合、集合元素,空间实体对备选类别论域的连续隶属度区间为[0,1]。每个空间实体与一组元素的隶属度有关,元素隶属度用于表示实体属于某类型的程度,它越接近于1,实体就越属于该类型。具有类型混合、居间或渐变不确定性的实体可用元素隶属度描述,如一块含有土壤和植被的土地,可以由两个元素隶属度表示。传统的集合具有精确定义的界线,为0、1二值逻辑。给定一个元素,要么完全属于集合,要么完全不属于。因反映空间非匀质分布的地理属性不确定性的概率是可变的,类别变量的不确定性主要源自定性数据所固有的主观臆断性、易混淆性和模糊性,故没有明确定义的界线的模糊集合论,较传统集合论更适于研究非匀质分布和模糊类别。对于遥感图像的计算机分类处理,模糊类别域的生成可藉所使用的分类器不同而输出不同的中间结果,如统计分类器中有某像素隶属于各备选类别的似然值及神经元网络分类器中的类别激活水平值[73]。

在应用模糊集研究基于属性不确定性的空间数据挖掘的过程中,Burrough[74]讨论了不确定性数据的模糊布尔逻辑模型;Canters[75]评价了从模糊土地覆盖分类中估计面积的不确定性规律; Vazirgiannis和Halkidi[76]利用模糊逻辑处理数据挖掘的空间不确定性;全斌和马智民[77]借助模糊关系数据模型发现了土地适宜性的评价知识;王新洲和王树良[62,78]提出了融模糊综合评判和模糊聚类分析为一体的模糊综合法,基于绝对均值距离的模糊聚类分析,分别用于挖掘土地的地价和级别属性不确定性;模糊隶属度知识也用于表达遥感影像中的不确定相邻边界的像素类别[79]。

模糊隶属度一旦确定,模糊集合的后续数值计算实际上已经把不确定性抛开,并没有继续向前传送至结果,而且模糊集合主要处理具有模糊性的属性不确定性,对于同时含有模糊性和随机性的不确定性空间数据挖掘,它只能丢弃随机性,这是不合适的。

2.8 云理论

云理论(cloud theory)是一个分析不确定信息的新理论,由云模型、不确定性推理和云变换三部分构成[80]。云理论把定性分析和定量计算结合起来,可以用于处理GIS中融随机性和模糊性为一体的属性不确定性。云在空间由系列云滴组成,远观像云,近视无边。云具有期望值、熵和超熵三个数字特征。期望值是概念在论域中的中心值,完全隶属于该定性概念;熵是定性概念模糊度的度量,其值越大,概念所接受的数值范围越大,概念越模糊;超熵反映云滴的离散程度,其值越大,隶属的随机离散度越大。云理论构成定性和定量相互间的映射,处理GIS中容模糊性(定性概念的亦此亦彼性)和随机性(隶属度的随机性)为一体的属性不确定性,解决了作为模糊集理论基石的隶属函数的固有缺陷[61,80]。云理论已经用于空间关联规则的挖掘、空间数据库的不确定性查询[61]。

2.9 粗集

粗集(rough sets)由上近似集和下近似集组成,是一种处理不精确、不确定和不完备信息的智能数据决策分析工具[81,82],较适于基于属性不确定性的空间数据挖掘。粗集从集合论的观点出发,在给定论域中以知识足够与否作为实体分类的标准,并给出划分类型的精度。上近似集中的实体具有足够必要的信息和知识,确定属于该类别;论域全集以内且下近似集以外的实体没有必要的信息和知识,确定不属于该类别;上近似集和下近似集的差集为类别的不确定边界,其中的实体没有足够必要的信息和知识,无法确切地判断是否属于该类别,为类别的边界。若两个实体有完全相同的信息,则它们为等价关系,不可区分。根据利用统计信息与否,现存的粗集模型及其延伸可以分为代数型和概率型两大类[83]。粗集的

522

第3期 李德仁等:论空间数据挖掘和知识发现的理论与方法

基本单位为等价类,类似于栅格数据的栅格、矢量数据的点或影像的像素。等价类划分越细,粗集描述实体越精确,但存储空间和计算时间也越大。基于粗集的决策规则推理具有演绎、归纳和常识等推理的原理,也有其自身的特点。决策规则是演绎推理规则和归纳方法的扩充,不同点在于决策规则强调优化,而归纳则不必关心它的优化形式。粗集的决策规则从条件出发作出恰当的或近似的决策,常识推理是从区域专家共享的知识开始推导出区域中有趣的、公认的知识。粗集不排斥不确定性,力求按照实体的原型来研究实体,为基于不确定性的空间数据挖掘提供了一个新的理论基础。

在空间分析时,粗集的数学基础是近似域,不同于模糊集的模糊隶属度、证据理论的证据函数、云理论的隶属度概率空间分布等。模糊集重在模糊性,基础为模糊隶属度;云理论兼容模糊性和随机性,基础为云变换;粗集重在不完备性,基础为上、下近似集。在自变量集x和因变量集μ(x)之间,模糊数学是一一对应关系,即对一个特定的x k,只存在惟一的隶属度μ(x k),且μ(x k)∈[0, 1];粗集是一对区域关系,即对一个特定的x k,存在隶属区域[{min-μ(x k)},{max-μ(x k)}];云理论则是一对多云滴关系,云滴根据隶属度在空间随机离散分布,聚集到一定程度成为一朵云。

粗集自从被Pawlak提出后,已经突破原来的医疗诊断领域,被广泛应用在机器学习、人工智能、模式识别、近似推理、知识发现等领域。在此过程中,粗集日臻完善,已经从初始的偏重定性分析(如上、下近似集的描述、最小决策集的生成)发展到现在的定性定量并重(如粗概率、粗函数和粗微积分的表示与计算),并且与模糊集、概率论和证据理论等互相交叉,形成粗模糊集、粗概率集和粗证据理论等。

在空间数据挖掘中,利用粗集可以分析空间数据库中的属性重要性、属性不确定性、属性表一致性和属性可靠性,研究属性可靠性对决策的影响,简化数据、属性表和属性依赖,发现数据相关性,评估数据的绝对不确定性和相对不确定性,由数据产生决策算法,发现数据中的范式及因果关系,生成最小决策和分类算法等,指导不确定影像分类、模糊边界划分等。如全国农业原始数据经过统计归纳得到普遍化的数据后,粗集可对其再次简化,生成最小决策算法和多种知识[61]。粗集已被用于描述属性ROSE不确定模型,分辨不精确的空间影像和面向目标的软件评估[84],实现空

间数据清理(data cleaning)中的数据转换[85],用于基于属性不确定性的银行粗选址,从数据库中发现不确定属性的知识[61],集成多源不确定的属性数据,实现定性和定量语言值的粗转化[86]。结合模糊隶属函数的遥感影像粗分类、粗邻域和粗属性精度[87]等,卞学海[88]基于信息系统,在粗集环境下,提出了一种适应非一致性数据的自增长必然规则学习算法。刘清等[89]通过粗集软计算使决策表中的属性简化和属性值区间化,从中挖掘出的数据隐含格式,删去了冗余规则,具有广泛的表达能力和代表性,并保持了决策表的原有用途和原有性能。然后分别用基于统计或专家经验方法计算带可信度因子的产生式规则和基于Rough集方法计算带Rough算子的决策规则两种不同方法开发同一个系统,后者比前者更加理论化和实用化。专著《粗集和含混数据的数据挖掘分析》[90]、《知识发现中的粗集》(1,2)[91,92]、《粗-模糊的交叉:决策的新趋势》[93]、

《粗集方法和应用:信息系统中的知识发现新进展》[94]等系统地总结了粗集在数据挖掘中的理论和技术。

基于粗集的数据挖掘系统有GROB IAN、RS2 DM、L ERS、TRANCE、ProbRough、ROSETTA、RSL、RoughFamily、TAS、RoughFuzzyLab、PRIM EROSE、K DD-R等[92]。

此外,还可以在粗集的基础上,发展专门针对空间信息学的地学粗空间理论。利用粗集理论、模糊数学和插值函数等技术,基于属性不确定性,在空间数据库或空间数据仓库中,可以挖掘和发现用于影像分类和分析、地价评估和空间表达[95]、城乡结合部用地分析和规划的知识。

2.10 神经网络

神经网络(neural network)是由大量神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统,并具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能[96]。神经网络由输入层、中间层和输出层组成。大量神经元集体通过训练来学习待分析数据中的模式,形成描述复杂非线性系统的非线性函数,适于从环境信息复杂、背景知识模糊、推理规则不明确的非线性空间系统中挖掘分类知识。神经网络对计算机科学、人工智能、认知科学以及信息技术等都产生了重要而深远的影响,在空间数据挖掘中可用来进行分类、聚类、特征挖掘等操作。以MP和Hebb学习规则为基础,存在的神经网络可分为三类:用于预测、模式识别等的前馈式网络,如感知机(perceptron)、反向传播模型、函数型网络和模

622 武汉大学学报?信息科学版 2002年

糊神经网络等;用于联想记忆和优化计算的反馈式网络,如Hopfield的离散模型和连续模型等;用于聚类的自组织网络,如AR T模型和K oholen模型等。Lee[97]在空间统计学中用模糊神经网络估计了处理空间分布异常的规则。此外,神经网络与遗传算法结合,也能优化网络连接强度和网络参数。

神经网络具有鲜明的“具体问题具体分析”特点,其收敛性、稳定性、局部最小值以及参数调整等问题尚待更深入的研究,尤其对于输入变量多、系统复杂且非线性程度大等情况。

2.11 遗传算法

遗传算法(genetic algorithms)是模拟生物进化过程,利用复制(选择)、交叉(重组)和变异(突变)三个基本算子优化求解的技术[98]。在空间数据挖掘中,把数据挖掘任务表达为一种搜索问题,利用遗传算法的空间搜索能力,经过若干代的遗传,就能求得满足适应值的最优解规则。当实施遗传算法时,首先要对求解的问题进行编码,产生初始群体,然后计算个体的适应度,再进行染色体的复制、交换、突变等操作,产生新的个体。重复以上操作直至求得最佳个体。

Jiang等[99]研究了解译染色体空间结构的计算工具,以沟通代间信息。陈栋和徐洁磐[100]基于遗传算法,用信息论的思想开发出了知识挖掘系统Knight。向国全[101]采用逐步添加训练数据和隐节点避开局部极小点,在数据挖掘中改进了前向人工神经网络算法。骆剑承、周成虎和马江洪[102]研究了遥感影像特征发现的稳健统计模型,认为高斯混合密度降解模型(GMDD)是一种基于稳健统计理论的层次结构的聚类模型。他们首先假设特征空间由一组混合的高斯(G aussian)分布组成,然后通过一定的优化算法来获得特征空间中与预先假设相符合的特征分布,并逐步分离,直到特征空间全部降解为一组混合特征模式的分布集。他们在GMDD模型基础上,对空间数据中的特征进行分层提取,提出用遗传算法进行GMDD的空间搜索的优化模型,并从遥感影像数据中进行了特征发现的实例分析。

2.12 可视化

可视化(visualization)通过研制计算机工具、技术和系统,把实验或数值计算获得的大量空间抽像数据(如信息模式、数据的关联或趋势等)转换为人的视觉可以直接感受的具体计算机图形图像,以供数据挖掘和分析。空间数据挖掘中的数据立方法、多维数据库或OLAP也是可视化技术的一种。地理可视化系统中的不同物理位置及地理表示都与数据仓库中的数据相关,根据地理环境比较相同产品在不同地域的差异,或相同地域不同产品的差异,可分析数据仓库中数据的关系。SDM K D涉及复杂的数学方法和信息技术,可视化是空间数据的视觉表达与分析,借助图形、图像、动画等可视化手段对于形象地指导操作、定位重要的数据、引导挖掘、表达结果和评价模式的质量等具有现实意义。可视化拓宽了传统的图表功能,使用户对数据的剖析更清楚,有助于减少建模的复杂性,决策者则可通过可视化技术交互分析数据关系。

SDM K D可视化分为二维(x,y)、三维(x,y, z)和四维(x,y,z,t),如果分别对它们按时间序列实时处理,就可以形成较全面地反映数据挖掘过程和知识的动画。在空间数据挖掘中,定性和定量数据的相互转换内容较多,也较为抽像,较适合把可视化作为研究工具。今后,建立在可视化基础之上的DM K D可视化理论和技术,将对空间信息可视表达、分析的研究与实践产生更大的影响。Kriegel等[103]利用可调的多参数函数分段逼近空间物体表面,然后以此为基础挖掘空间分布知识,并用误差椭圆评估可视化的知识。Ravantti 和Bamford[104]用三维可视化的空间数据挖掘技术分析了用于表示高分子结构的密度图,兼顾了感兴趣的确定部分和可能的扩展部分。Ankerst 等[105]分析了空间目标的形状属性,利用3D形状的直方图表示空间数据库中的相似搜寻和分类。Maceachren等[106]集成了地理可视化和空间数据挖掘,从结构化的多元时空数据集中构筑知识。2.13 决策树

决策树(decision tree)根据不同的特征,以树型结构表示分类或决策集合,产生规则和发现规律[107]。在空间数据挖掘中,首先利用训练空间实体集生成测试函数;其次根据不同取值建立树的分支,在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行剪枝处理,把决策树转化为据以对新实体进行分类的规则。ID3(interactive dichotomizer3)方法根据信息论原理建立决策树或者决策规则树,它计算数据库中各字段的信息量,寻找数据库中具有最大信息量的字段,建立决策树的一个结点。再根据字段的不同取值建立树的分支,在每个分支子集中重复建树的下层结点和分支,叶结点为正例或反例[63]。顾及决策树邻近对象的非空间聚合值,基于分类对象的非空间属性、描述被分类对象和邻

722

第3期 李德仁等:论空间数据挖掘和知识发现的理论与方法

近特征的空间关系的属性、谓词和函数,K operski 等[19]提出了空间数据的两步决策分类法。在查找样本对象的粗略描述后,利用机器学习的Re2 lief算法提取空间谓词,合并空间谓词和非空间谓词为分类决策知识。Marsala和Bigolin[108]利用模糊决策树在面向目标的空间数据库中挖掘区域分类规则。POSS系统[109]使用决策树方法对天空图像中的星体对象进行分类,并通过分辨率、背景等级或平均强度等属性参数对图像进行规范化,以提高分类的准确性。著名的C4.5系统也是基于决策树的。

2.14 空间在线数据挖掘(SOLAM)

空间在线数据挖掘(spatial online analytical mining,SOLAM)建立在多维视图基础之上,是基于网络的验证型空间数据挖掘和分析工具。它强调执行效率和对用户命令的及时响应,直接数据源一般是空间数据仓库。网络是巨大的分布式并行信息空间和极具价值的信息源,但因网络所固有的开放性、动态性与异构性,又使得用户很难准确、快捷地从网络上获取所需信息。空间在线数据挖掘的目的就在于解决如何利用分散的异构环境数据源,及时得到准确的信息和知识。它突破了局部限制,发现的知识也更有普遍意义。

空间在线数据挖掘通过数据分析与报表模块的查询和分析工具(OLAP、决策分析、数据挖掘)完成对信息和知识的提取,以满足决策的需要。它建立在客户/服务器的结构之上,由用户驱动,支持多维数据分析,在用户的指导下验证设定的假设。空间在线数据挖掘的传输层使用了刷新与复制技术,数据传输、传送网络和中间件等构件,在硬件/软件平台间架起了必要的通信桥。其中刷新与复制技术包括传播和复制系统、数据库网关内定义的复制工具、数据仓库指定的产品。数据传输和传送网络包括网络协议、网络管理框架、网络操作系统、网络类型等。客户/服务器代理和中间件包括数据库网关、面向消息的中间件、对象请求代理等。这里,空间数据仓库居于核心地位,是网络空间数据挖掘的基础。

基于网络数据的空间在线数据挖掘可以利用搜索引擎[110],向量空间模型和改进Robot技术[111],面向多站点、多种数据库、多类数据源的分布式数据挖掘[112],虚拟数据库技术[113]等。Zhou、Truffet和Han[114]研究了用于空间在线数据挖掘的多边形合并方法,认为基于占有的算法比基于邻接的算法更节省计算量。赵霈生、杨崇俊和刘冬林[115]基于网络环境,根据地理信息系统的应用整合和数据整合,提出了在分布式计算平台上以空间信息显示、服务、获取、存储为基础的层次化GIS软件框架,以便提供数据分析、共享、知识发现等不同水平的空间信息服务。为了支持数据挖掘时文档层次结构间的超链链接和媒体引用,卢坚等[116]按照WWW文档协同写作系统的HTML文档的层次式结构包装技术的要求,实现了扩展HTML文档的数据挖掘可视化编辑和浏览导航。邹涛、黄源和张福炎[117]则提出了基于Internet的文本信息挖掘算法。Web热点的日志数据正以每天数十兆的速度增长,基于网络服务器日志数据的SDM K D也受到重视。周斌、吴泉源和高洪奎[118]基于E-OEM模型,提出了考虑服务器的应用逻辑设计、页面拓扑结构及用户的浏览路径等多个数据源的用户访问模式的挖掘算法。分形系统利用混沌理论来指明模式,然后用分形将多维数据库提供的分析信息存储于数据仓库,能够为基于大型空间数据仓库的空间数据挖掘提供OLAP的并行分布式响应。美国Busi2 ness Objects公司的Business Objects(BO)就是采用Data Warehouse+OLAP+Ddata Mining方案推出的第一个集多数据源查询、任意报表生成和OLAP及数据挖掘技术为一体的决策支持工具软件包。

此外,研究空间数据挖掘的还有发现状态空间理论[3]、基于灰色分析的灰色系统[119]、基于信息无序互动的混沌理论[120],基于信化概念的未确知数学[121]等。

当然,上述理论和方法不是孤立的,为了在空间数据挖掘和知识发现中得到数量更多、精度更高的可靠结果,常常要综合应用它们。例如,使用空间统计学对数据进行分析后,再用粗集理论泛化初步的结果,然后由云理论实现知识的概括和定性定量的转化。因SDM K D需要考虑的因素很多,故应根据特定的需求选择数据挖掘的理论、方法和工具[122]。

3 空间数据挖掘和知识发现的理论和方法展望

SDM K D具有广泛的应用前景和潜在的综合效益,随着空间数据量的增加及软硬件技术的发展,其应用正日益渗透到人们认识和改造空间世界的各个学科,如地理信息系统、信息融合、遥感、图像数据库、医疗图像处理、导航、机器人等使用空间数据的领域。SDM K D发现的知识将会促进

822 武汉大学学报?信息科学版 2002年

这些学科的自动化和智能化。

但是,SDM K D毕竟是空间信息科学的新兴领域,目前只是取得了一定的初步成果,仍有大量的理论与方法需要深入研究,其中,主要包括多源空间数据的清理、基于空间不确定性(位置、属性、时间等)的数据挖掘、递增式数据挖掘、栅格矢量一体化数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、新算法和高效率算法的研究、空间数据挖掘查询语言、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现、网络空间数据的挖掘等方向。开发实现SDM K D理论和方法的计算机软件系统时,还要研究多源空间数据的集成、多算法的集成、存储空间和计算效率的降低、人机交互技术、可视化技术、SDM K D系统与地理信息系统、空间数据仓库、空间决策支持系统和遥感解译专家系统的集成等问题。

此外,SDM K D除了发展和完善自己的理论和方法,也要充分借鉴和汲取数据挖掘和知识发现、数据库、机器学习、人工智能、数理统计、可视化、地理信息系统、遥感、图形图像学、医疗、分子生物学等学科领域的成熟的理论和方法。

4 结 论

1)空间数据挖掘和知识发现目的在于从数据库中挖掘事先未知且潜在有用的知识。

2)基于经典的确定集合理论,概率论和空间统计学研究含随机性的空间数据挖掘。证据理论是概率论的一个扩展,规则归纳、聚类分析和空间分析是空间统计学的延伸。规则归纳在一定的知识背景下,对空间数据进行概括和综合,得到以概念树形式给出的高层次的模式或特征。与规则归纳不同的是,聚类算法无需背景知识,能根据实体的特征直接从空间数据库中发现有意义的空间聚类结构。空间分析包括拓扑结构分析、叠置分析、图像分析、模式识别、空间缓冲区和距离分析等。

3)SDM K D的扩展集合论方法包括模糊集、粗集和云理论。目前用于表示空间数据的方法多数是基于经典的集合理论,每一个空间实体都与单一的属性说明有关,属性之间被表示为清晰的边界,这和复杂多变的现实世界并非一致。因此,经典集合理论也被扩展,用于研究不能精确描述的空间实体,如云理论可以在空间数据挖掘中实现定量和定性的相互转换。

4)神经网络和遗传算法是空间数据挖掘和知识发现的仿生学方法。神经网络是由大量神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统。遗传算法是模拟生物进化过程,在空间数据挖掘中利用复制、交叉和变异三个基本算子优化求解的技术。

5)SDM K D涉及海量数据、复杂的数学方法和信息技术,可视化是空间数据的视觉表达与分析,能够把实验或数值计算获得的大量空间抽象数据转换为人的视觉可以直接感受的具体计算机图形图像。决策树根据不同的特征,以树型结构表示分类或决策集合,产生规则和发现规律。空间在线数据挖掘建立在多维视图基础之上,是基于网络的验证型空间数据挖掘和分析工具,它强调执行效率和对用户命令的及时响应,直接数据源一般是空间数据仓库。

参 考 文 献

1 李德仁,王树良,史文中,等.论空间数据挖掘和知识发现.武汉大学学报?信息科学版,2001,26(6):491~499

2 Li D R,Cheng T.K D G—Knowledge Discovery from GIS.Proceedings of the Canadian Conference on GIS, Ottawa,1994

3 李德毅.发现状态空间理论.小型微型计算机系统, 1994,15(11):1~6

4 李德仁,关泽群.空间信息系统的集成与实现.武汉:武汉测绘科技大学出版社,2000

5 Lenarcik A,Piasta Z.Rough Sets in Knowledge Discovery 2:Applications,Case Studies and S oftware Systems.In: Polkowski,L,Skowron A,eds.Studies in Fuzziness and S oft Computing.Heidelberg:Physica-Verlag,1998.569~571

6 Frasconi P,G ori M,S oda G.Data Categorization Using Decision Trellises.IEEE Transactions on Knowledge and Data Engineering,1999,11(5):697~712

7 Brus D https://www.360docs.net/doc/df16188063.html,ing Nonprobability Samples in Design-based Estimation of Spatial Means of S oil Properties.Proceed2 ings Accuracy2000,Amsterdam,2000

8 Sester M.Knowledge Acquisition for the Automatic In2 terpretation of Spatial Data.International Journal of G eo2 graphical Information Science,2000,14(1):1~24

9 Shafer G.A Mathematical Theory of Evidence.Prince2 ton:Princeton University Press,1976

10 Y ang J B,Madan G,Singh.An Evidential Reasoning Approach for Multiple-Attribute Decision Making with Uncertainty.IEEE Transactions on System,Man,and Cybernetics,1994,24(1):1~18

11 Lipski,W J.On Databases with Incomplete Informa2 tion.Journal of ACM,1981,28:41~70

12 Chrisman N C.Exploring G eographic Information Sys2

922

第3期 李德仁等:论空间数据挖掘和知识发现的理论与方法

tems.New Y ork:John Wiley&S ons,1997

13 Cressie N.Statistics for Spatial Data.New Y ork:John Wiley&S ons,1991

14 Wang J,Y ang J,Muntz R.An Approach to Active Spa2 tial Data Mining Based on Statistical Information.IEEE Transactions on Knowledge and Data Engineering, 2000,12(5):715~728

15 Wang J,Y ang J,Muntz R.STIN G+:An Approach to Active Spatial Data Mining.Proceedings of the15th In2 ternational Conference on Data Engineering,1999

16 郭达志,胡召玲,陈云浩.GIS中空间对像的不确定性研究.中国矿业大学学报(自然科学版),2000,29(1): 20~24

17 张景雄,杜道生.位置不确定性与属性不确定性的场模型.测绘学报,1999,28(3):244~249

18 冯建生.K DD及其应用.宝钢技术,1999(3):27~31 19 K operski K,Han J.Discovery of Spatial Association Rules in G eographic Information Databases.In:Egen2 hofer M J,Herring J R,Portland M E,eds.Proceedings of the4th International Symposium on Spatial Databas2 es(SSD’95).Berlin:Springer-Verlag,1995

20 程继华,施鹏飞.多层次关联规则的有效挖掘算法.

软件学报,1998,12(9):937~941

21 许龙飞,杨晓昀.K DD中广义关联规则发现技术研究.计算机工程与应用,1998(9):32~35

22 Han E H S,K arypis G,Kumar V.Scalable Parallel Data Mining for Association Rules.IEEE Transaction on Knowledge and Data Engineering,2000,12(3):337~352

23 Eklund P W,K irkby S D,Salim A.Data Mining and S oil Salinity Analysis.International Journal of G eo2 graphical Information Science,1998,12(3):247~268 24 Aspinall R,Pearson D.Integrated G eographical Assess2 ment of Environmental Condition in Water Catchments: Linking Landscape Ecology,Environmental Modeling and GIS.Journal of Environmental Management,2000, 59:299~319

25 涂星原.基于数值属性的关联规则的挖掘.郑州工业大学学报,1998,19(3):72~75

26 Clementini E,Felice P D,K operski K.Mining Multiple-level Spatial Association Rules for Objects with a Broad Boundary.Data and Knowledge Engineering,2000,34: 251~270

27 左万利.含有类别属性数据库中联系性规则的挖掘.

吉林大学自然科学学报,1999(1):33~37

28 丁祥武.挖掘时态关联规则.武汉交通科技大学学报,1999,23(4):365~367

29 丁祥武.序列模式的一种模型及其挖掘.中南民族学院学报(自然科学版),1999,18(2):44~48

30 丁祥武.挖掘关联规则的一种预处理:合并交易.中南民族学院学报(自然科学版),1999,18(3):21~2531 肖 利.挖掘序列型式的模型研究.计算机科学, 1998(专刊):135~136

32 程继华,施鹏飞,魏暑生.基于概念的关联规则的挖掘.郑州大学学报(自然科学版),1998,30(20):27~30

33 肖 利,金远平,徐宏炳,等.一个新的挖掘广义关联规则算法.东南大学学报,1997,27(6):76~81

34 Han J W,Cai Y,Cercone N.Data Driven Discovery of Quantitative Rules in Relational Databases.IEEE Transaction on Knowledge and Data Engineering,1993, 5(1):29~40

35 肖 利,王能斌,徐宏炳,等.挖掘转移规则:一种新的数据挖掘技术.计算机研究与发展,1998,35(10): 902~906

36 朱 明,王俊普,蔡庆生.一种最优特征集的选择算法.计算机研究与发展,1998,35(9):803~805

37 陈 彬,洪家荣,王亚东.最优特征子集选择问题.计算机学报,1997,20(2):133~138

38 Kriegel H P.3D Similarity Search by Shape Approxima2 tion.In:Scholl M,Voisard A,eds.Proceedings of the 5th International Symposium on Spatial Databases (SSD’97).Berlin:Springer-Verlag,1997

39 欧阳为民,蔡庆生.在大型数据库中多层序贯模式的发现.计算机研究与发展,1998,35(10):916~920

40 欧阳为民,蔡庆生.一种在数据库中发现偏离模式的线性算法.计算机研究与发展,1998,35(10):911~915

41 周 斌,吴泉源.序列模式挖掘的一种渐进算法.计算机学报,1999,22(8):882~887

42 杨学兵,刘胜军,蔡庆生.一种实时过程控制中的数据挖掘算法研究.计算机应用,1999,19(9):8~10

43 Levene M,Vincent M W.J ustification for Inclusion De2 pendency Normal Form.IEEE Transactions on Knowl2 edge and Data Engineering,2000,12(2):281~291

44 覃振兴,袁曾任.在K DD和Data Mining中我们的部分工作和看法.信息与控制,1999,28(4):255~261 45 石 冰,郑燕峰.信息检索中的数据挖掘技术.情报学报,1999,18(增刊):103~106

46 K aufman L,Rousseew P J.Finding Groups in Data:an Introduction to Cluster Analysis.New Y ork:John Wiley &S ons,1990

47 Murray A T,Estivill-Castro V.Clustering Discovery Techniques for Exploratory Spatial Data Analysis.In2 ternational Journal of G eographical Information Sci2 ence,1998,12(5):431~443

48 Ester M.A Density—based Algorithm for Discovering Clusters in Large Spatial Databases with Noise.The2nd International Conference on Knowledge Discovery and Data Mining,Portland,1996

49 Ng R T,Han J.E fficient and E ffective Clustering Methods for S patial Data Mining.The20th Very

032 武汉大学学报?信息科学版 2002年

Large Databases Conference,Santiago,Chile,1994

50 Ester M.A Database Interface for Clustering in Large Spatial Databases.The1st International Conference on Knowledge Discovery and Data Mining,Montreal,1995 51 周成虎,张健挺.基于信息熵的地学空间数据挖掘模型.中国图像图形学报,1999,4[A](11):943~951 52 Pitt L,Reinke R E.Criteria for Polynomial Time(con2 ceptual)Clustering.Machine Learning,1998,2(4):371~396

53 Han J,Fu Y.Dynamic G eneration and Refinement of Concept Hierarchies for Knowledge Discovery in Databases.AAAI’94Workshop on Knowledge Discov2 ery in Databases(K DD’94),Seattle,WA,1994

54 李世祥,李涛涛.一种数据库数值型字段概念化算法的介绍及讨论.微型电脑应用,1999,15(11):24~26 55 Ester M,Kriegel H P,Xu X.Knowledge Discovery in Large Spatial Databases:Focusing Techniques for E ffi2 cient Class Identification.In:Egenhofer M J,Herring J R,Portland M E,eds.Proceedings of the4th Interna2 tional Symposium on S patial Databases(SSD’95).

Berlin:Springer-Verlag,1995

56 Knorr E M,Ng R T.Finding Aggregate Proximity Re2 lationships and Commonalities in S patial Data Mining.

IEEE Transactions on Knowledge and Data Engineer2 ing,1996,8(6):884~897

57 Edwin.Finding Boundary Shape Matching Relationships in Spatial Data.In:Scholl M,Voisard,eds.Proceedings of the5th International Symposium on S patial Databas2 es(SSD’97).Berlin:Springer-Verlag,1997

58 Lin X,Zhou X,Liu C.E fficiently Matching Proximity Relationships in Spatial Databases.In:Güting R H,Pa2 padias D,Lochovshy F,eds.Proceedings of the6th In2 ternational Symposium on Spatial Databases(SSD’99).

Berlin:Springer-Verlag,1999

59 Tung A K H,Hou J,Han J.S patial Clustering in the Presence of Obstacles.IEEE Tramsactions on Data En2 gineering,2001,11:359~369

60 Murray A T,Shyy T K.Integrating Attribute and Space Characteristics in Choropleth Display and Spatial Data Mining.International Journal of G eographical Informa2 tion Science,2000,14(7):649~667

61 邸凯昌.空间数据发掘和知识发现的理论和方法: [博士论文].武汉:武汉测绘科技大学,1999

62 王新洲,王树良.土地评价中的模糊聚类分析.武汉大学学报(自然科学版),1999(模糊理论与工程专刊):103~107

63 Ester M,Kriegel H P,Sander J.S patial Data Mining:a Database Approach.In:Scholl M V,eds.Proceedings of the5th International Symposium on Spatial Databases (SSD’97).Berlin:Springer-Verlag,1997

64 Reinartz T.Focusing S olutions for Data Ming:Analyti2

cal Studies and Experimental Results in Real World Do2 mains.Berlin:Springer,1999

65 王晋年.以地物识别和分类为目标的高光谱数据挖掘.中国图像图形学报,1999,4A(11):957~964

66 马建文,马超飞.基于空间角度理论的卫星光学遥感数据认知与挖掘.中国图像图形学报,1999,4[A]

(11):918~923

67 布和敖斯尔.基于知识发现和决策规则的盐碱地遥感分类方法研究.中国图像图形学报,1999,4[A]

(11):965~969

68 陈春香.数据发现在地球化学数据处理中的应用.桂林工学院学报,1999,19(3):230~234

69 Ester M.Spatial Data Mining:Databases Primitives,Al2 gorithms and E fficient DBMS Support.Data Mining and Knowledge Discovery,2000(4):193~216

70 Mouzon O D,Dubois D,Prade https://www.360docs.net/doc/df16188063.html,ing Consistency and Abduction Based Indices in Possibilistic Causal Diagno2 sis.IEEE,2001,729~734

71 Zadeh L A.Fuzzy https://www.360docs.net/doc/df16188063.html,rmation and Control,1965 72 Shi W Z.Modeling Positional and Thematic Uncertain2 ties in Integratio of Remote Sensing and G eographic In2 formation Systems.Enschede:ITC Publication,1994

73 张景雄,杜道生,孙家扌丙.用随机模拟方法建立矢量数据的误差模型.武汉测绘科技大学学报,2000,25

(1):49~54

74 Burrough P A,Frank A U.G eographic Objects with In2 determinate Boundaries.Basingstoke:Taylor and Fran2 cis,1996

75 Canters F.Evaluating the Uncertainty of Area Esti2 mates Derived from Fuzzy Land-cover Classification.

Photogrammetric Engineering&Remote Sensing, 1997,63(4):403~414

76 Vazirgiannis M,Halkidi M.Uncertainty Handling in the Data Mining Process with Fuzzy Logic.IEEE,2000, 393~398

77 全 斌,马智民.GIS中空间数据属性不确定性研究.

西安工程学院学报,1998,20(1):67~71

78 王新洲,王树良.模糊综合法在土地定级中的应用.

武汉测绘科技大学学报,1997,22(1):42~46

79 史文中.空间误差处理的理论和方法.北京:科学出版社,1998

80 李德毅,史雪梅,孟海军.隶属云和隶属云发生器.计算机研究与发展,1995,42(8):32~41

81 Pawlak Z.Rough Sets.International Journal of Com put2 er and Information Sciences,1982,11(5):341~356

82 Pawlak Z.Rough Sets:Theoretical Aspects of Reasoning about Data.London:K luwer Academic Publishers,1991 83 Y ao Y Y,Wong S K M,Lin T Y.A Review of Rough Set Models.In:Lin Y,Cercone N K,eds.Rough Sets and Data Mining Analysis for Imprecise Data.London: K luwer Academic Publishers,1997

132

第3期 李德仁等:论空间数据挖掘和知识发现的理论与方法

84 Gunther R.Rough Set-based Analysis in G oal-oriented S oftware Measurement.Proceedings of METRICS’96, 1996

85 Stepaniuk J,Maj M.Data Transformation and Rough Sets.In:Zytkow J M,Quafafou M N,eds.Proceedings of the2th European Symposium PA K DD’98.Berlin: Springer,1998

86 Wang S L,Wang X Z.Data Mining Applied in Land Use Control in City-Country Combinative Area.Inter2 national Archives of Photogrammetry and Remote Sens2 ing,2000,33(B7):1677~1683

87 Ahlqvist O,K eukelaar J,Oukbir K.Rough Classification and Accuracy Assessment.International Journal of G eo2 graphical Information Science,2000,14(5):475~496 88 卞学海.非一致性数据的必然规则学习.华东船舶工业学院学报,1998,12(1):25~30

89 刘 清.带Rough算子的决策规则及数据挖掘中的软计算.计算机研究与应用,1998,36(7):800~804 90 Lin Y,Cercone N.Rough Sets and Data Mining Analy2 sis for Imprecise Data.London:K luwer Academic Pub2 lishers,1997

91 Polkowski L,Skowron A.Rough Sets in Knowledge Discovery1:Methodologies and Applications.Heidel2 berg:Physica-Verlag,1998

92 Polkowski L,Skowron A.Rough Sets in Knowledge Discovery2:Applications,Case Studies and S oftware Systems.Heidelberg:Physica-Verlag,1998

93 Pal S,Skowron A.Rough-Fuzzy Hybridization:a New Trend in Decision-Making.Singapore:Springer-Ver2 lag,1999

94 Polkowski L,Tsumoto S,Lin T Y.Rough Sets Methods and Applications:New Developments in Knowledge Discovery and Information Systems.Heidelberg:Physi2 ca-Verlag,1998

95 王树良,孙春生,严 春.基准地价中的土地利用类型探讨.中国土地科学,1999,13(1):5~9

96 Müller B,Rrinhardt J.Neural Networks:an Introduc2 tion.Berlin:Springer-Verlag,1997

97 Lee E S.Neuro-fuzzy Estimation in Spatial Statistics.

Journal of Mathematical Analysis and Applications, 2000,249:221~231

98 Buckless B P,Petry F E.G enetic Algorithms.Californi2 a:IEEE Computer Press,1994

99 Jiang W.Bridging the Information G ap:Computational Tools for Intermediate Resolution Structure Interpreta2 tion.Journal of Molecular Biology,2001,308:1033~1044

100 陈 栋,徐洁磐.Knight:一个通用知识挖掘工具.计算机研究与发展,1998,35,(4):338~343

101 向国全.前向网络BP算法在数据挖掘中的运用.河南大学学报(自然科学版),1999,29(3):42~45102 骆剑承,周成虎,马江洪.遥感影像特征发现的稳健统计模型研究.中国图像图形学报,1999,4[A]

(11):952~956

103 Kriegel H P.3D Similarity Search by Shape Approxi2 mation.In:Scholl M,Voisard A,eds.Proceedings of

the5th International Symposium on S patial Databases

(SSD’97).Berlin:Springer-Verlag,1997:11~28

104 Ravantti J J,Bamford D H.A Data Mining Approach for Analyzing Density Maps Representing Macromolec2

ular Structures.Journal of Structural Biology,1999,

125:216~222

105 Ankerst M.3D Shape Histograms for Similarity Search and Classification in Spatial Databases.In:Güting R

H,Papadias D,Lochovshy F.eds.Proceedings of the

6th International Symposium on Spatial Databases

(SSD’99).Berlin:Springer-Verlag,1999:207~225 106 Maceachren A M.Constructing Knowledge from Mul2 tivariate Spatiotemporal Data:Integrating G eographical

Visualization with Knowledge Discovery in Database

Methods.International Journal of G eographical Infor2

mation Science,1999,13(4):311~334

107 Quinlan J.Introduction of Decision Trees.Machine Learning,1986,(5):239~266

108 Marsala C,Bigolin N M.Spatial Data Mining with Fuzzy Decision Trees.In:Ebecken N F F,eds.Data

Mining.Ashurst Lodge:WIT Press/Computational

Mechanics Publications,1998.235~248

109 Fayyad U M.Advances in Knowledge Discovery and Data Mining.Menlopark CA:AAAI/MIT Press,1996 110 翁惠玉.网络搜索引擎的现状分析.情报学报, 1999,18(增刊):100~102

111 邹 涛.WWW上的信息挖掘技术及实现.计算机研究与发展,1999,36(8):1019~1024

112 何炎祥.基于网络环境的分布式K DD及Data Min2 ing研究.小型微型计算机系统,1999,20(10):744~

746

113 陈 莉.数据挖掘与虚拟数据库.四川师范大学学报(自然科学版),1999,21(6):657~661

114 Zhou X,Truffet D,Han J.E fficient Polygon Amalga2 mation Methods for S patial OLAP and Spatial Data

Mining.In:Güting R H,Papadias D,Lochovshy F,

eds.Proceedings of the6th International Symposium

on Spatial Databases(SSD’99).Berlin:S pringer-Ver2

lag,1999.167~187

115 赵霈生,杨崇俊,刘冬林.基于网络环境的地理信息系统整合与知识发现.中国图像图形学报,1999,4

[A](11):940~945

116 卢 坚.WWW DOC系统中HTML文档的可视化编辑与浏览技术的实现.计算机辅助设计与图形学

学报,1999,11(6):559~562

117 邹 涛,黄 源,张福炎.基于WWW的文本信息挖

232 武汉大学学报?信息科学版 2002年

掘.情报学报,1999,18(4):289~293

118 周 斌,吴泉源,高洪奎.用户访问模式数据挖掘的

模型与算法研究.计算机研究与发展,1999,36(7):

870~875

119 邓聚龙.灰色系统基本方法.武汉:华中工学院出版

社,1987

120 Awrejcewicz J.Bifurcation and Chaos in Simple Dy 2

namical Systems.Singapore :World Scientific ,1989121 刘开第.未确知数学.武汉:华中理工大学出版社,

1997

122 郑宏珍,柳明欣.数据挖掘及其工具的选择.计算机

应用,1999,19(10):109~110

作者简介:李德仁,教授,博士生导师,中国科学院院士,中国工程院院士,欧亚科学院院士。现主要从事遥感、全球定位系统、地理信息系统和多媒体网络通信及其集成研究。代表成果:高精度摄影测量定位理论与方法;GPS 辅助空中三角测量;SPO T 卫星像片解析处理;数学形态学及其在测量数据库中的应用;面向对象的GIS 理论与技术;空间数据挖掘和知识发现的理论与方法;影像理解及像片自动解译以及多媒体通信等。已发表论文300余篇,出版专著8部。

E -mail :dli @https://www.360docs.net/doc/df16188063.html,

Theories and T echnologies of Spatial Data Mining

and K now ledge Discovery

L I Deren 1

 W A N G S huliang 1

 L I Deyi 2

 W A N G Xi nz hou

3

(1 National Laboratory for Information Engineering in Surveying Mapping and Remote Sensing ,Wuhan University ,

129Luoyu Road ,Wuhan ,China ,430079)

(2 China Institute of Electric System Engineering ,6Wanshou Road ,Beijing ,China ,100039)(3 School of G eodesy and G eomatics ,Wuhan University ,129Luoyu Road ,Wuhan ,China ,430079)

Abstract :The good methods and technologies of spatial data mining and knowledge discovery

(SDM K D )may get excellent knowledge.This paper presents an overview on SDM K D.First ,the concept of SDM K D is discussed.Then ,this paper describes the theories and technologies on SDM K D ,such as probability theory ,evidence theory ,spatial statistics ,rules induction ,clustering analysis ,spatial analysis ,fuzzy sets ,rough sets cloud theory ,neural network ,genetic algorithms ,visualization ,decision tree ,spatial online analytical mining.Finally ,how to study SDM K D is fore 2casted.

K ey w ords :spatial data mining ;knowledge discovery ;theories and technologies

About the author :LI Deren ,professor ,Ph.D supervisor ,member of the Chinese Academy of Sciences ,member of the Chinese Academy of En 2gineering ,member of the Euro-Asia International Academy of Sciences.He is concentrated on the research and education in spatial in formation science and technology represented by remote sensing (RS ),global positioning system (GPS ),geographic in formation system (GIS )and the intergration of multimedia network communications.He has made unique and original contribution to the areas of theories and methods for high precision photogrammetric positioning ,GPS aerotriangulation ,analysis and processing of SPOT imagery ,mathematical morphology and its ap 2plication in spatial databases ,theories of spatial data mining and knowledge discovery theories of object-oriented GIS ,image understanding and automatic photointerpretation ,multimedia communication and mobile mapping systems ,etc.The research findings have promoted the progress of the technology directly and are being turned into products.H is published papers are more than 300and books 8.E -mail :dli @https://www.360docs.net/doc/df16188063.html,

3

32第3期 李德仁等:论空间数据挖掘和知识发现的理论与方法

《数据挖掘》试题与标准答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2.时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

空间数据挖掘工具浅谈_汤海鹏

第28卷第3期2005年6月 测绘与空间地理信息 G E O M A T I C S &S P A T I A LI N F O R M A T I O NT E C H N O L O G Y V o l .28,N o .3 J u n .,2005 收稿日期:2004-09-14 基金项目:国家重点基础研究发展规划(973)资助项目(2001C B 309404) 作者简介:汤海鹏(1979-),男,湖南沅江人,本科,主要从事信息化管理和信息化建设等方面的研究。 空间数据挖掘工具浅谈 汤海鹏1 ,毛克彪 2,3 ,覃志豪2,吴 毅 4 (1.公安部出入境管理局技术处,北京100741;2.中国农业科学院自然资源与农业区划研究所农业遥感实验室, 北京100081;3.中国科学院遥感所,北京100101;4.黑龙江乌苏里江制药有限公司,黑龙江哈尔滨150060) 摘要:数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以 用来做出预测。空间数据挖掘有十分广阔的应用范围和市场前景,目前已出现大量的数据挖掘工具用于企业决策、科学分析等各个领域。文中对2个数据挖掘工具进行讨论,介绍它们的功能、所使用的技术以及如何使用它们来进行数据挖掘。 关键词:数据挖掘;空间数据挖掘;数据立方体;知识库引擎 中图分类号:P 208 文献标识码:A 文章编号:1672-5867(2005)03-0004-02 AS u r v e y o f D a t a Mi n i n g T o o l s T A N GH a i -p e n g 1 ,M A OK e -b i a o 2,3 ,Q I NZ h i -h a o 2 ,W UY i 4 (1.B u r e a uo f E x i t a n dE n t r y A d m i n i s t r a t i o n ,M i n i s t r y o f P u b l i c S e c u r i t y ,B e i j i n g 100741,C h i n a ;2.T h e K e y L a b o r a t o r y o f R e m o t e S e n s i n g a n d D i g i t a l A g r i c u l t u r e ,C h i n a A c a d e m y o f A g r i c u l t u r e R e m o t e S e n s i n g L a b o r a t o r y ,B e i j i n g 100081,C h i n a ; 3.I n s t i t u t eo f R e m o t e S e n s i n g A p p l i c a t i o n s ,C h i n e s e A c a d e m y o f S c i e n c e s ,B e i j i n g 100101,C h i n a ; 4.H e i l o n g j i a n g Wu s u l i j i a n g P h a r m a c e u t i c a l C o .L t d .,H a r b i n 150060,C h i n a ) A b s t r a c t : B e c a u s e o f c o m m e r c i a l d e m a n d s a n dr e s e a r c hi n t e r e s t ,a l l k i n d s o f s p a t i a l d a t a m i n i n g s o f t w a r e t o o l s e m e r g e .I n o r d e r t o g e t u s e o f t h e d a t a m i n i n g t o o l s ,t w o o f t h e ma r e i n t r o d u c e d i n t h i s p a p e r a n d m a k e p r o s p e c t o f i n t e g r a t i o n o f G I S ,R S ,G P S a n d d a t a m i n -i n g .K e yw o r d s :d a t a m i n i n g ;s p a t i a l d a t a m i n i n g ;d a t a c u b e ;d a t a b a s e e n g i n e 0 引 言 随着数据获取手段(特别是对地观测技术)及数据库 技术的快速发展,科研机构、政府部门在过去的若干年里都积累了大量的数据,而且,目前这些数据仍保持迅猛的增长势头。如此大量的数据已远远超过传统的人工处理能力,怎样从大量数据中自动、快速、有效地提取模式和发现知识显得越来越重要。数据挖掘与知识发现作为一个新的研究领域和新的技术正方兴未艾,用于从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式[1~2],很好地满足了海量数据处理的需要。 具体应用中,数据挖掘工具很多。它们在功能和方法等方面差别很大。如何选择适合具体挖掘需求的工具,是进行挖掘工作必须考察的前提。选择某一工具时,应考虑数据类型,主要是考察工具能处理的数据:①关系 数据库的数据。包括数据仓库数据、文本文档、空间数据、 多媒体数据、W e b 数据等;②功能和方法。数据挖掘功能是数据挖掘工具(或系统)的核心,一些数据挖掘工具仅提供一种功能(如分类),另一些工具可能支持另外的挖掘功能(如描述、关联、分类、预测和聚类等);③其他考虑的方面如:系统问题、数据源、可伸缩性、可视化、数据挖掘查询语言和图形用户接口、工具和数据库或数据仓库系统等。 在众多的数据中,有近80%的数据可以通过空间关系表达。现在,通过卫星扫描地球,每天都能获得大量的关于地表的遥感图像。要从大量的数据中判读出每一个图片所潜藏的信息,就必然要用到数据挖掘技术。本文将通过介绍专业的航空遥感图像处理系统E r d a s 和D B -M i n e r 来阐述处理空间数据和关系数据的这一过程及这2种软件的特点。

数据挖掘试卷一

数据挖掘整理(熊熊整理-----献给梦中的天涯) 单选题 1.下面哪种分类方法是属于神经网络学习算法?() A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 D. 基于案例的推理 2.置信度(confidence)是衡量兴趣度度量( A )的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 3.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 4.数据归约的目的是() A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 5.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声? A.数据清理 B.数据集成 C.数据变换 D.数据归约 6.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?(B) A 第一个 B 第二个 C 第三个 D 第四个 7.下面的数据操作中,()操作不是多维数据模型上的OLAP操作。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 8.关于OLAP和OLTP的区别描述,不正确的是: (C) A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同. B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高. D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的 9.下列哪个描述是正确的?() A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习

GIS技术的研究现状及未来发展趋势.

GIS 技术的研究现状及未来发展趋势 摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。 关键词:GIS 研究现状发展趋势 0 引言 随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状 世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

机器学习_KDD Cup 1999 Data Data Set(知识发现和数据挖掘杯1999数据集)

KDD Cup 1999 Data Data Set(知识发现和数据挖掘 杯1999数据集) 数据摘要: This is the data set used for The Third International Knowledge Discovery and Data Mining Tools Competition, which was held in conjunction with KDD-99 中文关键词: 多变量,分类,知识发现和数据挖掘,UCI, 英文关键词: Multivariate,Classification,KDD,UCI, 数据格式: TEXT 数据用途: This data set is used for classification. 数据详细介绍:

KDD Cup 1999 Data Data Set Abstract: This is the data set used for The Third International Knowledge Discovery and Data Mining Tools Competition, which was held in conjunction Data Set Information: Please see task description. Relevant Papers: Salvatore J. Stolfo, Wei Fan, Wenke Lee, Andreas Prodromidis, and Philip K. Chan. Cost-based Modeling and Evaluation for Data Mining With Application to Fraud and Intrusion Detection: Results from the JAM Project. [Web Link] 数据预览:

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用* 戴晓燕1 过仲阳1 李勤奋2 吴健平1 (1华东师范大学教育部地球信息科学实验室 上海 200062) (2上海市地质调查研究院 上海 200072) 摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 关键词 空间聚类 K-均值法 散度 1 前言 随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。 空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。 空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。 本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2 划分法 设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— *基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学 地理系硕士研究生,主要从事空间数 据挖掘的研究。 · 41 · 2003年第4期 上海地质 Shanghai Geology

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

知识发现与数据挖掘

知识发现与数据挖掘 https://www.360docs.net/doc/df16188063.html, 2007-6-12 宋利 【摘要】本文介绍了知识发现及其数据挖掘的发展历史,数据挖掘常用技术及应用。 【关键词】知识发现,数据挖掘 1、引言 随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。进入九十年代,伴随着因特网(Internet)的出现和发展,以及随之而来的企业内部网(Intranet)和企业外部网(Extranet)以及虚拟私有网(VPNVirtualPrivatenetwork)的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。据估计,一个大型企业数据库中数据,只有百分之七得到很好应用。这样,相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”(Informationpoor)和数据关在牢笼中”(datainjail),奈斯伯特(JohnNaisbett)惊呼“Wearedrowningininformation,butstarvingforknowledge”(人类正被数据淹没,却饥渴于知识)。 面临浩渺无际的数据,人们呼唤从数据汪洋中来一个去粗存精、去伪存真的技术。从数据库中发现知识(KDD)及其核心技术——数据采掘(DM)便应运而生了。 2、知识发现过程 知识发现(KDD)是从数据中发现有用知识的整个过程;数据开采(DM)是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。1996年,Fayyad、PiatetskyShapiror和Smyth将KDD过程定义为:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的。 KDD过程是多个步骤相互连接、反复进行人机交互的过程。具体包括: ①学习某个应用领域:包括应用中的预先知识和目标。

数据挖掘试题150

单选题 1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A.关联规则发现 B.聚类 C.分类 D.自然语言处理 2.以下两种描述分别对应哪两种对分类算法的评价标准?(A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A.Precision,Recall B.Recall,Precision C.Precision,ROC D.Recall,ROC 3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? (C) A.频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 4.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A.分类 B.聚类 C.关联分析 D.隐马尔可夫链 5.什么是KDD?(A) A.数据挖掘与知识发现 B.领域知识发现 C.文档知识发现 D.动态知识发现 6.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A.探索性数据分析 B.建模描述 C.预测建模 D.寻找模式和规则

7.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A.探索性数据分析 B.建模描述 C.预测建模 D.寻找模式和规则 8.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A.根据内容检索 B.建模描述 C.预测建模 D.寻找模式和规则 9.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A.根据内容检索 B.建模描述 C.预测建模 D.寻找模式和规则 11.下面哪种不属于数据预处理的方法?(D) A变量代换 B离散化 C聚集 D估计遗漏值 12.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55, 72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?(B) A第一个 B第二个 C第三个 D第四个 13.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A) A第一个 B第二个 C第三个 D第四个 14.下面哪个不属于数据的属性类型:(D) A标称

《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

可视化空间数据挖掘研究综述

可视化空间数据挖掘研究综述 贾泽露1,2 刘耀林2 (1. 河南理工大学测绘与国土信息工程学院,焦作,454000;2. 武汉大学资源与环境科学学院,武汉,430079)摘要:空间数据挖掘针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境,可视化与空间数据挖掘的结合是该领域研究发展的必然,并已成为一个研究热点。论文综述了空间数据挖掘和可视化的研究现状,重点阐述了空间数据挖掘中的可视化化技术及其应用,并对可视化空间数据挖掘的发展趋势进行了阐述。 关键词:数据挖掘;空间数据挖掘;数据可视化;信息可视化;GIS; 空间信息获取技术的飞速发展和各种应用的广泛深入,多分辨率、多时态空间信息大量涌现,以及与之紧密相关的非空间数据的日益丰富,对海量空间信息的综合应用和处理技术提出了新的挑战,要求越来越高。空间数据挖掘技术作为一种高效处理海量地学空间数据、提高地学分析自动化和智能化水平、解决地学领域“数据爆炸、知识贫乏”问题的有效手段,已发展成为空间信息处理的关键技术。然而,传统数据挖掘“黑箱”作业过程使得用户只能被动地接受挖掘结果。可视化技术能为数据挖掘提供直观的数据输入、输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了传统数据挖掘过程“黑箱”作业的缺点,同时也大大弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度[1]。空间数据挖掘中可视化技术已由数据的空间展现逐步发展成为表现数据内在复杂结构、关系和规律的技术,由静态空间关系的可视化发展到表示系统演变过程的可视化。可视化方法不仅用于数据的理解,而且用于空间知识的呈现。可视化与空间数据挖掘的结合己成为必然,并已形成了当前空间数据挖掘1与知识发现的一个新的研究热点——可视化空间数据挖掘(Visual Spatial Data Mining,VSDM)。VSDM技术将打破传统数据挖掘算法的“封闭性”,充分利用各式各样的数据可视化技术,以一种完全开放、互动的方式支持用户结合自身专业背景参与到数据挖掘的全过程中,从而提高数据挖掘的有效性和可靠性。本文将对空间数据挖掘、可视化的研究概况,以及可视化在空间数据挖掘中的应用进行概括性回顾总结,并对未来发展趋势进行探讨。 一、空间数据挖掘研究概述 1.1 空间数据挖掘的诞生及发展 1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,从事数据库、人工智能、数理统计和可视化等技术的学者们,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念,标志着数据挖掘技术的诞生[1]。此时的数据挖掘针对的 作者1简介:贾泽露(1977,6-),男,土家族,湖北巴东人,讲师,博士,主要从事空间数据挖掘、可视化、土地信息系统智能化及GIS理论、方法与应用的研究和教学工作。 作者2简介:刘耀林(1960,9- ),男,汉族,湖北黄冈人,教授,博士,博士生导师,武汉大学资源与环境科学学院院长,现从事地理信息系统的理论、方法和应用研究和教学工作。

知识发现与数据挖掘概述

知识发现与数据挖掘概述 摘要:数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。 关键字:知识发现数据挖掘神经网络决策树 引言 知识发现与数据挖掘是人工智能,机器学习与数据库技术相结合的产物。随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。进入九十年代,伴随着互联网的出现和发展,以及各种局域网的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。由于计算机数据采集工具以及关系数据库技术的发展,各行业存储了大量的数据,而关系数据库提供的简单查询及报表生成功能,只能获得数据的表层信息,而不能获得数据属性的内在关系和隐含的信息,这样既淹没了包含的知识又造成了资源的浪费。传统的数据分析手段更是难以应付,导致越来越严重的数据灾难,使决策者出现或是穷于应付,或是置之不理的事实。为了使消耗大量财力与物力所收集与整理的宝贵数据资源得以利用,有效解决数据丰富性及知识贫乏性的矛盾,需要新技术智能、自动地分析处理原始数据,促使了数据库中的知识发现(KDD, Knowledge Discovery in Database),也有人称为数据挖掘(Data Mining)技术的出现。从数据库中发现知识(Knowledge Discovery in Database-KDD)一词是于1989年8月在美国底特律召开的第一届KDD国际学术会议上正式形成的。1995年在加拿大召开了第一届知识发现和数据挖掘(Data Mining—DM, 有人翻译为数据挖掘、数据发掘、数据采掘)国际学术会议。 1、数据挖掘技术的概念 1.1 知识发现的概念 KDD(知识发现)是一个综合的过程,它包括数据录入、迭代求解、用户交互以及许多定制要求和决策设计等,这一研究领域兴起于八十年代初,它是一个众多学科诸如人工智能、机器学习、模式识别、统计学、数据库和知识库、数据可视化等相互交叉、融合所形成的一个新兴的且具有广阔前景的领域。 在KDD-96国际会议上,Fayyad, Piatetsky-Shapiro和Smyth对KDD作了如下描述:指从数据库中识别并获取获取正确、新颖、有潜在应用价值和最终可理解的模式的非平凡过程。在这个描述中,数据库是一系列数据事实的集合。模式即知识,它给出了数

数据挖掘与知识发现

第11章 贝叶斯网络 贝叶斯网络是1986年由Pearl 提出的,根据各个变量之间的概率关系,使用图论方法表示变量集合的联合概率分布的图形模型。它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。 在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。其特点有: 贝叶斯理论给出了信任函数在数学上的计算方法,具有稳固的数学基础,同时刻画了信任度与证据的一致性以及信任度随证据而变化的增量学习特性; 在数据挖掘中,贝叶斯网络可以处理不完整和带有噪声的数据集,它用概率测度的权重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题; 用图形的方法描述数据间的相互关系,语义清晰、可理解性强,这有助于利用数据间的因果关系进行预测分析; 贝叶斯方法的基本观点 贝叶斯分析方法的特点是使用概率去表示所有形式的不确定性。学习或其他形式的推理都是用概率规则来实现的。贝叶斯学习的结果表示为随机变量的概率分布,它可以解释为我们对不同可能性的信任程度。贝叶斯学派的起点是贝叶斯的两项工作:贝叶斯定理和贝叶斯假设。 假设随机变量θ,x 的联合分布密度是),(θx p ,它们的边际密度分别为)(),(θp x p 。设x 是观测向量,θ是末知参数向量,则可通过观测向量来获得末知参数向量的估计。贝叶斯定理为: ???=?=θ θθπθθπθθπθd x p x p x p x p x p )|()()|()()() |()()|(

这里,)(θπ是θ的先验分布。 上式可以看出,对末知参数向量θ的估计综合了它的先验信息和样本信息。而传统的参数估计方法只从样本数据获取信息,如最大似然估计。 Bayesian 方法对末知参数向量估计的一般过程为: 将末知参数看成是随机变量; 根据以往末知参数θ的知识,确定先验分布)(θπ; 计算后验分布密度,做出对末知参数的推断。 贝叶斯假设:如果没有任何以往的知识来帮助确定)(θπ,贝叶斯提出可以采用均匀分布作为其分布,即参数在它的变化范围内,取到各个值的机会是相同的。 贝叶斯网络的构造原理 定义:贝叶斯网络是一个二元组B=,其中 ① 网络结构G=是一个有向无环图,},,,{21n V V V V Λ=为 结点集;A 为弧的集合; ② 网络参数P 中的每一个元素代表结点i V 的条件概率密度; 则由概率的链规则得 X ΛΛn i i i n V V V V P V V V P V P 112121),,,|(),,,()(=-== 对于n 个离散二值随机变量,要确定它们的联合分布,需要给出12-n 个概率值。这当n 较大时,巨大的存储要求往往难以满足。因此,一定的假设独立性是必要的。随机变量间的假设独立性原则使得贝叶斯网络所需定义的先验概率大为减少。联合概率分布由随机变量各自的分布的乘积所唯一确定。 对于网络结构中的任一结点i V ,必可找到一个与i V 条件都不独立的最

空间数据挖掘主要方法

空间数据挖掘主要方法 数据分析微信公众号datadw——关注你想了解的,分享你需要的。 1.空间分析方法 利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工,从而产生新的信息和知识。常用的空间分 析方法有综合属性数据分析、拓扑分析、缓冲区分析、距离分析、叠置分析、地形分析、趋势面分析、预测分析等,可发现目标在空间上的相连、相邻和共生等关联规则,或发现目标之间的最短路径、最优路径等辅助决策知识。 2.统计分析方法 统计分析一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性分析。统计方法有较强的理论基础,拥有大量成熟的算法。统计方法难以处理字符型数据,需要有领域知识和统计知识,一般由具有统计经验的领域专家来完成。 3.归纳学习方法 归纳学习方法是从大量的经验数据中归纳制取一般的规则和模式,其大部分算法来源于机器学习领域,归纳学习的算法很 多,如Michaski等的 AQ11,AQ15,洪家荣等的AE1,AE9,Hunt的CLS,Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的 C5.0决策树算法。 4.聚类与分类方法 聚类和分类方法按一定的距离或相似性系统将数据分成一系列相互区分的组。常用的经典聚类方法有 Kmean,Kmeriod,ISO DATA 等。分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小,类间差别最大。分类和聚类的区别在于分类事先知道类别数和种类的典型特征,而聚类则事先不知道。 5.探测性的数据分析方法 李德仁、邸凯昌等提出了探测性的数据分析(简称EDA)。EDA采用动态统计图形和动态链接窗口技术将数据及统计特 征显示出来,可发现数据中非直观 的数据特征及异常数据。 EDA与空间分析相结合,构成探测性空间分析(exploratory spatial analysis,简称ESA)。EDA

1213年第2学期《数据挖掘与知识发现》期末考试试卷及答案

12/13年第2学期《数据挖掘与知识发现》期末考试试卷及答案 一、什么是数据挖掘?什么是数据仓库?并简述数据挖掘的步骤。(20分) 数据挖掘是从大量数据中提取或发现(挖掘)知识的过程。 数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。 步骤: 1)数据清理(消除噪声或不一致数据) 2)数据集成(多种数据源可以组合在一起) 3 )数据选择(从数据库中检索与分析任务相关的数据) 4 )数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作) 5)数据挖掘(基本步骤,使用智能方法提取数据模式) 6)模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式;) 7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识) 二、元数据的定义是什么?元数据包括哪些内容?(20分) 元数据是关于数据的数据。在数据仓库中,元数据是定义仓库对象的数据。元数 据包括: 数据仓库结构的描述,包括仓库模式、视图、维、分层结构、导出数据的定义,以及数据集市的位置和内容。 操作元数据,包括数据血统(移植数据的历史和它所使用的变换序列)、数据流通(主动的、档案的或净化的)、管理信息(仓库使用统计量、错误报告和审计跟踪)。 汇总算法,包括度量和维定义算法,数据所处粒度、划分、主题领域、聚集、汇总、预定义的查询和报告。 由操作环境到数据仓库的映射,包括源数据库和它们的内容,网间连接程序描述,数据划分,数据提取、清理、转换规则和缺省值,数据刷新和净化规则,安全(用户授权和存取控制)。 关于系统性能的数据,刷新、更新定时和调度的规则与更新周期,改善数据存取和检索性能的索引和配置。 商务元数据,包括商务术语和定义,数据拥有者信息和收费策略。 三、在O L A P中,如何使用概念分层?请解释多维数据模型中的OLAP上卷下 钻切片切块和转轴操作。(20分) 在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层。这种组织为用户从不同角度观察数据提供了灵活性。有一些OLAP数据 立方体操作用来物化这些不同视图,允许交互查询和分析手头数据。因此,O L A P 为交互数据分析提供了友好的环境。 上卷:上卷操作通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。 下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。 切片:在给定的数据立方体的一个维上进行选择,导致一个子方。

数据挖掘与知识发现

第11章贝叶斯网络 贝叶斯网络是1986年由Pearl提出的,根据各个变量之间的概率关系,使用图论方法表示变量集合的联合概率分布的图形模型。它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。 在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。其特点有: 贝叶斯理论给出了信任函数在数学上的计算方法,具有稳固 的数学基础,同时刻画了信任度与证据的一致性以及信任度 随证据而变化的增量学习特性; 在数据挖掘中,贝叶斯网络可以处理不完整和带有噪声的数 据集,它用概率测度的权重来描述数据间的相关性,从而解 决了数据间的不一致性,甚至是相互独立的问题; 用图形的方法描述数据间的相互关系,语义清晰、可理解性 强,这有助于利用数据间的因果关系进行预测分析; 贝叶斯方法的基本观点 贝叶斯分析方法的特点是使用概率去表示所有形式的不确定性。学习或其他形式的推理都是用概率规则来实现的。贝叶斯学习的结果表示为随机变量的概率分布,它可以解释为我们对不同可能性的信任程度。贝叶斯学派的起点是贝叶斯的两项工作:贝叶斯定理和贝叶斯假设。 假设随机变量θ,x的联合分布密度是) p,它们的边际密度分别为 x , (θ x p。设x是观测向量,θ是末知参数向量,则可通过观测向量来获p ), ) ( (θ 得末知参数向量的估计。贝叶斯定理为: 这里,) π是θ的先验分布。 (θ

上式可以看出,对末知参数向量θ的估计综合了它的先验信息和样本信息。而传统的参数估计方法只从样本数据获取信息,如最大似然估计。 Bayesian 方法对末知参数向量估计的一般过程为: 将末知参数看成是随机变量; 根据以往末知参数θ的知识,确定先验分布)(θπ; 计算后验分布密度,做出对末知参数的推断。 贝叶斯假设:如果没有任何以往的知识来帮助确定)(θπ,贝叶斯提出可以采用均匀分布作为其分布,即参数在它的变化范围内,取到各个值的机会是相同的。 贝叶斯网络的构造原理 定义:贝叶斯网络是一个二元组B=,其中 ① 网络结构G=是一个有向无环图,},,,{21n V V V V Λ=为 结点集;A 为弧的集合; ② 网络参数P 中的每一个元素代表结点i V 的条件概率密度; 则由概率的链规则得 对于n 个离散二值随机变量,要确定它们的联合分布,需要给出12-n 个概率值。这当n 较大时,巨大的存储要求往往难以满足。因此,一定的假设独立性是必要的。随机变量间的假设独立性原则使得贝叶斯网络所需定义的先验概率大为减少。联合概率分布由随机变量各自的分布的乘积所唯一确定。 对于网络结构中的任一结点i V ,必可找到一个与i V 条件都不独立的最 小子集},,,{121-?i i V V V U Λ,使得 贝叶斯网络是一种用图表示知识的方法,并且是可以计算的概率模型。通过这种网络,可以综合各种来源的数据,并对这些数据进行综合和推理。

相关文档
最新文档