!空间数据挖掘技术及其应用
空间数据挖掘技术在滑坡敏感性评价中的应用

App i a i n fSp ta t i ng Te hn l g n t e La si e S c p i lt a u to lc to o a i lDa a M ni c o o y i h nd ld us e tbi y Ev l a i n i
第 3 第 9期 4卷 21 0 2年 9月
人
民
黄
河
V0 . 4. . 1 3 No 9 S p., 0 2 e 2 1
YELLOW
RI VER
【 土保 持 ・ 态 】 水 生
空 问 数据 挖 掘 技 术 在 滑 坡 敏 感 性 评 价 中 的应 用
夏 添, 唐 川, 常 呜
0. 3;t e AUC o t o it e e so d li 0. 3 .T d l a e mu u l h c e d t e p e ito r c so f t o it d 71 h fAu o L g si r g s i n mo e s 8 6 c r wo mo e sc n b t a e k d a h r d c in p e iin o o L g si mo — c n Au c e s h g e . li i h r Ke r s:l n si e s n iii v u t n;s a i ld t n n y wo d a d ld e st t e a ai v y l o p t a a mi i g;r moe s n i g tc n l g ;ROC c r e a e t e sn e h oo y u v
用 A t Lgsc回 归模 型 和 信 息 统 计 量 模 型 对研 同的评 价 方 法 产 生 的敏 感 uo oii t 并
空间数据挖掘技术应用探析

及 认知 的 程度 。
二、 空 间数 据挖 掘 技术特 点
( 一) 数据挖掘算法具有高效 、 可测的特点 数据库一般有数千个表和属性 以及上百万个元
组 。数 据 库 中千兆 级 别 的数 据 已不 再 罕 见 , 因为 万
系统 、 可视 化系 统、 决 策支 持 系统 等 技术 集成 到 起。
换成 以有 限的数 据做 成特定 的模型来 获取 合适 的参
空 间数据 挖掘 , 通俗 来 说 , 就 是在 空 间数据 库上 对 数据 的挖掘 及其 知识 的发 现 。它属 于数 据挖 掘 的
一
个 分支 , 主要 从 空 间 数据 库 中获 取 一 些用 户 比较
感 兴趣 的空 间特征 与模 式 、 空 间 数 据 与 非空 间数 据 之 间的关 系 、 数据 库 中所 隐藏 的普 遍 数 据 的 特征 来
空 间数 据 挖 掘 技 术应 用 探析
顾 润 龙
( 兰州资 源环境 职 业技 术 学 院 , 甘 肃 兰州 7 3 0 0 2 1 )
摘要 : 在科技时代的影响 下, 空间数据挖掘技术得到 了迅猛 发展 , 多样 化、 技 术化 的 空间数据 日趋增 多 , 人 们不 断更新 空
间数据挖掘 的知识 及其方法。文章首先对空间数据挖掘技 术 的基本含 义进行 了初 步 阐述 , 然后 详 细描 述 了空间数据挖 掘技
2 0 1 3年第 o 5期 第2 9 卷 ( 总3 2 9 期)
吉林 省教育学院学报
J OURNAL OF EDUCATI ONAL I NS TI TUTE OF J I LI N PROVI NCE
No . 0 5, 2 01 3 VO I . 2 9
数据挖掘的功能及应用作业

数据挖掘的其他基本功能介绍一、关联规则挖掘关联规则挖掘是挖掘数据库中和指标(项)之间有趣的关联规则或相关关系。
关联规则挖掘具有很多应用领域,如一些研究者发现,超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。
1、 基本概念设},,,{21m i i i I =是项组合的记录,D 为项组合的一个集合。
如超市的每一张购物小票为一个项的组合(一个维数很大的记录),而超市一段时间内的购物记录就形成集合D 。
我们现在关心这样一个问题,组合中项的出现之间是否存在一定的规则,如A 游泳衣,B 太阳镜,B A ⇒,但是A B ⇒得不到足够支持。
在规则挖掘中涉及到两个重要的指标:① 支持度 支持度n B A n B A )()(⇒=⇒,显然,只有支持度较大的规则才是较有价值的规则。
② 置信度 置信度)()()(A n B A n B A ⇒=⇒,显然只有置信度比较高的规则才是比较可靠的规则。
因此,只有支持度与置信度均较大的规则才是比较有价值的规则。
③ 一般地,关联规则可以提供给我们许多有价值的信息,在关联规则挖掘时,往往需要事先指定最小支持度与最小置信度。
关联规则挖掘实际上真正体现了数据中的知识发现。
如果一个规则满足最小支持度,则称这个规则是一个频繁规则;如果一个规则同时满足最小支持度与最小置信度,则通常称这个规则是一个强规则。
关联规则挖掘的通常方法是:首先挖掘出所有的频繁规则,再从得到的频繁规则中挖掘强规则。
在少量数据中进行规则挖掘我们可以采用采用简单的编程方法,而在大量数据中挖掘关联规则需要使用专门的数据挖掘软件。
关联规则挖掘可以使我们得到一些原来我们所不知道的知识。
应用的例子:* 日本超市对交易数据库进行关联规则挖掘,发现规则:尿片→啤酒,重新安排啤酒柜台位置,销量上升75%。
* 英国超市的例子:大额消费者与某种乳酪。
那么,证券市场上、期货市场上、或者上市公司中存在存在哪些关联规则,这些关联规则究竟说明了什么?关联规则挖掘通常比较适用与记录中的指标取离散值的情况,如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。
空间数据处理与应用

空间数据处理与应用随着科技的发展和数据收集技术的不断完善,大量的空间数据被积累和存储,但如何处理这些数据并进行有效的应用成为当前一个重要的课题。
空间数据处理包括了数据的获取、存储、处理和分析等一系列过程。
在数据获取阶段,各种遥感技术被广泛应用,如卫星遥感、飞机遥感、无人机遥感等,这些技术可以获取不同数据分辨率、不同时间尺度的数据。
在存储和管理阶段,大型数据存储和计算平台得到了广泛的应用,如Hadoop、Spark等。
而在处理和分析阶段,则需要借助各种算法和模型,如机器学习、数据挖掘等。
这些技术的应用,为空间数据处理提供了强有力的技术支持。
应用方面,空间数据应用广泛涉及了地球科学、生态环境、国土资源管理、城乡规划等领域。
其中,地球科学是空间数据应用的重要领域之一,通过分析和处理各类遥感数据,可以揭示地球表面和大气等许多重要现象和规律,如气候变化、卫星陨石坑等。
同时,空间数据在国土资源管理中,也发挥了重要的作用。
例如,基于卫星遥感数据,可以进行陆地利用类型监测、土地利用变化分析等,有效地实现了对土地资源的合理利用。
此外,在城乡规划中,空间数据不仅可以为规划提供重要参考,同时也可以帮助在线路设计、城市绿化、交通规划等方面进行决策。
值得注意的是,空间数据处理和应用也存在一些挑战。
首先,对数据质量和可靠性的要求非常高。
遥感数据在采集和传输过程中,容易受到自然条件和技术限制的影响,因此数据质量和精度尤为关键。
其次,空间数据处理和应用需要耗费大量的计算资源和存储容量,因此需要建立高效的数据处理系统。
此外,随着人工智能和大数据等技术的快速发展,只有不断探索新的算法和模型,才能实现更高质量的数据分析和应用。
总之,空间数据处理和应用是一个不断完善和发展的过程,在技术和应用的交叉融合中不断推进。
未来,如何更好地利用空间数据,将成为科技和社会发展中的重要课题之一,我们期待更多的创新和发展能够应对这一挑战。
数据挖掘技术在制造业中的应用

数据挖掘技术在制造业中的应用一、引言数据挖掘技术是指从大量数据中发现潜在的、有用的信息和规律的一系列技术。
在制造业中,大量的生产数据、质量数据和物流数据被不断产生并积累,如何通过数据挖掘技术提取有价值的信息,对于企业的生产、营销和管理等方面都具有重要的意义。
二、数据挖掘技术在制造业中的应用1. 生产规划与调度通过对生产数据的挖掘,可以发现不同产品的生产周期、生产工艺以及主要供应商的情况,从而为企业制定更加科学的生产规划、调度以及生产控制方案提供重要依据,以提高生产效率和生产质量。
例如,一些制造企业利用数据挖掘技术对生产数据进行分析,明确各个生产环节的生产效率,通过调整生产流程,实现生产效率的提高,一定程度上帮助企业节省生产成本。
2. 质量检测与预警对于制造企业而言,保证产品的质量是非常重要的一个方面。
通过数据挖掘技术对质量数据的挖掘分析,可以发现质量问题的根本原因,提高产品质量,减少市场出现售后问题的风险,从而更好地满足客户需求。
例如,一些汽车制造企业通过对大量的生产数据进行分析,并利用数据挖掘技术,对零部件的质量进行预测和预警,减少了由于零部件质量问题引起的使用故障率。
3. 物流管理制造企业一般利用物流进行产品的运输、仓储以及配送等活动,对于物流的管理涉及到供应链管理、运输管理以及库存管理等方面。
通过对物流数据的挖掘可以优化物流效率,减少物流成本,更好地提供服务。
例如,一些制造企业通过对物流数据的挖掘,找到物流环节中的瓶颈,减少运输时间,提高货物流转速度、减少库存积压,从而实现货物快速、准确的到达目的地并避免了长时间等待。
4. 营销与市场分析通过对市场调研数据的挖掘,制造企业可以发现消费者的喜好、购买习惯以及消费行为,为企业的营销活动提供基础数据,实现更加精准的营销活动。
例如,一些制造企业通过对消费者数据的挖掘,发现消费者的需求从简单的性能到追求更加的功能多样性,从而为新产品设计和研发提供了新的思路,满足了更多消费者需求。
数据挖掘原理、算法及应用章 (8)

第8章 复杂类型数据挖掘 1) 以Arc/info基于矢量数据模型的系统为例, 为了将空间
数据存入计算机, 首先, 从逻辑上将空间数据抽象为不同的 专题或层, 如土地利用、 地形、 道路、 居民区、 土壤单 元、 森林分布等, 一个专题层包含区域内地理要素的位置和 属性数据。 其次, 将一个专题层的地理要素或实体分解为点、 线、 面目标, 每个目标的数据由空间数据、 属性数据和拓 扑数据组成。
第8章 复杂类型数据挖掘 2. 空间数据具体描述地理实体的空间特征、 属性特征。 空
间特征是指地理实体的空间位置及其相互关系; 属性特征表 示地理实体的名称、 类型和数量等。 空间对象表示方法目前 采用主题图方法, 即将空间对象抽象为点、 线、 面三类, 根据这些几何对象的不同属性, 以层(Layer)为概念组织、 存储、 修改和显示它们, 数据表达分为矢量数据模型和栅格 数据模型两种。
第8章 复杂类型数据挖掘图Fra bibliotek-5 综合图层
第8章 复杂类型数据挖掘
图8-4 栅格数据模型
第8章 复杂类型数据挖掘
3. 虽然空间数据查询和空间挖掘是有区别的, 但是像其他数 据挖掘技术一样, 查询是挖掘的基础和前提, 因此了解空间 查询及其操作有助于掌握空间挖掘技术。
由于空间数据的特殊性, 空间操作相对于非空间数据要 复杂。 传统的访问非空间数据的选择查询使用的是标准的比 较操作符: “>”、 “<”、 “≤ ”、 “≥ ”、 “≠ ”。 而空间选择是一种在空间数据上的选择查询, 要用到空间操 作符.包括接近、 东、 西、 南、 北、 包含、 重叠或相交 等。
不同的实体之间进行空间性操作的时候, 经常需要在属性之 间进行一些转换。 如果非空间属性存储在关系型数据库中, 那么一种可行的存储策略是利用非空间元组的属性存放指向相 应空间数据结构的指针。 这种关系中的每个元组代表的是一 个空间实体。
面向GIS应用的数据挖掘技术研究
面向GIS应用的数据挖掘技术研究摘要:本文介绍了空间数据挖掘的概念,分析了基于GIS的空间数据挖掘的流程,详细介绍了空间数据挖掘在GIS中的应用和可视化方法,最后提出GIS空间数据挖掘的存在问题,阐述了技术的发展前景。
关键词:GIS 空间数据挖掘可视化1 空间数据挖掘的概念空间数据包括了空间属性数据和非空间属性数据,空间属性描述了空间拓扑关系和方位、距离等关系,空间属性数据按照空间索引结构存储和查找。
空间数据挖掘(Spatial Data Mining,SDM)指的是从空间数据库中抽取隐含的知识、空间关系或非显式地存储在空间数据库中的其它模式等[1]。
从空间数据中提取信息,提取的信息包含了复杂的空间关系,因此空间数据挖掘与其他数据挖掘方法上有其独有的特点。
空间数据挖掘需要综合数据挖掘与空间数据库技术。
空间数据挖掘可用于对空间数据的理解,空间关系和空间与非空间数据间关系的发现,空间知识库的构造,空间数据库的重组和空间查询的优化。
空间数据是地理信息系统的重要数据,可以是地表在地理信息系统中的二维投影,也可以是多维的立体数据。
由于雷达、卫星、传感器等技术的飞速发展,空间数据的数量、大小和复杂性都在快速地增加,出现GB,TB甚至于PB级的海量数据,获取实质性有用的数据,就需要空间数据挖掘技术。
所以空间数据挖掘就是处理空间数据的技术方法,是挖掘出隐藏在空间数据库中的非显性知识、空间关系等。
GIS 从本质说是一个空间数据管理系统,将空间数据挖掘技术应用于GIS,是将GIS中的数据转化成知识的有效方法。
1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念。
1994年,在加拿大渥太华举行的GIS国际学术会议上,李德仁院士首次提出了从GIS数据库中发现知识(knowledge discovery from GIS,KDG)的概念,并系统分析了空间知识发现的特点和方法,认为它能够把GIS有限的数据变成无限的知识,使GIS成为智能化的信息系统。
数据挖掘中的软计算方法及应用综述-最新范文
数据挖掘中的软计算方法及应用综述1在过去的数十年中,随着计算机软件和硬件的发展,我们产生和收集数据的能力已经迅速提高。
许多领域的大量数据集中或分布的存储在数据库中[1][2],这些领域包括商业、金融投资业、生产制造业、医疗卫生、科学研究,以及全球信息系统的万维网。
数据存储量的增长速度是惊人的。
大量的、未加工的数据很难直接产生效益。
这些数据的真正价值在于从中找出有用的信息以供决策支持。
在许多领域,数据分析都采用传统的手工处理方法。
一些分析软件在统计技术的帮助下可将数据汇总,并生成报表。
随着数据量和多维数据的进一步增加,高达109的数据库和103的多维数据库已越来越普遍。
没有强有力的工具,理解它们已经远远超出了人的能力。
所有这些显示我们需要智能的数据分析工具,从大量的数据中发现有用的知识。
数据挖掘技术应运而生。
数据挖掘就是指从数据库中发现知识的过程。
包括存储和处理数据,选择处理大量数据集的算法、解释结果、使结果可视化。
整个过程中支持人机交互的模式[3]。
数据挖掘从许多交叉学科中得到发展,并有很好的前景。
这些学科包括数据库技术、机器学习、人工智能、模式识别、统计学、模糊推理、专家系统、数据可视化、空间数据分析和高性能计算等。
数据挖掘综合以上领域的理论、算法和方法,已成功应用在超市、金融、银行[4]、生产企业[5]和电信,并有很好的表现。
软计算是能够处理现实环境中一种或多种复杂信息的方法集合。
软计算的指导原则是开发利用那些不精确性、不确定性和部分真实数据的容忍技术,以获得易处理、鲁棒性好、低求解成本和更好地与实际融合的性能。
通常,软计算试图寻找对精确的或不精确表述问题的近似解[6]。
它是创建计算智能系统的有效工具。
软计算包括模糊集、神经网络、遗传算法和粗集理论。
2数据挖掘中的软计算方法目前,已有多种软计算方法被应用于数据挖掘系统中,来处理一些具有挑战性的问题。
软计算方法主要包括模糊逻辑、神经网络、遗传算法和粗糙集等。
基于GIS空间数据挖掘技术的应用研究
空 间 数 据 包 括 了空 间 属 性 数 据 和 非 发 现 的特 点 和 方 法 , 认 为 它能 够 把 G I S 有 限
的 信 息 系统 。 1 9 9 5 年, 在加 拿 大 召 开 的第 一 不 断 地 循 环 操 作 , 可 以 对 所 挖 掘 出 来 的 知
而面 向G I s 的 空 间数 据 挖 掘 的 过 程 大 致可分为 : 确定挖 掘内容、 数据获取 、 数 据
摘 要: 本文介 绍 了空间数据 挖掘的概念 , 分析 了基于G I S 的空 间数据挖 掘的流程 , 详细介 绍 了空间数据挖掘 在G I S 中的应用和可视化方法 , 最 后提 出G 1 S 空闻数 据挖 掘的存 在 问题 , 阐述 了技 术 的发展 前景 。 关键 词 : G I S 空间数据挖掘 可视化 中 图分 类 号 : P 2 文 献标 识 码 : A 文 章 编号 ; 1 6 7 2 -3 7 9 1 ( 2 0 1 3 ) 0 2 ( b ) -0 0 1 5 -0 2
空 间 数 据 是 地 理 信 息 系 统 的 重 要 数 通 过 将 有 趣 的 模 式 提 供 给 用 户 , 或 作 为 新
G I S ) 的结 合 具 有 非 常 广 泛 的 应 用 空 间 。 数 据, 可 以 是 地 表 在 地 理 信 息 系 统 中 的 二 维 的 知 识 存 放 在 知 识库 中这 种 与用 户或 知 识 ( 投影 , 也 可以 是多维 的立 体数 据 。 由 于 雷 库 交 互 的 方 式 来 进行 的知 识 发 现 过 程 的 其 据挖 掘 与 G I S 集成 具 有 三 种 模式 : 其 一 为松
取 的 信 息 包 含 了复 杂 的 空 间 关 系 , 因此 空 识 发现 , 系统 地 研 究 或 提 出 了可 用 的 理论 、 独有的 特点 。 空 间数 据 挖 掘 需 要 综 合 数 据 定 了空 间 数 据 挖 掘和 知识 发 现 在 地 球 空 间 挖掘与 空间数据库技 术。 空 间数 据 挖 掘 可 信 息 学 中 的 学 科 地 位 和 基 础 【 2 ] 。 用于对空 间数据的理 解 , 空 间关 系 和 空 间 与非空 间数据间关 系的发现 , 空 间 知 识 库 2 空间数据挖掘 的流 程
数据仓库及其数据挖掘的应用分析
数据仓库及其数据挖掘的应用分析一、引言数据仓库及其数据挖掘技术在当今信息化社会中扮演着重要的角色。
数据仓库是一个用于集成、存储和管理大量结构化和非结构化数据的系统,而数据挖掘是通过分析大数据集合中的模式、关联和趋势,从中发现有价值的信息。
本文将对数据仓库及其数据挖掘的应用进行分析,探讨其在不同领域的重要性和效果。
二、数据仓库的应用1. 商业智能数据仓库可以帮助企业从大量的交易数据中提取有价值的商业智能。
通过数据仓库,企业可以进行销售分析、市场预测、客户细分等工作,从而指导企业的决策和战略规划。
例如,通过对销售数据的分析,企业可以了解产品的热销情况、客户的购买偏好,从而优化产品组合和推广策略。
2. 金融风险管理在金融领域,数据仓库的应用尤为重要。
通过对大量的金融数据进行分析,可以发现潜在的风险和异常情况。
例如,银行可以通过数据仓库对客户的交易记录进行监控,及时发现可能存在的欺诈行为;保险公司可以通过数据仓库对保单数据进行分析,预测保险赔付的风险。
3. 医疗健康管理数据仓库在医疗健康管理领域的应用也越来越广泛。
通过对大量的医疗数据进行分析,可以提高医疗服务的质量和效率。
例如,医院可以通过数据仓库对患者的病历数据进行分析,发现患者的病情变化趋势,及时调整治疗方案;保险公司可以通过数据仓库对保险人的健康数据进行分析,提供个性化的健康管理建议。
三、数据挖掘的应用1. 市场营销数据挖掘可以帮助企业进行市场营销策略的制定。
通过对大量的市场数据进行分析,可以了解消费者的购买偏好、行为习惯等信息,从而制定个性化的营销策略。
例如,通过数据挖掘,企业可以发现潜在的目标客户群体,针对性地进行广告投放和促销活动。
2. 社交网络分析随着社交网络的兴起,数据挖掘在社交网络分析中也扮演着重要的角色。
通过对社交网络中的用户行为数据进行分析,可以发现用户之间的关联和影响力。
例如,社交媒体平台可以通过数据挖掘对用户的兴趣和喜好进行分析,推荐个性化的内容和广告。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章编号:0494 0911(2002)02 11 03中图分类号:P23 文献标识码:B空间数据挖掘技术及其应用周海燕,王家耀,吴 升(信息工程大学测绘学院,河南郑州450052)Spatial Data Mining and Its ApplicationsZHOU Hai yan,WANG Jia yao,WU Sheng摘要:介绍了空间数据挖掘的概念、体系结构、常用的方法、可获取的知识类型及其应用。
关键词:数据挖掘和知识发现;空间数据挖掘收稿日期:2001 08 21;修回日期:2001 09 19作者简介:周海燕(1974 ),女,湖南邵东人,硕士,主要从事空间数据仓库和空间数据挖掘的研究。
一、引 言随着数据库技术的不断发展和数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在这些大量数据的背后隐藏了很多具有决策意义的信息。
但是,现今数据库的大多数应用仍然停留在查询、检索阶段,数据库中隐藏的丰富的知识远远没有得到充分的发掘和利用,数据库的急剧增长和人们对数据库处理和理解的困难形成了强烈的反差,导致 人们被数据淹没,但却饥饿于知识 的现象。
数据挖掘和知识发现(Data Mining and Kno wledge Dis covery,简称DMKD)技术,就是在这种背景下应运而生的。
数据挖掘与知识发现是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的、未知的、潜在的、有用的信息的过程。
空间数据库(数据仓库)中的空间数据除了其显式信息外,还具有丰富的隐含信息,如数字高程模型(DE M 或TIN)除了载荷高程信息外,还隐含了地质岩性与构造方面的信息;植物的种类是显式信息,但其中还隐含了气候的水平地带性和垂直地带性的信息,等等。
这些隐含的信息只有通过数据挖掘才能显示出来。
空间数据挖掘(Spatial Data Mining,简称SDM),或称从空间数据库中发现知识,作为数据挖掘的一个新的研究分支,是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式和普遍特征的过程[1]。
由于SDM 的对象主要是空间数据库,而空间数据库中不仅存储了空间事物或对象的几何数据、属性数据,而且存储了空间事物或对象之间的图形空间关系,因此其处理方法有别于一般的数据挖掘。
SDM 与传统的地学数据分析方法的本质区别在于SDM 是在没有明确假设的前提下去挖掘信息、发现知识,挖掘出的知识应具有事先未知、有效和可实用3个特征。
二、空间数据挖掘的体系结构空间数据挖掘系统可以大致分为3层结构,如图1所示。
三、空间数据挖掘方法空间数据挖掘是多学科和多种技术交叉综合的新领域,其挖掘方法以人工智能、专家系统、机器学习、数据库和统计等成熟技术为基础。
下面介绍近年来出现的主要空间数据挖掘方法。
1.空间分析方法。
利用GI S 的各种空间分析模型和空间操作对空间数据库中的数据进行深加工,从而产生新的信息和知识。
常用的空间分析方法有综合属性数据分析、拓扑分析、缓冲区分析、距离分析、叠置分析、网络分析、地形分析、趋势面分112002年 第2期 测 绘 通 报析、预测分析等,可发现目标在空间上的相连、相邻和共生等关联规则,或发现目标之间的最短路径、最优路径等辅助决策的知识。
2.统计分析方法。
统计方法一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性的分析。
统计方法有较强的理论基础,拥有大量成熟的算法。
统计方法难以处理字符型应用统计方法需要有领域知识和统计知识,一般由具有统计经验的领域专家来完成。
3.归纳学习方法。
归纳学习方法是从大量的经验数据中归纳抽取一般的规则和模式,其大部分算法来源于机器学习领域,归纳学习的算法有很多,如Michaski等的AQ11,AQ15,洪家荣等的AE1,AE9, Hunt的C LS,Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的C5.0决策树算法。
4.聚类与分类方法。
聚类和分类方法按一定的距离或相似性系数将数据分成一系列相互区分的组。
常用的经典聚类方法有K mean,K meriod,ISO DATA等。
分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小而类间差别最大。
分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。
5.探测性的数据分析方法。
李德仁、邸凯昌等提出了探测性的数据分析(简称EDA)。
EDA采用动态统计图形和动态链接窗口技术将数据及统计特征显示出来,可发现数据中非直观的数据特征及异常数据。
EDA与空间分析相结合,构成探测性空间分析(E xploratory Spatial Analysis,简称E SA)。
EDA和ESA技术在数据挖掘中用于选取与问题领域相关的数据子集,并可初步发现隐含在数据中的某些特征和规律。
6.粗集方法。
粗集理论是波兰华沙大学Z. Pa wlak教授在1982年提出的一种智能数据决策分析工具,被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取。
粗集理论为空间数据的属性分析和知识发现开辟了一条新途径,可用于空间数据库属性表的一致性分析、属性的重要性、属性依赖、属性表简化、最小决策和分类算法生成等。
粗集理论与其他知识发现算法相结合可以在空间数据库中数据不确定的情况下获取多种知识。
7.云理论。
云理论是李德仁、邸凯昌等为解决模糊集在隶属度概念上的不确定性而提出的一种新理论,包括云模型、虚云、云运算、云变换和不确定性推理等主要内容。
运用云理论进行空间数据挖掘,可进行概念和知识的表达、定量和定性的转化、概念的综合与分解、从数据中生成概念和概念层次结构、不确定性推理和预测等。
8.空间特征和趋势探测方法。
这是Ester等人在第4届KDD国际研讨会(1998)上提出的基于邻域图(neighborhood graphs)和邻域路径(neighborhood path)概念的挖掘算法。
Ester等将一个空间特征定义为空间数据库中具有空间/非空间性质的目标对象集,并以非空间属性值出现的相对频率和不同空间对象出现的相对频率(目标对象集相对于整个数据库)作为感兴趣的性质,从空间目标集合经过它的相邻扩展后的集合中,发现相对频率的明显不同,以此提取空间规则;空间趋势探测挖掘是从一个开始点出发,发现一个或多个非空间性质的变化规律。
这种算法的效率在很大程度上取决于其处理相邻关系的能力。
9.数字地图图像分析和模式识别方法。
空间数据库(数据仓库)中含有大量的图形图像数据,一些图像分析和模式识别方法可直接用于挖掘数据和发现知识,或作为其他挖掘方法的预处理方法。
用于图像分析和模式识别的方法主要有:决策树(De cision Tree)方法、神经元网络(Artificial Neural Net work)方法、数学形态学方法、图论方法等。
10.可视化方法。
可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。
例如,把数据库中的多维数据变成多种图形,这对揭示数据的状况、内在本质及规律性起到了很强的作用。
当显示SDM发现的结果时,将地图同时显示作为背景,一方面能够显示其知识特征的分布规律,另一方面也可对挖掘出的结果进行可视化解释,从而达到最佳的分析效果。
可视化技术使用户看到数据处理的全过程、监测并控制数据分析过程。
为了发现某类知识,常常要综合运用这些方法。
数据挖掘方法还要与常规的数据库技术充分结合。
数据挖掘利用的技术越多,得出的结果精确性就越高。
四、空间数据挖掘中可发现的知识类型及其应用数据挖掘所发现的知识最常见的有以下4种类型:广义知识、关联知识、分类知识和预测型知识。
此外,还可发现其他类型的知识,如偏差型知识(De viatation),它是对差异和极端特例的描述,揭示事物偏离常规的异常现象。
这些类型的知识同样适用于空间数据挖掘。
12 测 绘 通 报 2002年 第2期数字地球的研究对象是带有地理坐标的空间信息,而空间信息约占总信息量的80%。
SD M 是将这些信息转为有用的知识的有效工具之一,在 数字地球 海量空间数据处理中占有十分重要的作用,有着广泛的应用前景。
它可以应用于空间数据库管理系统中,可作为辅助决策支持和分析的工具,可用于自动构建遥感解译专家系统和空间决策支持系统的知识库,也可以为空间数据仓库提供比OLAP(联机分析)更高级的分析工具,还可以与GIS 和其他I T 工具高度集成构成智能化软件。
五、结束语数据挖掘从提出到现在只短短20年时间,而SDM 则更年轻,但其发展十分迅速,已经取得了十分丰富的成果。
但是,SDM 中仍有大量的理论和技术问题有待于进一步研究和探索,如多分辨率的数据挖掘、并行数据挖掘、多媒体空间数据库的数据挖掘、知识的可视化表达、便于数据挖掘过程中进行人机交互的可视化技术、分布式空间数据的知识发现、空间数据挖掘语言、新算法和高效率的空间挖掘算法的研究、SDM 技术与空间数据仓库中的OLAP 技术的结合、SDM 与GIS 的集成、SDM 与空间决策知识系统的集成、SDM 与其他专家系统的集成以及SDM 与空间数据仓库的集成等等。
参考文献:[1] 邸凯昌.空间数据挖掘和知识发现的理论与方法[D].武汉:武汉测绘科技大学,1999.[2] 周学虎,张健挺.基于信息熵的地学空间数据挖掘模型[J].中国图象图形学报,1999,4(11).[3] JIAWEI H.MICHELINE K.Data M ining:Concep ts and T echniques[M].[s.l.]Morgan Kaufmann Publishers,2000.[4] 王家耀.空间信息系统原理[M ].北京:科学出版社,2001.[5] 郭仁忠.空间分析[M].武汉:武汉测绘科技大学出版社,1997.(上接第10页)2.用信息熵法识别将观测数据从小到大排列:2.030,2.039,2.040,2.040,2.041,2.042,2.042,2.043,2.043。
为计算方便,将所有观测值减去最小观测值x min =x 6=2.030,得到一新的序列:0,9,10,10,11,12,12,13,13。
令第一个数的编号k =0,即x (0)=0,x (1)=9,!,x (8)=13,且前两个重复10的k 取其均值k =(2+3)/2=2.5,计算其R k 时,按R k =k /n +1计算,其余数据处理与此类似。
经计算:H ^(X )=-1.44∀ni =1ln R k +1-R kx (k +1)-x (k)#(R k +1-R k )=2.41观测值的不确定度U e =eH^(x )/2=e 2.41/2∃7.9,则该样本的置信区间为X -U e ,X +U e %=[2.040-0.0079,2.040+0.0079]=[2.0321,2.0479],显然,x 6=2.030不在置信区间内,故可认定其含有粗差,给予剔除。