空间数据挖掘方法及问题
数据挖掘十大算法

数据挖掘十大算法数据挖掘是通过挖掘大规模数据集以发现隐藏的模式和关联性的过程。
在数据挖掘领域,存在许多算法用于解决各种问题。
以下是数据挖掘领域中被广泛使用的十大算法:1. 决策树(Decision Trees):决策树是一种用于分类和回归的非参数算法。
它用树结构来表示决策规则,通过划分数据集并根据不同的属性值进行分类。
2. 支持向量机(Support Vector Machines,SVM):SVM是一种二分类算法,通过在数据空间中找到一个最优的超平面来分类数据。
SVM在处理非线性问题时,可以使用核函数将数据映射到高维空间。
3. 朴素贝叶斯(Naive Bayes):基于贝叶斯定理,朴素贝叶斯算法使用特征之间的独立性假设,通过计算给定特征下的类别概率,进行分类。
4. K均值聚类(K-means Clustering):K均值聚类是一种无监督学习算法,用于将数据集分割成多个类别。
该算法通过计算样本之间的距离,并将相似的样本聚类在一起。
5. 线性回归(Linear Regression):线性回归是一种用于建立连续数值预测模型的算法。
它通过拟合线性函数来寻找自变量和因变量之间的关系。
6. 关联规则(Association Rules):关联规则用于发现数据集中项集之间的关联性。
例如,购买了商品A的人也常常购买商品B。
7. 神经网络(Neural Networks):神经网络是一种模拟人脑神经元网络的算法。
它通过训练多个神经元之间的连接权重,来学习输入和输出之间的关系。
9. 改进的Apriori算法:Apriori算法用于发现大规模数据集中的频繁项集。
改进的Apriori算法通过剪枝和利用频繁项集的性质来提高算法的效率。
10. 集成学习(Ensemble Learning):集成学习是一种通过将多个学习器进行组合,从而提高分类准确率的算法。
常用的集成学习方法包括随机森林和梯度提升树。
这些算法在不同的场景和问题中有着不同的应用。
数据挖掘的功能及应用作业

数据挖掘的其他基本功能介绍一、关联规则挖掘关联规则挖掘是挖掘数据库中和指标(项)之间有趣的关联规则或相关关系。
关联规则挖掘具有很多应用领域,如一些研究者发现,超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。
1、 基本概念设},,,{21m i i i I =是项组合的记录,D 为项组合的一个集合。
如超市的每一张购物小票为一个项的组合(一个维数很大的记录),而超市一段时间内的购物记录就形成集合D 。
我们现在关心这样一个问题,组合中项的出现之间是否存在一定的规则,如A 游泳衣,B 太阳镜,B A ⇒,但是A B ⇒得不到足够支持。
在规则挖掘中涉及到两个重要的指标:① 支持度 支持度n B A n B A )()(⇒=⇒,显然,只有支持度较大的规则才是较有价值的规则。
② 置信度 置信度)()()(A n B A n B A ⇒=⇒,显然只有置信度比较高的规则才是比较可靠的规则。
因此,只有支持度与置信度均较大的规则才是比较有价值的规则。
③ 一般地,关联规则可以提供给我们许多有价值的信息,在关联规则挖掘时,往往需要事先指定最小支持度与最小置信度。
关联规则挖掘实际上真正体现了数据中的知识发现。
如果一个规则满足最小支持度,则称这个规则是一个频繁规则;如果一个规则同时满足最小支持度与最小置信度,则通常称这个规则是一个强规则。
关联规则挖掘的通常方法是:首先挖掘出所有的频繁规则,再从得到的频繁规则中挖掘强规则。
在少量数据中进行规则挖掘我们可以采用采用简单的编程方法,而在大量数据中挖掘关联规则需要使用专门的数据挖掘软件。
关联规则挖掘可以使我们得到一些原来我们所不知道的知识。
应用的例子:* 日本超市对交易数据库进行关联规则挖掘,发现规则:尿片→啤酒,重新安排啤酒柜台位置,销量上升75%。
* 英国超市的例子:大额消费者与某种乳酪。
那么,证券市场上、期货市场上、或者上市公司中存在存在哪些关联规则,这些关联规则究竟说明了什么?关联规则挖掘通常比较适用与记录中的指标取离散值的情况,如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。
空间数据分析方法有哪些(两篇)2024

空间数据分析方法有哪些(二)引言概述空间数据分析是一种重要的数据分析方法,在众多领域包括城市规划、地理信息系统、环境管理和农业等方面具有广泛应用。
本文将就空间数据分析方法进行详细的介绍和阐述,希望能够帮助读者更好地了解和运用这些方法。
正文内容一、地理分析工具1. 空间插值方法- 空间插值方法是一种将已知数据点的值推断到未知区域的方法。
常用的空间插值方法有反距离权重法、克里金法和径向基函数插值法。
这些方法可以通过数学模型推断出未知区域的值,从而帮助分析人员进行更加准确的决策。
- 反距离权重法假设周围已知点的权重与距离的倒数成正比,通过加权平均的方式来估计未知点的值。
克里金法则基于空间半变异函数对已知点进行插值,可以得到更加平滑的结果。
径向基函数插值法则使用基函数对已知点进行插值,可以灵活地应用于不同类型的数据。
2. 空间聚类方法- 空间聚类方法是对空间数据进行聚类分析的方法。
常用的空间聚类方法有基于密度的聚类和基于网格的聚类。
基于密度的聚类方法将空间数据划分为高密度和低密度区域,从而得到聚类结果。
基于网格的聚类方法则将空间数据划分为网格,并且根据网格内数据的特征进行聚类分析。
- 空间聚类方法在城市规划和地理信息系统等领域具有重要的应用。
通过空间聚类,可以发现具有相似特征的空间对象,从而更好地理解和分析空间数据。
3. 空间相关性分析- 空间相关性分析是研究空间数据之间关系的分析方法。
常用的空间相关性分析方法有空间自相关分析和空间回归分析。
空间自相关分析可以帮助分析人员理解空间数据的空间分布模式,了解空间数据之间的依赖关系。
空间回归分析则是研究空间数据之间的线性关系,并进行回归分析。
- 空间数据的相关性分析可以帮助分析人员发现隐藏在数据背后的规律和关系,从而做出更加准确的决策。
4. 空间网络分析- 空间网络分析是研究网络结构和空间数据之间关系的分析方法。
常用的空间网络分析方法有路径分析、中心性分析和聚类分析。
数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

数据挖掘原理与应用 试题及答案试卷一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、在ID3算法中信息增益是指( D )A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大2、下面哪种情况不会影响K-means聚类的效果?( B )A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名 ( C )A、样品B、实例C、维度D、元组4、人从出生到长大的过程中,是如何认识事物的? ( D )A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类5、决策树模型中应如何妥善处理连续型属性:( C )A、直接忽略B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70。
问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为:( A )A、18.3B、22.6C、26.8D、27.97、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( C )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取( A )A、聚类分析B、回归分析C、相关分析D、判别分析9、时间序列数据更适合用( A )做数据规约。
A、小波变换B、主成分分析C、决策树D、直方图10、下面哪些场景合适使用PCA?( A )A、降低数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归11、数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法错误的是:( C )A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法;B、PCA本质是KL-变换;C、PCA是最小绝对值误差意义下的最优正交变换;D、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,来消除模式特征之间的相关性、突出差异性;12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘13、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。
数据挖掘考试题

数据挖掘考试题数据挖掘考试题⼀.选择题1. 当不知道数据所带标签时,可以使⽤哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是⼀种凝聚层次聚类技术。
A.MIN(单链)B.MAX(全链)C.组平均D.Ward⽅法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应⽤了( )数据挖掘⽅法。
A 分类B 预测C关联规则分析D聚类4.关于K均值和DBSCAN的⽐较,以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象,⽽DBSCAN⼀般聚类所有对象。
B.K均值使⽤簇的基于原型的概念,DBSCAN使⽤基于密度的概念。
C.K均值很难处理⾮球形的簇和不同⼤⼩的簇,DBSCAN可以处理不同⼤⼩和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:( )A.对噪声点和离群点敏感度⽐较⼩B.擅长处理球状的簇C.对于Ward⽅法,两个簇的邻近度定义为两个簇合并时导致的平⽅误差D.当两个点之间的邻近度取它们之间距离的平⽅时,Ward⽅法与组平均⾮常相似6.下列关于层次聚类存在的问题说法正确的是:( )A.具有全局优化⽬标函数B.Group Average擅长处理球状的簇C.可以处理不同⼤⼩簇的能⼒D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.⼀旦两个簇合并,该操作就不能撤销B.算法的终⽌条件是仅剩下⼀个簇C.空间复杂度为()2m O D.具有全局优化⽬标函数8.规则{⽜奶,尿布}→{啤酒}的⽀持度和置信度分别为:( ) TID项集 12345{⾯包,⽜奶} {⾯包,尿布,啤酒,鸡蛋} {⽜奶,尿布,啤酒,可乐} {⾯包,⽜奶,尿布,啤酒} {⾯包,⽜奶,尿布,可乐}A.0.4,0.4B.0.67,0.67C.0.4,0.67D.0.67,0.49.下列( )是属于分裂层次聚类的⽅法。
数据挖掘原理、算法及应用章 (8)

第8章 复杂类型数据挖掘 1) 以Arc/info基于矢量数据模型的系统为例, 为了将空间
数据存入计算机, 首先, 从逻辑上将空间数据抽象为不同的 专题或层, 如土地利用、 地形、 道路、 居民区、 土壤单 元、 森林分布等, 一个专题层包含区域内地理要素的位置和 属性数据。 其次, 将一个专题层的地理要素或实体分解为点、 线、 面目标, 每个目标的数据由空间数据、 属性数据和拓 扑数据组成。
第8章 复杂类型数据挖掘 2. 空间数据具体描述地理实体的空间特征、 属性特征。 空
间特征是指地理实体的空间位置及其相互关系; 属性特征表 示地理实体的名称、 类型和数量等。 空间对象表示方法目前 采用主题图方法, 即将空间对象抽象为点、 线、 面三类, 根据这些几何对象的不同属性, 以层(Layer)为概念组织、 存储、 修改和显示它们, 数据表达分为矢量数据模型和栅格 数据模型两种。
第8章 复杂类型数据挖掘图Fra bibliotek-5 综合图层
第8章 复杂类型数据挖掘
图8-4 栅格数据模型
第8章 复杂类型数据挖掘
3. 虽然空间数据查询和空间挖掘是有区别的, 但是像其他数 据挖掘技术一样, 查询是挖掘的基础和前提, 因此了解空间 查询及其操作有助于掌握空间挖掘技术。
由于空间数据的特殊性, 空间操作相对于非空间数据要 复杂。 传统的访问非空间数据的选择查询使用的是标准的比 较操作符: “>”、 “<”、 “≤ ”、 “≥ ”、 “≠ ”。 而空间选择是一种在空间数据上的选择查询, 要用到空间操 作符.包括接近、 东、 西、 南、 北、 包含、 重叠或相交 等。
不同的实体之间进行空间性操作的时候, 经常需要在属性之 间进行一些转换。 如果非空间属性存储在关系型数据库中, 那么一种可行的存储策略是利用非空间元组的属性存放指向相 应空间数据结构的指针。 这种关系中的每个元组代表的是一 个空间实体。
数据挖掘分析面试题
能不用上班,因而也没有购置该产品的欲望;站在产品的角度来看,该产品不能在周末的时候引起消费者足够的注意力。
b) 针对该问题背后的两方面原因,我的运营改良方案也分两方面:一是,针对消费者周末没有购置欲望的心理,进行引导提醒消费者周末就应该准备好该产品;二是,通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购置力。
五、用户调研某公司针对A、B、C三类客户,提出了一种统一的改良方案,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考以下问题:a) 试验需要为决策提供什么样的信息?c)a) 试验要能证明该改良方案能显著提升A、B、C三类客户的周消费次数。
b) 根据三类客户的数量,采用分层比例抽样;需要采集的数据指标项有:客户类别,改良方案前周消费次数,改良方案后周消费次数;A、B、C三类客户,进行改良前和后的周消费次数的,两独立样本T-检验〔two-samplet-test〕。
摘录一段/模型?首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。
请列举您使用过的各种数据仓库工具软件〔包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具〕和熟悉程度。
ETL工具:Ascential DataStage,IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos公司的DecisionStream市场上的主流数据仓库存储层软件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA 请谈一下你对元数据管理在数据仓库中的运用的理解。
,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:〔1〕描述哪些数据在数据仓库中;〔2〕定义要进入数据仓库中的数据和从数据仓库中产生的数据;〔3〕记录根据业务事件发生而随之进行的数据抽取工作时间安排;〔4〕记录并检测系统数据一致性的要求和执行情况;〔5〕衡量数据质量。
数据挖掘ppt课件
情感分析:情感词典构建、情感倾向判断等
情感词典构建
收集和整理表达情感的词汇,构 建情感词典,为情感分析提供基 础数据。
情感倾向判断
利用情感词典和文本表示模型, 判断文本的情感倾向,如积极、 消极或中立。
深度学习方法
如循环神经网络(RNN)、长短 期记忆网络(LSTM)等,用于捕 捉文本中的时序信息和情感上下 文。
通过准确率、灵敏度、特异度等指 标评估模型性能,将模型应用于实 际医疗场景中,提高医生诊断效率 和准确性。
疾病预测与辅助诊断模型构建
利用机器学习、深度学习等技术构 建疾病预测和辅助诊断模型,如决 策树、神经网络、卷积神经网络等 。
谢谢您的聆听
THANKS
模型评估与优化
通过准确率、召回率、F1值等 指标评估模型性能,采用交叉 验证、网格搜索等方法优化模
型参数。
金融欺诈检测模型构建与优化
金融欺诈类型及特点
信用卡欺诈、贷款欺诈、洗钱等。
数据来源与处理
交易数据、用户行为数据、第三方数据等,进行数据清洗、特征工程 等处理。
欺诈检测模型构建
利用有监督学习、无监督学习等技术构建欺诈检测模型,如支持向量 机、随机森林、聚类等。
数据挖掘ppt课件
CONTENTS
• 数据挖掘概述 • 数据预处理技术 • 关联规则挖掘方法 • 分类与预测方法 • 聚类分析方法 • 时间序列分析方法 • 文本挖掘技术 • 数据挖掘在实际问题中应用案
01
数据挖掘概述
定义与发展历程
定义
数据挖掘是从大量数据中提取出 有用信息和知识的过程。
发展历程
应用
FP-Growth算法适用于大型数据集和复杂关联规则的挖掘,如电商网站的推荐 系统、网络安全领域的入侵检测等。
《大数据时代下的数据挖掘》试题及答案
《海量数据挖掘技术及工程实践》题目一、单选题(共80题)1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理3)以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则7)下面哪种不属于数据预处理的方法? (D)A.变量代换B.离散化C.聚集D.估计遗漏值8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,15在第几个箱子内?(B)A.第一个B.第二个C.第三个D.第四个9)下面哪个不属于数据的属性类型:(D)A.标称B.序数C.区间D.相异10)只有非零值才重要的二元属性被称作:( C )A.计数属性B.离散属性C.非对称的二元属性D.对称属性11)以下哪种方法不属于特征选择的标准方法: (D)A.嵌入B.过滤C.包装D.抽样12)下面不属于创建新属性的相关方法的是: (B)A.特征提取B.特征修改C.映射数据到新的空间D.特征构造13)下面哪个属于映射数据到新的空间的方法? (A)A.傅立叶变换B.特征加权C.渐进抽样D.维归约14)假设属性income的最大最小值分别是12000元和98000元。
空间数据挖掘研究综述
数据库中抽取隐含 的知识 、 间关 系或非显 式地 存储 在空间 空 数据库 中的其它模式等 L 。空间数据挖掘需要综合数 据挖 掘 1 ]
( aaMi n , M) D t n g D 与空间数 据库 技术 , i 可用 于对空间数据 的 理解 , 空间关 系和空间与非空间数据 间关 系的发现 、 空间知 识 库 的构造 、 空间数据 库 的重 组和空 间查 询 的优化 等[ 。空 间 2 ]
维普资讯
计算机科学 20V L 4o 5 07 o N. 3
空 间数 据挖 掘研 究 综 述 )
胡彩 平 秦小 麟
( 南京航 空航天 大 学信息科 学 与技 术学 院 南京 2 0 1) 10 6
摘 要 信 息化 的发展使得更 多的空间数据被使用 , 因此 获取 空间知识 也就越 来越 重要和有 意义, 并使得 空间数 据挖
A r e fS t ̄ Da a M i ng Re e r h Su v y o pa i t ni s a c HU i n QI Xio Li Ca- g Pi N a - n
( olg f nomainSinea dTeh oo y Naj gUnv ri f rn uis& Asrn uis C l eo fr t c c n c n lg , ni iest o o a t e I o e n y Ae c to a t ,Naj g2 0 1 ) c ni 1 0 6 n
n r ci ,s ai ls eig,s ailo t e ,s ai so it n r lsa es se aial u a dp e it n p t lcu trn d o a p t u l r p ta as cai ue r y tm tc l s mm aie F n l h e a i l o y r & ial z y,t f tr ieto so p ta aami n r ic s e u u edrcin fs a il t n g a eds u s& d i Ke w r s S a il aam n n ,S ailcasf aina dp e it n p t lcu trn y o d p ta t i g d i p t lsii to n rdci ,S ai l se ig,S ail u l r p t l s o i— a c o a p ta ti ,S ai s ca o e aa
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Method Development about Spatial Data Mining and Its Problem Analysis Hu Shengwu School of Surveying and land information engineering Henan Polytechnic University Henan Jiaozuo,454000 ,China hushengwuzhu@163.com
Abstract-The people gain more and more spatial data as spatial information technologies develop especially Remote Sensing technology and surveying and Mapping technology, database technology, network technology. But there is a bizarre phenomenon that “data rich, knowledge lack”. For the sake of solving the problem, we must carry through spatial data mining, therefore it is very important to spatial data mining. The paper researches two aspects that are methods and problems of spatial data mining. The paper studies characteristic and using range of every kind method and points out localization and fault about spatial data mining at present; detailed works over existing problems of spatial data mining now, educes that spatial data mining is faultiness and needs more research
Keywords-Spatial Data Mining; Method; Problem, Analysis I. PREFACE The people gain more and more spatial data as spatial information technologies develop especially Remote Sensing technology and surveying and mapping technology, database technology, network technologyDŽ A strange thing comes forth that “data rich, knowledge lack” , that is to say, people have many spatial data but feel lack of spatial data knowledge. It is very important how to discover knowledge from a mass of spatial data, and so spatial data mining is research hotspot at present. The paper sums up methods and researches problems about spatial data mining at present.
II. DEFINITION OF SPATIAL DATA MINING
The spatial data mining and the general data mining have not only relation but also difference. The two concepts are data mining (Data Mining, is called DM) and discover the knowledge (Discovery for Spatial Database, is called KDD) usually are confused. Some scholars take DM as a core process of KDD and think KDD process includes data preparation and interpretation and evaluation of discovery result. Some people think that the essence of the two concepts is same, DM only frequently is used in statistics , data analysis and information system, but KDD is widely used in artificial intelligence and machine learning and so on domain. Also some people think the two concepts are separated with difficulty, should take a whole as using, But the terminology "the data mining" compared to "in the database discovered the knowledge" and "the data mining and the knowledge discover" is concision, therefore is widely popular.
The spatial data mining (Spatial Data Mining, is called SDM), or called the knowledge discovery from the spatial database(Knowledge Discovery from Spatial Database), its definition is: in the spatial database and in the data warehouse foundation, comprehensively utilizes statistical method, the pattern recognition technology, the artificial intelligence method, the neutral network technology, Rough set, the fuzzy mathematics, the machine learning, the expert systematic, visualization technology and other correlative information technologies taken as the measure, extracts knowledge that is credible ,novel, interesting, hidden, unknown, latent, useful and finally comprehensible from the massive spatial data, the management data, the fare data or remote sensing data, thus opens out essence rule containing spatial data, inherence relation and development tendency , realizes knowledge is automatically or semi-automatically gain, provides the suggestion for the management and the fare decision-making[1].
III. THE SPATIAL DATA MINING RESEARCH STATUS
GENERALIZATION Since 1989 the 11th session of artificial intelligence international combination conference proposed for the first time the data mining concept, all kinds of organization of the overseas have processed the massive research work in the data mining domain. Until now, the data mining research has already gained great progress in the relational database and business database[2] , these representative work includes: using object the attribute induction method discovered the characteristic rule and the discrimination rule in the relational database [3], discovered the connection rule in business database[4], from the large-scale database discovered the multi-level connective rule[5] , carries with the classification based on the multilayered connection[6] , processes optimization of clustering analysis based on the distance and the density and so on[7]. Many famous databases and the data warehouse suppliers, the statistical analysis software developer, the correlation personnel and the research institute and so on invest in abundance studies and exploitation strength, develops some data mining commercial systems and the prototype systems[8]. The spatial data mining research compared with the general data mining is late, but it has aroused the widespread interest in recent years. Canadian Simon Fraser university, German Munich university , many universities and the research institute of American and Australia and so on, all have the achievement report about the spatial data mining[9][10]. These researchers mostly have the computer science background, they generally take the spatial data