模糊数学在数据挖掘领域综述

模糊数学在数据挖掘领域综述
模糊数学在数据挖掘领域综述

模糊数学在数据挖掘研究综述

一、模糊数学

关于数学的分类,根据所研究对象的确定性可以分为经典数学、随机数学以及模糊数学。三者的关系如图1所示。经典数学建立在集合论的基础上,一个对象对于一个集合要么属于,要么不属于,两者必居其一,且仅居其一,绝不可模棱两可,由于这个要求,大大限制了数学的应用范围,使它无法处理日常生活中大量的不明确的模糊现象与概念。随着发展,过去那些与数学毫无关系或关系不大的学科如生物学,心理学,等都迫切要求定量化和数学化。

图1依照研究对象是否确定的数学分类

在日常生活中,我们经常会遇到一些模糊不清的概念。例如,“高个子”、“矮个子”等。如果把1.80米的人算高个子,那么,身高1.76米的人算不算高个子呢?这就很难说,因为“高个子”,“矮个子”并没有二者明确的标准,因而这些概念就显得模糊不清。为了适应这些学科自身的特点,只有通过改造数学,使它应用的面更为广泛。模糊数学就是研究事物这种模糊性质的一门数学学科。

模糊数学诞生于1965年,创始人是美国自动控制专家查德,他最早提出了模糊集合的概念,引入了隶属函数。自诞生之日起,就与电子计算机息息相关。今天精确的数学计算当然是不可少的,然而,当我们要求脑功能的时候,精确这个长处反而成了短处。例如,我们在判别走过的人是谁时,总是将来人的高矮,胖瘦、走路姿势与大脑存储的样子进行比较,从而作出判断。一般说来,这不是件难事,即使是分别多年的老友,也会很快地认出他来,但是若让计算机做这件事,使用精确数学就太复杂了。得测量来人的身高、体重、手臂摆的角度以及鞋底对地面的正压力、磨擦力、速度、加速度等数据,而且非要精确到后几十位才肯罢休。如果有位熟人最近稍为瘦了或胖了一些,计算机就“翻脸不认了”。显然,这样的“精确”容易使人糊涂。由此可见,要使计算机能模拟人功能,一定程度的模糊是必要的。模糊数学就是在这样的背景下诞生的。

随机数学与模糊数学都是对不确定性量的研究,但与模糊数学不同的是,随机数学是研究随机现象统计规律性的一个数学分支,涉及四个主要部分:概率论、随机过程、数理统计、随机运筹。随机数学更强调对数据的统计规律;而模糊数学强调的是变量的定义的模糊性。

模糊数学是一门新兴学科,过去那些与数学毫不相关或关系不大的学科(如生物学、心理学、语言学、社会科学等)都有可能用定量化和数学化加以描述和处理,从而使数学的应用范围大大扩展。它已初步应用于模糊控制、模糊识别、模糊聚类分析、模糊决策、模糊评判、系统理论、信息检索、医学、生物学等各个方面,并且在气象、结构力学、控制、心理学等方面已有具体的研究成果。模糊数学最重要的应用领域是计算机职能,它与新一代计算机的研制有密切的联系。

二、模糊计算

精确的数学语言、定量化分析传统计算的方式无法解决概念模糊的问题,如大房子,小个子等,所以需要引入模糊计算来对模糊概念变量的计算。普通计算一般是指函数式,自变量与因变量是一一对应的关系。而模糊计算,一个变量,可以对应于多个状态值。当然,这些个状态与普通的函数表示也不是完全相同的,并不是完全确定的,它们有一个隶属度,或者说概率,来表示这个状态。隶属度表示程度,它的值越大,表明这个状态的概率越高,反之则表明这个状态的概率越低,其原因在于有一些概念模糊的问题,需要模糊计算来处理。

本节讨论关于模糊数学计算的基本知识。

1、模糊集、隶属函数及模糊集的运算

对于普通集合A ,对x ?,有A x ∈或A x ?。

如果要进一步描述一个人属于年轻人的程度大小时,仅用特征函数就不够了。模糊集理论将普通集合的特征函数的值域推广到[0,1]闭区间内,取值的函数以度量这种程度的大小,这个函数(记为)(x E )称为集合E 的隶属函数。即对于每一个元素x ,有[0,1]内的一个数)(x E 与之对应。

模糊子集的定义:射给定论域U ,U 到[0,1]上的任一映射:

))((],1,0[:U u u A u U A ∈?→→

都确定了U 上的一个模糊集合,简称为模糊子集。)(u A 称为元素u 属于模糊集A 的隶属度。映射所表示的函数称为隶属函数。

模糊集合的运算:

)}(),.....,(),({21n u A u A u A A =,)}(),.....,(),({21n u B u B u B B =,

并集:)}()(),.....,()(),()({2211n n u B u A u B u A u B u A B A ∨∨∨=?,

交集:)}()(),.....,()(),()({2211n n u B u A u B u A u B u A B A ∧∧∧=?,

补集:

)}(1),.....,(1),(1{21n c u A u A u A A ---=, 包含:B A u B u A U u ?≤∈?,则有有若)()(,。

2、模糊数学基本定理

①、模糊截积:

已知U 上模糊子集))((],1,0[:U u u A u U A ∈?→→

对]1,0[∈λ,A λ也是U 上模糊集,其隶属函数为:)(),())((U u u A u A ∈?∧=λλ; 称为A λ为λ与A 的模糊截积。

②、分解定理1:已知模糊子集)(U F A ∈,则λλλA A ]

1,0[∈?= 推论1:对,U u ∈?}],1,0[{)(λλλA u u A ∈∈∨=

③、分解定理2:已知模糊子集)(U F A ∈,则S A A λλλ]

1,0[∈?= 推论2:对,U u ∈?}],1,0[{)(S A u u A λλλ∈∈∨=

三、模糊聚类

1、模糊聚类分析法与聚类分析法

模糊聚类分析是聚类分析的一种。聚类分析按照不同的分类标准可以进行不同的分类。就好像人按照性别可以分成男人和女人,按照年龄可以分为老中青一样。聚类分析如果按照隶属度的取值范围可以分为两类,一类叫硬聚类算法,另一类就是模糊聚类算法。

隶属度的概念是从模糊集理论里引申出来的。传统硬聚类算法隶属度只有两个值 0 和

1。 也就是说一个样本只能完全属于某一个类或者完全不属于某一个类。举个例子,把温度分为两类,大于10度为热,小于或者等于10度为冷,这就是典型的“硬隶属度”概念。 那么不论是5度 还是负100度都属于冷这个类,而不属于热这个类的。而模糊集里的隶属度是一个取值在[0 1]区间内的数。一个样本同时属于所有的类,但是通过隶属度的大小来区分其差异。比如5度,可能属于冷这类的隶属度值为0.7,而属于热这个类的值为0.3。这样做就比较合理,硬聚类也可以看做模糊聚类的一个特例。

2、模糊聚类步骤

模糊聚类法和一般的聚类方法相似,先将数据进行标准化,计算变量间相似矩阵或样品间的距离矩阵,将其元素压缩到0与1之间形成模糊相似矩阵,进一步改造为模糊等价矩阵,最后取不同的标准λ,得到不同的-λ截阵,从而就可以得到不同的类。具体步骤如下: 第一步:数据标准化

1).数据矩阵

设论域},...,,{21n x x x U =为被分类的对象,每个对象又由m 个指标表示其性状:

},...,,{21im i i i x x x x =(n i ,...,2,1=)

于是得到原始数据矩阵为

????????????nm n n m m x x x x x x x x x (2122221)

11211

2).数据标准化

在实际问题中,不同的数据一般有不同的量纲。为了使有不同的量纲的量也能进行比较,通常需要对数据作适当的变换。但是,即使这样得到的数据也不一定在区间[0,1]上。因此,这里所说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常需要作如下变换:平移标准差变换、平移级差变换。

第二步:建立模糊相似矩阵

设论},...,,{},,...,,{2121im i i i n x x x x x x x U ==依照传统的方法确定相似系数,建立模糊

相似矩阵,

i x 与j x 的相似程度),(j i ij x x R r =。可根据问题的性质,选取下列公式之一计算ij r :数量积法、夹角余弦法、最大最小法、算术平均最小法、几何平均最小法等等。 第三步:进行模糊聚类

1).基于模糊等价矩阵聚类方法

一般来说。上述模糊矩阵)(ij r R =是一个模糊相似矩阵,不一定具有等价性,即R 不一定是模糊等价矩阵。这可以通过模糊矩阵的褶积将其转化为模糊等价阵,具体方法如下: 计算2R = R R ?,4R = 22R R ?,8R = 44R R ?,…,直到满足k k R R

=2这时模糊矩阵k R 便是一个模糊等价矩阵。记

k

ij R r R ==)~(~。 将ij r ~按由大到小的顺序排列,从λ=1开始,沿着ij r ~由大到小的次序依次取λ=ij r ~,求R ~的

相应的-λ截阵λR ~,其中元素为1的表示将其对应的两个变量(或样品)归为一类,随着λ

的变小,其合并的类越来越多,最终当λ=}~{min ,1ij n

j i r ≤≤时,将全部变量(或样品)归为一个大类。按λ值画出聚类的谱系图

2).直接聚类法

所谓直接聚类法是指:在建立模糊相似矩阵之后,不去求传递闭包)(R t ,直接从相似矩阵出发,求得聚类图。其步骤如下:

① 、取1λ=1(最大值),对每个i x 作相似类R i x ][:

R i x ][={j x |1=ij r },

即将满足1=ij r 的i x 与j x 放在一类,构成相似类。相似类与等价类的不同之处是,不

同的相似类可能有公共元素,即可出现

R i x ][={i x ,k x },R j x ][={j x ,k x },[i x ]?[j x ]φ≠.此时只要将有公共元素的相似类合并,即可得1λ=1水平上的等价分类。

②、取2λ为次大值,从R 中直接找出相似程度为2λ的元素对(i x ,j x )(即

2λ=ij r ),相应的将对应于1λ=1的等价分类中i x 所在类与j x 所在类合并,将所有这些情况合并后,即得对应2λ的等价分类。

③、取3λ为第三大值,从R 中直接找出相似程度为3λ的元素对(i x ,j x )(即

3λ=ij r ),类似的将对应于2λ的等价分类中

i x 所在类与j x 所在类合并,将所有这些情况合并后,即得对应3λ的等价分类。

④、依次类推,直到合并到U 成为一类为止。

四、模糊数学与模糊数据挖掘

1、模糊数据挖掘

在过去几十年里,模糊集理论已成功地应用于模式识别、智能控制、机器学习、人工智能等诸多领域的研究。长期以来,知识表示和知识推理是模糊集理论研究的一个主要方向,其研究成果为构建基于知识的智能系统设计提供理论依据。然而,知识获取成为制约基于知识的智能系统进一步发展的瓶颈。面对大量的数据,单靠人工去收集、整理以及采用传统的数据分析处理工具来获取知识,已无法解决这个问题。数据挖掘的出现,为知识获取开辟了一条新的图径。数据挖掘有效地解决由于知识短缺、知识获取瓶颈这一阻碍基于知识的智能系统进一步发展的问题。数据挖掘融合了数据库、机器学习、人工智能、统计学等学科技术去挖掘数据,以获得有用的知识。近年来,一类称之为软计算的智能化信息处理技术受到人们广泛的关注,软计算和传统的硬计算不同,软计算适合对包含有不确定性数据、不完全数据、噪声数据以及与模式可理解性有关问题的分析和建模,在不能获得或不追求问题精确解的前提下,使用软计算可以快速地获得一个近似解。软计算主要包括模糊集理论、粗糙集、神经网络、遗传算法等。其中,模糊集理论是软计算中应用到数据挖掘研究中的最为成熟和最成功的理论,本文阐述模糊论在数据挖掘任务中的聚类、关联挖掘、分类上应用,反映模糊论在数据挖掘上述应用研究中的基本现状。

数据挖掘是从大量数据中挖掘有用知识的过程,数据可以是从简单结构到复杂结构、从有序到无序、从精确性到模糊性、从集中到分布式等等。当数据具有模糊和不确定性时,常采用模糊理论去处理,实际上,模糊集理论早已应用于数据清理、数据选择、数据分析和建模,对数据的分析,至少可采用两种方法:一种是用模糊论方法对传统方法加以扩展;另一种是把数据嵌入到更复杂的数学空间来进行处理,如把模糊数据映射到模糊测度空间来处理。聚类是模糊集理论研究得比较早的一个方向,聚类在机器学习、人工智能、信息检索、统计分析、数据挖掘等领域里有大量的应用。在数据挖掘当中,利用模糊聚类对有用模式进行聚类,有助于对有用模式的搜索,设计一个模糊聚类算法,利用上下文相关信息和诱导出一个语言值空间更好地在数据挖掘中进行信息搜索。模糊集理论用于挖掘具有数量属性的关联规则,人们已提出了不少模糊关联规则挖掘算法,大多数算法是基于Apriori 算法,有的算法主要是讨论数量属性如何用语言值表述,或对其进行划分;有的是探讨在对属性进行加权的情况下规则发现的算法,此外,模糊集理论还用到数据选择、属性泛化、数据总结、Web 应用等数据挖掘任务当中。限于篇幅,我们简要地综述模糊集理论在数据挖掘任务中的聚类、关联挖掘、分类上的若干应用。

2、模糊聚类

聚类是一种无监督的学习,所谓聚类,是把一组对象按其相互间相似程度分成若干簇,使得在同一簇中的对象相似,而在不同簇中对象相异。在传统的聚类中,每个对象被指定到

唯一的簇,簇与簇之间有着明显的分界,即簇与簇之间并无重叠。但在现实应用中,大量数据由于其属性的不确定性以及模糊性,因而很难把数据划分到唯一的一簇中。在这种情况下,采用模糊逻辑和传统聚类技术结合的方法来处理,结果更符合实际。这就是模糊聚类方法,在模糊聚类中,聚类的对象可以在某种程度上同时属于多个簇,用隶属度这个概念去表示这种程度的大小。

人们已经提出了不少的模糊聚类的方法,模糊c-均值聚类是一个最常用的模糊聚类方法,其过程与基本c-均值聚类相似,不同的地方在于,在模糊c-均值聚类中,数据是以隶属度的形式从属于某个簇的。不过,模糊c-均值聚类也存在着一些缺陷,如对初始状态比

较敏感,容易陷入局部极小值或者落入所谓的鞍点,另外,它不能较好地处理离群点的数据。为克服这些缺陷,有的学者给出一个自适应的模糊聚类算法来解决离群点聚类的问题,该算法不采用现有的大多数算法所用的聚类数据点在所有簇中的隶属度之和为1这一限制条件,而是采用新的约束条件,所有数据在各簇的隶属度之和等于数据的个数,最后对数据点的隶属度作归一化处理,这使得离群点的隶属度变得非常之小,比较符合实际情况。文献给出一个全局模糊c-均值聚类算法GFCM,该算法不依赖于初始条件,通过一个确定性的全局搜索程序来获取聚类结果,同时提出一个快速的全局模糊c-均值聚类算法来加快GFCM的收敛速度。文献提出了不确定隶属度的概念,设计一种新的基于隶属关系不确定的可能性模糊聚类新算法,新算法将迭代过程中数据集对聚类簇隶属的可能性与不确定性关系引入目标函数中,达到优化聚类结果的功效。

数据流挖掘和动态数据挖掘是数据挖掘的一个研究热点,对数据流进行聚类的算法很多,但有关模糊聚类的算法仍较少在数据流聚类研究的相关文献中出现,有的学者提出一个对数据流进行加权的模糊聚类的算法,该算法是基于模糊c-均值算法,算法的主要特点是,根

据数据在聚类过程中的重要性对其进行加权处理,通过递归不断地对类中心进行加权直到代价函数获得一个满意的结果或者递归到预定的次数为止。现有的大多数聚类算法都是针对静态数据进行,且多数要求指定聚类后类的数目,这不适合动态数据聚类。对动态数据聚类,要采用进化的策略,类的数目在聚类过程中得到优化。有的学者给出一个基于模糊c-均值

聚类的动态数据挖掘方法,有的学者给出一个函数模糊c-均值算法去处理动态对象间的相

似度问题。

高维数据聚类是聚类的一个难点,为解决高维数据聚类问题,人们提出了不少有效算法,模糊联合聚类是其一的一种,所谓联合聚类是指同时对对象和属性进行聚类,以加快聚类速度。有的学者提出一个新的基于启发式的模糊联合聚类算法HFCR,以解决存在特征重合情

况下和存在异常数据的挖掘性能问题。提供用户参与聚类过程,能改善聚类效率和性能,尤其对大规则、稀疏高维数据聚类显得更加迫切,有的学者给出一个交互式的可视化聚类算法,用户通过选择、丢弃、改变候选簇来改善聚类过程。

利用相关领域知识来辅助聚类有时能够改善聚类效率,有的学者给出两个基于领域知识的聚类方法,通过利用领域知识获得一个语义接近矩阵,之后,聚类可以在领域知识的指导下进行。

3、模糊关联分析

关联挖掘是数据挖掘的重要内容,传统关联规则挖掘主要针对的是定性属性,然而实际生活中,存在着大量的定量数据,许多对象的属性是定量的,因而挖掘定量关联规则有着现实的意义。

人们提出了许多模糊关联规则挖掘算法,有的学者提出一个用模糊词汇来描述关系数据库的数字和类属属性,然后给出一个挖掘混合数据的模糊关联规则的算法。有的学者提出一个以模糊集理论和Apriori算法相结合的从数据库中发现兴趣模糊关联规则的算法。有的学

者给出一个基于AprioriTid算法的模糊关联规则挖掘算法。有的学者提出了一种基于自组织特征映射网络的自动确定样本数据隶属度函数的新方法,并在此基础上根据相似性的概念,给出了相似度的计算公式,提出一种挖掘模糊相似关联规则的新算法。有的学者提出两种加权模糊关联规则的挖掘算法。有的学者提出一种新的模糊加权支持度和确信度的概念,能够在加权情况下利用Apriori求频繁项集时所用到的向下封闭这一特性。

有的学者应用了一个预定义的语言标记集,使用调整后的差别和证据的权重这两个度量值来表示模糊关联规则的重要性和精确度,用调整后的差别来分析和判断属性之间的关联,如果调整后的差别值大于某一给定的值时,则可认为属性间存在着有趣的关联。证据的权重是信息增益的一种度量,用户可用它来估计规则有多大的兴趣。有的学者给出一个用语言值表示发现的规则,算法避免由于产生大规模候选集而产生的开销,利用互信息来表示属性之间存在着的强的信息关系,发现潜在的频繁项集,同时使用调整后的差别分析方法,不需要用户事先定义好关联阈值。有的学者采用信息理论的方法来挖掘模糊关联规则,它构建一个互信息图,用图的最大团来代表大多数的频繁项集,利用图的最大团来求解频繁项集,然后利用频繁项集和前缀树结构来挖掘关联规则。有的学者给出一个针对调查表中的数据所进行的一种模糊关联挖掘算法,用一种统一的方式对各类调查数据进行统一挖掘。有的学者给出一个基于FP-tree算法的模糊关联挖掘算法,有的学者提出一个挖掘多层次多最小支持度约束下的模糊关联规则算法,该算法采用自顶向下逐步递进的方式来寻找频繁项集,并且在此约束下能保持向下封闭的特性。有的学者给出一个以模糊集理论和粗糙集相结合的从不完全数量数据中发现关联规则的算法。有的学者提出一种新的模糊数据挖掘方法,它挖掘的是对象与对象间、对象内部之间存在的关联。此外,有的学者探讨了用模糊集理论挖掘序列模式的方法。

4、模糊分类

分类与聚类不同,分类属有监督的学习。对于大规模数据分类仍然是一个具有挑战性的问题,在过去几十年里,作为研究智能系统的一个重要工具,模糊逻辑在分类问题上得到广泛的应用,其提供语言表达能力,使用语言词汇很方便地用规则形式去描述存储在数据库中的知识,人们也容易理解这些规则。

有的学者提出一个自适应的模糊分类模型,该模型通过对训练数据的特征的学习能自动产生IF-THEN规则,规则后件采用置信度如数据所属类别来表示。有的学者提出一种基于模糊信息增益度量的分类方法,该方法首先根据给出的训练样例,对样例中的特征进行模糊信息增益度量,根据模糊信息增益度量,提出一个构建隶属度函数的算法。

在数据挖掘中,高维数据分类,依然是一个具挑战性的问题,在基于模糊IF-THEN规则的模糊逻辑用于解决分类问题上,规则的精确性和可解析性在模糊分类中是十分重要的,通常,这些规则是由专家给出的,自动获取分类规则是一件不容易做到的事情,在对数字数据分类中,目前已提出了不少获得模糊规则的算法,这些方法包括采用启发式程序,模糊神经技术,聚类方法,模糊聚类和模糊关系相结合的方法,此外,还有模糊最近邻和遗传算法等。有的学者提出一个加权函数用于改变模式的兼容度以此获得分类的准确性,而不降低规则的可解析性。有的学者提出一个基于模拟退火启发式方法来构建分类系统,该方法采用模拟启发式学习能力和模糊逻辑的推理能力相结合建立模糊分类系统,系统能够精确抽取输入数据集中精确的分类规则。在没有任何先验知识的前提下,对大规模数据进行分类是一个具挑战性的问题。有的学者提出一个基于原型的自适应的图像分类方法,该方法的目标是对一部分样例进行手工标记,然后在此基础上自动地对剩下的图像进行分类。在对部分样例进行手工标记后,采用模糊c-均值聚类算法对数据集进行初始聚类,之后允许用户根据已知的样例

类别对初始类别进行调整,受主动学习概念的启发,在学习的过程中,学习者可以去查询最

“有用”的样例,因而使得整个监督学习的开销能保持在一个较低水平。

在基于模糊规则的分类系统中,对规则进行加权处理可以作为调整分类结果的一种简单机制,有的学者给出一个含有加权训练模式的模糊分类系统,系统已应用到几个图像系统中去。该文同时提出一个用于调整模糊规则置信度的学习算法,实验证明算法能增加分类的正确率和减少分类过程的开销。

5、总结

随着数据挖掘向结构更复杂、异构、动态、分布数据挖掘方向发展,对模糊集理论提出了新的挑战,例如为了适应大规模动态数据的挖掘,要求算法具有可扩展性,如何进行降维、挖掘性能如何评价、如何缩小数据和人的认识之间存在的语义鸿沟以便较好实现数据的计算机表示与人的认识间的转换,等等。为应对这些挑战,我们认为,可以从下面3个方面对模糊理论作进一步的研究:①继续探讨模糊集理论与其它传统的和非传统的技术相结合的方法,取长补短,更好地应用到数据挖掘上,在这方面,在机器学习和人工智能上,有过成功的例子,如模糊集和神经网络相结合,形成模糊-神经计算模式,它一方面利用了神经网络较强的学习能力和适于信息并行处理能力,另一方面,利用模糊逻辑善于对不精确性数据建模的能力,这使得模糊神经网络模型在模糊知识表达与推理方面得到广泛应用。②随着数据挖掘向复杂结构知识挖掘方向发展,进一步促进归纳推理与挖掘过程研究的深入,机器学习在当中扮演十分重要的角色。而模糊集理论在学习能力方面的研究,目前还没有得到更多应有的关注,今后可以沿着这个方向作更深入的研究。③人们对大规模数据挖掘的结果要求正确、完整、高效的同时,又要求所挖掘出来的模式简单和易于理解,但是全部满足这些特性往往是困难的,如何平衡各种性能指标是一个重要的问题,而且如何去衡量这些指标优劣,目前还没有一个公认的标准。在模糊数据挖掘当中,采用怎样的模糊理论的相关数学表达方式去研究它们之间的关系,以及与之有关的其它问题都有作深入研究的必要。

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

GIS技术的研究现状及未来发展趋势.

GIS 技术的研究现状及未来发展趋势 摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。 关键词:GIS 研究现状发展趋势 0 引言 随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状 世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

文献综述_数据挖掘

数据挖掘简介 数据挖掘的任务 数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP,onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet,以及IBM公司的决策分析工具都使用了多维数据分析技术。 采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。数据挖掘的分类 数据挖掘所能发现的知识有如下几种: .广义型知识,反映同类事物共同性质的知识; .特征型知识,反映事物各方面的特征知识; .差异型知识,反映不同事物之间属性差别的知识; .关联型知识,反映事物之间依赖或关联的知识; .预测型知识,根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。 数据挖掘的方法 数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受,即不管你选择哪种方法,总存在着某种协定。因此对实际情况,应该具体分析,根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐,也没

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用* 戴晓燕1 过仲阳1 李勤奋2 吴健平1 (1华东师范大学教育部地球信息科学实验室 上海 200062) (2上海市地质调查研究院 上海 200072) 摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 关键词 空间聚类 K-均值法 散度 1 前言 随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。 空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。 空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。 本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2 划分法 设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— *基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学 地理系硕士研究生,主要从事空间数 据挖掘的研究。 · 41 · 2003年第4期 上海地质 Shanghai Geology

数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究 导读:本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础,对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展,并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。 关键字:数据挖掘 0 引言 近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。 中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计,对数据挖掘在中国发展的现状及发展趋势进行分析和研究,通过分析有关论文的发表,对数据挖掘在中国的理论研究和实际应用提出建议。 1 数据挖掘的应用与研究发展 数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和产业界的广泛关注。 数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。 数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或商业上经常发生的诈骗行为进行预测IBM公司

数据挖掘课程论文综述

海南大学 数据挖掘论文 题目:股票交易日线数据挖掘 学号:20100602310002 姓名: 专业:10信管 指导老师: 分数:

目录 目录 (2) 1. 数据挖掘目的 (3) 2.相关基础知识 (3) 2.1 股票基础知识 (3) 2.2 数据挖掘基础知识 (4) 2.2.2数据挖掘的任务 (5) 3.数据挖掘方案 (6) 3.1. 数据挖掘软件简介 (6) 3.2. 股票数据选择 (7) 3.3. 待验证的股票规律 (7) 4. 数据挖掘流 (8) 4.1数据挖掘流图 (8) 4.2规律验证 (9) 4.2.2规律2验证 (10) 4.2.3规律三验证 (12) 4.3主要节点说明 (14) 5.小结 (15)

1.数据挖掘目的 数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。 2.相关基础知识 2.1 股票基础知识 2.1.1 股票 是一种有价证券,是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。 2.1.2 开盘价 开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。 2.1.3 收盘价 收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

数据挖掘文献综述

湘潭大学 本科生专业文献综述 题目: 数据挖掘文献综述 姓名: 林勇 学院: 信心工程学院学院 专业: 自动化 班级: 一班 学号: 2010550113 指导教师: 张莹

0前言 随着计算机技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务 数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类: (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取

模糊数学简介及入门

模糊数学简介 模糊数学是数学中的一门新兴学科,其前途未可限量。1965年,《模糊集合》的论文发表了。作者是著名控制论专家、美国加利福尼亚州立大学的扎德(L.A.Zadeh)教授。康托的集合论已成为现代数学的基础,如今有人要修改集合的概念,当然是一件破天荒的事。扎德的模糊集的概念奠定了模糊性理论的基础。这一理论由于在处理复杂系统特别是有人干预的系统方面的简捷与有力,某种程度上弥补了经典数学与统计数学的不足,迅速受到广泛的重视。近40年来,这个领域从理论到应用,从软技术到硬技术都取得了丰硕成果,对相关领域和技术特别是一些高新技术的发展产生了日益显著的影响。有一个古老的希腊悖论,是这样说的:“一粒种子肯定不叫一堆,两粒也不是,三粒也不是……另一方面,所有的人都同意,一亿粒种子肯定叫一堆。那么,适当的界限在哪里?我们能不能说,123585粒种子不叫一堆而123586粒就构成一堆?”确实,“一粒”和“一堆”是有区别的两个概念。但是,它们的区别是逐渐的,而不是突变的,两者之间并不存在明确的界限。换句话说,“一堆”这个概念带有某种程度的模糊性。类似的概念,如“年老”、“高个子”、“年轻人”、“很大”、“聪明”、“漂亮的人”、“价廉物美”等等,不胜枚举。经典集合论中,在确定一个元素是否属于某集合时,只能有两种回答:“是”或者“不是”。我们可以用两个值0或1加以描述,属于集合的元素用1表示,不属于集合的元素用0表示。然而上面提到的“年老”、“高个子”、“年轻人”、“很大”、“聪明”、“漂亮的人”、“价廉物美”等情况要复杂得多。假如规定身高1.8米算属于高个子范围,那么,1.79米的算不算?照经典集合论的观点看:不算。但这似乎很有些悖于情理。如果用一个圆,以圆内和圆周上的点表示集A,而且圆外的点表示不属于A。A的边界显然是圆周。这是经典集合的图示。现在,设想将高个子的集合用图表示,则它的边界将是模糊的,即可变的。因为一个元素(例如身高1.75米的人)虽然不是100%的高个子,却还算比较高,在某种程度上属于高个子集合。这时一个元素是否属于集合,不能光用0和1两个数字表示,而可以取0和1之间的任何实数。例如对1.75米的身高,可以说具有70%属于高个子集合的程度。这样做似乎罗嗦,但却比较合乎实际。精确和模糊,是一对矛盾。根据不同情况有时要求精确,有时要求模糊。比如打仗,指挥员下达命令:“拂晓发起总攻。”这就乱套了。这时,一定要求精确:“×月×日清晨六时正发起总攻。”我们在一些旧电影中还能看到各个阵地的指挥员在接受命令前对对表的镜头,生怕出个半分十秒的误差。但是,物极必反。如果事事要求精确,人们就简直无法顺利的交流思想——两人见面,问:“你好吗?”可是,什么叫“好”,又有谁能给“好”下个精确的定义?有些现象本质上就是模糊的,如果硬要使之精确,自然难以符合实际。例如,考核学生成绩,规定满60分为合格。但是,59分和60分之间究竟有多大差异,仅据1分之差来区别及格和不及格,其根据是不充分的。不仅普遍存在着边界模糊的集合,就是人类的思维,也带有模糊的特色。有些现象是精确的,但是,适当的模糊化可能使问题得到简化,灵活性大为提高。例如,在地里摘玉米,若要找一个最大的,那很麻烦,而且近乎迂腐。我们必须把玉米地里所有的玉米都测量一下,再加以比较才能确定。它的工作量跟玉米地面积成正比。土地面积越大,工作越困难。然而,只要稍为改变一下问题的提法:不要求找最大的玉米,而是找比较大的,即按通常的说法,到地里摘个大玉米。这时,问题从精确变成了模糊,但同时也从不必要的复杂变成意外的简单,挑不多的几个就可以满足要求。工作量甚至跟土地无关。因此,过分的精确实际成了迂腐,适当的模糊反而灵活。显然,玉米的大小,取决于它的长度、体积和重量。大小虽是模糊概念,但长度、体积、重量等在理论上都可以是精确的。然而,人们在实际判断玉米大小时,通常并不需

数据挖掘中的软计算方法及应用综述

摘要文章对数据挖掘中软计算方法及应用作了综述。对模糊逻辑、遗传算法、神经网络、粗集等软计算方法,以及它们的混合算法的特点进行了分析,并对它们在数据挖掘中的应用进行了分类。 关键词数据挖掘;软计算;模糊逻辑;遗传算法;神经网络;粗集 1 引言 在过去的数十年中,随着计算机软件和硬件的发展,我们产生和收集数据的能力已经迅速提高。许多领域的大量数据集中或分布的存储在数据库中[1][2],这些领域包括商业、金融投资业、生产制造业、医疗卫生、科学研究,以及全球信息系统的万维网。数据存储量的增长速度是惊人的。大量的、未加工的数据很难直接产生效益。这些数据的真正价值在于从中找出有用的信息以供决策支持。在许多领域,数据分析都采用传统的手工处理方法。一些分析软件在统计技术的帮助下可将数据汇总,并生成报表。随着数据量和多维数据的进一步增加,高达109的数据库和103的多维数据库已越来越普遍。没有强有力的工具,理解它们已经远远超出了人的能力。所有这些显示我们需要智能的数据分析工具,从大量的数据中发现有用的知识。数据挖掘技术应运而生。 数据挖掘就是指从数据库中发现知识的过程。包括存储和处理数据,选择处理大量数据集的算法、解释结果、使结果可视化。整个过程中支持人机交互的模式[3]。数据挖掘从许多交叉学科中得到发展,并有很好的前景。这些学科包括数据库技术、机器学习、人工智能、模式识别、统计学、模糊推理、专家系统、数据可视化、空间数据分析和高性能计算等。数据挖掘综合以上领域的理论、算法和方法,已成功应用在超市、金融、银行[4]、生产企业 [5]和电信,并有很好的表现。 软计算是能够处理现实环境中一种或多种复杂信息的方法集合。软计算的指导原则是开发利用那些不精确性、不确定性和部分真实数据的容忍技术,以获得易处理、鲁棒性好、低求解成本和更好地与实际融合的性能。通常,软计算试图寻找对精确的或不精确表述问题的近似解[6]。它是创建计算智能系统的有效工具。软计算包括模糊集、神经网络、遗传算法和粗集理论。 2 数据挖掘中的软计算方法 目前,已有多种软计算方法被应用于数据挖掘系统中,来处理一些具有挑战性的问题。软计算方法主要包括模糊逻辑、神经网络、遗传算法和粗糙集等。这些方法各具优势,它们是互补的而非竞争的,与传统的数据分析技术相比,它能使系统更加智能化,有更好的可理解性,且成本更低。下面主要对各种软计算方法及其混合算法做系统性的阐述,并着重强调它们在数据挖掘中的应用情况。 2.1 模糊逻辑 模糊逻辑是1965年由泽德引入的,它为处理不确定和不精确的问题提供了一种数学工具。模糊逻辑是最早、应用最广泛的软计算方法,模糊集技术在数据挖掘领域也占有重要地位。从数据库中挖掘知识主要考虑的是发现有兴趣的模式并以简洁、可理解的方式描述出来。模糊集可以对系统中的数据进行约简和过滤,提供了在高抽象层处理的便利。同时,数据挖掘中的数据分析经常面对多种类型的数据,即符号数据和数字数据。nauck[7]研究了新的算法,可以从同时包含符号数据和数字数据中生成混合模糊规则。数据挖掘中模糊逻辑主要应用于以下几个方面: (1)聚类。将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。聚类分析是一种重要的人类行为,通过聚类,人能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的关系。模糊集有很强的搜索能力,它对发现的结构感兴趣,这会帮助发现定性或半定性数据的依赖度。在数据挖掘中,这种能力可以帮助

数据挖掘分类算法研究综述终板

数据挖掘分类算法研究综述 程建华 (九江学院信息科学学院软件教研室九江332005 ) 摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。 关键词:数据挖掘;分类;软计算;算法 1引言 1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge DiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,Data Mining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。 基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。 2传统的数据挖掘分类方法 分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输出样本集知识的老师,但环境及其特性、模型参数等却是未知的。 2.1判定树的归纳分类 判定树是一个类似流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IFTHEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。 判定树归纳的基本算法是贪心算法,它是自顶向下递归的各个击破方式构造判定树。其中一种著名的判定树归纳算法是建立在推理系统和概念学习系统基础上的ID3算法。 2.2贝叶斯分类 贝叶斯分类是统计学的分类方法,基于贝叶斯公式即后验概率公式。朴素贝叶斯分类的分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,?X n}表示,其中X k是属性A k的值。所有的样本分为m类:C1,C2,?,C n。对于一个类别的标记未知的数据记录而言,若P(C i/X)>P(C j/X),1≤ j≤m,j≠i,也就是说,如果条件X下,数据记录属于C i类的概率大于属于其他类的概率的话,贝叶斯分类将把这条记录归类为C i类。 建立贝叶斯信念网络可以被分为两个阶段。第一阶段网络拓扑学习,即有向非循环图的——————————————————— 作者简介:程建华(1982-),女,汉族,江西九江,研究生,主要研究方向为数据挖掘、信息安全。

Fuzzy模糊数学-共5节-电子书---讲义

模糊数学 第1节模糊聚类分析 第2节模糊模式识别 第3节模糊相似优先比方法 第4节模糊综合评判 第5节模糊关系方程求解 在自然科学或社会科学研究中,存在着许多定义不很严格或者说具有模糊性的概念。这里所谓的模糊性,主要是指客观事物的差异在中间过渡中的不分明性,如某一生态条件对某种害虫、某种作物的存活或适应性可以评价为“有利、比较有利、不那么有利、不利”;灾害性霜冻气候对农业产量的影响程度为“较重、严重、很严重”,等等。这些通常是本来就属于模糊的概念,为处理分析这些“模糊”概念的数据,便产生了模糊集合论。 根据集合论的要求,一个对象对应于一个集合,要么属于,要么不属于,二者必居其一,且仅居其一。这样的集合论本身并无法处理具体的模糊概念。为处理这些模糊概念而进行的种种努力,催生了模糊数学。模糊数学的理论基础是模糊集。模糊集的理论是1965年美国自动控制专家查德(L. A. Zadeh)教授首先提出来的,近10多年来发展很快。 模糊集合论的提出虽然较晚,但目前在各个领域的应用十分广泛。实践证明,模糊数学在农业中主要用于病虫测报、种植区划、品种选育等方面,在图像识别、天气预报、地质地震、交通运输、医疗诊断、信息控制、人工智能等诸多领域的应用也已初见成效。从该学科的发展趋势来看,它具有极其强大的生命力和渗透力。 在侧重于应用的模糊数学分析中,经常应用到聚类分析、模式识别和综合评判等方法。在DPS系统中,我们将模糊数学的分析方法与一般常规统计方法区别开来,列专章介绍其分析原理及系统设计的有关功能模块程序的操作要领,供用户参考和使用。 第1节模糊聚类分析 1. 模糊集的概念 对于一个普通的集合A,空间中任一元素x,要么x∈A,要么x?A,二者必居其一。这一特征可用一个函数表示为: A x x A x A ()= ∈ ?? ? ? 1 A(x)即为集合A的特征函数。将特征函数推广到模糊集,在普通集合中只取0、1两值推广到模糊集中为[0, 1]区间。 定义1 设X为全域,若A为X上取值[0, 1]的一个函数,则称A为模糊集。 如给5个同学的性格稳重程度打分,按百分制给分,再除以100,这样给定了一个从域X={x1 , x2 , x3 , x4, x5}到[0, 1]闭区间的映射。 x1:85分,即A(x1)=0.85 x2:75分,A(x2)=0.75 x3:98分,A(x3)=0.98 x4:30分,A(x4)=0.30 x5:60分,A(x5)=0.60

数据挖掘综述

数据挖掘综述 1、产生背景 随着计算机的产生和大量数字化的存储方法的出现,我们借助计算机来收集和分类各种数据资料,但是不同存储结构存放的大量数据集合很快被淹没,便导致了结构化数据库以及DBMS的产生。 但是随着信息时代的到来,信息量远远超过了我们所能处理的范围,从商业交易数据、科学资料到卫星图片、文本报告和军事情报,以及生活中各种信息,这也就是“数据爆炸但知识贫乏”的网络时代,面对巨大的数据资料,出现了新的需求,希望能够更好的利用这些数据,进行更高层次的分析,从这些巨大的数据中提取出对我们有意义的数据,这就是知识发现(KDD,Knowledge Discovery in Databases),数据挖掘应运而生。 2、数据库系统技术的演变 1)20世纪60年代和更早 这个时期是数据收集和数据库创建的过程,原始文件的处理2)20世纪70年代---80年代初期 有层次性数据库、网状数据库、关系数据库系统 3)20世纪80年代中期—现在 高级数据库系统,可以应用在空间、时间的、多媒体的、主动的、流的和传感器的、科学的和工程的。 4)20世纪80年代后期—现在

高级数据分析:数据仓库和数据挖掘 5)20世纪90年代—现在 基于web的数据库,与信息检索和数据信息的集成6)现在---将来 新一代的集成数据域信息系统 3、数据挖掘概念 数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在的有用的,最终可以理解的模式的非平凡过程。数据挖掘,又称为数据库中知识发现(KDD,Knowledge Discovery in Databases),也有人把数据挖掘作为数据库中知识发现过程的一个基本步骤。 数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库等。 4、数据挖掘特点和任务 4.1数据挖掘具有以下几个特点: 1)处理的数据规模十分庞大,达到GB,TB数量级,甚至更大2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴 趣的东西。 3)在一些应用(如商业投资等)中,由于数据变化迅速,因此

基于matlab的数据挖掘技术研究【文献综述】

毕业论文文献综述 信息与计算科学 基于matlab的数据挖掘技术研究 数据挖掘是用于大规模数据处理的一种新的思维方式和技术手段,他是在现实生活中各种数据量呈指数级不断增长,以及以数据库(database)技术为核心的信息技术逐渐成熟的背景下产生的。数据挖掘可以帮助用户发现影藏在大型数据库中的规律和模式,它融合了人工智能(artificial intelligence)、统计(statistics)、机器学习(nachine learning)、模式识别(pattern recognition)和数据库等多种学科的理论、方法与技术,已经在商业、企业、政府、科研及体育等多种不同类型的组织机构和领域中获得了非常广泛的应用。即使在日常生活中,数据挖掘技术也已经潜移默化地参与到人们的生活质量改善过程中。 数据挖掘有很多种技术和计算方法,包括决策树方法(decision tree)、人工神经网络方法(artificial neural metwork,ANN)、聚类分析、模糊集合方法、遗传算法(genetic algorithm)、模拟退火算法(simulated annealing,SA)、进化式程序设计(evolutionary programming)等。这里主要介绍一下聚类分析、遗传算法和人工神经网络算法。 聚类分析也称无监督学习,或无教师学习,或无指导学习,因为和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定。聚类分析是研究如何在没有训练的条件下把样本划分为若干。聚类(clustering)是对物理的或抽象的样本集合分组的过程。聚类分析有很多种目标,但都涉及把一个样本集合分组或分割为子集或簇(cluster)。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。聚类分析主要针对的数据类型包括区间标度变量、二值变量、标称变量、序数型变量、比例标度型变量以及由这些变量类型构成的复合类型。聚类算法应具有以下几个特点:1处理不同字段类型的能力;2可伸缩性;3处理高维数据的能力;4发现具有任意簇的形状的族类能力;5能够处理异常数据;6对数据顺序的不敏感性;7输入参数对领域知识的弱依赖性;8聚类结果的可解释性和实用性;9增加限制条件后的聚类分析能力。 基因算法起源于对生物系统进行的计算机模拟研究,是一种受生物进化启发,使用计算机模拟生物进化的学习方法。基因算法是模拟生物进化过程的计算模型,是自然遗传学与计算机科学互相结合、互相渗透而形成的新的计算方法。基因算法的最大优点是问题求解与初始条件无关,搜索最优解的能力极强。从数学的角度看,基因算法是一种概率型搜索算法:从工程学角度看,它是一种自适应的迭代寻优过程。基因算法需要完成两种数据转换,算法实施之前进行从表现型到基因型的转换,即将搜索空间中的参数或可行解转化成遗传空间中的染色体或个体,完成编码操作;在算法

可视化空间数据挖掘研究综述

可视化空间数据挖掘研究综述 贾泽露1,2 刘耀林2 (1. 河南理工大学测绘与国土信息工程学院,焦作,454000;2. 武汉大学资源与环境科学学院,武汉,430079)摘要:空间数据挖掘针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境,可视化与空间数据挖掘的结合是该领域研究发展的必然,并已成为一个研究热点。论文综述了空间数据挖掘和可视化的研究现状,重点阐述了空间数据挖掘中的可视化化技术及其应用,并对可视化空间数据挖掘的发展趋势进行了阐述。 关键词:数据挖掘;空间数据挖掘;数据可视化;信息可视化;GIS; 空间信息获取技术的飞速发展和各种应用的广泛深入,多分辨率、多时态空间信息大量涌现,以及与之紧密相关的非空间数据的日益丰富,对海量空间信息的综合应用和处理技术提出了新的挑战,要求越来越高。空间数据挖掘技术作为一种高效处理海量地学空间数据、提高地学分析自动化和智能化水平、解决地学领域“数据爆炸、知识贫乏”问题的有效手段,已发展成为空间信息处理的关键技术。然而,传统数据挖掘“黑箱”作业过程使得用户只能被动地接受挖掘结果。可视化技术能为数据挖掘提供直观的数据输入、输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了传统数据挖掘过程“黑箱”作业的缺点,同时也大大弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度[1]。空间数据挖掘中可视化技术已由数据的空间展现逐步发展成为表现数据内在复杂结构、关系和规律的技术,由静态空间关系的可视化发展到表示系统演变过程的可视化。可视化方法不仅用于数据的理解,而且用于空间知识的呈现。可视化与空间数据挖掘的结合己成为必然,并已形成了当前空间数据挖掘1与知识发现的一个新的研究热点——可视化空间数据挖掘(Visual Spatial Data Mining,VSDM)。VSDM技术将打破传统数据挖掘算法的“封闭性”,充分利用各式各样的数据可视化技术,以一种完全开放、互动的方式支持用户结合自身专业背景参与到数据挖掘的全过程中,从而提高数据挖掘的有效性和可靠性。本文将对空间数据挖掘、可视化的研究概况,以及可视化在空间数据挖掘中的应用进行概括性回顾总结,并对未来发展趋势进行探讨。 一、空间数据挖掘研究概述 1.1 空间数据挖掘的诞生及发展 1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,从事数据库、人工智能、数理统计和可视化等技术的学者们,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念,标志着数据挖掘技术的诞生[1]。此时的数据挖掘针对的 作者1简介:贾泽露(1977,6-),男,土家族,湖北巴东人,讲师,博士,主要从事空间数据挖掘、可视化、土地信息系统智能化及GIS理论、方法与应用的研究和教学工作。 作者2简介:刘耀林(1960,9- ),男,汉族,湖北黄冈人,教授,博士,博士生导师,武汉大学资源与环境科学学院院长,现从事地理信息系统的理论、方法和应用研究和教学工作。

相关文档
最新文档