数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究
数据挖掘在中国的现状和发展研究

Vol .18,No .3

管 理 工 程 学 报

Journal of Industrial Engineering Engineering Management

2004年第3期

数据挖掘在中国的现状和发展研究

李菁菁,邵培基,黄亦潇

(电子科技大学管理学院,成都610054)

摘要:数据挖掘是人工智能和数据库研究的新兴领域,近年来,数据挖掘技术的理论与应用研究发展迅速,并引起了国内外研究人员的重视。本文以科学引文索引数据库(SCI )、工程索引数据库(EI )以及清华全文数据库(CNKI )中有关“数据挖掘”研究文章的统计数据为研究基础,对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展,并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。

关键词:数据挖掘;趋势;统计

中图分类号:C812 文献标识码:A 文章编号:1004-6062(2004)03-0010-06

收稿日期:2002-11-04 修回日期:2003-02-16

作者简介:李菁菁(1975—),女,四川安岳人,电子科技大学管理学院博士生,研究方向:信息管理、数据挖掘和决策支持等。

0 引言

近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。

中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计,对数据挖掘在中国发展的现状及发展趋势进行分析和研究,通过分析有关论文的发表,对数据挖掘在中国的理论研究和实际应用提出建议。

1 数据挖掘的应用与研究发展

数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程[1]。数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和产业界的广泛关注。

数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,Gartner Group 的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review )提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。

数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的S KICAT 系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用

之一[2];生物学研究中用数据挖掘技术对DNA 进行分析[3];

利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析[4];对银行或商业上经常发生的诈骗行为进行预测[5],IB M 公司开发的AS (Advanced Scout )系统针对NBA 的数据,帮助教练优化战术组合[6]等。

数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学以及管理信息系统等学科的成果。多学科的相互交融和相互促进,使得数据挖掘这一新学科得以蓬勃发展。

2 数据挖掘在中国的研究趋势分析

1995年在加拿大召开了第一届知识发现和数据挖掘国际学术会议,由于数据库中的数据被形象地比喻为矿床,数据挖掘一词很快流传开来。1995年以来,国外在数据挖掘和知识发现方面形成了热门研究方向,其中发表论文比较集中的期刊如:《Data Mining and Knowledge Discovery 》(数据挖掘和知识发现)、《Artificial Intelligence Review 》(人工智能评论)等。

国内学者也对数据挖掘的理论和应用进行了许多研究。本文通过对发表论文的研究成果进行统计研究,以分析数据挖掘的在中国的研究与应用,这实质上也是一种数据挖掘思想的体现,这个过程就类似于数据挖掘过程。

为了比较全面地反映中国在数据挖掘方面的研究成果及现状,笔者分别对科学引文数据库(SCI )、工程索引数据库(EI )以及清华全文期刊数据库(CNKI )进行了检索,检索内容为在中国期刊发表的相关文章以及被SCI 和EI 检索的中国有关数据挖掘方面的研究文章。这些检索的统计结果是本文研究分析的基础。

通过检索并对各年所发表的有关数据挖掘的文章进行分类归总,可以得到表1的结果。

10—

表1 有关“数据挖掘”的论文发表统计

1994~199619971998199920002001合计SCI020*******

EI0011142667118 CNKI032471168254520 通过对检索结果的分析,可以得到以下4点结论:

1)国内期刊正式发表有关数据挖掘的文章是在1997年,共发表了3篇文章,同年SCI共检索了2篇中国的数据挖掘的研究文章,在SCI数据库能够检索到的国际上发表最早的有关数据挖掘的文章是在1993年,这表明中国关于数据挖掘方面的研究在时间上与国际上差距并不大。

2)国内发表的有关数据挖掘论文的数目近年来逐年快速上升,SCI和EI所检索的文章数目也在逐年快速增加,这说明中国数据挖掘的研究近几年来迅速加强。

3)对数据挖掘的研究可以大致分为两方面:理论研究和应用研究。理论研究正在逐步深入并与解决实际问题相结合。

4)数据挖掘是一门应用性很强的学科,数据挖掘应用的领域非常广阔,几乎涉及到各个行业,包括天文学、生物学、经济管理、金融、保险、电力、石油化工、地理地质等领域。这些应用的需求就更进一步地推动了理论研究的发展。

3 数据挖掘技术的研究

对数据挖掘的理论研究主要在以下六个方面:OLAP技术、面向属性的归纳法、关联规则、分类和预测、聚类和与数据仓库的集成技术。有关研究成果见表2。

表2 有关数据挖掘技术统计表

理论研究领域SCI EI CNKI

OLAP技术0040面向属性的归纳方法019

关联规则731100

分类和预测71816

聚类31116与数据仓库集成技术0367

3.1 OLAP技术

联机分析处理(On-Line Analytical Process ing,OLAP)是关系数据库之父E.F.Codd博士在1993年提出的[9]。OLAP可以在使用多维数据模型的数据仓库或数据集市上进行,使用数据立方体结构,OLAP操作可以有效地实现。OLAP技术主要是应用隐含在数据里的领域背景知识对数据进行操作,为用户在不同的抽象层上提供数据。OLAP技术一般都是集成在数据仓库中实现的。

国内关于OLAP技术的综述性文章较多,缺少较深入的理论研究。其中一个主要原因是由于受到国内数据仓库技术的发展限制,缺少具体的实现环境。国内的研究内容主要集中在对技术和概念的介绍以及简单系统的构造应用等方面,如对OLAP、数据立方体等基本概念的介绍;对SQL server 2000中提供的OLAP的查询组件的使用等。

3.2 面向属性的归纳方法

1991年,Jiawei Han等提出了面向属性的归纳方法(Attribute-Oriented,AO)[10],这是一种有效的、完整的知识发现算法,算法的一个关键就是攀升属性所对应的概念层次树,把原始数据集的数据泛化到用户感兴趣的概念层上,减少数据集的大小,从而降低知识发现过程的计算复杂度。

国内对面向属性的归纳方法的研究比较少,研究内容主要集中在以下三方面:

1)对面向属性的归纳方法进行改进。通过引入记录阈值的概念,利用属性阈值和记录阈值同时进行控制,从而产生更好的效果[11]。

2)减少扫描次数以提高算法效率。文献[12]提出了基于规则的面向属性知识发现的无回溯算法,把背景知识理解为特殊的逻辑程序,并把它的子句展开为完全归结子句,再按用户要求,定义并确定各属性的恰当层次,各属性的多个值归纳为恰当层次中的值,只需一遍扫描,无需回溯。

3)对概念层次进行研究。提出了概念层次的自动生成方法[13]。

3.3 关联规则

关联规则的挖掘最早是由R.Agrawal等人于1993年提出。在关联规则算法的研究中,生成所有的频繁项目集是核心问题。表2中有关关联规则的文章数量较多,技术相对比较成熟,是数据挖掘领域的重点研究方向之一。根据分析,目前国内对关联规则的研究主要集中在以下3方面:

1)提高原有算法的效率

在解决最大频繁项目集的生成问题上,为了提高对空间和时间的利用效率,对数据库的扫描次数进行了缩减,由最初的两次扫描减少为一次就可以生成最大频繁集,提高了算法的效率[14]。

2)结合其它理论对关联规则进行研究

引入粗糙集概念,使关联规则发现的模式具有较高的解释能力和精确度[15]。为了解决数量关联规则提取过程中的连续属性离散化问题采用了聚类方法[16];通过引入神经网络的概念,提出用相互激活与竞争网络来进行数据库中的关联规则的发现[17]等。可以看出通过引入其他领域的先进理论,丰富了关联规则研究的内容,提高了算法的有效性。

3)不同形式关联规则的研究

关联规则最早是由购物篮分析开始的,但是随着研究的扩展和深入,关联规则的应用范围不断扩大,因此出现了多种形式关联规则的研究。由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。在基本失联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法[18],由单层的关联规则扩展为多层次关联规则的研究[19],提出了基于多维标度关联规则算法[20],其他类型的关联规则如借助正态模糊数模型,软化数量属性的划分边界,生成语言值关联规则[21],引入正态云模型来替代对属性论域的划分,提出

11

Vol.18,No.3管 理 工 程 学 报2004年第3期

了挖掘正态云关联规则的方法[22],基于关联规则的不足,还提出了转移规则[23]及其算法。另外对于关联规则挖掘指导思想也出现了变化,提出了概念指导的关联规则的挖掘算法[24]和基于概念格的关联规则的提取算法[25]。

3.4 分类和预测

分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。主要的分类方法有:决策树归纳分类法、贝叶斯分类法、后向传播分类法等。

国内对于分类和预测方法的分析和研究近几年逐渐增多,并逐渐深入。国内的分类方法研究主要集中在以下内容:

1)研究贝叶斯网络在分类方法中的应用

利用贝叶斯网络可以找出数据之间潜在的关系[26],并且可以将简单贝叶斯方法应用于增量分类中[27],这样可以增量地修正分类器参数和增量地分类测试样本。

2)结合其他理论进行算法研究

通过遗传算法,对单个分类器进行优化并对多个分类器进行组合优化[28]。通过不同的相似性度量方法,复用完全相似或者条件相似的历史序列,提出一种多策略的基于CBR的趋势预测方法[29]。

分类及预测中,神经网络技术的优点是其对噪声数据具有较高的承受能力,对未经训练的数据具有分类识别的能力。但是它的主要缺点是可解释性差,这影响了神经网络技术的使用。相对于神经网络技术,决策树技术的优点比较易于理解和解释,而它受到的典型批评是由于递归划分方式导致数据子集变小,失去了进一步划分的意义。贝叶斯分类方法从理论上讲具有最小的出错率,还可以用来为不直接使用贝叶斯定理的其他分类算法提供理论判定。其缺点主要来自于贝叶斯分类的假定,当假定成立时,与其它分类算法相比是最精确的,然而,在实践中,假定不一定总是成立。

从以上分析可以看出,不同的数据挖掘技术各有其优缺点,在实际的应用中,需要根据具体的条件选择合适的算法。

3.5 聚类

聚类是一个活跃的研究领域,聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象则差别较大,聚类算法具体可以分为:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法等。聚类分析可以用作独立的数据挖掘工具,来获得对数据分布的了解,也可以作为其它数据挖掘算法的预处理步骤。

国内对于聚类的研究与和分类预测的研究情况类似,开展比较晚,研究主要方向包括:

1)对已经提出来的聚类算法进行分析和完善

在原有的DBSCAN算法的基础上,以核心对象邻域中所有对象的代表对象为种子对象来扩展类,提出了FDBSCAN 算法,该算法能够有效地对大规模数据库进行聚类,速度上数倍于DBSCAN[30],对原DBSCAN算法进行改进,提出了基于数据分区的DBSCAN算法,提高了聚类速度,改善了聚类质量[31]。

2)概念聚类的研究

概念聚类适用于领域知识不完整或领域知识缺乏时的数据挖掘任务。通过定义一种基于语义的距离判定函数,提出了一种动态概念聚类的算法,该算法能够自动确定聚类数目,依据聚类内部属性值的频繁程度修正聚类中心,通过概念归纳处理,用概念合取表达式解释聚类输出[32]。

3)孤立点分析

孤立点是指一些不符合数据的一般模型的数据对象。常用的方法有基于统计的方法、基于距离的方法和基于偏离的方法。文献[33]提出了一种基于超图模型的离群点定义,同时给出了HOT(hypergraph-based outlier test)算法,通过计算每个点的支持度、隶属度和规模偏差来检测离群点。该算法既能够处理数值属性,又能够处理类别属性。

4)复杂聚类方法的研究

目前聚类研究主要集中在对复杂聚类方法上,如对高维数据的可视化聚类方法[34],以及基于大规模交易数据库的二次聚类聚类算法———CATD。该算法只需扫描一次数据库,聚类过程在内存中进行,因此能处理大规模的数据库[35]。

聚类的各种方法的主要区别在于实现算法的思想不同,聚类的各种方法各有其优缺点,算法的选择取决于数据的类型、聚类的目的和应用。一些聚类算法可能集成了多种聚类算法的思想,此外,某些应用可能有特定的聚类标准,要求综合使用多种聚类技术。

3.6 与数据仓库的集成技术研究

目前比较通用的对数据仓库的定义是W.H.Inmon在1996年提出的,他认为数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。

数据仓库为数据挖掘提供了更广阔的活动空间。数据仓库完成了数据的收集、集成、存储、管理等工作,数据挖掘面对的是经初步加工的数据,使得数据挖掘能更专注于知识的发现。数据仓库具有不同于数据库的新特点,并对数据挖掘技术提出了更高的要求,数据挖掘技术要充分发挥潜力,就必须和数据仓库的发展结合起来。

国内在该领域的研究时间较短,相关的研究集中在简单介绍和一般系统的结构设计上。

目前数据仓库的供应商很多,比较著名的有IBM、Oracle、Sybase、微软等。IB M和Oracle等公司的数据仓库技术中含有不同的策略和算法,以IB M和Oracle为例,IB M在其数据仓库系统中集成了Intelligent Miner能够进行典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作。Oracle集成了Oracle Darwin系统,这是基于数据仓库的数据挖掘工具,具有简单易用的图形化界面,能够提供决策树、神经网络等多种数据挖掘方法,支持海量数据的并行处理,分析结果可以和现有系统集成应用。这些表明了数据挖掘技术集成应用是十分必要的,也是今后发展的大趋势。

12

李菁菁等:数据挖掘在中国的现状和发展研究

4 数据挖掘研究分支方向

在现实世界中,数据具有各种各样的复杂形式,对于结构化数据的挖掘处理,已经进行了很多研究,技术相对比较成熟。近年来,复杂数据的挖掘引起了研究人员的重视,并成为数据挖掘中日益重要的研究内容,数据挖掘研究因此衍生了一些研究分支方向。

国内在该领域研究的文章较少,通过对数据库进行查询,可以得到表3。

表3 数据挖掘研究分支研究统计表

数据挖掘研究分支SCI EI CNKI 空间数据挖掘126

多媒体数据挖掘012时序数据和序列数据挖掘348文本数据挖掘125

Web数据挖掘186

4.1 空间数据挖掘

空间数据挖掘是指从对空间数据库中非显式存在的知识、空间关系或其他有意义的模式等提取。空间数据挖掘包括空间数据描述、分类、关联、聚类、和空间趋势和孤立点分析。关于空间数据挖掘算法的较综合的介绍可以参见文献[36]。

通过SCI检索能够查到的最早的关于空间数据挖掘的文章是1995年发表的,所收录的最早的中国相关的文章是在2001年发表的,通过EI检索能够查到的最早的关于空间数据挖掘的文章是1997年发表的,所收录的最早的中国相关的文章是在2000年发表的。

国内在该领域的研究中,概念介绍性文章比较多,这一方面的研究还有待加强。

4.2 多媒体数据挖掘

多媒体数据挖掘是指从多媒体数据库中发现有意义的模式,多媒体数据库存储和管理大量多媒体对象,包括音频数据、图像数据、视频数据、序列数据以及包含有文本、文本标记、链接的超文本数据。多媒体数据挖掘研究的问题,包括基于内容的检索和相似度搜索、概化和多维分析、分类和预测分析,以及多媒体数据中的关联挖掘。

通过SCI检索能够查到的最早的关于多媒体数据挖掘的文章是1998年发表的,通过EI检索能够查到的最早的关于多媒体数据挖掘的文章是1997年发表的,所收录的最早的中国相关的文章是在2001年发表的。

国内对于多媒体数据挖掘的研究比较少,多媒体数据挖掘、文本挖掘和Web挖掘既有区别又有联系,多媒体文本数据挖掘过程有自己的模型及特征[37],文献[38]提出了数据挖掘系统原型MDMP的媒体特征库特征与建立特征库的方法。

4.3 时序数据和序列数据的挖掘

时序数据库是指由随时间变化的序列值或事件组成的数据库,序列数据库是指由有序事件序列组成的数据库。时序和序列数据挖掘的研究内容包括趋势分析、在时序分析中的相似度搜索、和与时间相关数据中序列模式和循环模式的挖掘。

通过SCI检索能够查到的最早的关于时序数据和序列数据挖掘的文章是1997年发表的,所收录的最早的中国相关的文章是在1999年发表的,通过EI检索能够查到的最早的关于时序数据和序列数据的挖掘的文章是1998年发表的,所收录的最早的中国相关的文章是在1998年发表的。

国内对于时序数据的研究比较少,使用的方法和技术主要有工神经网络技术,利用它预测和处理混沌观测时间序列能达到较高的精度[39]。此外还有通过对时序数据进行离散傅立叶变换将其从时域空间变换到频域空间,将时序数据映射为多维空间的点,在此基础上,提出一种新的基于距离的离群数据挖掘算法[40]。

国内对于序贯模式的研究起步较早,在单层序贯模式的基础上将序贯模式的发现从单层概念扩展到多层概念,提出了发现广义序贯模式的自顶向下逐层递进的方法[41]。为了解决由于最低支持的改变而引起了广义序贯模式的维护问题,提出了一种称为FAST的增量式更新技术[42]。

4.4 文本数据挖掘

大量可获得的信息是存储在文本或文档数据库中,包含丰富的文档内容,如新闻文章、技术论文、书籍、数字图书馆、电子邮件信息等。文本挖掘超出了基于关键字和基于相似度的信息检索范畴,它利用基于关键字的关联和文档分类的方法从半结构化文本数据中发现知识。

通过SCI检索能够查到的最早的关于文本数据挖掘的文章是1997年发表的,所收录的最早的中国相关的文章是在2000年发表的,通过EI检索能够查到的最早的关于文本数据挖掘的文章是1998年发表的,所收录的最早的中国相关的文章是在2000年发表的。

国内在该领域的研究文章数量很少,一般的研究思路是在结构化数据挖掘技术的基础上将半结构化和非结构化的数据转化为结构化数据再进行挖掘分析,如树形分层数据库方法[43]等。

4.5 Web数据挖掘

Web数据挖掘涉及新闻、消费信息、金融管理、教育、政府等等服务,包含了丰富的动态链接信息和访问及使用信息。Web挖掘包括Web链接结构、Web内容和Web访问模式的挖掘。关于Web数据挖掘技术发展研究可以参见文献[44]。

通过SCI检索能够查到的最早的关于Web数据挖掘的文章是1997年发表的,所收录的最早的中国相关的文章是在2001年发表的,通过EI检索能够查到的最早的关于Web 数据挖掘的文章是1998年发表的,所收录的最早的中国相关的文章是在1999年发表的。

国内对于Web数据挖掘的研究较少,主要集中在方法的探讨上,如针对超文本结构中的结构特征,提出了用Naive Bayes方法进行分类的方法[45];基于时态数据库,以Web数

13

Vol.18,No.3管 理 工 程 学 报2004年第3期

据拟周期采掘任务为背景,提出了属性趋势、趋势惯量和峰谷链、抗干扰的惯性趋势算法和峰谷算法,对拟周期采掘给出一种解决方法[46];利用服务器日志文件,运用N元(N-gram)预测模型对用户未来可能进行的Web访问请求进行预测[47]等。

5 促进数据挖掘在中国发展的建议

通过上述分析研究,可以看出国内学者己对数据挖掘进行了多方面的研究,并取得了一定的研究成果。为进一步推动数据挖掘在中国的理论研究与实践应用,本文提出以下建议:

1)加强对复杂数据的挖掘技术的研究,目前数据挖掘的所处理的数据类型已经由简单的结构化数据发展到复杂的半结构化数据及非结构化数据,并且由单维、低维上升为多维、高维。数据挖掘技术发展的整体趋势由处理简单的挖掘问题逐步到解决复杂的挖掘问题。

2)加强对数据挖掘应用系统和对算法测试的研究。目前国内关于数据挖掘理论研究较多,但对数据挖掘应用系统和算法测试的研究方面较少,在算法的性能改进方面,可以采用国际上相关研究所采用的相同数据集对现有的算法和新改进的算法进行对比测试,以检验新算法的合理性和有效性。除了选择人工测试数据集外最好能够采用真实测试数据集。

3)加强对挖掘结果的有效性研究。由于计算机软硬件技术的快速发展,今后的算法研究将更多的集中在挖掘结果的有效性上,现在的一些算法所花费的时间已以秒计算了,但是其挖掘结果的数量却远远超出了可以理解的范围。对于挖掘结果的有效性需要有科学的方法加以评估。此外提高算法的可伸缩性、对算法的动态维护和基于约束的挖掘算法等也都是主要的研究方向。

4)多种数据挖掘方法的结合使用。数据挖掘的方法各有其优缺点,很多模式,特别是与分类有关的模式,可以用不同的算法来实现,以适应不同的需求环境。因此集成的数据挖掘系统应该能够提供多种途径来解决复杂问题。

5)重视数据挖掘技术的实际应用。目前国内有关应用的成功案例较少。有关方面可以借鉴其他先进国家的经验,引入成功系统进行本土化研究等。实际数据挖掘应用的开发有助于对数据挖掘的理解,从而更好地改进数据挖掘的技术。

6)随着数据仓库技术的进一步发展,并行分布式数据挖掘算法的研究需要加强。

7)加强人机交互能力的完善解释机制。需要把用户所要解决的问题方便地转化为数据挖掘技术人员能够理解并解决的问题,并将挖掘结果以用户能理解的方式表达出来。对算法的研究也将趋向于简单化和易于理解。

8)多语言挖掘,对于处理多种语言的工具研究。

9)保护隐私权的研究。数据挖掘能从不同的角度及层次上看待数据,这将有可能影响数据的私有性和安全性,如何在保护隐私权的情况下又能够进行充分的数据挖掘是一个重要的研究方向。

另外需要指出的是,中国在技术研究中对技术本身研究较多,而对技术经济问题研究较少。数据挖掘技术归根结底是一种手段或工具,对于数据挖掘技术的研究是为了更好的促进社会经济的发展。如何对数据挖掘技术系统进行有效的管理和利用是一个值得关注的重要问题。

6 结束语

数据挖掘技术是一个年轻而充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。

本文通过对科学引文数据库SCI、工程索引数据库EI以及清华全文期刊数据库CNKI进行全面查询,通过对有关数据挖掘的文章的统计,分析和研究了国内数据挖掘技术的现状,并对未来发展提了建议。

通过本文的研究可以看出,中国数据挖掘技术的研究取得了一定的成果,但是数据挖掘技术研究仍然面临着许多问题和挑战,还存在许多问题等待我们去探索和研究。

参考文献

[1] Jia wei Han.数据挖掘概念与技术[M].北京:机械工业出版社,

2001.3~5.

[2] Fayyad U.Data mining and kno w l edge discovery in databases

implications for scientific databas es[A].Scientific and Statis tical

Database Manage ment,Proceedings,Ninth International Conference on

[C],IEEE,1997.2~11.

[3] Cheng QM,J as on TL.Wang,et al.DN A s equence clas sificati on via

an expectation maxi miz ation algorithm and neural net works:a case

study.Systems,Man and Cybernetics,Part C:Applications and

Reviews[J].IEEE Trans actions on,2001,31(4):468~475.

[4] Adomavicius G,Tuz hilin https://www.360docs.net/doc/ee3299516.html,ing data mining methods t o build

cus tomer profiles[J].Computer,2001,34(2):74~82.

[5] Syeda M,Yan QZ,Pan Y.Parallel granular neural networks for fast

credit card fraud detection.Fuzz y Syste ms[A].Proceedings of the

2002IEEE International Conference[C],2002.1:572~577.

[6] Bhandari,Inderpal,Col et,et al.Advanced Scount:data mining and

knowledge disc overy in NBA data[J].Data M ining and Knowledge

Discovery,1997,1(1):121~125.

[7] 余正环,过泉生,俞蓓华,等.自备电厂的火电厂值长监视与管

理平台系统[J].宝钢技术,1997,4:28~32.

[8] 肖利,金远平,徐宏炳,等.一个新的挖掘广义关联规则算法

[J].东南大学学报,1997,27(11):76~81.

[9] Codd EF,Codd SB,Salley CT.Beyond decis ion s upport[N].

Computer Worl d,27,Jul y1993.

[10] Cai Y,Cercone N,Han J.Attribute-oriented induction in relational

databas e[J].Knowledge Discovery in Databases,MA:AAA/MIT

press,1991.213~228.

[11] 陈红梅,王丽珍.面向属性的量化归纳[J].计算机研究与发

展,2001,38(2):150~156.

14

李菁菁等:数据挖掘在中国的现状和发展研究

[12] 周生炳,张钹,成栋.基于规则面向属性的数据库归纳的无回

溯算法[J].软件学报,1999,10(7):673~678.

[13] 蒋嵘,李德毅,范建华.数值型数据的泛概念树的自动生成方

法[J].计算机学报,2000,23(5):470~476.

[14] 毛国君,刘椿年.基于项目序列集操作的关联规则挖掘算法

[J].计算机学报,2002,25(4):417~422.

[15] 程岩,黄梯云.粗糙集中定量关联规则的发现及其规则约简的

方法研究[J].管理工程学报,2001,15(3):73~77.

[16] 苑森淼,程晓青.数量关联规则发现中的聚类方法研究[J].计

算机学报,2000,23(8):867~871.

[17] 倪志伟,蔡庆生,方瑾.用神经网络来挖掘数据库中的关联规

则[J].系统仿真学报,2000,12(6):685~687.

[18] 陆建江.数据库中布尔型及广义模糊型加权关联规则的挖掘

[J].系统工程理论与实践,2002,2:28~32.

[19] 程继华,施鹏飞.多层次关联规则的有效挖掘算法[J].软件学

报,1998,9(12):937~941.

[20] 肖利,金远平,徐宏炳,等.基于多维标度的快速挖掘关联规

则[J].软件学报,1997,10(7):749~753.

[21] 陆建江,宋自林,钱祖平.挖掘语言值关联规则[J].软件学报,

2001,12(4):607~611.

[22] 陆建江,钱祖平,宋自林.正态云关联规则在预测中的应用

[J].计算机研究与发展,2000,37(11):1317~1320.

[23] 肖利,王能斌,徐宏炳,等.挖掘转移规则:一种新的数据挖掘

技术[J].计算机研究与发展,1998,35(10):902~906. [24] 程继华,施鹏飞.概念指导的关联规则的挖掘[J].计算机研究

与发展,1999,36(9):1092~1096.

[25] 谢志鹏,刘宗田.概念格与关联规则发现[J].计算机研究与发

展,2000,37(12):1415~1421.

[26] 慕春棣,戴剑彬,叶俊.用于数据挖掘的贝叶斯网络[J].软件

学报,2000,11(5):660~666.

[27] 宫秀军,刘少辉,史忠植.一种增量贝叶斯分类模型[J].计算

机学报,2002,25(6):645~650.

[28] 季文,周傲英,张亮,等.一种基于遗传算法的优化分类器

的方法[J].软件学报,2002,13(2):245~249.

[29] 时施仁,史忠植.基于CBR的中心渔场预报[J].高技术通讯,

2001,5:64~68.

[30] 周水庚,周傲英,金文,等.FDBSCA N:一种快速DBSCAN算法

[J].软件学报,2000,11(6):735~744.

[31] 周水庚,周傲类,曹晶.基于数据分区的DBSCAN算法[J].计

算机研究与发展,2000,37(10):1153~1159.

[32] 郭建生,赵奕,施鹏飞.一种有效的用于数据挖掘的动态概念

聚类算法[J].软件学报,2001,12(4):582~591.

[33] 魏藜,宫学庆,钱卫宁,等.高维空间中的离群点发现[J].软件

学报,2002,13(2):280~290.

[34] 俞蓓,王军,叶施仁.基于近邻方法的高维数据可视化聚类方

法[J].计算机研究与发展,2000,37(6):714~720.

[35] 陈宁,陈安,周龙骧.大规模交易数据库的一种有效聚类算法

[J].软件学报,2001,12(4):475~484.

[36] Es ter M,Peter KH,Sander J.Al gorithms and applications for spatial

data mining[Z].Invited chapter for Geographic Data M ining and

Knowledge Discovery,Res earch Monographs in GIS,Ta ylor and

Francis,2001.1~32.

[37] 刘茂福,曹加恒,彭敏等.多媒体文本数据的模式挖掘方法

[J].武汉大学学报(理学版),2001,47(3):321~323.

[38] 曹加恒,张凯,舒风笛等.多媒体数据挖掘的相关媒体特征库

方法[J].武汉大学学报,2000,46(5):571~574.

[39] 臧洌.人工神经网络在混沌观测时序数据处理中的应用[J].

数据采集与处理,2001,16(4):486~489.

[40] 郑斌祥,杜秀华,席裕庚.一种时序数据的离群数据挖掘新算

法[J].控制与决策,2002,17(3):324~327.

[41] 欧阳为民,蔡庆生.在数据库中自动发现广义序贯模式[J].软

件学报,1997,8(11):864~870.

[42] 欧阳为民,蔡庆生.发现广义序贯模式的增量式更新技术[J].

软件学报,1998,9(10):777~780.

[43] 陈玉泉,朱锡钧,陆汝占.文本数据的数据挖掘算法[J].上海

交通大学学报,2000,34(7):936~938.

[44] Kosala R,Blockeel H.Web mining researc h:a survey[J].SIGKDD

Explorations,2000,2(1):1~15.

[45] 范焱,郑诚,王清毅,等.用Naive Ba yes方法协调分类Web网页

[J].软件学报,2001,12(9):1386~1392.

[46] 唐常杰,于中华,游志胜,等.基于时态数据库的Web数据周期

规律的采掘[J].计算机学报,2000,23(1):52~59.

[47] 苏中,马少平,杨强,等.基于Web-log Mining的N元预测模型

[J].软件学报,2002,13(1):136~141.

The Research about C urrent Situation and Development of Data Mining in China

LI Jing-jing,SHAO Pei-ji,HUANG Yi-xiao

(School of Management,Univers ity of Electronic Science and Technology of China,Chengdu610054,China)

A bstract:Data mining technology is one of the most active and exciting research areas in Artificial Intelligence and databases.Recently,its develop ment of theoretical research and practical application is very fast,and attracts many researchers all over the world.Based on the statistic data and data mining from the SCI、EI and Tsinghua CNKI database,this paper analyses and studies the following data mining issues: the current situation and trends,the hot issues and the main research directions.In the end of this paper,we prospect the research and develop ment about data mining in China and give some suggestions about data mining theoretical research and practical application.

Key words:Data Mining;trend;statistic

责任编辑:许冠南

15

Vol.18,No.3管 理 工 程 学 报2004年第3期

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

GIS技术的研究现状及未来发展趋势.

GIS 技术的研究现状及未来发展趋势 摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。 关键词:GIS 研究现状发展趋势 0 引言 随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状 世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

数据挖掘工具应用及前景分析

数据挖掘工具应用及前景

介绍以下数据挖掘工具分别为: 1、 Intelligent Miner 2、 SAS Enterpreise Miner 3、SPSS Clementine 4、马克威分析系统 5、GDM Intelligent Miner 一、综述:IBM的Exterprise Miner简单易用,是理解数据挖掘的好的开始。能处理大数据量的挖掘,功能一般,可能仅满足要求.没有数据探索功能。与其他软件接口差,只能用DB2,连接DB2以外的数据库时,如Oracle, SAS, SPSS需要安装DataJoiner作为中间软件。难以发布。结果美观,但同样不好理解。 二、基本内容:一个挖掘项目可有多个发掘库组成;每个发掘库包含多个对象和函数对象: 数据:由函数使用的输入数据的名称和位置。 离散化:将记录分至明显可识别的组中的分发操作。 名称映射:映射至类别字段名的值的规范。 结果:由函数创建的结果的名称和位置。 分类:在一个项目的不同类别之间的关联层次或点阵。 值映射:映射至其它值的规范。 函数: 发掘:单个发掘函数的参数。 预处理:单个预处理函数的参数。 序列:可以在指定序列中启动的几个函数的规范。 统计:单个统计函数的参数。 统计方法和挖掘算法:单变量曲线,双变量统计,线性回归,因子分析,主变量分析,分类,分群,关联,相似序列,序列模式,预测等。 处理的数据类型:结构化数据(如:数据库表,数据库视图,平面文件) 和半结构化或非结构化数据(如:顾客信件,在线服务,传真,电子邮件,网页等) 。 架构:它采取客户/服务器(C/S)架构,并且它的API提供了C++类和方法 Intelligent Miner通过其独有的世界领先技术,例如自动生成典型数据集、发现关联、发现序列规律、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据挖掘和结果呈现这一整套数据挖掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。 三、现状:现在,IBM的Intelligent Miner已形成系列,它帮助用户从企业数据资产中 识别和提炼有价值的信息。它包括分析软件工具——Intelligent Miner for Data和IBM Intelligent Miner forText ,帮助企业选取以前未知的、有效的、可行的业务知识——

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。 关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势 Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining. Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency 1引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 江西理工大学

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用* 戴晓燕1 过仲阳1 李勤奋2 吴健平1 (1华东师范大学教育部地球信息科学实验室 上海 200062) (2上海市地质调查研究院 上海 200072) 摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 关键词 空间聚类 K-均值法 散度 1 前言 随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。 空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。 空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。 本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2 划分法 设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— *基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学 地理系硕士研究生,主要从事空间数 据挖掘的研究。 · 41 · 2003年第4期 上海地质 Shanghai Geology

数据挖掘研究的现状与发展趋势_郑继刚

数据挖掘研究的现状与发展趋势 郑继刚,王边疆 (保山学院数学系,云南保山678000) 影响其空间分布的因素之间的关系;预测型的模 型用来根据给定的一些属性预测某些属性,如分类模 型和回归模型等. 目前,主要在空间数据挖掘的体系结构和挖掘过 程做了大量研究,包括面向对象的空间数据库的数据 挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类 挖掘、挖掘空间数据的偏离和演变规则、基于多专题 地图的挖掘、交叉概化、基于时空数据的概化、并行数 据挖掘、统计分析与数据挖掘的协同和遥感影像的挖 掘等,主要采用了基于统计学和概率论、集合论、机器 学习、仿生物学、地球信息学的研究方法. 4.2多媒体数据挖掘 多媒体数据,包括图形、图像、文本、文档、超文 本、声音、视频和音频数据等,数据类型复杂.随着信 息技术的进步,人们所接触的数据形式越来越丰富, 多媒体数据的大量涌现,形成了很多海量的多媒体数 据库[8].这些数据大多是非结构化数据、异构数据, 特征向量通常是数十维甚至数百维,转化为结构数据 和降维成了多媒体数据挖掘的关键技术. 有研究者提出了多媒体数据挖掘的系统原型 MDMP,将多媒体数据的建模表示、存储和检索等多 媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联 规则挖掘、分类与聚类分析等挖掘方法,广泛地应用 于医学影像诊断分析、卫星图片分析、地下矿藏预测 等各种领域. 4.3时序数据挖掘 时序数据挖掘通过研究信息的时间特性,深入洞 悉事物进化的机制,揭示其内在规律(如波动的周期、 振幅、趋势的种类等),成为获得知识的有效途径.关 键问题是要是寻找一种合适的序列表示方式,基于点 距离和关键点是常用的算法,但都不能完整表示出序 列的动态属性.时序数据挖掘的主要技术有趋势分析 和相似搜索,在宏观的经济预测、市场营销、客流量分 析、太阳黑子数、月降水量、河流流量、股票价格波动 等众多领域得到了应用.

文献综述_数据挖掘

数据挖掘简介 数据挖掘的任务 数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP,onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet,以及IBM公司的决策分析工具都使用了多维数据分析技术。 采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。数据挖掘的分类 数据挖掘所能发现的知识有如下几种: .广义型知识,反映同类事物共同性质的知识; .特征型知识,反映事物各方面的特征知识; .差异型知识,反映不同事物之间属性差别的知识; .关联型知识,反映事物之间依赖或关联的知识; .预测型知识,根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。 数据挖掘的方法 数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受,即不管你选择哪种方法,总存在着某种协定。因此对实际情况,应该具体分析,根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐,也没

数据挖掘现状与前景

数据挖掘,这是个听起来既神秘,又具有诱惑性的词。就好像要去一片热带沙漠搜寻宝藏,宝藏的诱惑性很强,但是黄沙远处却看不透彻,不知此行是对是错,看到的光亮又是否只是虚幻的海市蜃楼。 所以很多学习数据挖掘的,或是想选择数据挖掘方向的人会在是否踏出第一脚时犹豫不决。 以下,我们就来分析看看数据挖掘的现状及前景。 首先看看百科中数据挖掘的定义:数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。 基于数据挖掘可能产生的巨大价值,我国的各大重点院校都针对数据挖掘开了专业课程以及研究课题,不仅如此,政府以及大型企业也开始重视这一领域,投资人力物力支持数据挖掘项目。 或许这样说还不够直观,那就就数字佐证。 据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。 国外如此,那中国呢? 随着我国信息化的发展,数据的积累及计算机的广泛应用,加上来自外资企业商业智能数据挖掘应用带来的竞争压力,商业智能及数据挖掘也逐渐在中国也形成了一个产业。随着成功案例的增多,不仅仅是金融保险电信等行业或是政府机构,中小企业也逐渐将商业智能应用于业务之中。 信息化时代数据的潜力不容小觑,IT部门一直是企业的核心,而数据挖掘技术更是得到了前所未有的重视和期待。目前我国数据挖掘、商业智能技术的人才培养体系还未健全,而企业对这方面的需求却一直在增长。数据知识发展为核心竞争力是现在及未来必然的形势。因此数据挖掘、商业智能行业的前景还是非常可观的。 所以,请坚定勇敢地踏出迈向数据挖掘的那一步吧,然后扎实地学好所需的知识理论及实践技巧,最后所收获到的,或许比你所期待的还多。

数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究 导读:本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础,对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展,并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。 关键字:数据挖掘 0 引言 近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。 中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计,对数据挖掘在中国发展的现状及发展趋势进行分析和研究,通过分析有关论文的发表,对数据挖掘在中国的理论研究和实际应用提出建议。 1 数据挖掘的应用与研究发展 数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和产业界的广泛关注。 数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。 数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或商业上经常发生的诈骗行为进行预测IBM公司

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

数据挖掘文献综述

湘潭大学 本科生专业文献综述 题目: 数据挖掘文献综述 姓名: 林勇 学院: 信心工程学院学院 专业: 自动化 班级: 一班 学号: 2010550113 指导教师: 张莹

0前言 随着计算机技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务 数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类: (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取

数据挖掘研究及发展现状

数据挖掘技术的研究现状及发展方向 摘要:数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展方向。 关键词:数据挖掘;神经网络;决策树;粗糙集;模糊集;研究现状;发展方向 The present situation and future direction of the data mining technology research Abstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advantages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international research situation and focus of data mining in details, and pointed out the development trend of data mining. Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development direction 0 引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖,从而达到为决策服务的目的。在这种情况下,一个新的技术——数据挖掘(Data Mining,DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。 数据挖掘通常又称数据库中的知识发现(Knowledge Discovery in Databases),是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 1 数据挖掘算法 数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。 数据选择:确定发现任务的操作对象,即目标对象; 预处理:包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等; 转换:消减数据维数或降维; 数据开采:确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等,并确定使用什么样的开采算法; 解释和评价:数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用。十大经典算法如图2: 目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

数据挖掘分类算法研究综述终板

数据挖掘分类算法研究综述 程建华 (九江学院信息科学学院软件教研室九江332005 ) 摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。 关键词:数据挖掘;分类;软计算;算法 1引言 1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge DiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,Data Mining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。 基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。 2传统的数据挖掘分类方法 分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输出样本集知识的老师,但环境及其特性、模型参数等却是未知的。 2.1判定树的归纳分类 判定树是一个类似流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IFTHEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。 判定树归纳的基本算法是贪心算法,它是自顶向下递归的各个击破方式构造判定树。其中一种著名的判定树归纳算法是建立在推理系统和概念学习系统基础上的ID3算法。 2.2贝叶斯分类 贝叶斯分类是统计学的分类方法,基于贝叶斯公式即后验概率公式。朴素贝叶斯分类的分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,?X n}表示,其中X k是属性A k的值。所有的样本分为m类:C1,C2,?,C n。对于一个类别的标记未知的数据记录而言,若P(C i/X)>P(C j/X),1≤ j≤m,j≠i,也就是说,如果条件X下,数据记录属于C i类的概率大于属于其他类的概率的话,贝叶斯分类将把这条记录归类为C i类。 建立贝叶斯信念网络可以被分为两个阶段。第一阶段网络拓扑学习,即有向非循环图的——————————————————— 作者简介:程建华(1982-),女,汉族,江西九江,研究生,主要研究方向为数据挖掘、信息安全。

数据挖掘在中国的现状和发展研究.

万方数据 万方数据 万方数据 万方数据 万方数据 Vo.l18.N.o3管理工程学报2004年第3期圈回[l4j网[l6j皿[lsj[l9j厂.Ll周生炳,张钱,成栋.于规则面向属性的数据库归纳的无回基溯算法[7软件学报,9,()63681.1917:7一7.90蒋嵘,李德毅,范建华.数值型

数据的泛概念树的自动生成方法【1计算机学报,0,()4046i.2025:一7.037一」一一尸十勺,1,刁[7软件学报,0,()7574J.2016:一4.013周水庚,周傲类,曹晶.基于数据分区的DSABCN算法【l计J.算机研究与发展,0,0)13192030:一1.07155「一-,,‘ ,郭建生,,赵奕施鹏飞一种有效的用于数据挖掘的动态概念毛国君,椿年.于项目序列集操作的关联规则挖掘算法刘基]i计算机学报,0,()4742I.2224:1一2.05IL尸聚类算法[l软件学报,0,()一9.J.2114:2510258内、内j「一一J魏李,宫学庆,钱卫宁,高维空间中的离群点发现〔l软件等.J.学报,0,32:8一9.221()20200门仁」程岩,黄梯云.粗糙集中定量关联规则的发现及其规则约简的方法研究【〕管理工程学报,0,()7-7J2113:7.053esLF飞)4俞蓓,王军,叶施仁.基于近邻方法的高维数据可视化聚类方苑森森,程晓青,数量关联规则发现中的聚类方法研究【l计i.法〔7计算机研究与发展,0,()747.J.2036:-07120r..L算机学报,0,()87812028:一7.036倪志伟,蔡庆生,方瑾.用神经网络来挖掘数据库中的关联规内、〕‘ 一一J「陈宁,陈安,周龙骥.大规模交易数据库的一种有效聚类算法[7软件学报,0,()4544J.2114:7一8.02L则【l系统仿真学报,0,()65671.2016:-.0288J内几6lesEtM,rSneJAgimadlaosstlsrPtKadrlrhsapcifpieeH,e.tonpitnoaar陆建江.数据库中布尔型及广义模糊型加权关联规则的挖掘dai仁lIicprGoaiDtMngamnZ.vehtferhainatignntaeogpcaindrdKolgDsvr,eroorhiGSTyrdnweeceRscMngpsI,ladioyeahanaonFacs20.一3.rni,112

关于数据挖掘研究现状及发展趋势的探究_任新社

171 关于数据挖掘研究现状及发展趋势的探究 任新社1,陈静远2 (1.河南大学商学院,河南开封475004;2.郑州铁路职业技术学院网络信息技术中心, 河南郑州463000)摘要:随着计算机信息技术的快速发展,网络信息数据呈现爆发式增长,尤其是商业、企业等积累的海量数据,这 些信息包含了多种类型,传统的数据检索技术已经难以满足用户的使用需求。数据挖掘技术可以帮助人们迅速查找自己所需的资料,数据挖掘技术是人工智能、统计学、数据库技术、信息检索技术等多门学科的完美融合。目前,我国关于数据挖掘技术的研究较少,很多研究成果难以直接应用,文章将深入地研究我国数据挖掘技术的现状与趋势。关键词:数据挖掘;程序算法;研究现状;发展方向中图分类号:TP311.13文献标识码:A 文章编号:1673-1131(2016)02-0171-02 0引言 21世纪是计算机信息技术的新纪元,网络上的资源呈现指数增长趋势,这些信息覆盖了很多具有价值得信息数据,包括商业信息、科研信息、技术信息等,当相对于海量的网络信息数据,对客户有价值的数据仍然十分有限。传统的信息检索技术具有一定局限性,对用户有一定专业要求,数据挖掘技术可以对信息数据进行快速、高效、准确的分析,提取网络信息数据的有用知识,数据挖掘技术是多学科的交叉,建立在低级的数据检索技术之上。 1数据挖掘技术简介 数据挖掘技术(Data Mining ,DM )又称为数据采矿、资料 勘查,数据挖掘技术属于数据库知识发现(Knowledge-Dis-covery in Databases ,KDD )的重要环节之一,数据挖掘技术的主要目的是从海量网络数据中发掘潜在的高价值数据。数据挖掘技术是伴随计算机技术发展而来的,需要通过统计学、人工智能、识别模式等多种方式来实现。数据挖掘技术主要应用了如下理论: 建模技术、人工智能、模式识别与机器学习的搜索算 法。数据库知识发现的过程由多个步骤组成,具体的流程如图1 所示。 图1数据库知识发现的具体流程 数据库知识发现的具体流程如下:①领域学习,选择某个特定领域,学习该领域应用的预先知识以及目标;②目标数据,通过选择一个或者多个数据集合进行聚焦,从而建立一个目标数据集;③清理与预处理,对目标数据集进行除噪处理,去除数据集中的无关数据,同时将时间顺序与数据变化纳入模型中;④数据转换,对数据特征与规律进行研究,并根据数据的规律特征进行编码,编码时尽量减少模型中的变量;⑤建立数据挖掘模型,明确数据挖掘的目的,根据数据挖掘的目的建立模型,常见的数据挖掘模型包括数据汇总、数据分类、数据聚合等;⑥数据挖掘,利用已经建立的数据挖掘模型对特定的数据进行挖掘;⑦解释,解释数据挖掘的过程以及发现的数据类型,去掉无价值的数据,将数据进行综合,汇总转化成所需的知识;⑧评估数据,将挖掘的数据用于实际应用之中,检验评估数据的有效性。 2数据挖掘技术的发展史 数据挖掘技术主要经历了四个阶段: 上世纪90年 代,Web 技术的创新,导致网络信息呈现爆炸式增长,很多企业处于粗放式营销模式,该阶段的数据挖掘技术已经成为可以集成数据库,系统支持多种挖掘模型同时运行; 第四个阶段是全程电子商务阶段,SaaS 软件服务模式的出现延长了电子商务产业链,原始数据挖掘技术成为一门独立的学科,该阶段的数据挖掘技术将移动数据以及各种计算设备的数据进行了有机融合。数据挖掘技术的历程介绍如表1所示。 表1 各个阶段的数据挖掘技术介绍 3数据挖掘技术的成果 目前,我国数据挖掘技术研究已经取得了巨大的成果,常用的数据挖掘模型包括神经网络模型、决策树模型、遗传算法模型、粗糙集模型、模糊集模型、关联规则模型等。 (1)神经网络模型是建立在仿生学理论之上,通过模拟生物神经系统等运作模式,训练人工智能学习非线性预测,神经网络模型可以实现数据聚合、数据分类等多种功能,神经网络模型的关键是权值的修改,该模型具有较强的抗干扰性与非线性学习能力,可以对复杂目标进行精确挖掘,但难以承担高危变量的处理任务; (2)决策树模型,该模型可以通过一系列的规则对数据进行分类,其模型结构与程序树状结构相似,该模型结构简单, 2016年第2期(总第158期) 2016 (Sum.No 158) 信息通信 INFORMATION &COMMUNICATIONS

相关文档
最新文档