教育数据挖掘研究进展综述

教育数据挖掘研究进展综述
教育数据挖掘研究进展综述

软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.360docs.net/doc/c314002436.html, Journal of Software,2015,26(11):3026?3042 [doi: 10.13328/https://www.360docs.net/doc/c314002436.html,ki.jos.004887] https://www.360docs.net/doc/c314002436.html, ?中国科学院软件研究所版权所有. Tel: +86-10-62562563

?

教育数据挖掘研究进展综述

周庆1,2, 牟超2, 杨丹3

1(信息服务社会可信服务计算教育部重点实验室(重庆大学),重庆 400044)

2(重庆大学计算机学院,重庆 400044)

3(重庆大学软件学院,重庆 400044)

通讯作者: 周庆, E-mail: tzhou@https://www.360docs.net/doc/c314002436.html,, https://www.360docs.net/doc/c314002436.html,

摘要: 教育数据挖掘(educational data mining,简称EDM)技术运用教育学、计算机科学、心理学和统计学等多个学科的理论和技术来解决教育研究与教学实践中的问题.在大数据时代背景下,EDM研究将迎来新的转折点.为方便读者了解EDM的研究进展或从事相关研究和实践,首先介绍EDM研究的概貌、特点和发展历程,然后重点介绍和分析了EDM近年来的研究成果.在成果介绍部分,选取的研究成果大部分发表于2013年以后,包括以往较少涉及的几种新型教育技术.在成果分析部分,对近年来的典型案例作了分类、统计和对比分析,对EDM研究的特点、不足及发展趋势进行了归纳和预测.最后讨论了大数据时代下EDM面临的机遇和挑战.

关键词: 大数据;教育环境;交叉学科;MOOCs;ITS

中图法分类号: TP311

中文引用格式: 周庆,牟超,杨丹.教育数据挖掘研究进展综述.软件学报,2015,26(11):3026?3042.https://www.360docs.net/doc/c314002436.html,/1000- 9825/4887.htm

英文引用格式: Zhou Q, Mou C, Yang D. Research progress on educational data mining: A survey. Ruan Jian Xue Bao/Journal of Software, 2015,26(11):3026?3042 (in Chinese).https://www.360docs.net/doc/c314002436.html,/1000-9825/4887.htm

Research Progress on Educational Data Mining: A Survey

ZHOU Qing1,2, MOU Chao2, YANG Dan3

1(Key Laboratory of Dependable Service Computing in Cyber Physical Society of Ministry of Education (Chongqing University), Chongqing 400044, China)

2(College of Computer Science, Chongqing University, Chongqing 400044, China)

3(School of Software Engineering, Chongqing University, Chongqing 400044, China)

Abstract: Educational data mining (EDM) focuses on solving theoretical and practical problems in education by applying principles and techniques from educational science, computer science, psychology, and statistics. It is believed that EDM will become more mature and promising in the Age of Big Data. This paper aims to help readers to understand or engage EDM research. First, the basic concepts, characteristics and research history of EDM are introduced. Then some latest results of EDM are presented and analyzed. Most results were published in 2013 and later, including some studies on several educational techniques that were rarely investigated before. Those results are also analyzed via classification, statistics and comparison, and based on which strength and weakness of EDM is discussed. Finally, opportunities and challenges facing EDM are discussed.

Key words: big data; educational environment; interdisciplinary research; MOOCs; ITS

数据挖掘技术可以从大量的数据中发现隐藏的模式与知识[1],目前已成功应用在生物、金融和电子商务等

?基金项目: 国家自然科学基金(61472464, 61402020); 中央高校基本科研业务费(CDJZR12.18.55.01, 106112015CDJSK04JD02); 重庆市前沿与应用基础研究计划(cstc2013jcyjA40017)

收稿时间:2015-02-12; 修改时间: 2015-05-11, 2015-07-14, 2015-08-11; 定稿时间: 2015-08-26

周庆 等:教育数据挖掘研究进展综述 3027 广泛的领域.近年来,在教育信息化、远程教育和Web 2.0等应用的带动下,教育数据挖掘(educational data mining,简称EDM)开始受到越来越多的研究者的关注[2].

教育数据挖掘技术综合应用教育学、计算机科学、心理学和统计学等多个学科的理论和技术来解决教育研究与教学实践中的问题.通过分析和挖掘教育相关的数据,EDM 技术可以发现和解决教育中的各类问题,如辅助管理人员做出决策、帮助教师改进课程以及提高学生的学习效率等.教育问题的复杂性和多学科交叉的性质,使EDM 在数据来源、数据特点、研究方法和应用目的等方面均表现出其独特性.

在过去几年中,教育领域和信息领域都发生了革命性的变化,在线学习系统、智能手机应用和社交网络为EDM 研究提供了大量的应用和数据.以在线学习系统MOODLE [3]为例,截至2013年,已为全球超过6 000万名学生和老师提供服务[4].截至2012年6月,全球智能手机用户人数超过10亿人[5],社交媒体Facebook 的用户数超过22亿人[6].大规模公开在线课程(massive open online courses,简称MOOCs)是近两年兴起的新型教学模式.截至2014年底,在MOOCs 网站Coursera 上注册的用户人数已超过1 000万[7].显然,EDM 也正处于一个“大数据”的时代.这一特殊的背景,预示着EDM 研究将在近几年内迅速发展.与以往的EDM 综述性论文相比,本文的主要贡献如下:

(1) 从教育环境的角度对EDM 研究进行分类介绍.以往的EDM 综述性论文一般按技术或应用目的对研

究成果进行分类,本文按教育环境进行分类,以体现了EDM“从教育中来,回到教育中去”的理念.

(2) 介绍了近两年的EDM 研究进展.现有的EDM 综述论文主要分析了2012年以前的研究成果,本文则

以2013年~2014年的研究成果为主,使读者了解这一领域的最新研究进展.特别地,增加了对一些新

型教育技术(如MOOCs 和移动计算)的研究成果的介绍.以往的EDM 综述性论文很少涉及这些内容,

本文对其作了介绍和总结.

(3) 对EDM 研究的现状及发展趋势作了分析与评价.本文对近年来EDM 的重要研究案例进行了分类、

统计和对比分析,对当前EDM 研究的特点与不足进行了归纳,同时预测了该领域的研究趋势.

(4) 展望了大数据时代下EDM 的研究前景.大数据技术对教育的发展有着深远的影响,最新的EDM 研究

也印证了这一趋势.本文对这一时代背景下EDM 研究面临的挑战和机遇进行了分析和展望.

本文首先介绍EDM 的基本知识和一般研究过程.之后,重点对EDM 近年的研究成果作分类介绍.然后对这些研究成果作分析与评价.最后,对大数据时代下的EDM 研究进行总结与展望.

1 EDM 研究概述

1.1 EDM 的特点

与EDM 联系最紧密的学科分别是计算机科学、教育学和统计学,如图1所示[8].从图中可以看到,这三大学科两两交叉分别产生了数据挖掘与机器学习(data mining and machine learning,简称DM&ML)、基于计算机的教育(computer-based education,简称CBE)以及学习分析(learning analytics,简称LA).通过与这3个领域的对比可以看出EDM 的特点.

Fig.1 Main areas related to educational data mining [8]

图1 EDM 涉及的主要学科[8]

计算机科学 统计学

基于计算

机的教育教育数据挖掘学习分析数据挖掘与机器学习教育学

3028 Journal of Software软件学报 V ol.26, No.11, November 2015

EDM与一般的DM&ML研究的主要区别在于其数据的教育学科特色,表现在以下几个方面:

?多学科:EDM数据通常涉及教育学、心理学和社会学的概念和技术,如教学目的、学习经验、教学评估、兴趣、动机、团队协作、人际关系和家庭背景等.对这一类数据,研究者既要能理解其概念,也要掌握测量和评价它们的技术.

?多层次:EDM数据的多层次特性来自于教育机构和教学材料的结构性,如学生可按学区、学校、院系和班级进行组织,而教学内容可按课程、章节、知识点和概念进行组织.

?多精度:EDM数据通常包含时间刻度,一项教学研究可能跨越几年甚至一生,也可能以毫秒的精度进行记录.这使研究者可按不同的时间精度分析数据.

?多情景:EDM数据的多情景特性来自于教育学科本身的特点.一个学生获得知识的经验与教学的时间、地点、教师和环境相关,也与学生自身的动机、能力和情绪相关,以上任意要素的改变可能会导致不同的学习经验.

?多语义:EDM数据的多语义特性来自于几个方面,如师生的行为存在多义性、师生使用的自然语言存在多义性、教育环境中的噪声数据或缺失的数据会带来歧义,甚至不同教育理论对同一数据的解释也会导致多义性.

EDM与一般CBE研究的主要区别在于应用目的的不同,后者的目标是辅助或替代传统的教学过程,而EDM则致力于实现传统教学缺少或难以完成的功能.表1总结了不同角色使用EDM的目的.

Table 1Application purposes of EDM for different stakeholders

表1不同角色使用EDM的目的

角色使用EDM的目的

学生

了解自己的性格、兴趣、能力和学习风格了解自己的学习效率、学习效果和学习进展向其推荐课程、学习资源和学习策略

教师了解教学的效率,改进教学材料了解学生的个体和总体情况预测学生的学习成绩

管理人员

了解教育机构的历史与现状

提供决策支持,改进管理制度,科学分配教育资源

对教师和课程进行评价

教育研究者

验证现有教育理论,发现新规律

为教育实验提供数据和论据

对教学材料、课程或教学系统进行评价

EDM与一般LA研究的主要区别在于采用的技术:后者多采用统计,而EDM多采用机器学习和数据挖掘技术.从另一角度来看,LA侧重于描述已发生的事件或其结果,而EDM侧重于发现新知识与新模型[8].

1.2 EDM的发展历程

EDM的发展大致可分为两个时期:

?第1个时期是20世纪80年代~20世纪末,研究者开始将数据挖掘技术用于教育领域,但研究方法比较简单,研究成果很少.受当时的技术水平的限制,这一时期的数据一般来自于调查问卷和信息管理软件,采用的数据挖掘技术主要是统计分析和关联规则算法.

?第2个时期则是从本世纪初至今,EDM的研究方法与研究成果快速发展.进入21世纪以来,互联网的普及引发了教育技术的变革,这一时期的EDM数据主要来自于开放和智能的在线学习系统,采用的数据挖掘技术更加多样化.2012年,美国教育部发布的蓝皮书《通过教育数据挖掘和学习分析促进教与学》标志着EDM已受到广泛关注[9].

国内的EDM研究起步较晚,与国外相比在研究广度和深度上均有较大的差距[10].近10年以来,国内对EDM 的研究取得了一些进展[11?13],但总体上仍存在不足,主要体现在3个方面:一是创新性不强,研究成果多为对国外

周庆等:教育数据挖掘研究进展综述3029

研究的评论、跟踪和改进;二是技术深度不够,研究成果多发表在教育类期刊而非技术类期刊;三是研究范围较窄,研究成果主要集中在智能导学系统[14]和个性化学习[15]两个领域.

近几年来,教育技术领域发生了巨大的变化:一是许多新型的信息技术开始用于教育领域并取得了巨大的成功,如增强现实、移动计算和云计算技术;二是一些相对成熟的信息技术同教育结合产生了新的教学形态,如基于游戏的学习、基于社交网络的教学以及MOOC等.这些新的教育技术和教学形态为EDM的研究提供了海量数据,而大数据技术又为分析和挖掘这些数据提供了支持.可以预见,在大数据时代背景下,EDM将更加成熟和繁荣;另一方面,随着我国对教育改革和大数据的日益重视,国内的EDM研究也将迎来新的转折点.

1.3 EDM的学术组织与成果总结

目前,与EDM最相关的两个国际学术组织分别是成立于2011年的Int’l Educational Data Mining Society (https://www.360docs.net/doc/c314002436.html,)以及成立于2012年的IEEE Task Force of Educational Data Mining (https://www.360docs.net/doc/c314002436.html,.au/edd).

与EDM相关的学术会议最早于20世纪80年代开始举办,目前已经有多个与EDM密切相关的会议(参见表2).国际人工智能协会在2005年和2006年连续举办了两届EDM专业研讨会,即AAAI workshop on Educational Data Mining.自2008年开始,EDM的专业会议Int’l Conf. on Educational Data mining每年举办一次,截至2014年7月已经举办7届.刊登EDM研究成果的期刊数量更多,表3列出了与EDM相关的部分知名期刊.

Table 2Related conferences about EDM

表2EDM相关学术会议

会议名称缩写类型首届年份

Int’l Conf. on Intelligence Tutoring Systems ITS Biannual 1988

Int’l Conf. on Educational Data mining EDM Annual 2008

Int’l Conf. on User Modeling, Adaption, and Personalization UMAP Annual 2009

Int’l Conf. on Learning Analytics and Knowledge LAK Annual 2011

Table 3Related journals about EDM

表3EDM相关的期刊

期刊名称缩写 ISSN号影响因子(2013年)

Computers & Education CAE 0360-1315 2.630

Expert System with Applications ESWA 0957-4174 1.965

IEEE Trans. on Learning Technologies TLE 1939-1382 1.22

Journal of Educational Data Mining JEDM 2157-2100 ?

在EDM发展的各个时期,均有相应的综述性论文发表[8,16?20].例如,文献[19]对1995~2005年的EDM研究成果进行了总结;文献[17]重点剖析了2004年~2012年发表的9篇典型的EDM论文;文献[8]发表于2013年,对EDM的概况、技术和发展历程做了较全面的介绍.

除此之外,还可以通过两个途径更详细地了解EDM技术:一是2010年Romero等人编写的第一本关于EDM技术的专业书《Handbook of Educational Data Mining》[21],共有36章,详细阐述了EDM的概念、主要技术和典型案例;二是2014年Baker在MOOCs网站Coursera(https://https://www.360docs.net/doc/c314002436.html,)上开设的课程《Big Data in Education》,讲授了EDM的基础知识和技术.

2 EDM的工作流程

图2显示了EDM正常的工作流程.从数据挖掘的角度来看,处理流程包含了预处理、数据挖掘和评估3个阶段[22];从教育的角度来看,这是一个从教育环境产生的数据中发现知识,再利用这些知识来改善教育环境的循环过程.

3030 Journal of Software软件学报 V ol.26, No.11, November 2015

Fig.2 Flow chart of EDM[23]

图2 EDM流程图[23]

数据是EDM的研究素材.从教育环境中获取的数据通常具有多学科性、多情景和多语义等复杂特性,并且不同教育环境产生的数据也具有多样化的形态.例如,传统的教学方式产生的数据可能来自于手写的纸质文档,教务管理系统中的数据通常存储于结构化的关系数据库中,在线学习系统的数据可能记录在半结构化的日志文件中,而一些新型教育环境则涉及微博、音频和视频等非结构化数据.

知识则是EDM的研究结果.根据用途的不同,本文将EDM的知识分为以下3类:

?原理类知识,其目的是验证或修正现有的教育理论,如发现新的学习规律;

?实践类知识,其目的是帮助教师开展教学实践,如预测学生的期末成绩;

?优化类知识,其目的是改进学习系统的效果和性能,如提高系统的自适应能力.

从图2可以看出,EDM的工作流程与一般的数据挖掘应用完全相同,均要经历预处理、数据挖掘和评估这3个阶段.教育环境在整个流程中既是起点也是终点,并且是EDM研究不同于普通数据挖掘应用的一个要素.下文首先对教育环境进行说明,然后分别介绍3个处理阶段.

2.1 教育环境

教育环境是开展教学和学习活动的场所或载体,它可以是传统的学校和教室、互联网上的远程教育系统,也可以是安装在智能手机上的教学软件,或者是微博、微信等社交媒体.教育环境不仅是EDM研究的数据来源,也是其最终要改进的目标对象,因而在EDM研究中占有重要的地位.本文将教育环境分为4类: ?传统教学环境,是指未采用或较少采用信息系统的教学环境,如中小学的教学课堂.

?封闭式教学环境,是指以封闭式信息系统为主的教学环境,如单机版的学习软件.

?开放式教学环境,是指以开放式信息系统为主的教学环境,如基于互联网的远程教学系统.

?新型教学环境,是指近年来在大数据时代的背景下涌现出的新型教学场所或载体的总称,如智能手机和MOOCs等.

本文的第3节将详细介绍不同教育环境下的EDM研究成果.

2.2 预处理

数据挖掘算法处理的数据通常是符合一定标准的、规范的数据.而原始数据可能有多个来源,或者包含有噪音、缺失的和不一致的数据,数据挖掘算法很难直接使用这些数据.预处理,即是将原始数据转换为符合数据挖掘要求的数据格式的过程.由于数据的质量直接影响着数据挖掘的结果,预处理在数据挖掘中占有重要的地位.预处理主要包括:数据清理(data cleaning),其目标是消除数据中的噪声;数据集成(data integration),其目标是对多个数据源的数据进行合并;数据归约(data reduction),其目标是减少原数据的大小,从而提高数据挖掘的效率;数据变换(data transformation),其目标是将数值转换成数据挖掘算法需要的形式[24].

由于教育数据的复杂性,预处理通常是EDM研究中工作量最繁重的阶段.一些资深专家的经验表明:在EDM项目中,数据搜集和预处理阶段需要的人力资源往往是最多的[9].

2.3 数据挖掘

数据挖掘的目的是从数据中建立模型,主要包括预测模型(predictive model)和描述模型(descriptive model)两类.其中,预测模型通过已知的数据去预测未知的数据[25],而描述模型则通过分析数据发现新的模式或结构[26].这两类模型常见的数据挖掘方法包括:

周庆等:教育数据挖掘研究进展综述3031

?分类,其目的在于为数据对象指定一个类别,例如判断学生的性格类型.常见的分类算法有决策树[27,28]、贝叶斯理论[29]和人工神经网络[30]等.

?回归,其目的在于为数据对象赋予一个数值,例如预测学生的GPA成绩.常用的是线性回归[31]和逻辑回归[32]等.

?聚类,其目的在于将相似的数据对象归为同一类别,例如将知识点相近的试题放入同一目录下.与分类不同的是,聚类要划分的类别是未知的.常见的聚类算法有k-means[33]等.

?关联规则挖掘,其目的在于发现数据对象之间的关联或关系,例如发现学生同时选修的课程.常见的关联规则挖掘算法有Apriori算法[34]、散列[35]、事务压缩[36]和FP-树频集算法[37]等.

其他方法还包括文本挖掘、马尔可夫模型、序列模式挖掘和推荐算法等.

2.4 评估

实验数据通常会被分为3个部分,即训练集,用以训练模型;验证集,用以选出最优模型;测试集,用以评价模型的性能.

常见的评估分类器性能的度量有:准确率(accuracy),即全部样本中被正确识别的百分比;召回率(recall),即真实的正样本中被正确识别的百分比;精度(precision),即识别为正样本中真实的正样本所占的百分比.除了这些评估指标之外,还有一些其他指标,如F-score,Kappa,AUC等.而多类别分类器、回归、聚类和关联规划一般采用其他评估指标,受篇幅所限,在此不做描述,感兴趣者可参考文献[24].

3 EDM的最新研究进展

教学环境不仅是EDM研究的起点和终点,也决定了数据特征和教学形态.最原始的教学环境即师生间的面对面交流,它仍是当前最主要的教学环境之一.计算机技术和通信技术引发了教育变革,产生了基于计算机的教学模式.这是一种全新的教学环境,也为各种新型教学环境的出现奠定了基础.互联网和人工智能技术在教育中的应用则创造了更加开放和智能的教学环境,它不仅增强了学生间的交流互动,也产生了更丰富的教学数据.以上几种教学环境都是依次产生和逐渐发展的,但在过去几年中,一批新型的教学环境在短时间内集中出现并呈现爆发式的增长.这也成为大数据时代背景下的教学环境的一个显著特点.

本节将介绍不同教学环境下EDM研究的最新进展,对每一种教学环境,将讨论1~2个典型的研究案例,并列出多个有代表性的研究成果,包括其数据来源、研究方法和EDM应用类型等内容.其中,数据来源指产生数据的系统或包含数据的记录集,研究方法是指研究采用的数据挖掘技术,而应用类型则是对EDM应用场景的分类.主要的EDM应用类型如下:

?可视化(visualization,简称VS)将信息或知识作形象化地展示.在EDM中,可视化技术能够帮助人们更加直观地理解教育数据,如用户在线论坛数据[38]、在线评估过程中产生的数据[39]、教师和学生之间的互动[40]、考试成绩[41]或者学生团体活动的相关数据[42]等.

?学生建模(student modeling,简称SM)通过对学生的行为、动机和学习策略等方面建立模型来揭示其学习特征.在EDM中,采用了贝叶斯网[43?47]、序列模式挖掘[48?50]、关联规则[51,52]和逻辑回归[53]等方法对学生特点和学习行为进行自动建模[54].

?学生表现预测(predicting student performance,简称PSP)通过现有数据预测学生未来的学习表现,是EDM最早也是最流行的应用之一[55],例如根据学习记录预测学生的最终分数[56]或者学术表现[57].

?推荐系统(recommender system,简称RS)可以根据学生的特点向其推荐课程、学习资料或学习方法,例如根据学生的学习情况推荐合适的学习材料[58].

?自适应系统(adaptive system,简称AS)可以根据学生建模的结果做自适应变化的学习系统.

3.1 传统教学环境

传统教学环境,主要指师生之间面对面交流的课堂教学环境.EDM对传统教学环境的研究在早期较为流

3032 Journal of Software软件学报 V ol.26, No.11, November 2015

行,通常采用机器学习或统计学技术对传统教育研究方法(如访谈、观察记录等)收集的数据进行分析.表4列出了几个属于传统教学环境的研究案例,研究数据分别来自学生成绩记录、课堂观察记录和调查问卷.由于这类数据通常以纸质文档的形式存放,在应用数据挖掘技术前,需要对原始数据进行编码、录入和格式化等预处理.

Table 4Related researches about traditional educational environment

表4传统教学环境相关的研究

文献编号数据

来源

主要

方法

论文

要点

发表

时间

学生

类型

应用

类型

文献[59] 对学生课堂

行为的观察

决策树和回归树算法

发现教学形式与学生

上课分心之间的关系

2013 小学生SM

文献[60] 调查问卷机器学习算法

发现视觉检测(visual

inspection)的性别差异

2013 成年人SM

文献[61] 学生CET 4和CET 6的成绩

以及他们的GPA分数

可视化技术、关联规则、

决策树算法和聚类算法

对学生CET 4,CET6和

GPA成绩关系的可视化

2009 研究生VS

尽管传统教学环境已有几千年的历史,但它仍然是校园教学的主流.因此,近年来不断有少量的研究成果出现.例如,Godwin等人观察了22个班级小学生的课堂表现,并运用回归树算法对记录数据进行分析[59].研究结果表明,学生在课堂上“开小差”的原因分别是同学间的互相干扰(占45%)、个人注意力分散(占18%)和环境干扰(占16%).该研究说明,EDM技术可以使我们对一些经典的课堂现象有更深的理解.

3.2 封闭式教学环境

封闭式教学系统主要包括单机学习系统和基于C/S结构的信息管理系统.这类系统一般仅供内部学生和工作人员使用,且学生之间没有互动和交流.近年来,EDM对封闭式教学环境的研究成果较少,表5列出了有代表性的几篇论文.这些论文的研究数据来自于教学管理信息系统和学习管理系统,其研究目的是利用数据挖掘技术,帮助学生更有效地学习或者为教育管理者提供决策支持.

Table 5Related researches about closed educational environment

表5封闭式教学环境相关的研究

文献编号数据来源主要方法论文要点发表时间学生类型应用类型

文献[27] 某高等教育信息系统决策树算法发现影响学生课程

成绩的要素

2014 大学生PSP

文献[32] 土耳其中等教育

过渡系统

分类,决策树,

回归算法

预测学生的分班

考试成绩

2012 大学生PSP

文献[62] 学生在学习系统中的

记录及其个人信息

决策树算法

根据学生特点向其推荐

课程内容的学习顺序

2009 大学生RS

封闭式教学系统经过多年运行后积累了大量数据,由于缺乏技术支持,这些数据未能得到及时的整理和分析,往往是凌乱和繁杂的.对于教育机构而言,这些数据就像未开发的“金矿”,经挖掘后可以产生较大的价值.例如,文献[27]对106名本科生的课程成绩进行了分析,以期通过学生的个人信息(如性别、年龄和是否全日制等)及其在各教学环节中的得分来预测该课程的最终等级.研究结果表明,采用决策树算法可以实现较高的预测准确率.该研究还发现,学生在教学活动中的表现及其笔试成绩是影响课程最终成绩的关键因素.文献[32]则是从土耳其中等教育过渡系统中抽取了5 000名8年级学生的数据(包括学生前一年的成绩和奖学金情况等),采用多种数据挖掘算法来预测学生的入学分班成绩.其中,逻辑回归模型的预测精度为82%;人工神经网络和支持向量机分别为89%和91%;而C5决策树的预测精度最高,达到95%.研究结果表明:借助数据挖掘技术,学校可以不开展大规模测试而对学生直接分班,从而节省教育资源.

3.3 开放式教学环境

20世纪末,互联网的快速发展推动了网络技术在教育中的应用,远程教育课程开始流行并取得了较大的成功.本世纪初,一类新型网络教学环境开始兴起,它们一般基于Web技术,并采用了某种程度的人工智能技术.与

周庆等:教育数据挖掘研究进展综述3033

封闭式的教学环境相比,它们的最大特点是开放性,允许学生之间互相交流和协作学习.我们把这类教学环境统称为开放式教学环境,其中,最典型的代表是智能导学系统(intelligent tutoring system,简称ITS)和计算机支持的协作学习(computer-supported collaborative learning,简称CSCL).

ITS是一种智能的学习系统,提供学生交流的机会,并能提供给老师管理和记录学习情况等功能;同时, ITS 记录的数据十分丰富,包括学生的登录日志、论坛发言、作业和教学资源等,因此成为EDM研究最常见的数据来源之一.表6列出近年来基于ITS的一些研究成果.这些ITS系统中既包括时下流行的开源系统,如MOODLE, ASSISTMent等,也有一些仅在小范围使用的智能学习系统.

Table 6Related EDM researches about ITS

表6ITS相关的EDM研究

文献编号数据

来源

主要

方法

论文

要点

发表

时间

学生

类型

应用

类型

文献[4] MOODLE 神经网络和支持向量机预测学生是否能完成在线课程2014 大学生PSP

文献[63] 学生在线课程

记录及其GPA

二元逻辑回归算法

预测学生能否

完成在线课程

2014 大学生PSP

文献[64] 一个智能导学系统离散马尔可夫模型,K-means

聚类算法和逻辑回归分析

分析学生求助策略与

学业成绩间的关系

2014 大学生SM

文献[31] ASSISTMent 逻辑回归和贝叶斯知识追踪预测学生能否考上大学2013 大学生PSP 文献[58] MOODLE 聚类算法和关联规则挖掘向学生推荐课程2013 ?RS

文献[65] 一个电子学习系统关联规则挖掘算法自动化地构建概念图

(concept map)

2013 ?AS

文献[66] 学生的在线问答

及对话记录

数据挖掘和文本挖掘

发现学生提问与

成绩之间的关系

2013 大学生SM

文献[67] 学生在线课程的

参与情况

分类和聚类

根据学生使用论坛的

情况预测学生的成绩

2013 大学生PSP

文献[68] 一个智能导学系统线性回归模型预测学生是否出现沮丧情绪2013 小学生PSP 文献[69] 学习者对学习资源的评级协同过滤和基因算法向学生推荐学习资源2013 ?RS

文献[30] 学生的英语在线课程学习

记录及其个人信息

神经网络

根据学生的特点决定

学习材料的难度

2011 大学生AS

近几年对ITS的研究主要集中在对学生的表现和行为进行建模,如,文献[66]使用文本挖掘技术对138门在线课程中的问答和聊天记录进行分析,揭示了学生提问的次数与最终成绩之间的关系;Lara等人则通过MOODLE上课程的历史学生数据建立了参考模型,利用该模型,可以预测某一个学生是否能够顺利完成课程[4]. ITS系统同时也朝着自动化和自适应的方向发展,通过对学生的目标、偏好和知识等进行建模后,个性化地适应每个学生的学习方式.如,Wang等人设计并实现了一个自适应的英语学习系统[30].该系统使用5名英语教学专家提供的样本对BP神经网络进行训练.正式运行时,系统可根据学生的性别、性格和学习焦虑程度向其推荐不同难度等级的词汇、语法和阅读材料.实验结果表明,采用自适应学习系统的学生成绩要明显优于对照组.Aher 等人对学生在MOODLE上的课程学习记录进行聚类和关联规划分析,然后向学生推荐合适的课程[58].例如,当学生完成《操作系统》课程后,向其推荐《分布式系统》课程.研究发现,结合K-means与Apriori算法推荐的课程与学生选课的历史数据最吻合.这些研究说明:数据挖掘技术使我们在辅导大量学生时,依然可以实现“因材施教”这一教学目标.

CSCL是指团队成员在网络和软件的支持下,通过对话和联合行动共同完成学习任务的形式.表7列出了近年来对CSCL的部分研究成果.这些研究对不同在线学习平台的数据进行了分析,其主要研究目的是发现影响协作学习效果的因素和规律.

尽管各类学科对学生的团队协作能力都很重视,然而对该技能的教学和评估一直是个难题.Perera等人对7组学生参加软件开发项目的团队表现进行了研究,数据来自软件开发项目中常用的内容管理、任务管理和代码管理工具[70].该研究利用聚类技术获得了3类小组和4种成员角色在团队协作中的特征,通过序列模式挖掘,发现了优异和平庸的小组在使用3种工具时的差异.研究结果表明,数据挖掘技术可以帮助高校开展团队协作技能的教学与实践.它不仅能够发现学生使用团队协作工具的规律,为团队协作中的抽象概念提供案例与数据,也

3034 Journal of Software软件学报 V ol.26, No.11, November 2015

能自动识别各小组在项目协作中的问题,帮助学生监控并改进个人在小组合作中的表现.Ding等人研究了不同性别组合的学生在求解问题时的合作模式[71],96名中学生被随机分配到48个小组中,两个小组成员利用计算机进行远程通信,合作解答物理问题.对通信内容做可视化处理和多层回归分析后发现,女生与同性别同学合作的学习效果要优于与异性合作的效果,而男生则不存在这一现象.

Table 7Related EDM researches about CSCL

表7CSCL相关的EDM研究

文献编号数据来源主要方法论文要点发表时间学生类型应用类型

文献[23] MOODLE 协同过滤和关联

规则挖掘

向教师推荐用于改善教学的信息2011 ?RS

文献[70] 一个在线协作

学习工具

聚类和序列

模式挖掘

发现软件开发小组成员的协作模式及其

对软件质量的影响

2009 ?SM

文献[71] 一个在线

学习系统

可视化和

回归模型

学生分组中性别组合对学习效果的影响2011 中学生VS

文献[72] 在线课程论坛统计分析发现教师的反馈与学生成绩的关系2014 研究生SM

3.4 大数据时代下的新型教学环境

大数据时代见证了众多新型教学环境的诞生和飞速发展,包括基于游戏、社交网络、智能移动设备和增强现实技术的教学环境和MOOC等教学形态.目前,EDM对它们的研究还较少,然而借助日渐成熟的大数据分析技术,新型教学环境正在成为EDM的研究热点,并反过来推动EDM的发展.

基于游戏的学习系统(game-based learning system,简称GBLS)是指融合了游戏元素的学习系统,它可以给学习者带来轻松愉悦的学习氛围,激发其内在的学习动机和激情,甚至提高协作学习的效果[73].EDM可利用GBLS来分析学生的性格和特征(见表8).例如,文献[29]搜集了47名计算机专业的大学生在某个策略类小游戏上的尝试次数、持续时间和最终等级等数据,采用Na?ve Bayes分类器对学生的感知类型(感觉性或直觉性)进行判断,其准确率超过85%.与传统的方法相比,该方法的成本更小,且学生的接受度更高.

Table 8Related researches about GBLS

表8 GBLS相关的研究

文献编号数据来源主要方法论文要点发表时间学生类型应用类型

文献[29] 一个益智类游戏的记录数据朴素贝叶斯

分类器

根据游戏记录判断学生的

学习风格(learning style)

2014 大学生PSP

文献[74] 一个大型的多人在线数学游戏聚类发现学生团队协作中的规律2014 中小学生SM

社交网络(social network,简称SN)已成为当代学生日常生活的一部分.EDM研究结果表明,社交网络可以帮助我们更好地了解学生(见表9).例如,文献[75]利用社交分析技术和随机图模型对39名学生相互之间发送的617封电子邮件进行了分析,使用图(graph)来表示学生收发邮件的社交关系.研究结果表明,随着学习负担的增加,邮件的个数相应增加,图却变得更稀疏.研究中还发现,在学习负担最重的阶段,图包含的典型结构与其他阶段不同.该研究既可以向教师显示学生的学习状态,也可以让学生了解自己与同学们的交流情况.Chen等人对Twitter上发表的微博进行了研究,旨在帮助大学的管理层以及相关政策的制定者了解工程专业的大学生学习和生活的真实体验[76].该研究获取了在Twitter上发表的标签为#EngineeringProblem的2万多条微博,首先采用社会学研究中的质性分析方法对随机选取的近3 000个微博进行处理,将微博反映的学生体验分成6个类别;然后,利用文本处理技术和Na?ve Bayes多标签分类器建立预测模型.实验结果表明,该预测模型能够达到较高的准确率;最后,研究者使用该模型对在美国普渡大学附近发表的3万多条微博进行了分析.研究中发现:工程专业的学生通常面临着睡眠不足、学习负担过重、缺乏社交和不适应社会多样化等问题;而普渡大学由于采取了相应措施,学生对社会多样化问题较能适应.该项研究结果表明:与传统的社会学调查方法相比,数据挖掘技术可用较小的成本完成对大规模样本的分析.

周庆等:教育数据挖掘研究进展综述3035

Table 9Related researches about social network

表9社交网络相关的研究

文献编号数据来源主要方法论文要点发表时间学生类型应用类型

文献[75] 学生的电子

邮件通信

社会网络分析和

指数随机图模型

发现电子邮件通信与

学业负担间的关系

2014 大学生SM

文献[76] 工科学生的

Twitter微博

文本处理与

分类算法

通过挖掘微博发现工科

学生面临的主要问题

2014 大学生SM

文献[77] 调查问卷与访谈回归模型发现Facebook的使用与学习

投入程度之间的关系

2012 大学生SM

智能移动设备凭借其优越的物理特性(可触摸、便携性、自带无线上网和多种传感器功能)和丰富的应用为学生带来了新的学习体验,已有研究结果表明:利用移动设备可以提升学生的学习兴趣[78],提高注意力[79],或者帮助学生更好地理解植物[80]和动物[81]方面的知识.

增强现实技术允许使用者在真实的物理空间上叠加虚拟对象,在教育上使用时,可以增加学生的学习动机[82],提供给学生一个更好的学习体验.其有效性已经被众多研究所证实,如在结构工程[83]、电磁学[84]和少儿阅读[85]方面都有很好的效果.还有其他诸如虚拟实验室LabViEW[86]、虚拟学习环境[87,88]等应用.

MOOCs是一种可在互联网上同时教授大量学生的远程教育形式,MOOCs不对学生设限,只要通过网络申请即可学习.自2012年以来,MOOCs在全球范围内取得了巨大的成功.截至2014年,仅Coursera,edX和Udacity 这三大MOOCs网站的用户数就超过1 500万.由清华大学发布的中文MOOC平台“学堂在线”也受到广泛欢迎[89].MOOC课程可以为EDM提供大量的研究资料.文献[90]对美国SJSU大学与Udacity联合开发的3门MOOCs课程进行了研究,每门课程均有50名正式学生(matriculated student)和50名非正式学生(主要来自合作高中和网络用户).利用逻辑回归分析建模,研究者发现:学生能否及格主要与个人的努力程度(如登陆次数、观看视频的时间以及完成的作业数量)相关,而与学生的基本特征(如性别、年龄和家庭收入)无关.研究者还发现:那些使用在线支持较多的非正式学生(尤其是高中生)不及格的概率更大,可能与他们不习惯在线学习有关.并基于以上发现提出了几个提升MOOCs教学质量的建议.该研究结果表明,数据挖掘技术不仅可以发现MOOCs课程的一些新现象,也能帮助MOOCs课程的创建者和实施者改善教学效果.

4 EDM研究的分析与评价

4.1 典型案例的对比与分析

我们对表4~表9列出的26个文献中的案例进行了对比和分析,在选择参考文献时,我们主要考虑3个原则: ?及时性:所选文献均在2009年以后发表,其中69%以上发表于2013和2014年.

?重要性:所选文献主要来自EDM领域的重要期刊或会议.

?创新性:所选案例在研究内容或研究方法上具有明显创新.

因此,这些案例基本能反映近年来EDM研究的概况.以下从多个方面对这些案例做概要性的对比和分析: ?从学生类型来看,小学案例共有2个(约占8%),中学2个(约占8%),高校16个(约占61%),其他类型6个(约占23%).当前的EDM研究以高校为主,可能在于3个原因:一是高校有充足的资金,信息化建设相对完善;二是高校学生对信息技术的熟练程度较高;三是高校的教学体制更加灵活.随着技术的发展和普及,这些因素都在发生改变.预计未来,面向中小学生和职场人士的EDM研究将大幅度增加.

?从教育环境来看,传统和封闭式教育环境的案例共有6个(约占23%),开放式教育环境15个(约占58%),新型教育环境5个(约占19%).目前,开放式教育环境仍然是EDM研究的主流,因为这类环境广泛存在,可以方便地获取数据.新型教育环境刚出现不久,目前所占比例较小,未来将成为EDM的研究重点.

?从应用类型来看,SM共有10个(约占38%),PSP有8个(约占31%),RS有4个(约占15%),VS和AS各有2个.SM和PSP成为EDM的研究热点体现了一种现代教育理念,即,有效的教学和学生培养应建立在对学生的了解与理解的基础上.然而,与传统的教育研究相比,EDM很少涉及对教师的研究.尽管教

3036

Journal of Software 软件学报 V ol.26, No.11, November 2015

师在教学中的作用也很重要,但是采集教师的数据要比学生困难得多.

? 从采用的数据挖掘技术来看(如图3所示),分类、聚类和回归是EDM 研究中最常用的技术,它们同时

也是数据挖掘最基本、最成熟的技术,包含在常见的数据挖掘工具箱中.关联规则、协同过滤和可视化技术也是EDM 中的常用技术.其他技术(如文本挖掘、马尔可夫模型、序列模式挖掘等)分属不同的类别,但每一类技术出现的频率都很低,类似于“长尾分布”.

Fig.3 Distribution of data mining techniques (note that some cases employ more than one technique)

图3 数据挖掘技术分布(注:某些案例使用了多种技术)

我们对26篇文献全体作者的学科背景也进行了统计(如图4所示).从统计结果来看,研究人员的构成具有多样性.其中,从事教育学、心理学和管理学等社会科学的研究人员比例较高.与理工研究人员相比,社会科学研究者在研究问题的提出、原始数据的理解以及研究结果的解释等方面更有优势.而来自计算机科学领域的研究者相对较少,这也解释了当前EDM 研究主要采用成熟的数据挖掘技术这一现象.随着越来越多的计算机技术专家开展EDM 的研究,未来很可能出现许多教育领域的专用数据挖掘技术.

Fig.4 Distribution of researchers’ discipline background

图4 研究者的学科背景分布

此外,我们还对各个案例涉及的学生人数进行了估计.其中,学生人数为500人以下的案例共有17个(约占65%),人数为500~5 000的案例有6个(约占23%),人数在5 000人以上的案例有3个(约占12%).这说明当前的EDM 研究涉及的海量数据还不多.然而,借助大数据处理技术,EDM 可以在短时间内对数万学生的数据完成建模、预测和可视化等复杂的操作,这是其相对于传统教育研究的巨大优势.

以上案例表明,EDM 的研究成果遍及各个教育环境、学生类型和应用类型,体现出其“从教育中来,回到教育中去”的研究理念以及“以学生为中心”的教育理念.另一方面,EDM 研究在很大程度上仍然受到数据来源和研究者技术能力的限制.

12

关联规则算法的数目 可视化协同过滤其他分类 回归聚类10

864

2

计算机 教育

信息与情报学

管理学

数学

心理学

未知 计算机22%数学 6% 管理学5% 信息与情报学

9%教育

25%未知

25% 心理学 8%

周庆等:教育数据挖掘研究进展综述3037

4.2 现有研究的不足及发展趋势

EDM研究目前仍存在许多不足.这些不足不仅有助于我们理解其研究现状,同时也为我们指出了未来的发展趋势:

?首先是研究选题的不足.在EDM众多的研究类型中,PSP和AS对教育的影响最大,它们有两个共同点:一是改变了我们对教育的理念与实践,二是实现了传统技术难以达到的教学效果.然而在过去10年中,EDM暂未出现具有同样影响力的新的研究方向.近年来,教育和信息领域连续出现多项技术变革,极有可能孕育一批重要的EDM研究课题.在思考选题时,研究者应把握好教育与数据挖掘技术的关系.在EDM研究中,教育是其目的,而数据挖掘技术为其方法.因此,我们建议信息技术专家与教育专家深度合作,首先思考教育的本质问题,然后利用先进技术解决这些问题或发现新的规律.

?其次是研究方法的不足,表现在两个方面:

对数据预处理技术的研究较少.现有的EDM文献中处理的数据一般是意义清晰的最终数据集,很少对数据预处理工作进行详细描述.然而,EDM具有多情景、多语义、存在大量噪声和数据

缺失等特征,而将教育学、心理学和社会学概念与数据进行准确对应也是一项挑战.事实上,数

据预处理方法对于EDM研究的重要性不亚于数据挖掘算法,在有的情况下甚至超过后者.因此,

研究者应特别重视数据预处理方法的研究和论述,特别是那些具有推广价值的预处理技术.

采用的数据挖掘算法相对简单.当前的EDM研究文献主要采用成熟的数据挖掘算法,许多研究直接采用封装好的数据挖掘工具处理数据,只有少数文献针对具体应用和场景来改进数据挖

掘算法.究其原因,许多研究课题为首次提出,对算法性能的提高并非其优先考虑的问题.此外,

许多研究者缺乏信息技术背景,不具备算法设计和改进的能力.因此,信息技术专家积极参与该

领域的研究将有利于EDM的快速发展.

?第三是数据来源的不足,表现在3个方面.

缺少公开数据集.大多数EDM文献目前未将研究数据集发布在互联网上或附在论文中,研究者不愿公开数据集主要有两个原因:一是数据集涉及研究对象的隐私,按照学术道德和法律规定

不适合公布;二是数据集的获取耗费大量了时间、人力和经济成本,是研究者的宝贵财富.然而

对研究者而言,不公开数据集可能会降低研究成果的可信度和影响力;对EDM研究社区而言,

公开数据集的匮乏会阻碍EDM研究的发展.我们建议EDM研究者在综合考虑隐私保护、经济

投入和学术意义的基础上,共享更多的教育数据集.

对新型教育环境的研究较少.现有的EDM研究成果对智能手机、增强现实和MOOC等新型教育环境的研究较少,由于这些新技术可能对教育产生深远的影响,同时又能方便地搜集大量数

据,对该类型的EDM研究将成为未来的研究趋势.

研究涉及的数据量较小.目前的EDM研究涉及的人数一般从几十人到几百人,少数研究涉及几千名学生,数据集大小则从几KB到几十MB不等.这些研究还称不上大数据研究.事实上,在数

据搜集方面,我国高校比国外更有优势:一是中国许多高校的学生都在万人以上;二是我国高校

对许多数据都进行了集中式处理,如校园卡和网络计费系统.我们期待在“教育大数据”领域,中

国的研究者能走在世界前列.

5 总结与展望

本文首先描述和总结了EDM研究的相关背景知识,然后介绍了不同教育环境下的EDM研究进展,涉及研究的数据来源、研究方法、研究结果及意义和应用效果等方面.此外,对近年来的EDM研究成果做了对比与分析,并指出现有研究的不足及未来的发展趋势.

在过去两年中,大数据技术在舆论界、学术界和工业界均获得了前所未有的关注,这一背景为EDM的发展同时带来机遇与挑战.EDM面临的机遇包括政策、资源和技术等多个方面:

3038 Journal of Software软件学报 V ol.26, No.11, November 2015

?政策机遇:EDM体现了“教育大数据”的理念.随着大数据技术上升为国家战略,EDM将逐渐受到各政府部门和教育机构的重视,教师与管理人员对EDM的接受度也会越来越高.

?资源支持:由于政府的重视和教育机构意识的转变,EDM将得到更多政策、人力、资金和基础设施的支持,从而为EDM的发展提供必要的教育资源和研究资源.

?技术支持:大数据技术的研究成果为EDM中海量数据的存储、处理和知识发现提供了方法、标准和工具,可以帮助EDM解决许多技术难题.

另一方面,EDM在研究和实践中也面临着诸多挑战:

?伦理方面的挑战:EDM的研究过程通常涉及学生的隐私数据,其研究结果也可能对学生和教师产生不良影响.既要遵从伦理限制、保护学生隐私,又要最大化研究的学术价值,这对EDM的研究者是一个挑战.

?技术方面的挑战:大数据技术有利于数据的后期处理和知识发现,然而EDM的工作量和难点主要集中于数据的采集、理解和预处理.为了理解数据,研究者通常需要采集一些线下的数据,这要求其掌握教育学、心理学和统计学方面的知识和技术;同时,研究者还应精通数据处理算法和工具,以提高数据预处理的效率.

?管理方面的挑战:EDM研究需要学生、教师和管理人员同研究者紧密配合.由于涉及的角色众多,且不同的人参与研究的动力、对项目的期望和对技术的理解有很大的差异,EDM研究通常比普通项目更复杂,需要从整个教育机构的层面来协调人员与活动.

经过30多年的发展,EDM受到越来越多研究者的关注.近年来,众多新型教学环境为EDM的研究提供了丰富的应用和海量的数据来源,研究成果不断涌现.在大数据时代背景下,EDM面临着政策、资源和技术等多方面的机遇,即将迎来重大的转折.EDM的研究有益于教育乃至整个社会的发展,我们期待它更加成熟和繁荣.

致谢郑友杰和孟瑶为本文的完成提供了帮助,陈自郁、葛亮、赵素芬和朱郑州仔细阅读原稿并提出了建议,本文编辑和审稿专家在审阅原稿时给出了许多宝贵意见,提高了论文的质量和可读性,在此表示感谢.

References:

[1] Witten IH, Frank E. Data mining: Practical Machine Learning Tools and Techniques. 2nd ed., Morgan Kaufmann Publishers, 2005.

[2] Anjewierden A, Kolloffel B, Hulshof C. Towards educational data mining: Using data mining methods for automated chat analysis

to understand and support inquiry learning processes. In: Proc. of the Int’l Workshop on Applying Data Mining in e-Learning (ADML 2007). 2007.

[3] Cole J, Foster H. Using Moodle: Teaching with the Popular Open Source Course Management System. 2nd ed., O’Reilly Media,

Inc., 2007.

[4] Lara JA, Lizcano D, Martínez MA, Pazos J, Riera T. A system for knowledge discovery in e-learning environments within the

European higher education area—Application to student data from open university of madrid. UDIMA. Computers & Education, 2014,72:23?36. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013.10.009]

[5] Worldwide smartphone user base hits 1 billion. 2012. https://www.360docs.net/doc/c314002436.html,/news/worldwide-smartphone-user-base-hits-1-billion/

[6] Facebook users reach 2.2 billion, one third of the global population. 2014 (in Chinese). https://www.360docs.net/doc/c314002436.html,/a/20140725/000288.htm

[7] Coursera. https://https://www.360docs.net/doc/c314002436.html,/

[8] Romero C, Ventura S. Data mining in education. Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery, 2013,

3(1):12?27. [doi: 10.1002/widm.1075]

[9] Bienkowski M, Feng M, Means B. Enhancing teaching and learning through educational data mining and learning analytics: An

issue brief. Technical Report, Washington: Office of Educational Technology, U.S. Department of Education, 2012. 1?57.

[10] Li T, Fu GS. An overall view of the educational data mining domain. Modern Educational Technology, 2010,20(10):21?25 (in

Chinese with English abstract). [doi: 10.3969/j.issn.1009-8097.2010.10.004]

周庆等:教育数据挖掘研究进展综述3039

[11] Wang YG, Zhang Q. MOOC: Characteristics and learning mechanism. Education Research, 2014,(9):112?120, 133 (in Chinese

with English abstract).

[12] Meng WJ. Essence of network-based education: individualized and self-regulated learning supported by interactive systems with

emotional communication. Education Research, 2002,(4):52?57 (in Chinese).

[13] Chang TS. Developing an institutional intelligence system: A new trend of institutional reaserach. Journal of Higher Education,

2009,30(10):49?54 (in Chinese with English abstract).

[14] Wu YW, Li S, Tian QH. Research and Implementation of mashup intelligent question-answering system. Computer Engineering,

2013,39(7):233?236, 241 (in Chinese with English abstract). [doi: 10.3969/j.issn.1000-3428.2013.07.052]

[15] Jiang YR, Han JH, Wu WM. Adaptive approach to personlized learning sequence generation. Computer Science, 2013,40(8):

204?209 (in Chinese with English abstract). [doi: 10.3969/j.issn.1002-137X.2013.08.043]

[16] Pe?a-Ayala A. Educational data mining: A survey and a data mining-based analysis of recent works. Expert Systems with

Applications, 2014,41:1432?1462. [doi: 10.1016/j.eswa.2013.08.042]

[17] Mohamad SK, Tasir Z. Educational data mining: A review. Procedia—Social and Behavioral Sciences, 2013,97:320?

324. [doi:10.1016/j.sbspro.2013.10.240]

[18] Baker RS, Yacef K. The state of educational data mining in 2009: A review and future visions. Journal of Educational Data Mining,

2009,1(1):3?17.

[19] Romero C, Ventura S. Educational data mining: A survey from 1995 to 2005. Expert Systems with Applications, 2007,33(1):

135?146. [doi: 10.1016/j.eswa.2006.04.005]

[20] Borrego M, Foster MJ, Froyd JE. Systematic literature reviews in engineering education and other developing interdisciplinary

fields. Journal of Engineering Education, 2014,103(1):45?76. [doi: 10.1002/jee.20038]

[21] Romero C, Ventura S, Pechenizkiy M, Baker RS. Handbook of Educational Data Mining. CRC Press, 2011.

[22] Romero C, Ventura S, De Bra P. Knowledge discovery with genetic programming for providing feedback to courseware authors.

User Modeling and User-Adapted Interaction, 2004,14(5):425?464. [doi: 10.1007/s11257-004-7961-2]

[23] García E, Romero C, Ventura S, de Castro C. A collaborative educational association rule mining tool. The Internet and Higher

Education, 2011,14(2):77?88. [doi: 10.1016/j.iheduc.2010.07.006]

[24] Han J, Kamber M. Data Mining: Concepts and Techniques. 3rd ed., Morgan Kaufmann Publishers, 2011.

[25] Hand DJ, Mannila H, Smyth P. Principles of Data Mining. The MIT Press, 2001.

[26] Peng Y, Kou G, Shi Y, Chen Z. A descriptive framework for the field of data mining and knowledge discovery. Int’l Journal of

Information Technology & Decision Making, 2008,7(4):639?682. [doi:10.1142/S0219622008003204]

[27] Natek S, Zwilling M. Student data mining solution–knowledge management system related to higher education institutions. Expert

Systems with Applications, 2014,41(14):6400?6407. [doi: 10.1016/j.eswa.2014.04.024]

[28] Quinlan JR. Simplifying decision trees. Int’l Journal of Man-Machine Studies, 1999,51:497?510. [doi: 10.1016/S0020-7373(87)800

53-6]

[29] Feldman J, Monteserin A, Amandi A. Detecting students’ perception style by using games. Computers & Education, 2014,71:14?

22. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013.09.007]

[30] Wang YH, Liao HC. Data mining for adaptive learning in a TESL-based e-learning system. Expert Systems with Applications,

2011,38(6):6480?6485. [doi: 10.1016/j.eswa.2010.11.098]

[31] San Pedro MOZ, Baker RS, Bowers AJ, Heffernan NT. Predicting college enrollment from student interaction with an intelligent

tutoring system in middle school. In: Proc. of the 6th Int’l Conf. on Educational Data Mining. 2013. 177?184.

[32] ?en B, U?ar E, Delen D. Predicting and analyzing secondary education placement-test scores: A data mining approach. Expert

Systems with Applications, 2012,39(10):9468?9476. [doi: 10.1016/j.eswa.2012.02.112]

[33] Hartigan JA, Wong MA. Algorithm AS 136: A k-means clustering algorithm. Journal of the Royal Statistical Society, Series C

(Applied Statistics), 1979,28(1):100?108. [doi: 10.2307/2346830]

[34] Agrawal R, Srikant R. Fast algorithms for mining association rules. In: Bocca BJ, Jarke M, Zaniolo C, eds. Proc. of the 20th Int’l

Conf. on Very Large Data Bases (VLDB’94). San Francisco: Morgan Kaufmann Publishers, 1994. 487?499.

[35] Park JS, Chen MS, Yu PS. Efficient parallel data mining for association rules. In: Pissinou N, Silberschatz A, Park EK, Makki K,

eds. Proc. of the 4th Int’l Conf. on Information and Knowledge Management. New York: ACM Press, 1995. 31?36. [doi: 10.1145/2 21270.221320]

3040 Journal of Software软件学报 V ol.26, No.11, November 2015

[36] Han J, Fu Y. Discovery of multiple-level association rules from large databases. In: Dayal U, Gray PMD, Nishio S, eds. Proc. of the

21st Int’l Conf. of Very Large Databases (VLDB’95). San Francisco: Morgan Kaufmann Publishers, 1995. 420?431.

[37] Han J, Pei J, Yin Y. Mining frequent patterns without candidate generation. In: Dunham M, Naughton JF, Chen WD, Koudas N,

eds. Proc. of the 2000 ACM SIGMOD Int’l Conf. on Management of Data (SIGMOD 2000). New York: ACM Press, 2000.

1?12. [doi: 10.1145/342009.335372]

[38] Burr L, Spennemann DH. Patterns of user behaviour in university online forums. Int’l Journal of Instructional Technology and

Distance Learning, 2004,1(10):11?28.

[39] Pechenizkiy M, Trcka N, Vasilyeva E, van der Aalst W, De Bra P. Process mining online assessment data. In: Proc. of the Int’l

Working Group on Educational Data Mining. 2009. 279?288.

[40] Mostow J, Beck J, Cen H, Cuneo A, Gouvea E, Heiner C. An educational data mining tool to browse tutor-student interactions:

Time will tell. In: Proc. of the Workshop on Educational Data Mining, National Conf. on Artificial Intelligence. 2005. 15?22. [41] Shen R, Yang F, Han P. Data analysis center based on e-learning platform. In: Hommel G, Huanye S, eds. Proc. of the Internet

Challenge: Technology and Applications. Springer-Verlag, 2002. 19?28. [doi: 10.1007/978-94-010-0494-7_3]

[42] Juan AA, Daradoumis T, Faulin J, Xhafa F. SAMOS: A model for monitoring students’ and groups’ activities in collaborative

e-learning. Int’l Journal of Learning Technology, 2009,4(1):53?72. [doi: 10.1504/IJLT.2009.024716]

[43] Baker RS, Corbett AT, Aleven V. Improving contextual models of guessing and slipping with a truncated training set. In: Proc. of

the Educational Data Mining 2008. 2008. 67?76.

[44] García P, Amandi A, Schiaffino S, Campo M. Evaluating Bayesian networks’ precision for detecting students’ learning styles.

Computers & Education, 2007,49(3):794?808. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2005.11.017]

[45] Jonsson A, Johns J, Mehranian H, Arroyo I, Woolf B, Barto A, Fisher D, Mahadevan S. Evaluating the feasibility of learning

student models from data. In: Proc. of the Educational Data Mining: Papers from the AAAI Workshop. 2005. 1?6.

[46] Chang KM, Beck J, Mostow J, Corbett A. A Bayes net toolkit for student modeling in intelligent tutoring systems. In: Ikeda M,

Ashley KD, Chan TW, eds. Proc. of the 8th Intelligent Tutoring Systems. Springer-Verlag, 2006. 104?113. [doi: 10.1007/11774303 _11]

[47] Arroyo I, Murray T, Woolf BP, Beal C. Inferring unobservable learning variables from students’ help seeking behavior. In: Lester

JC, Vicari RM, Paraguacu F, eds. Proc. of the Intelligent Tutoring Systems. Springer-Verlag, 2004. 782?784. [doi: 10.1007/978-3- 540-30139-4_74]

[48] Antunes C. Acquiring background knowledge for intelligent tutoring systems. In: Proc. of the EDM. 2008. 18?27.

[49] Andrejko A, Barla M, Bieliková M, Tvarozek M. User characteristics acquisition from logs with semantics. In: Proc. of the Int’l

Conf. on Information System Implementation and Modeling. 2007. 103?110.

[50] Robinet V, Bisson G, Gordon M, Lemaire B. Searching for student intermediate mental steps. In: Proc. of the 11th Int’l Conf. on

User Modeling. 2007. 35?39.

[51] Huang J, Zhu A, Luo Q. Personality mining method in Web based education system using data mining. In: Proc. of the IEEE Int’l

Conf. on Grey Systems and Intelligent Services 2007 (GSIS 2007). IEEE, 2007. 155?158. [doi: 10.1109/GSIS.2007.4443256] [52] Matsuda N, Cohen WW, Sewall J, Lacerda G, Koedinger KR. Predicting students’ performance with simstudent: learning cognitive

skills from observation. In: Luckin R, Koedinger KR, Greer J, eds. Proc. of the 2007 Conf. on Artificial Intelligence in Education: Building Technology Rich Learning Contexts That Work. Amsterdam: IOS Press, 2007. 467?476.

[53] Feng M, Beck J. Back to the future: A non-automated method of constructing transfer models. In: Barnes T, Desmarais M, Romero

C, Ventura S, eds. Proc. of the Int’l Working Group on Educational Data Mining, Spain, 2009. 240?248.

[54] Frias-Martinez E, Chen SY, Liu X. Survey of data mining approaches to user modeling for adaptive hypermedia. IEEE Trans. on

Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2006,36(6):734?749. [doi: 10.1109/TSMCC.2006.879391] [55] Romero C, Ventura S. Educational data mining: A review of the state of the art. IEEE Trans. on Systems, Man, and Cybernetics,

Part C: Applications and Reviews, 2010,40(6):601?618. [doi: 10.1109/TSMCC.2010.2053532]

[56] Romero C, Ventura S, Espejo PG, Hervás C. Data mining algorithms to classify students. In: Proc. of the EDM. 2008. 8?17.

[57] Minaei-Bidgoli B, Kashy DA, Kortemeyer G, Punch WF. Predicting student performance: An application of data mining methods

with an educational Web-based system. In: Proc. of the 33rd Annual Frontiers in Education 2003 (FIE 2003). IEEE, 2003. T2A-

13. [doi: 10.1109/FIE.2003.1263284]

周庆等:教育数据挖掘研究进展综述3041

[58] Aher SB, Lobo LMRJ. Combination of machine learning algorithms for recommendation of courses in e-learning system based on

historical data. Knowledge-Based Systems, 2013,51:1?14. [doi: 10.1016/j.knosys.2013.04.015]

[59] Godwin KE, Almeda MV, Petroccia M, Baker RS, Fisher AV. Classroom activities and off-task behavior in elementary school

children. In: Proc. of the Cognitive Science Society. 2013. 2428?2433.

[60] Heidl W, Thumfart S, Lughofer E, Eitzinger C, Klement EP. Machine learning based analysis of gender differences in visual

inspection decision making. Information Sciences, 2013,224:62?76. [doi: 10.1016/j.ins.2012.09.054]

[61] Jin H, Wu T, Liu Z, Yan J. Application of visual data mining in higher-education evaluation system. In: Proc. of the 2009 1st Int’l

Workshop on Education Technology and Computer Science. 2009. 101?104. [doi: 10.1109/ETCS.2009.285]

[62] Wang YH, Tseng MH, Liao HC. Data mining for adaptive learning sequence in English language instruction. Expert Systems with

Applications, 2009,36(4):7681?7686. [doi: 10.1016/j.eswa.2008.09.008]

[63] Hachey AC, Wladis CW, Conway KM. Do prior online course outcomes provide more information than G.P.A. alone in predicting

subsequent online course grades and retention? An observational study at an urban community college. Computers & Education, 2014,72:59?67. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013.10.012]

[64] Vaessen BE, Prins FJ, Jeuring J. University students' achievement goals and help-seeking strategies in an intelligent tutoring

system. Computers & Education, 2014,72:196?208. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013.11.001]

[65] Chen SM, Sue PJ. Constructing concept maps for adaptive learning systems based on data mining techniques. Expert Systems with

Applications, 2013,40(7):2746?2755. [doi: 10.1016/j.eswa.2012.11.018]

[66] He W. Examining students' online interaction in a live video streaming environment using data mining and text mining. Computers

in Human Behavior, 2013,29(1):90?102. [doi: 10.1016/j.chb.2012.07.020]

[67] Romero C, Lopez MI, Luna JM, Ventura S. Predicting students’ final performance from participation in on-line discussion forums.

Computers & Education, 2013,68:458?472. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013.06.009]

[68] Rajendran R, Iyer S, Murthy S, Wilson C, Sheard J. A theory-driven approach to predict frustration in an ITS. IEEE Trans. on

Learning Technologies, 2013,6(4):378?388. [doi: 10.1109/TLT.2013.31]

[69] Salehi M, Kamalabadi IN, Ghoushchi MBG. An effective recommendation framework for personal learning environments using a

learner preference tree and a GA. IEEE Trans. on Learning Technologies, 2013,6(4):350?363. [doi: 10.1109/TLT.2013.28]

[70] Perera D, Kay J, Koprinska I, Yacef K, Zaiane OR. Clustering and sequential pattern mining of online collaborative learning data.

IEEE Trans. on Knowledge and Data Engineering, 2009,21(6):759?772. [doi: 10.1109/TKDE.2008.138]

[71] Ding N, Bosker RJ, Harskamp EG. Exploring gender and gender pairing in the knowledge elaboration processes of students using

computer-supported collaborative learning. Computers & Education, 2011,56(2):325?336. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2010.06.004] [72] Coll C, Rochera MJ, de Gispert I. Supporting online collaborative learning in small groups: Teacher feedback on learning content,

academic task and social participation. Computers & Education, 2014,75:53?64. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2014.01.015]

[73] Li Q, Lau RW, Shih TK, Li FW. Technology supports for distributed and collaborative learning over the internet. ACM Trans. on

Internet Technology, 2008,8(2):1?24. [doi: 10.1145/1323651.1323656]

[74] Araya R, Jiménez A, Bahamondez M, Calfucura P, Dartnell P, Soto-Andrade J. Teaching modeling skills using a massively

multiplayer online mathematics game. World Wide Web, 2014,17(2):213?227. [doi: 10.1007/s11280-012-0173-5]

[75] Uddin S, Thompson K, Schwendimann B, Piraveenan M. The impact of study load on the dynamics of longitudinal email

communications among students. Computers & Education, 2014,72:209?219. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013.11.007]

[76] Chen X, Vorvoreanu M, Madhavan KPC. Mining social media data for understanding students’ learning experiences. IEEE Trans.

on Learning Technologies, 2014,7(3):246?259. [doi: 10.1109/TLT.2013.2296520]

[77] Junco R. The relationship between frequency of Facebook use, participation in Facebook activities, and student engagement.

Computers & Education, 2012,58(1):162?171. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2011.08.004]

[78] Hong JC, Hwang MY, Liu MC, Ho HY, Chen YL. Using a “prediction-observation-explanation” inquiry model to enhance student

interest and intention to continue science learning predicted by their Internet cognitive failure. Computers & Education, 2014,72: 110?120. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013.10.004]

[79] Sun JCY. Influence of polling technologies on student engagement: An analysis of student motivation, academic performance, and

brainwave data. Computers & Education, 2014,72:80?89. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013.10.010]

[80] Liu TC, Lin YC, Paas F. Effects of prior knowledge on learning from different compositions of representations in a mobile learning

environment. Computers & Education, 2014,72:328?338. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013.10.019]

3042

Journal of Software 软件学报 V ol.26, No.11, November 2015

[81] Song Y. “Bring your own device (BYOD)” for seamless science inquiry in a primary school. Computers & Education, 2014,74:50?

60. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2014.01.005]

[82] Chang MM, Lin MC. The effect of reflective learning e-journals on reading comprehension and communication in language

learning. Computers & Education, 2014,71:124?132. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013.09.023]

[83] Behzadan AH, Kamat VR. Enabling discovery-based learning in construction using telepresent augmented reality. Automation in

Construction, 2013,33:3?10. [doi: 10.1016/j.autcon.2012.09.003]

[84] Ibá?ez MB, Di Serio á, Villarán D, Delgado Kloos C. Experimenting with electromagnetism using augmented reality: Impact on

flow student experience and educational effectiveness. Computers & Education, 2014,71:1?13. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013. 09.004]

[85] Cheng KH, Tsai CC. Children and parents’ reading of an augmented reality picture book: Analyses of behavioral patterns and

cognitive attainment. Computers & Education, 2014,72:302?312. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013.12.003]

[86] Wei Z, Porter JR, Morgan JA. Experiential learning of digital communication using LabVIEW. IEEE Trans. on Education, 2014,

57(1):34?41. [doi: 10.1109/TE.2013.2264059]

[87] Pedersen S, Irby T. The VELscience project: Middle schoolers’ engagement in student-directed inquiry within a virtual

environment for learning. Computers & Education, 2014,71:33?42. [doi: 10.1016/https://www.360docs.net/doc/c314002436.html,pedu.2013.09.006]

[88] Myneni LS, Narayanan NH, Rebello S, Rouinfar A, Pumtambekar S. An interactive and intelligent learning system for physics

education. IEEE Trans. on Learning Technologies, 2013,6(3):228?239. [doi: 10.1109/TLT.2013.26]

[89] Kang YQ. An analysis on SPoC: Post ?MooC era of online education. Tsinghua Journal of Education, 2014,35(1):85?93 (in

Chinese with English abstract). [doi: 10.3969/j.issn.1001-4519.2014.01.010]

[90] Firmin R, Schiorring E, Whitmer J, Willett T, Collins ED, Sujitparapitaya S. Case study: Using MOOCs for conventional college

coursework. Distance Education, 2014,35(2):178?201. [doi: 10.1080/01587919.2014.917707]

附中文参考文献:

[6] Facebook 用户总数达到22亿人,占全球总人口1/3. https://www.360docs.net/doc/c314002436.html,/a/20140725/000288.htm

[10] 李婷,傅钢善.国内外教育数据挖掘研究现状及趋势分析.现代教育技术,2010,20(10):21?25.

[11] 王永固,张庆.MOOC:特征与学习机制.教育研究,2014,(9):112?120,133.

[12] 孟万金.网络教育的真谛:人文交互环境下的个性化自主学习.教育研究,2002,(4):52?57.

[13] 常桐善.构建院校智能体系:院校研究发展的新趋势.高等教育研究,2009,30(10):49?54.

[14] 吴彦文,李诗,田庆恒.Mashup 智能答疑系统的研究与实现.计算机工程,2013,39(7):233?236+241. [doi: 10.3969/j.issn.1000-3428.

2013.07.052]

[15] 蒋艳荣,韩坚华,吴伟民.一种自适应的个性化学习序列生成研究.计算机科学,2013,40(8):204?209. [doi: 10.3969/j.issn.1002-

137X.2013.08.043]

[89] 康叶钦.在线教育的“后MOOC 时代”——SPOC 解析.清华大学教育研究,2014,35(1):85?93. [doi: 10.3969/j.issn.1001-4519.2014.

01.010]

周庆(1979-),男,重庆人,博士,教授,博士

生导师,CCF 会员,主要研究领域为人工智

能,数据挖掘技术. 杨丹(1962-),男,博士,教授,博士生导师, CCF 高级会员,主要研究领域为科学与工程计算,软件工程及应用.

牟超(1989-),男,博士生,CCF 学生会员,

主要研究领域为数据挖掘.

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

GIS技术的研究现状及未来发展趋势.

GIS 技术的研究现状及未来发展趋势 摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。 关键词:GIS 研究现状发展趋势 0 引言 随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状 世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

文献综述_数据挖掘

数据挖掘简介 数据挖掘的任务 数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP,onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet,以及IBM公司的决策分析工具都使用了多维数据分析技术。 采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。数据挖掘的分类 数据挖掘所能发现的知识有如下几种: .广义型知识,反映同类事物共同性质的知识; .特征型知识,反映事物各方面的特征知识; .差异型知识,反映不同事物之间属性差别的知识; .关联型知识,反映事物之间依赖或关联的知识; .预测型知识,根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。 数据挖掘的方法 数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受,即不管你选择哪种方法,总存在着某种协定。因此对实际情况,应该具体分析,根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐,也没

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用* 戴晓燕1 过仲阳1 李勤奋2 吴健平1 (1华东师范大学教育部地球信息科学实验室 上海 200062) (2上海市地质调查研究院 上海 200072) 摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 关键词 空间聚类 K-均值法 散度 1 前言 随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。 空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。 空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。 本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2 划分法 设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— *基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学 地理系硕士研究生,主要从事空间数 据挖掘的研究。 · 41 · 2003年第4期 上海地质 Shanghai Geology

数据挖掘研究的现状与发展趋势_郑继刚

数据挖掘研究的现状与发展趋势 郑继刚,王边疆 (保山学院数学系,云南保山678000) 影响其空间分布的因素之间的关系;预测型的模 型用来根据给定的一些属性预测某些属性,如分类模 型和回归模型等. 目前,主要在空间数据挖掘的体系结构和挖掘过 程做了大量研究,包括面向对象的空间数据库的数据 挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类 挖掘、挖掘空间数据的偏离和演变规则、基于多专题 地图的挖掘、交叉概化、基于时空数据的概化、并行数 据挖掘、统计分析与数据挖掘的协同和遥感影像的挖 掘等,主要采用了基于统计学和概率论、集合论、机器 学习、仿生物学、地球信息学的研究方法. 4.2多媒体数据挖掘 多媒体数据,包括图形、图像、文本、文档、超文 本、声音、视频和音频数据等,数据类型复杂.随着信 息技术的进步,人们所接触的数据形式越来越丰富, 多媒体数据的大量涌现,形成了很多海量的多媒体数 据库[8].这些数据大多是非结构化数据、异构数据, 特征向量通常是数十维甚至数百维,转化为结构数据 和降维成了多媒体数据挖掘的关键技术. 有研究者提出了多媒体数据挖掘的系统原型 MDMP,将多媒体数据的建模表示、存储和检索等多 媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联 规则挖掘、分类与聚类分析等挖掘方法,广泛地应用 于医学影像诊断分析、卫星图片分析、地下矿藏预测 等各种领域. 4.3时序数据挖掘 时序数据挖掘通过研究信息的时间特性,深入洞 悉事物进化的机制,揭示其内在规律(如波动的周期、 振幅、趋势的种类等),成为获得知识的有效途径.关 键问题是要是寻找一种合适的序列表示方式,基于点 距离和关键点是常用的算法,但都不能完整表示出序 列的动态属性.时序数据挖掘的主要技术有趋势分析 和相似搜索,在宏观的经济预测、市场营销、客流量分 析、太阳黑子数、月降水量、河流流量、股票价格波动 等众多领域得到了应用.

数据挖掘算法综述

数据挖掘方法综述 [摘要]数据挖掘(DM,DataMining)又被称为数据库知识发现(KDD,Knowledge Discovery in Databases),它的主要挖掘方法有分类、聚类、关联规则挖掘和序列模式挖掘等。 [关键词]数据挖掘分类聚类关联规则序列模式 1、数据挖掘的基本概念 数据挖掘从技术上说是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的、发现的是用户感兴趣的知识, 发现的知识要可接受、可理解、可运用, 并不要求发现放之四海皆准的知识, 仅支持特定的发现问题, 数据挖掘技术能从中自动分析数据进行归纳性推理从中发掘出潜在的数据模式或进行预测, 建立新的业务模型帮助决策者调整策略做出正确的决策。数据挖掘是是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。数据挖掘的主要方法有分类、聚类和关联规则挖掘等 2、分类 分类(Classification)又称监督学习(Supervised Learning)。监

督学习的定义是:给出一个数据集D,监督学习的目标是产生一个联系属性值集合A和类标(一个类属性值称为一个类标)集合C的分类/预测函数,这个函数可以用于预测新的属性集合(数据实例)的类标。这个函数就被称为分类模型(Classification Model),或者是分类器(Classifier)。分类的主要算法有:决策树算法、规则推理、朴素贝叶斯分类、支持向量机等算法。 决策树算法的核心是Divide-and-Conquer的策略,即采用自顶向下的递归方式构造决策树。在每一步中,决策树评估所有的属性然后选择一个属性把数据分为m个不相交的子集,其中m是被选中的属性的不同值的数目。一棵决策树可以被转化成一个规则集,规则集用来分类。 规则推理算法则直接产生规则集合,规则推理算法的核心是Separate-and-Conquer的策略,它评估所有的属性-值对(条件),然后选择一个。因此,在一步中,Divide-and-Conquer策略产生m条规则,而Separate-and-Conquer策略只产生1条规则,效率比决策树要高得多,但就基本的思想而言,两者是相同的。 朴素贝叶斯分类的基本思想是:分类的任务可以被看作是给定一个测试样例d后估计它的后验概率,即Pr(C=c j︱d),然后我们考察哪个类c j对应概率最大,便将那个类别赋予样例d。构造朴素贝叶斯分类器所需要的概率值可以经过一次扫描数据得到,所以算法相对训练样本的数量是线性的,效率很高,就分类的准确性而言,尽管算法做出了很强的条件独立假设,但经过实际检验证明,分类的效果还是

数据挖掘现状与前景

数据挖掘,这是个听起来既神秘,又具有诱惑性的词。就好像要去一片热带沙漠搜寻宝藏,宝藏的诱惑性很强,但是黄沙远处却看不透彻,不知此行是对是错,看到的光亮又是否只是虚幻的海市蜃楼。 所以很多学习数据挖掘的,或是想选择数据挖掘方向的人会在是否踏出第一脚时犹豫不决。 以下,我们就来分析看看数据挖掘的现状及前景。 首先看看百科中数据挖掘的定义:数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。 基于数据挖掘可能产生的巨大价值,我国的各大重点院校都针对数据挖掘开了专业课程以及研究课题,不仅如此,政府以及大型企业也开始重视这一领域,投资人力物力支持数据挖掘项目。 或许这样说还不够直观,那就就数字佐证。 据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。 国外如此,那中国呢? 随着我国信息化的发展,数据的积累及计算机的广泛应用,加上来自外资企业商业智能数据挖掘应用带来的竞争压力,商业智能及数据挖掘也逐渐在中国也形成了一个产业。随着成功案例的增多,不仅仅是金融保险电信等行业或是政府机构,中小企业也逐渐将商业智能应用于业务之中。 信息化时代数据的潜力不容小觑,IT部门一直是企业的核心,而数据挖掘技术更是得到了前所未有的重视和期待。目前我国数据挖掘、商业智能技术的人才培养体系还未健全,而企业对这方面的需求却一直在增长。数据知识发展为核心竞争力是现在及未来必然的形势。因此数据挖掘、商业智能行业的前景还是非常可观的。 所以,请坚定勇敢地踏出迈向数据挖掘的那一步吧,然后扎实地学好所需的知识理论及实践技巧,最后所收获到的,或许比你所期待的还多。

数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究 导读:本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础,对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展,并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。 关键字:数据挖掘 0 引言 近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。 中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计,对数据挖掘在中国发展的现状及发展趋势进行分析和研究,通过分析有关论文的发表,对数据挖掘在中国的理论研究和实际应用提出建议。 1 数据挖掘的应用与研究发展 数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和产业界的广泛关注。 数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。 数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或商业上经常发生的诈骗行为进行预测IBM公司

数据挖掘课程论文综述

海南大学 数据挖掘论文 题目:股票交易日线数据挖掘 学号:20100602310002 姓名: 专业:10信管 指导老师: 分数:

目录 目录 (2) 1. 数据挖掘目的 (3) 2.相关基础知识 (3) 2.1 股票基础知识 (3) 2.2 数据挖掘基础知识 (4) 2.2.2数据挖掘的任务 (5) 3.数据挖掘方案 (6) 3.1. 数据挖掘软件简介 (6) 3.2. 股票数据选择 (7) 3.3. 待验证的股票规律 (7) 4. 数据挖掘流 (8) 4.1数据挖掘流图 (8) 4.2规律验证 (9) 4.2.2规律2验证 (10) 4.2.3规律三验证 (12) 4.3主要节点说明 (14) 5.小结 (15)

1.数据挖掘目的 数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。 2.相关基础知识 2.1 股票基础知识 2.1.1 股票 是一种有价证券,是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。 2.1.2 开盘价 开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。 2.1.3 收盘价 收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。 关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势 Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining. Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency 1引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 江西理工大学

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

数据挖掘文献综述

湘潭大学 本科生专业文献综述 题目: 数据挖掘文献综述 姓名: 林勇 学院: 信心工程学院学院 专业: 自动化 班级: 一班 学号: 2010550113 指导教师: 张莹

0前言 随着计算机技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务 数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类: (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取

数据挖掘中的软计算方法及应用综述

摘要文章对数据挖掘中软计算方法及应用作了综述。对模糊逻辑、遗传算法、神经网络、粗集等软计算方法,以及它们的混合算法的特点进行了分析,并对它们在数据挖掘中的应用进行了分类。 关键词数据挖掘;软计算;模糊逻辑;遗传算法;神经网络;粗集 1 引言 在过去的数十年中,随着计算机软件和硬件的发展,我们产生和收集数据的能力已经迅速提高。许多领域的大量数据集中或分布的存储在数据库中[1][2],这些领域包括商业、金融投资业、生产制造业、医疗卫生、科学研究,以及全球信息系统的万维网。数据存储量的增长速度是惊人的。大量的、未加工的数据很难直接产生效益。这些数据的真正价值在于从中找出有用的信息以供决策支持。在许多领域,数据分析都采用传统的手工处理方法。一些分析软件在统计技术的帮助下可将数据汇总,并生成报表。随着数据量和多维数据的进一步增加,高达109的数据库和103的多维数据库已越来越普遍。没有强有力的工具,理解它们已经远远超出了人的能力。所有这些显示我们需要智能的数据分析工具,从大量的数据中发现有用的知识。数据挖掘技术应运而生。 数据挖掘就是指从数据库中发现知识的过程。包括存储和处理数据,选择处理大量数据集的算法、解释结果、使结果可视化。整个过程中支持人机交互的模式[3]。数据挖掘从许多交叉学科中得到发展,并有很好的前景。这些学科包括数据库技术、机器学习、人工智能、模式识别、统计学、模糊推理、专家系统、数据可视化、空间数据分析和高性能计算等。数据挖掘综合以上领域的理论、算法和方法,已成功应用在超市、金融、银行[4]、生产企业 [5]和电信,并有很好的表现。 软计算是能够处理现实环境中一种或多种复杂信息的方法集合。软计算的指导原则是开发利用那些不精确性、不确定性和部分真实数据的容忍技术,以获得易处理、鲁棒性好、低求解成本和更好地与实际融合的性能。通常,软计算试图寻找对精确的或不精确表述问题的近似解[6]。它是创建计算智能系统的有效工具。软计算包括模糊集、神经网络、遗传算法和粗集理论。 2 数据挖掘中的软计算方法 目前,已有多种软计算方法被应用于数据挖掘系统中,来处理一些具有挑战性的问题。软计算方法主要包括模糊逻辑、神经网络、遗传算法和粗糙集等。这些方法各具优势,它们是互补的而非竞争的,与传统的数据分析技术相比,它能使系统更加智能化,有更好的可理解性,且成本更低。下面主要对各种软计算方法及其混合算法做系统性的阐述,并着重强调它们在数据挖掘中的应用情况。 2.1 模糊逻辑 模糊逻辑是1965年由泽德引入的,它为处理不确定和不精确的问题提供了一种数学工具。模糊逻辑是最早、应用最广泛的软计算方法,模糊集技术在数据挖掘领域也占有重要地位。从数据库中挖掘知识主要考虑的是发现有兴趣的模式并以简洁、可理解的方式描述出来。模糊集可以对系统中的数据进行约简和过滤,提供了在高抽象层处理的便利。同时,数据挖掘中的数据分析经常面对多种类型的数据,即符号数据和数字数据。nauck[7]研究了新的算法,可以从同时包含符号数据和数字数据中生成混合模糊规则。数据挖掘中模糊逻辑主要应用于以下几个方面: (1)聚类。将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。聚类分析是一种重要的人类行为,通过聚类,人能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的关系。模糊集有很强的搜索能力,它对发现的结构感兴趣,这会帮助发现定性或半定性数据的依赖度。在数据挖掘中,这种能力可以帮助

数据挖掘分类算法研究综述终板

数据挖掘分类算法研究综述 程建华 (九江学院信息科学学院软件教研室九江332005 ) 摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。 关键词:数据挖掘;分类;软计算;算法 1引言 1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge DiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,Data Mining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。 基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。 2传统的数据挖掘分类方法 分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输出样本集知识的老师,但环境及其特性、模型参数等却是未知的。 2.1判定树的归纳分类 判定树是一个类似流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IFTHEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。 判定树归纳的基本算法是贪心算法,它是自顶向下递归的各个击破方式构造判定树。其中一种著名的判定树归纳算法是建立在推理系统和概念学习系统基础上的ID3算法。 2.2贝叶斯分类 贝叶斯分类是统计学的分类方法,基于贝叶斯公式即后验概率公式。朴素贝叶斯分类的分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,?X n}表示,其中X k是属性A k的值。所有的样本分为m类:C1,C2,?,C n。对于一个类别的标记未知的数据记录而言,若P(C i/X)>P(C j/X),1≤ j≤m,j≠i,也就是说,如果条件X下,数据记录属于C i类的概率大于属于其他类的概率的话,贝叶斯分类将把这条记录归类为C i类。 建立贝叶斯信念网络可以被分为两个阶段。第一阶段网络拓扑学习,即有向非循环图的——————————————————— 作者简介:程建华(1982-),女,汉族,江西九江,研究生,主要研究方向为数据挖掘、信息安全。

基于matlab的数据挖掘技术研究【文献综述】

毕业论文文献综述 信息与计算科学 基于matlab的数据挖掘技术研究 数据挖掘是用于大规模数据处理的一种新的思维方式和技术手段,他是在现实生活中各种数据量呈指数级不断增长,以及以数据库(database)技术为核心的信息技术逐渐成熟的背景下产生的。数据挖掘可以帮助用户发现影藏在大型数据库中的规律和模式,它融合了人工智能(artificial intelligence)、统计(statistics)、机器学习(nachine learning)、模式识别(pattern recognition)和数据库等多种学科的理论、方法与技术,已经在商业、企业、政府、科研及体育等多种不同类型的组织机构和领域中获得了非常广泛的应用。即使在日常生活中,数据挖掘技术也已经潜移默化地参与到人们的生活质量改善过程中。 数据挖掘有很多种技术和计算方法,包括决策树方法(decision tree)、人工神经网络方法(artificial neural metwork,ANN)、聚类分析、模糊集合方法、遗传算法(genetic algorithm)、模拟退火算法(simulated annealing,SA)、进化式程序设计(evolutionary programming)等。这里主要介绍一下聚类分析、遗传算法和人工神经网络算法。 聚类分析也称无监督学习,或无教师学习,或无指导学习,因为和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定。聚类分析是研究如何在没有训练的条件下把样本划分为若干。聚类(clustering)是对物理的或抽象的样本集合分组的过程。聚类分析有很多种目标,但都涉及把一个样本集合分组或分割为子集或簇(cluster)。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。聚类分析主要针对的数据类型包括区间标度变量、二值变量、标称变量、序数型变量、比例标度型变量以及由这些变量类型构成的复合类型。聚类算法应具有以下几个特点:1处理不同字段类型的能力;2可伸缩性;3处理高维数据的能力;4发现具有任意簇的形状的族类能力;5能够处理异常数据;6对数据顺序的不敏感性;7输入参数对领域知识的弱依赖性;8聚类结果的可解释性和实用性;9增加限制条件后的聚类分析能力。 基因算法起源于对生物系统进行的计算机模拟研究,是一种受生物进化启发,使用计算机模拟生物进化的学习方法。基因算法是模拟生物进化过程的计算模型,是自然遗传学与计算机科学互相结合、互相渗透而形成的新的计算方法。基因算法的最大优点是问题求解与初始条件无关,搜索最优解的能力极强。从数学的角度看,基因算法是一种概率型搜索算法:从工程学角度看,它是一种自适应的迭代寻优过程。基因算法需要完成两种数据转换,算法实施之前进行从表现型到基因型的转换,即将搜索空间中的参数或可行解转化成遗传空间中的染色体或个体,完成编码操作;在算法

数据挖掘在中国的现状和发展研究.

万方数据 万方数据 万方数据 万方数据 万方数据 Vo.l18.N.o3管理工程学报2004年第3期圈回[l4j网[l6j皿[lsj[l9j厂.Ll周生炳,张钱,成栋.于规则面向属性的数据库归纳的无回基溯算法[7软件学报,9,()63681.1917:7一7.90蒋嵘,李德毅,范建华.数值型

数据的泛概念树的自动生成方法【1计算机学报,0,()4046i.2025:一7.037一」一一尸十勺,1,刁[7软件学报,0,()7574J.2016:一4.013周水庚,周傲类,曹晶.基于数据分区的DSABCN算法【l计J.算机研究与发展,0,0)13192030:一1.07155「一-,,‘ ,郭建生,,赵奕施鹏飞一种有效的用于数据挖掘的动态概念毛国君,椿年.于项目序列集操作的关联规则挖掘算法刘基]i计算机学报,0,()4742I.2224:1一2.05IL尸聚类算法[l软件学报,0,()一9.J.2114:2510258内、内j「一一J魏李,宫学庆,钱卫宁,高维空间中的离群点发现〔l软件等.J.学报,0,32:8一9.221()20200门仁」程岩,黄梯云.粗糙集中定量关联规则的发现及其规则约简的方法研究【〕管理工程学报,0,()7-7J2113:7.053esLF飞)4俞蓓,王军,叶施仁.基于近邻方法的高维数据可视化聚类方苑森森,程晓青,数量关联规则发现中的聚类方法研究【l计i.法〔7计算机研究与发展,0,()747.J.2036:-07120r..L算机学报,0,()87812028:一7.036倪志伟,蔡庆生,方瑾.用神经网络来挖掘数据库中的关联规内、〕‘ 一一J「陈宁,陈安,周龙骥.大规模交易数据库的一种有效聚类算法[7软件学报,0,()4544J.2114:7一8.02L则【l系统仿真学报,0,()65671.2016:-.0288J内几6lesEtM,rSneJAgimadlaosstlsrPtKadrlrhsapcifpieeH,e.tonpitnoaar陆建江.数据库中布尔型及广义模糊型加权关联规则的挖掘dai仁lIicprGoaiDtMngamnZ.vehtferhainatignntaeogpcaindrdKolgDsvr,eroorhiGSTyrdnweeceRscMngpsI,ladioyeahanaonFacs20.一3.rni,112

相关文档
最新文档