数据挖掘在化学化工中的研究进展

发表时间：2018-09-18T20:57:39.343Z 来源：《基层建设》2018年第23期作者：韦丽群

[导读] 摘要：作为一项交叉学科，数据挖掘在当今的大数据时代已经被应用到很多的领域之中，并且发挥着显著的作用。

广州正虹环境科技有限公司广东广州 510530

摘要：作为一项交叉学科，数据挖掘在当今的大数据时代已经被应用到很多的领域之中，并且发挥着显著的作用。随着数据挖掘在化学化工这一领域中的广泛应用，有效的使这一领域实现了研究思路以及研究手段的进一步丰富。极大的推动了化学领域的良好发展，为当今时代的经济以及科技的进一步发展极大程度的提供了有利条件。本文就是对数据挖掘在化学化工中的研究进展进行分析，希望可以起到良好的作用。

关键词：数据挖掘；化学化工；研究进展

近年来，随着经济以及科技的进一步发展，数据技术也取得了不断的发展，因此在各个行业中也都积累了大量的数据。随着大数据时代的到来，表面的数据已经难以满足人们对数据的进一步需求，因此数据挖掘也就被各个行业进行了广泛的应用，进而取得了进一步的发展。尤其是对于化学化工领域而言，数据挖掘的应用实现了其研究思路以及研究手段的进一步创新，有效的促进了化学化工业的良好发展。本文就是对其在化学化工领域中的应用以及发展进行研究。

图1

一、数据挖掘在化工建模中的应用

在化工领域中，化工建模一直都是一项难度较大的内容。在实际的建模过程中往往会因为很多条件以及因素的交互性或者是非线性对系统造成影响，一次就是化工建模的难度进一步加大。但是随着数据挖掘这一技术在化学化工领域中的应用，凭借其算法丰富的优势使得化工建模实现了进一步的优化。将神经网络算法在化工建模中进行合理的应用，能够对任意的非线性映射以任意的精度来逼近，这样就可以实现对含噪声以及非线性的数据进行更加有效的处理；将遗传算法在化工建模中进行合理的应用，可以在不需要对问题模型的相关特征进行依赖的情况下来实现对非线性问题的良好解决，这样解决问题的方式在鲁棒性以及全局性的方面都有着最佳的优势，使化工建模的效率实现了进一步的提高，同时使其并行性的特点得以实现；主元分析在化工建模中的合理应用，通过对数据的简化、对数据的压缩、对数据的建模等来实现对非线性数据的有效解决；偏最小二乘法在化工建模中的合理应用，使得自变量的回归建模以及多变量的回归建模发挥出更加显著的优势[1]。

二、数据挖掘使化工工艺条件的应用实现了进一步的优化

数据挖掘技术在化学化工领域中的合理应用，可以在海量的高维、交互以及无序的自变量的数据库里对潜在的因变量信息以及能够导向的因变量信息进行发现。数据挖掘技术在化学化工中的应用，通过对聚类算法、分类决策树算法以及分类树算法等进行合理的应用，来实现对多维的无序自变量以及特定的因变量进行最优选择。数据挖掘这一特点在化学化工中的合理应用，将会使化工工艺实现进一步的优化。其自变量可以是多维的工艺条件以及非线性的工艺条件，因变量是特定的化学工艺结果，因此应用数据挖掘技术可以实现对不同算法的进一步优化，这样就可以科学的对最佳工艺条件进行确定。

三、数据挖掘在数据库平台的应用

数据库就是一个对决策的过程、集成以及交互都实现支持以及管理的数据集合。数据挖掘技术在数据库平台的应用，对于大量的无序数据以及非线性数据，可以采用关联、聚类、模糊集、最小冗余以及最大权重等的特征算法进行应用，来实现对非线性数据信息的系统进行整合。数据挖掘技术在化学化工中的应用，可以使人们在对各种数据之间的关联进行分析以及查找的时候，通过人机交互界面来更加直观、更加简洁的呈现，进一步为这项工作的实施提供了便利，同时可以将模糊偏好有效的引入到数据信息查找的条件之中，这样就可以有效的使搜索结果在灵活性方面得以显著的提高。因此，数据挖掘技术在数据库平台中的应用，可以有效的实现对化工数据的聚类以及关联，从而有效的实现对化工数据库的建立以及对化工的应用软件进行进一步的开发，因此这也是数据挖掘技术应用在化学化工领域之中的一个热点内容[2]。

四、数据挖掘在化学化工安全生产中的应用

化学化工企业是最容易发生安全事故的企业，所以化学化工的安全生产一直都是人们所广泛关注的话题。采用传统的方法对化学化工生产中的安全事故不能做到有效的预防和控制，只能够小心谨慎的进行安全事故的监控与排查，所以对于化学化工企业的安全事故而言，传统的办法都太过被动，因此在对化学化工安全事故进行控制的过程中也没有取得满意的效果，导致化学化工企业在生产的过程中，安全事故频频发生[3]。

随着近年来数据挖掘技术被应用到化学化工的领域之中，并且取得了良好的发展，使的化学化工企业的安全事故得到了有效的控制，因此也就进一步的实现了化学化工企业的按安全生产。随着模糊理论以及Bayes的主观算法等科学应用，使得不确定性的推理方法被数据挖掘技术也有效的提供，进而实现了对安全事故在其发生的原因以及发生的征兆间进行随机性的以及模糊性的不确定关系的有效研究。将化工厂对大量运行数据的储存作为依据，将数据挖掘技术在特定算法方面进行科学合理的运用，来实现对每一个事故的征兆对于其运算结

数据挖掘研究的现状与发展趋势_郑继刚

数据挖掘研究的现状与发展趋势郑继刚,王边疆 (保山学院数学系,云南保山678000) 影响其空间分布的因素之间的关系;预测型的模型用来根据给定的一些属性预测某些属性,如分类模型和回归模型等. 目前,主要在空间数据挖掘的体系结构和挖掘过程做了大量研究,包括面向对象的空间数据库的数据挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类挖掘、挖掘空间数据的偏离和演变规则、基于多专题地图的挖掘、交叉概化、基于时空数据的概化、并行数据挖掘、统计分析与数据挖掘的协同和遥感影像的挖掘等,主要采用了基于统计学和概率论、集合论、机器学习、仿生物学、地球信息学的研究方法. 4.2多媒体数据挖掘多媒体数据,包括图形、图像、文本、文档、超文本、声音、视频和音频数据等,数据类型复杂.随着信息技术的进步,人们所接触的数据形式越来越丰富, 多媒体数据的大量涌现,形成了很多海量的多媒体数据库[8].这些数据大多是非结构化数据、异构数据, 特征向量通常是数十维甚至数百维,转化为结构数据和降维成了多媒体数据挖掘的关键技术. 有研究者提出了多媒体数据挖掘的系统原型ＭＤＭＰ,将多媒体数据的建模表示、存储和检索等多媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联规则挖掘、分类与聚类分析等挖掘方法,广泛地应用于医学影像诊断分析、卫星图片分析、地下矿藏预测等各种领域. 4.3时序数据挖掘时序数据挖掘通过研究信息的时间特性,深入洞悉事物进化的机制,揭示其内在规律(如波动的周期、振幅、趋势的种类等),成为获得知识的有效途径.关键问题是要是寻找一种合适的序列表示方式,基于点距离和关键点是常用的算法,但都不能完整表示出序列的动态属性.时序数据挖掘的主要技术有趋势分析和相似搜索,在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格波动等众多领域得到了应用.

数据挖掘研究现状综述

数据挖掘引言数据挖掘是一门交叉学科，涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。所谓的数据挖掘（Data Mining）指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息，提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说，数据挖掘是在对数据全面了解认识的基础之上进行的一次升华，是对数据的抽象和概括。如果把数据比作矿产资源，那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比，原始的数据信息可以是结构化的，数据库中的数据，也可以是半结构化的，如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法：使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

数据挖掘简介

数据挖掘综述

数据挖掘综述摘要：数据挖掘是一项较新的数据库技术，它基于由日常积累的大量数据所构成的数据库，从中发现潜在的、有价值的信息——称为知识，用于支持决策。数据挖掘是一项数据库应用技术，本文首先对数据挖掘进行概述，阐明数据挖掘产生的背景，数据挖掘的步骤和基本技术是什么，然后介绍数据挖掘的算法和主要应用领域、国内外发展现状以及发展趋势。关键词：数据挖掘，算法，数据库 ABSTRACT：Data mining is a relatively new database technology, it is based on database, which is constituted by a large number of data coming from daily accumulation, and find potential, valuable information - called knowledge from it, used to support decision-making. Data mining is a database application technology, this article first outlines, expounds the background of data mining , the steps and basic technology, then data mining algorithm and main application fields, the domestic and foreign development status and development trend. KEY WORDS: data mining ,algorithm, database 数据挖掘产生的背景上世纪九十年代．随着数据库系统的广泛应用和网络技术的高速发展，数据库技术也进入一个全新的阶段，即从过去仅管理一些简单数据发展到管理由各种计算机所产生的图形、图像、音频、视频、电子档案、Web页面等多种类型的复杂数据，并且数据量也越来越大。在给我们提供丰富信息的同时，也体现出明显的海量信息特征。信息爆炸时代．海量信息给人们带来许多负面影响，最主要的就是有效信息难以提炼。过多无用的信息必然会产生信息距离(the Distance of Information-state Transition，信息状态转移距离，是对一个事物信息状态转移所遇到障碍的测度。简称DIST或DIT)和有用知识的丢失。这也就是约翰·内斯伯特(John Nalsbert)称为的“信息丰富而知识贫乏”窘境。因此，人们迫切希望能对海量数据进行深入分析，发现并提取隐藏在其中的信息．以更好地利用这些数据。但仅以数据库系统的录入、查询、统计等功能，无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。更缺乏挖掘数据背后隐藏知识的手段。正是在这样的条件下，数据挖掘技术应运而生。数据挖掘的步骤在实施数据挖掘之前，先制定采取什么样的步骤，每一步都做什么，达到什么样的目标是必要的，有了好的计划才能保证数据挖掘有条不紊的实施并取得成功。很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型，来指导他们的用户一步步的进行数据挖掘工作。比如SPSS公司的5A和SAS公司的SEMMA。数据挖掘过程模型步骤主要包括：1定义商业问题；2建立数据挖掘模型；3分析数据；4准备数据；5建立模型；6评价模型；7实施。 1定义商业问题。在开始知识发现之前最先的同时也是最重要的要求就是了

时空关联性分析方法研究与应用

时空关联性分析方法研究与应用摘要：随着信息技术、通讯技术、数字存储技术和高速数据获取技术的迅猛发展，在交通、电力、物流、环境监控、工业生产等领域积累了大量与时间和地理空间相关的数据资源，可这些随时随地获取的、呈爆炸性增长的数据资源在给我们带来丰富信息的同时，“数据越丰富，知识越贫乏”的问题则日益突出。近年来，越来越多的学者认识到，通过研究空间对象随时间的变化规律，发现数据的时空关联规则，分析数据的时空变化趋势并预测未来的时空状态，对于规划建设、指挥调度、应急管理、信息服务等具有重要的应用价值。本文研究的目的是面向智能交通领域，在时空关联性分析基础上，利用时空关联规则挖掘方法获取含时空约束的关联规则，从而进行交通拥堵趋势分析，为道路导航、趋势查询、交通控制等提供辅助决策信息。时空关联性分析是研究空间对象随时间的变化规律，反映时空数据在时间和空间上的关联性，时空关联规则挖掘作为时空关联性分析的主要方法之一，目前已有不少学者对其进行了研究或应用。本文详细介绍了时空关联规则挖掘的研究现状，通过分析现有时空关联规则算法在同时考虑时间和空间约束方面的不足，实现了一种新的时空关联规则挖掘方法。文中首先对时空数据进行空间关联性分析和时间段划分形成事务表，然后对空间关联的项集进行连接并产生时空关联规则。在算法执行过程中，对关联规则挖掘相关的阈值进行了分析，使挖掘所得的结果能更好的满足用户的需求。算法分析和实验对比表明，同时考虑时间和空间约束，能够在分析过程中及时过滤不相关的数据，提高时空关联规则的获取效率，能够有效地发现时空关联规则。在理论研究的基础上，本文设计并实现了一个基于时空关联规则分析交通拥堵趋势的原型系统，可有效地实现时空关联性分析和结果的可视化。关键词：时空关联性分析，时空关联规则，可视化，阈值分析，交通拥堵时空关联性分析绪论当前像气象预报、环境监测和交通控制等领域，在问题的求解过程中越来越需要同时考虑时间和空间因素，而时空关联性分析的目标就是明确时空数据的时间有效性和空间可达性，从而在时间和空间上进行有效的趋势分析和预测。时空关联规则挖掘作为时空关联性分析的主要方法之一，将作为本文研究的重点，用时空关联规则挖掘方法来分析含时间和空间约束的时空关联性，从而进行趋势分析与预测。本章首先阐述了时空关联规则的研究背景，并介绍了国内外学者和研究人员在时空关

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要：从数据挖掘的定义出发，介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点；详细总结了国内外数据挖掘的研究现状及研究热点，指出了数据挖掘的发展趋势。关键词：数据挖掘；挖掘算法；神经网络；决策树；粗糙集；模糊集；研究现状；发展趋势 Abstract：From the definition of data mining，the paper introduced concepts and advantages and disadvantages of neural network algorithm，decision tree algorithm，genetic algorithm，rough set method，fuzzy set method and association rule method of data mining，summarized domestic and international research situation and focus of data mining in details，and pointed out the development trend of data mining. Key words：data mining，algorithm of data mining，neural network，decision tree，rough set，fuzzy set，research situation，development tendency 1引言随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，迫切需要能自动地、智能地将待处理的数据转化为有价值的信息，从而达到为决策服务的目的。在这种情况下，一个新的技术———数据挖掘(Data Mining，DM)技术应运而生[2]。数据挖掘是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。江西理工大学

文献综述_数据挖掘

数据挖掘简介数据挖掘的任务数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩，给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值，或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。多维数据分析方法是一种数据仓库技术，也称作联机分析处理(OLAP，onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作，这类操作的计算量特别大。因此一种很自然的想法是，把汇集操作结果预先计算并存储起来，以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用，如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet，以及IBM公司的决策分析工具都使用了多维数据分析技术。采用多维数据分析方法进行数据总结，它针对的是数据仓库，数据仓库存储的是脱机的历史数据。为了处理联机数据，研究人员提出了一种面向属性的归纳方法。它的思路是，直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化，而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系，它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后，就可以对它进行各种深入的操作而生成满足用户需要的知识，如在泛化关系基础上生成特性规则、判别规则、分类规则，以及关联规则等。数据挖掘的分类数据挖掘所能发现的知识有如下几种: .广义型知识，反映同类事物共同性质的知识; .特征型知识，反映事物各方面的特征知识; .差异型知识，反映不同事物之间属性差别的知识; .关联型知识，反映事物之间依赖或关联的知识; .预测型知识，根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现，随着概念树的提升，从微观到中观再到宏观，以满足不同用户、不同层次决策的需要。例如，从一家超市的数据仓库中，可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”，也可能是“买食品的顾客几乎都用信用卡”，这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。数据挖掘的方法数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用，然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受，即不管你选择哪种方法，总存在着某种协定。因此对实际情况，应该具体分析，根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐，也没

遥感影像数据挖掘研究进展_周小成

遥感影像数据挖掘研究进展周小成,汪小钦 (福州大学福建省空间信息工程研究中心,数据挖掘与信息共享教育部重点实验室,福州350002) 逐一细化成精细类别,通过加入决策函数一步一步地进行分类。典型的决策树方法有分类回归树(CART)、ID3、 C5.0等。与传统的单层最大似然法分类器相比,决策树可以在不同的分类等级与节点上采用不同的特征子集,甚至可以采用不同的分类器;可以选用较少的特征,避免高维数据带来的系列问题[14]。在实际中,一般类别都交错分布,在这种情况下,可以采用空间分割聚类的方法,即分割线两边在当前情况下具有最大的对比度,子集内可以有多个类型分布而不再要求分割到单个的类别[15]。利用数据挖掘技术从GIS和遥感影像中发现知识,可以改善土地利用分类的精度。Huang[16](1997)等用C4.5算法从GIS数据和SPOT多光谱图像数据中提取知识进行湿地分类。Eklund,et al.[17](1998)在土壤盐碱度分析中,采用 C4.5归纳学习算法从TM图像和地图数据提取到相关知识。布和敖斯尔[18](1999)提出了基于知识发现和决策规则基础的盐碱地GIS和遥感分类的方法。Deren LI[19](2000) 提出了空间对象尺度和像素尺度两个学习尺度用于从空间数据中归纳学习。用C5.0归纳学习算法发现有关空间分布模式和形状特征规则,然后用总结的模式对图像重新分类。通过与单纯Bayes分类结果的比较,总体分类精度大大提高。潘永生[20](2002)利用改进的决策树算法和修剪算法对乳腺疾病图像进行数据挖掘,证明了决策树算法在医学图像数据挖掘领域有着广泛的应用前景。 2.2.2利用空间知识规则辅助分类利用空间数据挖掘理论挖掘的空间关联规则、空间特征规则、空间聚类规则等空间知识规则可以提高遥感解译的可靠性、精度和速度[21]。如森林迹地海拔高于100m,居民地和道路相连等。王雷[22](2001)利用遥感影像分类获取的地物类型分别与坡向叠加,生成坡向直方图。发现旱地偏东向的频率较高,居民地则是偏南向的频率较高。这种方法提高了遥感非监督分类的效率与可靠性,有助于地学规律的发现与描述。杨存建[23](2001)通过对不同类型居民地的遥感影像特征、光谱特征和空间关系分析,从而发现居民地的光谱特征知识、空间关系知识,建立了基于知识的遥感图像居民

数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究导读：本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础，对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展，并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。关键字：数据挖掘 0 引言近年来，随着计算机对数据的生成、收集、存贮和处理能力的大大提高，数据量与日俱增，传统的数据分析工具对海量数据的处理力不从心，数据挖掘技术应运而生。中国科研工作者近几年来积极开展了对数据挖掘的研究，并在理论研究和实际应用上取得了一定的成绩，但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计，对数据挖掘在中国发展的现状及发展趋势进行分析和研究，通过分析有关论文的发表，对数据挖掘在中国的理论研究和实际应用提出建议。 1 数据挖掘的应用与研究发展数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。数据挖掘是一门新兴的边缘学科，近年来引起了中国学术界和产业界的广泛关注。数据挖掘出现于20世纪80年代后期，90年代有了突飞猛进的发展。2001年，Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首，并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review)提出将在未来5年对人类产生重大影响的10大新兴技术，其中第3项就是数据挖掘。数据挖掘技术已被广泛的应用于各个领域，其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统，能够帮助天文学家发现遥远的类星体，是人工智能技术在天文学和空间科学上的第一批成功应用之一；生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式，对客户进行了分析；对银行或商业上经常发生的诈骗行为进行预测IBM公司

数据挖掘在化学化工中的研究进展

数据挖掘在化学化工中的研究进展发表时间：2018-09-18T20:57:39.343Z 来源：《基层建设》2018年第23期作者：韦丽群 [导读] 摘要：作为一项交叉学科，数据挖掘在当今的大数据时代已经被应用到很多的领域之中，并且发挥着显著的作用。广州正虹环境科技有限公司广东广州 510530 摘要：作为一项交叉学科，数据挖掘在当今的大数据时代已经被应用到很多的领域之中，并且发挥着显著的作用。随着数据挖掘在化学化工这一领域中的广泛应用，有效的使这一领域实现了研究思路以及研究手段的进一步丰富。极大的推动了化学领域的良好发展，为当今时代的经济以及科技的进一步发展极大程度的提供了有利条件。本文就是对数据挖掘在化学化工中的研究进展进行分析，希望可以起到良好的作用。关键词：数据挖掘；化学化工；研究进展近年来，随着经济以及科技的进一步发展，数据技术也取得了不断的发展，因此在各个行业中也都积累了大量的数据。随着大数据时代的到来，表面的数据已经难以满足人们对数据的进一步需求，因此数据挖掘也就被各个行业进行了广泛的应用，进而取得了进一步的发展。尤其是对于化学化工领域而言，数据挖掘的应用实现了其研究思路以及研究手段的进一步创新，有效的促进了化学化工业的良好发展。本文就是对其在化学化工领域中的应用以及发展进行研究。图1 一、数据挖掘在化工建模中的应用在化工领域中，化工建模一直都是一项难度较大的内容。在实际的建模过程中往往会因为很多条件以及因素的交互性或者是非线性对系统造成影响，一次就是化工建模的难度进一步加大。但是随着数据挖掘这一技术在化学化工领域中的应用，凭借其算法丰富的优势使得化工建模实现了进一步的优化。将神经网络算法在化工建模中进行合理的应用，能够对任意的非线性映射以任意的精度来逼近，这样就可以实现对含噪声以及非线性的数据进行更加有效的处理；将遗传算法在化工建模中进行合理的应用，可以在不需要对问题模型的相关特征进行依赖的情况下来实现对非线性问题的良好解决，这样解决问题的方式在鲁棒性以及全局性的方面都有着最佳的优势，使化工建模的效率实现了进一步的提高，同时使其并行性的特点得以实现；主元分析在化工建模中的合理应用，通过对数据的简化、对数据的压缩、对数据的建模等来实现对非线性数据的有效解决；偏最小二乘法在化工建模中的合理应用，使得自变量的回归建模以及多变量的回归建模发挥出更加显著的优势[1]。二、数据挖掘使化工工艺条件的应用实现了进一步的优化数据挖掘技术在化学化工领域中的合理应用，可以在海量的高维、交互以及无序的自变量的数据库里对潜在的因变量信息以及能够导向的因变量信息进行发现。数据挖掘技术在化学化工中的应用，通过对聚类算法、分类决策树算法以及分类树算法等进行合理的应用，来实现对多维的无序自变量以及特定的因变量进行最优选择。数据挖掘这一特点在化学化工中的合理应用，将会使化工工艺实现进一步的优化。其自变量可以是多维的工艺条件以及非线性的工艺条件，因变量是特定的化学工艺结果，因此应用数据挖掘技术可以实现对不同算法的进一步优化，这样就可以科学的对最佳工艺条件进行确定。三、数据挖掘在数据库平台的应用数据库就是一个对决策的过程、集成以及交互都实现支持以及管理的数据集合。数据挖掘技术在数据库平台的应用，对于大量的无序数据以及非线性数据，可以采用关联、聚类、模糊集、最小冗余以及最大权重等的特征算法进行应用，来实现对非线性数据信息的系统进行整合。数据挖掘技术在化学化工中的应用，可以使人们在对各种数据之间的关联进行分析以及查找的时候，通过人机交互界面来更加直观、更加简洁的呈现，进一步为这项工作的实施提供了便利，同时可以将模糊偏好有效的引入到数据信息查找的条件之中，这样就可以有效的使搜索结果在灵活性方面得以显著的提高。因此，数据挖掘技术在数据库平台中的应用，可以有效的实现对化工数据的聚类以及关联，从而有效的实现对化工数据库的建立以及对化工的应用软件进行进一步的开发，因此这也是数据挖掘技术应用在化学化工领域之中的一个热点内容[2]。四、数据挖掘在化学化工安全生产中的应用化学化工企业是最容易发生安全事故的企业，所以化学化工的安全生产一直都是人们所广泛关注的话题。采用传统的方法对化学化工生产中的安全事故不能做到有效的预防和控制，只能够小心谨慎的进行安全事故的监控与排查，所以对于化学化工企业的安全事故而言，传统的办法都太过被动，因此在对化学化工安全事故进行控制的过程中也没有取得满意的效果，导致化学化工企业在生产的过程中，安全事故频频发生[3]。随着近年来数据挖掘技术被应用到化学化工的领域之中，并且取得了良好的发展，使的化学化工企业的安全事故得到了有效的控制，因此也就进一步的实现了化学化工企业的按安全生产。随着模糊理论以及Bayes的主观算法等科学应用，使得不确定性的推理方法被数据挖掘技术也有效的提供，进而实现了对安全事故在其发生的原因以及发生的征兆间进行随机性的以及模糊性的不确定关系的有效研究。将化工厂对大量运行数据的储存作为依据，将数据挖掘技术在特定算法方面进行科学合理的运用，来实现对每一个事故的征兆对于其运算结

数据挖掘项目介绍

目录 1.数据挖掘概述 (2) 1.1现实情况 (2) 1.2 数据挖掘定义 (3) 1.3 数据挖掘技术发展 (3) 1.4 数据挖掘在业务方面的应用(以金融业为例) (4) 1.4.1客户细分―使客户收益最大化的同时最大程度降低风险 (4) 1.4.2客户流失―挽留有价值的客户 (4) 1.4.3交叉销售 (5) 1.4.4 开发新客户 (5) 2.数据挖掘项目实施步骤 (5) 2.1数据理解 (6) 2.2数据准备 (6) 2.3建立模型 (6) 2.4模型评估 (6) 2.5发布结果 (6)

1.数据挖掘概述 1.1现实情况 ①.业务中的数据量呈现指数增长（GB/小时） ②.传统技术难以从这些大量数据中发现有价值的规律 ③.数据挖掘可以帮助我们从大量数据中发现有价值的规律社会需求：著名的“啤酒尿布”案例：美国加州某个超级卖场通过数据挖掘发现，下班后前来购买婴儿尿布的男顾客大都购买啤酒。于是经理当机立断，重新布置货架，把啤酒类商品布置在婴儿尿布货架附近，并在二者之间放置佐酒食品，同时还把男士日常用品就近布置。这样，上述几种商品的销量大增。

1.2 数据挖掘定义数据挖掘技术定义：数据挖掘（Data Mining，DM）是指从大量不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念（Concepts）、规则(Rules)、模式(Patterns)等形式。用统计分析和数据挖掘解决商务问题。数据挖掘商业定义：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。它可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理，从而利用已有数据预测未来，帮助企业赢得竞争优势。 1.3 数据挖掘技术发展数据挖掘是一个交叉学科领域，受多个学科影响，包括数据库系统、统计学、机器学习、可视化和信息科学。技术分类一、预言（Predication）：用历史预测未来二、描述（Description）：了解数据中潜在的规律

基于时空数据挖掘的案事件时空分析研究开题报告

如文档对您有帮助，欢迎下载支持，谢谢！福州大学硕士研究生论文开题报告

一、论文选题依据（包括本课题国内外研究现状述评，研究的理论与实际意义，对科技、经济和社会发展的作用等） 1. 选题依据 1.1研究背景上世纪90年代以来，为适应全球信息高速公路建设的潮流，我国先后启动了面向政府办公业务的十二个重点信息应用系统工程，简称“十二金工程”[1]。公安信息化工程（即“金盾工程”）就是其中重要的业务系统之一。经过十几年的发展，基本实现了以全国犯罪信息中心（CCIC）为核心，以各项公安业务应用为基础的信息共享和综合利用，为各项公安工作提供强有力的信息支持。与此同时，公安信息系统中也积累了海量的业务信息，其中案事件信息达数百万条，且以每年100至120万条的速度递增[2]。然而，面对日益庞大的案事件信息和日趋复杂的犯罪形势，以传统的查询、统计等方法和技术很难发现其中隐藏的关联、规律和发展趋势，数据丰富而知识贫乏在相当程度上制约了打击预防犯罪工作的开展。近年来，大数据成为新的创新、竞争和生产力的前沿领域，基于案事件全量大数据的获取、组织、管理和利用为解决上述问题提供了机遇，提出了挑战。因此，利用案事件大数据，分析、挖掘犯罪在空间和时间上的分布规律和变化趋势，获得其隐含的知识和洞察力，为制定犯罪控制策略、识别犯罪模式、优化警力部署和警区规划等提供科学依据，从而增强公安部门打击预防犯罪的能力，提高警务决策水平，具有重要的意义。 1.2 研究意义案事件的发生与所处的社会、经济、人口和环境之间构成一个复杂系统[3-4]。犯罪问题也是一个复杂的社会问题，受社会环境、经济、人口、文化、心理等多种因素的共同影响，所以可以认为案事件在微观上的技术、手段和宏观上的时空分布规律的变化存在着所处社会环境的表征。以边沁（Jeremy Bentham）为代表的古典犯罪学派和犯罪学之父龙勃罗梭（Cesare Lombroso）开创的实证学派都对犯罪成因做了相关研究。菲利（Enrico Ferri）还系统提出了犯罪原因三元论：人类学因素、自然因素和社会因素[5]，李斯特（Frantz von Liszt）认为自然因素只是社会因素的一种，主张二元论，即社会因素和个人因素[6]。这些理论只能定性地说明和解释犯罪行为产生的原因，包括现代犯罪成因研究采用多元回归等统计方法建立的各种犯罪学模型也只能在一定意义上验证已有理论，定量解释和预测较大时间、空间跨度下犯罪行为的变化趋势[7]，且具有一定的滞后性，而对于小范围、中短期警务决策所起的作用微乎其微。以往对案事件的分布研究主要集中于对犯罪空间集聚情况的识别与探测，对时间信息没有充分利用和深度挖掘[8-9]，越来越多的研究者发现，案事件从大时间尺度到小时间尺度都表现出一些季节性、周期性甚至是昼夜更替的时间分布特征，犯罪时空分布研究领域也越来越受到关注[10]。时空数据挖掘作为一个新兴的研究领域，正致力于开发和应用新兴的计算技术来分析海量、高维的时空数据，揭示时空数据中的有价

数据挖掘在中国的现状和发展研究.

万方数据万方数据万方数据万方数据万方数据Ｖｏ．ｌ１８．Ｎ．ｏ３管理工程学报２００４年第３期圈回［ｌ４ｊ网［ｌ６ｊ皿［ｌｓｊ［ｌ９ｊ厂．Ｌｌ周生炳，张钱，成栋．于规则面向属性的数据库归纳的无回基溯算法［７软件学报，９，（）６３６８１．１９１７：７一７．９０蒋嵘，李德毅，范建华．数值型

数据的泛概念树的自动生成方法【１计算机学报，０，（）４０４６ｉ．２０２５：一７．０３７一」一一尸十勺，１，刁［７软件学报，０，（）７５７４Ｊ．２０１６：一４．０１３周水庚，周傲类，曹晶．基于数据分区的ＤＳＡＢＣＮ算法【ｌ计Ｊ．算机研究与发展，０，０）１３１９２０３０：一１．０７１５５「一－，，‘ ，郭建生，，赵奕施鹏飞一种有效的用于数据挖掘的动态概念毛国君，椿年．于项目序列集操作的关联规则挖掘算法刘基］ｉ计算机学报，０，（）４７４２Ｉ．２２２４：１一２．０５ＩＬ尸聚类算法［ｌ软件学报，０，（）一９．Ｊ．２１１４：２５１０２５８内、内ｊ「一一Ｊ魏李，宫学庆，钱卫宁，高维空间中的离群点发现〔ｌ软件等．Ｊ．学报，０，３２：８一９．２２１（）２０２００门仁」程岩，黄梯云．粗糙集中定量关联规则的发现及其规则约简的方法研究【〕管理工程学报，０，（）７－７Ｊ２１１３：７．０５３ｅｓＬＦ飞）４俞蓓，王军，叶施仁．基于近邻方法的高维数据可视化聚类方苑森森，程晓青，数量关联规则发现中的聚类方法研究【ｌ计ｉ．法〔７计算机研究与发展，０，（）７４７．Ｊ．２０３６：－０７１２０ｒ．．Ｌ算机学报，０，（）８７８１２０２８：一７．０３６倪志伟，蔡庆生，方瑾．用神经网络来挖掘数据库中的关联规内、〕‘ 一一Ｊ「陈宁，陈安，周龙骥．大规模交易数据库的一种有效聚类算法［７软件学报，０，（）４５４４Ｊ．２１１４：７一８．０２Ｌ则【ｌ系统仿真学报，０，（）６５６７１．２０１６：－．０２８８Ｊ内几６ｌｅｓＥｔＭ，ｒＳｎｅＪＡｇｉｍａｄｌａｏｓｓｔｌｓｒＰｔＫａｄｒｌｒｈｓａｐｃｉｆｐｉｅｅＨ，ｅ．ｔｏｎｐｉｔｎｏａａｒ陆建江．数据库中布尔型及广义模糊型加权关联规则的挖掘ｄａｉ仁ｌＩｉｃｐｒＧｏａｉＤｔＭｎｇａｍｎＺ．ｖｅｈｔｆｅｒｈａｉｎａｔｉｇｎｎｔａｅｏｇｐｃａｉｎｄｒｄＫｏｌｇＤｓｖｒ，ｅｒｏｏｒｈｉＧＳＴｙｒｄｎｗｅｅｃｅＲｓｃＭｎｇｐｓＩ，ｌａｄｉｏｙｅａｈａｎａｏｎＦａｃｓ２０．一３．ｒｎｉ，１１２

数据挖掘文献综述

湘潭大学本科生专业文献综述题目: 数据挖掘文献综述姓名: 林勇学院: 信心工程学院学院专业: 自动化班级: 一班学号: 2010550113 指导教师: 张莹

0前言随着计算机技术的迅猛发展，人类正在步入信息社会。面对今天浩如烟海的信息，如何帮助人们有效地收集和选择所感兴趣的信息，更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系，使之能够真正地做到信息处理的自动化，这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的，可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘数据挖掘(Data Mining)，也叫数据开采，数据采掘等，是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上，它利用现有数据库管理系统的查询、检索及报表功能，与多维分析、统计分析方法相结合，进行联机分析处理，从而得出可供决策参考的统计分析数据。在深层次上，则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘，它们都是从数据库中抽取有用信息的方法，就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法，它旨在简化和支持联机分析，而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有：关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值；后者指找到描述数据的可理解模式。根据发现知识的不同，我们可以将数据挖掘任务归纳为以下几类： (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征．例如可以从某种疾病的症状中提取

数据挖掘研究及发展现状

数据挖掘技术的研究现状及发展方向摘要：数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发，介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点；详细总结了国内外数据挖掘的研究现状及研究热点，指出了数据挖掘的发展方向。关键词：数据挖掘；神经网络；决策树；粗糙集；模糊集；研究现状；发展方向 The present situation and future direction of the data mining technology research Abstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advantages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international research situation and focus of data mining in details, and pointed out the development trend of data mining. Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development direction 0 引言随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据坟墓转换成知识金砖，从而达到为决策服务的目的。在这种情况下，一个新的技术——数据挖掘(Data Mining，DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。数据挖掘通常又称数据库中的知识发现（Knowledge Discovery in Databases），是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。 1 数据挖掘算法数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。数据选择：确定发现任务的操作对象,即目标对象；预处理：包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等；转换：消减数据维数或降维；数据开采：确定开采的任务，如数据总结、分类、聚类、关联规则发现或序列模式发现等，并确定使用什么样的开采算法；解释和评价：数据挖掘阶段发现的模式，经过用户和机器的评价，可能存在冗余或无关的模式，这时需要剔除，使用户更容易理解和应用。十大经典算法如图2：目前，数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

时空数据分析算法及其应用研究

时空数据分析算法及其应用研究空间和时间是现实世界最基本、最重要的属性，许多空间应用系统都需要表达地学对象的时空属性，例如在地理位置变更、环境监测、城市演化等领域都需是术对象的技要管理历史变化数据，以便重建历史、跟踪变化、预测未来。面向实体用在软件设计中的一种方法，它用在时空数据[1]表达中主要是为了克服给定题[2] 。下面从的空间或非空间属性在不同时间不同频率变化而出现的复杂问 KNN、RNN、SkyLine三种时空数据分析算法出发，论述时空数据分析算法的应用。 1、KNN分析算法的基本概述及应用分析 KNN算法是非参数回归模型的基本算法之一，通过在状态空间中搜索与待测点X相近的k个样本(X i ，Y i ) 估计g n(x) ，因此又称为k最近邻非参数回归，其预测函数[3]可表示为 k k Y=g(X)= W i （X；X k1，?，X k k）Y i = k i Y i （1） i 1 i 1 其中X k1．表示与x距离最近的点，并赋予权值k1；X k2则被赋予权值k2；以此 k个权函数k1，k2，?，k k，满足类推，得到 k k1≥k2≥?≥k k≥0，k =1 （2） i i 1 KNN算法通过计算样本个体之间的距离或者相似度来寻找与每个样本个体最相近的K个个体，在这个过程中需要完成一次样本个体的两两比较，所以算法的。时间复杂度，跟样本的个数直接相关 K最近邻算法通常情况下是用于分类的，这只是对K近邻算法用途的本质说明[4]。从实际来看，K近邻算法可以应用的地方还有很多，比如系统推荐等等。简单的讲，就是挖掘出客户喜欢的相同商品，来进行相似物品的推荐。另外区分客户群体，从而使我们更好的为客户服务。下面是KNN分类器构建实例。KNN的实现分训练和识别两步。训练时，把每类样本降维后的结果作为KNN的输入。如图1所示，圆圈表示待识别数据所处的位置，表的类；选择 K 圆中的3个数据，识别结果为三角形代为3时，选中实线选择 K值圆中的5个数据，识别结果为正方形代表的类。值为5时，选中虚线 - 1 -

教育数据挖掘研究进展综述

软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.360docs.net/doc/6f3114544.html, Journal of Software,2015,26(11):3026?3042 [doi: 10.13328/https://www.360docs.net/doc/6f3114544.html,ki.jos.004887] https://www.360docs.net/doc/6f3114544.html, ?中国科学院软件研究所版权所有. Tel: +86-10-62562563 ? 教育数据挖掘研究进展综述周庆1,2, 牟超2, 杨丹3 1(信息服务社会可信服务计算教育部重点实验室(重庆大学),重庆 400044) 2(重庆大学计算机学院,重庆 400044) 3(重庆大学软件学院,重庆 400044) 通讯作者: 周庆, E-mail: tzhou@https://www.360docs.net/doc/6f3114544.html,, https://www.360docs.net/doc/6f3114544.html, 摘要: 教育数据挖掘(educational data mining,简称EDM)技术运用教育学、计算机科学、心理学和统计学等多个学科的理论和技术来解决教育研究与教学实践中的问题.在大数据时代背景下,EDM研究将迎来新的转折点.为方便读者了解EDM的研究进展或从事相关研究和实践,首先介绍EDM研究的概貌、特点和发展历程,然后重点介绍和分析了EDM近年来的研究成果.在成果介绍部分,选取的研究成果大部分发表于2013年以后,包括以往较少涉及的几种新型教育技术.在成果分析部分,对近年来的典型案例作了分类、统计和对比分析,对EDM研究的特点、不足及发展趋势进行了归纳和预测.最后讨论了大数据时代下EDM面临的机遇和挑战. 关键词: 大数据;教育环境;交叉学科;MOOCs;ITS 中图法分类号: TP311 中文引用格式: 周庆,牟超,杨丹.教育数据挖掘研究进展综述.软件学报,2015,26(11):3026?3042.https://www.360docs.net/doc/6f3114544.html,/1000- 9825/4887.htm 英文引用格式: Zhou Q, Mou C, Yang D. Research progress on educational data mining: A survey. Ruan Jian Xue Bao/Journal of Software, 2015,26(11):3026?3042 (in Chinese).https://www.360docs.net/doc/6f3114544.html,/1000-9825/4887.htm Research Progress on Educational Data Mining: A Survey ZHOU Qing1,2, MOU Chao2, YANG Dan3 1(Key Laboratory of Dependable Service Computing in Cyber Physical Society of Ministry of Education (Chongqing University), Chongqing 400044, China) 2(College of Computer Science, Chongqing University, Chongqing 400044, China) 3(School of Software Engineering, Chongqing University, Chongqing 400044, China) Abstract: Educational data mining (EDM) focuses on solving theoretical and practical problems in education by applying principles and techniques from educational science, computer science, psychology, and statistics. It is believed that EDM will become more mature and promising in the Age of Big Data. This paper aims to help readers to understand or engage EDM research. First, the basic concepts, characteristics and research history of EDM are introduced. Then some latest results of EDM are presented and analyzed. Most results were published in 2013 and later, including some studies on several educational techniques that were rarely investigated before. Those results are also analyzed via classification, statistics and comparison, and based on which strength and weakness of EDM is discussed. Finally, opportunities and challenges facing EDM are discussed. Key words: big data; educational environment; interdisciplinary research; MOOCs; ITS 数据挖掘技术可以从大量的数据中发现隐藏的模式与知识[1],目前已成功应用在生物、金融和电子商务等 ?基金项目: 国家自然科学基金(61472464, 61402020); 中央高校基本科研业务费(CDJZR12.18.55.01, 106112015CDJSK04JD02); 重庆市前沿与应用基础研究计划(cstc2013jcyjA40017) 收稿时间:2015-02-12; 修改时间: 2015-05-11, 2015-07-14, 2015-08-11; 定稿时间: 2015-08-26