数据挖掘技术在学生成绩分析中的应用

合集下载

基于数据挖掘技术的学生成绩分析系统之欧阳美创编

本科毕业设计（论文）题目: 基于数据挖掘技术的学生成绩分析系统的设计与实现姓名张宇恒学院软件学院专业软件工程班级 2010211503学号 10212099班内序号 01指导教师牛琨2014年5月基于数据挖掘技术的学生成绩分析系统的设计与实现摘要随着科技的不断发展和中国教育制度的日趋完善，各大高校对教务管理工作提出了越来越高的要求。

各大高校不再满足于传统的成绩管理方式，开始运用数据挖掘领域的先进方法对学生成绩进行分析和研究。

教务工作人员使用关联规则挖掘算法分析课程间的内在联系，可为学校的改进教学工作提供依据，并为学生的选课和学业规划提供指导；对学生进行分类，让学生能够对自己在校期间所学课程的成绩有一个全面而清晰的了解，方便学生扬长避短选择选修课程，及时对可能在学习上遇到困难的学生进行预警；运用聚类算法对学生进行聚类，找出具有共同特征的学生，并对不同学生群体分别采取不同的教学方法，初步体现因材施教的教育理念，最终探索出适合中国国情和教育制度的个性化培养模式。

本系统采用Eclipse作为开发平台，以Java作为开发语言。

通过对高校学生成绩分析系统的需求分析，本系统设计实现了可以使用关联规则挖掘算法分析课程间的内在联系，使用分类算法对学生进行分类，使用聚类算法对学生进行聚类。

希望本系统能对今后高校学生成绩分析系统的开发提供一定的参考价值。

关键词成绩分析关联规则分类聚类Design and implementation of student achievement analysis system based on data mining technologyABSTRACTWith the continuous development of technology and the Chinese education system maturing, Universities have put higher requirements to their academic administration.Universities are no longer satisfied with traditional performance management, began to apply advanced data mining methods to analyze and study students’ achievement.Staffof academic affairs use association rule mining algorithm to analysisintrinsic link between courses, which can provide the basis for improving the teaching of the school and guidance for the student's enrollment and academic ing classification algorithm to classify the students, so that students can have a clear understanding in their academic performance, and facilitate students in selecting courses.Warning students who probably face difficulties in the ing clustering algorithm to cluster the students to identify students with common characteristics, so that teachers can teach different students in different way,embodies the concept of individualized education, finally discover a personalized education model, which is suitable for China's national conditions and education system.The system was developedinEclipse, with java as a development language.By analyzing the need of student achievementanalysis system, this system uses association rule mining algorithm to analysisintrinsic link between courses, uses classification algorithm to classify the students, uses clusteringalgorithm to cluster the students to identify students.I hope this system can provide some reference value to the f uture development of college students’ achievement analysis system.KEYWORDS achievement analysisassociation rulesclassificationclustering目录第一章引言11.1选题的背景和意义11.2个性化培养的重要意义11.3国内外个性化培养的现状21.3.1国外个性化培养现状21.3.2 国内个性化培养现状31.4成绩分析系统的现状和存在的问题31.4.1成绩分析系统开发使用的现状31.4.2成绩分析系统建设存在的问题4第二章相关技术42.1相关数据挖掘知识理论42.1.1数据挖掘42.1.2 关联规则52.1.3 分类62.1.4 聚类62.2开发工具的选择72.2.1 Eclipse简介72.2.2 Eclipse的优势7第三章系统分析83.1软件过程模型83.2需求分析93.2.1 用例图93.2.2 需求的结构化描述10第四章系统设计与实现144.1系统概要设计144.1.1系统体系结构144.1.2 系统数据结构154.2系统详细设计164.2.1 文件导入数据164.2.2 数据预处理164.2.3 关联规则184.2.4 分类194.2.5 聚类204.2.6 导出文件224.3系统实现234.3.1 文件导入数据234.3.2 数据预处理234.3.3 关联规则234.3.4 分类244.3.5 聚类244.3.6 导出文件254.4系统应用26第五章结论30参考文献31致谢32第一章引言1.1 选题的背景和意义进入新世纪以来，我国的高等教育事业正在快速发展，各个领域的重大科研成果不断涌现，各知名院校的国际排名和知名度也不断攀升。

数据挖掘在学生成绩预测中的应用研究

数据挖掘在学生成绩预测中的应用研究随着教育的普及和信息技术的发展，学生的学习数据越来越丰富，如何利用这些数据来预测学生成绩已成为教育领域的一个热门话题。

数据挖掘作为一种从大规模数据中发现规律的技术，被广泛应用于学生成绩预测。

本文将从数据挖掘技术的角度出发，探讨在学生成绩预测中数据挖掘的应用研究。

一、数据挖掘技术的分类数据挖掘技术可以分类为分类、聚类、关联规则和预测四大类。

其中，预测是指根据历史数据和特征预测未来的趋势或者状态。

在学生成绩预测中，应用比较广泛的是回归分析、决策树、神经网络等预测模型。

这些模型可以根据已有的学生数据，建立预测模型，对未来的学生成绩进行预测。

二、数据挖掘应用于学生成绩预测的方法1. 数据预处理在进行学生成绩预测之前，需要对数据进行预处理。

其中包括数据清洗、特征选择、数据变换等。

数据清洗是指对数据进行去除重复、填充缺失值等操作；特征选择是指对数据中的特征进行筛选，选取对成绩影响较大的特征；数据变换是指对数据进行规范化处理，将数据进行归一化或者标准化。

2. 回归分析回归分析是一种常用的预测模型，可以根据历史数据，建立一个函数来预测未来的学生成绩。

回归分析可以分为线性回归和非线性回归。

线性回归是指建立一个线性函数来预测未来的学生成绩，非线性回归是指建立一个非线性函数来预测未来的学生成绩。

通过对历史数据的回归分析，可以建立一个适用于预测的模型。

3. 决策树决策树是一种分类和预测的算法，可以根据历史数据和特征，建立一个决策树，用来预测未来的学生成绩。

决策树可以根据历史数据和特征构建出一个树形结构，每个叶子节点表示一个预测结果。

对于一个新的学生，可以通过决策树进行预测。

4. 神经网络神经网络是一种模仿人类神经网络的模型，可以对非线性模型进行预测。

神经网络一般由输入层、隐藏层和输出层组成，可以根据历史数据和特征，训练一个神经网络模型，用来预测未来的学生成绩。

三、数据挖掘在学生成绩预测中的应用研究已经取得了一定的进展。

基于数据挖掘的高校学生学习成绩分析应用研究

ＦＡＮ ቤተ መጻሕፍቲ ባይዱ Ｔｏｎｇ・ｋｅ，ＳＵＮＪｉａｎｇ — ｙａｎ
（ＭｏｄｅｍＥｄｕｃａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＣｅｎｔｅｒｏｆＸｉ ’ ａｎＩｎｔｅｒｎａｔｉｏｎａｌＵｎｉｖｅｒｓｉｔｙ，Ｘｉ ’ ａｎ７１００７７，Ｃｈｉｎａ）
樊同科，孙姜燕
（西安外事学院现代教育技术中心，陕西西安７１００７７）
摘要：高校的学生成绩管理是各高校教务管理工作的核心和基础。大多数高校的学生成绩是以多种形式保存，一般只限于对成绩的查询及简单的统计上面，没有对这些积累的海量数据背后的有用信息进行挖掘分析。针对这些海量数据构
Ａｂｓｔｒａｃｔ：Ｍａｎａｇｅｍｅｎｔｏｆｃｏｌｌｅｇｅｓｔｕｄｅｎｔｓ ’ａｃａｄｅｍｉｃｒｅｃｏｒｄｉＳａｎｉｍｐｏｒｔａｎｔｐａｒｔｏｆｗｏｒｋｉｎｅｄｕｃａｔｉｏｎｌａａｄｍｉｎｉｓｔｒａｔｉｏｎ．Ｍｏｓｔｃｏ１．１ｅｇｅｓｓｔｏｒｅｓｔｕｄｅｎｔｓ ’ｒｅｃｏｒｄｓｉｎｖａｒｉｏｕｓｗａｙｓ，ｍａｉｎｌｙｌｉｍｉｔｅｄｔｏｓｅａｒｃｈｉｎｇａｎｄｓｉｍｐｌｅｓｔａｔｉｓｔｉｃｓ，ａｎｄｕｓｅｆｕｌｉｎｆｏｒｍａｔｉｏｎｂｅｈｉｎｄｓｕｃｈｍａｓｓｄａｔａｉｓｎｏｔａｎａｌｙｚｅｄ．Ａｄａｔａｂａｓｅｊｓｃｏｎｓｔｒｕｃｔｅｄｂａｓｅｄｏｎｓｕｃｈｄａｔａａｎｄｓｔｕｄｅｎｔｓ ’ａｃａｄｅｍｉｃｒｅｃｏｒｄｉＳａｎａｌｙｚｅｄｂｙｕ－ｓｉｎｇｃｌａｓｓｉｉｆｃａｔｉｏｎａｎｄｐｒｅｄｉｃｔｉｏｎａｌｇｏｒｉｔｈｍ，ｓｈｏｗｉｎｇｔｈａｔｓｔｕｄｅｎｔｓ ’ａｃａｄｅｍｉｃｐｅｒｆｏｒｍａｎｃｅｉｓｒｅｌａｔｅｄｔｏｓｔｕｄｅｎｔｓ ’ｐａｒｔｉｃｕｌａｒｉｔｙ，ｏｒ－ｉｇｉｎａｎｄｔｅａｃｈｅｓ ’ｅｒｄｕｃａｔｉｏｎｂａｃｋｇｒｏｕｎｄ．Ｓｕｃｈｐｅｒｔｉｎｅｎｃｅｃａｎｐｒｏｖｉｄｅｅｖｉｄｅｎｃｅｆｏｒｄｅｃｉｓｉｏｎ — ｍａｋｉｎｇａｎｄａｄｍｉｎｉｓｔｒａｔｉｏｎｄｅｐａｔｒ－ｍｅｎｔｓｏｆｓｃｈｏｏｌｓｏｒｆａｎｌｙａｓｉｓａｎｄａｄｍｉｎｉｓｔｒａｔｉｏｎ．Ｉｎｔｕｒｎ．ｉｔｃａｌｌｉｎｓｔｒｕｃｔｅｄｕｃａｔｉｏｎｎｄａｉｍｐｒｏｖｅｏｖｅｒａｌｌｅｄｕｃａｔｉｏｎａｌｑｕａｌｉｔｙ．Ｋｅｙｗｏｒｄｓ：ｄａｔａｍｉｎｉｎｇ；ｄｅｃｉｓｉｏｎｔｒｅｅ；ａｎｌｙａｓｉｓｏｆｓｔｕｄｅｎｔ ’ ｓａｃａｄｅｍｉｃｒｅｃｏｒｄ

数据挖掘技术在高校学生综合素质测评及分析中的应用研究

数据挖掘技术在高校学生综合素质测评及分析中的应用研究焦啸云
【期刊名称】《电脑编程技巧与维护》
【年(卷),期】2011(000)020
【摘要】介绍了数据挖掘有关知识,并选取关联规则挖掘算法应用到学生综合素质测评及分析中,找出影响学生综合素质提升的关联因素,为教育工作者提供决策支持信息,从而促使科学地开展干预工作,提高教育教学质量,推进高校学生工作的科学化水平.
【总页数】3页(P54-55,98)
【作者】焦啸云
【作者单位】桂林电子科技大学生命与环境科学学院,广西桂林 541004
【正文语种】中文
【相关文献】
1.数据挖掘技术在学生综合素质测评中的应用 [J], 王莺
2.基于粗糙集理论的数据挖掘技术在学生综合素质测评中的应用 [J], 姚蓓蓓
3.高校综合素质测评管理中数据挖掘技术的应用探索 [J], 陈凤;
4.高校综合素质测评管理中数据挖掘技术的应用探索 [J], 陈凤
5.数据挖掘技术在高校学生成绩分析中的应用研究 [J], 陈潇潇
因版权原因，仅展示原文概要，查看原文内容请购买。

浅谈数据挖掘技术在学生成绩分析中的应用

关键词：数据挖掘；关联规则；成绩管理
Ｋｅｙｗｏｒｄｓ：ｄａａｔｍｉｎｉｎｇ；ａｓｓｏｃｉａｔｉｏｎｕｌｒｅｓ；ｐｅｆｒｏｒｍａｎｃｅｍａｎｇｅａｍｅｎｔ
中图分类号：ＴＰ３１１．１
文献标识码：Ａ
文章编号：１００６ — ４３１１（２０１３）２１ — ０２３３ — ０２
蠢一
种联系即为数据关联，它是数均可中存在的一种重要的相应的关联，课程之间的密切关系或影响程度与专业和研可以被发现的知识。为了挖掘隐藏在数据之间的关系通常究方向有关。本文在分析学生的学习成绩时采用Ａｐｉｆｏｉｆ进行关联分析。设Ｉ＝ｆｉ１，ｉ， …，ｉ）是项的集合。设任务相算法，在为教学管理者提供决策的同时也为学生的选课提关的数据Ｄ是数据库事务的集合，其中每个事务Ｔ是一供了支持。个非空项集，使得且ＴＩ。每一个事务都有一个标识符，１基本原理称为ＴＩＤ。设Ａ是一个项集，事务Ｔ包含Ａ，当且仅当Ａ
高效性的主要因素网。
目标，有效地节省资金投入和防止资源浪费。在未来发展中，将面向全国高校提供辐射服务。奖成为高校图书馆信
魏巍ＷＥＩＷｅｉ；王蕊ＷＡＮＧＲｕｉ；王君祥ＷＡＮＧＪｕｎ－ｘｉａｎｇ
（黑龙江工程学院，哈尔滨１５００５０）

数据挖掘技术在学生成绩分析中的应用

科教文化
・１２９・
数据挖掘技术在学生成绩分析中的应用
刘春辉１李芳，，２（、１沈阳理工大学信息与工程学院。宁沈阳１０６２北票市职教中心计算机系，宁朝阳１２０）辽１１８、辽２１０摘要：随着，国内职业教育规模扩大，学生的数量越来越多，充分地利用这些数据，其潜在的使用价值得到充分的挖掘和利用，何使为学校决策者提供决策依据，学指导教学，科将是职业学校迫切需要解决的问题。本文利用现有学生成绩数据库，应用改进的数据挖掘Ａｆｆ算法进行了情况分类，ｐｏｉｉ分析结果，出了“ 电一体化” 得机专业分课程之间的影响学生成绩的内部原因，为学校的教学管理提供参考。关键词：数据挖掘；成绩分析；关联规则；ｐｉｉ算法Ａｒｒｏ首先对成绩表中的“ 成绩” 进行离散化处理，具体分数的成绩按二十一世纪以来，国内在不断扩大职业教育规模，成立职业教照百分制１０９０～０对应 “ ”８～０对应 “ ”７０对应 … ，９６Ａ，８９Ｂ，９７Ｃ’６～０育中心，学校规模不断扩大，专业设置日趋多样化，学校运行着各种对应“ ，９０对应“ ” Ｄ”５～Ｅ五个具体分数段等级。为了找到具有较高典系统和各类数据库，学生入学后的学籍管理，教务处的学生成绩管型性的规则，只对 “ ” “ ” “ ” Ａ、Ｂ、Ｅ三个等级的成绩进行分析，出影找理，就业处对毕业生的就业管理等，都积累了大量的数据。如何充分响成绩的内在因素，而分析出课程之间的先后次序，从为我们制定地利用这些数据，使其潜在的使用价值得到充分的挖掘和利用，是合理、有效的教学计划提供决策支持。对于… 、Ｄ两类成绩，Ｃ’“ ” 由于职业学校在今后的工作中努力要解决的问题。不具有典型性，以不考虑挖掘。所２数据挖掘技术３模型的选定．３２１数据挖掘中关联规则方法．分析学生各科目成绩的之间的影响关系，例如：学生 “ 某机械制关联规则挖掘是在大量数据中项集之间发现有趣的关联或相图” 优秀一车工技能优秀的关系。根据我们前面分析学习，在此我们关联系，一种简单却很实用的分析规则。满足ｘ的数据库元组也采用关联规则中最著名的Ａｆｆ算法。是ｐｏｉｉ很可能会满足Ｙ，我们说这就是关联规则的一般描述。３４数据采集．般地，关联规则挖掘问题可以划分成两个子问题：（）１学生调查信息（）现频繁项目集１发内容包括任课教师的平时考核，对学生调查问卷，由学生填写通过用户给定的ｍｎｕｐｒｉｓｐｏｔ，寻找所有频繁项目集（ｒｑｅｔ产生。ＦｅｕｎＩｍｓｔ，ｔｅ）即满足ｓｐｏｅｕｐ￣不小于ｍｉｓｐｏｔｎｕｐｒ的项目集。事实上，这些（）２成绩数据库频繁项目集可能具有包含关系。成绩数据库中包括了学生的平时作业成绩及课程的考试成绩。（）成关联规则２生这个数据库由教师在教学过程中产生。子问题（）１是近年来关联规则挖掘算法研究的重点。３５数据预处理．２．２关联规则挖掘算法数据的预处理是数据挖掘过程中一个非常重要的环节，一般需（）ｐｏ算法１Ａｆｆｉｉ要用掉挖掘过程中百分之七八十的工作量。经验表明，如果数据准充分，在模型建立阶段就会节省大量的精力。算法的第一次遍历仅仅计算每个项目的具体值的数量，以确定备工作做得非常细致、频繁１项集Ｌ。１随后的遍历，ｋ第次遍历，包括两个阶段。首先，使用（）据集成１数数据挖掘所应用的数据如果来自多个数据源，需要进行数据就第（一）ｋ１次遍历中找到的频繁项集ｋ。和根据Ｌ一产生候选项集。ｋ．接本研究中，将数据采集得到的多个数据库文件，利用数据库着扫描数据库，计算ｃ中候选的支持度，从而生成频繁项集。如的集成。技术生成学生成绩分析基本数据库１。随机抽取一些学生的专业课此下去，直到不能找到维度更高的频繁项集为止。程（机械基础，钳工工艺，车工工艺）的成绩，如表１。（）２基于链表的Ａｆｆ算法的改进ｐｏｉｉｋｌ为机械基础，ｅｃｋ２为钳工工艺，ｃ为车工工艺。ｋ３在经典的Ａｆｆ基础上，用新的数据结构，ｐｏｉｉ采改进后的算法拟采用基于链表的数据结构，链表涉及三种结点，分别为项集头结点、（）据清理２数如果没有好的数据环境，不会有好的挖掘效果。就项结点、事务结点。对数据库或者数据仓库只需要进行一次扫描，这在学生成绩分析基本数据库及调查表中我们看到，有一些我们样就可以避免Ａｆｆ算法中对数据库的多次扫描，ｐｏｉｉ减少了大量的Ｉ，感兴趣的属性缺少属性值，对于这些空缺，以使用数据清理技术可０开销，大大提高了系统的性能。因为某位同学的缺考链表的一级兄弟结点从左到右按照子集支持度计数的递增顺来填补。我们发现在我们所调用的成绩表中，还有的就是问卷调查，序排列，这样即使１一项集很大的情况下，也将只产生较少的候选而导致值的空缺，表１学生成绩分析基本表１２项集，．集再产生更少的候选３２项一项集等等，从而提高了系统

基于数据挖掘的学生成绩分析与预测研究

基于数据挖掘的学生成绩分析与预测研究随着社会的进步和教育的发展，学校中的数据量已经逐渐增多，包括学生的学习成绩、行为记录、教师评价等等。

如何利用这些数据为学校管理和教育教学提供重要参考，成了一个值得探讨的话题。

数据挖掘技术是一种可以帮助我们从大量数据中挖掘出有价值的信息和知识的方法，因此成为了一个重要的工具。

一、数据挖掘在学生成绩分析方面的应用学生成绩是学校管理和教学中最重要的数据之一，是评估学生学习情况的重要参考。

采用数据挖掘技术对学生成绩进行分析和预测，有如下优点：1.更好地了解学生的真实情况，对学生做出合理评价；2.获取学生学习特征和发现学习规律，为教学提供有益参考；3.针对个别学生进行分析，为教师提供差异化的教学服务；4.预测学生未来成绩，帮助学生制定合理的学习计划和目标；5.全面评价教学效果，了解教学质量和课程设计的优劣。

二、数据挖掘在学生成绩分析方面的方法1. 聚类分析聚类分析是一种对数据进行分类和分组的方法，通过找到不同数据的相似之处，将它们分组，进而了解这些数据的共性和特征。

在学生成绩分析中，聚类分析可以根据学生的成绩、性别、专业等特征，将学生分成不同的群组，从而指导教师制定分组教学方案。

2. 关联分析关联分析可以找到数据之间的关联关系，比如学生的物理成绩和数学成绩之间的关系。

在学生的学习中，不同科目之间存在着一定的关联关系，理解这些关系可以帮助教师更好地设计科目课程，提高学生学习效率。

3. 分类预测分类预测是利用已有的数据，通过挖掘有用信息，对新数据进行分类预测的技术。

在学生成绩方面，可以根据历史数据预测学生未来的成绩，为教学管理提供有益的参考和指导。

三、学生成绩分析与预测的案例研究为了更好地了解数据挖掘在学生成绩分析与预测方面的应用，以下列举一些案例研究的实例：1. 基于学生成绩的聚类分析通过对学生的成绩数据进行聚类分析，可以将学生分成不同的群组，方便教师进行个性化、差异化的教学。

基于本体的数据挖掘在成绩分析中的应用研究

基于本体的数据挖掘在成绩分析中的应用研究
连利河。筑英林
（贵州师范大学数学与计算机科学学院，贵州贵阳５００）５０１
摘要：本文分析了目前成绩管理方面存在的问题，阐述本体和数据挖掘技术在本领域的具体应用需求。通过对课程相关信息
进行数据挖掘，发现课程相关知识点中各种隐藏的关系以及各知识点学习更适用的方法，为教学和学生管理提供决策支持。
一
ｌ — ４２
系统首先要建立课程领域知识模型和各课程相
关系，主要是为了分析对相关知识点学习的影响和
关的知识点的子本体。通过领域本体将各种不同的
数据转化为标准模式，确定要进行挖掘的目标和范围，选取合适的挖掘算法进行数据挖掘，对得到的结果进行分析和评估，得到数据相关规则，最后把相关
收稿日期：０１０２２１ — ９— ７
图１基于本体的数据挖掘模型
作者简介：连利河（９３一）男，１８。硕士研究生，究方向为网络多媒体技术及应用；研通讯作者：林筑英（９８一）女，１４。教授，研究方向为网络多媒体与远程教育。
行为，相关的约束，以及具体实践。领域模型可通过
ｘ和数据库来实现。ｍｌ
２数据挖掘
２１数据挖掘概述．
数据挖掘是为了发现事先未知的规则和联系而对大量数据进行选择、探索和建模的过程，目的在于得到对数据库的拥有者来说清晰而有用的结果。
２２数据挖掘工作的流程．
Ｂｓ）Ｅ— ａ列表中提出的定义， “ ａｅ的ｓｍｉｌ即：本体是关于共享概念的协议。共享概念包括对领域知识建模的概念框架、可互操作的系统通信协议和特定领域

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

28.1%
90.4%
[A5，I4] ⇒ C5
16.3%
85.3%
[A5，I3] ⇒ C5
11.1%
79.3%
[ I5，A2] ⇒ C2
10.3%
90.2%
[G1，L1] ⇒ C1
15%
95.3%
C5 ⇒ L5
25.0%
94.6%
L5 ⇒ A5
31.2%
91.2%
5.知识获取
对于所有的关联规则，本人重点分析学生内在因素对成绩的影响。可以发现上课座位位
G5
态度综合 A1
A2
A3
A4
A5
项目事务
表 2 教师相关事务表
性别
职称
学历
教副教
男女
讲师本科硕士博士
授授
T1 T2 T3 T4 T5 T6 T7
T8
行政职位
兼政专职
T9
T10
4.2 生成关联规则采用 Apriori 递推算法[4] [5]，对所有学生数据进行分析，本人主要统计有三个专业四个
Yi Xue- Ming (Information College of Guangdong Ocean University, ZhanJiang 524025, China) Abstract: A present, there are so much data around with us, and much information hide in the sea of data. So data ware house and data mining technology is applied widely. The author have practiced for a few years and collected many data. Using data ware house and data mining technology, author mined data of students’ scores and found many important correlation factors of scores. These factors provide some useful consult for teachers and managers. Key words: data warehouse; data mining; students’ score; association rule; apriori algorithm 1. 引言近年来，为适应时代的发展，满足社会的需求，中国高等教育规模越来越大，正从精英教育转向大众教育。在当前竞争日益激烈，就业形势日益严峻的大背景下，社会对大学生的素质提出了更高的要求，大学生的技能、素质、就业问题等均成为社会的热点。所以如何培养一个合格的大学生，关注学生成绩和能力，是所有高校教师所面临的问题。作者经过三年的数据收集和准备，在收集大量的事实数据前提下，使用数据仓库和数据挖掘技术，建立雪花型数据仓库模型，使用 Apriori 关联规则算法，对数百名学生的成绩进行综合挖掘，分析发现一些重要信息和原因，为工作的展开提供一些理论和事实依据。 2. 数据仓库的建立 2.1 集市数据的收集和集成数据分析是建立在大量的数据基础上，作者经过 3 年的数据收集和准备，收集了大量的集市数据。集市数据来源于需求不同的部门，数据类型也各有千秋，先对其集成处理，将数据集成到下面的几个关系表里。（1）学生基础数据表高中基础是大学的起跑线，高考成绩不仅反映学生的基础，同时在一定的程度上反映学生学习习惯和态度。高考成绩数据表数据来源于学生高考原始成绩整理和录入。集成后的模型为：学生基础表（学生编号，年龄，性别，高考分数）。（2）大学考试成绩表大学成绩数据来源于教学管理部门每学期成绩表，由于课程性质、学习时间等因素的不同，必需将其整合和简化，去掉一些不需要的字段，同时构造“课程编号”字段。建立的模型为：学生成绩表（学生编号，课程编号，成绩）。（3）学生智商数据表学生智商表数据来源于对学生智商进行测试和统计，建立的数据模型为：学生智商表（学生编号，测试 1，测试 2，学生评测）。数据来源于具体 IQ 测试软件进行测试得分[1] 。为了数据更有说服力，使用两个测试软件，在规定的时间内进行测试，同时还组织同学进行评测，
学生信息维表
学生编号性别姓名年龄 ...
事实表
学生编号成绩键教师键态度键智商值基础值
成绩维表
成绩键课程键成绩值
课程维表
课程键课程名学期性质 ...
教师信息维表
教师键职称学历性别 ...
态度维表
态度键座次健作业统计课外表现课堂表现综合值
座次维表
座次键前5排中5排其它排
出勤率以实际到课率百分数值表示，作业率以实际统计百分数值表示。教室一般不超过
15 排，座位统计分别统计上课时坐在前 5 排（n1）、中间 5 排（n2）、其它排（n3）的实际次数，并指定权值 Qi，其值分别为 1，0.7，0.3。同时也换成百分制分数，分别计为 L1、L2、 L3，按公式：Li=ni/N*100*Q (其中 i=1，2，3，N=n1+n2+n3)进行计算。最后座次得分 L 取 Li 的平均值。
考虑外部因素对学生的成绩也有影响，如环境、设备、教师等。经过多年的发展，全国大部分高校的教学硬件和软件相当好，这些条件对所考查的学生来讲均是一样的，在此主要考虑任课教师因素，建立教师信息，其数据来源于学校统计的教师的综合信息。同时建立课程信息表。 2.2 雪花型模型数据仓库的建立
基于上面的讨论，建立如图 1 所示的数据仓库雪花型仓库模型[2]。每一门成绩作为考虑样本，主要考虑样本的“成绩，基础、态度、智商、教师”等因素。由于“智商”和“基础” 是一个相对稳定的值，所以将其作为事实表的量度值，其余的作为维表的键[3]。
习态度的引导，强调课堂座次重要性，对于高考成绩不理想学生要及时鼓励，让其树立成功
的信心。同时对学校有关部门也有一定的参考价值，如上课合班人数的安排，教室大小建设
等方面均有很好的借鉴价值。当然文章分析不全面，对于学生的外在因素，如教师水平、教
学计划等方面没有作过多讨论。
本文作者创新点：经过几年一手数据收集，从上课座次到课内外态度，使用数据挖掘知
年级的学生数据，设定最小支持度为 0.10，最小可信度为 0.5，生成相关的频繁项集和关联
规则。这里只选择实践结果的部分关联规则进行说明。
关联规则(association rule) 支持度（support）
置信度 (confidence)
[B5，C5] ⇒ A5
16.2%
92.3%
[L5，A5] ⇒ C5
数据挖掘技术在学生成绩分析中的应用
易学明 (广东海洋大学信息学院，广东湛江 524025) 摘要：目前，人们正被海量数据所淹没，大量的信息隐藏在数据的海洋中，正因为如此，数据仓库和挖掘技术得到广泛应用。作者从工作实际出发，经过多年的实践和思考，在收集大量数据前提下，使用数据仓库和数据挖掘知识对学生的成绩进行综合分析，找出影响学生成绩的一些重要因素，为教师和管理者提供一些有价值的参考。关键词：数据仓库；数据挖掘；学生成绩；关联规则；Apriori 算法中国图书分类号：TP311.13 文献标识码：A Application of data mining technology in students’ scores investigation
表 1 学生相关事务表
等级
事务
[0,40]
[40,60) [60,75) [75,85) [85,100]
项目
成绩
C1
C2
C3
C4
C5
基础
B1
B2
B3
B4
B5
智商
I1
I2
I3
I4
I5
座次 L1
L2
L3
L4
L5
态作业 H1
H2
H3
H4
H5
度出勤率 D1
D2
D3
D4
D5
课外表现 G1
G2
G3
G4
得分 M 按计算按公式：M=[m/h*100]进行计算。（2）智商数据转换
智商测试分数大多数在百分左右，过高和过低的分数均较少，也进行百分制转换。和学
生高考分数处理方法一样，以最高分为满分，将每一个学生得分转换成百分制分数，记为 I。（3）学习态度数据的转换
对学习态度统计考查项目进行“数字化”处理。计统计次数为 K，实际游戏或其它非学习次数为 g，得分计为 G 按分式 G=(1-g/K)*100 公式进行计算。
[3]周虹．电信数据仓库设计［J］．微计算机信息，2009，2－3：174－175。
[4] Jiawei Han Micheline Kamber(加)，范明孟小峰译数据挖掘概念与技术[M].北京：机械
工业出版社，2003：70-95 151-157
[5]姜晚云，胡学钢．关联规则挖掘在学生成绩管理中的应用[J].安庆师范学院学报（自然科
学版）2006，20-21
作者简介：易学明（1971-），男，湖北黄冈人，讲师，硕士研究生，研究方向为数据库、数
据仓库、数据挖掘及应用。
Biography: Yi Xue- Ming（1971-）, male, ying shan county, Hubei province, lecturer, master,
于少数学生没有考试的空数据作不处理标记。
3.3 离散化处理对百分制分数进行离散化处理，将百分制分数按成绩考核等级分成五个等级。参照表 1。
4.数据挖掘 4.1 事务数据库生成
对数据仓库中事实表的一个数据记录项作为一个事务，并对其进行维度下钻，对每一个