数据挖掘技术在学生成绩分析中的应用

合集下载

基于数据挖掘技术的学生成绩分析系统之欧阳美创编

基于数据挖掘技术的学生成绩分析系统之欧阳美创编

本科毕业设计(论文)题目: 基于数据挖掘技术的学生成绩分析系统的设计与实现姓名张宇恒学院软件学院专业软件工程班级 2010211503学号 10212099班内序号 01指导教师牛琨2014年5月基于数据挖掘技术的学生成绩分析系统的设计与实现摘要随着科技的不断发展和中国教育制度的日趋完善,各大高校对教务管理工作提出了越来越高的要求。

各大高校不再满足于传统的成绩管理方式,开始运用数据挖掘领域的先进方法对学生成绩进行分析和研究。

教务工作人员使用关联规则挖掘算法分析课程间的内在联系,可为学校的改进教学工作提供依据,并为学生的选课和学业规划提供指导;对学生进行分类,让学生能够对自己在校期间所学课程的成绩有一个全面而清晰的了解,方便学生扬长避短选择选修课程,及时对可能在学习上遇到困难的学生进行预警;运用聚类算法对学生进行聚类,找出具有共同特征的学生,并对不同学生群体分别采取不同的教学方法,初步体现因材施教的教育理念,最终探索出适合中国国情和教育制度的个性化培养模式。

本系统采用Eclipse作为开发平台,以Java作为开发语言。

通过对高校学生成绩分析系统的需求分析,本系统设计实现了可以使用关联规则挖掘算法分析课程间的内在联系,使用分类算法对学生进行分类,使用聚类算法对学生进行聚类。

希望本系统能对今后高校学生成绩分析系统的开发提供一定的参考价值。

关键词成绩分析关联规则分类聚类Design and implementation of student achievement analysis system based on data mining technologyABSTRACTWith the continuous development of technology and the Chinese education system maturing, Universities have put higher requirements to their academic administration.Universities are no longer satisfied with traditional performance management, began to apply advanced data mining methods to analyze and study students’ achievement.Staffof academic affairs use association rule mining algorithm to analysisintrinsic link between courses, which can provide the basis for improving the teaching of the school and guidance for the student's enrollment and academic ing classification algorithm to classify the students, so that students can have a clear understanding in their academic performance, and facilitate students in selecting courses.Warning students who probably face difficulties in the ing clustering algorithm to cluster the students to identify students with common characteristics, so that teachers can teach different students in different way,embodies the concept of individualized education, finally discover a personalized education model, which is suitable for China's national conditions and education system.The system was developedinEclipse, with java as a development language.By analyzing the need of student achievementanalysis system, this system uses association rule mining algorithm to analysisintrinsic link between courses, uses classification algorithm to classify the students, uses clusteringalgorithm to cluster the students to identify students.I hope this system can provide some reference value to the f uture development of college students’ achievement analysis system.KEYWORDS achievement analysisassociation rulesclassificationclustering目录第一章引言11.1选题的背景和意义11.2个性化培养的重要意义11.3国内外个性化培养的现状21.3.1国外个性化培养现状21.3.2 国内个性化培养现状31.4成绩分析系统的现状和存在的问题31.4.1成绩分析系统开发使用的现状31.4.2成绩分析系统建设存在的问题4第二章相关技术42.1相关数据挖掘知识理论42.1.1数据挖掘42.1.2 关联规则52.1.3 分类62.1.4 聚类62.2开发工具的选择72.2.1 Eclipse简介72.2.2 Eclipse的优势7第三章系统分析83.1软件过程模型83.2需求分析93.2.1 用例图93.2.2 需求的结构化描述10第四章系统设计与实现144.1系统概要设计144.1.1系统体系结构144.1.2 系统数据结构154.2系统详细设计164.2.1 文件导入数据164.2.2 数据预处理164.2.3 关联规则184.2.4 分类194.2.5 聚类204.2.6 导出文件224.3系统实现234.3.1 文件导入数据234.3.2 数据预处理234.3.3 关联规则234.3.4 分类244.3.5 聚类244.3.6 导出文件254.4系统应用26第五章结论30参考文献31致谢32第一章引言1.1 选题的背景和意义进入新世纪以来,我国的高等教育事业正在快速发展,各个领域的重大科研成果不断涌现,各知名院校的国际排名和知名度也不断攀升。

数据挖掘在学生成绩预测中的应用研究

数据挖掘在学生成绩预测中的应用研究

数据挖掘在学生成绩预测中的应用研究随着教育的普及和信息技术的发展,学生的学习数据越来越丰富,如何利用这些数据来预测学生成绩已成为教育领域的一个热门话题。

数据挖掘作为一种从大规模数据中发现规律的技术,被广泛应用于学生成绩预测。

本文将从数据挖掘技术的角度出发,探讨在学生成绩预测中数据挖掘的应用研究。

一、数据挖掘技术的分类数据挖掘技术可以分类为分类、聚类、关联规则和预测四大类。

其中,预测是指根据历史数据和特征预测未来的趋势或者状态。

在学生成绩预测中,应用比较广泛的是回归分析、决策树、神经网络等预测模型。

这些模型可以根据已有的学生数据,建立预测模型,对未来的学生成绩进行预测。

二、数据挖掘应用于学生成绩预测的方法1. 数据预处理在进行学生成绩预测之前,需要对数据进行预处理。

其中包括数据清洗、特征选择、数据变换等。

数据清洗是指对数据进行去除重复、填充缺失值等操作;特征选择是指对数据中的特征进行筛选,选取对成绩影响较大的特征;数据变换是指对数据进行规范化处理,将数据进行归一化或者标准化。

2. 回归分析回归分析是一种常用的预测模型,可以根据历史数据,建立一个函数来预测未来的学生成绩。

回归分析可以分为线性回归和非线性回归。

线性回归是指建立一个线性函数来预测未来的学生成绩,非线性回归是指建立一个非线性函数来预测未来的学生成绩。

通过对历史数据的回归分析,可以建立一个适用于预测的模型。

3. 决策树决策树是一种分类和预测的算法,可以根据历史数据和特征,建立一个决策树,用来预测未来的学生成绩。

决策树可以根据历史数据和特征构建出一个树形结构,每个叶子节点表示一个预测结果。

对于一个新的学生,可以通过决策树进行预测。

4. 神经网络神经网络是一种模仿人类神经网络的模型,可以对非线性模型进行预测。

神经网络一般由输入层、隐藏层和输出层组成,可以根据历史数据和特征,训练一个神经网络模型,用来预测未来的学生成绩。

三、数据挖掘在学生成绩预测中的应用研究已经取得了一定的进展。

基于数据挖掘的高校学生学习成绩分析应用研究

基于数据挖掘的高校学生学习成绩分析应用研究
F AN ቤተ መጻሕፍቲ ባይዱ T o n g ・ k e ,S UN J i a n g — y a n
( Mo d e m E d u c a t i o n T e c h n o l o g y C e n t e r o f X i ’ a n I n t e r n a t i o n a l U n i v e r s i t y , X i ’ a n 7 1 0 0 7 7, C h i n a )
樊 同科 , 孙 姜 燕
( 西安外事学院现代教 育技术 中心, 陕西 西安 7 1 0 0 7 7 )
摘要 : 高校的 学生成绩管理是各 高校教务 管理 工作 的核心和基础 。大多数 高校 的学生成 绩是 以 多种形式保存 , 一般 只限 于对成绩的查询及 简单的统计上面 , 没有 对这 些积 累的海量数据 背后的 有用信 息进行挖掘 分析 。针 对这些 海量数据 构
Ab s t r a c t :Ma n a g e me n t o f c o l l e g e s t u d e n t s ’a c a d e mi c r e c o r d i S a n i mp o r t a n t p a r t o f w o r k i n e d u c a t i o n l a a d mi n i s t r a t i o n .Mo s t c o 1 . 1 e g e s s t o r e s t u d e n t s ’r e c o r d s i n v a r i o u s w a y s ,ma i n l y l i mi t e d t o s e a r c h i n g a n d s i mp l e s t a t i s t i c s ,a n d u s e f u l i n f o r ma t i o n b e h i n d s u c h ma s s d a t a i s n o t a n a l y z e d .A d a t a b a s e j s c o n s t r u c t e d b a s e d o n s u c h d a t a a n d s t u d e n t s ’a c a d e mi c r e c o r d i S a n a l y z e d b y u - s i n g c l a s s i i f c a t i o n a n d p r e d i c t i o n a l g o r i t h m ,s h o wi n g t h a t s t u d e n t s ’a c a d e mi c p e r f o r ma n c e i s r e l a t e d t o s t u d e n t s ’p a r t i c u l a r i t y, o r - i g i n a n d t e a c h e s ’e r d u c a t i o n b a c k g r o u n d.S u c h p e r t i n e n c e c a n p r o v i d e e v i d e n c e f o r d e c i s i o n — ma k i n g a n d a d mi n i s t r a t i o n d e p a t r - me n t s o f s c h o o l s or f a n ly a s i s a n d a d mi n i s t r a t i o n .I n t u r n .i t c a l l i n s t r u c t e d u c a t i o n nd a i mp r o v e o v e r a l l e d u c a t i o n a l q u a l i t y . Ke y wo r d s :d a t a mi n i n g ;d e c i s i o n t r e e ;a n ly a s i s o f s t u d e n t ’ s a c a d e mi c r e c o r d

数据挖掘技术在高校学生综合素质测评及分析中的应用研究

数据挖掘技术在高校学生综合素质测评及分析中的应用研究

数据挖掘技术在高校学生综合素质测评及分析中的应用研究焦啸云
【期刊名称】《电脑编程技巧与维护》
【年(卷),期】2011(000)020
【摘要】介绍了数据挖掘有关知识,并选取关联规则挖掘算法应用到学生综合素质测评及分析中,找出影响学生综合素质提升的关联因素,为教育工作者提供决策支持信息,从而促使科学地开展干预工作,提高教育教学质量,推进高校学生工作的科学化水平.
【总页数】3页(P54-55,98)
【作者】焦啸云
【作者单位】桂林电子科技大学生命与环境科学学院,广西桂林 541004
【正文语种】中文
【相关文献】
1.数据挖掘技术在学生综合素质测评中的应用 [J], 王莺
2.基于粗糙集理论的数据挖掘技术在学生综合素质测评中的应用 [J], 姚蓓蓓
3.高校综合素质测评管理中数据挖掘技术的应用探索 [J], 陈凤;
4.高校综合素质测评管理中数据挖掘技术的应用探索 [J], 陈凤
5.数据挖掘技术在高校学生成绩分析中的应用研究 [J], 陈潇潇
因版权原因,仅展示原文概要,查看原文内容请购买。

浅谈数据挖掘技术在学生成绩分析中的应用

浅谈数据挖掘技术在学生成绩分析中的应用

关键词 : 数据挖掘 ; 关联规则 ; 成绩 管理
Ke y wo r d s : d a a t mi n i n g ; a s s o c i a t i o n ul r e s ; p e f r o r ma n c e ma n ge a me n t
中图分类号 : T P 3 1 1 . 1
文献标识码 : A
文章编号 : 1 0 0 6 — 4 3 1 1 ( 2 0 1 3 ) 2 1 — 0 2 3 3 — 0 2
蠢 一
种联 系即为数据关联 , 它是数均 可中存在 的一种 重要的 相应 的关联 , 课程 之间的密切 关系或影 响程 度与专业和研 可以被 发现的知 识。 为了挖掘 隐藏在数据之间 的关系通常 究 方 向有关。本 文在分析 学生 的学 习成 绩时采用 A p i f o i f 进行关联 分析 。设 I = f i 1 , i , …, i ) 是项 的集合。设任务相 算法 , 在 为教学 管理者提供决 策的同时也为学生的选课提 关 的数据 D是数据库 事务 的集合 ,其 中每 个事务 T是一 供 了支持。 个非空项 集, 使得且 T I 。 每一个事务都 有一个标识符 , 1 基本原理 称为 T I D 。设 A是一个项集 , 事务 T包含 A, 当且仅当 A
高 效 性 的主 要 因素 网 。
目标 , 有效地节省资金 投入和 防止资源浪 费。在 未来发展 中, 将面 向全国高校提供辐射服务 。奖成 为高校 图书馆信
魏巍 W E I We i ; 王蕊 WA N G R u i ; 王君祥 WA N G J u n - x i a n g
( 黑龙 江 工 程 学 院 , 哈尔 滨 1 5 0 0 5 0 )

数据挖掘技术在学生成绩分析中的应用

数据挖掘技术在学生成绩分析中的应用
科 教 文 化
・1 2 9・
数据挖掘 技术在学 生成 绩分析 中的应用
刘春辉 1 李 芳 , , 2 (、 1 沈阳理 工大学信息与工程学院 。 宁 沈阳 10 6 2 北票市职教 中心计算机 系, 宁 朝 阳 12 0 ) 辽 118 、 辽 2 10 摘 要: 随着, 国内职业教 育规模扩 大, 学生的数量越来越 多, 充分地利 用这些数据 , 其潜在 的使 用价值得到 充分的挖掘和利 用, 何 使 为学校 决策者提供 决策依 据 , 学指 导教 学 , 科 将是职 业学校 迫切 需要 解决的 问题 。本 文利 用现 有学生成绩数据库 , 应用改进 的数据挖掘 A f f 算法进行 了情况分类 , po ii 分析 结果 , 出了“ 电一体化” 得 机 专业分课程之 间的影响学生成 绩的内部原 因, 为学校的教学管理提供参考。 关键词 : 数据挖掘 ; 成绩分析 ; 关联 规则; pi i算法 A rr o 首先对成绩表中的“ 成绩” 进行离散化处理 , 具体分数的成绩按 二十一世 纪 以来 , 国内在不 断扩大职业教 育规模 , 成立 职业教 照百 分制 1 0 9 0 ~ 0对应 “ ”8 ~ 0对 应 “ ”7 0对应 … ,9 6 A, 8 9 B ,9 7 C’6 ~0 育 中心 , 学校规模不断扩 大 , 专业设置 日趋多样化 , 学校运行着各种 对应“ ,9 0对应“ ” D”5 ~ E 五个具体分数段等级 。 为了找到具有较高典 系统和各类 数据库 , 学生入 学后 的学籍管理 , 教务处 的学生成 绩管 型性 的规则 , 只对 “ ” “ ” “ ” A 、B 、E 三个等级的成绩进行分析 , 出影 找 理, 就业处对毕业生 的就业管理等 , 都积 累了大量 的数据 。 如何充分 响成绩 的内在因素 , 而分析 出课程之 间的先后 次序 , 从 为我们制定 地利用 这些数据 ,使其潜在 的使用价值得到充分 的挖掘和利用 , 是 合理 、 有效 的教学计划提供决策支持 。对于… 、D 两类成绩 , C’“ ” 由于 职业学校在今后 的工作 中努力要解决 的问题 。 不 具 有 典 型性 , 以 不 考虑 挖 掘 。 所 2 数 据 挖 掘 技 术 3 模 型 的选 定 . 3 21数据挖掘 中关联规则方法 . 分 析学生各科 目成绩的之间的影响关 系 , 例如 : 学生 “ 某 机械制 关联规 则挖掘是 在大量数据 中项集之 间发 现有趣 的关联或相 图” 优秀一车工技 能优 秀的关系 。 根据我们前 面分析学习 , 在此我们 关联系 , 一种 简单 却很 实用 的分 析规则 。满足 x的数据库元组也 采用关联规则 中最著名的 A f f算法。 是 po ii 很可能会满足 Y, 我们说这就是关联规则 的一般描述 。 34数据采集 . 般地 , 关联规则挖掘 问题可 以划分成两个子问题 : () 1 学生 调查信息 ( ) 现频 繁项 目集 1发 内容包 括任课教师 的平时考核 , 对学 生调查问卷 , 由学生填 写 通过 用户 给定 的 m nu p r isp ot ,寻找所 有频 繁项 目集 (rq e t 产 生 。 Fe un I mst, t e)即满足 sp o e u p  ̄不小 于 mispot nu p r的项 目集 。事实上 , 这些 () 2 成绩数据库 频繁项 目集可能具有包含关系。 成绩数据库 中包括 了学生 的平 时作业成绩及课程 的考试成绩。 ( ) 成 关 联 规 则 2生 这 个 数 据 库 由教 师在 教学 过 程 中产 生 。 子问题( ) 1是近年来关联规则挖掘算法研究的重点。 35数据 预处理 . 2 . 2关联规则挖掘算法 数据的预处理是数据挖掘过程 中一个非常重要的环节 , 一般需 ( ) p o 算法 1A f f ii 要用掉挖掘过程 中百分之七八十 的工作量 。经验表明 , 如果数据准 充分 , 在模型建立 阶段就会节省大量的精力 。 算法的第一次遍历仅仅 计算每个项 目的具体值 的数量 , 以确定 备工作做得非常细致 、 频繁 1 项集 L。 1随后 的遍历 , k 第 次遍历 , 包括两个阶段。 首先 , 使用 ( ) 据 集 成 1数 数 据 挖 掘 所 应 用 的数 据 如 果 来 自多 个 数 据 源 , 需 要 进 行 数 据 就 第 (一 ) k 1次遍历 中找到的频 繁项集 k 。 和根据 L一产生候选项集 。 k . 接 本研 究中 , 将数据采集得 到的多个数据库文件 , 利用数据库 着 扫描数据库 , 计算 c 中候选 的支持 度 , 从而生成频 繁项集 。如 的集成 。 技术生成学生成绩分析基本数据库 1 。随机抽取一些学生的专业课 此下 去 , 直到不能找到维度更高 的频繁项集为止。 程( 机械基础 , 钳工工艺 , 车工工艺 ) 的成绩 , 如表 1 。 () 2 基于链表 的 A f f算法的改进 po ii k l为机械基础 ,e c k 2为钳工工艺 ,c 为车工工艺。 k3 在经典的 A f f基础上 , 用新 的数据结构 , po ii 采 改进后 的算 法拟 采用 基于链 表的数据结 构 , 链表涉及三种结点 , 分别为项集头结点 、 ( ) 据 清 理 2数 如 果 没 有好 的数 据 环 境 , 不 会 有 好 的 挖 掘效 果 。 就 项结 点 、 事务结点 。 对数据库或者数据仓库只需要 进行 一次扫描 , 这 在学生成绩分析基本数据库及调查表 中我们看到 , 有一些我们 样就 可以避免 A f f算法 中对数据库 的多次扫描 , po ii 减少 了大量 的 I , 感兴趣 的属 性缺少属性值 , 对于这些空缺 , 以使用数据 清理技术 可 0开销 , 大大提高 了系统的性能 。 因为某位 同学 的缺考 链 表的一级 兄弟结点从左 到右按照 子集支持度 计数 的递 增顺 来填补 。我们发 现在我们所调用的成绩表 中, 还有的就是 问卷调查 , 序排 列 ,这样 即使 1 一项集很大 的情况下 ,也将 只产 生较少的候选 而导致值的空缺 , 表 1学 生成 绩 分 析 基 本 表 1 2 项集 ,. 集再 产生更少 的候选 3 2项 一项集 等等 ,从 而提高了系统

基于数据挖掘的学生成绩分析与预测研究

基于数据挖掘的学生成绩分析与预测研究

基于数据挖掘的学生成绩分析与预测研究随着社会的进步和教育的发展,学校中的数据量已经逐渐增多,包括学生的学习成绩、行为记录、教师评价等等。

如何利用这些数据为学校管理和教育教学提供重要参考,成了一个值得探讨的话题。

数据挖掘技术是一种可以帮助我们从大量数据中挖掘出有价值的信息和知识的方法,因此成为了一个重要的工具。

一、数据挖掘在学生成绩分析方面的应用学生成绩是学校管理和教学中最重要的数据之一,是评估学生学习情况的重要参考。

采用数据挖掘技术对学生成绩进行分析和预测,有如下优点:1.更好地了解学生的真实情况,对学生做出合理评价;2.获取学生学习特征和发现学习规律,为教学提供有益参考;3.针对个别学生进行分析,为教师提供差异化的教学服务;4.预测学生未来成绩,帮助学生制定合理的学习计划和目标;5.全面评价教学效果,了解教学质量和课程设计的优劣。

二、数据挖掘在学生成绩分析方面的方法1. 聚类分析聚类分析是一种对数据进行分类和分组的方法,通过找到不同数据的相似之处,将它们分组,进而了解这些数据的共性和特征。

在学生成绩分析中,聚类分析可以根据学生的成绩、性别、专业等特征,将学生分成不同的群组,从而指导教师制定分组教学方案。

2. 关联分析关联分析可以找到数据之间的关联关系,比如学生的物理成绩和数学成绩之间的关系。

在学生的学习中,不同科目之间存在着一定的关联关系,理解这些关系可以帮助教师更好地设计科目课程,提高学生学习效率。

3. 分类预测分类预测是利用已有的数据,通过挖掘有用信息,对新数据进行分类预测的技术。

在学生成绩方面,可以根据历史数据预测学生未来的成绩,为教学管理提供有益的参考和指导。

三、学生成绩分析与预测的案例研究为了更好地了解数据挖掘在学生成绩分析与预测方面的应用,以下列举一些案例研究的实例:1. 基于学生成绩的聚类分析通过对学生的成绩数据进行聚类分析,可以将学生分成不同的群组,方便教师进行个性化、差异化的教学。

基于本体的数据挖掘在成绩分析中的应用研究

基于本体的数据挖掘在成绩分析中的应用研究

基于本体 的数据挖掘在成 绩分析 中的应用研究
连 利 河 。 筑 英 林
( 贵州师范大学 数学与计算机科学学院 , 贵州 贵 阳 50 0 ) 50 1
摘 要: 本文分析 了 目前成绩管理方面存在 的问题 , 阐述本体和数据挖掘技 术在本领域 的具体应用需求。通过对课程相关信息
进行数据挖掘 , 发现课程相 关知识点 中各种 隐藏的 关系以及 各知识 点学习更适用的方法 , 为教学和学生管理提供 决策 支持。

l — 42
系统 首先要 建 立课程 领 域知识 模型 和各 课程 相
关 系 ,主要 是为 了分 析对相 关 知识点 学 习的影 响和
关 的知识点的子本体。通过领域本体将各种不同的
数据转化为标准模式 ,确定要进行挖掘的目标和范 围, 选取合适的挖掘算法进行数据挖掘 , 对得到的结 果进行分析和评估 , 得到数据相关规则 , 最后把相关
收稿 日期 :0 1 0 2 2 1 — 9— 7
图 1 基 于本 体 的数据 挖掘模 型
作者简 介: 连利河 (9 3一) 男, 18 。 硕士研 究生 , 究方 向为 网络 多媒 体技 术及应 用; 研 通讯作者 : 林筑英 (9 8一) 女, 14 。 教授 , 研究方 向为网络多媒体与远程教育。
行为, 相关的约束 , 以及具体实践 。领域模型可通过
x 和数 据库来 实现 。 ml
2 数据挖掘
2 1 数 据 挖 掘 概 述 .
数据挖掘是为 了发现事先未知的规则和联系而 对大量数据进行选择 、 探索和建模的过程 , 目的在于 得到对数据库的拥有者来说清晰而有用的结果。
2 2 数 据挖 掘 工作 的流程 .
B s ) E— a 列表中提出的定义, “ ae 的 s mi l 即:本体是关 于共享概念的协议。共享概念包括对领域知识建模 的概念框架 、可互操作的系统通信协议和特定领域
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

28.1%
90.4%
[A5,I4] ⇒ C5
16.3%
85.3%
[A5,I3] ⇒ C5
11.1%
79.3%
[ I5,A2] ⇒ C2
10.3%
90.2%
[G1,L1] ⇒ C1
15%
95.3%
C5 ⇒ L5
25.0%
94.6%
L5 ⇒ A5
31.2%
91.2%
5.知识获取
对于所有的关联规则,本人重点分析学生内在因素对成绩的影响。可以发现上课座位位
G5
态度综合 A1
A2
A3
A4
A5
项目 事务
表 2 教师相关事务表
性别
职称
学历
教 副教
男女
讲师 本科 硕士 博士
授授
T1 T2 T3 T4 T5 T6 T7
T8
行政职位
兼政 专 职
T9
T10
4.2 生成关联规则 采用 Apriori 递推算法[4] [5],对所有学生数据进行分析,本人主要统计有三个专业四个
Yi Xue- Ming (Information College of Guangdong Ocean University, ZhanJiang 524025, China) Abstract: A present, there are so much data around with us, and much information hide in the sea of data. So data ware house and data mining technology is applied widely. The author have practiced for a few years and collected many data. Using data ware house and data mining technology, author mined data of students’ scores and found many important correlation factors of scores. These factors provide some useful consult for teachers and managers. Key words: data warehouse; data mining; students’ score; association rule; apriori algorithm 1. 引言 近年来,为适应时代的发展,满足社会的需求,中国高等教育规模越来越大,正从精英 教育转向大众教育。在当前竞争日益激烈,就业形势日益严峻的大背景下,社会对大学生的 素质提出了更高的要求,大学生的技能、素质、就业问题等均成为社会的热点。所以如何培 养一个合格的大学生,关注学生成绩和能力,是所有高校教师所面临的问题。作者经过三年 的数据收集和准备,在收集大量的事实数据前提下,使用数据仓库和数据挖掘技术,建立雪 花型数据仓库模型,使用 Apriori 关联规则算法,对数百名学生的成绩进行综合挖掘,分析 发现一些重要信息和原因,为工作的展开提供一些理论和事实依据。 2. 数据仓库的建立 2.1 集市数据的收集和集成 数据分析是建立在大量的数据基础上,作者经过 3 年的数据收集和准备,收集了大量的 集市数据。集市数据来源于需求不同的部门,数据类型也各有千秋,先对其集成处理,将数 据集成到下面的几个关系表里。 (1)学生基础数据表 高中基础是大学的起跑线,高考成绩不仅反映学生的基础,同时在一定的程度上反映学 生学习习惯和态度。高考成绩数据表数据来源于学生高考原始成绩整理和录入。集成后的模 型为:学生基础表(学生编号,年龄,性别,高考分数)。 (2)大学考试成绩表 大学成绩数据来源于教学管理部门每学期成绩表,由于课程性质、学习时间等因素的不 同,必需将其整合和简化,去掉一些不需要的字段,同时构造“课程编号”字段。建立的模 型为:学生成绩表(学生编号,课程编号,成绩)。 (3) 学生智商数据表 学生智商表数据来源于对学生智商进行测试和统计,建立的数据模型为:学生智商表(学 生编号,测试 1,测试 2,学生评测)。数据来源于具体 IQ 测试软件进行测试得分[1] 。为了 数据更有说服力,使用两个测试软件,在规定的时间内进行测试,同时还组织同学进行评测,
学生信息维表
学生编号 性别 姓名 年龄 ...
事实表
学生编号 成绩键 教师键 态度键 智商值 基础值
成绩维表
成绩键 课程键 成绩值
课程维表
课程键 课程名 学期 性质 ...
教师信息维表
教师键 职称 学历 性别 ...
态度维表
态度键 座次健 作业统计 课外表现 课堂表现 综合值
座次维表
座次键 前5排 中5排 其它排
出勤率以实际到课率百分数值表示,作业率以实际统计百分数值表示。教室一般不超过
15 排,座位统计分别统计上课时坐在前 5 排(n1)、中间 5 排(n2)、其它排(n3)的实际 次数,并指定权值 Qi,其值分别为 1,0.7,0.3。同时也换成百分制分数,分别计为 L1、L2、 L3,按公式:Li=ni/N*100*Q (其中 i=1,2,3,N=n1+n2+n3)进行计算。最后座次得分 L 取 Li 的平均值。
考虑外部因素对学生的成绩也有影响,如环境、设备、教师等。经过多年的发展,全国 大部分高校的教学硬件和软件相当好,这些条件对所考查的学生来讲均是一样的,在此主要 考虑任课教师因素,建立教师信息,其数据来源于学校统计的教师的综合信息。同时建立课 程信息表。 2.2 雪花型模型数据仓库的建立
基于上面的讨论,建立如图 1 所示的数据仓库雪花型仓库模型[2]。每一门成绩作为考虑 样本,主要考虑样本的“成绩,基础、态度、智商、教师”等因素。由于“智商”和“基础” 是一个相对稳定的值,所以将其作为事实表的量度值,其余的作为维表的键[3]。
习态度的引导,强调课堂座次重要性,对于高考成绩不理想学生要及时鼓励,让其树立成功
的信心。同时对学校有关部门也有一定的参考价值,如上课合班人数的安排,教室大小建设
等方面均有很好的借鉴价值。当然文章分析不全面,对于学生的外在因素,如教师水平、教
学计划等方面没有作过多讨论。
本文作者创新点:经过几年一手数据收集,从上课座次到课内外态度,使用数据挖掘知
年级的学生数据,设定最小支持度为 0.10,最小可信度为 0.5,生成相关的频繁项集和关联
规则。这里只选择实践结果的部分关联规则进行说明。
关联规则(association rule) 支持度(support)
置信度 (confidence)
[B5,C5] ⇒ A5
16.2%
92.3%
[L5,A5] ⇒ C5
数据挖掘技术在学生成绩分析中的应用
易学明 (广东海洋大学信息学院,广东 湛江 524025) 摘要:目前,人们正被海量数据所淹没,大量的信息隐藏在数据的海洋中,正因为如此,数 据仓库和挖掘技术得到广泛应用。作者从工作实际出发,经过多年的实践和思考,在收集大 量数据前提下,使用数据仓库和数据挖掘知识对学生的成绩进行综合分析,找出影响学生成 绩的一些重要因素,为教师和管理者提供一些有价值的参考。 关键词:数据仓库;数据挖掘;学生成绩;关联规则;Apriori 算法 中国图书分类号:TP311.13 文献标识码:A Application of data mining technology in students’ scores investigation
表 1 学生相关事务表
等级
事 务
[0,40]
[40,60) [60,75) [75,85) [85,100]
项目
成绩
C1
C2
C3
C4
C5
基础
B1
B2
B3
B4
B5
智商
I1
I2
I3
I4
I5
座 次 L1
L2
L3
L4
L5
态 作 业 H1
H2
H3
H4
H5
度 出勤率 D1
D2
D3
D4
D5
课外表现 G1
G2
G3
G4
得分 M 按计算按公式:M=[m/h*100]进行计算。 (2)智商数据转换
智商测试分数大多数在百分左右,过高和过低的分数均较少,也进行百分制转换。和学
生高考分数处理方法一样,以最高分为满分,将每一个学生得分转换成百分制分数,记为 I。 (3)学习态度数据的转换
对学习态度统计考查项目进行“数字化”处理。计统计次数为 K,实际游戏或其它非学 习次数为 g,得分计为 G 按分式 G=(1-g/K)*100 公式进行计算。
[3]周虹.电信数据仓库设计[J].微计算机信息,2009,2-3:174-175。
[4] Jiawei Han Micheline Kamber(加),范明 孟小峰译 数据挖掘概念与技术[M].北京:机械
工业出版社,2003:70-95 151-157
[5]姜晚云,胡学钢.关联规则挖掘在学生成绩管理中的应用[J].安庆师范学院学报(自然科
学版)2006,20-21
作者简介:易学明(1971-),男,湖北黄冈人,讲师,硕士研究生,研究方向为数据库、数
据仓库、数据挖掘及应用。
Biography: Yi Xue- Ming(1971-), male, ying shan county, Hubei province, lecturer, master,
于少数学生没有考试的空数据作不处理标记。
3.3 离散化处理 对百分制分数进行离散化处理,将百分制分数按成绩考核等级分成五个等级。参照表 1。
4.数据挖掘 4.1 事务数据库生成
对数据仓库中事实表的一个数据记录项作为一个事务,并对其进行维度下钻,对每一个
相关文档
最新文档