浅析基于数据挖掘的决策树技术在高校学生成绩分析中的应用

合集下载

基于决策树算法在学生成绩上的应用

基于决策树算法在学生成绩上的应用

基于决策树算法在学生成绩上的应用决策树算法是一种常见的数据挖掘技术,在各种领域都有广泛的应用。

在教育领域中,决策树算法也被广泛应用于学生成绩的预测与分析。

通过对学生成绩数据的挖掘与分析,可以发现学生成绩的影响因素,并且帮助教育工作者更好地了解学生的学习状况,提高教学质量。

本文将介绍基于决策树算法在学生成绩上的应用,探讨其在学生学习分析与预测中的作用与意义。

一、学生成绩的影响因素分析学生成绩是评价学生学习成果的重要指标,但是受到多种因素的影响。

通过决策树算法,可以对学生成绩的影响因素进行分析和挖掘。

可以将学生的学习情况、家庭背景、兴趣爱好、学习习惯等因素作为决策树的节点,通过对这些因素的分析,可以找出对学生成绩影响最大的因素,并且可以发现这些因素之间的复杂关系。

通过对学生成绩的影响因素进行分析,在实际教学中可以根据学生的具体情况进行有针对性的辅导与帮助。

对于学习习惯较差的学生,可以进行专门的学习方法指导;对于家庭背景不好的学生,可以给予更多的关爱和支持等。

通过对学生成绩影响因素的分析,可以为教育工作者提供科学的依据,帮助他们更好地进行教学工作。

二、学生成绩的预测与评估通过决策树算法,还可以对学生成绩进行预测与评估。

通过对历史学生成绩数据的挖掘,可以建立预测模型,预测学生未来的学习成绩。

这对于学校管理者和教育工作者来说是非常有意义的,可以及时发现学习成绩较差的学生,并对其进行帮助和辅导,及时解决问题,防止学生成绩的下滑。

三、案例分析下面通过一个具体的案例来说明决策树算法在学生成绩上的应用。

某校通过对历史学生成绩数据的分析,建立了一个决策树模型,预测学生下一学期的学习成绩。

通过对学生的学习成绩、考试频率、作业完成情况、家庭背景等多个影响因素进行分析,建立了一个复杂的决策树模型。

通过该模型的预测,学校发现有些学生学习成绩下滑的原因并不是学习能力不足,而是因为家庭情况等外部因素的影响。

学校不仅提供了学科辅导,还提供了家庭帮助和心理辅导等。

数据挖掘在高校学生综合评价中的应用

数据挖掘在高校学生综合评价中的应用

称为相应节点 的“ 测试” 属性 。对测试 属性 的每个 已知值
都将被创建一个分支 , 同时也对应着一 个被划分 的子集。
上述算法使用 同样的过程 , 递归地对所获得的每个划分形
成一个决策子树 。一旦一个属性 出现在一个节点上 , 则它 就不能再出现在该节 点之后 的所产 生的子树节点 中。当
其中p :
。 。
, 即为子集 s 中任一个数据样本属于类别 J
C 的概率 。
这样利用属性 A对 当前分 支节点 进行相应 样本集 合 划分所获得 的信息增益就是 :
表 l 样本数据集
() 二 A :∑ 1
其中, 项 _ 二 二

”: , ) s s 一
被称 为第 个子集 的权值 。 ) E(
的值越小 , 表示子集划 分结果越 好。 而对 于一个 给定子 集
J, s 它的期 望信息 为:
, u≈…, )= : g p) ( , , s 一 po ( ss w l2
二 、 据挖掘 的决策树分 类算法 数
决策树是一种从无次序 、 无规则 的样本数据集 中推 理 出决策树表示形式 的分 类规则方法 。它采 用 自顶 向下 的
I= J
其 中p 是任意一个数据对 象属于类别 c 的概率 , 可以按 s 计算 。 /s 因为 信 息 用二 进 制 编码 , 以对 数 函数 以 2 所
表 1。 )
用 属性 A将 s划分为 个子集 { 。s , , , s ,:… J } 其中 s 包含 s , 了集合 . s中属性 A取 嘶值的数据样本。 若属性 A被选为测
试属性 , s 为子集 S 中属于 C 类别 的样本数 , 设 则利用属 性 A划分当前样本 集合所需 要的期望信息 可以计算 如下 :

数据挖掘在学生成绩预测中的应用研究

数据挖掘在学生成绩预测中的应用研究

数据挖掘在学生成绩预测中的应用研究随着教育的普及和信息技术的发展,学生的学习数据越来越丰富,如何利用这些数据来预测学生成绩已成为教育领域的一个热门话题。

数据挖掘作为一种从大规模数据中发现规律的技术,被广泛应用于学生成绩预测。

本文将从数据挖掘技术的角度出发,探讨在学生成绩预测中数据挖掘的应用研究。

一、数据挖掘技术的分类数据挖掘技术可以分类为分类、聚类、关联规则和预测四大类。

其中,预测是指根据历史数据和特征预测未来的趋势或者状态。

在学生成绩预测中,应用比较广泛的是回归分析、决策树、神经网络等预测模型。

这些模型可以根据已有的学生数据,建立预测模型,对未来的学生成绩进行预测。

二、数据挖掘应用于学生成绩预测的方法1. 数据预处理在进行学生成绩预测之前,需要对数据进行预处理。

其中包括数据清洗、特征选择、数据变换等。

数据清洗是指对数据进行去除重复、填充缺失值等操作;特征选择是指对数据中的特征进行筛选,选取对成绩影响较大的特征;数据变换是指对数据进行规范化处理,将数据进行归一化或者标准化。

2. 回归分析回归分析是一种常用的预测模型,可以根据历史数据,建立一个函数来预测未来的学生成绩。

回归分析可以分为线性回归和非线性回归。

线性回归是指建立一个线性函数来预测未来的学生成绩,非线性回归是指建立一个非线性函数来预测未来的学生成绩。

通过对历史数据的回归分析,可以建立一个适用于预测的模型。

3. 决策树决策树是一种分类和预测的算法,可以根据历史数据和特征,建立一个决策树,用来预测未来的学生成绩。

决策树可以根据历史数据和特征构建出一个树形结构,每个叶子节点表示一个预测结果。

对于一个新的学生,可以通过决策树进行预测。

4. 神经网络神经网络是一种模仿人类神经网络的模型,可以对非线性模型进行预测。

神经网络一般由输入层、隐藏层和输出层组成,可以根据历史数据和特征,训练一个神经网络模型,用来预测未来的学生成绩。

三、数据挖掘在学生成绩预测中的应用研究已经取得了一定的进展。

基于数据挖掘的高校学生学习成绩分析应用研究

基于数据挖掘的高校学生学习成绩分析应用研究
F AN ቤተ መጻሕፍቲ ባይዱ T o n g ・ k e ,S UN J i a n g — y a n
( Mo d e m E d u c a t i o n T e c h n o l o g y C e n t e r o f X i ’ a n I n t e r n a t i o n a l U n i v e r s i t y , X i ’ a n 7 1 0 0 7 7, C h i n a )
樊 同科 , 孙 姜 燕
( 西安外事学院现代教 育技术 中心, 陕西 西安 7 1 0 0 7 7 )
摘要 : 高校的 学生成绩管理是各 高校教务 管理 工作 的核心和基础 。大多数 高校 的学生成 绩是 以 多种形式保存 , 一般 只限 于对成绩的查询及 简单的统计上面 , 没有 对这 些积 累的海量数据 背后的 有用信 息进行挖掘 分析 。针 对这些 海量数据 构
Ab s t r a c t :Ma n a g e me n t o f c o l l e g e s t u d e n t s ’a c a d e mi c r e c o r d i S a n i mp o r t a n t p a r t o f w o r k i n e d u c a t i o n l a a d mi n i s t r a t i o n .Mo s t c o 1 . 1 e g e s s t o r e s t u d e n t s ’r e c o r d s i n v a r i o u s w a y s ,ma i n l y l i mi t e d t o s e a r c h i n g a n d s i mp l e s t a t i s t i c s ,a n d u s e f u l i n f o r ma t i o n b e h i n d s u c h ma s s d a t a i s n o t a n a l y z e d .A d a t a b a s e j s c o n s t r u c t e d b a s e d o n s u c h d a t a a n d s t u d e n t s ’a c a d e mi c r e c o r d i S a n a l y z e d b y u - s i n g c l a s s i i f c a t i o n a n d p r e d i c t i o n a l g o r i t h m ,s h o wi n g t h a t s t u d e n t s ’a c a d e mi c p e r f o r ma n c e i s r e l a t e d t o s t u d e n t s ’p a r t i c u l a r i t y, o r - i g i n a n d t e a c h e s ’e r d u c a t i o n b a c k g r o u n d.S u c h p e r t i n e n c e c a n p r o v i d e e v i d e n c e f o r d e c i s i o n — ma k i n g a n d a d mi n i s t r a t i o n d e p a t r - me n t s o f s c h o o l s or f a n ly a s i s a n d a d mi n i s t r a t i o n .I n t u r n .i t c a l l i n s t r u c t e d u c a t i o n nd a i mp r o v e o v e r a l l e d u c a t i o n a l q u a l i t y . Ke y wo r d s :d a t a mi n i n g ;d e c i s i o n t r e e ;a n ly a s i s o f s t u d e n t ’ s a c a d e mi c r e c o r d

基于数据挖掘技术的学生成绩分析

基于数据挖掘技术的学生成绩分析

职业教育与培训现代商贸工业2018年第17期170㊀㊀作者简介:狄晓娇(1978-),女,辽宁沈阳人,辽宁广告职业学院副教授,研究方向:计算机科学与技术.基于数据挖掘技术的学生成绩分析狄晓娇(辽宁广告职业学院,辽宁沈阳110000)摘㊀要:信息技术的发展及应用以及如何利用信息技术提高高校的管理水平,是高职院校面临的重大课题.在学习和工作的过程中接触到数据挖掘这一先进的概念,力图通过数据挖掘从学生的成绩中找到隐含在其中的有效信息,这样既可以帮助老师了解学生的学习情况,又可以帮助学生了解学习重点,达到教学相长的目的.利用数据挖掘技术中的决策树的相关知识和方法,以多届学生的«计算机应用基础»成绩,对学生的成绩进行分析.主要使用数据挖掘中的决策树知识将决策树应用在学生成绩数据挖掘的模型上,使用S P S S M o d e l e r 软件利用C5.0算法分析出哪些因素对于«计算机应用基础»考试的影响最大,揭示其中规律,为今后教学工作及教学安排提供有效的科学的指导依据.关键词:数据挖掘;考试成绩;决策树;关联规则中图分类号:G 4㊀㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀㊀㊀d o i :10.19311/j.c n k i .1672G3198.2018.17.0831㊀决策树的基本概念在已有的大量源数据中得到有效的分类器有许多种办法,决策树就是其中一种有效的办法.他在数据挖掘中尤其在数据分类领域中应用十分广泛.决策树算法主要是通过一组输入样本数据然后对样本进行决策树归纳的一种方法.决策树的表现形式是一个倒树状结构图,并且在树枝的节点上一般还附带概率结果,它是一种是直观的使用统计概率来分析对象的图表示方法.2㊀几种常用的决策树算法常见的算法有C H A I D ㊁C A R T ㊁Q u e s t 和C 5.0.判断决策树算法是否合适,就看每一个决策树分组的组之间的差别是否够大,属性差别越大就是算法越合适.决策树算法擅长处理离散型数据,并且处理非数值性数据时效率的方面也有不错的表现.3㊀决策树的评价标准建立了决策树模型后需要给出该模型的评估值,这样才可以来判断模型的优劣.学习算法模型使用训练集(t r a i n i n g se t )建立模型,使用校验集(t e s t s e t )来评估模型.经过校验集评估后决策树进行评价.评估指标有分类的准确度,描述的简洁性和计算的复杂程度等指标.4㊀决策树在计算机成绩分析中的应用4.1㊀确定挖掘对象本次挖掘的对象是以«计算机基础»为基础信息,之所以选择这门课程,是因为它是新生入学的第一门与计算机相关的课程,也是今后继续学习计算机相关课程的基础.«计算机基础»包含平时成绩及期末考试成绩.考试在新生入学的第一学期的期末,即每年的1月份进行期末考试,期末考试总分为40分,占总成绩的40%.期末考试的形式为上机操作,其中包括W o r d ,E x c e l 和p o w e r po i n t 分别占总成绩的40%,40%,20%.在平时成绩中有3次随堂测验同样分别是W o r d ,E x c e l 和p o w e r po i n t ,将其成绩汇总作为平时成绩,总分为60分,平时成绩占总成绩的60%.本论文决定使用决策树方法研究«计算机基础»考试中w o r d ,E x c e l 和p o w e r po i n t 几个部分对最终成绩的影响程度.通过构造决策树可以更容易找到哪些因素对最终成绩影响更大.同时采用关联规则中的A pr i o r i 算法研究«计算机基础»和后续课程«f i r e w o r k s »的关联.4.2㊀数据的预处理本文用到的2013至2015级学生的«计算机基础»成绩及«f i r e w o r k s»成绩,是在学校教务部门,使用我校教务部门的教务管理软件下载得到,由于学校的管理软件的功能有限,所以下载的成绩是以班级为单位的.(1)数据的预处理.数据的预处理对与数据挖掘有着重要的作用,在本文研究的目标模型是多界学生的«计算机基础»及其后续学习课程的成绩,并且这些成绩是以E x c e l 文件的形式保存的.其中包含的属性包含学号㊁姓名㊁平时成绩㊁期末成绩㊁总成绩㊁专业名称㊁课程名称㊁任课教师等.现在需要做的就是对这些数据进行集成和预处理.(2)数据清理.数据预处理的第一步就是处理缺失数据.通常情况下对于缺失值的处理方法包括:人工填写,使用最有可能的数值,忽略数值,平均值填充等方法.在处理«计算机基础»考试成绩的过程中发现大部分缺失值产生的原因是由于缺考造成的,所以对于缺失值的处理方法是忽略条目的方法.由计算机基础是第一学期的考试科目,所以缺考学生没有,得到有效数据2397条.(3)数据集成.我们需要将«计算机基础»,«f i r e w o r k s»等科目的成绩集成在一个成绩表中,也就是数据集成.集成后数据表格包含«计算机应用基础»,«f i r e Gw o r k s »考试成绩,每门课程包括平时成绩,期末成绩及总成绩,任课教师等属性.其中原始样本为2397个,经过预处理可以进行数据挖掘的样板数为2253个.本次数据挖掘样本有效率为94%.(4)数据的归约.经过数据集成后,我们还需要对数据进行归约,对数据进行离散化处理把连续型数据转换为离散型数据,可以使数据挖掘的结果更加直观简洁.在本文中我们通过数据集成,将学生的成绩数据集成到一个包含学号㊁姓名㊁专业类别㊁平时成绩㊁期末成绩㊁总成绩等属性的数据文件.首先我们研究的课题是利用决策树研究平时成绩与期末成绩和影响考试通过率因素.现代商贸工业2018年第17期171㊀所以首先剔除«f i r e w o r k s»的考试成绩,以及专业类别㊁任课教师属性.还因为姓名与学号两个属性是属于相关属性,也就是说姓名与学号是对应的关系,相互可以替代,但是姓名还有重名的可能,而学号是唯一的,所以将姓名的属性剔除.只保留学号,平时成绩,期末成绩,总成绩这些属性.对于决策树的构成最好使用离散型数值,这样可以使结果简洁,减少计算量.所以,我们需要将成绩库中的数据进行离散化处理.目前,期末考试的总成绩为100分,而评价学生通过考试的分数线为60分,所以,将总成绩属性离散化为两个部分,即:将高于60分的学生成绩转换为 ye s ,分数低于60分的成绩转换为 n o.平时成绩占总成绩60%,满分为60分,按照平时成绩大于54分,小于等于60分;大于47分,小于等于53分;大于41分,小于等于47分;大于35分,小于等于41分;小于等于35分五个层次,将平时成绩分为 S u pe r H i , M i d , L o w , N o 五个等级.平时成绩分为W o r d ,E x c e l ,p o w e r po i n t 及平时表现分数四个部分,其满分分别是20,20,10,10.将这些成绩按照满分的90%,80%,70%,60%分成 S u pe r H i , M i d , L o w , N o五个等级.与此同时,期末成绩占总成绩的40%,共40分,按照期末成绩分数大于35分,小于等于40分;大于31分,小于等于35分;大于27分,小于等于31分;大于23分小于等于27分;小于等于23分,分为 S u pe r H i , M i d , L o w , N o 五个等级.4.3㊀利用决策树做成绩分析使用S P S S M o d e l e r 软件中C 5.0模型,得到运算结果.通过对结果的查看得到对于考试成绩影响最大的是 平时 部分,预测变量的重要性=0.36;然后是p o w Ge r po i n t 和w o r d 部分,预测变量的重要性=0.23;而 出勤 部分对于是否通过考试的影响重要性为0.18.由此得出结论:对于判断一个学生是否通过考试的几个因素中平时成绩最重要,w o r d ,p o w e r po i n t 和出勤情况的占比差不多,但是对于E x c e l 部分的相关性却不是很强,但是由于对于学生来说w o r d 与E x c e l 和p o w e r Gpo i n t 的重要性在学习和以后的应用中是同等重要的,所以应该加强考试出题中E x c e l 的难度比重,如图1所示.图1㊀计算后相关因素的重要性提高E x c e l 成绩与最终考试成绩的相关性,使教学的成果在考试中得到均衡的体现,更好的表现出考试的均衡性.通过对规则的研究可以得到一些有用的规则,我们发现如图2.图2㊀计算后得到的规则I F p o w e r po i n t 成绩是 H i 或者 M i d t h e n 通过考试的比率为98.33%.其他的规则由于样本比例不是很多所以没有更多的挖掘意义.具体形成的决策树如图3.图3㊀«计算机应用基础»成绩的决策树通过以上的数据挖掘,我们可以看出在众多影响学生成绩的因素中,平时成绩对学生最终成绩的影响是最大的.所以如果想要提高学生的最终成绩,就需要提高学生的平时成绩.而平时成绩主要是由考勤及平时几次考试的成绩决定的,因此如果希望提高学生的最终成绩一定要保证平时的出勤率,和平时的学习效果.另外,从以上的规则中我们还可以看出对于最终成绩影响较大的还有p o w e r p o i n t 部分,这部分知识点较简单,学习起来也较容易,因此比较容易拿分,因此需要提高其他方面知识点的分布,增强学生的学习效果.5㊀总结信息化技术的发展,对于高校这既是机遇又是挑战,笔者所在的学校的各个管理部门也在引入先进的管理系统,完善各自部门的管理.比如近些年学校陆续上了教务管理系统㊁学生管理系统㊁人事管理系统等等.这样使得笔者所在学校的管理水平上了一个台阶.升级新的管理系统为我校积累了大量数据资源.如何利用先进管理系统带来的宝贵的数据资源也为学校各界人士提出了问题.笔者尝试利用数据挖掘这样一个新兴的学科来对学校的数据进行一些分析,力图从中挖掘出一些隐藏在数据中的一些信息,为学校的建设提供科学的理论依据.参考文献[1]范佳凤,袁娟,许艳敏.基于成绩分析的大学教与学现状思考[J ].现代商贸工业,2013,(03).[2]戎荷婷,王瑞玲,武晶,杨秋白.学生行为对学生成绩的影响探究[J ].现代商贸工业,2016,(23).[3]臧琛,李景平,刘海亮,王景磊.工程训练学生成绩考核体系探讨与设计[J ].现代商贸工业,2017,(09).。

数据挖掘技术在高职院校学生综合素质考核中的应用

数据挖掘技术在高职院校学生综合素质考核中的应用

在 A上分枝将 获得的编码信息是 决策树归纳的基本算法是贪心算法 .它以 自 向下递 归的划 分一 顶 G ( = ( lJ , ,m)E(  ̄nA)/s ,2 … S - A) s 控制方式构造决策树 策树是通过一系列规则对数据进行分类 的过 决 换言之 , anA是 由于知道属性 A的值而导致的熵的期 望压缩 。 G i() 程. 它提供一种在什么条 件下会得到什么值的类似规则的方法 本文 通过此算法计算 出每个属性 的信息增益 。 具有最高信息增益的属 是基于 I 3 法的 , D算 其基本策略是 : 性选作为给定集合 s 的测试属性 。 并创建一个结点 , 并以该属性标记 , ( ) 以代表训练样 本的单个结点开始 ( 1树 步骤 1 。 ) 对属性 的每个值创建分枝 , 并据此划分样本 。 ( ) 果样本都在 同一个类 . 2如 则该节 点成 为树 叶, 并用该 类标号 ( 步骤 2和 3 。 ) 2 学生综合素质考核 中的决策树算法应用 () 3 否则 , 算法使用称为信息增益 的基本熵 的度量作为启发信息 , 表 1 学生样本数据集 选择能 够最 好地将 样本分类的属性 ( 步骤 6 该属性成为该结点 的 ) “ 测试 ” 判定” 或“ 属性 ( 步骤 7 。在算法 的该版本 中, ) 所有 的属性都是 样本 姓名 学年考试 德育 职业技 能 社会 实践 考核成绩 编号 平均成绩 成绩 水平 能力 分类 的. 即离散值 。连续属性必须离散化 。 () 4 对测试属性 的每个 已知的值 . 创建一个分枝 . 并据此 划分样 本 1 张文海 优 中 中 由 B ( 步骤 8 1 ) — O。 2 李兴松 良 优 高 高 A ( ) 法使用 同样 的过程 , 5算 递归地形 成每个划分上 的样本决 策树 。 3 苗桂军 优 良 高 由 A 旦 一个属性 出现在一个结点上 . 就不必该结 点的任 何后代上考虑它 ( 步骤 1 ) 3。 4 张子硕 良 良 高 由 B () 6 递归划分 步骤仅 当下列条件之一成立停止 : 5 元丰 良 良 高 由 B () a给定结点的所有样本属于同一类 ( 步骤 2 3 。 和 ) 6 李祥林 良 由 由 低 C () b 没有剩余属性可 以用来进一步划分样本 ( 步骤 4 。在此情况 ) 下, 使用多数表决( 步骤 5 。 ) 这涉及将给定的结点转换成树 叶. 并用样 7 王泽华 由 良 低 低 D 本中的多数所在的类标记它 。替换地 . 可以存放结点样本 的类分布 。 8 杜选 峰 及 格 d 由 由 E () c分枝没 有样本 ( 步骤 1 ) 1 。在这种情况下 。 以训 练样本中的多 9 盖文 海 中 良 中 低 C 数类创建一个树叶( 步骤 1 ) 2 12 决策树的生成算法 . 1 刘世 峰 0 由 中 低 低 E 首先需要计算 出每一个属性 的信息增益 . 其次 以最高信息增益 的 属性作为集合 的检 验属性 . 用检验属 性生成结点并标记 . 最后对于检 为了利用决策树分类算法 将学生综合素质 考核 中的考核结果 进 验属性的每个值生成分叉 行分类 , 此前首先需要确定 数据挖掘 的对象 , 我们从学生信 息数 据 中

决策树数据挖掘算法在学生评价分析中的应用

河 南 职 工 医 学 院 学 报
Ju n l fHe a dc lC l g o tf n ok r o ra n n Me ia ol efrSafa d W res o e ・6 43 价 分 析 中的应 用
齐云飞 , 李勇强
表、 事实 表和评 价 事 实模 型 。系统 为 评 价信 息 表 建
立 了两 个 维 度 :er t m 构 成 的 时 间 维 度 和 cm y a、e r o.
m e at nt or、 om m ent t c a or

t e 性构 成 的评 价人 维度 。 y 属 p
系统需要 建立 dm— t、 i cm mett 两个 维 度 i a d e m— o m nao r 表 和事 实表 F ea ai , —v l t n 维度 表 与系统 表关 系如 图 u o
具 有较 大差异 。下 面选 择决策 树算法 来实 现对学 生 评 价 的分类分 析 , 使用 决 策 树 算法 主 要 基 于 以下 考 虑 : 为 学 生 设 计 的 评 价 项 多 数 使 用 的 是 ‘ ’ ① 高 、
技术 作为 专用 于信息查 询和 分析 的新兴 技术 在商业
智 能领域 取得 了极 大 的成功 。学生 评价 作为 教学评
解 的特 点 。 2 使 用决策树 算 法实现 学生评 价分 析
学 管理 。因此 , 立 科 学 的高 校 学 生评 价 系 统是 加 建
强 高 等 学 校 教 学 管 理 和 提 高 教 学 质 量 的 重 要 举措 。
1 数 据挖 掘与 决策树 算法 1 1 数据挖 掘 的定 义 数 据 挖 掘 是经 由 自动或 半 . 自动 的方式 来探究 及 分 析 大量 的信 息 , 以发 现有 意 义 的规 律 。H n和 K mbr 认 为 数 据挖 掘是 从 数 a a e则 据库 、 数据 仓库或 其 他 的数 据 存 储 的大 量 数 据 中提 取有用 的 信 息 与 模 式 。F ya ayd等人 将 数 据 挖 掘 定义 为从数 据 中找 出有 效地 、 新颖 的 、 藏有用 的 以 潜 及最 终能被 理解 的模式 的高 级过程 。 数据挖 掘 的功 能 可 以分 为六 类 : 类 、 分 回归 、 预

基于决策树技术的高校学生成绩分析

基于决策树技术的高校学生成绩分析作者:杨小云陈韬伟杨曌来源:《科教导刊·电子版》2015年第20期摘要决策树算法是数据挖掘中的重要技术之一,具有出色的数据分析能力和直观易懂的结果展示等特点。

本文利用SPSS Modeler提供的决策树分类算法对高校学生的成绩进行更深层次的有效分析,发现隐藏在成绩数据中的规律或模式,考察大学计算机基础考试中不同部分对总成绩的影响程度,从而进一步提高高校的计算机基础课程的教学水平。

关键词数据挖掘决策树成绩分析中图分类号:TP311.13 文献标识码:A0引言随着我国高等教育信息化建设的快速发展,许多高校都已经建立起了校园精品课程、数字化图书馆、网络实验室等信息化应用,在知识共享上不断完善求新。

同时,校园服务、校园信息发布、在线教学等数字化校园平台的建设实现了数据的共享与系统的整合。

传统的学生成绩分析还停留在简单的查询及简单的数字统计阶段。

如查询某个学生的某门课程的成绩,统计某门课程的优、良、中、差各个成绩段的学生人数,统计成绩的均值、方差、置信度等。

己有的分析研究仅仅从理论上对可行的评价机制进行讨论,而隐藏在这些数据后的其他有用信息很难能够发掘出来。

另一方面,信息化应用中获取的大量教学信息使得各种新的属性不断出现,增加了学生的信息存量,大量的学生信息以及学习数据没有发挥其相应的作用。

这些信息从一定的角度上反映了学生在新的教学模式下所特有的学习行为,为研究学生的学习行为提供了依据与基础。

本文就是在这些大量的数据基础上,结合数据挖掘的决策树分类技术,从学生的学习成绩入手,收集、整理和分析学生的行为信息,总结和发掘在新的学习模式下对教学质量及其学习效果的影响,为教师日常教学和学生学习的改进提供依据。

1数据挖掘技术综述数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用、可信的信息和知识的过程。

决策树在高校计算机等级考试成绩分析的应用

2 0 1 3 NO 2 5
蓖 面 雨 E Q H N O L O @ Y I N F O R M A T O I N
信 息 技 术
决策树在高校 计算机等级考试成绩分 析 的应 用①
黄振 功
( 1 . 广西 大学计 算机与 电子信 息学院 广西南 宁 5 3 0 0 0 4 ;2 . 广 西民族 师范 学院 广西 崇左 5 3 2 2 0 0 )
它 是 数 据库 技 术 、 统计学 、 机器学习、 理 中 积 累 了海量 的CC T相关 数 据 。 然而 , 这 程…。 样 海 量 的 数据 只 是 单 纯 的存 储在 系 统 中 ,
从 根 结 点 到 叶 结 点 的 一 条路 径 就 对 应 着 一
信息检索技术 、 数 据 可视 化 和 模 式 识 别 与 条 规 则 , 整 棵 决 策 树 就 对 应 着 一 组 分 类 规 构。 树 的 形 状 可 以有 很 多类 型 : 可能 很 稀 疏
问卷 调 查 表 让 学 生 认 真 填 写 , 然后提交。 以
此形 式 收 集 学 生 的 重 要 信 息 , 这 些 重 要 信

息 包括 : 电脑 基 础 、 兴趣 爱好 、 预 习复 习 、 理
却 很 难 发 现如 此大 量 数 据 背 后 所隐 藏 的对 人 工 智 能 等 有 机 结 合 。 数 据 挖 掘的 核 心 技 则 的 集 合 。 它 类 似 二 叉 树 或 多 叉树 的 树 结 神 经元 网络 、 教学潜 在有用的知识 。 本 文 使 用 数 据 挖 掘 术算 法 主 要 有统 计分 析 方 法 、 技 术 中的 决策 树 算 法 对 我 校2 0 1 0 级 学 生 参 决 策 树 方 法 、 聚类算法 、 遗 传算法等 。 数 据 或 者 很 茂 盛 , 树 的 深 度 也 可 以 比较 大或 比 加 全 国高 校计 算机 等级 考 试 数 据进 行 了分 挖 掘 技 术 广 泛 应 用 于教 育 教 学 、 物 流 零 售 较 小 。

影响大学生体测成绩的因素与决策树技术的应用

影响大学生体测成绩的因素与决策树技术的应用随着社会的发展和进步,人们对身体健康的关注越来越高。

大学生作为社会的中坚力量,其身体健康状况对整个社会的发展都有着重要的影响。

大学生体测成绩成为了评价学生身体健康状况的重要指标之一。

大学生体测成绩的优劣不仅仅受到个体生活习惯和遗传因素的影响,还受到多种因素的综合影响。

本文将重点探讨影响大学生体测成绩的因素,并介绍决策树技术在此中的应用。

一、影响大学生体测成绩的因素1. 生活习惯生活习惯是影响大学生体测成绩的重要因素之一。

饮食习惯、作息时间、运动量等都会直接影响身体的健康状况。

长期不规律的作息时间会导致生物钟紊乱,影响身体机能的正常运转;而缺乏运动则会导致肌肉无法得到锻炼,影响体能水平的提升。

2. 遗传因素遗传因素也是影响大学生体测成绩的重要因素之一。

父母的身体健康状况和遗传基因会在一定程度上影响孩子的身体素质。

父母身体素质较差的学生在体测成绩上可能会有所不足。

3. 心理因素心理因素也会对大学生体测成绩产生影响。

长期的焦虑、紧张和压力都会导致身体处于紧张状态,影响身体机能的正常发挥;而乐观积极的心态则有利于身体健康状况的提升。

4. 环境因素校园环境和家庭环境都会对大学生的体测成绩产生影响。

学校周围是否有良好的运动场地和设施,学校是否有规范的体育锻炼制度等都会影响学生的体测成绩。

5. 其他因素除了以上几种因素外,还有一些其他因素也会对大学生的体测成绩产生影响,比如饮食结构、身体健康状况、学习压力等。

二、决策树技术的应用决策树技术是一种基于树形结构的分类算法,可以用来分析和预测数据,对影响大学生体测成绩的因素进行深入挖掘和分析。

1. 数据的收集和整理我们需要收集大量的大学生体测成绩和相关因素的数据,包括生活习惯、遗传因素、心理因素、环境因素等。

然后,将这些数据进行整理和归类,为进行决策树技术的应用做好准备。

2. 决策树模型的构建在收集和整理好数据后,我们可以通过使用决策树算法来构建一个适合于大学生体测成绩预测的模型。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

科 技 天 地
38
INTELLIGENCE
浅析基于数据挖掘的决策树技术在高校学生成绩分析中的应用
保定学院数学与计算机系 何广东
摘 要:由于高校连年扩招,给高校的教学工作带来了许多影响教学质量的问题。

本文提出了一种应用数据挖掘的决策树技术来挖掘隐藏在学生成绩背后的有价值信息的研究方案,目的是给教学工作提供重要决策依据,提高教学质量。

关键词:数据仓库 数据挖掘 学生成绩管理
学习成绩是衡量学生对所学知识和技能掌握程度的重要标志,也是教学质量评估的主要依据。

在高校日常教学过程中往往会积累大量的数据,但目前对这些数据的处理还停留在查询、备份及简单统计阶段,不能充分发挥它的作用。

现有的教务管理信息系统中,也仅仅是对成绩输入输出及简单的查询操作,而对成绩分析却涉及较少。

比如,对学生成绩的分析处理一般仅仅是统计成绩为优、良、及格、不及格各个等级别的人数,对于学生取得成绩的原因往往一无所知。

这样就导致海量的成绩数据只是以各种不同形式的表格存储在不同的计算机上,不便于教学管理部门进行有效的教学评价。

而利用数据挖掘技术可以从定量的角度精确地展现学生成绩分析的诸多方面。

因此,把数据挖掘技术引入到学生成绩分析中,挖掘出隐藏在数据背后的规律或模式,根据挖掘结果提出一些指导性建议来帮助改进教学工作中的不足,这样一定会增强教学效果,提高学生的学习成绩。

数据挖掘技术目前在商业、金融、医学等方面都得到了广泛应用,而在教育领域应用较少,但随着该技术的不断发展、完善以及人们对它关注度的提高,数据挖掘技术必将对现代教育教学的改革和发展起到巨大的推进作用。

一、数据挖掘定义
数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD)就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用、可信新颖的信息和知识的过程。

通过数据挖掘,有价值的知识、规则或深层次的信息就能从数据库的相关数据集合中抽取出来,并从不同角度显示,使用户可以在信息的荒漠中更容易找到知识的绿洲,解决了用户“信息丰富而知识贫乏”的尴尬。

数据挖掘是一门广义的交叉学科,它的发展和应用涉及到不同的领域,尤其是数据库、人工智能、数理统计、可视化、并行计算等。

数据挖掘过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。

二、数据挖掘的决策树技术概述
决策树(Decision tree)是代表着决策集的树形结构。

基于决策树的方法是从实例集中构造决策树,是一种有指导的学习方法。

一般都是自上而下生成的,选择分类的方法有多种,但是目的一致的,就是对目标类尝试最佳的分类。

决策树是一种经常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。

它的主要优点是描述简单,分类快,特别适合大规模的数据处理。

最有影响和最早的决策树方法是由quinlan 提出的著名的基于信息嫡的ID3算法。

该算法主要存在的问题是:ID3是非递增学习算法;ID3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。

针对以上问题,出现了很多较好的改进算法,如schlimmer 和fisher 设计了ID4递增式学习算法等。

ID3算法采用自顶向下不回溯策略,保证找到一个简单的树,它是最为典型的决策树学习算法。

算法C4.5是ID3算法的扩展,将分类领域从类别属
性扩展到数值型属性。

三、数据挖掘的决策树技术在学生成绩分析中的应用在高校学生成绩管理中,对学生学习成绩产生影响的因素很多,所以要进行综合的分析。

传统分析无非是得到均值、方差、信度、效度和区别显著性检验等,往往还是基于教学本身。

其实,还有一些教学中不易察觉的因素和教学以外的因素影响学生学习成绩,这些都需要进一步分析,从而得出结论,供教学工作使用。

基于学生成绩属性的特征进行分类采用的是决策树学习方法。

以一组无次序、无规则的数据记录为基础,从中推理出决策树表示形式的分类规则。

在成绩分类模块中决策树的每一个结点代表一个成绩属性,每个分支代表该成绩属性取值的判断条件。

具体应用时,要先对学生成绩样本记录进行属性归纳操作。

在教务系统的成绩管理中的成绩的属性有很多,在进行决策树算法之前要对成绩属性进行归纳,去除那些和成绩分析挖掘无关的或者是弱相关的属性,选择相关属性作为决策树的结点。

决策树归纳算法计算每个属性的信息增益,并从中挑选出信息增益最大的属性作为给定集合的测试属性并由此生产相应的分支结点。

所生成的结点被标记为相应的属性,并根据这一属性的不同取值分别生成相应的决策树分支,每个分支代表一个被划分的样本子集。

现实中的数据在多数情况下不能满足算法所要求的条件,主要是因为在实际应用中,除了离散型属性之外,还存在大量的连续型属性。

由于决策树算法处理的属性要求是离散型的,这样就不能直接应用决策树算法。

这要求算法的扩展使之能够处理连续型属性。

决策树算法在实际应用之前还要从以下方面进行改进。

先要将成绩数据按降序排列(重复的值被合并到一起),查询出不重复的取值个数,根据规定的条件,在成绩分析挖掘模块中,要以对教务管理系统信息数据库经过抽取、清洗后而生成的学生成绩挖掘库的信息做为训练样本。

根据属性分析的方法和规则,要对成绩属性信息进行筛选,采用属性泛化和属性消除两种方法。

进行属性消减工作,即利用所设置的泛化控制阈值,帮助消减拥有过多不同值的属性,去除掉那些与系统进行决策树算法无关的属性。

四、结束语
数据挖掘是一种决策支持过程,是深层次的数据信息分析方法。

将数据挖掘技术应用于教学管理无疑是非常有益的,它可以全面地分析考试结果与各种因素之间隐藏的内在联系,可以将大量的数据转化为分类规则,从而更好地分析这些数据,必然有利于教学质量的提高。

参考文献:[1] 纪希禹:《数据挖掘技术应用实例》,机械工业出版社,2009.4。

[2] 李庆香:《数据挖掘技术在高校学生成绩分析中的应用研究》,西南大学,2009.12。

[3] 赵辉:《数据挖掘技术在学生成绩分析中的研究及应用》,大连海事大学,2007.3。

相关文档
最新文档