数据挖掘技术在学生成绩分析中的应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
考虑外部因素对学生的成绩也有影响,如环境、设备、教师等。经过多年的发展,全国 大部分高校的教学硬件和软件相当好,这些条件对所考查的学生来讲均是一样的,在此主要 考虑任课教师因素,建立教师信息,其数据来源于学校统计的教师的综合信息。同时建立课 程信息表。 2.2 雪花型模型数据仓库的建立
基于上面的讨论,建立如图 1 所示的数据仓库雪花型仓库模型[2]。每一门成绩作为考虑 样本,主要考虑样本的“成绩,基础、态度、智商、教师”等因素。由于“智商”和“基础” 是一个相对稳定的值,所以将其作为事实表的量度值,其余的作为维表的键[3]。
年级的学生数据,设定最小支持度为 0.10,最小可信度为 0.5,生成相关的频繁项集和关联
规则。这里只选择实践结果的部分关联规则进行说明。
关联规则(association rule) 支持度(support)
置信度 (confidence)
[B5,C5] ⇒ A5
16.2%
92.3%
[L5,A5] ⇒ C5
此外,还对各个因素进行综合处理,将各项数据总和取平均值,作为态度总分,记为 A。 3.2 数据清理
对于少数统计不全的空缺值,使用同一类样本的平均值进行人工填补[3]。根据调查和了
解的情况,将和空缺值学生平时一起活动较多、关系较好、表现相近的同学作为同类样本,
取平均值进行填充。由于学校教师职称“助讲”当很少,所以删除“助讲”职称的数据,对
数据挖掘技术在学生成绩分析中的应用
易学明 (广东海洋大学信息学院,广东 湛江 524025) 摘要:目前,人们正被海量数据所淹没,大量的信息隐藏在数据的海洋中,正因为如此,数 据仓库和挖掘技术得到广泛应用。作者从工作实际出发,经过多年的实践和思考,在收集大 量数据前提下,使用数据仓库和数据挖掘知识对学生的成绩进行综合分析,找出影响学生成 绩的一些重要因素,为教师和管理者提供一些有价值的参考。 关键词:数据仓库;数据挖掘;学生成绩;关联规则;Apriori 算法 中国图书分类号:TP311.13 文献标识码:A Application of data mining technology in students’ scores investigation
学版)2006,20-21
作者简介:易学明(1971-),男,湖北黄冈人,讲师,硕士研究生,研究方向为数据库、数
据仓库、数据挖掘及应用。
Biography: Yi Xue- Ming(1971-), male, ying shan county, Hubei province, lecturer, master,
出勤率以实际到课率百分数值表示,作业率以实际统计百分数值表示。教室一般不超过
15 排,座位统计分别统计上课时坐在前 5 排(n1)、中间 5 排(n2)、其它排(n3)的实际 次数,并指定权值 Qi,其值分别为 1,0.7,0.3。同时也换成百分制分数,分别计为 L1、L2、 L3,按公式:Li=ni/N*100*Q (其中 i=1,2,3,N=n1+n2+n3)进行计算。最后座次得分 L 取 Li 的平均值。
置对成绩影响大,在前五排成绩优秀率高;上课座位靠是学习态度的直接表现,座次靠前的
学生,各方面态度表现均较好,座次靠后的则相反;高中的基础对学生成绩影响不大,只是
在大一有一定的影响;电脑游戏对成绩影响最大,沉迷游戏的学生门门课程亮红灯。
6.结束语
文中的分析和结果,给教学和管理工作提供了理论依据。以后工作中,要加强对学生学
习态度的引导,强调课堂座次重要性,对于高考成绩不理想学生要及时鼓励,让其树立成功
的信心。同时对学校有关部门也有一定的参考价值,如上课合班人数的安排,教室大小建设
等方面均有很好的借鉴价值。当然文章分析不全面,对于学生的外在因素,如教师水平、教
学计划等方面没有作过多讨论。
本文作者创新点:经过几年一手数据收集,从上课座次到课内外态度,使用数据挖掘知
表 1 学生相关事务表
等级
事 务
[0,40]
[40,60) [60,75) [75,85) [85,100]
项目
成绩
C1
C2
C3
C4
C5
基础
B1
B2
B3
B4
B5
智商
I1
I2
I3
I4
I5
座 次 L1
L2
L3
L4
L5
态 作 业 H1
H2
H3
H4
H5
度 出勤率 D1
D2
D3
D4
D5
课外表现 G1
G2
G3
G4
于少数学生没有考试的空数据作不处理标记。
3.3 离散化处理 对百分制分数进行离散化处理,将百分制分数按成绩考核等级分成五个等级。参照表 1。
4.数据挖掘 4.1 事务数据库生成
对数据仓库中事实表的一个数据记录项作为一个事务,并对其进行维度下钻,对每一个
度量值作为事项,并分配事务代码,参照表 1。同时对教师数据进行事务代码分配,如表 2 所示。
engaging in data warehouse, data mining and application.
通讯地址:524009 广东湛江广东海洋大学海滨学院 易学明 yi_8514@163.com
我校已订阅本刊。
识,全面分析了影响学生成绩因素,重点关注了座次的影响。
参考文献
[1]http://iq.200.net,http://iq.18dao.com/popuIQ_mang.jsp
[2]朱德利.SQL Server 2005 数据挖掘与商业智能完全解决方案[M] .北京:电子工业出版
社,2003:55-59
得分 M 按计算按公式:M=[m/h*100]进行计算。 (2)智商数据转换
智商测试分数大多数在百分左右,过高和过低的分数均较少,也进行百分制转换。和学
生高考分数处理方法一样,以最高分为满分,将每一个学生得分转换成百分制分数,记为 I。 (3)学习态度数据的转换
对学习态度统计考查项目进行“数字化”处理。计统计次数为 K,实际游戏或其它非学 习次数为 g,得分计为 G 按分式 G=(1-g/K)*100 公式进行计算。
对三者的得分进行综合处理。 (4)学生学习态度表
态度是一个不容易量化但可以捕捉的度量。作者从学生上课的出勤率、上课座位位置、 上交作业情况等几个方面来考虑。在学生不知道的情况下,对考查学生进行了跟踪统计。建 立模型为:学习态度表(学生编号,上课座次,课程编号,出勤率,交作业率,课外学习情 况,学期数)。根据经验,课外表现很大程度上反映在学生在课外玩电脑游戏的程度上,所 以统计学生玩电脑游戏作为重点参数。每学期不定期对考查学生进行随机探访并统计。 (5)其它数据表
28.1%
90.4%
[A5,I4] ⇒ C5
16.3%
85.3%
[A5,I3] ⇒ C5
11.1%
79.3%
[ I5,A2] ⇒ C2
10.3%
90.2%
[G1,L1] ⇒ C1
15%
95.3%
C5 ⇒ L5
25.0%
94.6%
L5 ⇒ A5
31.2%
91.2%
5.知识获取
对于所有的关联规则,本人重点分析学生内在因素对成绩的影Fra Baidu bibliotek。可以发现上课座位位
图 1 雪花型数据仓库模型 3.数据预处理
数据预处理是数据挖掘前的一个重要过程,主要是对数据进行数据清理、数据变换、数 据集成、对不完整的数据、含噪声数据、不一致数据进行处理[5]。其中集成的工作在第 2 节 中有陈述。 3.1 数据转换 (1) 学生基础数据表中数据转换
由于不同年限考生的题目难易度不同,每年录取线不同,不便于对学生高考分数进行分 析。但同一年度学生考分具有可比性,因此对高考分数进行百分制转换。对同一年度考生, 以最高分为 100 分,将所有学生的考试进行置换。设考生高考得分为 m,最高分为 h,转换
学生信息维表
学生编号 性别 姓名 年龄 ...
事实表
学生编号 成绩键 教师键 态度键 智商值 基础值
成绩维表
成绩键 课程键 成绩值
课程维表
课程键 课程名 学期 性质 ...
教师信息维表
教师键 职称 学历 性别 ...
态度维表
态度键 座次健 作业统计 课外表现 课堂表现 综合值
座次维表
座次键 前5排 中5排 其它排
Yi Xue- Ming (Information College of Guangdong Ocean University, ZhanJiang 524025, China) Abstract: A present, there are so much data around with us, and much information hide in the sea of data. So data ware house and data mining technology is applied widely. The author have practiced for a few years and collected many data. Using data ware house and data mining technology, author mined data of students’ scores and found many important correlation factors of scores. These factors provide some useful consult for teachers and managers. Key words: data warehouse; data mining; students’ score; association rule; apriori algorithm 1. 引言 近年来,为适应时代的发展,满足社会的需求,中国高等教育规模越来越大,正从精英 教育转向大众教育。在当前竞争日益激烈,就业形势日益严峻的大背景下,社会对大学生的 素质提出了更高的要求,大学生的技能、素质、就业问题等均成为社会的热点。所以如何培 养一个合格的大学生,关注学生成绩和能力,是所有高校教师所面临的问题。作者经过三年 的数据收集和准备,在收集大量的事实数据前提下,使用数据仓库和数据挖掘技术,建立雪 花型数据仓库模型,使用 Apriori 关联规则算法,对数百名学生的成绩进行综合挖掘,分析 发现一些重要信息和原因,为工作的展开提供一些理论和事实依据。 2. 数据仓库的建立 2.1 集市数据的收集和集成 数据分析是建立在大量的数据基础上,作者经过 3 年的数据收集和准备,收集了大量的 集市数据。集市数据来源于需求不同的部门,数据类型也各有千秋,先对其集成处理,将数 据集成到下面的几个关系表里。 (1)学生基础数据表 高中基础是大学的起跑线,高考成绩不仅反映学生的基础,同时在一定的程度上反映学 生学习习惯和态度。高考成绩数据表数据来源于学生高考原始成绩整理和录入。集成后的模 型为:学生基础表(学生编号,年龄,性别,高考分数)。 (2)大学考试成绩表 大学成绩数据来源于教学管理部门每学期成绩表,由于课程性质、学习时间等因素的不 同,必需将其整合和简化,去掉一些不需要的字段,同时构造“课程编号”字段。建立的模 型为:学生成绩表(学生编号,课程编号,成绩)。 (3) 学生智商数据表 学生智商表数据来源于对学生智商进行测试和统计,建立的数据模型为:学生智商表(学 生编号,测试 1,测试 2,学生评测)。数据来源于具体 IQ 测试软件进行测试得分[1] 。为了 数据更有说服力,使用两个测试软件,在规定的时间内进行测试,同时还组织同学进行评测,
[3]周虹.电信数据仓库设计[J].微计算机信息,2009,2-3:174-175。
[4] Jiawei Han Micheline Kamber(加),范明 孟小峰译 数据挖掘概念与技术[M].北京:机械
工业出版社,2003:70-95 151-157
[5]姜晚云,胡学钢.关联规则挖掘在学生成绩管理中的应用[J].安庆师范学院学报(自然科
G5
态度综合 A1
A2
A3
A4
A5
项目 事务
表 2 教师相关事务表
性别
职称
学历
教 副教
男女
讲师 本科 硕士 博士
授授
T1 T2 T3 T4 T5 T6 T7
T8
行政职位
兼政 专 职
T9
T10
4.2 生成关联规则 采用 Apriori 递推算法[4] [5],对所有学生数据进行分析,本人主要统计有三个专业四个
相关文档
最新文档