通过数据挖掘技术预测学生学习成绩

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ｄ）重复上面的步骤。
３．Ｂ样条神经网络控制的仿真研究
３．１控制模型的建立被控对象串连起来，以便使期望输出与被
控对象输出之间的传递函数等于１，从而在将此网络作为前馈控制器
后，使被控对象为期望输出。神经网络用于控制有很多种结构，本文采
用神经网络直接逆控制。神经网络直接逆控制就是将被控对象的神经
素外，还有多方面的因素，最重要的是学习方法。为使学生能提高学习加入学习成绩属性，学习成绩属性值根据两个学期评定，把百分制换
效率，有正确的学习方法，从而提高学习成绩，本文介绍了在ＳＱＬ为上等、中等、较差。这９３个数据中学习成绩居上等水平的２９个，居
４３
科技信息
○高校讲台○
ＳＣＩＥＮＣＥ＆ＴＥＣＨＮＯＬＯＧＹＩＮＦＯＲＭＡＴＩＯＮ
２００７年第２２期
ｋ
要求：Ｃｍ（ｋ）" ｅ（ｊ） ≤１ｊ＝０
主要分为以下几个步骤：
１初始化：ｋ＝０，ω＝０根据需要设定学习率 βｉ，衰减系数Ｃ和允许误差 ε的值。
２开始学习训练：
ａ）ｋ＝ｋ＋１
绩的因素大致分为：１）课前预习；２）按作息时间学习；３）上课记笔记；４）
课后复习；５）独立完成作业。然后进行数据采集，数据来源为山东信息图１
职业技术学院软件系软件技术专业的两个班。
２．数据预处理为保证数据质量，在调查之前对学生明确调查的
从图１所示的决策树及结点颜色（颜色深，表示（下转第１０２页）
通过ＳＱＬＳｅｒｖｅｒ自带的数据挖掘功能，利用决策树实现了对影响
学习成绩的关键环节的挖掘，具体过程如下：
１．数据收集与描述收集、描述数据是个数据挖掘工作中相当重
要的一部分工作。我们首先找出影响学生学习成绩的多方因素，然后
从学生角度分析，刨除智力因素外，在学习环节上，将影响学生学习成
１０段，用四阶Ｂ样条函数作为神经网络控制的基底函数时，其在输入
空间上的分布具体用如下式子表示：
Ｘ－３＝－０．３Ｘ－２＝－０．２．．．Ｘ１３＝１３权值为行矩阵，项数为１３，令：
λ０＝Ｘ－３ λ１＝Ｘ－２．．． λ１６＝Ｘ１３设 λ０和四阶Ｂ样条函数Ｂ１４（ｘ）相对应，λ１和四阶Ｂ样条函数Ｂ２４（ｘ）对应，依次类推，直到 λ１２和四阶Ｂ样条函数Ｂ１３４（ｘ）相对应。设控制信号：ｙ＝ｓｉｎ（ｘ），按图的将Ｂ样条神经网络，在ＭＡＴＬＡＢ中
（２）关联分析：数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。
（３）聚类：数据库中的记录可被化分为一系列有意义的子集，即聚类。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。
另外还有概念描述、偏差描述等。４．决策树方法的主要优点数据挖掘的常用技术有人工神经网络、决策树、遗传算法等。而本文采用决策树技术对数据进行挖掘，相对于其他挖掘方法，决策树方法应用最为广泛，其独特的优点主要包括：（１）学习过程中使用者不需要了解很多背景知识，只要训练事例能够用属性――结论的方式表达出来，就能用该算法进行学习；（２）决策树的分类模型是树状结构，简单直观，比较符合人类的的理解方式；（３）可以将决策树中到达每个叶节点的路径转换为ＩＦ－ＴＨＥＮ形式的分类规则，这种形式更有利于理解。二、通过数据挖掘预测学生学习成绩
表１经过预处理后的数据
１．数据挖掘的定义数据挖掘（ＤａｔａＭｉｎｉｎｇ）就是从大量的、不完
序号课前预习按时学习记笔记完成作业课后复习学习成绩
全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、
１
Ｃ
Ｃ
Ｂ
Ｂ
Ｄ
Ｂ
人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖
变量及其所占空间也将呈指数增长，网络训练过程也会变得复杂；虽然Ｂ样条网络比模糊逻辑在精确性上更加可调，但不如采用模糊逻辑表达灵活、计算速度快，也不如小波神经网络的自适应性。［５］科
● 参考文献
［１］孙增圻，张再兴，邓志东．智能控制理论与技术［Ｍ］．北京：清华大学出版社．１９９１．［２］王春行．液压伺服控制系统［Ｍ］．北京：机械工业出版社．１９８９．［３］张立明．人工神经网络的模型及其应用［Ｍ］．上海：复旦大学出版社．１９９３．［４］薛定宇．反馈控制系统设计与分析— ——ＭＡＴＬＡＢ语言应用［Ｍ］．北京：清华大学出版社．２０００．［５］景小宁等．Ｂ样条神经网络的算法设计及应用．计算机应用与软件［Ｊ］．２００５（７）：２２－７．［６］潘薇，安莹．ＭＡＴＬＡＢ辅助控制系统设计与仿真［Ｍ］．北京：电子工业出版社．２００５．
Ｓｅｒｖｅｒ２０００下采用决策树挖掘方法，在若干影响学生学习成绩的环节中等水平的４４个，成绩较差的２０个。其中调查的５项数据项为条件
中，找出关键环节，从而实现数据挖掘功能。
属性，学习成绩属性为类别属性。最后得到的数据如表１所示。
一、数据挖掘的的知识
能越有价值。３．数据挖掘的主要功能数据挖掘通过预测未来趋势及行为，做
出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下几类功能：
（１）自动预测趋势和行为：数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
４
Ａ
Ｂ
Ｂ
Ａ
Ａ
Ｂ
假设的前提下去挖掘信息、发现知识．数据挖掘所得到的信息应具有
先未知，有效和可实用三个特征。先前未知的信息是指该信息是预先
５
Ａ
Ｃ
Ａ
Ａ
Ａ
Ｂ
未曾预料到的，既数据挖掘是要发现那些不能靠直觉发现的信息或知
︰
︰
︰
︰
︰
︰
︰
识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可
数据项说明：课前预习中的Ａ、Ｂ、Ｃ分别代表经常预习、时有预习、基本不预习。按时学习中的Ａ、Ｂ、Ｃ分别代表严格、比较严格、一般。记笔记中的Ａ、Ｂ、Ｃ分别代表多数都记、记的一般、偶尔记。完成作业中的Ａ、Ｂ、Ｃ分别代表独立完成、参考完成、抄袭完成。课后复习中的Ａ、Ｂ、Ｃ分别代表经常复习、时有复习、偶尔复习。学习成绩中的Ａ、Ｂ、Ｃ分别代表上等、中等、较差。３．数据挖掘实现１）建立数据表：在ＳＱＬＳｅｒｖｅｒ中建立数据库后，建立相应的表，并在表中录入相应的数据。２）设置数据源：在控制面板中设置数据源，连接的数据库为我们新建的库。３）在ＳＱＬＳｅｒｖｅｒ中进行数据挖掘的过程：启动ＡｎａｌｙｓｉｓＭａｎａｇｅｒ，在ＡｎａｌｙｓｉｓＭａｎａｇｅｒ树视图中展开 “ＡｎａｌｙｓｉｓＳｅｒｖｅｒｓ”，单击服务器名称，建立与ＡｎａｌｙｓｉｓＳｅｒｖｅｒｓ的连接；右击服务器名称，单击 “新建数据库”命令；右击建立的数据库下的“数据源”文件夹，单击“新数据源”命令；在“数据链接属性 ”对话框中，单击 “提供者 ”选项卡，然后选中 “ＭｉｃｒｏｓｏｆｔＯＬＥＤＢＰｒｏｖｉｄｅｒｆｏｒＯＤＢＣＤｒｉｖｅｒｓ”，单击 “连接 ”选项卡，从“使用数据源名称”列表中单击选中数据库。创建揭示客户模式的数据挖掘模型，在ＡｎａｌｙｓｉｓＭａｎａｇｅｒ树窗格中右击 “挖掘模型 ”文件夹，单击“新建挖掘模型”命令；打开挖掘模型向导，通过向导建立挖掘模型。依据学习成绩为Ａ的读取客户决策树，如图１所示。
科技信息
○计算机与信息技术○
ＳＣＩＥＮＣＥ＆ＴＥＣＨＮＯＬＯＧＹＩＮＦＯＲＭＡＴＩＯＮ
２００７年第２２期
通过数据挖掘技术预测学生学习成绩
张兴科王浩（合肥工业大学计算机与信息学院安徽合肥２３００００）
摘要：介绍了数据挖掘的基本知识，数据挖掘的功能与方法，并通过数据挖掘，找出了影响学生学习成绩的关键环节。关键词：数据挖掘；知识；决策树；学习Ａｂｓｔｒａｃｔ：Ｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｂａｓｉｃｋｎｏｗｌｅｄｇｅ，ｔｈｅｆｕｎｃｔｉｏｎａｎｄｔｈｅｍｅｔｈｏｄｏｆｄａｔａｍｉｎｉｎｇ．Ｂａｓｅｄｏｎｄａｔａｍｉｎｉｎｇ，ｗｅｃａｎｆｉｎｄｋｅｙｐｒｏｂｌｅｍｓｔｈａｔｉｎｆｌｕｅｎｃｅｔｈｅｓｔｕｄｅｎｔｓ’ｍａｒｋ．Ｋｅｙｗｏｒｄ：ｄａｔａｍｉｎｉｎｇ；ｋｎｏｗｌｅｄｇｅ；ｄｉｍｅｎｓｉｏｎｔｒｅｅ；ｓｔｕｄｙ
进行仿真，控制框图如图２所示。［４］
图２Ｂ样条控制框图
对用Ｂ样条神经网络控制的电液伺服系统进行仿真，限于篇幅，本文只给出通过第三次学习后得到的控制曲线和误差曲线如图３图４所示。
图３Ｂ样条神经网络控制第三次学习曲线
图４Ｂ样条神经网络Leabharlann Baidu制第三次学习误差曲线
由图可知，在第三个周期内，Ｂ样条神经网络就可以控制电液伺服系统跟踪输入信号的精度达到理想的效果，最大误差在２％左右，误差主要集中在－０．０２－０．０２误差带之间。可见，采用Ｂ样条神经网络来控制电液伺服系统，系统的控制精度可以大大提高。
ｉ
ｉ
ｂ）由式ｅｉ（１）＝ｙｄ－ｙｉ（１）＝ｙｄ－ ωｉ（１）ａ（ｘ）。计算ｅ（ｋ），ｅ（ｋ），ｅ（ｋ）ｍｅａｎ。
ｃ）根据上面式子计算ｍ（ｋ）， β（ｋ）， ω（ｋ）。当时，检验学习训练过程是
否收敛在允许的误差范围内，如果在，储存此时的权值 ω１。当ｍ（ｋ）＝０
时，初始化权值 ω＝ω１，重新储存权值 ω１。
掘相近的同义词有数据融合、数据分析和决策支持等。
２
Ｂ
Ｂ
Ｂ
Ａ
Ａ
Ｂ
２．数据挖掘与传统分析方法的区别数据挖掘与传统的数据分
３
Ｂ
Ａ
Ｂ
Ｂ
Ｃ
Ｂ
析（如查询、报表、联机应用分析）的本质区别是数据挖掘是在没有明确
在教育教学活动中，教学质量的好坏与教学条件、教师业务水平目的、意义，使学生反馈的数据尽可能真实、准确。在取得数据后，对不
有关外，更重要的是学习的主体－－学生。学生学习成绩好坏除智力因合格数据予以剔除。参加调查的学生９８名，实际取得合格数据９３个。
网络逆模型，以图为神经网络控制模型，以阀控液压缸为被控对象，建
立了模型后，在ＭＡＴＬＡＢ中建立电液伺服系统的仿真模型。用Ｂ样条
神经网络控制电液伺服系统，对系统进行仿真研究。［５］
３．２电液伺服系统Ｂ样条神经网络仿真
设输入信号周期基准为１，Ｂ样条函数为四阶，将输入空间分为
４．仿真结果及结论将Ｂ样条神经网络控制引入到电液伺服系统中，对其进行仿真，可以得知，用Ｂ样条神经网络控制电液伺服系统，系统可以很好地跟踪输入信号，学习速度快，不存在局部极小点，在一定范围内，随着Ｃ
的增大，泛化能力增强但是，Ｂ样条网络在使用中也存在不足之处。当维数增加时，存储