数据挖掘技术在学生成绩分析中的应用
基于数据挖掘技术的学生成绩分析系统之欧阳美创编

本科毕业设计(论文)题目: 基于数据挖掘技术的学生成绩分析系统的设计与实现姓名张宇恒学院软件学院专业软件工程班级 2010211503学号 10212099班内序号 01指导教师牛琨2014年5月基于数据挖掘技术的学生成绩分析系统的设计与实现摘要随着科技的不断发展和中国教育制度的日趋完善,各大高校对教务管理工作提出了越来越高的要求。
各大高校不再满足于传统的成绩管理方式,开始运用数据挖掘领域的先进方法对学生成绩进行分析和研究。
教务工作人员使用关联规则挖掘算法分析课程间的内在联系,可为学校的改进教学工作提供依据,并为学生的选课和学业规划提供指导;对学生进行分类,让学生能够对自己在校期间所学课程的成绩有一个全面而清晰的了解,方便学生扬长避短选择选修课程,及时对可能在学习上遇到困难的学生进行预警;运用聚类算法对学生进行聚类,找出具有共同特征的学生,并对不同学生群体分别采取不同的教学方法,初步体现因材施教的教育理念,最终探索出适合中国国情和教育制度的个性化培养模式。
本系统采用Eclipse作为开发平台,以Java作为开发语言。
通过对高校学生成绩分析系统的需求分析,本系统设计实现了可以使用关联规则挖掘算法分析课程间的内在联系,使用分类算法对学生进行分类,使用聚类算法对学生进行聚类。
希望本系统能对今后高校学生成绩分析系统的开发提供一定的参考价值。
关键词成绩分析关联规则分类聚类Design and implementation of student achievement analysis system based on data mining technologyABSTRACTWith the continuous development of technology and the Chinese education system maturing, Universities have put higher requirements to their academic administration.Universities are no longer satisfied with traditional performance management, began to apply advanced data mining methods to analyze and study students’ achievement.Staffof academic affairs use association rule mining algorithm to analysisintrinsic link between courses, which can provide the basis for improving the teaching of the school and guidance for the student's enrollment and academic ing classification algorithm to classify the students, so that students can have a clear understanding in their academic performance, and facilitate students in selecting courses.Warning students who probably face difficulties in the ing clustering algorithm to cluster the students to identify students with common characteristics, so that teachers can teach different students in different way,embodies the concept of individualized education, finally discover a personalized education model, which is suitable for China's national conditions and education system.The system was developedinEclipse, with java as a development language.By analyzing the need of student achievementanalysis system, this system uses association rule mining algorithm to analysisintrinsic link between courses, uses classification algorithm to classify the students, uses clusteringalgorithm to cluster the students to identify students.I hope this system can provide some reference value to the f uture development of college students’ achievement analysis system.KEYWORDS achievement analysisassociation rulesclassificationclustering目录第一章引言11.1选题的背景和意义11.2个性化培养的重要意义11.3国内外个性化培养的现状21.3.1国外个性化培养现状21.3.2 国内个性化培养现状31.4成绩分析系统的现状和存在的问题31.4.1成绩分析系统开发使用的现状31.4.2成绩分析系统建设存在的问题4第二章相关技术42.1相关数据挖掘知识理论42.1.1数据挖掘42.1.2 关联规则52.1.3 分类62.1.4 聚类62.2开发工具的选择72.2.1 Eclipse简介72.2.2 Eclipse的优势7第三章系统分析83.1软件过程模型83.2需求分析93.2.1 用例图93.2.2 需求的结构化描述10第四章系统设计与实现144.1系统概要设计144.1.1系统体系结构144.1.2 系统数据结构154.2系统详细设计164.2.1 文件导入数据164.2.2 数据预处理164.2.3 关联规则184.2.4 分类194.2.5 聚类204.2.6 导出文件224.3系统实现234.3.1 文件导入数据234.3.2 数据预处理234.3.3 关联规则234.3.4 分类244.3.5 聚类244.3.6 导出文件254.4系统应用26第五章结论30参考文献31致谢32第一章引言1.1 选题的背景和意义进入新世纪以来,我国的高等教育事业正在快速发展,各个领域的重大科研成果不断涌现,各知名院校的国际排名和知名度也不断攀升。
利用K-means聚类分析技术分析学生成绩

利用K-means聚类分析技术分析学生成绩摘要:数据挖掘是在海量的数据中寻找模式或规则的过程。
数据聚类则是数据挖掘中的一项重要技术,就是将数据对象划分到不同的类或者簇中,使得属于同簇的数据对象相似性尽量大,而不同簇的数据对象相异性尽量大。
目前数据挖掘技术在商业、金融业等方面都得到了广泛的应用,而在教育领域的应用较少,随着高校招生规模的扩大,在校学生成绩分布越来越复杂,除了传统成绩分析得到的一些结论外,还有一些不易发现的信息隐含其中,因而把数据挖掘技术引入到学生成绩分析中,有利于针对性地提高教学质量。
本论文就是运用数据挖掘中的聚类分析学生成绩的,利用学生在选择专业前的各主要学科的成绩构成,对数据进行选择,预处理,挖掘分析等。
运用聚类算法分析学生对哪个专业的强弱选择,从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。
关键字:数据挖掘聚类分析学生成绩分析Abstract:Data mining is a process that in the vast amounts of data looking for patterns or rules. Data clustering is an important data mining technology for people to understand and explore the inherent relationship between things. Clustering is to partition data objects into different categories, or clusters, making the similarity with the clusters of data as large as possible. While the dissimilarity of different clusters of data as large as possible.Nowadays data mining technology is widely used in business and finance. But it is less used in education field. With the increase of enrollment in universities, there are more and more students in campus, and that makes it more and more complex in the distribution of students" records. Besides some conclusions from traditional record analysis, a lot of potential information cannot be founded. Importing the data mining technology to students" record analyzing makes it more convenient and improve the teaching quality. In this paper, clustering technique in data mining is used to students' performance analysis, the use of data structure of main subject before the students specialized in choice of mode, pretreatment and data mining. Using clustering technology to analyse which professional students are good at, so as to choose how to learn professional and give some reference opinions after students of different grades choose their majors.Keywords :Data Mining , Clustering Technology , Students' Achievement1.概述1.1背景随着我国经济的发展,网络已被应用到各个行业,人们对网络带来的高效率越来越重视,然而大量数据信息给人们带来方便的同时,也随之带来了许多新问题,大量数据资源的背后隐藏着许多重要的信息,人们希望能对其进行更深入的分析,以便更好地利用这些数据,从中找出潜在的规律。
数据挖掘技术在教务管理系统成绩分析中的应用研究的开题报告

数据挖掘技术在教务管理系统成绩分析中的应用研究的开题报告一、研究背景及意义随着信息技术的发展,管理信息化成为了大势所趋。
在教育管理领域,教务管理系统已成为高校教育管理的必备系统。
教务管理系统的主要功能是收集学生的各种信息,并且对学生成绩进行统计和分析,以便于对学生成绩及时准确的评价和跟踪。
因此,在教务管理系统中设计一个高效的成绩分析模块,具有实际的应用价值。
而数据挖掘技术是一种能够从大量数据中挖掘出潜在信息的方法,因此,将数据挖掘技术应用到教务管理系统中,可以提高学生成绩分析的质量和效率。
二、研究内容本文将以某高校的教务管理系统中的成绩分析为研究对象,主要研究以下内容:1. 分析教务管理系统中的学生成绩数据,包括学生的个体属性、学期成绩等信息。
2. 对学生成绩数据进行预处理,包括数据清洗、数据集成和数据变换等。
3. 应用数据挖掘技术对学生成绩进行分析,包括分类、决策树、关联规则挖掘等。
4. 设计一个成绩预测模块,利用学生历史成绩数据,预测学生未来的成绩。
三、研究方法本文主要采用以下研究方法:1. 调研法:通过对国内外相关领域的文献资料进行查阅,了解相关研究现状。
2. 实证研究法:采用某高校的教务管理系统数据作为研究对象,采用数据采集、数据预处理、数据挖掘等方法进行数据分析与处理。
3. 实验研究法:利用数据挖掘算法和成绩预测模型进行数据挖掘实验,验证算法的可靠性和实际效果。
四、预期成果通过本文的研究,预计可以达到以下成果:1. 提出一个高效的成绩分析模块,方便教务管理人员对学生成绩进行快速准确的分析。
2. 建立一个成绩预测模型,可为学生的未来学习提供指导,并帮助教育管理者进行教育决策。
3. 实现数据挖掘技术在教务管理系统中的应用,探索其在教育领域中的实际应用价值。
五、研究计划及进度安排1. 第一阶段(1~2周):调研与文献综述。
了解数据挖掘技术在教育领域中的应用现状和发展趋势,构建本文的研究框架。
数据挖掘技术在教育领域中的应用

数据挖掘技术在教育领域中的应用随着信息技术的快速发展,数据挖掘技术在各个领域得到了广泛应用,其中包括教育领域。
数据挖掘技术可以帮助教育工作者更好地理解学生的学习行为和需求,从而提供个性化的教学和学习支持。
本文将探讨数据挖掘技术在教育领域中的应用,并分析其优势和潜在问题。
首先,数据挖掘技术可以帮助教育工作者分析学生的学习行为和模式。
通过收集学生在学习过程中产生的数据,如学习时间、学习资源的使用情况、答题情况等,教育工作者可以利用数据挖掘技术对这些数据进行分析和挖掘,从而了解学生的学习习惯和学习模式。
例如,教育工作者可以通过分析学生的学习时间和学习资源的使用情况,判断学生的学习兴趣和学习效果,进而根据学生的需求提供个性化的学习建议和资源。
其次,数据挖掘技术可以帮助教育工作者预测学生的学习成绩和需求。
通过对学生历史学习数据的分析和挖掘,教育工作者可以建立学生学习成绩的预测模型,从而预测学生未来的学习成绩。
同时,数据挖掘技术还可以分析学生的学习需求,例如学生对某个知识点的理解程度和掌握程度,从而帮助教育工作者制定相应的教学计划和教学策略。
这样一来,教育工作者可以更好地满足学生的学习需求,提高教学效果。
另外,数据挖掘技术还可以帮助教育工作者发现学生的潜在问题和困难。
通过对学生学习数据的挖掘,教育工作者可以发现学生在学习过程中遇到的困难和问题。
例如,教育工作者可以通过分析学生的答题情况和学习资源的使用情况,判断学生对某个知识点的理解程度和掌握程度,从而发现学生可能存在的困难。
这样一来,教育工作者可以及时采取相应的教学措施,帮助学生克服困难,提高学习效果。
然而,数据挖掘技术在教育领域中也存在一些潜在问题。
首先,数据隐私和安全问题是一个重要的考虑因素。
教育工作者需要确保学生的个人数据得到妥善保护,避免数据泄露和滥用。
其次,数据挖掘技术只能提供辅助决策的参考,不能完全取代教育工作者的专业判断和经验。
教育工作者应该结合数据挖掘结果和自己的专业知识,制定合理的教学策略和措施。
基于大数据分析的校园学生成绩分析与优化研究

基于大数据分析的校园学生成绩分析与优化研究校园学生成绩一直是教育界关注的焦点之一,学生的学业成绩不仅关系到其个人发展,也对学校的教育质量产生直接影响。
为了更好地了解和优化学生成绩,大数据分析成为一种有效的工具和方法。
本文将基于大数据分析,探讨校园学生成绩分析与优化的研究,从数据收集、算法应用以及优化策略等方面进行探讨。
首先,校园学生成绩分析的基础是数据收集。
学生成绩包含着大量的信息,包括学生的个人信息、考试成绩、作业分数、平时表现等。
在大数据时代,信息的获取变得相对容易,以至于我们可以从多个来源收集学生成绩相关的数据。
比如,学校的学籍系统、学生管理系统以及基于云计算的在线教育平台等,都能提供学生成绩数据的存储和获取。
同时,还可以结合学生的个人特征、家庭背景等因素进行综合分析,以更好地理解学生成绩。
其次,大数据分析在学生成绩分析中的应用非常广泛。
通过大数据技术,我们能够从学生成绩数据中发现各种潜在的特征和规律。
例如,我们可以利用数据挖掘算法,寻找学生成绩的相关影响因素,并建立预测模型。
这些影响因素可能包括学生的学习习惯、作业完成情况、自律能力、家庭教育背景等。
通过大数据分析,我们可以深入挖掘这些因素之间的关系,为学生学业发展提供科学依据。
此外,还可以利用人工智能技术,对学生的学习行为进行监测和分析,提供个性化的学习指导和推荐,以帮助学生提高学习效果。
在学生成绩优化方面,大数据分析同样发挥着重要的作用。
首先,通过对学生成绩的分析,我们可以识别出学习不佳的学生,并及早采取干预措施。
例如,当学生成绩连续下降时,可以通过大数据分析预测学生的学习风险,并及时与学生及家长进行沟通,制定个性化的学习计划和辅导方案。
其次,大数据还可以帮助学校和教师进行教学管理和干预措施的制定。
通过大数据分析,可以识别出教学中的薄弱环节和难点,为教师提供改进的建议,提高教学质量。
另外,对校园学生成绩进行大数据分析和优化的研究还面临着一些挑战。
数据挖掘技术在成绩分析系统中的应用

数 据挖 掘 的任 务 主 要 是 关 联 分 析 、 类 分 析 、 类 、 测 、 聚 分 预 时 的 。 序 模 式 和 偏 差 分析 等 。
() 联 分 析 ( sc t naayi 1 关 a oi i nls 1 s a0 s
关 联 规 则 是 R A rw l 人 首 先 提 出 的 。 两个 或 两个 以上 数 据 再 加 工 . 括 检 查 数 据 的 完整 性 及 数 据 的 一 致 性 、 噪 声 . . ga a 等 包 去
维普资讯
16 0
福
建ቤተ መጻሕፍቲ ባይዱ
电
脑
20 0 7年 第 8期
数 据 挖 掘 技 术在 成 绩 分 析 系统 中的应 用
王 颖
f西 苑 中 学 . 苏 徐 州 2 10) 2 r - 2 0 6 【 摘 要 1 通 过 对 数 据 挖 掘 技 术 的概 念 、 掘 过 程 和 方 法等 知 识 的 简单 介 绍 , 如 何 在 成 绩 分 析 系统 中应 用数 据 挖 掘 , : 挖 就
发 偏 零售、 融、 金 电信 等行 业 的 到广 泛 的 应 用 。 但 在 教 育领 域 却 并 没 异常 情 况 . 现 数 据 库 中数 据 存 在 的 异 常情 况 是 非 常 重 要 的 。 有 引 起人 们 的普 遍 关 注 . 着 教 育 信 息 化 进 程 的推 进 . 随 产生 积 累 差检 验 的基 本 方 法 就 是 寻 找 观 察结 果 与参 照 之 问 的差 别 。 3 、数 据 挖 掘 的分 类 了 大量 的 、 杂 的数 据 。 复
从 中得 到促 进 教 学 的 所 需 信 息等 内容 进 行 了探 讨 , 并提 出 了数 据 挖 掘 技 术 在 各 部 分 的 具 体 作 法 。
数据挖掘在学生成绩预测中的应用研究

数据挖掘在学生成绩预测中的应用研究随着教育的普及和信息技术的发展,学生的学习数据越来越丰富,如何利用这些数据来预测学生成绩已成为教育领域的一个热门话题。
数据挖掘作为一种从大规模数据中发现规律的技术,被广泛应用于学生成绩预测。
本文将从数据挖掘技术的角度出发,探讨在学生成绩预测中数据挖掘的应用研究。
一、数据挖掘技术的分类数据挖掘技术可以分类为分类、聚类、关联规则和预测四大类。
其中,预测是指根据历史数据和特征预测未来的趋势或者状态。
在学生成绩预测中,应用比较广泛的是回归分析、决策树、神经网络等预测模型。
这些模型可以根据已有的学生数据,建立预测模型,对未来的学生成绩进行预测。
二、数据挖掘应用于学生成绩预测的方法1. 数据预处理在进行学生成绩预测之前,需要对数据进行预处理。
其中包括数据清洗、特征选择、数据变换等。
数据清洗是指对数据进行去除重复、填充缺失值等操作;特征选择是指对数据中的特征进行筛选,选取对成绩影响较大的特征;数据变换是指对数据进行规范化处理,将数据进行归一化或者标准化。
2. 回归分析回归分析是一种常用的预测模型,可以根据历史数据,建立一个函数来预测未来的学生成绩。
回归分析可以分为线性回归和非线性回归。
线性回归是指建立一个线性函数来预测未来的学生成绩,非线性回归是指建立一个非线性函数来预测未来的学生成绩。
通过对历史数据的回归分析,可以建立一个适用于预测的模型。
3. 决策树决策树是一种分类和预测的算法,可以根据历史数据和特征,建立一个决策树,用来预测未来的学生成绩。
决策树可以根据历史数据和特征构建出一个树形结构,每个叶子节点表示一个预测结果。
对于一个新的学生,可以通过决策树进行预测。
4. 神经网络神经网络是一种模仿人类神经网络的模型,可以对非线性模型进行预测。
神经网络一般由输入层、隐藏层和输出层组成,可以根据历史数据和特征,训练一个神经网络模型,用来预测未来的学生成绩。
三、数据挖掘在学生成绩预测中的应用研究已经取得了一定的进展。
基于数据挖掘的高校学生学习成绩分析应用研究

( Mo d e m E d u c a t i o n T e c h n o l o g y C e n t e r o f X i ’ a n I n t e r n a t i o n a l U n i v e r s i t y , X i ’ a n 7 1 0 0 7 7, C h i n a )
樊 同科 , 孙 姜 燕
( 西安外事学院现代教 育技术 中心, 陕西 西安 7 1 0 0 7 7 )
摘要 : 高校的 学生成绩管理是各 高校教务 管理 工作 的核心和基础 。大多数 高校 的学生成 绩是 以 多种形式保存 , 一般 只限 于对成绩的查询及 简单的统计上面 , 没有 对这 些积 累的海量数据 背后的 有用信 息进行挖掘 分析 。针 对这些 海量数据 构
Ab s t r a c t :Ma n a g e me n t o f c o l l e g e s t u d e n t s ’a c a d e mi c r e c o r d i S a n i mp o r t a n t p a r t o f w o r k i n e d u c a t i o n l a a d mi n i s t r a t i o n .Mo s t c o 1 . 1 e g e s s t o r e s t u d e n t s ’r e c o r d s i n v a r i o u s w a y s ,ma i n l y l i mi t e d t o s e a r c h i n g a n d s i mp l e s t a t i s t i c s ,a n d u s e f u l i n f o r ma t i o n b e h i n d s u c h ma s s d a t a i s n o t a n a l y z e d .A d a t a b a s e j s c o n s t r u c t e d b a s e d o n s u c h d a t a a n d s t u d e n t s ’a c a d e mi c r e c o r d i S a n a l y z e d b y u - s i n g c l a s s i i f c a t i o n a n d p r e d i c t i o n a l g o r i t h m ,s h o wi n g t h a t s t u d e n t s ’a c a d e mi c p e r f o r ma n c e i s r e l a t e d t o s t u d e n t s ’p a r t i c u l a r i t y, o r - i g i n a n d t e a c h e s ’e r d u c a t i o n b a c k g r o u n d.S u c h p e r t i n e n c e c a n p r o v i d e e v i d e n c e f o r d e c i s i o n — ma k i n g a n d a d mi n i s t r a t i o n d e p a t r - me n t s o f s c h o o l s or f a n ly a s i s a n d a d mi n i s t r a t i o n .I n t u r n .i t c a l l i n s t r u c t e d u c a t i o n nd a i mp r o v e o v e r a l l e d u c a t i o n a l q u a l i t y . Ke y wo r d s :d a t a mi n i n g ;d e c i s i o n t r e e ;a n ly a s i s o f s t u d e n t ’ s a c a d e mi c r e c o r d
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
・1 2 9・
数据挖掘 技术在学 生成 绩分析 中的应用
刘春辉 1 李 芳 , , 2 (、 1 沈阳理 工大学信息与工程学院 。 宁 沈阳 10 6 2 北票市职教 中心计算机 系, 宁 朝 阳 12 0 ) 辽 118 、 辽 2 10 摘 要: 随着, 国内职业教 育规模扩 大, 学生的数量越来越 多, 充分地利 用这些数据 , 其潜在 的使 用价值得到 充分的挖掘和利 用, 何 使 为学校 决策者提供 决策依 据 , 学指 导教 学 , 科 将是职 业学校 迫切 需要 解决的 问题 。本 文利 用现 有学生成绩数据库 , 应用改进 的数据挖掘 A f f 算法进行 了情况分类 , po ii 分析 结果 , 出了“ 电一体化” 得 机 专业分课程之 间的影响学生成 绩的内部原 因, 为学校的教学管理提供参考。 关键词 : 数据挖掘 ; 成绩分析 ; 关联 规则; pi i算法 A rr o 首先对成绩表中的“ 成绩” 进行离散化处理 , 具体分数的成绩按 二十一世 纪 以来 , 国内在不 断扩大职业教 育规模 , 成立 职业教 照百 分制 1 0 9 0 ~ 0对应 “ ”8 ~ 0对 应 “ ”7 0对应 … ,9 6 A, 8 9 B ,9 7 C’6 ~0 育 中心 , 学校规模不断扩 大 , 专业设置 日趋多样化 , 学校运行着各种 对应“ ,9 0对应“ ” D”5 ~ E 五个具体分数段等级 。 为了找到具有较高典 系统和各类 数据库 , 学生入 学后 的学籍管理 , 教务处 的学生成 绩管 型性 的规则 , 只对 “ ” “ ” “ ” A 、B 、E 三个等级的成绩进行分析 , 出影 找 理, 就业处对毕业生 的就业管理等 , 都积 累了大量 的数据 。 如何充分 响成绩 的内在因素 , 而分析 出课程之 间的先后 次序 , 从 为我们制定 地利用 这些数据 ,使其潜在 的使用价值得到充分 的挖掘和利用 , 是 合理 、 有效 的教学计划提供决策支持 。对于… 、D 两类成绩 , C’“ ” 由于 职业学校在今后 的工作 中努力要解决 的问题 。 不 具 有 典 型性 , 以 不 考虑 挖 掘 。 所 2 数 据 挖 掘 技 术 3 模 型 的选 定 . 3 21数据挖掘 中关联规则方法 . 分 析学生各科 目成绩的之间的影响关 系 , 例如 : 学生 “ 某 机械制 关联规 则挖掘是 在大量数据 中项集之 间发 现有趣 的关联或相 图” 优秀一车工技 能优 秀的关系 。 根据我们前 面分析学习 , 在此我们 关联系 , 一种 简单 却很 实用 的分 析规则 。满足 x的数据库元组也 采用关联规则 中最著名的 A f f算法。 是 po ii 很可能会满足 Y, 我们说这就是关联规则 的一般描述 。 34数据采集 . 般地 , 关联规则挖掘 问题可 以划分成两个子问题 : () 1 学生 调查信息 ( ) 现频 繁项 目集 1发 内容包 括任课教师 的平时考核 , 对学 生调查问卷 , 由学生填 写 通过 用户 给定 的 m nu p r isp ot ,寻找所 有频 繁项 目集 (rq e t 产 生 。 Fe un I mst, t e)即满足 sp o e u p  ̄不小 于 mispot nu p r的项 目集 。事实上 , 这些 () 2 成绩数据库 频繁项 目集可能具有包含关系。 成绩数据库 中包括 了学生 的平 时作业成绩及课程 的考试成绩。 ( ) 成 关 联 规 则 2生 这 个 数 据 库 由教 师在 教学 过 程 中产 生 。 子问题( ) 1是近年来关联规则挖掘算法研究的重点。 35数据 预处理 . 2 . 2关联规则挖掘算法 数据的预处理是数据挖掘过程 中一个非常重要的环节 , 一般需 ( ) p o 算法 1A f f ii 要用掉挖掘过程 中百分之七八十 的工作量 。经验表明 , 如果数据准 充分 , 在模型建立 阶段就会节省大量的精力 。 算法的第一次遍历仅仅 计算每个项 目的具体值 的数量 , 以确定 备工作做得非常细致 、 频繁 1 项集 L。 1随后 的遍历 , k 第 次遍历 , 包括两个阶段。 首先 , 使用 ( ) 据 集 成 1数 数 据 挖 掘 所 应 用 的数 据 如 果 来 自多 个 数 据 源 , 需 要 进 行 数 据 就 第 (一 ) k 1次遍历 中找到的频 繁项集 k 。 和根据 L一产生候选项集 。 k . 接 本研 究中 , 将数据采集得 到的多个数据库文件 , 利用数据库 着 扫描数据库 , 计算 c 中候选 的支持 度 , 从而生成频 繁项集 。如 的集成 。 技术生成学生成绩分析基本数据库 1 。随机抽取一些学生的专业课 此下 去 , 直到不能找到维度更高 的频繁项集为止。 程( 机械基础 , 钳工工艺 , 车工工艺 ) 的成绩 , 如表 1 。 () 2 基于链表 的 A f f算法的改进 po ii k l为机械基础 ,e c k 2为钳工工艺 ,c 为车工工艺。 k3 在经典的 A f f基础上 , 用新 的数据结构 , po ii 采 改进后 的算 法拟 采用 基于链 表的数据结 构 , 链表涉及三种结点 , 分别为项集头结点 、 ( ) 据 清 理 2数 如 果 没 有好 的数 据 环 境 , 不 会 有 好 的 挖 掘效 果 。 就 项结 点 、 事务结点 。 对数据库或者数据仓库只需要 进行 一次扫描 , 这 在学生成绩分析基本数据库及调查表 中我们看到 , 有一些我们 样就 可以避免 A f f算法 中对数据库 的多次扫描 , po ii 减少 了大量 的 I , 感兴趣 的属 性缺少属性值 , 对于这些空缺 , 以使用数据 清理技术 可 0开销 , 大大提高 了系统的性能 。 因为某位 同学 的缺考 链 表的一级 兄弟结点从左 到右按照 子集支持度 计数 的递 增顺 来填补 。我们发 现在我们所调用的成绩表 中, 还有的就是 问卷调查 , 序排 列 ,这样 即使 1 一项集很大 的情况下 ,也将 只产 生较少的候选 而导致值的空缺 , 表 1学 生成 绩 分 析 基 本 表 1 2 项集 ,. 集再 产生更少 的候选 3 2项 一项集 等等 ,从 而提高了系统
一
一
1 引言
0
8
O
4
O O 8
的性 能 。 3 方 案 实 施 实 例 31挖 掘 对 象 及 目标 . 我校教务管 理系统成绩表 中存放 了近五年 的成 绩数据有 几十 万条 , 如果我们 选取所有 的数 据作为挖掘对象 , 么数据挖 掘的时 那 间会 太长 , 规则也会很多 , 最终用户将 面对着大量 的规则 。 大多数用
结 果 应 用 于 对 3 . 2具体分数成绩离散化
有的同学除了填写姓名外其余 的部分都是空 白, 因而要对这部 分数据进行清洗 。 在本例中 , 采用忽略元组 的方法删除没有参加考试或学生填写
作者简介 : 刘春辉 (9 3 ) 辽宁省北票市职教 中心讲师 , 宁省朝 阳市中学计 算机 学科 带头人 , 于沈 阳理工 大学研 究生学院攻读 17 一 , 辽 现
8 8
86
9 0
8 0
70
76
85
65
8 6
91
82
92
90
84
9 0
户对 总体数据含有的规则并 不感兴趣 , 他们 只关 心某些与 自己相关 的隐含规则。面对如此的情况 , 本研究将采 取相 对细化的 区域进行 挖掘, 以学校 “ 电一 体化 ” 机 这个专业 的学 生成绩数据 为挖掘对象 , 探讨 出课程之间影响的强弱 , 以求得 到最合 理的规则。将挖掘 出的
工程硕士学位。
・ቤተ መጻሕፍቲ ባይዱ
2 0 2・
科 教 文 化
第三步 , 调用另一个存储 过程 , 计算 各子项 的支持度 , f 表 将 f s 的调查数据 中有大量的空缺项 的记录 。 中支持度计数小 于最小支持度的记 录删除 , 得到最终的频繁项集 。 经过数据清理后 , 总记录数为 2 8 。 4条 () 6在求后继各频繁项 目集 时 , 第一步产生候选 项 , 第二步生成 ( ) 据 转 换 3数 最后 , 删除支持度计数小 于最小支持度 的记 录。 直到求 在对学生成绩进行关 联分析挖掘时 , 要逻辑 型数 据 , 以应 频繁项 目集 。 需 所 若发现某候选项集 的数 目为零 , 则停止运算 。 把学生成绩表的数据转换成布尔型表示 , 因为挖掘 的是各学科之间 出所有 的频繁项 目集 , 输出所有项 目的频繁集。 的优秀关系 , 以 9 以上字段值为“ ” 表示 事务中存 在该 项 , 所 0分 1, 为 最后 , () 7 计算最终频 繁项集 的各非空子集 的置信 度 , 删除小于最小 …’ , 0 时 表示事务中不存在该项 。 置信度 阈值 的记录 , 最终产生规则 , 存入规则数据表 。 将表 l 转化为关联规则算法便于处理的格式 , 如表 2 : 要对上述表 中的优秀课 程进 行关联规则挖掘 , 需要给出支持度 表 2 学 生成 绩 分 析 逻辑 数 据 表 和置信度。假定最小支持度为 3 %、 0 置信度为 5 %时 。 0 ( )c 、c 1k 1k 2同时优秀时 ,c 有大于 7 %的优秀 的可能 ; k3 1 ( )c 、e 2k lk 3同时优秀时 ,c 有大于 10 k2 0 %的优秀的可能 ; ( )e 、e 3k 2 k3同时优秀时 ,e 有 大于 10 kl 0 %的优秀的可能 ; ( )e 优秀时,e 、e 4k l k 2 k3有大于 7 %同时优秀的可能 ; 1 ( )c 5 k2优秀时 ,e 、c k lk3有大于 5 %同时优秀的可能 ; 0 ( )c 6 k3优秀时 ,c 、e k lk2有大于 8 %同时优秀的可能。 3 从 上述 运行结果来看 , 我们 可以得到下 面的潜在 的关联 : 一些 课程间存在一些联 系 , 它们是相互影 响的 , 一些课 程成绩 的好 坏直 将连续 的成绩值转换 为离散值属性 ( 即离散化 ) 将学生本学期 接影响另一些课程成绩的好坏 ,当然这个结论仅对本样本有效 , 。 如 的综合评定成 绩属性 的所有 值按 0 7 、0分一 0 、0分 以上 果本数据非 常之 大 ,我们 就可以将关联分析结论作 为挖掘 出的知 ~ 0分 7 8分 8 划 分成 “ ” “ 般 ” “ 差 、一 、 良好 ” 类 。 三 识。 并期望用所获得的知识指导学生的学 习及今后 的教学工作。同 从 而将 学生调查信息与本学期考试 成绩生成学 生成绩分析基 时我们还可 以对学生成绩数据 表的不及格课程进行关联规则挖 掘。 本 数据库 2 如表 3 , : 另外 , 在高等教育与学生籍贯 、 学生年龄 、 教师学历 、 师测评 结果 、 教 表 3 学 生 成 绩分 析 基 本 数 据 表 2 教师的教学方法适合哪一种学 生或哪门课程 、 合理设置学生课程与 安排课程表等方 面存在的相关性等分析都适用 A r r算法 。 pi i o 3 . 6挖掘结果 我们以学生成绩库 中的学生成绩数据为样本 , 使用第 三章 提出 的改进 的 A r r算法进行挖掘得到的部分结果如表 5 pi i o 。 部 分 挖 掘结 果 :