基于k—means聚类算法的试卷成绩分析研究

合集下载

基于K- means聚类算法成绩分析的应用探究

计算机科学科技创新导报 Science and Technology Innovation Herald90在现代信息化被广泛应用的时代，在我们日常教学中，面对错综复杂的学生成绩信息和各种各样的学习方法和学习方式，针对学生不及格的课程成绩信息群体，我们传统的数据分析有一定的局限性，通常还是停留在简单的统计、查询和汇总等层面，往往对这些数据背后的深一层原因无所了解，而聚类分析通过数据挖掘技术对这个数据群体进行处理，通过聚类、划分、分群，将有助于学校从堆积如山的数据中，发掘有利于教学的具有针对性的信息。

利用聚类分析方法能从数据中找出相关的特征或模式，可以帮助学校针对不学生的学习状况，制定针对性的教学策略，对学生信息聚类和分组可以帮助改善学生学习成绩，并且可以根据此数据信息预测将来的成绩趋势，辅助学校进行教学管理。

1 聚类分析数据挖掘的方法中聚类是对记录分组，把相似的记录放在一个类别里。

聚类和分类的区别是聚类不依赖于预先定义好的类，不需要训练集。

聚类分析中，首先需要确定基本聚类分析原则，在各聚集内部数据对象间之间，追求的是相似度最大化。

而在各聚集对象之间，追求的是相似度最小化。

在进行聚类分析时，聚类分析所获得的组可视为同类别的归属，也可视为该类归属的数据对象集合。

聚类分析已经在模式识别图像处理、市场分析和数据分析等领域得到了广泛应用。

2 K-means聚类算法学生成绩挖掘分析主要目标是针对学生成绩数据进行聚类分析，挖掘出数据隐含的不同学生群体信息。

而K-m e a n s 聚类算法是数据挖掘基于划分最经典的聚类方法，也是易于实现的算法。

主要思想是首先初始化K个聚类簇中心，使用一定的准则将所有样本点分到不同的K个簇中；接着计算现有的K个簇的质心，确定新的簇心。

一直循环迭代，直到簇心的移动距离小于某个给定的阈值。

如果初始簇心选择不好时，K—m e a n s 的结果会很差，所以一般是多DOI：10.16660/ k i.1674-098X.2016.03.090基于K-means聚类算法成绩分析的应用探究张贵元（东莞理工学校广东东莞 523000）摘要：数据挖掘是在海量的数据中寻找模式或规则的过程。

基于k-means聚类算法的研究

第２卷１
第７期
计算机技Biblioteka 术与发展Ｃ０ＭＰＥＲＥＣＨＮＯＬＵＴＴＯＧＹＡＮＤＤＥＶＥＬＯＰＭＥＮ１ ’
Ｖ０．１Ｎｏ７１２．
２１年７月０１
Ｊｌ２１ｕｙ０１
基于ｋｍｅｎ — ａｓ聚类算法的研究
黄韬，刘胜辉，艳娜谭
ＨＵＡＮＧｏ，ＵｈｎＴａＬＩＳｅｇ－ｈｉＴＡＮｎ－ｎｕ，Ｙａａ
（ｃ．ｆｏｕｃ．ｎｅｈ－ｒｉＵｉ．ｆＳｉａｄＴｃ．Ｈｂｎ１０８。ｈｎ）Ｓｈｏｍｐ￣ｒｉａｄＴｃ．Ｈａｎｎｖｏｃ．ｅｈ，ａｉ５００ＣｉａＣＳｂｎｒ
（尔滨理工大学计算机科学与技术学院，哈黑龙江哈尔滨１０８）５００
摘要：析研究聚类分析方法，多种聚类分析算法进行分析比较，分对讨论各自的优点和不足，同时针对原ｋｍａｓ法－ｅｎ算
的聚类结果受随机选取初始聚类中心的影响较大的缺点，出一种改进算法。通过将对数据集的多次采样，提选取最终较
中图分类号：Ｐ０．Ｔ３１６文献标识码：Ａ文章编号：７ —２Ｘ（０１０ — ０４０１３６９２１）７０５ — ４６
Ｒｅｅｒｈｏｕｔｒｎｇｒｔｍｓｄｏ－ａｓｓａｃｆＣｌｓｅｉｇＡｌｏｉｈＢａｅｎＫｍｅｎ
ＡｂｔａｔＡｎｌｚｎｅｅｒｈｔｅｍｅｏｆｃｕｔｒａａｙｉ－ａｙｅａｄｃｍｐｒｎｉｄｆａｇｒｔｍｓｏｌｓｅｎｙｉ。ｉｕｓｓｒｃ：ａｙｅａｄｒｓａｃｈｔｄｏｌｓｅｌｓｓａｌｚｎｏａｅｍａｙｋｎｓｏｏｉｈｎｎｌｈｆｃｕｔｒａａｓｓｄｓｓｌｃｍｅｒｒｓｅｔｅｓｅｇｓａｄｗｅｋｅｓｓＡｔｔｅｓｍｅｔｉｅｐｃｖｔｎｔｎａｎｓ．ａｉｉｒｈｅｈｍｅ。ｃｏｄｎｏｔｅｗｅｋｎｓｓｏｅｃｕｔｒｒｓｌｆｏｇｎａｃｒｉｇｔａｅｓｆｔｌｓｅｅｕｔｏｒｉａｋ－ｍｅｓａｇ－ｈｅｈｉｌｎａｌｏｒｈａｉｉｎｉｃｔｉｆｕｎｅｂｌｃｉｇｔｅｉｉａｌｔｒｃｎｅｓｒｄｍｌａｍｏｉｅｇｒｔｍｓｐｏｏｅＴｏｇｋｎａｐｅｉｒｓｓｇｆａｎｅｃｙｓｅｔｎｔｃｕｓｅｔｒａｏｙ。ｄｆｄａｏｉｔｉｎｌｅｎｈｉｌｅｎｉｌｈｉｒｐｓｄ．ｈｒｕｈｔｉｇｓａｍｌｍａｙｔｓｔａａｓｔｃｏｓｎｕｅｏｌｓｅｅｔｒｂｒｇｄｗｎｔｅｉａｔｆｉｉａｌｓｅｅｔｒｏｉｒｅｇｒｔｍｒａｌ．ｎｍｅｄｔｅ，ｈｏｅｆａｓｐｒｒｃｕｔｒｃｎｅ－ｉｏｍｐｃｔｌｃｕｔｒｃｎｅｓｔｍｐｏｖｄａｏｈｇｅｔｉｏｉｌｉｎｈｏｎｉｌｉｙＳｍｕｔｎｏｓｙ－ｔｅｉｉａｔｓｓａｄｄｚｄｏｅｔｅｉｉａｌｓｅｅｔｒｉｓｌｃｅｉｌｅｕｌｈｎｔｄａｉｔｎａｉｅｎｃｔｃｕｔｒｎｅｓｅｅｔｄ，ｍａｅｌｓｅｆｅｔｍｐｏｅｔｅｍｏ．ｔ — ａｉｌａｈｎｉｌｃｋｓｃｕｔｒｅｃｒｖｄｆｈｒｒＤｅｅｉｕｒｅｃｉｗｏｔｍｒｇｕｅａｇｒｈＨｋ－ａｓｔｒｕｈｔｅｄｔｆＵＣＩｄｔｔｔｅｒｓｌｓｏａｎｌｉｍｅｈｏｇｈａｅｏｎａａｓ。ｕｔｈｗｓｔｔＨｋ－ａｓａｇｒｔｍｓｍｏｒｍｉｅｔｉｒｖｅｈｅｈｍｅｏｉｎｌｈｉｒｐｏｎｎｍｐｅｏｏｄｈｎｎｔｌｋｔａｉｉａ —ｍｅｓａｇｒｔｍｉｌｓｅｆｅｔａｄｉＳｕｆｌｏｏｆｒｎｅｔｅａｖｉｅｄｉｎａｌｏｈｉｎｃｕｔｒｅｆ，ｃｎｔｓｕｆｒｃｎｅｃｏｒｌｔｅｆｌ．ｅｅｉＫｅｒｓｄｔｎｎｃｕｓｒｇａｇｒｔｍ；ｍｅｓａｇｒｈｙｗｏｄ：ａａｍｉｇ；ｌｔｉｏｉｉｅｎｌｈｋ— ａｏｉｍｎｌｔ

基于K-means算法的学生试卷成绩分析

中图分类号：Ｐ１Ｔ３１文献标识码：Ａ
学生考试成绩是学生学习成果的显性体现，是针对性制定教学策略的重要依据．在日常教学中，生了大量反映学生学习成效的数据— — 学产
别、图像分割和机器视觉等领域Ｉ笔者将聚类分２】．析技术应用于学生成绩分析和等级评定，希望从数据中发现某些规律，为制定有效的教学策略提
ｍ，＝ … ．；ｊ１，ｊｋ
Ｒｅａｐｅｔ
２基于Ｋ— ａｓ聚类算法的聚类过ｍｅｎ
程和结论分析
２１数据来源．
．
心会根据聚类中现有的数据点被重新计算．这个
过程会反复迭代，直至满足某个终止条件为止．
Ｋｍａｓ算法能对大型数据集进行高效分类，－ｅｎ
且适合于对数值型数据进行聚类，其计算复杂性
为Ｏｔｍ）其中，为迭代次数，为聚类数，（ｎ，Ｋｔｍ为
特征属性数，为待分类对象数，通常，ｍ＜．，
面存在相似性．因此，这种成绩细分方法并没有真
正起到区分不同成绩等级的作用．聚类分析技术是数据挖掘及模式识别等研究
并且，聚类确定了数据集中所有数据的归属＿４］．聚类算法大致分成层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其他聚类算
１个类簇内的实体是相似的，不同类簇的实体是不相似的；１个类簇是测试空间中点的会聚，同类簇的任意２个点间的距离小于不同类簇的任意２个点间的距离：类簇可以描述为１个包含密度相对较高点集的多维空间中的连通区域，它们借助包含密

数据挖掘中的聚类技术在学生成绩分析中的应用

数据挖掘中的聚类技术在学生成绩分析中的应用［摘要］本文针对在大类招生背景下北京科技大学经济管理学院2005级学生的考试成绩，应用数据挖掘技术分析分专业前学生成绩与专业及分专业后课程学习之间可能存在的潜在的联系。

首先进行数据预处理以保证数据挖掘结果的质量和提高数据挖掘的效率；然后根据分专业前的课程成绩对学生进行聚类，并分析各类的成绩特征；最后以信息管理与信息系统专业为例，分析各类学生在分专业后的优势课程和较弱课程。

［关键词］数据挖掘；聚类；学生成绩分析doi:10.3969/j.issn.1673-0194.2009.15.0141 引言本科按学科大类招生已在部分高校实施，这些高校按一级或二级学科进行招生，在经过约两年的统一基础培养后，由学生结合就业、兴趣等选择具体专业方向，开始专业课程及实践课程的学习直至毕业［1］。

本文研究数据挖掘技术在大类招生背景下学生成绩分析中的应用，数据来源于北京科技大学经济管理学院2005级学生前5个学期的成绩，其中前4个学期为分专业前的成绩，第5个学期为分专业后的成绩。

通过观察这些数据可以发现如下特点：①成绩分布在0~100之间，且各个分数段的密度不同，其中成绩取值在70~90分之间的比例非常大；②分专业前的课程数量很多，且其中的某些课程与专业选择相关性很小；③部分课程存在得分普遍较高或得分普遍较低的现象；④分专业前的课程主要包括：高等数学I、概率与数理统计、外语I、线性代数、计算机基础、会计学、财政金融学、管理信息系统、马克思主义哲学、军事理论、体育I等46门课程；⑤分专业后各专业课程不同。

为了保证数据挖掘结果的质量，提高数据挖掘的效率，需要进行净化、集成、精简、应用变换等数据预处理。

之后，再进行聚类及进一步的分析。

2 数据预处理2.1 数据净化数据净化是清除数据源中不正确、不完整等不能达到数据挖掘质量要求的数据，从而提高数据的质量，得到更正确的数据挖掘结果。

在本研究所针对的学生成绩数据中，遇到的主要数据净化问题是空值问题。

基于k_means聚类算法的试卷成绩分析研究

第39卷第4期河南大学学报(自然科学版)Vol.39　No.4 2009年7月Journal of Henan University(Natural Science)J ul.2009基于k2means聚类算法的试卷成绩分析研究谭庆(洛阳师范学院信息技术学院,河南洛阳471022)摘　要:研究了k2means聚类算法,并将此算法应用于高校学生试卷成绩分析中.首先对数据进行了预处理,然后使用k2means算法,对学生试卷成绩进行分类评价.用所获得的结果指导学生的学习和今后的教学工作.关键词:数据挖掘;聚类;k2means算法;试卷成绩中图分类号:TP311 文献标志码:A文章编号:1003-4978(2009)04-0412-04Analysis and R esearch of G rades of Examination PaperB ased on K2means Clustering AlgorithmTAN Qing(A cadem y of I nf ormation Technolog y,L uoy ang N ormal Universit y,L uoy ang Henan471022,China)Abstract:This paper researches the k2means clustering algorithm and applies it to the analysis of the grade data of examination paper of higher education school’s students.Firstly,it preprocesses the data before mining.Then,it uses the k2means algorithm to cluster students’grades of examination paper and gives evaluation.The obtained knowledge can be applied in to guiding the students and teachers in treir study and teaching.K ey w ords:data mining;clustering;k2means algorithm;grades of examination paper0　引言传统的数据分析方法是统计分析法,该方法只是对事实的验证,描述已经发生的事实,难以发现数据中存在的关系和规律,也难以根据现有的数据预测未来的发展趋势.由于它缺乏挖掘数据背后知识的手段,因而导致了“数据爆炸但知识贫乏”的现象[1].面对这一挑战,数据挖掘(Data Mining,DM)[2]和知识发现(Knowledge Discovery in Database,KDD)技术应运而生,并逐渐显示出了强大的生命力.在高校中,考试成绩是评估教学质量的重要依据[3],也是评估学生是否掌握好所学知识的重要方式.试卷分析是考试过程的一个重要环节.聚类是深层次的数据信息分析方法,将聚类[4]技术应用于试卷成绩分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之间隐藏的内在联系[5].1　k2means聚类算法给定一个包含n个数据对象的数据集,以及要生成的簇的数目k,一个划分类的算法将数据对象组织成k个划分(k≤n),其中每个划分代表一个簇.通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对象是“相似的”,而不同簇中的对象是“相异的”.最著名且最常用的基于划分的方法是k2means算法.k2means算法的处理流程是:首先随机地选择k个对象,每个对象代表一个簇的初始均值或中心.对剩余的每个对象,根据其与各个簇均值的距离,将它指派到最相似的簇.然后计算每个簇的新均值.这个过程不断重复,直到准则函数收敛.　收稿日期:2008212230　基金项目:河南省科技攻关资助项目(0524220059)　作者简介:谭庆(1977-),男,河南洛阳人,讲师,硕士.主要研究方向:数据挖掘和程序设计.谭庆:基于k2means聚类算法的试卷成绩分析研究413通常k2means算法的准则函数采用平方误差准则,定义为:E=∑k i=1∑p∈C i|p-m i|2.(1)其中E是数据集中所有对象的平方误差的总和,p是给定的数据对象,m i是簇C i的平均值(p和m i都是多维的).这个准则的作用是使生成的簇尽可能地紧凑和独立.对处理大型数据集而言,k2means算法是相对可伸缩的和高效的,因为算法的复杂度为O(ntk),并且k 和t通常都远远小于n.这里n是数据对象的个数,k是簇的个数,t是迭代的次数.2　基于k2means聚类算法的试卷成绩分析目前,在高校管理中,特别是对学生的试卷管理工作中,普遍存在的问题是学生试卷成绩数据量过于庞大,但目前对这些数据的处理还停留在初级的数据备份、查询及简单统计阶段.对于学生取得这些成绩的原因往往无法了解,使得这些数据还不能发挥它应有的作用.如何利用这些数据理性地分析教学中各方面的成效得失以及找到有关影响学生学习成绩的因素是广大教师们共同关心的问题.聚类是深层次的数据信息分析方法.将聚类技术应用于对试卷成绩的分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之间隐藏的内在联系.通过聚类分析,其评价结果能给教学带来前所未有的收获和惊喜.本文着重讨论了k2means聚类算法在试卷成绩数据中的应用,得出一些有趣的知识,对教学质量的提高起到积极的促进作用,以此来帮助教学工作的顺利进行.学生试卷成绩的划分类别分析评价属于聚类数据挖掘.选用的模型是典型的划分方法k2means算法模型,无需高昂的代价收集和标记大量训练元组集或模式.首先,基于数据的相似性把数据集合划分成组,然后给这些数量相对较少的组指定标号.这种基于聚类的过程的另一个优点是可以适应变化,并且能够挑选出区分不同组的有用特征.2.1　数据预处理数据的预处理是数据挖掘过程中一个非常重要的环节,一般需要占去挖掘过程中70%的工作量.经验表明,如果数据准备工作做得非常细致,在模型建立阶段就会节省大量的精力.1)数据集成数据集成就是将来自多个数据源的数据合并到一起.本研究中,成绩数据库中包括了学生的平时作业成绩及课程的考试成绩.这个数据库由教师在教学过程中产生.将数据采集得到的多个数据库文件,利用数据库技术生成学生试卷成绩分析基本数据库.随机抽取一个年级学生的一学期的课程(如电路基础、离散数学、数据库、C语言程序设计、马克思主义哲学、英语和体育)的成绩,如表1所示.xh为学生学号,k1为电路基础的成绩,k2为离散数学的成绩,k3为数据库的成绩,k4为C语言程序设计的成绩,k5为马克思主义哲学的成绩,k6为英语的成绩,k7为体育的成绩.表1　学生试卷成绩分析基本数据表Tab.1　Basic data sheet of analysis of students’examination paper gradesxh k1k2k3k4k5k6k7011114001优868460756280011114002良707560716073011114003良778071696078011114004良858160727375011114005优878871787578011114006良637860626570011114007良628185686271011114008及687487707078011114009良767860636980011114010及807460636085011114011良617460706477…………………… 2)数据清理数据清理的主要工作就是填补遗漏的数据值[6,7].在学生试卷成绩分析基本数据库及调查表中我们看　河南大学学报(自然科学版),2009年,第39卷第4期414到,有一些我们感兴趣的属性缺少属性值,对于这些空缺,可以使用数据清理技术来填补.有很多种方法可以为属性填写空缺值,比如:忽略元组、人工填写空缺值、使用一个全局常量填充空缺值等.在本例中,采用忽略元组的方法删除退学、休学、转学、没有参加考试或有大量的空缺项的学生的记录.对于其他个别空缺,因为总记录数不算太多,且空缺值较少,采用人工填充的方法处理.填充原则是使用该记录其他属性的平均值填充此空缺值.经过数据清理后,总记录数为146条.3)数据转换数据转换主要是对数据进行规格化操作,将数据变成统一的格式,以适合数据挖掘.在对学生试卷成绩进行聚类分析挖掘时,需要数值型数据,所以应把学生试卷成绩表的数据转换成数值型按通常的百分制表示.因为电路基础课程评的是等级分,所以将“优”转换为“90”,“良”转换为“80”,“中”转换为“70”,“及”转换为“60”,“差”转换为“0”.其他课程本身就使用百分制,无需再转换.接下来采用最小—最大规范化方法将百分制成绩规范化到[0,1]上.将表1转化为聚类算法便于处理的格式,如表2所示.表2　聚类分析数据表Tab.2　Data sheet of clustering analysisxh k1k2k3k4k5k6k7 011114001 1.00000000.8593750.75000000.55844160.68852460.70588240.55555560111140020.66666670.60937500.54545450.55844160.62295080.66666670.36111110111140030.66666670.7187500.65909090.70129870.59016390.66666670.50000000111140040.66666670.8437500.68181820.55844160.63934430.92156860.4166667011114005 1.00000000.8750000.84090910.70129870.73770490.96078430.50000000111140060.66666670.5000000.61363640.55844160.47540980.76470590.27777780111140070.66666670.4843750.68181820.88311690.57377050.70588240.305555601111400800.5781250.52272730.90909090.60655740.86274510.5000000111140090.66666670.7031250.61363640.55844160.49180330.84313730.555555601111401000.7656250.52272730.55844160.49180330.66666670.69444440111140110.66666670.4687500.52272730.55844160.60655740.74509800.4722222……………………2.2　k2means聚类算法的应用与结果分析本文实验环境是P42.4GHz,512MB内存,Windows XP专业版操作系统.k2means聚类算法在Visual C++ 6.0环境下用C++语言实现.将表2中总共146条记录作为k2means聚类分析的数据,给定聚类数为3.运行k2means算法程序后,将146条记录聚类成3簇,最后各簇均值数据如表3所示.表3　各簇均值数据表Tab.3　Data sheet of every cluster’s meank1k2k3k4k5k6k7簇1均值0.88235294130.80637254900.73618538330.70308123220.67952426870.75124951950.3039215687簇2均值00.45863970590.51470588240.56493506460.55255544840.64186851230.5163398694簇3均值0.69945355220.57223360660.56184798800.63189269710.58747648490.70202507250.4972677595 通过对实验结果的分析可以得出,簇1中的学生都是考试成绩较好的,簇2中的学生考试成绩较低,簇3中的学生考试成绩介于簇1和簇2之间.簇1中包含51条记录,占总数的35%;簇2中包含34条记录,占总数的23%;簇3中包含61条记录,占总数的42%.也就是说,约有35%的学生考试成绩较好,约有42%的学生考试成绩中等,约有23%的学生考试成绩较差.较差的学生比例有些高,在今后教学中,要更加关注簇2中的学生,帮助他们提高学习成绩.簇2均值中的k1值为0,说明电路基础课程得到最低分的学生都在此簇中.另外也说明电路基础课程评为等级分不够合理,这样最低等级分的学生k1值都会为0.在今后的教学中,电路基础课程应采用百分制,这样才能更好地、比较精确地打分.簇1均值中的k1—k6的值在3个簇的均值中都是最高的,但k7的值却是3个簇的均值中最低的.这说明簇1中的学生除体育外的其他课程成绩都较好,但体育成绩较差.在今后教学中,应注意督促那些成绩较好的学生上好体育课,多参加课外活动,多锻炼身体.谭庆:基于k2means聚类算法的试卷成绩分析研究415 3　结束语本文研究了k2means聚类算法,并将此算法应用于试卷成绩分析中.首先对数据进行了预处理,然后使用k2means算法,对学生试卷成绩进行划分类别分析评价.针对不同类别的学生,提出了相应的教学建议,指导学生的学习和今后的教学工作.参考文献:[1]U M Fayyad,G Piatesky2Shapiro,P Smyth.From data mining to knowledge discovery:An overview qdvances in knowledgediscovery and data mining[R].Califonia:AAA I/MIT Press,1996.[2]J ain A K,Murty M N,Flynn P J.Data clustering:A survey[J].ACM Comput.Surv.,1999(31):264-323.[3]Jin Hanjun,Wang Xiaorong,Wang Yanlin,et al.Study and application of genetic algorithm in computer test construction[C]//Proceedings of ISCIT,2005[C].Beijing:Beijing University of Posts and Telecommunications Press,2005.[4]Han Jiawei,Micheline Kamber.数据挖掘概念与技术[M].2版.北京:机械工业出版社,2007.[5]马希荣,孙华志.数据挖掘技术在教学评价中的应用[J].计算机工程与应用,2003(19):51-54.[6]Mehmed Kantardzic.数据挖掘———概念、模型、方法和算法[M].北京:清华大学出版社,2003.[7]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:水利水电出版社,2003.责任编辑:党兰学。

利用K-means聚类分析技术分析学生成绩

利用K-means聚类分析技术分析学生成绩摘要：数据挖掘是在海量的数据中寻找模式或规则的过程。

数据聚类则是数据挖掘中的一项重要技术，就是将数据对象划分到不同的类或者簇中，使得属于同簇的数据对象相似性尽量大，而不同簇的数据对象相异性尽量大。

目前数据挖掘技术在商业、金融业等方面都得到了广泛的应用，而在教育领域的应用较少，随着高校招生规模的扩大，在校学生成绩分布越来越复杂，除了传统成绩分析得到的一些结论外，还有一些不易发现的信息隐含其中，因而把数据挖掘技术引入到学生成绩分析中，有利于针对性地提高教学质量。

本论文就是运用数据挖掘中的聚类分析学生成绩的，利用学生在选择专业前的各主要学科的成绩构成，对数据进行选择，预处理，挖掘分析等。

运用聚类算法分析学生对哪个专业的强弱选择，从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。

关键字：数据挖掘聚类分析学生成绩分析Abstract：Data mining is a process that in the vast amounts of data looking for patterns or rules. Data clustering is an important data mining technology for people to understand and explore the inherent relationship between things. Clustering is to partition data objects into different categories, or clusters, making the similarity with the clusters of data as large as possible. While the dissimilarity of different clusters of data as large as possible.Nowadays data mining technology is widely used in business and finance. But it is less used in education field. With the increase of enrollment in universities, there are more and more students in campus, and that makes it more and more complex in the distribution of students" records. Besides some conclusions from traditional record analysis, a lot of potential information cannot be founded. Importing the data mining technology to students" record analyzing makes it more convenient and improve the teaching quality. In this paper, clustering technique in data mining is used to students' performance analysis, the use of data structure of main subject before the students specialized in choice of mode, pretreatment and data mining. Using clustering technology to analyse which professional students are good at, so as to choose how to learn professional and give some reference opinions after students of different grades choose their majors.Keywords :Data Mining , Clustering Technology , Students' Achievement1.概述1.1背景随着我国经济的发展，网络已被应用到各个行业，人们对网络带来的高效率越来越重视，然而大量数据信息给人们带来方便的同时，也随之带来了许多新问题，大量数据资源的背后隐藏着许多重要的信息，人们希望能对其进行更深入的分析，以便更好地利用这些数据，从中找出潜在的规律。

基于K—means算法的学生综合测评成绩分析

设分析为主。侧重于理论知识．在理论上的研究比较
多．对现实使用数据集中出现的数据特征和区别考虑得比较少Ｉ６ｊ。聚类分析作为数据挖掘中的一种重要技术．越来越广泛地应用于数据库领域
评学生素质。文献『采用德育、１１专业、身体、心理、展发五个指标评价，文献『３用思想道德素质、２１智育素质（知识能力素质）身心素质和发展能力素质（、文体活动活动创新素质）指标进行测评．并将指标细分为多个二级指标。测评采用演化算法ｌ模糊综合评价［多元统ｌｌ、４１、计分析法嘲等得到有效权值．将数据项按权值求和得到量化的分数测评值若遇推优同分冲突时。则以小数精
度或管理者的认知来确定．这些量化评定方法不能深
１１主要聚类算法．
聚类可以通过数据库中字段属性的数据类型和应用聚类进行操作的对象特点等选择算法常见的聚类算法有：基于划分的聚类算法、于层次的聚类算法、基
（）４重新计算每个（有变化）聚类的均值（中心对象）直至新平均值等于上次迭代的平均值，．算法结束。
作者简介：陈英（９７）女，士，师，究方向为数据挖掘、生管理１７一，硕讲研学
０现计机２１１代算０．１１
ＳＵＮｎＢｉｇ
／
（ｏｅｅｏｆｍａｏ，ｕｎｄｎｃａｎｅｓｙＺａｊｎ２０２ＣｌｇｆｎｏｔｎＧａｇｏｇＯｅｎＵｉｒｉ，ｈｎｉｇ５４２）ｌＩｒｉｖｔａ

K-means聚类算法的研究共3篇

K-means聚类算法的研究共3篇K-means聚类算法的研究1K-means聚类算法的研究聚类是数据挖掘和统计分析领域中非常重要的方法，它能够从大量的数据中抽象出有意义的类别。

K-means聚类算法是一个经典的聚类算法，它的思想简单而有效，广泛应用于数据分析、图像处理、生物信息学等领域。

本文将从算法原理、优缺点、应用及改进等方面进行研究和探讨。

一、算法原理K-means算法是一种基于距离的聚类算法，其基本原理是将数据点划分到k个不同的簇中，使得簇内的数据点尽可能相似，而簇间的数据点尽可能不同。

具体步骤如下：1. 随机选择k个中心点（centroid）作为初始的聚类中心。

2. 对于每个数据点，计算其到各个聚类中心的距离，并将其归类到距离最近的簇中。

3. 对于每个簇，重新计算其聚类中心，即为该簇内所有数据点的平均值。

4. 重复执行步骤2和3，直到聚类中心不再改变，或达到预设的迭代次数。

二、优缺点K-means算法具有以下优缺点：优点：1. 算法简单、易于实现和理解，计算速度快，适用于大规模数据。

2. 对于点密集的数据集，聚类效果较好。

3. 可以很好地处理凸型和球型簇。

缺点：1. K值需要事先确定，不确定时需要多次试验，计算量大。

2. 算法容易陷入局部最优解，结果不稳定，可能需要多次运行来得到最优解。

3. 对于噪声和离群点的敏感度较高。

三、应用K-means算法适用于以下数据挖掘任务：1. 分类问题：根据数据的属性特征将其划分到不同的组别，如客户分群、市场分析等。

2. 图像分割：将图像中的像素点划分到不同的区域，实现图像分割。

3. 地质勘探：对地面的物质进行分离和分类，例如岩性分类、照片过滤等。

4. 生物信息学：对基因序列进行聚类分析，以发现有共性的基因序列。

四、改进K-means算法有许多改进算法，尝试解决其缺点和不足，如以下算法：1. K-means++算法：改进了初始聚类中心的选择方法，使得聚类结果更加稳定和准确。

聚类算法分析及其在学生成绩分中的应用

本科学生毕业论文（设计）题目聚类算法分析及其在学生成绩分析中的应用学院数学计算机科学学院专业计算机科学与技术学生姓名陶彬贤学号0715206指导教师伍长荣职称副教授论文子数6564完成日期2011 年 4 月15 日论文题目聚类算法分析及其在学生成绩分析中的应用_________学生姓名、学院：陶彬贤数学计算机科学学院中文摘要（300字左右）数据挖掘就是从大量的、不完全的、模糊的、随机的数据中，提取隐含在其中的，人们事先不知道的，但又是潜在有用的信息和知识的过程。

数据挖掘的方法有很多，聚类分析是目前最有应用前景的数据分析方法之一，因为聚类分析能作为一个独立的工具来获得数据分布的情况，观察每一个簇的特点，并能集中的对特定的某些簇作进一步的分析。

对学生原始成绩进行等级评定是教学管理中的重要环节，利用聚类算法可以对学生成绩进行有效的等级划分。

K_mea ns算法是划分式聚类算法的一种，文中运用K means算法对学生成绩进行了聚类并对结果加以分析。

关键词（3〜5个）：聚类算法；K means；学生成绩分析英文题目Cluster ng algorithms and Applicati on of Clusteri ng algorithms instude nts' performa nee an alysis学生姓名、学院（英文）：Taob in xia n, school of mathematics&computer scie nee 英文摘要Data mi ning extract those implicit but pote ntially useful in formatio n from a lot of in complete, fuzzy and ran dom data.There are many ways of data mi ning .Clusteri ng an alysis is one of the most applicatio n prospect of data an alysis method.because the cluster an alysis can be used as an in depe ndent tool to get data distributi on, observe every cluster characteristic, and can focus on certain cluster for furtheranalysis.Ranking of the student original scores is an important link of teaching ing clustering algorithm can repartition the student achievement effectively.k_mea ns algorithm is a partiti on type of clusteri ng algorith m.ln this paper K_means algorithm is used to cluster the stude nt achieveme nt and the result has bee n analysed.英文关键词Clustering algorithms；k _means； students' performanee analysis目录第一章引言..................................................... 3.第二章聚类分析技术与K_mean翼法 . (3)2.1聚类的定义 (3)2.2聚类算法的分类 (3)第三章聚类技术在学生成绩分析中的应用 (5)3.1学生成绩传统划分 (5)3.2 k_means算法描述[10] (5)3.3 k-means聚类算法实现流程图 (6)3.4 K_mea ns算法对学生成绩分析 (6)3.5程序实现................................................ 7.3.6传统方法与K_means算法的比较 (9)结论........................................................... 9.参考文献：..................................................... 9.致谢......................................................... 1.0聚类算法分析及其在学生成绩分析中的应用陶彬贤，数计学院摘要：数据挖掘就是从大量的、不完全的、模糊的、随机的数据中，提取隐含在其中的，人们事先不知道的，但又是潜在有用的信息和知识的过程。

基于全局k-means算法的高校学生成绩分析

最具应用前景的成绩分析方法之一，该方法的优点在于其结论形式简明、直观，容易从中发现隐含的规律。 K-means［3-4］算法是一种重要的聚类算法，由 McQueen 在 1976 年提出。K-means 算法的目标是将 N 维的 M 个点划分为 K 个簇，使准确率和召回率达到最大值。K-means 算法主要有两个缺点：（1）对簇的数目进行先验固定；（2）随机选择初始聚类中心。本文将全局 K-means 算法应用于成绩分
收稿日期：2018-12-11 基金项目：吉林省科技发展计划自然科学基金资助项目（20160101260JC）；吉林省教育厅资助项目（JJKH20181164KJ）作者简介：谷欣超（1976-），男，硕士，讲师，E-mail：guxinchao@
（1.School of Computer Science and Technology，Changchun University of Science and Technology，Changchun 130022； 2.Changchun Normal University，Changchun 130032）
Abstract：Unsupervised clustering algorithm is used to evaluate and analyze student’s scores. Within the interval of the number of clusters given， the score classification results under different cluster numbers is obtained by the global k-means algorithm clustering the student’s grade data. The optimal number of clustering can be determined automatically combined with the clustering validity index to realize the unsupervised classification of students' multi-subject score data. The experimental results show that the method can find the difference between clustering results of different grades；the main factors affected the data distribution is revealed and the influence of all the attributes of the data is balanced on the final analysis results and the problem that the result of manual analysis is easy to produce large deviation is avoided. It plays an important role in guiding students' elective courses，adjusting teachers’personal teaching methods，improving the quality of school teaching and improving students’score. Key words：cluster analysis；K-means algorithm；global K-means；score analysis

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于k—means聚类算法的试卷成绩分析研究第39卷第4期2009年7月河南大学(自然科学版)JournalofHenanUniversity(NaturalScience)V o1.39NO.4Ju1.2009基于k—means聚类算法的试卷成绩分析研究谭庆'(洛阳师范学院信息技术学院,河南洛阳471022)摘要:研究_rk-means聚类算法,并将此算法应用于高校学生试卷成绩分析中.首先对数据进行了预处理,然后使用k-means算法,对学生试卷成绩进行分类评价.用所获得的结果指导学生的学习和今后的教学工作.关键词:数据挖掘;聚类;k-means算法;试卷成绩中圈分类号:TP311文献标志码:A文章编号:1003—4978(2009)04—0412—04 AnalysisandResearchofGradesofExaminationPaper BasedonK—meansClusteringAlgorithmTANQing(Acaderny.l,InformationTechnologY,LuoyangNormalUniversity,LuoyangHenan47102 2,China)Abstract:Thispaperresearcheslhekmeansclusteringalgorithmandappliesittotheanalysiso fthegradedataof examinationpaperofhighereducationschoolSstudents.Firstly,itpreprocessesthedatabefor eminingThen,itusesthek—meansalgorithmtoclusterstudentsgradesofexaminationpaperandgivesevaluation.Theobt ained knowledgecanbeappliedintoguidingthesludentsandteachersintreirstudyandteaching. Keywords:datamining;clustering;kmeansalgorithm;gradesofexaminationpaper0引言传统的数据分析方法是统计分析法,该方法只是对事实的验证,描述已经发生的事实,难以发现数据中存在的关系和规律,也难以根据现有的数据预测未来的发展趋势.由于它缺乏挖掘数据背后知识的手段,因而导致了"数据爆炸但知识贫乏"的现象.面对这一挑战,数据挖掘(DataMining,DM)l和知识发现(KnowledgeDiscoveryinDatabase,KDD)技术应运而生,并逐渐显示出了强大的生命力.在高校中,考试成绩是评估教学质量的重要依据』,也是评估学生是否掌握好所学知识的重要方式.试卷分析是考试过程的一个重要环节.聚类是深层次的数据信息分析方法,将聚类们技术应用于试卷成绩分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之问隐藏的内在联系【.1k—means聚类算法给定一个包含个数据对象的数据集,以及要生成的簇的数目是,一个划分类的算法将数据对象组织成k个划分(是≤),其中每个划分代表一个簇.通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对象是"相似的",而不同簇中的对象是"相异的".最着名且最常用的基于划分的方法是k—means算法.k—means算法的处理流程是:首先随机地选择k个对象,每个对象代表一个簇的初始均值或中心.对剩余的每个对象,根据其与各个簇均值的距离,将它指派到最相似的簇.然后计算每个簇的新均值.这个过程不断重复,直到准则函数收敛. 收稿日期:2008—123O基金项目:河南省科技攻关资助项F1(0524220059)作者简介:谭J灭(1977一),男,河南洛阳人,讲师,硕士.主要研究方向:数据挖掘和程』设计谭庆:基于kTmeans聚类算法的试卷成绩分析研究413通常k—means算法的准则函数采用平方误差准则,定义为:E一>:>:...,I一ml.(1)''一'— (i)其中E是数据集中所有对象的平方误差的总和,是给定的数据对象,m是簇c的平均值(p和m都是多维的).这个准则的作用是使生成的簇尽可能地紧凑和独立.对处理大型数据集而言,k—means算法是相对可伸缩的和高效的,因为算法的复杂度为0(ntk),并且是和t通常都远远小于.这里是数据对象的个数,k是簇的个数,t是迭代的次数.2基于k—means聚类算法的试卷成绩分析目前,在高校管理中,特别是对学生的试卷管理工作中,普遍存在的问题是学生试卷成绩数据量过于庞大,但目前对这些数据的处理还停留在初级的数据备份,查询及简单统计阶段.对于学生取得这些成绩的原因往往无法了解,使得这些数据还不能发挥它应有的作用.如何利用这些数据理性地分析教学中各方面的成效得失以及找到有关影响学生学习成绩的因素是广大教师们共同关心的问题. 聚类是深层次的数据信息分析方法.将聚类技术应用于对试卷成绩的分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之间隐藏的内在联系.通过聚类分析,其评价结果能给教学带来前所未有的收获和惊喜.本文着重讨论了k—means聚类算法在试卷成绩数据中的应用,得出一些有趣的知识,对教学质量的提高起到积极的促进作用,以此来帮助教学工作的顺利进行.学生试卷成绩的划分类别分析评价属于聚类数据挖掘.选用的模型是典型的划分方法k—means算法模型,无需高昂的代价收集和标记大量训练元组集或模式.首先,基于数据的相似性把数据集合划分成组,然后给这些数量相对较少的组指定标号.这种基于聚类的过程的另一个优点是可以适应变化,并且能够挑选出区分不同组的有用特征.2.1数据预处理数据的预处理是数据挖掘过程中一个非常重要的环节,一般需要占去挖掘过程中7O的工作量.经验表明,如果数据准备工作做得非常细致,在模型建立阶段就会节省大量的精力. 1)数据集成数据集成就是将来自多个数据源的数据合并到一起.本研究中,成绩数据库中包括了学生的平时作业成绩及课程的考试成绩.这个数据库由教师在教学过程中产生.将数据采集得到的多个数据库文件,利用数据库技术生成学生试卷成绩分析基本数据库.随机抽取一个年级学生的一学期的课程(如电路基础,离散数学,数据库,C语言程序设计,马克思主义哲学,英语和体育)的成绩,如表1所示. 为学生学号,k.为电路基础的成绩,k.为离散数学的成绩,k.为数据库的成绩,k为C 语言程序设计的成绩,走.为马克思主义哲学的成绩,为英语的成绩,k为体育的成绩.表1学生试卷成绩分析基本数据表Tab.1Basicdatasheetofanalysisofstudentsexaminationpapergrades2)数据清理数据清理的主要工作就是填补遗漏的数据值.在学生试卷成绩分析基本数据库及调查表中我们看b一∞踮‰一∞∞∞∞乜一∞够鹪一∞∞∞n∞踮盯∞∞∞一跗踞一%踮盯略∞一优良良良优良良及良及良123456789OlOOOOOOOOO11OOOOOOOOOOO444444444【lI【【llIII【【Il【__lIIll}}lI!}llOOOOOOOOOOO414河南大学(自然科学版),2009年,第39卷第4期到,有一些我们感兴趣的属性缺少属性值,对于这些空缺,可以使用数据清理技术来填补.有很多种方法可以为属性填写空缺值,比如:忽略元组,人工填写空缺值,使用一个全局常量填充空缺值等.在本例中,采用忽略元组的方法删除退学,休学,转学,没有参加考试或有大量的空缺项的学生的记录.对于其他个别空缺,因为总记录数不算太多,且空缺值较少,采用人工填充的方法处理.填充原则是使用该记录其他属性的平均值填充此空缺值.经过数据清理后,总记录数为146条.3)数据转换数据转换主要是对数据进行规格化操作,将数据变成统一的格式,以适合数据挖掘.在对学生试卷成绩进行聚类分析挖掘时,需要数值型数据,所以应把学生试卷成绩表的数据转换成数值型按通常的百分制表示.因为电路基础课程评的是等级分,所以将"优"转换为"90","良"转换为"80","中"转换为"70","及"转换为"6O","差"转换为"0".其他课程本身就使用百分制,无需再转换.接下来采用最小一最大规范化方法将百分制成绩规范化到[0,1]上.将表1转化为聚类算法便于处理的格式,如表2所示.表2聚类分析数据表Tab.2Datasheetofclusteringanalysis2.2k—means聚类算法的应用与结果分析本文实验环境是P42.4GHz,512MB内存,WindowsXP专业版操作系统.k—means 聚类算法在VisualC++6.0环境下用C++语言实现.将表2中总共146条记录作为k—means聚类分析的数据,给定聚类数为3.运行k—means算法程序后,将146条记录聚类成3簇,最后各簇均值数据如表3所示.表3各簇均值数据表Tab.3Datasheetofeveryclustersmean通过对实验结果的分析可以得出,簇1中的学生都是考试成绩较好的,簇2中的学生考试成绩较低,簇3中的学生考试成绩介于簇1和簇2之间.簇1中包含51条记录,占总数的35;簇2中包含34条记录,占总数的23;簇3中包含6】条记录,占总数的42%.也就是说,约有35的学生考试成绩较好,约有42的学生考试成绩中等,约有23的学生考试成绩较差.较差的学生比例有些高,在今后教学中,要更加关注簇2中的学生,帮助他们提高学习成绩.簇2均值中的k.值为0,说明电路基础课程得到最低分的学生都在此簇中.另外也说明电路基础课程评为等级分不够合理,这样最低等级分的学生k值都会为0.在今后的教学中,电路基础课程应采用百分制,这样才能更好地,比较精确地打分.簇1均值中的k.一是的值在3个簇的均值中都是最高的,但尼的值却是3个簇的均值中最低的.这说明簇1中的学生除体育外的其他课程成绩都较好,但体育成绩较差.在今后教学中,应注意督促那些成绩较好的学生上好体育课,多参加课外活动,多锻炼身体.谭庆:基于k—means聚类算法的试卷成绩分析研究4153结束语本文研究了k—means聚类算法,并将此算法应用于试卷成绩分析中.首先对数据进行了预处理,然后使用k—means算法,对学生试卷成绩进行划分类别分析评价.针对不同类别的学生,提出了相应的教学建议,指导学生的学习和今后的教学工作.参考文献:[1]uMFayyad,GPiatesky—Shapiro,PSmyth.Fromdataminingtoknowledgediscovery:Anoverviewqdvancesinknow ledgediscoveryanddatamining[R].Califonia:AAAI/MITPress,1996.[2]JainAK,MurtyMN,FlynnPJ.Dataclustering:Asurvey[J].ACMComput.Surv.,1999(31 ):264—323.[3]JinHanjun,WangXiaorong,WangYanlin,eta1.Studyandapplicationofgeneticalgorith mincomputertestconstruction[c]//ProceedingsofISCIT,2005[c].Beijing:BeijingUniversityofPostsandTelecommunica tionsPress,2005.[4]HanJiawei,MichelineKamber.数据挖掘概念与技术[M].2版.北京:机械工业出版社,2007.[5]马希荣,孙华志.数据挖掘技术在教学评价中的应用[J].计算机工程与应用,2003(19):5l一54.[6]MehmedKantardzic.数据挖掘——概念,模型,方法和算法[M].北京:清华大学出版社,2003.[7]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:水利水电出版社,2003.责任编辑:党兰学。