基于k—means聚类算法的试卷成绩分析研究

合集下载

基于K- means聚类算法成绩分析的应用探究

基于K- means聚类算法成绩分析的应用探究

计算机科学科技创新导报 Science and Technology Innovation Herald90在现代信息化被广泛应用的时代,在我们日常教学中,面对错综复杂的学生成绩信息和各种各样的学习方法和学习方式,针对学生不及格的课程成绩信息群体,我们传统的数据分析有一定的局限性,通常还是停留在简单的统计、查询和汇总等层面,往往对这些数据背后的深一层原因无所了解,而聚类分析通过数据挖掘技术对这个数据群体进行处理,通过聚类、划分、分群,将有助于学校从堆积如山的数据中,发掘有利于教学的具有针对性的信息。

利用聚类分析方法能从数据中找出相关的特征或模式,可以帮助学校针对不学生的学习状况,制定针对性的教学策略,对学生信息聚类和分组可以帮助改善学生学习成绩,并且可以根据此数据信息预测将来的成绩趋势,辅助学校进行教学管理。

1 聚类分析数据挖掘的方法中聚类是对记录分组,把相似的记录放在一个类别里。

聚类和分类的区别是聚类不依赖于预先定义好的类,不需要训练集。

聚类分析中,首先需要确定基本聚类分析原则,在各聚集内部数据对象间之间,追求的是相似度最大化。

而在各聚集对象之间,追求的是相似度最小化。

在进行聚类分析时,聚类分析所获得的组可视为同类别的归属,也可视为该类归属的数据对象集合。

聚类分析已经在模式识别图像处理、市场分析和数据分析等领域得到了广泛应用。

2 K-means聚类算法学生成绩挖掘分析主要目标是针对学生成绩数据进行聚类分析,挖掘出数据隐含的不同学生群体信息。

而K-m e a n s 聚类算法是数据挖掘基于划分最经典的聚类方法,也是易于实现的算法。

主要思想是首先初始化K个聚类簇中心,使用一定的准则将所有样本点分到不同的K个簇中;接着计算现有的K个簇的质心,确定新的簇心。

一直循环迭代,直到簇心的移动距离小于某个给定的阈值。

如果初始簇心选择不好时,K—m e a n s 的结果会很差,所以一般是多DOI:10.16660/ k i.1674-098X.2016.03.090基于K-means聚类算法成绩分析的应用探究张贵元(东莞理工学校 广东东莞 523000)摘 要:数据挖掘是在海量的数据中寻找模式或规则的过程。

基于k-means聚类算法的研究

基于k-means聚类算法的研究
第2卷 1
第 7期
计 算 机 技Biblioteka 术 与 发 展 C0MP ER ECHNOL UT T OGY AND DEVE LOP MEN1 ’
V0. 1 No 7 12 .
2 1 年 7月 01
J l 2 1 uy 0 1
基 于 k me n — a s聚 类算 法 的研 究
黄 韬, 刘胜 辉 , 艳 娜 谭
HUANG o, U h n Ta LI S e g-h i TAN n-n u, Ya a
( c . f o u c.n eh - ri U i.fSiadT c . H bn108 。 hn ) Sh o mp ̄r iadT c .Ha n nv o c. eh , a i 5 0 0 C ia C S b n r
( 尔滨理 工大 学 计 算机 科 学与技 术 学院 , 哈 黑龙 江 哈 尔滨 10 8 ) 5 00
摘 要 : 析研 究聚 类分 析方法 , 多种 聚类分 析算 法进 行 分析 比较 , 分 对 讨论 各 自的优 点 和 不 足 , 同时 针 对原 k m as 法 - en 算
的 聚类结 果受 随机选 取初 始聚 类 中心的影 响较 大 的缺 点 , 出一 种 改进 算 法 。通过 将 对 数据 集 的 多次 采 样 , 提 选取 最 终较
中图分 类号 :P0 . T 316 文献 标识 码 : A 文章 编号 : 7 —2 X(0 10 — 04 0 1 3 69 2 1 )7 05 — 4 6
Re e r h o u trn g rt m s d o - a s s a c f Cl se i g Al o i h Ba e n K me n
Ab t a t An l z n e e r h t e me o fcu t ra a y i - a y e a d c mp r n i d fa g rt ms o l se n y i 。 i u s s r c : ay e a d r s a c h t d o l se l ss a l z n o a e ma y k n so o i h n n l h fcu t ra a ss d s s l c merr s e t e s e g s a d we k e s s Att e s me t i e p c v t n t n a n s . a i i r h e h me。 c o d n o t e we kn s s o e c u tr r s l fo g n a c r i g t a e s f t l se e u to r i a k-me s ag - h e h i l n a lo r h a i ini c ti fu n e b lc i g t e i i a l t r c n e s r d ml a mo i e g rt m s p o o e T o g k n a p e i r s sg f a n e c y s e t n t cus e t r a o y。 d f d a o i t in l e n h i l e n i l h i r p s d. hr u h t i g s a m l ma y t st aa s t c o s n u e o l se e t r br g d wn t e i a t fi i a l se e t r o i r e g rt m r a l . n me d t e , h o e f a s p r rcu t rc n e - i o mp c tl cu trc n e st mp ov d a o h g e t i o il i n h o ni l i y S mu tn o sy-t e ii a t ssa d d z d o e t ei i a l se e tr i s lc e i l e u l h n t da i tn a ie nc t cu t r n e s ee t d,ma e l se fe t mp o e t e mo . t — a i l a h ni l c k scu t re c r v d f h r r Dee i ur e c i w o t m r g ue a g r h Hk- a s t r u h t e d t f UCId t t t e r s l s o a n l i me h o g h a e o n aa s 。 u t h wst tHk- a s ag rt m s mo r mi e ti r v e h e h me o i n l h i r p o n n mp e o o d h n n tl k t a i i a —me sa g rt m i l se fe t a d i S u f l o o f r n e t e a v ie d i n a l o h i n cu t re f , c n t s u f rc n e c o r lt ef l . e e i Ke r s d t n n cus r g a g rt m ; me s ag r h y wo d : aa m i g; l t i o i i en l h k— a o i m n l t

基于K-means算法的学生试卷成绩分析

基于K-means算法的学生试卷成绩分析
中图分 类号 : P 1 T 31 文献标 识码 : A
学生 考试成绩 是学 生学 习成果 的显性体现 , 是 针 对 性 制 定 教 学 策 略 的 重 要 依 据 .在 日常 教 学 中 , 生 了 大 量反 映 学 生 学 习成 效 的 数 据— — 学 产
别 、图像分割和机器视觉等领域I 笔者将聚类分 2 】 . 析技术 应用于学生成绩分析和等级评定, 希望从 数据 中发现某些规律 , 为制 定有效 的教学策略提
m,= … . ; j 1 , j k
Re a pe t
2 基于 K— as聚类算 法的聚类过 men
程 和 结论 分 析
21 数据 来源 .

心会根据聚类 中现有的数据点被重新计算. 这个
过程会反复迭代, 直至满足某个终止条件为止.
K m as算法能对大型数据集进行高效分类, - en
且适合于对数值型数据进行聚类, 其计算复杂性
为 O tm ) 其中, 为迭代次数, 为聚类数, ( n, K t m为
特征属性数, 为待分类对象数, 通常, m < . ,
面存在相似性. 因此, 这种成绩细分方法并没有真
正 起到 区分 不 同成绩 等级 的作 用 . 聚 类 分 析 技 术是 数 据 挖 掘 及模 式 识 别 等 研 究
并且, 聚类确定了数据集中所有数据的归属_ 4 ] . 聚类算法大致分成层次化聚类算法 、 划分式聚 类算法 、 基于密度和网格的聚类算法和其他聚类算
1 个类簇 内的实体是相似的, 不同类簇的实体是不 相似的;1个类簇是测试空间中点的会聚, 同类簇 的任意 2 个点间的距离小于不 同类簇的任意 2 个点 间的距离: 类簇可以描述为 1 个包含密度相对较高 点集的多维空间中的连 通区域,它们借助包含密

数据挖掘中的聚类技术在学生成绩分析中的应用

数据挖掘中的聚类技术在学生成绩分析中的应用

数据挖掘中的聚类技术在学生成绩分析中的应用[摘要]本文针对在大类招生背景下北京科技大学经济管理学院2005级学生的考试成绩,应用数据挖掘技术分析分专业前学生成绩与专业及分专业后课程学习之间可能存在的潜在的联系。

首先进行数据预处理以保证数据挖掘结果的质量和提高数据挖掘的效率;然后根据分专业前的课程成绩对学生进行聚类,并分析各类的成绩特征;最后以信息管理与信息系统专业为例,分析各类学生在分专业后的优势课程和较弱课程。

[关键词]数据挖掘;聚类;学生成绩分析doi:10.3969/j.issn.1673-0194.2009.15.0141 引言本科按学科大类招生已在部分高校实施,这些高校按一级或二级学科进行招生,在经过约两年的统一基础培养后,由学生结合就业、兴趣等选择具体专业方向,开始专业课程及实践课程的学习直至毕业[1]。

本文研究数据挖掘技术在大类招生背景下学生成绩分析中的应用,数据来源于北京科技大学经济管理学院2005级学生前5个学期的成绩,其中前4个学期为分专业前的成绩,第5个学期为分专业后的成绩。

通过观察这些数据可以发现如下特点:①成绩分布在0~100之间,且各个分数段的密度不同,其中成绩取值在70~90分之间的比例非常大;②分专业前的课程数量很多,且其中的某些课程与专业选择相关性很小;③部分课程存在得分普遍较高或得分普遍较低的现象;④分专业前的课程主要包括:高等数学I、概率与数理统计、外语I、线性代数、计算机基础、会计学、财政金融学、管理信息系统、马克思主义哲学、军事理论、体育I等46门课程;⑤分专业后各专业课程不同。

为了保证数据挖掘结果的质量,提高数据挖掘的效率,需要进行净化、集成、精简、应用变换等数据预处理。

之后,再进行聚类及进一步的分析。

2 数据预处理2.1 数据净化数据净化是清除数据源中不正确、不完整等不能达到数据挖掘质量要求的数据,从而提高数据的质量,得到更正确的数据挖掘结果。

在本研究所针对的学生成绩数据中,遇到的主要数据净化问题是空值问题。

基于k_means聚类算法的试卷成绩分析研究

基于k_means聚类算法的试卷成绩分析研究

第39卷第4期河南大学学报(自然科学版)Vol.39 No.4 2009年7月Journal of Henan University(Natural Science)J ul.2009基于k2means聚类算法的试卷成绩分析研究谭庆(洛阳师范学院信息技术学院,河南洛阳471022)摘 要:研究了k2means聚类算法,并将此算法应用于高校学生试卷成绩分析中.首先对数据进行了预处理,然后使用k2means算法,对学生试卷成绩进行分类评价.用所获得的结果指导学生的学习和今后的教学工作.关键词:数据挖掘;聚类;k2means算法;试卷成绩中图分类号:TP311 文献标志码:A文章编号:1003-4978(2009)04-0412-04Analysis and R esearch of G rades of Examination PaperB ased on K2means Clustering AlgorithmTAN Qing(A cadem y of I nf ormation Technolog y,L uoy ang N ormal Universit y,L uoy ang Henan471022,China)Abstract:This paper researches the k2means clustering algorithm and applies it to the analysis of the grade data of examination paper of higher education school’s students.Firstly,it preprocesses the data before mining.Then,it uses the k2means algorithm to cluster students’grades of examination paper and gives evaluation.The obtained knowledge can be applied in to guiding the students and teachers in treir study and teaching.K ey w ords:data mining;clustering;k2means algorithm;grades of examination paper0 引言传统的数据分析方法是统计分析法,该方法只是对事实的验证,描述已经发生的事实,难以发现数据中存在的关系和规律,也难以根据现有的数据预测未来的发展趋势.由于它缺乏挖掘数据背后知识的手段,因而导致了“数据爆炸但知识贫乏”的现象[1].面对这一挑战,数据挖掘(Data Mining,DM)[2]和知识发现(Knowledge Discovery in Database,KDD)技术应运而生,并逐渐显示出了强大的生命力.在高校中,考试成绩是评估教学质量的重要依据[3],也是评估学生是否掌握好所学知识的重要方式.试卷分析是考试过程的一个重要环节.聚类是深层次的数据信息分析方法,将聚类[4]技术应用于试卷成绩分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之间隐藏的内在联系[5].1 k2means聚类算法给定一个包含n个数据对象的数据集,以及要生成的簇的数目k,一个划分类的算法将数据对象组织成k个划分(k≤n),其中每个划分代表一个簇.通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对象是“相似的”,而不同簇中的对象是“相异的”.最著名且最常用的基于划分的方法是k2means算法.k2means算法的处理流程是:首先随机地选择k个对象,每个对象代表一个簇的初始均值或中心.对剩余的每个对象,根据其与各个簇均值的距离,将它指派到最相似的簇.然后计算每个簇的新均值.这个过程不断重复,直到准则函数收敛. 收稿日期:2008212230 基金项目:河南省科技攻关资助项目(0524220059) 作者简介:谭庆(1977-),男,河南洛阳人,讲师,硕士.主要研究方向:数据挖掘和程序设计.谭庆:基于k2means聚类算法的试卷成绩分析研究413通常k2means算法的准则函数采用平方误差准则,定义为:E=∑k i=1∑p∈C i|p-m i|2.(1)其中E是数据集中所有对象的平方误差的总和,p是给定的数据对象,m i是簇C i的平均值(p和m i都是多维的).这个准则的作用是使生成的簇尽可能地紧凑和独立.对处理大型数据集而言,k2means算法是相对可伸缩的和高效的,因为算法的复杂度为O(ntk),并且k 和t通常都远远小于n.这里n是数据对象的个数,k是簇的个数,t是迭代的次数.2 基于k2means聚类算法的试卷成绩分析目前,在高校管理中,特别是对学生的试卷管理工作中,普遍存在的问题是学生试卷成绩数据量过于庞大,但目前对这些数据的处理还停留在初级的数据备份、查询及简单统计阶段.对于学生取得这些成绩的原因往往无法了解,使得这些数据还不能发挥它应有的作用.如何利用这些数据理性地分析教学中各方面的成效得失以及找到有关影响学生学习成绩的因素是广大教师们共同关心的问题.聚类是深层次的数据信息分析方法.将聚类技术应用于对试卷成绩的分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之间隐藏的内在联系.通过聚类分析,其评价结果能给教学带来前所未有的收获和惊喜.本文着重讨论了k2means聚类算法在试卷成绩数据中的应用,得出一些有趣的知识,对教学质量的提高起到积极的促进作用,以此来帮助教学工作的顺利进行.学生试卷成绩的划分类别分析评价属于聚类数据挖掘.选用的模型是典型的划分方法k2means算法模型,无需高昂的代价收集和标记大量训练元组集或模式.首先,基于数据的相似性把数据集合划分成组,然后给这些数量相对较少的组指定标号.这种基于聚类的过程的另一个优点是可以适应变化,并且能够挑选出区分不同组的有用特征.2.1 数据预处理数据的预处理是数据挖掘过程中一个非常重要的环节,一般需要占去挖掘过程中70%的工作量.经验表明,如果数据准备工作做得非常细致,在模型建立阶段就会节省大量的精力.1)数据集成数据集成就是将来自多个数据源的数据合并到一起.本研究中,成绩数据库中包括了学生的平时作业成绩及课程的考试成绩.这个数据库由教师在教学过程中产生.将数据采集得到的多个数据库文件,利用数据库技术生成学生试卷成绩分析基本数据库.随机抽取一个年级学生的一学期的课程(如电路基础、离散数学、数据库、C语言程序设计、马克思主义哲学、英语和体育)的成绩,如表1所示.xh为学生学号,k1为电路基础的成绩,k2为离散数学的成绩,k3为数据库的成绩,k4为C语言程序设计的成绩,k5为马克思主义哲学的成绩,k6为英语的成绩,k7为体育的成绩.表1 学生试卷成绩分析基本数据表Tab.1 Basic data sheet of analysis of students’examination paper gradesxh k1k2k3k4k5k6k7011114001优868460756280011114002良707560716073011114003良778071696078011114004良858160727375011114005优878871787578011114006良637860626570011114007良628185686271011114008及687487707078011114009良767860636980011114010及807460636085011114011良617460706477…………………… 2)数据清理数据清理的主要工作就是填补遗漏的数据值[6,7].在学生试卷成绩分析基本数据库及调查表中我们看 河南大学学报(自然科学版),2009年,第39卷第4期414到,有一些我们感兴趣的属性缺少属性值,对于这些空缺,可以使用数据清理技术来填补.有很多种方法可以为属性填写空缺值,比如:忽略元组、人工填写空缺值、使用一个全局常量填充空缺值等.在本例中,采用忽略元组的方法删除退学、休学、转学、没有参加考试或有大量的空缺项的学生的记录.对于其他个别空缺,因为总记录数不算太多,且空缺值较少,采用人工填充的方法处理.填充原则是使用该记录其他属性的平均值填充此空缺值.经过数据清理后,总记录数为146条.3)数据转换数据转换主要是对数据进行规格化操作,将数据变成统一的格式,以适合数据挖掘.在对学生试卷成绩进行聚类分析挖掘时,需要数值型数据,所以应把学生试卷成绩表的数据转换成数值型按通常的百分制表示.因为电路基础课程评的是等级分,所以将“优”转换为“90”,“良”转换为“80”,“中”转换为“70”,“及”转换为“60”,“差”转换为“0”.其他课程本身就使用百分制,无需再转换.接下来采用最小—最大规范化方法将百分制成绩规范化到[0,1]上.将表1转化为聚类算法便于处理的格式,如表2所示.表2 聚类分析数据表Tab.2 Data sheet of clustering analysisxh k1k2k3k4k5k6k7 011114001 1.00000000.8593750.75000000.55844160.68852460.70588240.55555560111140020.66666670.60937500.54545450.55844160.62295080.66666670.36111110111140030.66666670.7187500.65909090.70129870.59016390.66666670.50000000111140040.66666670.8437500.68181820.55844160.63934430.92156860.4166667011114005 1.00000000.8750000.84090910.70129870.73770490.96078430.50000000111140060.66666670.5000000.61363640.55844160.47540980.76470590.27777780111140070.66666670.4843750.68181820.88311690.57377050.70588240.305555601111400800.5781250.52272730.90909090.60655740.86274510.5000000111140090.66666670.7031250.61363640.55844160.49180330.84313730.555555601111401000.7656250.52272730.55844160.49180330.66666670.69444440111140110.66666670.4687500.52272730.55844160.60655740.74509800.4722222……………………2.2 k2means聚类算法的应用与结果分析本文实验环境是P42.4GHz,512MB内存,Windows XP专业版操作系统.k2means聚类算法在Visual C++ 6.0环境下用C++语言实现.将表2中总共146条记录作为k2means聚类分析的数据,给定聚类数为3.运行k2means算法程序后,将146条记录聚类成3簇,最后各簇均值数据如表3所示.表3 各簇均值数据表Tab.3 Data sheet of every cluster’s meank1k2k3k4k5k6k7簇1均值0.88235294130.80637254900.73618538330.70308123220.67952426870.75124951950.3039215687簇2均值00.45863970590.51470588240.56493506460.55255544840.64186851230.5163398694簇3均值0.69945355220.57223360660.56184798800.63189269710.58747648490.70202507250.4972677595 通过对实验结果的分析可以得出,簇1中的学生都是考试成绩较好的,簇2中的学生考试成绩较低,簇3中的学生考试成绩介于簇1和簇2之间.簇1中包含51条记录,占总数的35%;簇2中包含34条记录,占总数的23%;簇3中包含61条记录,占总数的42%.也就是说,约有35%的学生考试成绩较好,约有42%的学生考试成绩中等,约有23%的学生考试成绩较差.较差的学生比例有些高,在今后教学中,要更加关注簇2中的学生,帮助他们提高学习成绩.簇2均值中的k1值为0,说明电路基础课程得到最低分的学生都在此簇中.另外也说明电路基础课程评为等级分不够合理,这样最低等级分的学生k1值都会为0.在今后的教学中,电路基础课程应采用百分制,这样才能更好地、比较精确地打分.簇1均值中的k1—k6的值在3个簇的均值中都是最高的,但k7的值却是3个簇的均值中最低的.这说明簇1中的学生除体育外的其他课程成绩都较好,但体育成绩较差.在今后教学中,应注意督促那些成绩较好的学生上好体育课,多参加课外活动,多锻炼身体.谭庆:基于k2means聚类算法的试卷成绩分析研究415 3 结束语本文研究了k2means聚类算法,并将此算法应用于试卷成绩分析中.首先对数据进行了预处理,然后使用k2means算法,对学生试卷成绩进行划分类别分析评价.针对不同类别的学生,提出了相应的教学建议,指导学生的学习和今后的教学工作.参考文献:[1]U M Fayyad,G Piatesky2Shapiro,P Smyth.From data mining to knowledge discovery:An overview qdvances in knowledgediscovery and data mining[R].Califonia:AAA I/MIT Press,1996.[2]J ain A K,Murty M N,Flynn P J.Data clustering:A survey[J].ACM Comput.Surv.,1999(31):264-323.[3]Jin Hanjun,Wang Xiaorong,Wang Yanlin,et al.Study and application of genetic algorithm in computer test construction[C]//Proceedings of ISCIT,2005[C].Beijing:Beijing University of Posts and Telecommunications Press,2005.[4]Han Jiawei,Micheline Kamber.数据挖掘概念与技术[M].2版.北京:机械工业出版社,2007.[5]马希荣,孙华志.数据挖掘技术在教学评价中的应用[J].计算机工程与应用,2003(19):51-54.[6]Mehmed Kantardzic.数据挖掘———概念、模型、方法和算法[M].北京:清华大学出版社,2003.[7]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:水利水电出版社,2003.责任编辑:党兰学。

利用K-means聚类分析技术分析学生成绩

利用K-means聚类分析技术分析学生成绩

利用K-means聚类分析技术分析学生成绩摘要:数据挖掘是在海量的数据中寻找模式或规则的过程。

数据聚类则是数据挖掘中的一项重要技术,就是将数据对象划分到不同的类或者簇中,使得属于同簇的数据对象相似性尽量大,而不同簇的数据对象相异性尽量大。

目前数据挖掘技术在商业、金融业等方面都得到了广泛的应用,而在教育领域的应用较少,随着高校招生规模的扩大,在校学生成绩分布越来越复杂,除了传统成绩分析得到的一些结论外,还有一些不易发现的信息隐含其中,因而把数据挖掘技术引入到学生成绩分析中,有利于针对性地提高教学质量。

本论文就是运用数据挖掘中的聚类分析学生成绩的,利用学生在选择专业前的各主要学科的成绩构成,对数据进行选择,预处理,挖掘分析等。

运用聚类算法分析学生对哪个专业的强弱选择,从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。

关键字:数据挖掘聚类分析学生成绩分析Abstract:Data mining is a process that in the vast amounts of data looking for patterns or rules. Data clustering is an important data mining technology for people to understand and explore the inherent relationship between things. Clustering is to partition data objects into different categories, or clusters, making the similarity with the clusters of data as large as possible. While the dissimilarity of different clusters of data as large as possible.Nowadays data mining technology is widely used in business and finance. But it is less used in education field. With the increase of enrollment in universities, there are more and more students in campus, and that makes it more and more complex in the distribution of students" records. Besides some conclusions from traditional record analysis, a lot of potential information cannot be founded. Importing the data mining technology to students" record analyzing makes it more convenient and improve the teaching quality. In this paper, clustering technique in data mining is used to students' performance analysis, the use of data structure of main subject before the students specialized in choice of mode, pretreatment and data mining. Using clustering technology to analyse which professional students are good at, so as to choose how to learn professional and give some reference opinions after students of different grades choose their majors.Keywords :Data Mining , Clustering Technology , Students' Achievement1.概述1.1背景随着我国经济的发展,网络已被应用到各个行业,人们对网络带来的高效率越来越重视,然而大量数据信息给人们带来方便的同时,也随之带来了许多新问题,大量数据资源的背后隐藏着许多重要的信息,人们希望能对其进行更深入的分析,以便更好地利用这些数据,从中找出潜在的规律。

基于K—means算法的学生综合测评成绩分析

基于K—means算法的学生综合测评成绩分析
设 分 析 为 主 。侧 重 于 理 论 知 识 .在 理 论 上 的 研 究 比较
多 .对 现实使用数据集 中出现 的数据特征 和 区别考 虑 得 比较 少I 6 j 。聚类分 析作为数 据挖掘 中的一种 重要技 术. 越来越广泛地应 用于数据库领域
评学生素质 。文献『 采用德育 、 1 1 专业 、 身体 、 心理 、 展 发 五个指 标评 价 , 文献『 3用思 想道 德素 质 、 2 1 智育 素 质 ( 知识 能力素质 )身心素质和发展能力素质 ( 、 文体 活动 活 动创新 素质 ) 指标进行测评 . 并将指标细分为多个 二 级指标 。测评采 用演化 算法l 模糊综合评价[ 多元 统 l l 、 4 1 、 计分 析法嘲 等得到有效权值 . 将数据项按权值求 和得 到 量化 的分数测评值 若遇推优 同分 冲突时 。 则以小数精
度 或 管理 者 的认 知 来 确 定 .这 些 量 化 评 定 方 法 不 能 深
11主 要 聚 类 算 法 .
聚类可 以通过数据库 中字段 属性的数据类型 和应 用聚类进行操作 的对象特点 等选择算 法 常见 的聚类 算法有 : 基于划 分的聚类算 法 、 于层次 的聚类 算法 、 基
() 4 重新 计算 每 个 ( 有变 化 ) 聚类 的 均值 ( 中心 对 象 )直至新平均值等于上次迭代 的平均值 , . 算法结束 。
作者简介 : 陈英 (9 7 ) 女 , 士 , 师 , 究 方 向 为数 据 挖 掘 、 生 管 理 17 一 , 硕 讲 研 学
0 现 计 机 211 代 算 0 . 11
S UN n Bi g

( o eeo f ma o, un dn ca n esy Z aj n 2 02 C l g f no t n G ago gO enU i ri , h ni g 5 4 2 ) l I r i v t a

K-means聚类算法的研究共3篇

K-means聚类算法的研究共3篇

K-means聚类算法的研究共3篇K-means聚类算法的研究1K-means聚类算法的研究聚类是数据挖掘和统计分析领域中非常重要的方法,它能够从大量的数据中抽象出有意义的类别。

K-means聚类算法是一个经典的聚类算法,它的思想简单而有效,广泛应用于数据分析、图像处理、生物信息学等领域。

本文将从算法原理、优缺点、应用及改进等方面进行研究和探讨。

一、算法原理K-means算法是一种基于距离的聚类算法,其基本原理是将数据点划分到k个不同的簇中,使得簇内的数据点尽可能相似,而簇间的数据点尽可能不同。

具体步骤如下:1. 随机选择k个中心点(centroid)作为初始的聚类中心。

2. 对于每个数据点,计算其到各个聚类中心的距离,并将其归类到距离最近的簇中。

3. 对于每个簇,重新计算其聚类中心,即为该簇内所有数据点的平均值。

4. 重复执行步骤2和3,直到聚类中心不再改变,或达到预设的迭代次数。

二、优缺点K-means算法具有以下优缺点:优点:1. 算法简单、易于实现和理解,计算速度快,适用于大规模数据。

2. 对于点密集的数据集,聚类效果较好。

3. 可以很好地处理凸型和球型簇。

缺点:1. K值需要事先确定,不确定时需要多次试验,计算量大。

2. 算法容易陷入局部最优解,结果不稳定,可能需要多次运行来得到最优解。

3. 对于噪声和离群点的敏感度较高。

三、应用K-means算法适用于以下数据挖掘任务:1. 分类问题:根据数据的属性特征将其划分到不同的组别,如客户分群、市场分析等。

2. 图像分割:将图像中的像素点划分到不同的区域,实现图像分割。

3. 地质勘探:对地面的物质进行分离和分类,例如岩性分类、照片过滤等。

4. 生物信息学:对基因序列进行聚类分析,以发现有共性的基因序列。

四、改进K-means算法有许多改进算法,尝试解决其缺点和不足,如以下算法:1. K-means++算法:改进了初始聚类中心的选择方法,使得聚类结果更加稳定和准确。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于k—means聚类算法的试卷成绩分析研究第39卷第4期2009年7月河南大学(自然科学版)JournalofHenanUniversity(NaturalScience)V o1.39NO.4Ju1.2009基于k—means聚类算法的试卷成绩分析研究谭庆'(洛阳师范学院信息技术学院,河南洛阳471022)摘要:研究_rk-means聚类算法,并将此算法应用于高校学生试卷成绩分析中.首先对数据进行了预处理,然后使用k-means算法,对学生试卷成绩进行分类评价.用所获得的结果指导学生的学习和今后的教学工作.关键词:数据挖掘;聚类;k-means算法;试卷成绩中圈分类号:TP311文献标志码:A文章编号:1003—4978(2009)04—0412—04 AnalysisandResearchofGradesofExaminationPaper BasedonK—meansClusteringAlgorithmTANQing(Acaderny.l,InformationTechnologY,LuoyangNormalUniversity,LuoyangHenan47102 2,China)Abstract:Thispaperresearcheslhekmeansclusteringalgorithmandappliesittotheanalysiso fthegradedataof examinationpaperofhighereducationschoolSstudents.Firstly,itpreprocessesthedatabefor eminingThen,itusesthek—meansalgorithmtoclusterstudentsgradesofexaminationpaperandgivesevaluation.Theobt ained knowledgecanbeappliedintoguidingthesludentsandteachersintreirstudyandteaching. Keywords:datamining;clustering;kmeansalgorithm;gradesofexaminationpaper0引言传统的数据分析方法是统计分析法,该方法只是对事实的验证,描述已经发生的事实,难以发现数据中存在的关系和规律,也难以根据现有的数据预测未来的发展趋势.由于它缺乏挖掘数据背后知识的手段,因而导致了"数据爆炸但知识贫乏"的现象.面对这一挑战,数据挖掘(DataMining,DM)l和知识发现(KnowledgeDiscoveryinDatabase,KDD)技术应运而生,并逐渐显示出了强大的生命力.在高校中,考试成绩是评估教学质量的重要依据』,也是评估学生是否掌握好所学知识的重要方式.试卷分析是考试过程的一个重要环节.聚类是深层次的数据信息分析方法,将聚类们技术应用于试卷成绩分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之问隐藏的内在联系【.1k—means聚类算法给定一个包含个数据对象的数据集,以及要生成的簇的数目是,一个划分类的算法将数据对象组织成k个划分(是≤),其中每个划分代表一个簇.通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对象是"相似的",而不同簇中的对象是"相异的".最着名且最常用的基于划分的方法是k—means算法.k—means算法的处理流程是:首先随机地选择k个对象,每个对象代表一个簇的初始均值或中心.对剩余的每个对象,根据其与各个簇均值的距离,将它指派到最相似的簇.然后计算每个簇的新均值.这个过程不断重复,直到准则函数收敛. 收稿日期:2008—123O基金项目:河南省科技攻关资助项F1(0524220059)作者简介:谭J灭(1977一),男,河南洛阳人,讲师,硕士.主要研究方向:数据挖掘和程』设计谭庆:基于kTmeans聚类算法的试卷成绩分析研究413通常k—means算法的准则函数采用平方误差准则,定义为:E一>:>:...,I一ml.(1)''一'— (i)其中E是数据集中所有对象的平方误差的总和,是给定的数据对象,m是簇c的平均值(p和m都是多维的).这个准则的作用是使生成的簇尽可能地紧凑和独立.对处理大型数据集而言,k—means算法是相对可伸缩的和高效的,因为算法的复杂度为0(ntk),并且是和t通常都远远小于.这里是数据对象的个数,k是簇的个数,t是迭代的次数.2基于k—means聚类算法的试卷成绩分析目前,在高校管理中,特别是对学生的试卷管理工作中,普遍存在的问题是学生试卷成绩数据量过于庞大,但目前对这些数据的处理还停留在初级的数据备份,查询及简单统计阶段.对于学生取得这些成绩的原因往往无法了解,使得这些数据还不能发挥它应有的作用.如何利用这些数据理性地分析教学中各方面的成效得失以及找到有关影响学生学习成绩的因素是广大教师们共同关心的问题. 聚类是深层次的数据信息分析方法.将聚类技术应用于对试卷成绩的分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之间隐藏的内在联系.通过聚类分析,其评价结果能给教学带来前所未有的收获和惊喜.本文着重讨论了k—means聚类算法在试卷成绩数据中的应用,得出一些有趣的知识,对教学质量的提高起到积极的促进作用,以此来帮助教学工作的顺利进行.学生试卷成绩的划分类别分析评价属于聚类数据挖掘.选用的模型是典型的划分方法k—means算法模型,无需高昂的代价收集和标记大量训练元组集或模式.首先,基于数据的相似性把数据集合划分成组,然后给这些数量相对较少的组指定标号.这种基于聚类的过程的另一个优点是可以适应变化,并且能够挑选出区分不同组的有用特征.2.1数据预处理数据的预处理是数据挖掘过程中一个非常重要的环节,一般需要占去挖掘过程中7O的工作量.经验表明,如果数据准备工作做得非常细致,在模型建立阶段就会节省大量的精力. 1)数据集成数据集成就是将来自多个数据源的数据合并到一起.本研究中,成绩数据库中包括了学生的平时作业成绩及课程的考试成绩.这个数据库由教师在教学过程中产生.将数据采集得到的多个数据库文件,利用数据库技术生成学生试卷成绩分析基本数据库.随机抽取一个年级学生的一学期的课程(如电路基础,离散数学,数据库,C语言程序设计,马克思主义哲学,英语和体育)的成绩,如表1所示. 为学生学号,k.为电路基础的成绩,k.为离散数学的成绩,k.为数据库的成绩,k为C 语言程序设计的成绩,走.为马克思主义哲学的成绩,为英语的成绩,k为体育的成绩.表1学生试卷成绩分析基本数据表Tab.1Basicdatasheetofanalysisofstudentsexaminationpapergrades2)数据清理数据清理的主要工作就是填补遗漏的数据值.在学生试卷成绩分析基本数据库及调查表中我们看b一∞踮‰一∞∞∞∞乜一∞够鹪一∞∞∞n∞踮盯∞∞∞一跗踞一%踮盯略∞一优良良良优良良及良及良123456789OlOOOOOOOOO11OOOOOOOOOOO444444444【lI【【llIII【【Il【__lIIll}}lI!}llOOOOOOOOOOO414河南大学(自然科学版),2009年,第39卷第4期到,有一些我们感兴趣的属性缺少属性值,对于这些空缺,可以使用数据清理技术来填补.有很多种方法可以为属性填写空缺值,比如:忽略元组,人工填写空缺值,使用一个全局常量填充空缺值等.在本例中,采用忽略元组的方法删除退学,休学,转学,没有参加考试或有大量的空缺项的学生的记录.对于其他个别空缺,因为总记录数不算太多,且空缺值较少,采用人工填充的方法处理.填充原则是使用该记录其他属性的平均值填充此空缺值.经过数据清理后,总记录数为146条.3)数据转换数据转换主要是对数据进行规格化操作,将数据变成统一的格式,以适合数据挖掘.在对学生试卷成绩进行聚类分析挖掘时,需要数值型数据,所以应把学生试卷成绩表的数据转换成数值型按通常的百分制表示.因为电路基础课程评的是等级分,所以将"优"转换为"90","良"转换为"80","中"转换为"70","及"转换为"6O","差"转换为"0".其他课程本身就使用百分制,无需再转换.接下来采用最小一最大规范化方法将百分制成绩规范化到[0,1]上.将表1转化为聚类算法便于处理的格式,如表2所示.表2聚类分析数据表Tab.2Datasheetofclusteringanalysis2.2k—means聚类算法的应用与结果分析本文实验环境是P42.4GHz,512MB内存,WindowsXP专业版操作系统.k—means 聚类算法在VisualC++6.0环境下用C++语言实现.将表2中总共146条记录作为k—means聚类分析的数据,给定聚类数为3.运行k—means算法程序后,将146条记录聚类成3簇,最后各簇均值数据如表3所示.表3各簇均值数据表Tab.3Datasheetofeveryclustersmean通过对实验结果的分析可以得出,簇1中的学生都是考试成绩较好的,簇2中的学生考试成绩较低,簇3中的学生考试成绩介于簇1和簇2之间.簇1中包含51条记录,占总数的35;簇2中包含34条记录,占总数的23;簇3中包含6】条记录,占总数的42%.也就是说,约有35的学生考试成绩较好,约有42的学生考试成绩中等,约有23的学生考试成绩较差.较差的学生比例有些高,在今后教学中,要更加关注簇2中的学生,帮助他们提高学习成绩.簇2均值中的k.值为0,说明电路基础课程得到最低分的学生都在此簇中.另外也说明电路基础课程评为等级分不够合理,这样最低等级分的学生k值都会为0.在今后的教学中,电路基础课程应采用百分制,这样才能更好地,比较精确地打分.簇1均值中的k.一是的值在3个簇的均值中都是最高的,但尼的值却是3个簇的均值中最低的.这说明簇1中的学生除体育外的其他课程成绩都较好,但体育成绩较差.在今后教学中,应注意督促那些成绩较好的学生上好体育课,多参加课外活动,多锻炼身体.谭庆:基于k—means聚类算法的试卷成绩分析研究4153结束语本文研究了k—means聚类算法,并将此算法应用于试卷成绩分析中.首先对数据进行了预处理,然后使用k—means算法,对学生试卷成绩进行划分类别分析评价.针对不同类别的学生,提出了相应的教学建议,指导学生的学习和今后的教学工作.参考文献:[1]uMFayyad,GPiatesky—Shapiro,PSmyth.Fromdataminingtoknowledgediscovery:Anoverviewqdvancesinknow ledgediscoveryanddatamining[R].Califonia:AAAI/MITPress,1996.[2]JainAK,MurtyMN,FlynnPJ.Dataclustering:Asurvey[J].ACMComput.Surv.,1999(31 ):264—323.[3]JinHanjun,WangXiaorong,WangYanlin,eta1.Studyandapplicationofgeneticalgorith mincomputertestconstruction[c]//ProceedingsofISCIT,2005[c].Beijing:BeijingUniversityofPostsandTelecommunica tionsPress,2005.[4]HanJiawei,MichelineKamber.数据挖掘概念与技术[M].2版.北京:机械工业出版社,2007.[5]马希荣,孙华志.数据挖掘技术在教学评价中的应用[J].计算机工程与应用,2003(19):5l一54.[6]MehmedKantardzic.数据挖掘——概念,模型,方法和算法[M].北京:清华大学出版社,2003.[7]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:水利水电出版社,2003.责任编辑:党兰学。

相关文档
最新文档