模式识别实验报告
实验一模式识别范文

实验一模式识别范文
模式识别是计算机科学领域一个研究内容,它的目的是识别永久存在
的模式,以实现有效的数据处理和决策。
它主要集中在分类机制和分类算
法上,并且对特征结构及分类的准确性进行测试以应用到实际需求中。
模式识别是处理大量信息的基础,是一些新的有用信息与其他类别信
息区分的过程。
它可以建模出特殊情况,并有效的对这些类别判断准确性。
模式识别也可以改善监督学习、无监督学习、半监督学习的模式学习和其
他机器学习中的性能。
模式识别有各种应用,比如计算机视觉、声音识别、语言识别、手写
识别、面部识别、自然语言处理等,它们都是基于模式识别技术实现的。
模式识别技术可以大大提升机器人的视觉系统,以实现更准确和更快速的
行为。
在安全管理、公共交通、智能制造和生物医学等领域中,模式识别
技术也有广泛的应用。
模式识别也有其缺点,比如分类算法的运算速度容易延迟,特征选取
也有可能不太准确。
因此要正确使用模式识别,需要为特征选取和算法进
行合理的优化,以保证正确的识别结果。
总之,模式识别是一项广泛应用的技术,它可以提高机器学习的精确度,在计算机视觉等各个领域中有着广泛的应用。
《模式识别》实验报告-贝叶斯分类

《模式识别》实验报告---最小错误率贝叶斯决策分类一、实验原理对于具有多个特征参数的样本(如本实验的iris 数据样本有4d =个参数),其正态分布的概率密度函数可定义为112211()exp ()()2(2)T d p π-⎧⎫=--∑-⎨⎬⎩⎭∑x x μx μ 式中,12,,,d x x x ⎡⎤⎣⎦=x 是d 维行向量,12,,,d μμμ⎡⎤⎣⎦=μ是d 维行向量,∑是d d ⨯维协方差矩阵,1-∑是∑的逆矩阵,∑是∑的行列式。
本实验我们采用最小错误率的贝叶斯决策,使用如下的函数作为判别函数()(|)(),1,2,3i i i g p P i ωω==x x (3个类别)其中()i P ω为类别i ω发生的先验概率,(|)i p ωx 为类别i ω的类条件概率密度函数。
由其判决规则,如果使()()i j g g >x x 对一切j i ≠成立,则将x 归为i ω类。
我们根据假设:类别i ω,i=1,2,……,N 的类条件概率密度函数(|)i p ωx ,i=1,2,……,N 服从正态分布,即有(|)i p ωx ~(,)i i N ∑μ,那么上式就可以写为1122()1()exp ()(),1,2,32(2)T i i dP g i ωπ-⎧⎫=-∑=⎨⎬⎩⎭∑x x -μx -μ对上式右端取对数,可得111()()()ln ()ln ln(2)222T i i i i dg P ωπ-=-∑+-∑-i i x x -μx -μ上式中的第二项与样本所属类别无关,将其从判别函数中消去,不会改变分类结果。
则判别函数()i g x 可简化为以下形式111()()()ln ()ln 22T i i i i g P ω-=-∑+-∑i i x x -μx -μ二、实验步骤(1)从Iris.txt 文件中读取估计参数用的样本,每一类样本抽出前40个,分别求其均值,公式如下11,2,3ii iii N ωωω∈==∑x μxclear% 原始数据导入iris = load('C:\MATLAB7\work\模式识别\iris.txt'); N=40;%每组取N=40个样本%求第一类样本均值 for i = 1:N for j = 1:4w1(i,j) = iris(i,j+1); end endsumx1 = sum(w1,1); for i=1:4meanx1(1,i)=sumx1(1,i)/N; end%求第二类样本均值 for i = 1:N for j = 1:4 w2(i,j) = iris(i+50,j+1);end endsumx2 = sum(w2,1); for i=1:4meanx2(1,i)=sumx2(1,i)/N; end%求第三类样本均值 for i = 1:N for j = 1:4w3(i,j) = iris(i+100,j+1); end endsumx3 = sum(w3,1); for i=1:4meanx3(1,i)=sumx3(1,i)/N; end(2)求每一类样本的协方差矩阵、逆矩阵1i -∑以及协方差矩阵的行列式i ∑, 协方差矩阵计算公式如下11()(),1,2,3,41i ii N i jklj j lk k l i x x j k N ωωσμμ==--=-∑其中lj x 代表i ω类的第l 个样本,第j 个特征值;ij ωμ代表i ω类的i N 个样品第j 个特征的平均值lk x 代表i ω类的第l 个样品,第k 个特征值;iw k μ代表i ω类的i N 个样品第k 个特征的平均值。
模式识别方PCA实验报告

模式识别作业《模式识别》大作业人脸识别方法一 ---- 基于PCA 和欧几里得距离判据的模板匹配分类器一、 理论知识1、主成分分析主成分分析是把多个特征映射为少数几个综合特征的一种统计分析方法。
在多特征的研究中,往往由于特征个数太多,且彼此之间存在着一定的相关性,因而使得所观测的数据在一定程度上有信息的重叠。
当特征较多时,在高维空间中研究样本的分布规律就更麻烦。
主成分分析采取一种降维的方法,找出几个综合因子来代表原来众多的特征,使这些综合因子尽可能地反映原来变量的信息,而且彼此之间互不相关,从而达到简化的目的。
主成分的表示相当于把原来的特征进行坐标变换(乘以一个变换矩阵),得到相关性较小(严格来说是零)的综合因子。
1.1 问题的提出一般来说,如果N 个样品中的每个样品有n 个特征12,,n x x x ,经过主成分分析,将它们综合成n 综合变量,即11111221221122221122n nn n n n n nn ny c x c x c x y c x c x c x y c x c x c x =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ij c 由下列原则决定:1、i y 和j y (i j ≠,i,j = 1,2,...n )相互独立;2、y 的排序原则是方差从大到小。
这样的综合指标因子分别是原变量的第1、第2、……、第n 个主分量,它们的方差依次递减。
1.2 主成分的导出我们观察上述方程组,用我们熟知的矩阵表示,设12n x x X x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦是一个n 维随机向量,12n y y Y y ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦是满足上式的新变量所构成的向量。
于是我们可以写成Y=CX,C 是一个正交矩阵,满足CC ’=I 。
坐标旋转是指新坐标轴相互正交,仍构成一个直角坐标系。
变换后的N 个点在1y 轴上有最大方差,而在n y 轴上有最小方差。
同时,注意上面第一条原则,由此我们要求i y 轴和j y 轴的协方差为零,那么要求T YY =Λ12n λλλ⎡⎤⎢⎥⎢⎥Λ=⎢⎥⎢⎥⎣⎦令T R XX =,则T T RC C =Λ经过上面式子的变换,我们得到以下n 个方程111111212112111221122111121211()0()0()0n n n n n n nn n r c r c r c r c r c r c r c r c r c λλλ-+++=+-++=+++-=1.3 主成分分析的结果我们要求解出C ,即解出上述齐次方程的非零解,要求ij c 的系数行列式为0。
模式识别专业实践报告(2篇)

第1篇一、实践背景与目的随着信息技术的飞速发展,模式识别技术在各个领域得到了广泛应用。
作为人工智能领域的一个重要分支,模式识别技术对于图像处理、语音识别、生物识别等领域的发展具有重要意义。
为了更好地理解和掌握模式识别技术,提高实际应用能力,我们组织了一次为期一个月的模式识别专业实践。
本次实践旨在通过实际操作,加深对模式识别理论知识的理解,提高解决实际问题的能力。
二、实践内容与过程1. 实践内容本次实践主要包括以下几个方面:(1)图像识别:利用深度学习算法进行图像分类、目标检测等。
(2)语音识别:实现语音信号处理、特征提取和识别。
(3)生物识别:研究指纹识别、人脸识别等生物特征识别技术。
(4)模式分类:运用机器学习算法进行数据分类和聚类。
2. 实践过程(1)理论学习:在实践开始前,我们首先对模式识别的基本理论进行了系统学习,包括图像处理、信号处理、机器学习等相关知识。
(2)项目准备:根据实践内容,我们选取了具有代表性的项目进行实践,如基于深度学习的图像识别、基于HMM的语音识别等。
(3)实验设计与实施:在导师的指导下,我们设计了实验方案,包括数据预处理、模型选择、参数调整等。
随后,我们使用Python、C++等编程语言进行实验编程,并对实验结果进行分析。
(4)问题分析与解决:在实验过程中,我们遇到了许多问题,如数据不足、模型效果不佳等。
通过查阅文献、请教导师和团队成员,我们逐步解决了这些问题。
三、实践成果与分析1. 图像识别我们使用卷积神经网络(CNN)对CIFAR-10数据集进行了图像分类实验。
实验结果表明,经过多次迭代优化,模型在测试集上的准确率达到89.5%,优于传统机器学习方法。
2. 语音识别我们采用HMM(隐马尔可夫模型)对TIMIT语音数据集进行了语音识别实验。
实验结果表明,经过特征提取和模型训练,模型在测试集上的词错误率(WER)为16.3%,达到了较好的识别效果。
3. 生物识别我们研究了指纹识别和人脸识别技术。
模式识别实习报告

一、实习背景随着科技的飞速发展,人工智能、机器学习等技术在各个领域得到了广泛应用。
模式识别作为人工智能的一个重要分支,具有广泛的应用前景。
为了更好地了解模式识别技术,提高自己的实践能力,我在2023年暑假期间参加了某科技有限公司的模式识别实习。
二、实习单位简介某科技有限公司是一家专注于人工智能、大数据、云计算等领域的科技创新型企业。
公司致力于为客户提供智能化的解决方案,业务涵盖智能识别、智能监控、智能分析等多个领域。
此次实习,我将在该公司模式识别部门进行实践学习。
三、实习内容1. 实习前期(1)了解模式识别的基本概念、原理和应用领域;(2)熟悉模式识别的相关算法,如神经网络、支持向量机、决策树等;(3)掌握Python编程语言,学会使用TensorFlow、Keras等深度学习框架。
2. 实习中期(1)参与实际项目,负责模式识别算法的设计与实现;(2)与团队成员协作,完成项目需求分析、算法优化和系统测试;(3)撰写项目报告,总结实习过程中的收获与不足。
3. 实习后期(1)总结实习期间的学习成果,撰写实习报告;(2)针对实习过程中遇到的问题,查找资料、请教同事,提高自己的解决问题的能力;(3)为后续实习工作做好充分准备。
四、实习收获与体会1. 理论与实践相结合通过实习,我深刻体会到理论与实践相结合的重要性。
在实习过程中,我将所学的模式识别理论知识运用到实际项目中,提高了自己的动手能力。
同时,通过解决实际问题,我更加深入地理解了模式识别算法的原理和应用。
2. 团队协作能力实习期间,我学会了与团队成员有效沟通、协作。
在项目中,我们共同面对挑战,分工合作,共同完成项目任务。
这使我认识到团队协作的重要性,为今后的工作打下了基础。
3. 解决问题的能力在实习过程中,我遇到了许多问题。
通过查阅资料、请教同事、独立思考等方式,我逐渐学会了如何分析问题、解决问题。
这种能力对我今后的学习和工作具有重要意义。
4. 深度学习框架的使用实习期间,我学会了使用TensorFlow、Keras等深度学习框架。
模式识别实习报告

实习报告一、实习背景及目的随着科技的飞速发展,模式识别技术在众多领域发挥着越来越重要的作用。
模式识别是指对数据进行分类、识别和解释的过程,其应用范围广泛,包括图像处理、语音识别、机器学习等。
为了更好地了解模式识别技术的原理及其在实际应用中的重要性,我参加了本次模式识别实习。
本次实习的主要目的是:1. 学习模式识别的基本原理和方法;2. 掌握模式识别技术在实际应用中的技巧;3. 提高自己的动手实践能力和团队协作能力。
二、实习内容及过程实习期间,我们团队共完成了四个模式识别项目,分别为:手写数字识别、图像分类、语音识别和机器学习。
下面我将分别介绍这四个项目的具体内容和过程。
1. 手写数字识别:手写数字识别是模式识别领域的一个经典项目。
我们使用了MNIST数据集,这是一个包含大量手写数字图片的数据集。
首先,我们对数据集进行预处理,包括归一化、数据清洗等。
然后,我们采用卷积神经网络(CNN)作为模型进行训练,并使用交叉验证法对模型进行评估。
最终,我们得到了一个识别准确率较高的模型。
2. 图像分类:图像分类是模式识别领域的另一个重要应用。
我们选择了CIFAR-10数据集,这是一个包含大量彩色图像的数据集。
与手写数字识别项目类似,我们先对数据集进行预处理,然后采用CNN进行训练。
在模型训练过程中,我们尝试了不同的优化算法和网络结构,以提高模型的性能。
最终,我们得到了一个识别准确率较高的模型。
3. 语音识别:语音识别是模式识别领域的又一项挑战。
我们使用了TIMIT数据集,这是一个包含大量语音样本的数据集。
首先,我们对语音样本进行预处理,包括特征提取、去噪等。
然后,我们采用循环神经网络(RNN)作为模型进行训练。
在模型训练过程中,我们尝试了不同的优化算法和网络结构。
最后,我们通过对模型进行评估,得到了一个较为可靠的语音识别系统。
4. 机器学习:机器学习是模式识别领域的基础。
我们使用了UCI数据集,这是一个包含多个数据集的数据集。
模式识别与智能信息处理实践实验报告

模式识别与智能信息处理实践实验报告
一、实验目的
本次实验的目的是:实现基于Matlab的模式识别与智能信息处理。
二、实验内容
1.对实验图片进行处理
根据实验要求,我们选取了两张图片,一张是原始图片,一张是锐化处理后的图片。
使用Matlab的imtool命令进行处理,实现对图片锐化、模糊处理、边缘检测、图像增强等功能。
2.基于模式识别算法进行图像分类
通过Matlab的k-means算法和PCA算法对实验图片进行图像分类,实现对图像数据特征提取,并将图像分类结果可视化。
3.使用智能信息处理技术处理实验数据
使用Matlab的BP网络算法,对实验图片进行处理,并实现实验数据的智能信息处理,以获得准确的分类结果。
三、实验结果
1.图片处理结果
2.图像分类结果
3.智能信息处理结果
四、总结
本次实验中,我们利用Matlab进行模式识别与智能信息处理的实践,实现了对图片的处理,图像分类,以及智能信息处理,从而获得准确的分
类结果。
中科大模式识别miniproject实验报告

模式识别miniproject实验报告一、算法介绍:本实验采用了SVM( Support Vector Machines)分类模型。
由于实际问题中很少线性可分,故本实验采用非线性SVM方法。
即通过一个适当的非线性映射ϕ(x) ,将数据由原始特征空间映射到一个新特征空间,然后在新空间中寻求最优(线性)判定面。
本实验选取的的核函数为RBF(径向基函数)中的高斯核函数,即k(x,y) = exp(-0.5*(norm(x-y)/s)^2)。
关于支持向量机的类型,本实验选取为二类分类算法,即svc_c。
算法方面,由于同时求解n个拉格朗日乘子涉及很多次迭代,计算开销太大,所以实验采用Sequential Minimal Optimization(SMO)算法,即每次只更新两个乘子,迭代获得最终解。
计算时,首先根据预先设定的规则,从所有样本中选出两个拉格朗日因子,然后保持其他拉格朗日乘子不变,更新所选样本对应的拉格朗日乘子,循环N次直到满足要求。
二、实验1、评价标准本实验采用正确率来作为评价指标,即。
2、整体试验方法及步骤(1)定义核函数的类型及相关参数;(2)构建两类训练样本:(考虑到实验程序运行时间问题,本实验只选用了testdata的第200至1200项共1000个作为训练样本)(3)训练支持向量机;(4)寻找支持向量;(5)测试输出;(6)计算评价指标,即正确率3、分类器训练算法的参数调整步骤(1)随机生成多个参数向量(解)(2)在目标函数上验证解的质量(3)根据解的质量由好到坏进行排序。
取出其中较好的一部分(例如一半)解,在这些解的每一个元素上加上一个随机数,从而得到一些新解(4)把新解和老解比较,取出最好的一部分,作为下一次迭代的初始解4、实验结果经实验,得到测试输出,将其第十一列,即样本类别与testdata 中的第十三列相比,即可得到正确率。
本实验将以上结果取于EXECL 中进行统计,部分结果截图如下。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验报告实验课程名称:模式识别:王宇班级:20110813 学号:2011081325注:1、每个实验中各项成绩按照5分制评定,实验成绩为各项总和2、平均成绩取各项实验平均成绩3、折合成绩按照教学大纲要求的百分比进行折合2014年6月实验一、图像的贝叶斯分类一、实验目的将模式识别方法与图像处理技术相结合,掌握利用最小错分概率贝叶斯分类器进行图像分类的基本方法,通过实验加深对基本概念的理解。
二、实验仪器设备及软件HP D538、MATLAB三、实验原理概念:阈值化分割算法是计算机视觉中的常用算法,对灰度图象的阈值分割就是先确定一个处于图像灰度取值围的灰度阈值,然后将图像中每个像素的灰度值与这个阈值相比较。
并根据比较的结果将对应的像素划分为两类,灰度值大于阈值的像素划分为一类,小于阈值的划分为另一类,等于阈值的可任意划分到两类中的任何一类。
最常用的模型可描述如下:假设图像由具有单峰灰度分布的目标和背景组成,处于目标和背景部相邻像素间的灰度值是高度相关的,但处于目标和背景交界处两边的像素灰度值有较大差别,此时,图像的灰度直方图基本上可看作是由分别对应于目标和背景的两个单峰直方图混合构成。
而且这两个分布应大小接近,且均值足够远,方差足够小,这种情况下直方图呈现较明显的双峰。
类似地,如果图像中包含多个单峰灰度目标,则直方图可能呈现较明显的多峰。
上述图像模型只是理想情况,有时图像中目标和背景的灰度值有部分交错。
这时如用全局阈值进行分割必然会产生一定的误差。
分割误差包括将目标分为背景和将背景分为目标两大类。
实际应用中应尽量减小错误分割的概率,常用的一种方法为选取最优阈值。
这里所谓的最优阈值,就是指能使误分割概率最小的分割阈值。
图像的直方图可以看成是对灰度值概率分布密度函数的一种近似。
如一幅图像中只包含目标和背景两类灰度区域,那么直方图所代表的灰度值概率密度函数可以表示为目标和背景两类灰度值概率密度函数的加权和。
如果概率密度函数形式已知,就有可能计算出使目标和背景两类误分割概率最小的最优阈值。
假设目标与背景两类像素值均服从正态分布且混有加性高斯噪声,上述分类问题可以使用模式识别中的最小错分概率贝叶斯分类器来解决。
以1p 与2p 分别表示目标与背景的灰度分布概率密度函数,1P 与2P 分别表示两类的先验概率,则图像的混合概率密度函数可用下式表示为1122()()()p x P p x P p x =+式中1p 和2p 分别为2121()21()x p x μσ--=2222()22()x p x μσ--=121P P +=1σ、2σ是针对背景和目标两类区域灰度均值1μ与2μ的标准差。
若假定目标的灰度较亮,其灰度均值为2μ,背景的灰度较暗,其灰度均值为1μ,因此有12μμ<现若规定一门限值T 对图像进行分割,势必会产生将目标划分为背景和将背景划分为目标这两类错误。
通过适当选择阈值T ,可令这两类错误概率为最小,则该阈值T 即为最佳阈值。
把目标错分为背景的概率可表示为12()()TE T p x dx -∞=⎰把背景错分为目标的概率可表示为21()()TE T p x dx +∞=⎰总的误差概率为2112()()()E T P E T PE T =+为求得使误差概率最小的阈值T ,可将()E T 对T 求导并令导数为零,可得1122()()P p T P p T =代换后,可得221212222111()()ln 22P T T P σμμσσσ---=- 此时,若设12σσσ==,则有2122121ln 2P T P μμσμμ⎛⎫+=+ ⎪-⎝⎭若还有12P P =的条件,则122T μμ+=这时的最优阈值就是两类区域灰度均值1μ与2μ的平均值。
上面的推导是针对图像灰度值服从正态分布时的情况,如果灰度值服从其它分布,依理也可求出最优阈值来。
一般情况下,在不清楚灰度值分布时,通常可假定灰度值服从正态分布。
在实际使用最优阈值进行分割的过程中,需要利用迭代算法来求得最优阈值。
设有一幅数字图像(,)f x y ,混有加性高斯噪声,可表示为(,)(,)(,)g x y f x y n x y =+此处假设图像上各点的噪声相互独立,且具有零均值,如果通过阈值分割将图像分为目标与背景两部分,则每一部分仍然有噪声点随机作用于其上,于是,目标1(,)g x y 和2(,)g x y 可表示为11(,)(,)(,)g x y f x y n x y =+ 22(,)(,)(,)g x y f x y n x y =+迭代过程中,会多次地对1(,)g x y 和2(,)g x y 求均值,则111{(,)}{(,)(,)}{(,)}E g x y E f x y n x y E f x y =+= 222{(,)}{(,)(,)}{(,)}E g x y E f x y n x y E f x y =+=可见,随着迭代次数的增加,目标和背景的平均灰度都趋向于真实值。
因此,用迭代算法求得的最佳阈值不受噪声干扰的影响。
四、实验步骤及程序 1、实验步骤(1)确定一个初始阈值0T ,0T 可取为min max02S S T +=式中,min S 和max S 为图像灰度的最小值和最大值。
(2)利用第k 次迭代得到的阈值将图像分为目标1R 和背景2R 两大区域,其中1{(,)|(,)}k R f x y f x y T =≥ 2{(,)|0(,)}k R f x y f x y T =<<(3)计算区域1R 和2R 的灰度均值1S 和2S 。
(4)计算新的阈值1k T +,其中1212k S S T ++=(5)如果1||k k T T +-小于允许的误差,则结束,否则1k k =+,转步骤(2)。
2、实验源程序I=imread('1.jpg'); Im=rgb2gray(I);subplot(121),imhist(Im);title('Ö±·½Í¼') ZMax=max(max(I)); ZMin=min(min(I)); TK=(ZMax+ZMin)/2; bCal=1; iSize=size(I); while (bCal) iForeground=0; iBackground=0; ForegroundSum=0; BackgroundSum=0; for i=1:iSize(1) for j=1:iSize(2) tmp=I(i,j); if (tmp>=TK)iForeground=iForeground+1;ForegroundSum=ForegroundSum+double(tmp); elseiBackground=iBackground+1;BackgroundSum=BackgroundSum+double(tmp); endendendZO=ForegroundSum/iForeground;ZB=BackgroundSum/iBackground;TKTmp=double((ZO+ZB)/2);if(TKTmp==TK)bCal=0;elseTK=TKTmp;endenddisp(strcat('µü´úºóµÄãÐÖµ£º',num2str(TK))); newI=im2bw(I,double(TK)/255);subplot(121),imshow(I)title('Ô-ͼÏñ')subplot(122),imshow(newI)title('·Ö¸îºóµÄͼÏñ')五、实验结果与分析1、实验结果直方图0100200原图像图1 原图像以及其灰度直方图原图像分割后的图像图2 原图像以及分割后图像2、实验结果分析迭代后的阈值:94.8064实验中将大于阈值的部分设置为目标,小于阈值的部分设置为背景,分割结果大体上满足要求。
实际过程中在利用迭代法求得最优阈值后,仍需进行一些人工调整才能将此阈值用于实验图像的分割,虽然这种方法利用了图像中所有像素点的信息,但当光照不均匀时,图像中部分区域的灰度值可能差距较大,造成计算出的最优阈值分割效果不理想。
具体的改进措施分为以下两方面:一方面,在选取图片时,该图片的两个独立的峰值不够明显,因此在分割后产生误差,应改进选择的图片的背景和物体的对比度,使得分割的效果更好;另一方面,实验程序中未涉及计算最优阈值时的迭代次数,无法直观的检测,应在实验程序中加入此项,便于分析。
实验二、K 均值聚类算法一、实验目的将模式识别方法与图像处理技术相结合,掌握利用K 均值聚类算法进行图像分类的基本方法,通过实验加深对基本概念的理解。
二、实验仪器设备及软件 HP D538、MATLAB 、WIT 三、实验原理K 均值聚类法分为三个步骤: 初始化聚类中心1、根据具体问题,凭经验从样本集中选出C 个比较合适的样本作为初始聚类中心。
2、用前C 个样本作为初始聚类中心。
3、将全部样本随机地分成C 类,计算每类的样本均值,将样本均值作为初始聚类中心。
初始聚类1、按就近原则将样本归入各聚类中心所代表的类中。
2、取一样本,将其归入与其最近的聚类中心的那一类中,重新计算样本均值,更新聚类中心。
然后取下一样本,重复操作,直至所有样本归入相应类中。
判断聚类是否合理1、采用误差平方和准则函数判断聚类是否合理,不合理则修改分类。
循环进行判断、修改直至达到算法终止条件。
2、聚类准则函数误差平方和准则函数(最小平方差划分)∑∑=Γ∈-=ci x i im x J 12e∑Γ∈=ix ii x N m 13、单样本改进:每调整一个样本的类别就重新计算一次聚类的中心(){(){}22min 1k m x k m x d ljli jji -=-=i=1,2,...c 只调整一个样本四、实验步骤及程序 1、实验步骤理解K 均值算法基本原理,编写程序实现对自选图像的分类,并将所得结果与WIT 处理结果进行对比。
K 均值算法步骤:1、给定类别数C 和允许误差m ax E ,1←k2、初始化聚类中心()c i k m i ,...,2,1,=3、修正(){(){}22min 1k m x k m x d i jii jji -=-=0其他 i=1,2,......,c;j=1,2,...N4、修正聚类中心()∑∑===+Nj jiNj jjii dx dk m 1115、计算误差()()∑=-+=ci i i k m k m e 121如果max E e 则结束,否则转(3)2、实验源程序clc clear ticRGB= imread ('Water lilies.jpg'); %¶ÁÈëÏñ img=rgb2gray(RGB); [m,n]=size(img);subplot(2,2,1),imshow(img);title(' ͼһ Ô-ͼÏñ')subplot(2,2,2),imhist(img);title(' ͼ¶þ Ô-ͼÏñµÄ»Ò¶ÈÖ±·½Í¼') hold off ; img=double(img); for i=1:200 c1(1)=25; c2(1)=125;c3(1)=200;%Ñ¡ÔñÈý¸ö³õʼ¾ÛÀàÖÐÐÄ r=abs(img-c1(i)); g=abs(img-c2(i));b=abs(img-c3(i));%¼ÆËã¸÷ÏñËØ»Ò¶ÈÓë¾ÛÀàÖÐÐĵľàÀë r_g=r-g;g_b=g-b;r_b=r-b;n_r=find(r_g<=0&r_b<=0);%ѰÕÒ×îСµÄ¾ÛÀàÖÐÐÄn_g=find(r_g>0&g_b<=0);%ѰÕÒÖмäµÄÒ»¸ö¾ÛÀàÖÐÐÄn_b=find(g_b>0&r_b>0);%ѰÕÒ×î´óµÄ¾ÛÀàÖÐÐÄi=i+1;c1(i)=sum(img(n_r))/length(n_r);%½«ËùÓеͻҶÈÇóºÍȡƽ¾ù£¬×÷ΪÏÂÒ»¸öµÍ»Ò¶ÈÖÐÐÄc2(i)=sum(img(n_g))/length(n_g);%½«ËùÓеͻҶÈÇóºÍȡƽ¾ù£¬×÷ΪÏÂÒ»¸öÖмä»Ò¶ÈÖÐÐÄc3(i)=sum(img(n_b))/length(n_b);%½«ËùÓеͻҶÈÇóºÍȡƽ¾ù£¬×÷ΪÏÂÒ»¸ö¸ß»Ò¶ÈÖÐÐÄd1(i)=abs(c1(i)-c1(i-1));d2(i)=abs(c2(i)-c2(i-1));d3(i)=abs(c3(i)-c3(i-1));if d1(i)<=0.001&&d2(i)<=0.001&&d3(i)<=0.001R=c1(i);G=c2(i);B=c3(i);k=i;break;endendRGBimg=uint8(img);img(find(img<R))=0;img(find(img>R&img<G))=128;img(find(img>G))=255;tocsubplot(2,2,3),imshow(img);title(' ͼÈý¾ÛÀàºóµÄͼÏñ')subplot(2,2,4),imhist(img);title(' ͼËľÛÀàºóµÄͼÏñÖ±·½Í¼')五、实验结果与分析1.WIT结果图3 WIT聚类分析系统分析界面图4 WIT聚类分析系统分析结果聚类类别数3聚类中心R=18.8709 G=93.3122 B=190.678迭代次数256运行时间60.159ms2、K均值聚类结果图一 原图像2000400060008000 图二 原图像的灰度直方图100200图三 聚类后的图像04 图四 聚类后的图像直方图0100200图5 K 均值聚类分析结果 聚类类别数 3聚类中心 R =19.9483 G =94.4184 B =192.3320 迭代次数 8运行时间 2.278493 seconds小结:K 均值聚类方法和WIT 系统操作后对应的聚类中心误差较小,分别是19.9483 94.4184 192.3320和 18.8709 93.3122 190.678。