《模式识别》实验报告-贝叶斯分类

合集下载

模式识别实验一

模式识别实验一

, n 是 n 维均值
向 量 , C i 是 n n 协 方 差 矩 阵 ; Ci 为 矩 阵 Ci 的 行 列 式 。 且 i Ei x ,
Ci Ei

x
i
x
i , Ei x 表示对类别属于 i 的模式作数学期望运算。
T
因此判别函数可表示为 J i ( x) P( x | i ) P(i ) 对判别函数取自然对数
1 1 J i ( x) ( x i ) Ci1 ( x i ) ln P(i ) ln Ci 2 2
然后根据(1)中所述最大后验准则判断样本所属类别。 三、实验过程 实验数据: IRIS 数据集 实验假设: 各类数据服从正态分布 实验方法: 最大后验概率 实验环境: MATLAB 2010b (1)数据导入
A , B 可设置每种类型的先验概率 P A , P B 。针对某一训练数据 x 计
算其判别函数 J A x , J B x ,比较两个值的大小,哪个最大,就可判断该数据 属于哪一类。最后统计分类器判决结果,设置矩阵存储被错误分类的数据,统计 A,B 两类测试数据的误判数,计算误判率。 %---------分类器测试----------% %选择分类组(w1,w2)(w1,w3)(w2,w3) %test = 1代表(w1,w2)分类 %test = 2代表(w1,w3)分类 %test = 3代表(w2,w3)分类 test = 1; if test==1 avr_A = avr_w1';var_A = var_w1'; avr_B = avr_w2';var_B = var_w2'; %合并待测数据 data_test = [data_test_w1;data_test_w2]; end if test==2 avr_A = avr_w1';var_A = var_w1'; avr_B = avr_w3';var_B = var_w3'; %合并待测数据 data_test = [data_test_w1;data_test_w3]; end if test==3 avr_A = avr_w2';var_A = var_w2'; avr_B = avr_w3';var_B = var_w3'; %合并待测数据 data_test = [data_test_w2;data_test_w3]; end %s设置先验概率 P_wA = 1/2; P_wB = 1/2;

模式识别实验报告

模式识别实验报告

模式识别实验报告————————————————————————————————作者:————————————————————————————————日期:实验报告实验课程名称:模式识别姓名:王宇班级: 20110813 学号: 2011081325实验名称规范程度原理叙述实验过程实验结果实验成绩图像的贝叶斯分类K均值聚类算法神经网络模式识别平均成绩折合成绩注:1、每个实验中各项成绩按照5分制评定,实验成绩为各项总和2、平均成绩取各项实验平均成绩3、折合成绩按照教学大纲要求的百分比进行折合2014年 6月实验一、 图像的贝叶斯分类一、实验目的将模式识别方法与图像处理技术相结合,掌握利用最小错分概率贝叶斯分类器进行图像分类的基本方法,通过实验加深对基本概念的理解。

二、实验仪器设备及软件 HP D538、MATLAB 三、实验原理 概念:阈值化分割算法是计算机视觉中的常用算法,对灰度图象的阈值分割就是先确定一个处于图像灰度取值范围内的灰度阈值,然后将图像中每个像素的灰度值与这个阈值相比较。

并根据比较的结果将对应的像素划分为两类,灰度值大于阈值的像素划分为一类,小于阈值的划分为另一类,等于阈值的可任意划分到两类中的任何一类。

最常用的模型可描述如下:假设图像由具有单峰灰度分布的目标和背景组成,处于目标和背景内部相邻像素间的灰度值是高度相关的,但处于目标和背景交界处两边的像素灰度值有较大差别,此时,图像的灰度直方图基本上可看作是由分别对应于目标和背景的两个单峰直方图混合构成。

而且这两个分布应大小接近,且均值足够远,方差足够小,这种情况下直方图呈现较明显的双峰。

类似地,如果图像中包含多个单峰灰度目标,则直方图可能呈现较明显的多峰。

上述图像模型只是理想情况,有时图像中目标和背景的灰度值有部分交错。

这时如用全局阈值进行分割必然会产生一定的误差。

分割误差包括将目标分为背景和将背景分为目标两大类。

实际应用中应尽量减小错误分割的概率,常用的一种方法为选取最优阈值。

《模式识别》实验报告-贝叶斯分类

《模式识别》实验报告-贝叶斯分类

《模式识别》实验报告---最小错误率贝叶斯决策分类一、实验原理对于具有多个特征参数的样本(如本实验的iris 数据样本有4d =个参数),其正态分布的概率密度函数可定义为112211()exp ()()2(2)T d p π-⎧⎫=--∑-⎨⎬⎩⎭∑x x μx μ 式中,12,,,d x x x ⎡⎤⎣⎦=x 是d 维行向量,12,,,d μμμ⎡⎤⎣⎦=μ是d 维行向量,∑是d d ⨯维协方差矩阵,1-∑是∑的逆矩阵,∑是∑的行列式。

本实验我们采用最小错误率的贝叶斯决策,使用如下的函数作为判别函数()(|)(),1,2,3i i i g p P i ωω==x x (3个类别)其中()i P ω为类别i ω发生的先验概率,(|)i p ωx 为类别i ω的类条件概率密度函数。

由其判决规则,如果使()()i j g g >x x 对一切j i ≠成立,则将x 归为i ω类。

我们根据假设:类别i ω,i=1,2,……,N 的类条件概率密度函数(|)i p ωx ,i=1,2,……,N 服从正态分布,即有(|)i p ωx ~(,)i i N ∑μ,那么上式就可以写为1122()1()exp ()(),1,2,32(2)T i i dP g i ωπ-⎧⎫=-∑=⎨⎬⎩⎭∑x x -μx -μ对上式右端取对数,可得111()()()ln ()ln ln(2)222T i i i i dg P ωπ-=-∑+-∑-i i x x -μx -μ上式中的第二项与样本所属类别无关,将其从判别函数中消去,不会改变分类结果。

则判别函数()i g x 可简化为以下形式111()()()ln ()ln 22T i i i i g P ω-=-∑+-∑i i x x -μx -μ二、实验步骤(1)从Iris.txt 文件中读取估计参数用的样本,每一类样本抽出前40个,分别求其均值,公式如下11,2,3ii iii N ωωω∈==∑x μxclear% 原始数据导入iris = load('C:\MATLAB7\work\模式识别\iris.txt'); N=40;%每组取N=40个样本%求第一类样本均值 for i = 1:N for j = 1:4w1(i,j) = iris(i,j+1); end endsumx1 = sum(w1,1); for i=1:4meanx1(1,i)=sumx1(1,i)/N; end%求第二类样本均值 for i = 1:N for j = 1:4 w2(i,j) = iris(i+50,j+1);end endsumx2 = sum(w2,1); for i=1:4meanx2(1,i)=sumx2(1,i)/N; end%求第三类样本均值 for i = 1:N for j = 1:4w3(i,j) = iris(i+100,j+1); end endsumx3 = sum(w3,1); for i=1:4meanx3(1,i)=sumx3(1,i)/N; end(2)求每一类样本的协方差矩阵、逆矩阵1i -∑以及协方差矩阵的行列式i ∑, 协方差矩阵计算公式如下11()(),1,2,3,41i ii N i jklj j lk k l i x x j k N ωωσμμ==--=-∑其中lj x 代表i ω类的第l 个样本,第j 个特征值;ij ωμ代表i ω类的i N 个样品第j 个特征的平均值lk x 代表i ω类的第l 个样品,第k 个特征值;iw k μ代表i ω类的i N 个样品第k 个特征的平均值。

模式识别实验报告贝叶斯分类器

模式识别实验报告贝叶斯分类器

模式识别理论与方法
课程作业实验报告
实验名称:Generating Pattern Classes
实验编号:Proj02-01
规定提交日期:2012年3月30日
实际提交日期:2012年3月24日
摘要:
在熟悉贝叶斯分类器基本原理基础上,通过对比分类特征向量维数差异而导致分类正确率发生的变化,验证了“增加特征向量维数,可以改善分类结果”。

对于类数的先验概率已知、且无须考虑代价函数的情况,贝叶斯分类器相当简单:“跟谁亲近些,就归属哪一类”。

技术论述:
1,贝叶斯分类器基本原理:多数占优,错误率最小,风险最低
在两类中,当先验概率相等时,贝叶斯分类器可以简化如下:
2,增加有效分类特征分量,可以有助于改善分类效果
实验结果讨论:
从实验的过程和结果来看,进一步熟悉了贝叶斯分类器的原理和使用,基本达到了预期目的。

实验结果:
图1 原始数据
图2 按第1 个特征分量分类结果
图3 按第2 个特征分量分类结果
图4 综合两个特征分量分类结果附录:(程序清单,参见压缩包)
%在Matlab 版本2009a 下运行通过。

模式识别报告

模式识别报告

标签比例信息最重要的应用:在 non-full bag 情况下,利用比例 信息,可以减少分配的种数。例如有 C 个标签,以及与其对应的有 个未被标记的样本,如果没有标签比例,那么可能分配的种类数有
C
mi
个, 分配后的标签比例也有很多种; 但是如果提前知道标签比例,
那么只有满足标签比例的分配情况才是有效的。如果用
包 Bi 中的样本属于不同的类(
个样本的类标签是未知的,这种包叫做非全包(non-full bags ) , Non-full bag 的情况增加了分类时的不确定性,当标签是均匀分布 时,non-full bag B i 的不确定度更高, 之间的差异最小。
三、贝叶斯网络分类器
在出现数据丢失时,结构期望最大化策略(Structural EM )提 供了一个合适的框架来学习贝叶斯网络。 它包括网络结构和模型参数 的学习。 贝叶斯网络是一种概率网络,它是基于概率推理的图形化网络, 而贝叶斯公式则是这个概率网络的基础。 贝叶斯网络是基于概率推理 的数学模型,所谓概率推理就是通过一些变量的信息来获取其他的概 率信息的过程,基于概率推理的贝叶斯网络(Bayesian network)是为 了解决不定性和不完整性问题而提出的, 它对于解决复杂设备不确定 性和关联性引起的故障有很的优势,在多个领域中获得广泛应用。 贝叶斯网络的建造是一个复杂的任务, 需要知识工程师和领域专 家的参与。在实际中可能是反复交叉进行而不断完善的。 面向设备故 障诊断应用的贝叶斯网络的建造所需要的信息来自多种渠道, 如设备 手册,生产过程,测试过程,维修资料以及专家经验等。首先将设备 故障分为各个相互独立且完全包含的类别 (各故障类别至少应该具有 可以区分的界限) ,然后对各个故障类别分别建造贝叶斯网络模型, 需要注意的是诊断模型只在发生故障时启动, 因此无需对设备正常状 态建模。 通常设备故障由一个或几个原因造成的, 这些原因又可能由 一个或几个更低层次的原因造成。建立起网络的节点关系后,还需要 进行概率估计。 具体方法是假设在某故障原因出现的情况下,估计该 故障原因的各个节点的条件概率, 这种局部化概率估计的方法可以大 大提高效率。

模式识别实验最小错误率下的贝叶斯决策

模式识别实验最小错误率下的贝叶斯决策

《模式识别》实验报告题目:最小错误率贝叶斯决策一、实验内容1,实验原理2,实验步骤1)从iris.txt 文件(课程邮箱-文件中心)中读取估计参数用的样本,每一类样本抽出前40个,分别求其均值;(2)求每类样本的协方差矩阵、逆矩阵以及协方差矩阵的行列式;(3)对三个类别,分别取每组剩下的 10个样本,每两组进行分类。

由于每类样本都相等,且每类选取用作训练的样本也相等,在每两组进行分类时,待分类样本的类先验概率为0.5。

将各个样本代入判别函数既公式(5),进行分类。

3,实验要求(1)复习最小错误率贝叶斯决策原理,写出实验代码,实现对三类样本的分类;(2)计算分类的正确率,画出三维空间的样本分类图;(3)分析实验结果,完成实验报告。

二、实验代码(1),clear% 原始数据导入iris=load('iris.txt');N=40;%每组取N=40个样本%求第一类样本均值for i = 1:Nfor j = 1:4w1(i,j) = iris(i,j+1);endendsumx1 = sum(w1,1);for i=1:4meanx1(1,i)=sumx1(1,i)/N;end%求第二类样本均值for i = 1:Nfor j = 1:4w2(i,j) = iris(i+50,j+1);endendsumx2 = sum(w2,1);for i=1:4meanx2(1,i)=sumx2(1,i)/N;end%求第三类样本均值for i = 1:Nfor j = 1:4w3(i,j) = iris(i+100,j+1);endendsumx3 = sum(w3,1);for i=1:4meanx3(1,i)=sumx3(1,i)/N;end(2),%求第一类样本协方差矩阵z1(4,4) = 0;var1(4,4) = 0;for i=1:4for j=1:4for k=1:Nz1(i,j)=z1(i,j)+(w1(k,i)-meanx1(1,i))*(w1(k,j)-meanx1(1,j)); endvar1(i,j) = z1(i,j) / (N-1);endend%求第二类样本协方差矩阵z2(4,4) = 0 ;var2(4,4) = 0;for i=1:4for j=1:4for k=1:Nz2(i,j)=z2(i,j)+(w2(k,i)-meanx2(1,i))*(w2(k,j)-meanx2(1,j)); endar2(i,j) = z2(i,j) / (N-1);endend%求第三类样本协方差矩阵z3(4,4) = 0 ;var3(4,4) = 0;for i=1:4for j=1:4for k=1:Nz3(i,j)=z3(i,j)+(w3(k,i)-meanx3(1,i))*(w3(k,j)-meanx3(1,j));endvar3(i,j) = z3(i,j) /( N-1);endend%求各类的协方差矩阵逆矩阵及行列式var1_inv = [];var1_det = [];var2_inv = [];var2_det = [];var3_inv = [];var3_det = [];var1_inv = inv(var1);var2_inv = inv(var2);var3_inv = inv(var3);var1_det = det(var1);var2_det = det(var2);var3_det = det(var3);(3),M=10;for i = 1:Mfor j = 1:4test(i,j) = iris(i+50,j+1); % 取测试数据endendt1=0;t2=0;t3=0;for i = 1:Mx=test(i,1);y=test(i,2);z=test(i,3);h=test(i,4);g1 = (-0.5)*([x,y,z,h]-meanx1)*var1_inv*([x,y,z,h]'-meanx1') - 0.5*log(abs(var1_det)) +log(0.5); % p1g2 = (-0.5)*([x,y,z,h]-meanx2)*var2_inv*([x,y,z,h]'-meanx2') - 0.5*log(abs(var2_det)) +log(0.5); % p2if g1>g2t1=t1+1; %若g1>g2,则属于第一类,否则属于第二类,并统计属于每一类的个数elset2=t2+1;endend三、实验结果(1)第一类样本均值:5.0375 3.4525 1.46 0.235第二类样本均值:6.01 2.78 4.3175 1.35第三类样本均值:6.6225 2.96 5.6075 1.99(2)每类样本的协方差矩阵、逆矩阵以及协方差矩阵的行列式第一类样本的协方差矩阵:0.131121794871795 0.0972115384615384 0.0133333333333333 0.01326923076923080.0972115384615384 0.130250000000000 0.00215384615384614 0.01196153846153850.0133333333333333 0.00215384615384614 0.0296410256410257 0.005025641025641030.0132692307692308 0.0119615384615385 0.00502564102564103 0.00951282051282051逆矩阵:18.8146188042527 -13.3847352886752 -6.47453636800065 -5.99346924772421 -13.3847352886752 18.2504706645718 5.95329943788004 -7.42342518317483-6.47453636800065 5.95329943788004 39.4922929094642 -19.3184124732768-5.99346924772421 -7.42342518317483 -19.3184124732768 133.021*********协方差矩阵的行列式:1.56318133831812e-06第二类样本的协方差矩阵:0 0 0 00 0 0 00 0 0 00 0 0 0逆矩阵:Inf Inf Inf InfInf Inf Inf InfInf Inf Inf InfInf Inf Inf Inf协方差矩阵的行列式:0第三类样本的协方差矩阵:0.467942307692308 0.110410256410256 0.357775********* 0.0512564102564103 0.110410256410256 0.113230769230769 0.0810769230769231 0.0462564102564103 0.357775********* 0.0810769230769231 0.345326923076923 0.0593076923076923 0.0512564102564103 0.0462564102564103 0.0593076923076923 0.0742564102564103 逆矩阵:12.0677437364511 -4.88916379648501 -12.1082128512238 4.38637019494952 -4.88916379648501 14.8211423555543 3.00369869101398 -8.25671873361937 -12.1082128512238 3.00369869101398 15.7866851329687 -6.12187764556262 4.38637019494952 -8.25671873361937 -6.12187764556262 20.4719162879598 协方差矩阵的行列式:0.000142786635162081(3)各类样本代入公式分类得:第一类样本:5.11375000000000 3.79125000000000 0.520000000000000 0.517500000000000 3.79125000000000 5.07975000000000 0.0839999999999996 0.466500000000000 0.520000000000000 0.0839999999999996 1.15600000000000 0.196000000000000 0.517500000000000 0.466500000000000 0.196000000000000 0.371000000000000 第二类样本:10.6760000000000 3.37800000000000 6.71300000000000 2.04000000000000 3.37800000000000 4.32400000000000 3.15400000000000 1.77000000000000 6.71300000000000 3.15400000000000 7.93775000000000 2.87500000000000 2.04000000000000 1.77000000000000 2.87500000000000 1.68000000000000 第三类样本:18.2497500000000 4.30600000000000 13.9532500000000 1.99900000000000 4.30600000000000 4.41600000000000 3.16200000000000 1.80400000000000 13.9532500000000 3.16200000000000 13.4677500000000 2.31300000000000 1.99900000000000 1.80400000000000 2.31300000000000 2.89600000000000三维空间分类图:四实验心得首先感谢老师给予我们这次试验的机会,通过这次试验,我更深入了解了最小错误率贝叶斯决策原理,通过计算期望,可以对现实问题进行数学计算,从而获得最优解。

《模式识别》实验报告-贝叶斯分类

《模式识别》实验报告-贝叶斯分类

《模式识别》实验报告-贝叶斯分类一、实验目的通过使用贝叶斯分类算法,实现对数据集中的样本进行分类的准确率评估,熟悉并掌握贝叶斯分类算法的实现过程,以及对结果的解释。

二、实验原理1.先验概率先验概率指在不考虑其他变量的情况下,某个事件的概率分布。

在贝叶斯分类中,需要先知道每个类别的先验概率,例如:A类占总样本的40%,B类占总样本的60%。

2.条件概率后验概率指在已知先验概率和条件概率下,某个事件发生的概率分布。

在贝叶斯分类中,需要计算每个样本在各特征值下的后验概率,即属于某个类别的概率。

4.贝叶斯公式贝叶斯公式就是计算后验概率的公式,它是由条件概率和先验概率推导而来的。

5.贝叶斯分类器贝叶斯分类器是一种基于贝叶斯定理实现的分类器,可以用于在多个类别的情况下分类,是一种常用的分类方法。

具体实现过程为:首先,使用训练数据计算各个类别的先验概率和各特征值下的条件概率。

然后,将测试数据的各特征值代入条件概率公式中,计算出各个类别的后验概率。

最后,取后验概率最大的类别作为测试数据的分类结果。

三、实验步骤1.数据集准备本次实验使用的是Iris数据集,数据包含150个Iris鸢尾花的样本,分为三个类别:Setosa、Versicolour和Virginica,每个样本有四个特征值:花萼长度、花萼宽度、花瓣长度、花瓣宽度。

2.数据集划分将数据集按7:3的比例分为训练集和测试集,其中训练集共105个样本,测试集共45个样本。

计算三个类别的先验概率,即Setosa、Versicolour和Virginica类别在训练集中出现的频率。

对于每个特征值,根据训练集中每个类别所占的样本数量,计算每个类别在该特征值下出现的频率,作为条件概率。

5.测试数据分类将测试集中的每个样本的四个特征值代入条件概率公式中,计算出各个类别的后验概率,最后将后验概率最大的类别作为该测试样本的分类结果。

6.分类结果评估将测试集分类结果与实际类别进行比较,计算分类准确率和混淆矩阵。

模式识别实习报告

模式识别实习报告

一、贝叶斯估计做分类【问题描述】实习题目一:用贝叶斯估计做分类。

问题描述:给出试验区裸土加水田的tif图像,要求通过贝叶斯估计算法对房屋、水田及植被进行分类。

问题分析:首先通过目视解译法对图像进行分类,获取裸土、水田和植被的DN值,在此基础上,通过该部分各个类别的面积计算先验概率,然后带入公式进行计算,从而对整个图像进行分类。

【模型方法】与分布有关的统计分类方法主要有最大似然/ 贝叶斯分类。

最大似然分类是图像处理中最常用的一种监督分类方法,它利用了遥感数据的统计特征,假定各类的分布函数为正态分布,在多变量空间中形成椭圆或椭球分布,也就是和中个方向上散布情况不同,按正态分布规律用最大似然判别规则进行判决,得到较高准确率的分类结果。

否则,用平行六面体或最小距离分类效果会更好。

【方案设计】①确定需要分类的地区和使用的波段和特征分类数,检查所用各波段或特征分量是否相互已经位置配准;②根据已掌握的典型地区的地面情况,在图像上选择训练区;③计算参数,根据选出的各类训练区的图像数据,计算和确定先验概率;④分类,将训练区以外的图像像元逐个逐类代入公式,对于每个像元,分几类就计算几次,最后比较大小,选择最大值得出类别;⑤产生分类图,给每一类别规定一个值,如果分10 类,就定每一类分别为1 ,2 ……10 ,分类后的像元值便用类别值代替,最后得到的分类图像就是专题图像. 由于最大灰阶值等于类别数,在监视器上显示时需要给各类加上不同的彩色;⑥检验结果,如果分类中错误较多,需要重新选择训练区再作以上各步,直到结果满意为止。

【结果讨论】如图所示,通过贝叶斯算法,较好地对图像完成了分类,裸土、植被和水田三个类别清晰地判别出来。

在计算先验概率时,选择何种数据成为困扰我的一个问题。

既有ENVI自身提供的精确的先验概率值,也可以自己通过计算各个类别的面积,从而获取大致的先验概率值。

最后,在田老师的讲解下,我知道了虽然数据可能不太精确,但是,计算先验概率时,总体的倾向是一致的,所以在最后判别时,因此而引起的误差是微乎其微的,所以,一定要弄清楚算法原理,才能让自己的每一步工作都有理可循。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《模式识别》实验报告---最小错误率贝叶斯决策分类一、实验原理对于具有多个特征参数的样本(如本实验的iris 数据样本有4d =个参数),其正态分布的概率密度函数可定义为112211()exp ()()2(2)T d p π-⎧⎫=--∑-⎨⎬⎩⎭∑x x μx μ 式中,12,,,d x x x ⎡⎤⎣⎦=x 是d 维行向量,12,,,d μμμ⎡⎤⎣⎦=μ是d 维行向量,∑是d d ⨯维协方差矩阵,1-∑是∑的逆矩阵,∑是∑的行列式。

本实验我们采用最小错误率的贝叶斯决策,使用如下的函数作为判别函数()(|)(),1,2,3i i i g p P i ωω==x x (3个类别)其中()i P ω为类别i ω发生的先验概率,(|)i p ωx 为类别i ω的类条件概率密度函数。

由其判决规则,如果使()()i j g g >x x 对一切j i ≠成立,则将x 归为i ω类。

我们根据假设:类别i ω,i=1,2,……,N 的类条件概率密度函数(|)i p ωx ,i=1,2,……,N 服从正态分布,即有(|)i p ωx ~(,)i i N ∑μ,那么上式就可以写为1122()1()exp ()(),1,2,32(2)T i i dP g i ωπ-⎧⎫=-∑=⎨⎬⎩⎭∑x x -μx -μ对上式右端取对数,可得111()()()ln ()ln ln(2)222T i i i i dg P ωπ-=-∑+-∑-i i x x -μx -μ上式中的第二项与样本所属类别无关,将其从判别函数中消去,不会改变分类结果。

则判别函数()i g x 可简化为以下形式111()()()ln ()ln 22T i i i i g P ω-=-∑+-∑i i x x -μx -μ二、实验步骤(1)从Iris.txt 文件中读取估计参数用的样本,每一类样本抽出前40个,分别求其均值,公式如下11,2,3ii iii N ωωω∈==∑x μxclear% 原始数据导入iris = load('C:\MATLAB7\work\模式识别\iris.txt'); N=40;%每组取N=40个样本%求第一类样本均值 for i = 1:N for j = 1:4w1(i,j) = iris(i,j+1); end endsumx1 = sum(w1,1); for i=1:4meanx1(1,i)=sumx1(1,i)/N; end%求第二类样本均值 for i = 1:Nfor j = 1:4w2(i,j) = iris(i+50,j+1); end endsumx2 = sum(w2,1); for i=1:4meanx2(1,i)=sumx2(1,i)/N; end%求第三类样本均值 for i = 1:N for j = 1:4w3(i,j) = iris(i+100,j+1); end endsumx3 = sum(w3,1); for i=1:4meanx3(1,i)=sumx3(1,i)/N; end(2)求每一类样本的协方差矩阵、逆矩阵1i -∑以及协方差矩阵的行列式i ∑, 协方差矩阵计算公式如下11()(),1,2,3,41i ii N i jklj j lk k l i x x j k N ωωσμμ==--=-∑其中lj x 代表i ω类的第l 个样本,第j 个特征值;ij ωμ代表i ω类的i N 个样品第j 个特征的平均值lk x 代表i ω类的第l 个样品,第k 个特征值;iw k μ代表i ω类的i N 个样品第k 个特征的平均值。

%求第一类样本协方差矩阵 z1(4,4) = 0; var1(4,4) = 0; for i=1:4 for j=1:4 for k=1:Nz1(i,j)=z1(i,j)+(w1(k,i)-meanx1(1,i))*(w1(k,j)-meanx1(1,j)); endvar1(i,j) = z1(i,j) / (N-1); end end%求第二类样本协方差矩阵z2(4,4) = 0 ; var2(4,4) = 0; for i=1:4 for j=1:4 for k=1:Nz2(i,j)=z2(i,j)+(w2(k,i)-meanx2(1,i))*(w2(k,j)-meanx2(1,j)); endar2(i,j) = z2(i,j) / (N-1); end end%求第三类样本协方差矩阵 z3(4,4) = 0 ; var3(4,4) = 0; for i=1:4 for j=1:4 for k=1:Nz3(i,j)=z3(i,j)+(w3(k,i)-meanx3(1,i))*(w3(k,j)-meanx3(1,j)); endvar3(i,j) = z3(i,j) /( N-1); end end%求各类的协方差矩阵逆矩阵及行列式 var1_inv = [];var1_det = []; var2_inv = [];var2_det = []; var3_inv = [];var3_det = []; var1_inv = inv(var1) var2_inv = inv(var2) var3_inv = inv(var3) var1_det = det(var1) var2_det = det(var2) var3_det = det(var3)(3)对三个类别,分别取每组剩下的10个样本,每两组进行分类。

由于每一类样本都相等,且每一类选取用作训练的样本也相等,在每两组进行分类时,待分类样本的类先验概率()0.5i P ω=。

将各个样本代入判别函数111()()()ln ()ln 22T i i i i g P ω-=-∑+-∑i i x x -μx -μ根据判决规则,如果使()()i j g g >x x 对一切j i ≠成立,则将x 归为i ω类。

若取第一类后10个数据和第二类进行分类,代码如下M=10; for i = 1:M for j = 1:4test(i,j) = iris(i+50,j+1); % 取测试数据endendt1=0;t2=0;t3=0;for i = 1:Mx=test(i,1);y=test(i,2);z=test(i,3);h=test(i,4);g1 = (-0.5)*([x,y,z,h]-meanx1)*var1_inv*([x,y,z,h]'-meanx1') - 0.5*log(abs(var1_det)) +log(p1);g2 = (-0.5)*([x,y,z,h]-meanx2)*var2_inv*([x,y,z,h]'-meanx2') - 0.5*log(abs(var2_det)) +log(p2);if g1>g2t1=t1+1 %若g1>g2,则属于第一类,否则属于第二类,并统计属于每一类的个数elset2=t2+1endend同理第二类和第三类、第一类和第三类可进行分类。

三、实验结果及分析(1)取第一类样本的后10个数据,按1ω、2ω分类,由t1=10可知,此10个数据属于1ω,分类正确;同理,按1ω、3ω分类,由t1=10可知,此10个数据属于1ω,分类正确。

(2)取第二类样本的后10个数据,按1ω、2ω分类,由t2=10可知,此10个数据属于2ω,分类正确;同理,按2ω、3ω分类,由t2=10可知,此10个数据属于2ω,分类正确。

(3)取第三类样本的后10个数据,按1ω、3ω分类,由t3=10可知,此10个数据属于2ω,分类正确;同理,按2ω、3ω分类,由t3=10可知,此10个数据属于3ω,分类正确。

(4)表1为1ω、2ω、3ω的样本类的均值。

表1 三类样本均值x 1 x 2 x 3 x 4 1ω类5.0375 3.4525 1.46 0.235 2ω类6.01 2.78 4.3175 1.35 3ω类6.62252.965.60751.99由上表可知,对于1ω、2ω、3ω三个类样本,它们的第二个特征均值x 2相差不大,对于分类取得作用不如其他3个特征作用大,因此我们略去第二个特征,在三维坐标空间画出降为3维主特征的3类样本点的空间分布,如图1所示图1 去掉第二维特征的三类样本空间位置上图中,“*”为1ω类,“+”为2ω类,“□”为3ω类,显然1ω类和2ω类以及3ω类特征差异比较明显,而2ω类与3ω类差异较小,对于位于2ω、3ω类类间分解面附近的样本,使用最小错误率贝叶斯决策时,可能会出现错分情况。

在实验中,我们对2ω类50个样本分类,结果为t2 =48 ,t3 =2,错分2个到3ω类;对3ω类50个样本分类,结果为t2 =0 ,t3 =50,分类正确。

特征类别附:iris数据1 5.1 3.5 1.4 0.22 4.9 3.0 1.4 0.23 4.7 3.2 1.3 0.24 4.6 3.1 1.5 0.25 5.0 3.6 1.4 0.26 5.4 3.9 1.7 0.47 4.6 3.4 1.4 0.38 5.0 3.4 1.5 0.29 4.4 2.9 1.4 0.210 4.9 3.1 1.5 0.111 5.4 3.7 1.5 0.212 4.8 3.4 1.6 0.213 4.8 3.0 1.4 0.114 4.3 3.0 1.1 0.115 5.8 4.0 1.2 0.216 5.7 4.4 1.5 0.417 5.4 3.9 1.3 0.418 5.1 3.5 1.4 0.319 5.7 3.8 1.7 0.320 5.1 3.8 1.5 0.321 5.4 3.4 1.7 0.222 5.1 3.7 1.5 0.423 4.6 3.6 1.0 0.224 5.1 3.3 1.7 0.525 4.8 3.4 1.9 0.226 5.0 3.0 1.6 0.227 5.0 3.4 1.6 0.428 5.2 3.5 1.5 0.229 5.2 3.4 1.4 0.230 4.7 3.2 1.6 0.231 4.8 3.1 1.6 0.232 5.4 3.4 1.5 0.433 5.2 4.1 1.5 0.1 34 5.5 4.2 1.4 0.235 4.9 3.1 1.5 0.236 5.0 3.2 1.2 0.237 5.5 3.5 1.3 0.238 4.9 3.6 1.4 0.139 4.4 3.0 1.3 0.240 5.1 3.4 1.5 0.241 5.0 3.5 1.3 0.342 4.5 2.3 1.3 0.343 4.4 3.2 1.3 0.244 5.0 3.5 1.6 0.645 5.1 3.8 1.9 0.446 4.8 3.0 1.4 0.347 5.1 3.8 1.6 0.248 4.6 3.2 1.4 0.249 5.3 3.7 1.5 0.250 5.0 3.3 1.4 0.251 7.0 3.2 4.7 1.452 6.4 3.2 4.5 1.553 6.9 3.1 4.9 1.554 5.5 2.3 4.0 1.355 6.5 2.8 4.6 1.556 5.7 2.8 4.5 1.357 6.3 3.3 4.7 1.658 4.9 2.4 3.3 1.059 6.6 2.9 4.6 1.360 5.2 2.7 3.9 1.461 5.0 2.0 3.5 1.062 5.9 3.0 4.2 1.563 6.0 2.2 4.0 1.064 6.1 2.9 4.7 1.465 5.6 2.9 3.6 1.366 6.7 3.1 4.4 1.467 5.6 3.0 4.5 1.568 5.8 2.7 4.1 1.069 6.2 2.2 4.5 1.570 5.6 2.5 3.9 1.171 5.9 3.2 4.8 1.872 6.1 2.8 4.0 1.373 6.3 2.5 4.9 1.574 6.1 2.8 4.7 1.275 6.4 2.9 4.3 1.376 6.6 3.0 4.4 1.477 6.8 2.8 4.8 1.478 6.7 3.0 5.0 1.779 6.0 2.9 4.5 1.580 5.7 2.6 3.5 1.081 5.5 2.4 3.8 1.182 5.5 2.4 3.7 1.083 5.8 2.7 3.9 1.284 6.0 2.7 5.1 1.685 5.4 3.0 4.5 1.586 6.0 3.4 4.5 1.687 6.7 3.1 4.7 1.588 6.3 2.3 4.4 1.389 5.6 3 4.1 1.390 5.5 2.5 4.0 1.391 5.5 2.6 4.4 1.292 6.1 3.0 4.6 1.493 5.8 2.6 4.0 1.294 5.0 2.3 3.3 1.095 5.6 2.7 4.2 1.396 5.7 3.0 4.2 1.297 5.7 2.9 4.2 1.398 6.2 2.9 4.3 1.399 5.1 2.5 3.0 1.1100 5.7 2.8 4.1 1.3 101 6.3 3.3 6.0 2.5 102 5.8 2.7 5.1 1.9 103 7.1 3.0 5.9 2.1 104 6.3 2.9 5.6 1.8 105 6.5 3.0 5.8 2.2 106 7.6 3.0 6.6 2.1 107 4.9 2.5 4.5 1.7 108 7.3 2.9 6.3 1.8 109 6.7 2.5 5.8 1.8 110 7.2 3.6 6.1 2.5 111 6.5 3.2 5.1 2.0 112 6.4 2.7 5.3 1.9 113 6.8 3.0 5.5 2.1 114 5.7 2.5 5.0 2.0 115 5.8 2.8 5.1 2.4 116 6.4 3.2 5.3 2.3 117 6.5 3.0 5.5 1.8 118 7.7 3.8 6.7 2.2 119 7.7 2.6 6.9 2.3 120 6.0 2.2 5.0 1.5 121 6.9 3.2 5.7 2.3 122 5.6 2.8 4.9 2.0 123 7.7 2.8 6.7 2.0 124 6.3 2.7 4.9 1.8 125 6.7 3.3 5.7 2.1 126 7.2 3.2 6.0 1.8 127 6.2 2.8 4.8 1.8 128 6.1 3.0 4.9 1.8 129 6.4 2.8 5.6 2.1 130 7.2 3.0 5.8 1.6 131 7.4 2.8 6.1 1.9 132 7.9 3.8 6.4 2.0 133 6.4 2.8 5.6 2.2 134 6.3 2.8 5.1 1.5 135 6.1 2.6 5.6 1.4 136 7.7 3.0 6.1 2.3 137 6.3 3.4 5.6 2.4 138 6.4 3.1 5.5 1.8 139 6.0 3.0 4.8 1.8 140 6.9 3.1 5.4 2.1 141 6.7 3.1 5.6 2.4 142 6.9 3.1 5.1 2.3 143 5.8 2.7 5.1 1.9 144 6.8 3.2 5.9 2.3 145 6.7 3.3 5.7 2.5 146 6.7 3 5.2 2.3 147 6.3 2.5 5 1.9 148 6.5 3 5.2 2 149 6.2 3.4 5.4 2.3 150 5.9 3 5.1 1.8。

相关文档
最新文档