北工大模式识别基础课程作业

合集下载

模式识别大作业

一、问题描述现有sonar 和wdbc 这两个样本数据集，取一半数据作为训练样本集，其余数据作为测试样本集，通过编程实现分别用C 均值算法对测试样本集中的数据进行分类，进行10次分类求正确率的平均值。

二、算法描述1.初始化：选择c 个代表点,...,,321c p p p p2.建立c 个空间聚类表：C K K K ...,213.按照最小距离法则逐个对样本X 进行分类：),(),,(min arg J i iK x add p x j ∂=4.计算J 及用各聚类列表计算聚类均值，并用来作为各聚类新的代表点（更新代表点）5.若J 不变或代表点未发生变化，则停止。

否则转2.),(1∑∑=∈=ci K x i i p x J δ6.计算正确率：将dtat(i,1)与trueflag(i,1)（i=1~n ）进行比较，统计正确分类的样本数，并计算正确率将上述过程循环10次，得到10次的正确率，并计算平均正确率ave算法流程图三、实验数据表1 实验数据四、实验结果表2 实验结果准确率（%）注：表中准确率是十次实验结果的平均值五、程序源码用C均值算法对sonar分类（对wdbc分类的代码与之类似）clc;clear;accuracy = 0;for i = 1:10data = xlsread('sonar.xls');data = data';%初始划分2个聚类rand(:,1:size(data,2)) = data(:,randperm(size(data,2))'); %使矩阵元素按列重排A(:,1) = rand(:,1);B(:,1) = rand(:,2); %选取代表点m = 1;n = 1;for i = 3:size(rand,2)temp1 = rand(:,i) - A(:,1);temp2 = rand(:,i) - B(:,1);temp1(61,:) = [];temp2(61,:) = []; %去掉标号后再计算距离if norm(temp1) < norm(temp2)m = m + 1; %A类中样本个数A(:,m) = rand(:,i);elsen = n + 1; %B类中样本个数B(:,n) = rand(:,i);endend%划分完成m1 = mean(A,2);m2 = mean(B,2);%计算JeJ = 0;for i = 1:mtemp = A(:,i) - m1;temp(61,:) = []; %去掉标号的均值J = J + norm(temp)^2;endfor i = 1:ntemp = B(:,i) - m2;temp(61,:) = [];J = J + norm(temp)^2;endtest = [A,B];N = 0; %Je不变的次数while N < m + nrarr = randperm(m + n); %产生1-208即所有样本序号的随机不重复序列向量y = test(:,rarr(1,1));if rarr(1,1) <= m %y属于A类时if m == 1continueelsetemp1 = y - m1;temp1(61,:) = [];temp2 = y - m2;temp2(61,:) = [];p1 = m / (m - 1) * norm(temp1);p2 = n / (n + 1) * norm(temp2);if p2 < p1test = [test,y];test(:,rarr(1,1)) = [];m = m - 1;n = n + 1;endendelse %y属于B类时if n == 1continueelsetemp1 = y - m1;temp1(61,:) = [];temp2 = y - m2;temp2(61,:) = [];p1 = m / (m + 1) * norm(temp1);p2 = n / (n - 1) * norm(temp2);if p1 < p2test = [y,test];test(:,rarr(1,1)) = [];m = m + 1;n = n - 1;endendendA(:,1:m) = test(:,1:m);B(:,1:n) = test(:,m + 1:m + n);m1 = mean(A,2);m2 = mean(B,2);%计算JetempJ = 0;for i = 1:mtemp = A(:,i) - m1;temp(61,:) = []; %去掉标号的均值tempJ = tempJ + norm(temp)^2;endfor i = 1:ntemp = B(:,i) - m2;temp(61,:) = [];tempJ = tempJ + norm(temp)^2;endif tempJ == JN = N + 1;elseJ = tempJ;endend %while循环结束%判断正确率correct = 0;false = 0;A(:,1:m) = test(:,1:m);B(:,1:n) = test(:,m + 1:m + n);c = mean(A,2);if abs(c(61,1) - 1) < abs(c(61,1) - 2) %聚类A中大多为1类元素for i = 1:mif A(61,i) == 1correct = correct + 1;elsefalse = false + 1;endendfor i = 1:nif B(61,i) == 2correct = correct + 1;elsefalse = false + 1;endendelse %聚类A中大多为2类元素for i = 1:mif A(61,i) == 2correct = correct + 1;elsefalse = false + 1;endendfor i = 1:nif B(61,i) == 1correct = correct + 1;elsefalse = false + 1;endendendaccuracy = accuracy + correct / (correct + false);endaver_accuracy = accuracy / 10fprintf('用C均值算法对sonar进行十次分类的结果的平均正确率为%.2d %%.\n',aver_accuracy*100)六．实验心得本算法确定的K 个划分到达平方误差最小。

模式识别大作业

模式识别大作业1.最近邻/k近邻法一.基本概念：最近邻法：对于未知样本x，比较x与N个已知类别的样本之间的欧式距离，并决策x与距离它最近的样本同类。

K近邻法：取未知样本x的k个近邻，看这k个近邻中多数属于哪一类，就把x归为哪一类。

K取奇数，为了是避免k1=k2的情况。

二.问题分析：要判别x属于哪一类，关键要求得与x最近的k个样本（当k=1时，即是最近邻法），然后判别这k个样本的多数属于哪一类。

可采用欧式距离公式求得两个样本间的距离s=sqrt（（x1-x2）^2+(y1-y2)^2）三.算法分析：该算法中任取每类样本的一半作为训练样本，其余作为测试样本。

例如iris中取每类样本的25组作为训练样本，剩余25组作为测试样本，依次求得与一测试样本x距离最近的k 个样本，并判断k个样本多数属于哪一类，则x就属于哪类。

测试10次，取10次分类正确率的平均值来检验算法的性能。

四.MATLAB代码：最近邻算实现对Iris分类clc;totalsum=0;for ii=1:10data=load('iris.txt');data1=data(1:50,1:4);%任取Iris-setosa数据的25组rbow1=randperm(50);trainsample1=data1(rbow1(:,1:25),1:4);rbow1(:,26:50)=sort(rbow1(:,26:50));%剩余的25组按行下标大小顺序排列testsample1=data1(rbow1(:,26:50),1:4);data2=data(51:100,1:4);%任取Iris-versicolor数据的25组rbow2=randperm(50);trainsample2=data2(rbow2(:,1:25),1:4);rbow2(:,26:50)=sort(rbow2(:,26:50));testsample2=data2(rbow2(:,26:50),1:4);data3=data(101:150,1:4);%任取Iris-virginica数据的25组rbow3=randperm(50);trainsample3=data3(rbow3(:,1:25),1:4);rbow3(:,26:50)=sort(rbow3(:,26:50));testsample3=data3(rbow3(:,26:50),1:4);trainsample=cat(1,trainsample1,trainsample2,trainsample3);%包含75组数据的样本集testsample=cat(1,testsample1,testsample2,testsample3);newchar=zeros(1,75);sum=0;[i,j]=size(trainsample);%i=60,j=4[u,v]=size(testsample);%u=90,v=4for x=1:ufor y=1:iresult=sqrt((testsample(x,1)-trainsample(y,1))^2+(testsample(x,2) -trainsample(y,2))^2+(testsample(x,3)-trainsample(y,3))^2+(testsa mple(x,4)-trainsample(y,4))^2); %欧式距离newchar(1,y)=result;end;[new,Ind]=sort(newchar);class1=0;class2=0;class3=0;if Ind(1,1)<=25class1=class1+1;elseif Ind(1,1)>25&&Ind(1,1)<=50class2=class2+1;elseclass3=class3+1;endif class1>class2&&class1>class3m=1;ty='Iris-setosa';elseif class2>class1&&class2>class3m=2;ty='Iris-versicolor';elseif class3>class1&&class3>class2m=3;ty='Iris-virginica';elsem=0;ty='none';endif x<=25&&m>0disp(sprintf('第%d组数据分类后为%s类',rbow1(:,x+25),ty));elseif x<=25&&m==0disp(sprintf('第%d组数据分类后为%s类',rbow1(:,x+25),'none'));endif x>25&&x<=50&&m>0disp(sprintf('第%d组数据分类后为%s类',50+rbow2(:,x),ty));elseif x>25&&x<=50&&m==0disp(sprintf('第%d组数据分类后为%s类',50+rbow2(:,x),'none'));endif x>50&&x<=75&&m>0disp(sprintf('第%d组数据分类后为%s类',100+rbow3(:,x-25),ty));elseif x>50&&x<=75&&m==0disp(sprintf('第%d组数据分类后为%s类',100+rbow3(:,x-25),'none'));endif (x<=25&&m==1)||(x>25&&x<=50&&m==2)||(x>50&&x<=75&&m==3)sum=sum+1;endenddisp(sprintf('第%d次分类识别率为%4.2f',ii,sum/75));totalsum=totalsum+(sum/75);enddisp(sprintf('10次分类平均识别率为%4.2f',totalsum/10));测试结果：第3组数据分类后为Iris-setosa类第5组数据分类后为Iris-setosa类第6组数据分类后为Iris-setosa类第7组数据分类后为Iris-setosa类第10组数据分类后为Iris-setosa类第11组数据分类后为Iris-setosa类第12组数据分类后为Iris-setosa类第14组数据分类后为Iris-setosa类第16组数据分类后为Iris-setosa类第18组数据分类后为Iris-setosa类第19组数据分类后为Iris-setosa类第20组数据分类后为Iris-setosa类第23组数据分类后为Iris-setosa类第24组数据分类后为Iris-setosa类第26组数据分类后为Iris-setosa类第28组数据分类后为Iris-setosa类第30组数据分类后为Iris-setosa类第31组数据分类后为Iris-setosa类第34组数据分类后为Iris-setosa类第37组数据分类后为Iris-setosa类第39组数据分类后为Iris-setosa类第41组数据分类后为Iris-setosa类第44组数据分类后为Iris-setosa类第45组数据分类后为Iris-setosa类第49组数据分类后为Iris-setosa类第53组数据分类后为Iris-versicolor类第54组数据分类后为Iris-versicolor类第55组数据分类后为Iris-versicolor类第57组数据分类后为Iris-versicolor类第58组数据分类后为Iris-versicolor类第59组数据分类后为Iris-versicolor类第60组数据分类后为Iris-versicolor类第61组数据分类后为Iris-versicolor类第62组数据分类后为Iris-versicolor类第68组数据分类后为Iris-versicolor类第70组数据分类后为Iris-versicolor类第71组数据分类后为Iris-virginica类第74组数据分类后为Iris-versicolor类第75组数据分类后为Iris-versicolor类第77组数据分类后为Iris-versicolor类第79组数据分类后为Iris-versicolor类第80组数据分类后为Iris-versicolor类第84组数据分类后为Iris-virginica类第85组数据分类后为Iris-versicolor类第92组数据分类后为Iris-versicolor类第95组数据分类后为Iris-versicolor类第97组数据分类后为Iris-versicolor类第98组数据分类后为Iris-versicolor类第99组数据分类后为Iris-versicolor类第102组数据分类后为Iris-virginica类第103组数据分类后为Iris-virginica类第105组数据分类后为Iris-virginica类第106组数据分类后为Iris-virginica类第107组数据分类后为Iris-versicolor类第108组数据分类后为Iris-virginica类第114组数据分类后为Iris-virginica类第118组数据分类后为Iris-virginica类第119组数据分类后为Iris-virginica类第124组数据分类后为Iris-virginica类第125组数据分类后为Iris-virginica类第126组数据分类后为Iris-virginica类第127组数据分类后为Iris-virginica类第128组数据分类后为Iris-virginica类第129组数据分类后为Iris-virginica类第130组数据分类后为Iris-virginica类第133组数据分类后为Iris-virginica类第135组数据分类后为Iris-virginica类第137组数据分类后为Iris-virginica类第142组数据分类后为Iris-virginica类第144组数据分类后为Iris-virginica类第148组数据分类后为Iris-virginica类第149组数据分类后为Iris-virginica类第150组数据分类后为Iris-virginica类k近邻法对wine分类：clc;otalsum=0;for ii=1:10 %循环测试10次data=load('wine.txt');%导入wine数据data1=data(1:59,1:13);%任取第一类数据的30组rbow1=randperm(59);trainsample1=data1(sort(rbow1(:,1:30)),1:13);rbow1(:,31:59)=sort(rbow1(:,31:59)); %剩余的29组按行下标大小顺序排列testsample1=data1(rbow1(:,31:59),1:13);data2=data(60:130,1:13);%任取第二类数据的35组rbow2=randperm(71);trainsample2=data2(sort(rbow2(:,1:35)),1:13);rbow2(:,36:71)=sort(rbow2(:,36:71));testsample2=data2(rbow2(:,36:71),1:13);data3=data(131:178,1:13);%任取第三类数据的24组rbow3=randperm(48);trainsample3=data3(sort(rbow3(:,1:24)),1:13);rbow3(:,25:48)=sort(rbow3(:,25:48));testsample3=data3(rbow3(:,25:48),1:13);train_sample=cat(1,trainsample1,trainsample2,trainsample3);%包含89组数据的样本集test_sample=cat(1,testsample1,testsample2,testsample3);k=19;%19近邻法newchar=zeros(1,89);sum=0;[i,j]=size(train_sample);%i=89,j=13[u,v]=size(test_sample);%u=89,v=13for x=1:ufor y=1:iresult=sqrt((test_sample(x,1)-train_sample(y,1))^2+(test_sample(x ,2)-train_sample(y,2))^2+(test_sample(x,3)-train_sample(y,3))^2+( test_sample(x,4)-train_sample(y,4))^2+(test_sample(x,5)-train_sam ple(y,5))^2+(test_sample(x,6)-train_sample(y,6))^2+(test_sample(x ,7)-train_sample(y,7))^2+(test_sample(x,8)-train_sample(y,8))^2+( test_sample(x,9)-train_sample(y,9))^2+(test_sample(x,10)-train_sa mple(y,10))^2+(test_sample(x,11)-train_sample(y,11))^2+(test_samp le(x,12)-train_sample(y,12))^2+(test_sample(x,13)-train_sample(y, 13))^2); %欧式距离newchar(1,y)=result;end;[new,Ind]=sort(newchar);class1=0;class 2=0;class 3=0;for n=1:kif Ind(1,n)<=30class 1= class 1+1;elseif Ind(1,n)>30&&Ind(1,n)<=65class 2= class 2+1;elseclass 3= class3+1;endendif class 1>= class 2&& class1>= class3m=1;elseif class2>= class1&& class2>= class3m=2;elseif class3>= class1&& class3>= class2m=3;endif x<=29disp(sprintf('第%d组数据分类后为第%d类',rbow1(:,30+x),m));elseif x>29&&x<=65disp(sprintf('第%d组数据分类后为第%d类',59+rbow2(:,x+6),m));elseif x>65&&x<=89disp(sprintf('第%d组数据分类后为第%d类',130+rbow3(:,x-41),m));endif (x<=29&&m==1)||(x>29&&x<=65&&m==2)||(x>65&&x<=89&&m==3) sum=sum+1;endenddisp(sprintf('第%d次分类识别率为%4.2f',ii,sum/89));totalsum=totalsum+(sum/89);enddisp(sprintf('10次分类平均识别率为%4.2f',totalsum/10));第2组数据分类后为第1类第4组数据分类后为第1类第5组数据分类后为第3类第6组数据分类后为第1类第8组数据分类后为第1类第10组数据分类后为第1类第11组数据分类后为第1类第14组数据分类后为第1类第16组数据分类后为第1类第19组数据分类后为第1类第20组数据分类后为第3类第21组数据分类后为第3类第22组数据分类后为第3类第26组数据分类后为第3类第27组数据分类后为第1类第28组数据分类后为第1类第30组数据分类后为第1类第33组数据分类后为第1类第36组数据分类后为第1类第37组数据分类后为第1类第43组数据分类后为第1类第44组数据分类后为第3类第45组数据分类后为第1类第46组数据分类后为第1类第49组数据分类后为第1类第54组数据分类后为第1类第56组数据分类后为第1类第57组数据分类后为第1类第60组数据分类后为第2类第61组数据分类后为第3类第63组数据分类后为第3类第65组数据分类后为第2类第66组数据分类后为第3类第67组数据分类后为第2类第71组数据分类后为第1类第72组数据分类后为第2类第74组数据分类后为第1类第76组数据分类后为第2类第77组数据分类后为第2类第79组数据分类后为第3类第81组数据分类后为第2类第82组数据分类后为第3类第83组数据分类后为第3类第84组数据分类后为第2类第86组数据分类后为第2类第87组数据分类后为第2类第88组数据分类后为第2类第93组数据分类后为第2类第96组数据分类后为第1类第98组数据分类后为第2类第99组数据分类后为第3类第102组数据分类后为第2类第104组数据分类后为第2类第105组数据分类后为第3类第106组数据分类后为第2类第110组数据分类后为第3类第113组数据分类后为第3类第114组数据分类后为第2类第115组数据分类后为第2类第116组数据分类后为第2类第118组数据分类后为第2类第122组数据分类后为第2类第123组数据分类后为第2类第124组数据分类后为第2类第133组数据分类后为第3类第134组数据分类后为第3类第135组数据分类后为第2类第136组数据分类后为第3类第140组数据分类后为第3类第142组数据分类后为第3类第144组数据分类后为第2类第145组数据分类后为第1类第146组数据分类后为第3类第148组数据分类后为第3类第149组数据分类后为第2类第152组数据分类后为第2类第157组数据分类后为第2类第159组数据分类后为第3类第161组数据分类后为第2类第162组数据分类后为第3类第163组数据分类后为第3类第164组数据分类后为第3类第165组数据分类后为第3类第167组数据分类后为第3类第168组数据分类后为第3类第173组数据分类后为第3类第174组数据分类后为第3类2.Fisher线性判别法Fisher 线性判别是统计模式识别的基本方法之一。

模式识别作业三道习题

1 ( x ) 1 ( x1 , x2 ) H 0 ( x1 ) H 0 ( x2 ) 1 2 ( x ) 2 ( x1 , x2 ) H 0 ( x1 ) H1 ( x2 ) 2 x2 3 ( x ) 3 ( x1 , x2 ) H 0 ( x1 ) H 2 ( x2 ) 4 x22 2 4 ( x ) 4 ( x1 , x2 ) H1 ( x1 ) H 0 ( x2 ) 2 x1 5 ( x ) 5 ( x1 , x2 ) H1 ( x1 ) H1 ( x2 ) 4 x1 x2 6 ( x ) 6 ( x1 , x2 ) H1 ( x1 ) H 2 ( x2 ) 2 x1 (4 x22 2) 7 ( x ) 7 ( x1 , x2 ) H 2 ( x1 ) H 0 ( x2 ) 4 x21 2 8 ( x ) 8 ( x1 , x2 ) H 2 ( x1 ) H1 ( x2 ) 2 x2 (4 x21 2) 9 ( x ) 9 ( x1 , x2 ) H 2 ( x1 ) H 2 ( x2 ) (4 x21 2)(4 x22 2)
K7 ( X ) K6 ( X ) 1 第八步：取 X 4 w2 ， K 7 ( X 4 ) 32 0 ，故 0 K8 ( X ) K 7 ( X ) 0 第九步：取 X 1 w1 ， K8 ( X 1 ) 32 0 ，故 1 K 9 ( X ) K8 ( X ) 0 第十步：取 X 2 w1 ， K9 ( X 2 ) 32 0 ，故 1 K10 ( X ) K9 ( X )
2
K ( X , X k ) exp{ || X X k || 2} exp{[( x 1 xk 1) 2 ( x 2 xk 2 ) 2]} x1 X = x2 ，训练样本为 X k 。其中

模式识别作业

（1）先用C-均值聚类算法程序，并用下列数据进行聚类分析。

在确认编程正确后，采用蔡云龙书的附录B中表1的Iris数据进行聚类。

然后使用近邻法的快速算法找出待分样本X （设X样本的4个分量x1=x2=x3=x4=6；子集数l=3）的最近邻节点和3-近邻节点及X与它们之间的距离。

并建议适当对书中所述算法进行改进。

并分别画出流程图、写出算法及程序。

x1=(0,0) x2=(1,0) x3=(0,1) x4=(1,1) x5=(2,1) x6=(1,2) x7=(2,2) x8=(3,2) x9=(6,6) x10=(7,6) x11=(8,6) x12=(6,7) x13=(7,7) x14=(8,7) x15=(9,7) x16=(7,8) x17=(8,8) x18=(9,8) x19=(8,9) x20=(9,9)
（2）写一篇论文。

内容可以包含下面四个方面中的一个：
①新技术（如数据挖掘等）在模式识别中的应用；
②模式识别最新的研究方向；
③一个相关系统的分析；
④一个算法的优化；
（3）书142页，描述近邻法的快速算法，写个报告。

《模式识别》课程2019年度大作业

《模式识别》课程2019年度大作业注意事项：（请务必详细阅读所有注意事项）1.本作业发布时间2019.5.5，交作业时间：2018.5.30日第一节课下课后，第二节课上课前（即上午9点整）。

与平时作业不同，不允许迟交，迟交则成绩以0分计。

2.与平时作业不同，大作业只有研究生同学完成，保送本系的本科同学也需要完成，但其他本科生无需完成。

请在作业的开始部分写上姓名、学号，缺少该信息的，本次作业总分扣除10分。

如果是已经完成保送手续，先修研究生课程的本校本科生，请一定每次作业在姓名后加注“（本科保送）”，否则无法拿到学分。

3.与平时作业不同，作业评分以电子版为准。

需要提交代码，具体的提交要求请仔细阅读作业说明。

总体文件大小不超过5MB（可以提交压缩文件）。

上传地址为/。

初始用户名和密码为学号。

研究生学号以MP18开头的暂时无法登陆，可将电子版email给助教（wangguohua@, yik@），其余同学务必使用网站系统上传。

是否迟交以cslabcms系统的时间戳或电子邮件的时间戳为准。

大作业：1.仔细阅读以下网页的内容（/weixs/project/DDT/DDT.html），包括其中提供链接的英文论文，理解DDT方法的运行步骤。

2.自行实现DDT算法。

实现时可以参考上述网页提供的Matlab代码以加深对DDT方法的理解，但是不可以使用MatConvNet这一深度学习框架，除此以外的其余任意深度学习软件框架都可以使用。

3.如尚未有深度学习、CNN的编程经验，请搜索网络资源完成自学。

4.如有可供使用的GPU加速卡资源，可以自由使用。

如无这种资源，可在编程中指定使用CPU（即，不使用GPU）来完成计算。

DDT方法的计算量很小，使用CPU也可完成计算。

5.在上述网页提供下载的代码链接里有少量图片可供使用，利用这些图片完成DDT方法的学习，利用可视化技术（参考论文和代码）直观考察DDT方法的效果。

6.请提交完成上述任务的文档和代码，需提交的内容如下：a.说明文档：自行组织文档的格式，保证文档的内容能让助教清晰地理解你的代码运行环境、实现的主要思路、你通过实现并运行代码后对DDT方法的理解等。

模式识别_作业5

作业一：试用感知器算法实现逻辑“或”的功能（初始加权值、阈值和训练速率系数可自己设定）答案：输入为k x 1、k x 2，输出为y k 。

当k x 1和k x 2均为0时，y k 为0，否则y k 为1。

设阈值θ=0.06，训练速率系数η=0.02，初始设置加权为058.0)0(1=w ，065.0)0(2=w 。

由于只有一个输出，得加权修正公式为：k k i i x n w n w ηδ+=+)()1(k k k y T -=δ第一步：w(0)=(0.058, 0.065)，加入x 1=(0, 0)，06.01221111-=-+=θx w x w s ，则y 1=0。

由于T 1=0，δ1= T 1- y 1=0，故w(1)=(0.058, 0.065)第二步：加入x 2=(0, 1)，005.02222112=-+=θx w x w s ，则y 2=1。

由于T 2=1，δ1= T 1- y 1=0，故 w(2)=w(1)=(0.058, 0.065)第三步：加入x 3=(1, 0)，002.0-3223113=-+=θx w x w s ，则y 3=0。

由于T 3=1，则δ3= T 3- y 3=1，故w(3)=w(2)+0.02(1)x 3=(0.078, 0.065)第四步：加入x 4=(1, 1)，083.04224114=-+=θx w x w s ，则y 4=1。

由于T 4=1，则δ4= T 4- y 4=0，故w(4)=w(3)=(0.078, 0.065)第五步：加入x1=(0, 0)，S1=-0.06，则y1=0。

由于T1=0，δ1=0，故w(5)=(0.078, 0.065)第六步：加入x2=(0, 1)，S2=0.005，则y2=1。

由于T2=1，δ2=0，故w(6)=(0.078, 0.065)第七步：加入x3=(1, 0)，S3=0.018，则y3=1。

由于T3=1，δ3=0，故w(7)=(0.078, 0.065)第八步：加入x4=(1, 1)，S4=0.083，则y4=1。

模式识别大作业1

模式识别大作业--fisher线性判别和近邻法学号：021151**姓名：**任课教师:张**I. Fisher线性判别A. fisher线性判别简述在应用统计方法解决模式识别的问题时，一再碰到的问题之一是维数问题．在低维空间里解析上或计算上行得通的方法，在高维里往往行不通．因此，降低维数就成为处理实际问题的关键．我们考虑把维空间的样本投影到一条直线上，形成一维空间，即把维数压缩到一维．这样，必须找一个最好的，易于区分的投影线．这个投影变换就是我们求解的解向量．B.fisher线性判别的降维和判别1．线性投影与Fisher准则函数各类在维特征空间里的样本均值向量：，(1)通过变换映射到一维特征空间后，各类的平均值为：，(2)映射后，各类样本“类内离散度”定义为：，(3)显然，我们希望在映射之后，两类的平均值之间的距离越大越好，而各类的样本类内离散度越小越好。

因此，定义Fisher准则函数：(4)使最大的解就是最佳解向量，也就是Fisher的线性判别式。

2．求解从的表达式可知，它并非的显函数，必须进一步变换。

已知：，, 依次代入上两式，有：，(5)所以：(6)其中：(7)是原维特征空间里的样本类内离散度矩阵，表示两类均值向量之间的离散度大小，因此，越大越容易区分。

将(4.5-6)和(4.5-2)代入(4.5-4)式中：(8)其中：，(9)因此：(10)显然：(11)称为原维特征空间里，样本“类内离散度”矩阵。

是样本“类内总离散度”矩阵。

为了便于分类，显然越小越好，也就是越小越好。

将上述的所有推导结果代入表达式：可以得到：其中，是一个比例因子，不影响的方向，可以删除，从而得到最后解：(12)就使取得最大值，可使样本由维空间向一维空间映射，其投影方向最好。

是一个Fisher线性判断式.这个向量指出了相对于Fisher准则函数最好的投影线方向。

C.算法流程图左图为算法的流程设计图。

II.近邻法A. 近邻法线简述K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

大学模式识别考试题及答案详解完整版

大学模式识别考试题及答案详解HUA system office room 【HUA16H-TTMS2A-HUAS8Q8-HUAH1688】一、填空与选择填空（本题答案写在此试卷上，30分）1、模式识别系统的基本构成单元包括：模式采集、特征提取与选择和模式分类。

2、统计模式识别中描述模式的方法一般使用特真矢量；句法模式识别中模式描述方法一般有串、树、网。

3、聚类分析算法属于（1）；判别域代数界面方程法属于（3）。

（1）无监督分类 (2)有监督分类（3）统计模式识别方法（4）句法模式识别方法4、若描述模式的特征量为0-1二值特征量，则一般采用（4）进行相似性度量。

（1）距离测度（2）模糊测度（3）相似测度（4）匹配测度5、下列函数可以作为聚类分析中的准则函数的有（1）（3）（4）。

（1）（2） (3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在（2）中进行。

（1）二维空间（2）一维空间（3）N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有（1）；线性可分、不可分都适用的有（3）。

（1）感知器算法（2）H-K算法（3）积累位势函数法8、下列四元组中满足文法定义的有（1）（2）（4）。

（1）({A, B}, {0, 1}, {A01, A 0A1 , A 1A0 , B BA , B 0}, A)（2）({A}, {0, 1}, {A0, A 0A}, A)（3）({S}, {a, b}, {S 00S, S 11S, S 00, S 11}, S)（4）({A}, {0, 1}, {A01, A 0A1, A 1A0}, A)二、(15分)简答及证明题（1）影响聚类结果的主要因素有那些？（2）证明马氏距离是平移不变的、非奇异线性变换不变的。

答：（1）分类准则，模式相似性测度，特征量的选择，量纲。

（2）证明：(2分)(2分)(1分)设，有非奇异线性变换：(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。

模式识别_作业1

作业一：作业二：对如下5个6维模式样本，用最小聚类准则进行系统聚类分析： x 1: 0, 1, 3, 1, 3, 4 x 2: 3, 3, 3, 1, 2, 1 x 3: 1, 0, 0, 0, 1, 1 x 4: 2, 1, 0, 2, 2, 1 x 5: 0, 0, 1, 0, 1, 01、计算D (0)=⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛0 12 3 5 2612 0 7 15 243 7 0 24 55 15 24 0 2326 24 5 23 0，因为x3与x5的距离最近，则将x3与x5分为一类。

同时可以求出x1,x2,x4与x3,5的距离，如x1到x3,5的距离为x1到x3的距离与x1与x5的距离中取最小的一个距离。

2、则D (1)=⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛0 7 15 2470 24 515 24 0 2324 5 23 0，同样现在该矩阵中x4与x3,5的距离最近，则可以将x3,4,5分为一类，这样分类结束，总共可以将x1,x2,x3,x4,x5分为三类，其中:x1为第一类；x2为第二类；x3和x4和x5为第三类。

• 作业三：（K-均值算法）• 选k=2,z 1(1)=x 1,z 2(1)=x 10,用K-均值算法进行聚类分析由图可以看出这二十个点的坐标：x1(0,0),x2(1,0),x3(0,1),x4(1,1),x5(2,1),x6(1,2),x7(2,2),x8( 3,2),x9(6,6),x10(7,6),x11(8,6),x12(6,7),x13(7,7),x14(8,7),x 15(9,7),x16(7,8),x17(8,8),x18(9,8),x19(8,9),x20(9,9)。

1、选2个初始聚类中心，z1(1)=x1，z2(1)=x10.2、求取其它十八个点分别到x1与x10的距离：x2到x1的距离为1;x2到x10的距离为6x3到x1的距离为1;x3到x10的距离为x4到x1的距离为;x4到x10的距离为x5到x1的距离为;x5到x10的距离为5x6到x1的距离为;x6到x10的距离为x7到x1的距离为2;x7到x10的距离为x8到x1的距离为;x8到x10的距离为4x9到x1的距离为6;x9到x10的距离为1x11到x1的距离为10;x11到x10的距离为1x12到x1的距离为;x12到x10的距离为x13到x1的距离为7;x13到x10的距离为1x14到x1的距离为;x14到x10的距离为x15到x1的距离为;x15到x10的距离为x16到x1的距离为;x16到x10的距离为2x17到x1的距离为8;x17到x10的距离为x18到x1的距离为;x18到x10的距离为2x19到x1的距离为;x19到x10的距离为x20到x1的距离为9;x20到x10的距离为所以其中x2到x8距离x1近些，则可以将x2到x8与x1分为一类，而x9与x11到x20与x10分为另一类；3、通过将第一类中的所有x1到x8的坐标求取平均来计算该类别的中心坐标，求取新的类别的中心坐标z1(2)= (5/4,9/8),同理可以求出另一类的中心坐标z2(2)= (92/12,22/3)4、然后重新计算各点距离这二点中心坐标的距离，最后可以得出x1到x8仍然为第一类，x9到x20仍然为第二类。

模式识别作业

第二章主要内容：几种常见的聚类算法已经所使用的准则函数。

作业1：对如下5个6维模式样本，用最小聚类准则进行系统聚类分析已知样本如下：x1: 0, 1, 3, 1, 3, 4；x2: 3, 3, 3, 1, 2, 1；x3: 1, 0, 0, 0, 1, 1；x4: 2, 1, 0, 2, 2, 1；x5: 0, 0, 1, 0, 1, 0 第1步：将每一样本看成单独一类，得(0)(0)(0)112233(0)(0)4455{},{},{}{},{}G x G x G x Gx Gx =====计算各类之间的欧式距离，可得距离矩阵(0)D第2步：矩阵(0)D，它是(0)3G 和(0)5G 之间的距离，将他们合并为一类，得新的分类为(1)(0)(1)(0)(1)(0)(0)(1)(0)112233544{},{},{,},{}G G G G G G G G G ====计算聚类后的距离矩阵(1)D 第3步：由于(1)D 它是(1)3G 与(1)4G 之间的距离，于是合并(1)3G 和(1)4G ，得新的分类为(2)(1)(2)(2)(2)(1)(1)1122334{},{},{,}G G G G G G G ===同样，按最小距离准则计算距离矩阵(2)D，得第4步：同理得(3)(2)(3)(2)(2)11223{},{,}G G G G G == 满足聚类要求，如聚为2类，聚类完毕。

系统聚类算法介绍：第一步：设初始模式样本共有N 个，每个样本自成一类，即建立N 类。

G 1(0), G 2(0) , ……,G N (0)为计算各类之间的距离（初始时即为各样本间的距离），得到一个N*N 维的距离矩阵D(0)。

这里，标号(0)表示聚类开始运算前的状态。

第二步：假设前一步聚类运算中已求得距离矩阵D(n)，n 为逐次聚类合并的次数，则求D(n)中的最小元素。

如果它是Gi(n)和Gj(n)两类之间的距离，则将Gi(n)和Gj(n)两类合并为一类G ij (n+1)，由此建立新的分类：G 1(n+1), G 2(n+1)……第三步：计算合并后新类别之间的距离，得D(n+1)。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

姓名：学号：
2.1 设有10个二维模式样本，如图2.13所示。

若21=θ，试用最大最小距离算法对他们进行聚类分析。

1 3 5 7 9
X 1
解：① 取T 11]0,0[==X Z 。

②选离1Z 最远的样本作为第二聚类中心2Z 。

()()201012221=-+-=D ，831=D ，5841=D ，4551=D 5261=D ，7471=D ，4581=D ，5891=D ，651,10=D ∵ 最大者为D 71，∴T 72]7,5[==X Z
742
121=-=Z Z θT ③计算各样本与{}21,Z Z 间距离，选出其中的最小距离。

7412=D ，5222=D ，3432=D ，…，132,10=D
}13,20,17,0,2,5,4,8,2,0{),min(21=i i D D ④742
120)},max{min(9221=>==T D D D i i ,T 93]3,7[==∴X Z ⑤继续判断是否有新的聚类中心出现：
⎪⎩⎪⎨⎧===58740131211D D D ，⎪⎪⎩⎪⎪⎨⎧===40522232221D D D ，…⎪⎪⎩⎪⎪⎨⎧===1
13653,102,101,10D D D
}1,0,1,0,2,5,4,8,2,0{),,min(321=i i i D D D
742
18)},,max{min(31321=
<==T D D D D i i i 寻找聚类中心的步骤结束。

⑥按最近距离分到三个聚类中心对应的类别中：
3211,,:X X X ω；76542,,,:X X X X ω；10983,,:X X X ω
代码附录：
clear all
close all
clc
%坐标点，初始化选定比例系数
num = 10;eta = 0.5;
axis([0 10 0 10]);
hold on
%c = zeros(10,1);z = zeros(10,2);
x1 = [0,0];x2 = [1,1];x3 = [2,2];x4 = [3,7];
x5 = [3,6];x6 = [4,4];x7 = [5,7];x8 = [6,3];
x9 = [7,3];x10 = [7,4];
W = [x1;x2;x3;x4;x5;x6;x7;x8;x9;x10];
%% step1 任选一个坐标点作为第一个聚类中心z1
R= randperm(num);
c(1) = R(1);
z(1,:) = W(c(1),:);
%% step2 从数据中选取一个距离z1最远的坐标点，作为第二个聚类中心z2 d = zeros(num,1);
for i = 1:num
d(i) = norm(z(1,:)-W(i,:));
end
[~,c(2)] = max(d);%距离，位置
z(2,:)= W(c(2),:);
%% step3 计算剩余数据与z1,z2之间的距离，并求其最小距离
d =zeros(num,2);
for i = 1:num
d(i,1) = norm(z(1,:)-W(i,:));
d(i,2) = norm(z(2,:)-W(i,:));
end
D = zeros(num,1);
for i = 1:num
D(i) = min(d(i,:));
end
%% step4 确定是否存在第三个聚类中心
[m,n] = max(D);%最大值，位置
if m>eta*norm(z(2,:)-z(1,:));
c(3) = n;
z(3,:) = W(c(3),:);
jump = 1;%转至step5
else
jump = 2;
end
switch (jump)
case 1
k = 4;
%% step5 继续确定是否存在聚类中心
for p = 1:num
d =zeros(num,length(c));
for i = 1:length(c)
for j = 1:num
d(j,i) = norm(z(i,:)-W(j,:));
end
end
for i = 1:num
D(i) = min(d(i,:));
end
[m,n] = max(D);%最大值，位置if m>eta*norm(z(2,:)-z(1,:));
c(k) = n;
z(k,:) = W(c(k),:);
k = k+1;
else
break %没有新的聚类中心end
end
case 2
break
end
%% step6 最小距离法进行分类
%首先计算数据到每个聚类中心的距离
D =zeros(num,length(c));
for i = 1:length(c)
for j = 1:num
D(j,i) = norm(z(i,:)-W(j,:));
end
end
%归类，判断坐标点属于的类别
k = zeros(length(c),1);
for i = 1:num
[m,n] = min(D(i,:));
k(i,1) = n;%归类标识
end
%设置颜色
colour = zeros(length(c),3);
for i = 1:length(c)
colour(i,:) = rand(1,3);
end
for i = 1:length(c)
v = find(k == i);%位置
u = length(v);%个数
M = zeros(u,2);%用来存储所属同一类的点for j = 1:u
M(j,:) = W(v(j),:);
end
P = plot(M(:,1),M(:,2),'<');
set(P,'color',colour(i,:));
end。