模式识别作业(全)

合集下载

模式识别练习题

模式识别练习（1）主题：1．“基于最小错误率的贝叶斯决策”模式识别练习2．“基于最小风险的贝叶斯决策”模式识别练习3．基于“主成分分析”的贝叶斯决策模式识别练习已知训练样本集由“”、“”组成：={(0,0),(0,1),(1,0)};={(4,4),(4,5),(5,4),(5,5)}，而测试样本集为C={(2,2),(2.2,2.2),(3,3)}。

（1）利用“基于最小错误率的贝叶斯决策”判别测试集为C中的样本的归类；（2）利用“基于最小风险的贝叶斯决策”判别测试集为C中的样本的归类；（3）在进行“主成分分析”的基础上，采用90%的主成分完成前面的（1）、（2），比较结果的异同。

模式识别练习（2）主题：很多情况下，希望样本维数（特征数）越少越好，降维是解决问题的一个有效的方法。

主成分分析希望得到较少的特征数，而Fisher准则方法则将维数直接降到1维。

一、已知训练样本集由“”、“”组成：={(0,0),(0,1),(1,0)};={(4,4),(4,5),(5,4),(5,5)}，而测试样本集为C={(i,i)|i=0:0.005:5}。

分别利用基于最小错误率的贝叶斯决策、基于最小风险的贝叶斯决策、仅使用第一主成分、使用Fisher准则等四种方法（自编函数文件或用书上的函数文件）计算出测试集C中线段(0,0)-(5,5)的临界点；要求：将计算结果自动写入数据文件中二、已知训练样本集为教材上的10类手写数字集。

分别利用基于最小错误率的贝叶斯决策、基于最小风险的贝叶斯决策、仅使用第一主成分、使用Fisher准则等四种方法，统计出各大类的错误率和计算机cpu的计算时间，采用的测试集C依旧是10类手写数字集（虽然分类已知，但用不同的方法实际判别时可能有误判情况！）要求：使用书上的函数文件，并将计算结果自动写入数据文件中模式识别练习（3）一、已知训练样本集由“”、“”组成：={(0,0),(0,1),(1,0)}；={(4,4),(4,5),(5,4),(5,5)}，而测试样本集为C={(i,i)|i=0:0.01:5}。

模式识别大作业

一、问题描述现有sonar 和wdbc 这两个样本数据集，取一半数据作为训练样本集，其余数据作为测试样本集，通过编程实现分别用C 均值算法对测试样本集中的数据进行分类，进行10次分类求正确率的平均值。

二、算法描述1.初始化：选择c 个代表点,...,,321c p p p p2.建立c 个空间聚类表：C K K K ...,213.按照最小距离法则逐个对样本X 进行分类：),(),,(min arg J i iK x add p x j ∂=4.计算J 及用各聚类列表计算聚类均值，并用来作为各聚类新的代表点（更新代表点）5.若J 不变或代表点未发生变化，则停止。

否则转2.),(1∑∑=∈=ci K x i i p x J δ6.计算正确率：将dtat(i,1)与trueflag(i,1)（i=1~n ）进行比较，统计正确分类的样本数，并计算正确率将上述过程循环10次，得到10次的正确率，并计算平均正确率ave算法流程图三、实验数据表1 实验数据四、实验结果表2 实验结果准确率（%）注：表中准确率是十次实验结果的平均值五、程序源码用C均值算法对sonar分类（对wdbc分类的代码与之类似）clc;clear;accuracy = 0;for i = 1:10data = xlsread('sonar.xls');data = data';%初始划分2个聚类rand(:,1:size(data,2)) = data(:,randperm(size(data,2))'); %使矩阵元素按列重排A(:,1) = rand(:,1);B(:,1) = rand(:,2); %选取代表点m = 1;n = 1;for i = 3:size(rand,2)temp1 = rand(:,i) - A(:,1);temp2 = rand(:,i) - B(:,1);temp1(61,:) = [];temp2(61,:) = []; %去掉标号后再计算距离if norm(temp1) < norm(temp2)m = m + 1; %A类中样本个数A(:,m) = rand(:,i);elsen = n + 1; %B类中样本个数B(:,n) = rand(:,i);endend%划分完成m1 = mean(A,2);m2 = mean(B,2);%计算JeJ = 0;for i = 1:mtemp = A(:,i) - m1;temp(61,:) = []; %去掉标号的均值J = J + norm(temp)^2;endfor i = 1:ntemp = B(:,i) - m2;temp(61,:) = [];J = J + norm(temp)^2;endtest = [A,B];N = 0; %Je不变的次数while N < m + nrarr = randperm(m + n); %产生1-208即所有样本序号的随机不重复序列向量y = test(:,rarr(1,1));if rarr(1,1) <= m %y属于A类时if m == 1continueelsetemp1 = y - m1;temp1(61,:) = [];temp2 = y - m2;temp2(61,:) = [];p1 = m / (m - 1) * norm(temp1);p2 = n / (n + 1) * norm(temp2);if p2 < p1test = [test,y];test(:,rarr(1,1)) = [];m = m - 1;n = n + 1;endendelse %y属于B类时if n == 1continueelsetemp1 = y - m1;temp1(61,:) = [];temp2 = y - m2;temp2(61,:) = [];p1 = m / (m + 1) * norm(temp1);p2 = n / (n - 1) * norm(temp2);if p1 < p2test = [y,test];test(:,rarr(1,1)) = [];m = m + 1;n = n - 1;endendendA(:,1:m) = test(:,1:m);B(:,1:n) = test(:,m + 1:m + n);m1 = mean(A,2);m2 = mean(B,2);%计算JetempJ = 0;for i = 1:mtemp = A(:,i) - m1;temp(61,:) = []; %去掉标号的均值tempJ = tempJ + norm(temp)^2;endfor i = 1:ntemp = B(:,i) - m2;temp(61,:) = [];tempJ = tempJ + norm(temp)^2;endif tempJ == JN = N + 1;elseJ = tempJ;endend %while循环结束%判断正确率correct = 0;false = 0;A(:,1:m) = test(:,1:m);B(:,1:n) = test(:,m + 1:m + n);c = mean(A,2);if abs(c(61,1) - 1) < abs(c(61,1) - 2) %聚类A中大多为1类元素for i = 1:mif A(61,i) == 1correct = correct + 1;elsefalse = false + 1;endendfor i = 1:nif B(61,i) == 2correct = correct + 1;elsefalse = false + 1;endendelse %聚类A中大多为2类元素for i = 1:mif A(61,i) == 2correct = correct + 1;elsefalse = false + 1;endendfor i = 1:nif B(61,i) == 1correct = correct + 1;elsefalse = false + 1;endendendaccuracy = accuracy + correct / (correct + false);endaver_accuracy = accuracy / 10fprintf('用C均值算法对sonar进行十次分类的结果的平均正确率为%.2d %%.\n',aver_accuracy*100)六．实验心得本算法确定的K 个划分到达平方误差最小。

模式识别大作业

模式识别大作业1.最近邻/k近邻法一.基本概念：最近邻法：对于未知样本x，比较x与N个已知类别的样本之间的欧式距离，并决策x与距离它最近的样本同类。

K近邻法：取未知样本x的k个近邻，看这k个近邻中多数属于哪一类，就把x归为哪一类。

K取奇数，为了是避免k1=k2的情况。

二.问题分析：要判别x属于哪一类，关键要求得与x最近的k个样本（当k=1时，即是最近邻法），然后判别这k个样本的多数属于哪一类。

可采用欧式距离公式求得两个样本间的距离s=sqrt（（x1-x2）^2+(y1-y2)^2）三.算法分析：该算法中任取每类样本的一半作为训练样本，其余作为测试样本。

例如iris中取每类样本的25组作为训练样本，剩余25组作为测试样本，依次求得与一测试样本x距离最近的k 个样本，并判断k个样本多数属于哪一类，则x就属于哪类。

测试10次，取10次分类正确率的平均值来检验算法的性能。

四.MATLAB代码：最近邻算实现对Iris分类clc;totalsum=0;for ii=1:10data=load('iris.txt');data1=data(1:50,1:4);%任取Iris-setosa数据的25组rbow1=randperm(50);trainsample1=data1(rbow1(:,1:25),1:4);rbow1(:,26:50)=sort(rbow1(:,26:50));%剩余的25组按行下标大小顺序排列testsample1=data1(rbow1(:,26:50),1:4);data2=data(51:100,1:4);%任取Iris-versicolor数据的25组rbow2=randperm(50);trainsample2=data2(rbow2(:,1:25),1:4);rbow2(:,26:50)=sort(rbow2(:,26:50));testsample2=data2(rbow2(:,26:50),1:4);data3=data(101:150,1:4);%任取Iris-virginica数据的25组rbow3=randperm(50);trainsample3=data3(rbow3(:,1:25),1:4);rbow3(:,26:50)=sort(rbow3(:,26:50));testsample3=data3(rbow3(:,26:50),1:4);trainsample=cat(1,trainsample1,trainsample2,trainsample3);%包含75组数据的样本集testsample=cat(1,testsample1,testsample2,testsample3);newchar=zeros(1,75);sum=0;[i,j]=size(trainsample);%i=60,j=4[u,v]=size(testsample);%u=90,v=4for x=1:ufor y=1:iresult=sqrt((testsample(x,1)-trainsample(y,1))^2+(testsample(x,2) -trainsample(y,2))^2+(testsample(x,3)-trainsample(y,3))^2+(testsa mple(x,4)-trainsample(y,4))^2); %欧式距离newchar(1,y)=result;end;[new,Ind]=sort(newchar);class1=0;class2=0;class3=0;if Ind(1,1)<=25class1=class1+1;elseif Ind(1,1)>25&&Ind(1,1)<=50class2=class2+1;elseclass3=class3+1;endif class1>class2&&class1>class3m=1;ty='Iris-setosa';elseif class2>class1&&class2>class3m=2;ty='Iris-versicolor';elseif class3>class1&&class3>class2m=3;ty='Iris-virginica';elsem=0;ty='none';endif x<=25&&m>0disp(sprintf('第%d组数据分类后为%s类',rbow1(:,x+25),ty));elseif x<=25&&m==0disp(sprintf('第%d组数据分类后为%s类',rbow1(:,x+25),'none'));endif x>25&&x<=50&&m>0disp(sprintf('第%d组数据分类后为%s类',50+rbow2(:,x),ty));elseif x>25&&x<=50&&m==0disp(sprintf('第%d组数据分类后为%s类',50+rbow2(:,x),'none'));endif x>50&&x<=75&&m>0disp(sprintf('第%d组数据分类后为%s类',100+rbow3(:,x-25),ty));elseif x>50&&x<=75&&m==0disp(sprintf('第%d组数据分类后为%s类',100+rbow3(:,x-25),'none'));endif (x<=25&&m==1)||(x>25&&x<=50&&m==2)||(x>50&&x<=75&&m==3)sum=sum+1;endenddisp(sprintf('第%d次分类识别率为%4.2f',ii,sum/75));totalsum=totalsum+(sum/75);enddisp(sprintf('10次分类平均识别率为%4.2f',totalsum/10));测试结果：第3组数据分类后为Iris-setosa类第5组数据分类后为Iris-setosa类第6组数据分类后为Iris-setosa类第7组数据分类后为Iris-setosa类第10组数据分类后为Iris-setosa类第11组数据分类后为Iris-setosa类第12组数据分类后为Iris-setosa类第14组数据分类后为Iris-setosa类第16组数据分类后为Iris-setosa类第18组数据分类后为Iris-setosa类第19组数据分类后为Iris-setosa类第20组数据分类后为Iris-setosa类第23组数据分类后为Iris-setosa类第24组数据分类后为Iris-setosa类第26组数据分类后为Iris-setosa类第28组数据分类后为Iris-setosa类第30组数据分类后为Iris-setosa类第31组数据分类后为Iris-setosa类第34组数据分类后为Iris-setosa类第37组数据分类后为Iris-setosa类第39组数据分类后为Iris-setosa类第41组数据分类后为Iris-setosa类第44组数据分类后为Iris-setosa类第45组数据分类后为Iris-setosa类第49组数据分类后为Iris-setosa类第53组数据分类后为Iris-versicolor类第54组数据分类后为Iris-versicolor类第55组数据分类后为Iris-versicolor类第57组数据分类后为Iris-versicolor类第58组数据分类后为Iris-versicolor类第59组数据分类后为Iris-versicolor类第60组数据分类后为Iris-versicolor类第61组数据分类后为Iris-versicolor类第62组数据分类后为Iris-versicolor类第68组数据分类后为Iris-versicolor类第70组数据分类后为Iris-versicolor类第71组数据分类后为Iris-virginica类第74组数据分类后为Iris-versicolor类第75组数据分类后为Iris-versicolor类第77组数据分类后为Iris-versicolor类第79组数据分类后为Iris-versicolor类第80组数据分类后为Iris-versicolor类第84组数据分类后为Iris-virginica类第85组数据分类后为Iris-versicolor类第92组数据分类后为Iris-versicolor类第95组数据分类后为Iris-versicolor类第97组数据分类后为Iris-versicolor类第98组数据分类后为Iris-versicolor类第99组数据分类后为Iris-versicolor类第102组数据分类后为Iris-virginica类第103组数据分类后为Iris-virginica类第105组数据分类后为Iris-virginica类第106组数据分类后为Iris-virginica类第107组数据分类后为Iris-versicolor类第108组数据分类后为Iris-virginica类第114组数据分类后为Iris-virginica类第118组数据分类后为Iris-virginica类第119组数据分类后为Iris-virginica类第124组数据分类后为Iris-virginica类第125组数据分类后为Iris-virginica类第126组数据分类后为Iris-virginica类第127组数据分类后为Iris-virginica类第128组数据分类后为Iris-virginica类第129组数据分类后为Iris-virginica类第130组数据分类后为Iris-virginica类第133组数据分类后为Iris-virginica类第135组数据分类后为Iris-virginica类第137组数据分类后为Iris-virginica类第142组数据分类后为Iris-virginica类第144组数据分类后为Iris-virginica类第148组数据分类后为Iris-virginica类第149组数据分类后为Iris-virginica类第150组数据分类后为Iris-virginica类k近邻法对wine分类：clc;otalsum=0;for ii=1:10 %循环测试10次data=load('wine.txt');%导入wine数据data1=data(1:59,1:13);%任取第一类数据的30组rbow1=randperm(59);trainsample1=data1(sort(rbow1(:,1:30)),1:13);rbow1(:,31:59)=sort(rbow1(:,31:59)); %剩余的29组按行下标大小顺序排列testsample1=data1(rbow1(:,31:59),1:13);data2=data(60:130,1:13);%任取第二类数据的35组rbow2=randperm(71);trainsample2=data2(sort(rbow2(:,1:35)),1:13);rbow2(:,36:71)=sort(rbow2(:,36:71));testsample2=data2(rbow2(:,36:71),1:13);data3=data(131:178,1:13);%任取第三类数据的24组rbow3=randperm(48);trainsample3=data3(sort(rbow3(:,1:24)),1:13);rbow3(:,25:48)=sort(rbow3(:,25:48));testsample3=data3(rbow3(:,25:48),1:13);train_sample=cat(1,trainsample1,trainsample2,trainsample3);%包含89组数据的样本集test_sample=cat(1,testsample1,testsample2,testsample3);k=19;%19近邻法newchar=zeros(1,89);sum=0;[i,j]=size(train_sample);%i=89,j=13[u,v]=size(test_sample);%u=89,v=13for x=1:ufor y=1:iresult=sqrt((test_sample(x,1)-train_sample(y,1))^2+(test_sample(x ,2)-train_sample(y,2))^2+(test_sample(x,3)-train_sample(y,3))^2+( test_sample(x,4)-train_sample(y,4))^2+(test_sample(x,5)-train_sam ple(y,5))^2+(test_sample(x,6)-train_sample(y,6))^2+(test_sample(x ,7)-train_sample(y,7))^2+(test_sample(x,8)-train_sample(y,8))^2+( test_sample(x,9)-train_sample(y,9))^2+(test_sample(x,10)-train_sa mple(y,10))^2+(test_sample(x,11)-train_sample(y,11))^2+(test_samp le(x,12)-train_sample(y,12))^2+(test_sample(x,13)-train_sample(y, 13))^2); %欧式距离newchar(1,y)=result;end;[new,Ind]=sort(newchar);class1=0;class 2=0;class 3=0;for n=1:kif Ind(1,n)<=30class 1= class 1+1;elseif Ind(1,n)>30&&Ind(1,n)<=65class 2= class 2+1;elseclass 3= class3+1;endendif class 1>= class 2&& class1>= class3m=1;elseif class2>= class1&& class2>= class3m=2;elseif class3>= class1&& class3>= class2m=3;endif x<=29disp(sprintf('第%d组数据分类后为第%d类',rbow1(:,30+x),m));elseif x>29&&x<=65disp(sprintf('第%d组数据分类后为第%d类',59+rbow2(:,x+6),m));elseif x>65&&x<=89disp(sprintf('第%d组数据分类后为第%d类',130+rbow3(:,x-41),m));endif (x<=29&&m==1)||(x>29&&x<=65&&m==2)||(x>65&&x<=89&&m==3) sum=sum+1;endenddisp(sprintf('第%d次分类识别率为%4.2f',ii,sum/89));totalsum=totalsum+(sum/89);enddisp(sprintf('10次分类平均识别率为%4.2f',totalsum/10));第2组数据分类后为第1类第4组数据分类后为第1类第5组数据分类后为第3类第6组数据分类后为第1类第8组数据分类后为第1类第10组数据分类后为第1类第11组数据分类后为第1类第14组数据分类后为第1类第16组数据分类后为第1类第19组数据分类后为第1类第20组数据分类后为第3类第21组数据分类后为第3类第22组数据分类后为第3类第26组数据分类后为第3类第27组数据分类后为第1类第28组数据分类后为第1类第30组数据分类后为第1类第33组数据分类后为第1类第36组数据分类后为第1类第37组数据分类后为第1类第43组数据分类后为第1类第44组数据分类后为第3类第45组数据分类后为第1类第46组数据分类后为第1类第49组数据分类后为第1类第54组数据分类后为第1类第56组数据分类后为第1类第57组数据分类后为第1类第60组数据分类后为第2类第61组数据分类后为第3类第63组数据分类后为第3类第65组数据分类后为第2类第66组数据分类后为第3类第67组数据分类后为第2类第71组数据分类后为第1类第72组数据分类后为第2类第74组数据分类后为第1类第76组数据分类后为第2类第77组数据分类后为第2类第79组数据分类后为第3类第81组数据分类后为第2类第82组数据分类后为第3类第83组数据分类后为第3类第84组数据分类后为第2类第86组数据分类后为第2类第87组数据分类后为第2类第88组数据分类后为第2类第93组数据分类后为第2类第96组数据分类后为第1类第98组数据分类后为第2类第99组数据分类后为第3类第102组数据分类后为第2类第104组数据分类后为第2类第105组数据分类后为第3类第106组数据分类后为第2类第110组数据分类后为第3类第113组数据分类后为第3类第114组数据分类后为第2类第115组数据分类后为第2类第116组数据分类后为第2类第118组数据分类后为第2类第122组数据分类后为第2类第123组数据分类后为第2类第124组数据分类后为第2类第133组数据分类后为第3类第134组数据分类后为第3类第135组数据分类后为第2类第136组数据分类后为第3类第140组数据分类后为第3类第142组数据分类后为第3类第144组数据分类后为第2类第145组数据分类后为第1类第146组数据分类后为第3类第148组数据分类后为第3类第149组数据分类后为第2类第152组数据分类后为第2类第157组数据分类后为第2类第159组数据分类后为第3类第161组数据分类后为第2类第162组数据分类后为第3类第163组数据分类后为第3类第164组数据分类后为第3类第165组数据分类后为第3类第167组数据分类后为第3类第168组数据分类后为第3类第173组数据分类后为第3类第174组数据分类后为第3类2.Fisher线性判别法Fisher 线性判别是统计模式识别的基本方法之一。

模式识别作业

模式识别简介1 模式识别的基本理论模式识别是信号处理与人工智能的一个重要分支。

人工智能是专门研究用机器人模拟人的动作、感觉和思维过程与规律的一门科学，而模式识别则是利用计算机专门对物理量及其变化过程进行描述与分类，通常用来对图像、文字、相片以及声音等信息进行处理、分类和识别。

它诞生于20世纪2O年代，随着40年代计算机的出现，5O年代人工智能的兴起，模式识别在6O年代迅速发展为一门科学。

它所研究的理论和方法在很多科学和技术领域中得到了广泛的重视与应用，推动了人工智能系统的发展，扩大了计算机应用的可能性。

我们在生活中时时刻刻都在进行模式识别，如识物辨声辨味等行为均属于模式识别的范畴，计算机出现后，人们企图用计算机来实现人或动物所具备的模式识别能力。

当前主要是模拟人的视觉能力、听觉能力和嗅觉能力，如现在研究比较热门的图像识别技术和语音识别技术，这些技术己被广泛应用于军事与民用工业中。

模式识别的理论和方法还广泛应用于工业控制系统、地质地理、气象、化工、环境、生物医学等领域中去。

1.1 模式识别的基本概念从广义上说，模式(patten)是供模仿用的完美无缺的标本，通常，把通过对具体的个别事物进行观察所得到的具有时间和空间分布的信息称之为模式；而把模式所属的类别或同一类中模式的总体称为模式类。

模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程，是信息科学和人工智能的重要组成部分。

2 模式识别的方法2．1 决策理论法又称统计法，是发展较早也比较成熟的一种方法。

被识别对象首先数字化，变换为适于计算机处理的数字信息。

一个模式常常要用很大的信息量来表示。

许多模式识别系统在数字化环节之后还进行预处理，用于除去混入的干扰信息并减少某些变形和失真。

随后是进行特征抽取，即从数字化后或预处理后的输入模式中抽取一组特征。

模式识别作业

（1）先用C-均值聚类算法程序，并用下列数据进行聚类分析。

在确认编程正确后，采用蔡云龙书的附录B中表1的Iris数据进行聚类。

然后使用近邻法的快速算法找出待分样本X （设X样本的4个分量x1=x2=x3=x4=6；子集数l=3）的最近邻节点和3-近邻节点及X与它们之间的距离。

并建议适当对书中所述算法进行改进。

并分别画出流程图、写出算法及程序。

x1=(0,0) x2=(1,0) x3=(0,1) x4=(1,1) x5=(2,1) x6=(1,2) x7=(2,2) x8=(3,2) x9=(6,6) x10=(7,6) x11=(8,6) x12=(6,7) x13=(7,7) x14=(8,7) x15=(9,7) x16=(7,8) x17=(8,8) x18=(9,8) x19=(8,9) x20=(9,9)
（2）写一篇论文。

内容可以包含下面四个方面中的一个：
①新技术（如数据挖掘等）在模式识别中的应用；
②模式识别最新的研究方向；
③一个相关系统的分析；
④一个算法的优化；
（3）书142页，描述近邻法的快速算法，写个报告。

模式识别作业

第四章模式识别作业姓名：谢雪琴学号：20102220551、阐述线性判别函数的几何意义和用于分类的实用价值。

答：线性判别函数的几何意义：利用线性判别函数进行决策，它可以看成是两类数据沿着一个向量投影，在向量上存在一个超平面，能将两类数据分隔开，即两类数据能够完全被区别。

线性判别函数可以是最小错误率或最小风险意义下的最优分类器。

它利用一个超平面把特征空间分割成为两个决策区域，超平面的方向由权向量W确定，它的位置由阈权值w0确定，判别函数g（x）正比于x点到超平面的代数距离（带正负号），当x在H正侧时，g（x）>0，当在H负侧时，g（x）<0;使用价值：线性分类器是最简单的分类器，但是样本在某些分布情况时，线性判别函数可以成为最小错误率或最小风险意义下的最优分类器。

而在一般情况下，线性分类器只能是次优分类器，但是因为他简单而且在很多情况下效果接近最优，所以应用比较广发，在样本有限的情况下有时甚至能取得比复杂分类器更好地效果2、参考教材4.3，完成线性判别分析（LDA）的Matlab实现，并用Fisher's Iris Data【注】进行验证（考虑其中的2类即可）。

注：Fisher's Iris Data: Fisher's iris data consists of measurements on the sepal length, sepal width, petal length, and petal width of 150 iris specimens. There are 50 specimens from each of three species. 在Matlab中调用load fisheriris可以得到该数据，meas为150×4的数据矩阵，species为150×1的cell矩阵，含有类别信息。

3、试推导出感知器算法的迭代求解过程，尝试用Matlab实现，并用Fisher's Iris Data进行验证（考虑2类分类即可）。

模式识别练习题(简答和计算)

这两个特征向量，即为主分量。 (3) K-L 变换的最佳准则为：
对一组数据进行按一组正交基分解，在只取相同数量分量的条件下，以均方误差计算截尾误差最小。 (4) 在经主分量分解后，协方差矩阵成为对角矩阵，因而各主分量间相关性消除。
4、试说明以下问题求解是基于监督学习或是非监督学习： (1) 求数据集的主分量 (2) 汉字识别 (3) 自组织特征映射 (4) CT 图像的分割答：(1) 求数据集的主分量是非监督学习方法； (2) 汉字识别：对待识别字符加上相应类别号—有监督学习方法； (3) 自组织特征映射—将高维数组按保留近似度向低维映射—非监督学习； (4) CT 图像分割—按数据自然分布聚类—非监督学习方法； 5、试列举线性分类器中最著名的三种最佳准则以及它们各自的原理。答：线性分类器三种最优准则： Fisher 准则：根据两类样本一般类内密集，类间分离的特点，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。感知准则函数：准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。支持向量机：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大，它的基本出发点是使期望泛化风险尽可能小。 6、试分析五种常用决策规则思想方法的异同。答、五种常用决策是： 1. 基于最小错误率的贝叶斯决策，利用概率论中的贝叶斯公式，得出使得错误率最小的分类规则。 2. 基于最小风险的贝叶斯决策，引入了损失函数，得出使决策风险最小的分类。当在 0-1 损失函数条件下，基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决

(完整word版)模式识别试题及总结

一、填空与选择填空（本题答案写在此试卷上，30分）1、模式识别系统的基本构成单元包括：模式采集、特征提取与选择和模式分类。

2、统计模式识别中描述模式的方法一般使用特真矢量；句法模式识别中模式描述方法一般有串、树、网。

3、聚类分析算法属于（1）；判别域代数界面方程法属于（3）。

（1）无监督分类 (2)有监督分类（3）统计模式识别方法（4）句法模式识别方法4、若描述模式的特征量为0-1二值特征量，则一般采用（4）进行相似性度量。

（1）距离测度（2）模糊测度（3）相似测度（4）匹配测度5、下列函数可以作为聚类分析中的准则函数的有（1）（3）（4）。

（1）（2） (3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在（2）中进行。

（1）二维空间（2）一维空间（3）N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有（1）；线性可分、不可分都适用的有（3）。

（1）感知器算法（2）H-K算法（3）积累位势函数法8、下列四元组中满足文法定义的有（1）（2）（4）。

（1）({A, B}, {0, 1}, {A→01, A→ 0A1 , A→ 1A0 , B→BA , B→ 0}, A)（2）({A}, {0, 1}, {A→0, A→ 0A}, A)（3）({S}, {a, b}, {S → 00S, S → 11S, S → 00, S → 11}, S)（4）({A}, {0, 1}, {A→01, A→ 0A1, A→ 1A0}, A)9、影响层次聚类算法结果的主要因素有（计算模式距离的测度、（聚类准则、类间距离门限、预定的类别数目））。

10、欧式距离具有（ 1、2 ）；马式距离具有（1、2、3、4 ）。

（1）平移不变性（2）旋转不变性（3）尺度缩放不变性（4）不受量纲影响的特性11、线性判别函数的正负和数值大小的几何意义是（正（负）表示样本点位于判别界面法向量指向的正（负）半空间中；绝对值正比于样本点到判别界面的距离。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

模式识别大作业
一．K均值聚类（必做，40分）
1.K均值聚类的基本思想以及K均值聚类过程的流程图；
2.利用K均值聚类对Iris数据进行分类，已知类别总数为3。

给出具体的C语言代码，
并加注释。

例如，对于每一个子函数，标注其主要作用，及其所用参数的意义，对程序中定义的一些主要变量，标注其意义；
3.给出函数调用关系图，并分析算法的时间复杂度；
4.给出程序运行结果，包括分类结果（只要给出相对应的数据的编号即可）以及循环
迭代的次数；
5.分析K均值聚类的优缺点。

二．贝叶斯分类（必做，40分）
1.什么是贝叶斯分类器，其分类的基本思想是什么；
2.两类情况下，贝叶斯分类器的判别函数是什么，如何计算得到其判别函数；
3.在Matlab下，利用mvnrnd()函数随机生成60个二维样本，分别属于两个类别（一
类30个样本点），将这些样本描绘在二维坐标系下，注意特征值取值控制在（-5，5）范围以内；
4.用样本的第一个特征作为分类依据将这60个样本进行分类，统计正确分类的百分
比，并在二维坐标系下将正确分类的样本点与错误分类的样本点用不同标志（正确分类的样本点用“O”，错误分类的样本点用“X”）画出来；
5.用样本的第二个特征作为分类依据将这60个样本再进行分类，统计正确分类的百分
比，并在二维坐标系下将正确分类的样本点与错误分类的样本点用不同标志画出来；
6.用样本的两个特征作为分类依据将这60个样本进行分类，统计正确分类的百分比，
并在二维坐标系下将正确分类的样本点与错误分类的样本点用不同标志画出来；
7.分析上述实验的结果。

8.60个随即样本是如何产生的的；给出上述三种情况下的两类均值、方差、协方差矩
阵以及判别函数；
三．特征选择（选作，15分）
1.经过K均值聚类后，Iris数据被分作3类。

从这三类中各选择10个样本点；
2.通过特征选择将选出的30个样本点从4维降低为3维，并将它们在三维的坐标系中
画出（用Excell）；
3.在三维的特征空间下，利用这30个样本点设计贝叶斯分类器，然后对这30个样本
点利用贝叶斯分类器进行判别分类，给出分类的正确率，分析实验结果，并说明特征选择的依据；。