matlab中主成分分析的函数1

合集下载

主成分分析 MATLAB代码

T=L(:,1)+L(:,2)+L(:,3)+L(:,4); %计算T统计量
%特征向量图(效果等价于主成分载荷图)
figure(4); %创造第二个图形窗口
e1=-E(:,1);e2=-E(:,2); %提取特征向量并转换符号
Co2=Co1+A(:,2).^2; %提取2个主成分的公因子方差
Co3=Co2+A(:,3).^2; %提取3个主成分的公因子方差
Co4=Co3+A(:,4).^2; %提取4个主成分的公因子方差
Rz=cov(F); %计算协方差矩阵
Rz=corrcoef(F); %计算相关系数矩阵
Rz=corrcoef(Z); %计算相关系数矩阵
%计算非标准化数据协方差矩阵的三种方法
Covz=Z'*Z/(n-1); %计算协方差矩阵
Covz=cov(Z); %计算协方差矩阵
%计算主成分得分相关系数的四种方法
Rz=F'*F/(n-1); %计算相关系数矩阵
grid on %添加网格
%几个用于检验的语句
%计算再生相关系数矩阵
Rp=H*H'; %计算再生相关矩阵
Re=R-Rp; %计算相关矩阵的残差矩阵
%综合得分
S=Z(:,1)+Z(:,2)+Z(:,3)+Z(:,4) %非标准化得分四列加和
S1=F(:,1)*eigv(1)^0.5+F(:,2)*eigv(2)^0.5+F(:,3)*eigv(3)^0.5+F(:,4)*eigv(4)^0.5
%计算T平方统计量(2)
eigv=diag(G); %提取角矩阵的对角线元素

matlab主成分分析法[统计学经典理论]

§10.利用Matlab 编程实现主成分分析1.概述Matlab 语言是当今国际上科学界 (尤其是自动控制领域) 最具影响力、也是最有活力的软件。

它起源于矩阵运算，并已经发展成一种高度集成的计算机语言。

它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、与其他程序和语言的便捷接口的功能。

Matlab 语言在各国高校与研究单位起着重大的作用。

主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。

1.1主成分分析计算步骤 ① 计算相关系数矩阵 ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=pp p p p p r r r r r r r r r R 212222111211 （1）在（3.5.3）式中，r ij （i ，j=1，2，…，p ）为原变量的xi 与xj 之间的相关系数，其计算公式为 ∑∑∑===----=n k n k j kj i ki n k j kj i ki ij x x x x x x x x r 11221)()())(( （2）因为R 是实对称矩阵（即r ij =r ji ），所以只需计算上三角元素或下三角元素即可。

② 计算特征值与特征向量首先解特征方程0=-R I λ，通常用雅可比法（Jacobi ）求出特征值),,2,1(p i i =λ，并使其按大小顺序排列，即0,21≥≥≥≥pλλλ ；然后分别求出对应于特征值i λ的特征向量),,2,1(p i e i =。

这里要求i e =1，即112=∑=p j ij e ，其中ij e 表示向量i e 的第j 个分量。

③ 计算主成分贡献率及累计贡献率主成分i z 的贡献率为),,2,1(1p i p k k i =∑=λλ 累计贡献率为 ),,2,1(11p i pk k i k k =∑∑==λλ一般取累计贡献率达85—95%的特征值m λλλ,,,21 所对应的第一、第二，…，第m （m ≤p ）个主成分。

主成分分析及MATLAB应用代码

主成分分析类型：一种处理高维数据的方法。

降维思想：在实际问题的研究中，往往会涉及众多有关的变量。

但是，变量太多不但会增加计算的复杂性，而且也会给合理地分析问题和解释问题带来困难。

一般说来，虽然每个变量都提供了一定的信息，但其重要性有所不同，而在很多情况下，变量间有一定的相关性，从而使得这些变量所提供的信息在一定程度上有所重叠。

因而人们希望对这些变量加以“改造”，用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息，通过对新变量的分析达到解决问题的目的。

一、总体主成分1.1 定义设 X 1，X 2，…，X p 为某实际问题所涉及的 p 个随机变量。

记 X=(X 1，X 2，…,Xp)T ，其协方差矩阵为()[(())(())],T ij p p E X E X X E X σ⨯∑==--它是一个 p 阶非负定矩阵。

设1111112212221122221122Tp p Tp pT pp p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X⎧==+++⎪==+++⎪⎨⎪⎪==+++⎩ （1）则有()(),1,2,...,,(,)(,),1,2,...,.T T i i i i TT T i j ijij Var Y Var l X l l i p Cov Y Y Cov l X l X l l j p ==∑===∑= （2）第 i 个主成分：一般地，在约束条件1T i i l l =及(,)0,1,2,..., 1.T i k i k Cov Y Y l l k i =∑==-下，求 l i 使 Var(Y i )达到最大，由此 l i 所确定的T i i Y l X =称为 X 1，X 2，…，X p 的第 i 个主成分。

1.2 总体主成分的计算设 ∑是12(,,...,)T p X X X X =的协方差矩阵，∑的特征值及相应的正交单位化特征向量分别为120p λλλ≥≥≥≥及12,,...,,p e e e则 X 的第 i 个主成分为1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= （3）此时(),1,2,...,,(,)0,.Ti i i i Ti k i k Var Y e e i p Cov Y Y e e i k λ⎧=∑==⎪⎨=∑=≠⎪⎩ 1.3 总体主成分的性质1.3.1 主成分的协方差矩阵及总方差记 12(,,...,)T p Y Y Y Y = 为主成分向量，则 Y=P T X ，其中12(,,...,)p P e e e =，且12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ=由此得主成分的总方差为111()()()()(),p ppTTiii i i i Var Y tr P P tr PP tr Var X λ=====∑=∑=∑=∑∑∑即主成分分析是把 p 个原始变量 X 1，X 2，…，X p 的总方差1()pii Var X =∑分解成 p 个互不相关变量 Y 1，Y 2，…，Y p 的方差之和，即1()pii Var Y =∑而 ()k k Var Y λ=。

主成分分析matlab程序.doc

Matlab 编程实现主成分分析. 程序结构及函数作用在软件 Matlab 中实现主成分分析可以采取两种方式实现：一是通过编程来实现；二是直接调用 Matlab 种自带程序实现。

下面主要主要介绍利用 Matlab 的矩阵计算功能编程实现主成分分析。

1程序结构主函数子函数2函数作用——用总和标准化法标准化矩阵——计算相关系数矩阵；计算特征值和特征向量；对主成分进行排序；计算各特征值贡献率；挑选主成分（累计贡献率大于 85%），输出主成分个数；计算主成分载荷——计算各主成分得分、综合得分并排序——读入数据文件；调用以上三个函数并输出结果3.源程序总和标准化法标准化矩阵%,用总和标准化法标准化矩阵function std=cwstd(vector)cwsum=sum(vector,1);% [a,b]=size(vector);%for i=1:afor j=1:b 对列求和矩阵大小 ,a 为行数 ,b 为列数std(i,j)= vector(i,j)/cwsum(j);endend计算相关系数矩阵%function result=cwfac(vector);fprintf('相关系数矩阵 :\n')std=CORRCOEF(vector) % 计算相关系数矩阵fprintf('特征向量 (vec) 及特征值 (val) ： \n')[vec,val]=eig(std) %求特征值(val)及特征向量(vec)newval=diag(val) ;[y,i]=sort(newval) ; % 对特征根进行排序，y 为排序结果，i 为索引fprintf('特征根排序： \n')for z=1:length(y)newy(z)=y(length(y)+1-z);endfprintf('%g\n',newy)rate=y/sum(y);fprintf('\n贡献率： \n')newrate=newy/sum(newy)sumrate=0;newi=[];for k=length(y):-1:1sumrate=sumrate+rate(k);newi(length(y)+1-k)=i(k);if sumrate> break;endend % 记下累积贡献率大 85%的特征值的序号放入 newi 中 fprintf(' 主成分数： %g\n\n',length(newi)); fprintf(' 主成分载荷： \n')for p=1:length(newi)for q=1:length(y)result(q,p)=sqrt(newval(newi(p)))*vec(q,newi(p));endend%计算载荷disp(result)%,计算得分function score=cwscore(vector1,vector2);sco=vector1*vector2;csum=sum(sco,2);[newcsum,i]=sort(-1*csum);[newi,j]=sort(i);fprintf('计算得分： \n')score=[sco,csum,j]%得分矩阵： sco 为各主成分得分； csum为综合得分； j 为排序结果%function print=cwprint(filename,a,b);%filename 为文本文件文件名， a 为矩阵行数 ( 样本数 ) ，b 为矩阵列数 ( 变量指标数 )fid=fopen(filename,'r')vector=fscanf(fid,'%g',[a b]);fprintf('标准化结果如下： \n')v1=cwstd(vector)result=cwfac(v1);cwscore(v1,result);4.程序测试例题原始数据中国大陆 35 个大城市某年的10 项社会经济统计指标数据见下表。

主成分分析简介算法分析及matlab程序

主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。

通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。

最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(F1)越大，表示F1包含的信息越多。

因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。

如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov(F1, F2)=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

Cwstd.m——用总和标准化法标准化矩阵Cwfac.m——计算相关系数矩阵；计算特征值和特征向量；对主成分进行排序；计算各特征值贡献率；挑选主成分（累计贡献率大于85%），输出主成分个数；计算主成分载荷Cwscore.m——计算各主成分得分、综合得分并排序Cwprint.m——读入数据文件；调用以上三个函数并输出结果3.源程序3.1 cwstd.m总和标准化法标准化矩阵%cwstd.m,用总和标准化法标准化矩阵functionstd=cwstd(vector)cwsum=sum(vector,1); %对列求和[a,b]=size(vector); %矩阵大小,a为行数,b为列数fori=1:afor j=1:bstd(i,j)= vector(i,j)/cwsum(j);endend3.2 cwfac.m计算相关系数矩阵%cwfac.mfunction result=cwfac(vector);fprintf('相关系数矩阵:\n')std=CORRCOEF(vector) %计算相关系数矩阵fprintf('特征向量(vec)及特征值(val)：\n')[vec,val]=eig(std) %求特征值(val)及特征向量(vec)newval=diag(val) ;[y,i]=sort(newval) ; %对特征根进行排序，y为排序结果，i为索引fprintf('特征根排序：\n')for z=1:length(y)newy(z)=y(length(y)+1-z); %与上排序结果相反排序endfprintf('%g\n',newy)rate=y/sum(y);fprintf('\n贡献率：\n')newrate=newy/sum(newy)sumrate=0;newi=[];for k=length(y):-1:1sumrate=sumrate+rate(k);newi(length(y)+1-k)=i(k);ifsumrate>0.85 break;endend %记下累积贡献率大85%的特征值的序号放入newi中fprintf('主成分数：%g\n\n',length(newi));fprintf('主成分载荷：\n')for p=1:length(newi)for q=1:length(y)result(q,p)=sqrt(newval(newi(p)))*vec(q,newi(p));endend %计算载荷disp(result)3.3 cwscore.m%cwscore.m,计算得分function score=cwscore(vector1,vector2);sco=vector1*vector2;csum=sum(sco,2);[newcsum,i]=sort(-1*csum);[newi,j]=sort(i);fprintf('计算得分：\n')score=[sco,csum,j]%得分矩阵：sco为各主成分得分；csum为综合得分；j为排序结果3.4 cwprint.m%cwprint.mfunction print=cwprint(filename,a,b);%filename为文本文件文件名，a为矩阵行数(样本数)，b为矩阵列数(变量指标数) fid=fopen(filename,'r')vector=fscanf(fid,'%g',[a b]);fprintf('标准化结果如下：\n')v1=cwstd(vector)result=cwfac(v1);cwscore(v1,result);。

使用Matlab进行高维数据降维与可视化的方法

使用Matlab进行高维数据降维与可视化的方法数据降维是数据分析和可视化中常用的技术之一，它可以将高维数据映射到低维空间中，从而降低数据的维度并保留数据的主要特征。

在大数据时代，高维数据的处理和分析变得越来越重要，因此掌握高维数据降维的方法是一项关键技能。

在本文中，我们将介绍使用Matlab进行高维数据降维与可视化的方法。

一、PCA主成分分析主成分分析（Principal Component Analysis，PCA）是一种常用的降维方法，它通过线性变换将原始数据映射到新的坐标系中。

在新的坐标系中，数据的维度会减少，从而方便进行可视化和分析。

在Matlab中，PCA可以使用`pca`函数来实现。

首先，我们需要将数据矩阵X 传递给`pca`函数，并设置降维后的维度。

`pca`函数将返回一个降维后的数据矩阵Y和对应的主成分分析结果。

```matlabX = [1 2 3; 4 5 6; 7 8 9]; % 原始数据矩阵k = 2; % 降维后的维度[Y, ~, latent] = pca(X, 'NumComponents', k); % PCA降维explained_variance_ratio = latent / sum(latent); % 各主成分的方差解释比例```通过这段代码，我们可以得到降维后的数据矩阵Y，它的维度被减少为k。

我们还可以计算出每个主成分的方差解释比例，从而了解每个主成分对数据方差的贡献程度。

二、t-SNE t分布随机邻域嵌入t分布随机邻域嵌入（t-distributed Stochastic Neighbor Embedding，t-SNE）是一种非线性的高维数据降维方法，它能够有效地保留数据样本之间的局部结构关系。

相比于PCA，t-SNE在可视化高维数据时能够更好地展现不同类别之间的差异。

在Matlab中，t-SNE可以使用`tsne`函数来实现。

我们同样需要将数据矩阵X 传递给`tsne`函数，并设置降维后的维度。

Matlab主成分分析：详解+实例

主成分分析(PCA)中我们的目标是找到一个能使个体差异达到最大的变量线性组合。
主成分分析
总结:
主原始变量目标
成
X1, , Xm
主成分
Z1, ,Zp
分
线性组合
分
Z1, , Zp 互不相关
析的
信息不重合按‘重要性’排序
求解主成分
思
Z1, , Zp
想 Var(Z1) Var(Z2 ) Var(Zp )
r
i r 2(z j , xi )，
j1
这里r(z j , xi )表示zj 与 xi 的相关系数。
主成分分析
1 2 0
例1 设 x [ x1, x2 , x3 ]T 且 R 2 5 0
0 0 0
则可算得1 5.8284，2 0.1716，如果我们仅取第
一个主成分，由于其累积贡献率已经达到97.14%，似乎很理想了，但如果进一步计算主成分对原变量的
c1 x1+ c2 x2+… +cp xp
我们希望选择适当的权重能更好地区分学生的成绩. 每个学生都对应一个这样的综合成绩, 记为s1, s2,…, sn , n为学生人数. 如果这些值很分散, 表明区分好, 即是说, 需要寻找这样的加权, 能使 s1, s2,…, sn 尽可能的分散, 下面来看的统计定义.
x5:交通和通讯,
x6:娱乐教育文化服务,
x7:居住,
x8:杂项商品和服务.
对居民消费数据做主成分分析.
聚类分析
聚类分析
聚类分析
计算的Matlab程序如下:
clc,clear load czjm1999.txt
%把原始数据保存在纯文本文件czjm1999.txt中

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

matlab中主成分分析的函数
1.princomp函数
功能：主成分分析
格式：PC=princomp(X)
[PC,SCORE,latent,tsquare]=princomp(X)
说明：[PC,SCORE,latent,tsquare]=princomp(X)对数据矩阵(即样本观测值矩阵)X进行主成分分析，给出各主成分 (PC)、所谓的Z-得分(SCORE)、X的方差矩阵的特征值(latent)和每个数据点的服务霍特林（Hotelling）T2统计量(tsquare)。

2.pcacov函数
功能：运用协方差矩阵或相关系数矩阵进行主成分分析
格式：PC=pcacov(X)
[PC,latent,explained]=pcacov(X)
说明：[PC,latent,explained]=pcacov(X)通过协方差矩阵X或相关系数矩阵进行主成分分析，返回主成分(PC)、协方差矩阵X的特征值(latent)和每个特征向量表征在观测量总方差中所占的百分数(explained)（即是主成分的贡献向量）。

3.pcares函数
功能：主成分分析的残差
格式：residuals=pcares(X,ndim)
说明：pcares(X,ndim)返回保留X的ndim个主成分所获的残差。

注意，ndim是一个标量，用来指定所用的主成分的个数，必须小于X 的列数。

而且，X是数据矩阵，而不是协方差矩阵。

4.barttest
功能：主成分的巴特力特检验
格式：ndim=barttest(X,alpha)
[ndim,prob,chisquare]=barttest(X,alpha)
说明：巴特力特检验是一种等方差性检验。

ndim=barttest(X,alpha)是在显著性水平alpha下，给出满足数据矩阵X的非随机变量的n维模型，ndim即模型维数，它由一系列假设检验所确定，ndim=1表明数据X对应于每个主成分的方差是相同的；ndim=2表明数据X对应于第二成分及其余成分的方差是相同的。

例1：从样本观测值矩阵出发求解主成分
表中列出了2007年我国31个省、市、自治区和直辖市的农村居民家庭平均每人全年消费性支出的8个主要变量数据。

数据文件保存在A.xls中。

试根据这8个
主要变量数据，进行主成分分析
表：2007年各地区农村居民家庭平均每人生活消费支出（单位：元）
[x,textdata]=xlsread(‘A.xls’)；%从excel中读取数据
Xz=zscore(x) % 数据标准化
[PC,SCORE,latent,tsquare]=princomp(Xz)
%利用princomp函数根据标准化后原始样本观测数据作主成分分析，返回主成分表达式的系数矩阵PC, 主成分得分数据SCORE,样本相关系数矩阵的特征值向量latent和每个观测的霍特（Hotelling）T2统计量(tsquare)。

explained=100*latent/sum(latent)%计算贡献率
[m,n]=size(x)%求x的行数和列数
result1=cell(n+1,4);%定义一个n+1行，4列的元胞数组
result1(1,:)={'特征值','差值','贡献率','累积贡献率'}
result1（2:end,1）=num2cell(latent);%存放特征值
result1（2:end-1,2）=num2cell(-diff(latent));%存放特征值之间的差值
result1（2:end,3：4）
=num2cell([explained ,cumsum(explained )]);%存放(累积)贡献率varname=textdata(1,2:end);%提取变量名数据
result2=cell(n+1,3);%定义一个n+1行，3列的元胞数组
result2(1,:)={'标准化变量','主成分prin1','主成分prin2'} result2（2:end,1）=varname
result2（2:end,2:end）=num2cell(PC(:,1:2));%存放前2个主成分表达式的系数数据
cityname= textdata(2:end,1);%提取地区名称数据
sumxz=sum(xz,2)%每一个地区总的消费性支出
[s1,id]=sortrows(SCORE,1);%将主成分得分数据按第一主成分得分从小到大排序
result3=cell(m+1,4);%定义一个m+1行，4列的元胞数组
result3(1,:)={‘地区’,'总支出','第一主成分得分y1','第二主成分得分y2’}
result3（2:end,1）=cityname(id)%排序后地区名
result3（2:end,2:end）=num3cell([sumxz(id),s1(:,1:2)]);%存放排序后每一地区总的消费性支出，以及前2个主成分的得分数据plot(SCORE(:,1), SCORE(:,2),’ko’)%绘制两个主成分得分的散点图
xlabel(‘第一主成分得分‘),
ylabel(‘第二主成分得分‘)
gname(cityname)%交互式标注每个地区的名称
%根据霍特林T＾2统计量寻找极端数据
result5=sortrows([cityname,num2cell(tsquare)],2)
%转为胞元数组，并按第二列排序
[{‘地区‘，’霍特林T＾2统计量‘；result5}
练习：应用MATLAB内部的数据cities.mat进行分析。

该数据是美国329个城市反映生活质量的9项指标的数据。

这9项指标分别为：气候、住房、健康状况、犯罪、交通、教育、艺术、娱乐和经济。

例2：从协方差矩阵或相关系数矩阵出发求解主成分
表：128名成年男子身材的六项指标的相关系数矩阵
PHO=[];%输入相关系数矩阵
[PC,latent,explained]=pcacov(PHO)%相关系数矩阵进行主成分分析，返回主成分表达式的系数矩阵(PC)、相关系数矩阵PC的特征值向量(latent)和每个特征向量表征在观测量总方差中所占的百分数(explained)（即是主成分的贡献向量）。

%为了更加直观，以元胞数组的形式显示结果
%result1=cell(n+1,4);%定义一个n+1行，4列的元胞数组
result1(1,:)={'特征值','差值','贡献率','累积贡献率'}
result1（2:7,1）=num2cell(latent);%存放特征值
result1（2:6,2）=num2cell(-diff(latent));%存放特征值之间的差值
result1（2:7,3：4）
=num2cell([explained ,cumsum(explained )]);%存放(累积)贡献率%以元胞数组的形式显示前3个主成分表达式
s={'标准化变量';'身高（x1）’;’坐高(x2)’;’胸围(x3)’;’手臂长(x4)’;’肋围(x5) ’；‘腰围(x6)’}
result1（：,1）=s;
result1（1,2:4）={‘主成分prin1','主成分prin2', '主成分prin3'};
result2（2:end,1）=varname
result2（2:7,2:4）=num2cell(PC(:,1:3));%存放前3个主成分$表达式的系数数据。