主成分分析
主成分分析方法

主成分分析方法主成分分析(Principal Component Analysis, PCA)是一种常用的数据降维技术,它可以通过线性变换将原始数据转换为一组各维度之间线性无关的表示,从而实现数据的降维和特征提取。
在实际应用中,主成分分析方法被广泛应用于数据预处理、特征提取、模式识别和数据可视化等领域。
主成分分析的基本思想是通过寻找数据中的主要信息,并将其转化为一组新的互相无关的变量,即主成分,以达到降维的目的。
在进行主成分分析时,我们首先需要计算数据的协方差矩阵,然后对协方差矩阵进行特征值分解,得到特征值和特征向量。
特征向量构成的矩阵即为数据的主成分矩阵,而特征值则代表了数据在各个主成分方向上的方差大小。
通过主成分分析,我们可以将原始数据映射到主成分空间中,从而实现数据的降维。
在降维后的主成分空间中,我们可以选择保留的主成分数量,以达到对数据特征的提取和压缩。
同时,主成分分析还可以帮助我们发现数据中的内在结构和模式,从而更好地理解数据的特性和规律。
在实际应用中,主成分分析方法有着广泛的应用。
例如,在图像处理领域,主成分分析可以用于图像压缩和特征提取;在金融领域,主成分分析可以用于资产组合的风险分析和优化;在生物信息学领域,主成分分析可以用于基因表达数据的分析和分类等。
需要注意的是,在应用主成分分析方法时,我们需要考虑数据的标准化和中心化处理,以避免不同量纲和尺度对主成分分析结果的影响。
此外,我们还需要注意选择合适的主成分数量,以保留足够的数据信息同时实现降维的效果。
总之,主成分分析方法是一种强大的数据分析工具,它可以帮助我们实现数据的降维和特征提取,发现数据中的内在结构和模式,从而更好地理解和利用数据。
在实际应用中,我们可以根据具体问题和需求,灵活运用主成分分析方法,从而实现更加有效的数据分析和应用。
主成分分析

一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。
变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
原理:假定有 n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,x11x12 x1px21 x22 x2p Xxn 1xn2xnp记原变量指标为x1,x2,,,xp ,设它们降维处理后的综合指标,即新变量为 z1,z2,z3,,,zm(m ≤p),则z 1l11x 1 l 12x 2l1p xpz 2 l 21x1 l22x2l2p xp ............ z mlm1x 1 l m2x 2lmp xp系数lij 的确定原则:①zi 与zj (i ≠j ;i ,j=1,2,,,m )相互无关;②z 是x 1 ,x ,,,x 的一切线性组合中方差最大者,z 是与z 不相关的x ,x ,,,1 2P2 1 1 2 xP 的所有线性组合中方差最大者;zm 是与z1,z2,,,, zm -1都不相关的x1,x ,,x P ,的所有线性组合中方差最大者。
2新变量指标z1,z2,,,zm 分别称为原变量指标x1,x2,,,xP 的第1,第2,,,第m 主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj (j=1,2 ,,,p )在诸主成分zi (i=1,2,,,m )上的荷载lij (i=1,2,,,m ;j=1,2,,,p )。
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤1、计算相关系数矩阵r11 r12 r1 pr21 r22 r2 pRrp1 rp2 rpprij(i,j=1,2,,,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为n(x ki x i)(x kj x j)r ijk1n n(x ki2(x kj x j)2 x i)k1k12、计算特征值与特征向量解特征方程I R0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列1 2 p0;p 分别求出对应于特征值i的特征向量e i(i1,2,L,p),要求ei=1,即e ij21j1其中e ij表示向量e i的第j 个分量。
什么是主成分分析

主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
主成分分析

1 主成分分析定义在许多实际问题中,我们经常用多个变量来刻画某一事物,但由于这些变量之间往往具有相关性,很多变量带有重复信息,这样就给分析问题带来了很多不便,同时也使分析结论不具有真实性和可靠性,因此,人们希望寻找到少量几个综合变量来代替原来较多的变量,使这几个综合变量能较全面地反映原来多项变量的信息,同时相互之间不相关。
主成分分析正是满足上述要求的一种处理多变量问题的方法。
主成分分析(Principal Component Analysis,PCA),将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。
又称主分量分析。
2 主成分分析基本思想主成分分析是考察多个变量间相关性的一种多元统计方法。
它是研究如何通过少数几个主分量来解释多个变量间的内部结构。
也就是说,从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。
主成分分析的应用目的可以被简单归结为两句话:数据的压缩、数据的解释。
它常被用来寻找判断某种事物或现象的综合指标,并且给综合指标所包含的信息以适当的解释,从而更加深刻的揭示事物的内在规律。
但是在实际应用中,主成分分析更多的只是一种达到目的的中间手段,而并非目的本身,它往往会被作为许多大型研究的中间步骤,在对数据进行浓缩后继续采用其他多元统计方法以解决实际问题。
主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n个地理样本,每个样本共有p个变量描述,这样就构成了一个n×p阶的地理数据矩阵:如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
主成分分析

2.主成分的总方差 由于
tr ( A ) = tr ( T′ΣT ) = tr ( ΣTT′ ) = tr ( Σ )
故
∑ λ = ∑σ
i =1 i i =1
p
p
ii
或
∑V ( y ) = ∑V ( x )
i =1 i i =1 i
p
p
总方差中属于第 i 主成分 yi(或被 yi 所解释)的比例 为
ˆ 三、从R 出发求主成分
ˆ ˆ* ˆ* ˆ R 的 p 个特征值为λ1* ≥ λ2 ≥ L ≥ λ p, 设样本相关阵 ˆ* ˆ 2 ˆ t1 , t * ,L , t *p 为相应的正交单位特征向量,则第 i 样本
主成分
ˆ ˆi yi* = t*x* , i = 1, 2,L , p
其中 x* 是各分量经(样本)标准化了的向量,即
S
主成分得分 在实际应用中,我们常常让 x j 减去 x ,使样本数据 中心化。这不影响样本协差阵 S ,在前面的论述中 惟一需要变化的是,将第 i 主成分改写成中心化的 形式,即
ˆ ˆi yi = t′ ( x − x ) , i = 1, 2,L , p 若将各观测值 x j 代替上式中的观测值向量 x ,则第i
现比较本例中从R 出发和例7.2.2中从 Σ 出发的主成 分计算结果。从R 出发的 y1* 的贡献率0.705明显小于 从 Σ 出发的 y1的贡献率0.938,事实上,原始变量方 差之间的差异越大,这一点也就倾向于越明显, * * * (7.2.15)式有助于我们理解之。 y1 , y2 , y3 可用标准 化前的原变量表达如下: x3 − µ3 x1 − µ1 x2 − µ2 *
主成分的值
ˆi ˆ y ji = t′ ( x j − x ) , i = 1, 2,L , p
主成分分析

(1 )、 数学模型
设有 n 个样品,每个样品观测p项指标(变量), X1,
X2,202…0/7/7,Xp,得到原始数据资料阵:
5
其中
用数据矩阵X的p个向量(即p个指标向量)X1,…,Xp作线
性组合(即综合指标向量)为:
2020/7/7
6
简写成
(注意:Xi是n维向量,所以Fi也是 n 维向量) 上述方程组要求:
主成分分析
2020/7/7
1
一、什么是主成分分析及基本思想
1 、什么是主成分分析
主成分概念首先由Karl parson在1901年引进,不 过当时只对非随机变量来讨论的。1933年Hotelling将 这个概念推广到随机向量:
在实际问题中,研究多指标(变量)问题是经常遇到的,
然而在多数情况下,不同指标之间是有一定相关性。由于
一般情况,p个变量组成p维空间,n个样本就是p维 空间的n个点,对p元正态分布变量来说,找主成分的问 题就是找p维空间中椭球体的主轴问题。
3 主成分的推导及性质
在下面推导过程中,要用到线性代数中的两个定理先 作一下复习:
定理一 若矩阵A是p阶实对称阵,则一定可以找到 正交阵
定理二 若上述矩阵A的特征根所对应的单位特征向量
X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标 轴使之通过样品变差最大的方向(或说具有最大的样品
方差)。下面以最简单的二元正态变量来说明主成分的
几何202意0/7/7义。
9
设有 n 个样本,每个样本有p个变量记为X1,…,Xp,
它们的综合变量记为F1,F2,…,Fp。当p=2时,原变
量是X1,X2,设
指标较多再加上指标之间有一定的相关性,势必增加了分
主成分分析法
四、主成份分析法旳环节
1)数据归一化处理:数据原则化(Z) 2)Βιβλιοθήκη 算有关系数矩阵R: 3)计算特征值;
特征值越大阐明主要程度越大。
4)计算主成份贡献率及方差旳合计贡献率; 5)计算主成份载荷与特征向量:
主成份旳负荷值大小反应了主成份因子对可测变量旳影响程 度;载荷值越大阐明此变量对主成份旳解释越多,及贡献越大。
• 因子分析 优点:第一它不是对原有变量旳取舍,而是根据原始变 量旳信息进行重新组合,找出影响变量旳共同因子,化简 数据;第二,它经过旋转使得因子变量更具有可解释性, 命名清楚性高。 缺陷 :在计算因子得分时,采用旳是最小二乘法,此法 有时可能会失效。
总之,主成份分析是因子分析旳一种特例。
谢 谢 观 看!
旋转后旳主成份因子载荷矩阵
景区满意度旋转前后成份矩阵图对比
5、碎石图分析
选用主成份旳个数,急转处是拟定主成份旳个数处。
景区满意度碎石图
八、与因子分析法旳区别
1、基本概念
➢ 主成份分析就是将多项指标转化为少数几项综合 指标,用综合指标来解释多变量旳方差- 协方差构 造。综合指标即为主成份。所得出旳少数几种主 成份,要尽量多地保存原始变量旳信息,且彼此 不有关。
注意:进行主成份旳变量之间必须要有有关性, 经过分析后变量之间独立。
二、主成份分析法基本原理
主成份分析就是设法将原来众多具有一定有关性 旳变量(如p个变量),重新组合成一组新旳相互无 关旳综合变量来替代原来变量。怎么处理?
一般数学上旳处理就是将原来p个变量作线性组合 作为新旳综合变量。怎样选择?
假如将选用旳第一种线性组合即第一种综合变量 记为F1,自然希望F1尽量多旳反应原来变量旳信 息。怎样反应?
什么是主成分分析
什么是主成分分析
主成分分析(Principal Component Analysis,PCA)是一种常用的统计分析方法,主要用于数据降维和特征提取。
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,这些线性不相关的变量称为主成分。
每个主成分都是原始变量的线性组合,且主成分按照其反映的原始变量的方差大小依次排序。
在实际应用中,主成分分析首先对数据进行标准化处理,然后计算出变量间的协方差矩阵,通过特征值分解或者奇异值分解得到特征值和特征向量。
选取前几个特征值最大的主成分,这些主成分能够解释大部分的方差,从而实现对高维数据的降维处理。
主成分分析有助于简化复杂问题的分析,揭示事物的本质,被广泛应用于多个领域,如经济学、生物学、医学、心理学等。
主成分分析数据
主成分分析数据主成分分析(Principal Component Analysis,简称PCA)是一种常用的数据降维和特征提取方法,广泛应用于数据分析和机器学习领域。
本文将介绍PCA的原理、应用和优缺点。
一、原理PCA的核心思想是将高维数据转化为低维空间,同时尽可能保留数据的关键信息。
具体而言,PCA通过寻找一组正交基,使得数据在这组基上的投影方差最大化。
这组基即为主成分,可以通过特征值分解、奇异值分解等方法得到。
二、应用1. 数据降维:PCA可以将高维数据降维到低维空间,减少数据的复杂性和噪声干扰,提高数据分析和处理效率。
2. 特征提取:PCA可以提取数据的主要特征,去除冗余信息,辅助建模和预测。
3. 数据可视化:PCA可以将高维数据映射到二维或三维空间,在保持数据特征的同时,将数据可视化展示,便于理解和分析。
三、优缺点1. 优点:(1)降低数据维度,减少存储空间和计算复杂度。
(2)保留数据中的主要特征,提高模型的准确性和解释性。
(3)对数据分布没有要求,适用于各种类型的数据。
2. 缺点:(1)PCA是线性投影方法,对于非线性关系的数据表现不佳。
(2)降维后的特征不易解释,不如原始特征直观。
(3)PCA对异常值较为敏感,可能对数据的异常部分有较大的影响。
综上所述,PCA作为一种常用的数据降维和特征提取方法,在各种数据分析和机器学习任务中得到广泛应用。
它可以帮助我们处理高维数据,提高模型的准确性和解释性。
然而,PCA也有一些局限性,需要根据具体场景和问题选择合适的方法。
因此,在使用PCA时需要综合考虑数据类型、特征分布和模型需求等因素,合理应用该方法,以实现更好的效果。
希望通过本文的介绍,读者们对PCA有一定的了解,并能够在实际应用中正确使用和理解该方法。
主成分分析完整版
X的两个主成分分别为 第一主成分的贡献率为
Y1 0.040X1 0.999X2, Y2 0.999X1 0.040X2.
1 100.16 99.2% 1 2 101
R 型分析
R型分析的概念
为消除量纲影响,在计算之前先将原始数据标准化。标准
4. 由此我们可以写出三个主成分的表达式:
F1 0.56(x1 161 .2) 0.42(x2 77.3) 0.71(x3 51.2) F2 0.81(x1 161 .2) 0.33(x2 77.3) 0.48(x3 51.2) F3 0.03(x1 161 .2) 0.85(x2 77.3) 0.53(x3 51.2)
主 旋转坐标轴
x 2
F 1
成 分 分 析 的 几 何 解
F 2
•
•••
•••
• •
•
•••••••••••••••••••••••
• •
F1 x1 cos x2 sin
F2 x1 sin x2 cos
F1
F2
cos sin
sin x1
cos
x2
x2
旋转变换的目的是为了使得n个
很显然,识辨系统在一个低维空间要比在一个高维空间容 易得多。
在力求数据信息丢失最少的原则下,对高维的变量空间降 维,即研究指标体系的少数几个线性组合,并且这几个线性 组合所构成的综合指标将尽可能多地保留原来指标变异方面 的信息。这些综合指标就称为主成分。要讨论的问题是:
(1) 基于相关系数矩阵/协方差矩阵做主成分分析? (2) 选择几个主成分? (3) 如何解释主成分所包含的实际意义?
2. 求解协方差矩阵的特征方程 S I 0
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。
上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。
对作正交变换,令其中为正交阵的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。
各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。
由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。
例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。
经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。
[编辑]主成分分析法的基本原理主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Va(rF1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
[1][编辑]主成分分析的主要作用概括起来说,主成分分析主要由以下几个方面的作用。
1.主成分分析能降低所研究的数据空间的维数。
即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替高维的x空间所损失的信息很少。
即:使只有一个主成分Y l(即m=1)时,这个Y l仍是使用全部X变量(p个)得到的。
例如要计算Yl的均值也得使用全部x的均值。
在所选的前m个主成分中,如果某个X i的系数全部近似于零的话,就可以把这个X i删除,这也是一种删除多余变量的方法。
2.有时可通过因子负荷a ij的结论,弄清X变量间的某些关系。
3.多维数据的一种图形表示方法。
我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。
要把研究的问题用图形表示出来是不可能的。
然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。
4.由主成分分析法构造回归模型。
即把各主成分作为新自变量代替原来自变量x做回归分析。
5.用主成分分析筛选回归变量。
回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。
用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。
[编辑]主成分分析法的计算步骤1、原始指标数据的标准化采集p 维随机向量x = (x1,X2,...,X p)T)n 个样品x i =(x i1,x i2,...,x ip)T,i=1,2,…,n,n>p,构造样本阵,对样本阵元进行如下标准化变换:其中,得标准化阵Z。
2、对标准化阵Z 求相关系数矩阵其中,。
3、解样本相关矩阵R 的特征方程得p 个特征根,确定主成分按确定m 值,使信息的利用率达85%以上,对每个λj,j=1,2,...,m, 解方程组Rb = λj b得单位特征向量。
4、将标准化后的指标变量转换为主成分U1称为第一主成分,U2称为第二主成分,…,U p称为第p 主成分。
5 、对m 个主成分进行综合评价对m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。
[编辑]主成分分析法优缺点优点:①可消除评估指标之间的相关影响。
因为主成分分析法在对原始数据指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分析效果越好。
②可减少指标选择的工作量,对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析法由于可以消除这种相关影响,所以在指标选择上相对容易些。
③主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的几个主成分来代表原变量,从而减少了计算工作量。
用主成分分析法作综合评估时,由于选择的原则是累计贡献率≥85%,不至于因为节省了工作量却把关键指标漏掉而影响评估结果。
缺点:①在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。
②主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。
因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
③当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
[编辑]主成分分析法的应用分析[编辑]案例一:主成分分析法在啤酒风味评价分析中的应用[2]啤酒是个多指标风味食品, 为了全面了解啤酒的风味, 啤酒企业开发了大量的检测方法用于分析啤酒的指标, 但是面对大量的指标数据, 大多数企业又感到茫然,不知道如何利用这些大量的数据, 由上面的介绍可知,在这种情况下,主成分分析法能够派上用场。
近年来,科研人员为了获得对啤酒风味更好的理解, 多元统计技术的使用越来越多。
这主要有以下两方面的原因:①在啤酒领域里, 几乎没有一个问题能够使用单变量(单指标)就能反映事物的属性, 例如啤酒的好坏、一致性, 不能通过双乙酰一个指标说明问题;②另一个重要的原因就是, 近年来大量数学统计软件的不断出现和个人电脑的普及促进了多元统计分析技术的应用。
多元统计技术在啤酒风味研究中的一个重要任务就是找出啤酒风格和啤酒理化指标(风味成分指标也属于理化指标)之间的相关性。
例如可以用多元统计技术来找出啤酒的风味指标和啤酒风味的关系或不同啤酒的风味差异性。
经常使用的多元统计技术有聚类分析、判别分析、主成分分析和回归分析等。
其中主成分分析能够用于多指标产品, 主成分分析可以按照事物的相似性区分产品, 结果可用一维、二维或三维平面坐标图标示, 特别直观。
使用主成分分析法可以研究隐藏在不同变量背后的关系,而且根据这些变量能够获得主成分的背景解释。
鉴于主成分分析在啤酒风味质量应用中的强大作用, 本文简单介绍主成分分析的基本原理及其在啤酒一致性监控中的应用,以引起我国啤酒同行的广泛关注。
[编辑]1 材料与方法1.1 仪器HP 6890 毛细管气相色谱仪(美国安捷伦公司),FID 检测器, HP 7694E 顶空自动进样器, HP 气相色谱化学工作站。
1.2 分析方法1.2.1 样品制备啤酒于5 ℃冷藏, 量取5 mL 酒液于20 mL 顶空瓶中, 添加2.0 g/L 正丁醇溶液0.10 mL, 加密封垫及铝盖密封,振荡混匀以供顶空气相色谱测定。
1.2.2 色谱条件毛细管色谱柱(DB- WAXETR 30 m×0.53 mm i.d,膜厚1.0 μm);柱温:起始温度为35 ℃, 以10 ℃/min 程序升温至150 ℃, 再以20 ℃/min 升温到180 ℃, 并继续恒温5 min;进样口温度150 ℃; 检测器温度200 ℃; 载气为高纯氮气, 流速为5 mL/min;氢气30 mL/min;空气400 mL/min;采用分流进样,分流比为1∶1。