主成分分析法原理及应用

合集下载

主成分分析法原理

主成分分析法原理

主成分分析法原理
主成分分析法是一种常用的降维技术,可以用来发现数据中最重要的模式和关系。

其原理是通过线性变换将原始数据映射到一个新的坐标系统中,新坐标系的选择是按照数据方差最大的优先原则进行的。

换句话说,主成分分析法试图找到能够最大程度解释原始数据方差的一组新的变量,这些新变量称为主成分。

在主成分分析中,第一主成分是能够最大程度解释原始数据方差的变量。

第二主成分则是在第一主成分已经解释了最大方差后,能够解释剩余方差最大的变量。

依此类推,可以得到一系列依次解释方差递减的主成分。

主成分分析的关键思想是将原始数据转化为一组新的变量,使得这些新变量之间相互独立,并且每个新变量都能够最大程度地解释数据方差。

通过将数据映射到新的坐标系中,主成分分析可以有效地降低数据的维度,减少不必要的冗余信息。

主成分分析法在数据处理和分析中广泛应用,例如在多变量统计分析、模式识别、数据可视化等领域。

它可以帮助我们得到更简洁、更具有解释性的数据表示,提取出隐藏在数据背后的重要特征和规律,为后续分析和决策提供有效支持。

PCA主成分分析原理及应用

PCA主成分分析原理及应用

PCA主成分分析原理及应用主成分分析的原理是通过对数据矩阵进行特征值分解,找到使得方差最大化的主成分。

具体步骤如下:1.标准化数据:对原始数据进行标准化处理,使得每个维度具有相同的尺度。

2.计算协方差矩阵:计算标准化后的数据的协方差矩阵。

协方差矩阵描述了不同维度之间的相关性。

3.特征值分解:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。

特征值代表了各个主成分的重要程度,特征向量表示了相应特征值对应的主成分。

4.主成分选择:根据特征值的大小,选择前k个特征向量作为主成分。

通常,选择特征值大于平均特征值的一些阈值(如1)作为截断标准。

5.数据转换:将原始数据与所选的主成分构成的矩阵相乘,得到降维后的数据。

这相当于将原始数据投影到主成分所构成的子空间中。

PCA广泛应用于数据预处理、特征提取和数据可视化等领域。

1.数据预处理:PCA可以通过降低维度,过滤噪声和冗余特征,减少计算时间和资源消耗。

例如,在图像处理中,PCA可以用来处理图像中的噪声、压缩图像和实现图像的重建。

2.特征提取:PCA可以帮助寻找最能代表数据集的主要特征。

通过提取主成分,可以减少特征维度,提高模型的训练和预测效率。

在机器学习任务中,PCA常被用于特征选择和特征降维。

3.数据可视化:PCA能够将高维数据映射到二维或三维空间,帮助我们理解和发现数据中的模式和规律。

通过可视化降维后的数据,我们可以更好地理解数据的结构和关系。

虽然PCA具有许多优点,但也存在一些限制。

首先,PCA假设数据是线性相关的,对于非线性关系的数据可能效果不佳。

其次,PCA可能无法解释数据中的复杂关系,因为它只能提取线性相关性。

最后,PCA对异常值和噪声敏感,可能影响到主成分的提取结果。

总之,PCA作为一种常用的数据降维技术,具有广泛的应用前景。

通过保留数据集的主要特征,PCA可以提高数据处理和模型性能,并帮助我们更好地理解和分析数据。

主成分分析法的原理应用及计算步骤-精品资料

主成分分析法的原理应用及计算步骤-精品资料

一、概述在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。

而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。

为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。

为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。

主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。

主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。

主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。

主成分之间应该互不相关通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。

主成分具有命名解释性总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。

、基本原理主成分分析是数学上对数据降维的一种方法。

其基本思想是设法将原来众多的具有一定相关性的指标XI, X2,…,XP (比如p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。

那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。

《数据挖掘与数据分析(财会)》主成分分析及应用

《数据挖掘与数据分析(财会)》主成分分析及应用
一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标 (称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上, 依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的 对方差贡献最大的特征。
5.1.2 主成分分析法降维的主要体现
主成分分析(Principal components analysis, PCA)是最重要的降维方
1
0.62202
1
5.5.1主成分分析举例
矩阵R的特征值及相应的特征向量见表5-2:
特征值
6.1366 1.0421
0.43595
0.32113 -0.4151
-0.45123
0.29516 -0.59766
0.10303
0.38912 0.22974
-0.039895
特征向量
5.4.1主成分分析法的操作流程
05
5.5主成分分析举例
5.5.1主成分分析举例
某市为了全面分析机械类个企业的经济效益,选择了8个不同的利润指标,14企业关于这8个指标的统计数据如 下表所示,试进行主成分分析。
(其中,xi1:净产值利润率(%);xi2:固定资产利润率(%);xi3:总产值利润率(%);xi4:销售收入利润率(%);xi5:产 品成本利润率(%);xi6:物耗利润率(%);xi7:人均利润率(千元/人);xi8:流动资金利润率(%))
为原始变量Xi 与Xj 的相关
系数。R为实对称矩阵(即
),只需计算其上三角元素或下三角元素即可,其计算公式为:
Rij
n
(Xkj Xi)(Xkj Xj )
k 1
n
(Xkj Xi)2(Xkj Xj )2
k 1
5.3.1主成分分析法基本步骤

主成分分析法的原理应用及计算步骤 (2)

主成分分析法的原理应用及计算步骤 (2)

一、概述在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题得信息有一定得重叠,例如,高校科研状况评价中得立项课题数与项目经费、经费支出等之间会存在较高得相关性;学生综合评价研究中得专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高得相关性。

而变量之间信息得高度重叠与高度相关会给统计方法得应用带来许多障碍。

为了解决这些问题,最简单与最直接得解决方案就是削减变量得个数,但这必然又会导致信息丢失与信息不完整等问题得产生。

为此,人们希望探索一种更为有效得解决方法,它既能大大减少参与数据建模得变量个数,同时也不会造成信息得大量丢失。

主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用得分析方法。

主成分分析以最少得信息丢失为前提,将众多得原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:↓主成分个数远远少于原有变量得个数原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中得计算工作量。

↓主成分能够反映原有变量得绝大部分信息因子并不就是原有变量得简单取舍,而就是原有变量重组后得结果,因此不会造成原有变量信息得大量丢失,并能够代表原有变量得绝大部分信息。

↓主成分之间应该互不相关通过主成分分析得出得新得综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来得诸多问题。

↓主成分具有命名解释性总之,主成分分析法就是研究如何以最少得信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定得命名解释性得多元统计分析方法。

二、基本原理主成分分析就是数学上对数据降维得一种方法。

其基本思想就是设法将原来众多得具有一定相关性得指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数得互不相关得综合指标Fm 来代替原来指标。

那么综合指标应该如何去提取,使其既能最大程度得反映原变量Xp 所代表得信息,又能保证新指标之间保持相互无关(信息不重叠)。

主成分分析

主成分分析

(3)对于特征值=4.661 0,=2.089 0, =1.0430分别求出其特征向量e1,e2,e3,再 用公式(3.5.5)计算各变量x1,x2,…,x9 在主成分z1,z2,z3上的载荷(表4)。
表4
主成分载荷 占方差的百分数 /% 82.918 80.191 92.948 75.346 85.811 71.843 95.118 98.971 92.939
z1
z2 -0.532 0.887
z3 -0.0061 -0.0028
x1 x2 x3 x4 x5 x6 x7 x8 x9
0.739 0.123 -0.964 0.004 2 0.813 0.819 0.933 0.197 0.964
0.009 6 0.009 5 0.868 0.444 0.179 -0.133 -0.1 0.003 7 -0.0011 0.125 -0.251 0.97
68.001 1 255.42 211.55 60.702 1 251.03 220.91 63.304 1 246.47 242.16 54.206 814.21 193.46
55.901 1 124.05 228.44 54.503 805.67 175.23
49.102 1 313.11 236.29
-0.0025 0.0091,x5,x6,x7,x9——正相关, x3——负相关,z1是生态经济结构状况。 (2)第2主成分z2:x2,x4,x5——正相关, x1— —负相关,其中,除了x1为人口总数外,x2,x4, x5都反映了人均占有资源量的情况,z2代表了人均 资源量。
0.009 -0.078 -0.93 -0.109 -0.05 -0.031 0.672 0.658 1 -0.03 0.89 0.098 0.222 -0.03 1 0.29

主成分分析0523

rij
(x
k 1
n
ki
xi )( x kj x j )
2
(x
k 1
n
ki
xi )
(x
k 1
n
kj
xj)
2
(3.5.4)
三、主成分分析的计算步骤
(二)计算特征值与特征向量
① 解特征方程 I R 0 ,常用雅可比法(Jacobi)求出特 征值,并使其按大小顺序排列,即 1 2 , p 0
三、主成分分析的计算步骤
(一)计算相关系数矩阵
计 算 步 骤
r11 r 21 R rp1
r12 r22 rp 2

r1 p r2 p rpp
(3.5.3)
rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为:
一、问题的提出
主成分分析是把原来多个变量划为少数几个综合指标的一
种统计分析方法,从数学的角度来看,这是一种降维的处理技
术。 主成分的英文为:Principal Component Analysis,简称 PCA.
二、主成分分析的基本原理
设有二个变量x1 ,x2
No
x1 x2
2
1
3 2
2
4 10
2
i
k
(i 1,2, , p )
k
1 , 2 ,, m 一般取累计贡献率达85—95%的特征值 所对应的第一、第二、…、第m(m≤p)个主成分。
四、主成分的性质
1、各主成分的方差分别为原协方差阵(或相关系数阵)的特性值, 不同主成分彼此正交。 cov( yi , y j ) 0 i j 2、各主成分的方差贡献大小按矩阵S特征值大小顺序排列:

主成分分析法的原理应用及计算步骤57270

一、概述在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。

而变量之间信息的高度重叠与高度相关会给统计方法的应用带来许多障碍。

为了解决这些问题,最简单与最直接的解决方案就是削减变量的个数,但这必然又会导致信息丢失与信息不完整等问题的产生。

为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。

主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。

主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:↓主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。

↓主成分能够反映原有变量的绝大部分信息因子并不就是原有变量的简单取舍,而就是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。

↓主成分之间应该互不相关通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。

↓主成分具有命名解释性总之,主成分分析法就是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。

二、基本原理主成分分析就是数学上对数据降维的一种方法。

其基本思想就是设法将原来众多的具有一定相关性的指标X1,X2,…,XP(比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。

那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。

PCA(主成分分析)的原理与应用

PCA(主成分分析)的原理与应用简介主成分分析(PCA)是一种常用的多变量数据降维技术,用于发现数据中的主要模式与关系。

通过PCA,可以将高维数据转换为低维表示,从而减少计算复杂度、去除冗余信息、提取关键特征等。

本文将介绍PCA的基本原理和常见的应用场景。

1. PCA的基本原理PCA的基本思想是通过线性变换将原始数据投影到新的坐标系中,新的坐标系由一组互相正交的基向量构成。

这些基向量被称为主成分,每个主成分都是原始数据的一个线性组合。

通过保留最重要的主成分,可以实现数据降维。

1.1 数据标准化在应用PCA之前,通常需要对原始数据进行标准化处理。

标准化可以使不同特征的数据具有相同的尺度,避免某些特征对PCA结果的影响过大。

常见的标准化方法有均值方差标准化和最大最小值标准化。

1.2 协方差矩阵与特征值分解PCA的核心是通过计算协方差矩阵来确定主成分。

协方差矩阵反映了不同维度之间的相关性。

通过对协方差矩阵进行特征值分解,可以得到特征值和特征向量。

特征值表示了数据在对应特征向量方向上的方差,特征向量则表示了变换后的坐标系中各维度的方向。

1.3 选择主成分在进行特征值分解后,主成分的选择是根据特征值的大小进行的。

通常保留较大的特征值对应的特征向量作为主成分,因为这些特征值表示了数据的主要变化模式。

1.4 重构数据通过选取主成分,可以将原始数据投影到新的坐标系中。

重构数据可以通过将原始数据乘以选取的主成分对应的特征向量来实现。

2. PCA的应用场景PCA有广泛的应用场景,以下列举一些常见的应用领域。

2.1 降维与特征选择在高维数据中,存在大量冗余和噪音信息。

通过使用PCA,可以将高维数据降低到较低的维度,并保留重要的特征,从而提高数据的表示效果和计算效率。

2.2 数据压缩与图像处理PCA在数据压缩和图像处理中也有广泛的应用。

通过PCA,可以用较少的数据表示信息量较大的图像,从而实现图像的压缩和存储。

同时,还可以对图像进行去噪、增强和特征提取等操作。

主成分分析

主成分分析法主成分分析是多元统计分析的一个分支。

20世纪30年代,由于费希尔、霍特林、许宝禄及罗伊等人的一系列奠基工作,多元统计分析成为应用数学的一个重要分支。

主成分分析法是处理多元变量数据的一种数学方法,它从众多的观测变量中找出几个相互独立的因素来解释原有的变量,这些因素称为主成分。

通过主成分分析法的数学处理,可以将互相间有联系的多变量复杂系统简化成几个可以解释这些变量的综合因素,这样可以清楚的解释系统的本质及相互间的关系。

抽取抽取综合因素及如何定义要按综合因素与原变量的关系而定,即按综合和因素对变量的影响程度,称为变量在综合因素上的“负荷”。

最终还可以计算出受测样本在综合因素上的水平,称为主成分分析。

主成分分析发广泛应用于复杂系统的相互比较研究中。

设一个系统共有P个指标表示,而且这P个指标中可能有些指标互相有影响。

主成分分析法就是要用几个综合因素反映原来几个指标的信息,而且这些因素又是相互无关的。

一基本原理现实生活中,人们常常遇到多指标问题。

在大多数情况下,不同指标之间具有一定的相关性,这就增加了分析处理问题的难度。

于是统计学家们就设法将指标重新组合成一组相互独立的少数几个综合指标来代替原有指标,并且反映原有指标的主要信息。

这种将多指标化为少数独立的综合指标的方法就称为主成分分析法。

主成分分析(Principal Component Analysis,PCA),首先是由英国的皮尔生(Karl Pearosn)对非随机变量引入的,而后美国的数理统计学家霍特林在1933年将此法推广到随即向量的情形。

主成分分析法的降维思想从一开始就很好的为综合评价提供了有力的理论和技术支持。

主成分分析是研究如何将多指标问题转化为较少的综合指标的一种重要统计方法,它能将高维空间的问题转化到低维空间去处理,使问题变得比较简单、直观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。

主成分分析除了降低多变量数据系统的维度外,同时还简化了变量系统的统计数字特征。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、 概述
在处理信息时,当两个变量之间有一定相关关系时, 可以解释为这两个变量 反映此
课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项 目经费、经费支
出等之间会存在较高的相关性;学生综合评价研究中的专业基 础课成绩与专业课成绩、获
奖学金次数等之间也会存在较高的相关性。而变量 之间信息的高度重叠和高度相关会给统
计方法的应用带来许多障碍。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这 必然又会导
致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种 更为有效的解决方法,
它既能大大减少参与数据建模的变量个数,同时也不会 造成信息的大量丢失。主成分分析
正式这样一种能够有效降低变量维数,并已 得到广泛应用的分析方法。
主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综 合指标,
通常综合指标(主成分) 有以下几个特点:
主成分个数远远少于原有变量的个数
原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建 模,这将大
大减少分析过程中的计算工作量。
主成分能够反映原有变量的绝大部分信息
因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造 成原有变
量信息的大量丢失,并能够代表原有变量的绝大部分信息。
主成分之间应该互不相关
通过主成分分析得出的新的综合指标 (主成分)之间互不相关,因子参与数 据建模
能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问 题。
主成分具有命名解释性
总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成 少数几个因
子,如何使因子具有一定的命名解释性的多元统计分析方法 。

二、 基本原理
主成分分析是数学上对数据降维的一种方法。 其基本思想是设法将原来众多 的具有
一定相关性的指标XI, X2,…,XP (比如p个指标),重新组合成一组较 少个数的互不
相关的综合指标 Fm来代替原来指标。那么综合指标应该如何去提 取,使其既能最大程度
的反映原变量 Xp所代表的信息,又能保证新指标之间保 持相互无关(信息不重叠)。
设F1表示原变量的第一个线性组合所形成的主成分指标,即
F^ailXl a2lX2 .. aplXp

,
由数学知识可

知,每一个主成分所提取的信息量可 用其方差来度量,其方差Var(F1)越大,表示
F1
包含的信息越多。常常希望第 一主成分F1所含的信息量最大,因此在所有的线性组合中
选取的 F1应该是XI, X2,…,XP的所有线性组合中方差最大的,故称 F1为第一主成
分。如果第一主 成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标
F2
,为有

效地反映原信息,F1已有的信息就不需要再出现在 F2中,即F2与F1要保持独 立、不
相关,用数学语言表达就是其协方差 Cov(F1, F2)=0,所以F2是与F1不
相关的X1, X2,…,XP的所有线性组合中方差最大的,故称 F2为第二主成分, 依此类推
构造出的F1、F2、……、Fm为原变量指标X1、X2••…XP第一、第二、…… 第m个主
成分。

-ai1 X 1 ai2 X 2 ... ai p X p
-a21 X 1 a22 X2 ... a2pXp

—am 1 X 1 am2X2 ■…'am p X p
根据以上分析得知:
(1) Fi 与 Fj 互不相关,即 Cov(Fi , Fj) = 0,并有 Var(Fi)=ai '工 ai,其 中工为X
的协

方差阵
(2) F1 是X1, X2,…,Xp
的一切线性组合(系数满足上述要求)中方差最

大的,……,即Fm是与F1, F2,……,Fm- 1都不相关的X1, X2,…,XP的所有 线性组合
中方差最大者。

F1,F2,…,F(m< p)为构造的新变量指标,即原变量指标的第一、第 第m
个主成

分。

由以上分析可见,主成分分析法的主要任务有两点:
(1) 确定各主成分Fi (i=1 , 2,…,m)关于原变量Xj (j=1 , 2 ,…,p)

的表达式,即系数a^ ( i=1 , 2,…,m; j=1 , 2 ,…,p) o从数学上可以证 明,原变量
协方差矩阵的特征根是主成分的方差,所以前 m个较大特征根就代
表前m个较大的主成分方差值;原变量 协方差矩阵前m个较大的特征值-(这 样选取才能
保证主成分的方差依次最大)所对应的特征向量就是相应主成分
Fi
表达式的系数ai ,为了加以限制,系数ai启用的是\对应的单位化的特征向量, 即有
ai 'ai

=

1

(2) 计算主成分载荷,主成分载荷是反映主成分Fi与原变量Xj之间的相互
关联程度:
P(Z

k,Xj)二,—aki
(i, =1,2,…,p;k =1,2,…,m)

三、主成分分析法的计算步骤
主成分分析的具体步骤如下:
(1) 计算协方差矩阵
计算样品数据的协方差矩阵:工=(Sij)p P,其中

n
1 — _ sij (xki _ Xi)(xkj _ xj) i , j=
1 , 2 , , p

n —1
k ±

(2) 求出工的特征值1及相应的正交化单位特征向量
a

i

F
!

F
2

F
m
工的前m个较大的特征值,仁,2_…,m>0就是前m个主成分对应的方差,
对应的单位特征向量

主成分Fi为:
a

,

就是主成分Fi的关于原变量的系数,则原变量的第i个

Fi = ai 'X
主成分的方差(信息)贡献率用来反映信息量的大小, 二为:

m
' £ i = ' i / /. i
i -1

(3) 选择主成分
最终要选择几个主成分,即F1,F2,……,Fm中m的确定是通过方差(信息) 累计贡
献率G(m)来确定

m p
G(m)

'i^ \

i < k q!

当累积贡献率大于85%寸,就认为能足够反映原来变量的信息了,对应的 m 就是抽取
的前m个主成分。
(4) 计算主成分载荷
主成分载荷是反映主成分 Fi与原变量Xj之间的相互关联程度,原来变量 Xj (j=1,
2 ,…,p )在诸主成分Fi (i=1,2,…,n)上的荷载lij ( i=1, 2,…,m j=1 ,2
,…,

p
)。:

l(Zi,XJ 二、,—a』=1,2, ,m; j =1,2「,p)
在SPSS软件中主成分分析后的分析结果中,“成分矩阵”反应的就是主成分 载荷矩
阵。

(5)计算主成分得分
计算样品在m个主成分上的得分:

Fi =anX1 a?iX2 … 飞回 X
p

i = 1 , 2,…,m

实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的 影响。消
除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数 据变换:

* :

-X

j

Xij i -1,2,..., n; j - 1,2,..., p

S
j

n „ n
其中:
Xj X

ij

, Sj 二

1 2 ―(Xij _ X j )

n i n -1
i ±

根据数学公式知道,①任何随机变量对其作标准化变换后, 其协方差与其相 关系数是
一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。 ②另一方
面,根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数, 亦即, 标准化后
的变量的协方差矩阵就是原变量的相关系数矩阵 。也就是说,在标准 化前后变量的相关系
数矩阵不变化。
根据以上论述,为消除量纲的影响,将变量标准化后再计算其协方差矩阵, 就是直接
计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是: ☆计算相关系数矩

☆求出相关系数矩阵的特征值i及相应的正交化单位特征向量
a

i

☆选择主成分
☆计算主成分得分
总结:原指标相关系数矩阵相应的特征值 i为主成分方差的贡献,方差的

p
贡献率为
:.i
=
,i

,:.越大,说明相应的主成分反映综合信息的能力越强,

i

可根据i的大小来提取主成分。每一个主成分的组合系数(原变量在该主成分
上的载荷)ai就是相应特征值■ i所对应的单位特征向量。

相关文档
最新文档