主成分分析法PCA的原理

合集下载

PCA主成分分析法原理分析

PCA主成分分析法原理分析PCA的主成分分析法包括以下几个关键步骤：1.数据中心化：首先，需要将数据进行中心化处理，即将每个维度的数据减去其均值。

这样做是为了消除数据之间的平移差异，使得数据均值为零。

2.计算协方差矩阵：然后，计算中心化后的数据的协方差矩阵。

协方差矩阵的元素表示了不同维度之间的相关性，其中对角线元素为每个维度的方差，非对角线元素表示两个维度之间的协方差。

3.特征值分解：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。

特征向量表示了协方差矩阵的主成分方向，而特征值表示了各个主成分的重要程度。

4.选择主成分：根据特征值的大小选择主成分。

通常选择具有最大特征值的前k个主成分，这些主成分能够解释数据中最大的方差。

这样即可实现对数据维度的压缩，将原始高维数据投影到低维空间中。

5.数据重构：根据选定的主成分，将原始数据映射到低维空间中。

通过将数据点乘以选定的主成分组成的矩阵，即可重构出低维表示的数据。

1.最大可分性：PCA试图通过选择最大方差的线性组合来达到尽可能保留更多的数据信息。

方差是表征数据分散程度的度量，选择方差最大的线性组合可以使我们保留更多的原始数据特征。

2.无关性：PCA假设主成分之间应该是无关的。

为了满足这一点，PCA试图通过计算协方差矩阵来衡量变量之间的相关性。

将数据映射到主成分上可以将原始数据的相关性转化为主成分之间的无关性。

3.数据压缩：PCA可以将高维数据映射到低维空间，实现对数据的压缩。

通过选择具有最大方差的主成分，可以将原始数据中较小方差的维度舍弃，从而实现数据的降维。

总结起来，PCA主成分分析法通过计算数据的协方差矩阵和特征值分解，找到数据中最大方差的主成分，实现对数据维度的压缩和重构。

PCA 的关键思想是通过选择最大方差的线性组合来保留数据的主要信息，并将原始数据的相关性转化为主成分之间的无关性。

通过PCA可以实现对高维数据的降维和可视化，为数据分析提供了有力的工具。

主成分分析法原理

主成分分析法原理主成分分析法原理（PrincipleComponentAnalysis，简称PCA）是一种分析数据变量间关系强度的有效统计方法。

其基本思想是，通过正交变换将多个变量转换为一组线性无关的新变量，从而对数据进行分析。

PCA具有良好的统计性质，是近几十年来最热门的统计学方法之一。

PCA方法可以将数据集中的变量分解为一组新的、无关的变量，这组新变量称为主成分（Principal Components）。

在统计学中，主成分分析的主要目的是探索数据的隐含结构、分解数据的复杂性，从而减少变量的数量，减少计算量。

PCA方法对原始数据进行正交变换，将原始数据的一组维度投影到一组新的维度。

正交变换可以有效提取数据的能量分布特性，提出新的变量，使数据具有统一性、一致性和高效性。

在PCA方法中，数据可以分为两类：原始数据，以及变换后的数据。

原始数据是观察样本而获得的数据，而变换后的数据是通过PCA 变换得到的新变量。

PCA方法可以通过两种方式来确定变换后的数据：（1）使用方差最大化方法：此方法使用每个变量的方差来衡量变换后的数据的相关性，并建立方差最大的变量的集合；（2）使用协方差最小化方法：此方法使用各个变量之间的协方差来衡量其变换后的数据的相关性，并建立协方差最小的变量集合。

PCA方法非常有用，因为它可以提高算法的性能，有助于减少计算量，并提高算法的准确性。

与其他分析方法相比，PCA方法的优势在于它的算法实现简单，可以有效解决多变量间的相关性，有助于减少数据量，提高算法的准确性，并可以用于识别数据中的模式。

PCA方法在许多研究领域有着广泛的应用，如：机器学习、计算机视觉、推荐系统等。

PCA方法是一种非常有效的可视化方法，能有效提高数据分析的准确性，了解数据间的关系，获得更多信息。

PCA 方法还可以用于从大量数据中提取有用的特征，在降维和特征选择上有很强的能力。

总之，PCA方法是一种有效的统计学方法，它可以用于数据和信息的统计分析，从而帮助我们提高数据分析的准确度，实现有效的可视化，提取有用的特征，改善算法的性能，并减少计算量。

PCA-主成分分析的原理及解释

PCA-主成分分析的原理及解释主成分分析（principal component analysis ，PCA ）PCA 利⽤正交变换将线性相关变量表⽰的观测数据转换为少数⼏个由线性⽆关变量表⽰的数据。

线性⽆关的变量称为主成分，其个数通常⼩于原始变量的个数，所以属于⽆监督学习中的降维⽅法。

⼀、PCA 的解释—最⼤⽅差理论由上图可以看到，x 1和x 2两个变量之间具有线性相关性。

已知其中⼀个变量x 1的取值时，对另⼀个变量x 2的预测不是完全随机的，反之亦然。

为了减少这种相关性，我们对坐标系进⾏旋转变换（正交变换），将数据投影到新坐标系的坐标轴上，那如何选择坐标系呢？我们将数据在每⼀轴上的坐标值的平⽅表⽰相应变量的⽅差，并且这个坐标轴上的⽅差是最⼤的（在所有可能的新坐标系中）。

找到第⼀坐标轴后，然后选择与第⼀坐标轴正交，且⽅差次之的⽅向作为第⼆坐标轴，如上图(b)。

主成分分析旨在选取正交变换中⽅差最⼤的变量，那为什么⽅差最⼤，变量之间的相关性越⼩？答：数据在某个⽅向上的轴的⽅差越⼤，那么说明数据分布得更为分散，相关性越⼩。

在信号处理领域，信号具有较⼤的⽅差，噪声具有较⼩的⽅差，信号与噪声之⽐称为信噪⽐。

⽽信噪⽐越⼤，意味着数据的质量越好。

回忆⼀下，线性代数的相关内容？正交矩阵：满⾜条件A T A =E 或者AA T =E 的n 阶⽅阵称为正交矩阵。

判定正交矩阵的充分必要条件为：A 的列（⾏）向量都是单位向量，且两两正交。

设A 为正交矩阵，则线性变换y =Ax 称为正交变换。

正交变换保证向量的内积和长度不变，具有保形性。

回忆⼀下，协⽅差和相关系数的知识？协⽅差和相关系数都可以⽤来描述两个分量之间相互关系的数字特征。

协⽅差Cov (X ,Y )=E [(X −EX )(Y −EY )]。

相关系数ρXY =Cov (X ,Y )√DX ⋅√DY。

相关系数（协⽅差）变⼤，X 与Y 的线性相关程度就变⼤。

推导：Processing math: 100%矩阵和向量求导的相关公式：：。

PCA(主成分分析)降维算法详解和代码

PCA（主成分分析）降维算法详解和代码PCA的原理：1.中心化数据：对原始数据进行中心化处理，即将每个特征减去其均值，使得数据以原点为中心。

2.计算协方差矩阵：计算中心化后的数据的协方差矩阵。

协方差矩阵描述了不同特征之间的关系和相关性。

3.计算特征值和特征向量：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。

特征值代表每个特征的重要性，特征向量表示特征的方向。

4.选择主成分：根据特征值的大小，选择最大的k个特征值对应的特征向量作为主成分。

5.降维：将原始数据投影到所选主成分上，得到降维后的数据。

投影后的数据保留了最重要的特征，且维度减少。

PCA的代码实现：下面是一个基于Numpy库实现PCA算法的示例代码：```pythonimport numpy as npdef pca(X, k):#中心化数据X = X - np.mean(X, axis=0)#计算协方差矩阵cov = np.cov(X.T)#特征值分解eigvals, eigvecs = np.linalg.eig(cov)#选择主成分idx = np.argsort(eigvals)[::-1][:k]eigvecs = eigvecs[:, idx]#降维X_pca = np.dot(X, eigvecs)return X_pca#测试X = np.random.rand(100, 5) # 生成100个样本，每个样本有5个特征k=2#目标降维维度X_pca = pca(X, k)print(X_pca.shape) # 输出降维后的数据维度```在上述代码中，使用`numpy`库进行了主成分分析的各个步骤。

首先，通过计算均值，对原始数据进行中心化。

然后，使用`cov`函数计算协方差矩阵，并通过`numpy.linalg.eig`函数进行特征值分解。

接下来，通过`argsort`函数对特征值进行排序，选择前k个特征值对应的特征向量作为主成分。

主成分分析的基本原理

主成分分析的基本原理主成分分析（Principal Component Analysis，简称PCA）是一种常用的降维技术，用于在数据集中找到最具代表性的特征。

它通过线性变换将原始数据投影到一个新的坐标系中，使得新坐标系下的特征具有最大的方差。

本文将介绍主成分分析的基本原理及其应用。

一、基本原理主成分分析的目标是找到能够最大化数据方差的投影方向。

设有一个包含n个样本的m维数据集X，其中X={x1,x2,…,xn}，每个样本包含m个特征。

首先对数据进行中心化处理，即将每个维度的特征减去该维度在整个数据集上的均值，得到新的数据集X'={x'1,x'2,…,x'n}。

通过求解数据集X'的协方差矩阵C，可得到该矩阵的特征向量和特征值。

特征向量表示了数据在各个主成分上的投影方向，特征值表示了数据在该方向上的方差。

为了实现降维，需要选择前k个最大特征值对应的特征向量作为新的投影方向。

这些特征向量构成了数据集在新坐标系上的主成分，并且它们是两两正交的。

将原始数据集X投影到这k个主成分上，即可得到降维后的数据集Y={y1,y2,…,yn}。

其中，每个样本yi={yi1,yi2,…,yik}，表示样本在新坐标系上的投影结果。

二、应用场景主成分分析在数据分析和模式识别中有广泛的应用。

以下是几个常见的应用场景：1. 数据可视化主成分分析可以将高维数据降低到二维或三维空间，使得数据可以被可视化展示。

通过可视化，可以更好地理解数据之间的关系，发现隐藏在数据中的模式和规律。

2. 特征选择在机器学习和数据挖掘中，特征选择是一个重要的任务。

通过主成分分析，可以选择最具代表性的特征，减少特征的维度，并保留数据中的关键信息。

这有助于提高模型的性能和减少过拟合的风险。

3. 去除冗余当数据集中存在冗余特征时，主成分分析可以帮助我们发现这些特征，并将其去除。

剩下的主成分可以更好地表示数据集，减少数据的冗余信息，提高数据的效率和精确性。

主成分分析(PCA)原理详解

主成分分析（PCA）原理详解PCA的基本原理如下：1.数据标准化：对数据进行标准化处理，使得每个特征的均值为0，方差为1、这一步骤是为了保证不同特征的量纲一致，避免一些特征因数值过大而对分析结果造成影响。

2.计算协方差矩阵：协方差矩阵描述了数据特征之间的相关性。

通过计算标准化后的数据的协方差矩阵，可以得到不同特征之间的相关性信息。

3.计算特征值和特征向量：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。

特征向量表示了数据在各个方向上的投影情况，特征值则表示了各个特征向量的重要程度。

4.选择主成分：根据特征值的大小，选择最重要的K个特征向量作为主成分。

特征值越大，表示该特征向量所代表的特征在数据中的方差越大，所能解释的信息也越多。

5.构造降维后的数据集：将选取的K个特征向量组合成一个转换矩阵，将原始数据映射到新的K维空间中。

通过这个转换过程，可以实现降维并且保留较多的信息。

总结起来，PCA的主要思想是通过计算特征向量和特征值，找到数据中最重要的方向（主成分），然后通过投影到这些主成分上实现数据的降维。

PCA的应用包括数据可视化、特征选择、噪声过滤等。

例如，在数据可视化中，将高维数据降至二维或三维空间，有助于观察数据之间的分布情况。

在特征选择中，选择最能代表数据信息的主成分可以减少特征的数量，并且仍能保留较多的重要信息。

在噪声过滤中，提取数据中的主成分，滤除噪声成分，能够提高数据的质量和可靠性。

需要注意的是，PCA的有效性依赖于数据之间存在线性关系的假设。

对于非线性关系较强的数据，PCA不一定能够有效降维，这时可以采用核主成分分析等非线性降维方法。

以上是对PCA原理的详细解析。

通过PCA，我们能够将高维数据转换为一组更易理解和处理的低维特征，从而发现数据中的潜在结构、关系和模式，为后续分析和建模提供有益的信息。

主成分分析(PCA)数学原理详解

主成分分析（PCA）数学原理详解PCA的数学原理可以分为以下几个步骤：1.数据中心化PCA首先将原始数据进行中心化处理，即将每个特征的均值减去相应特征的平均值，这是因为PCA假设数据围绕着原点分布，中心化可以消除数据的平移影响。

2.协方差矩阵的计算PCA的关键是计算数据的协方差矩阵。

协方差矩阵描述了不同特征之间的相关性。

对于一个n维的数据集，协方差矩阵是一个n×n的矩阵，其中第(i,j)个元素表示第i个特征和第j个特征的协方差。

协方差矩阵的计算公式如下：$C = \frac{1}{n-1} \sum _{i=1}^{n}(X_i - \overline{X})(X_i - \overline{X})^T$其中，X是一个n×m的矩阵，表示n个样本的m个特征，$\overline{X}$ 表示特征均值向量协方差矩阵是一个对称矩阵，通过对协方差矩阵的特征值分解，可以得到特征值和特征向量。

3.特征值和特征向量的计算对协方差矩阵进行特征值分解，可以得到特征值和对应的特征向量。

特征值代表了数据在特征向量方向上的方差，而特征向量表示了数据的主成分方向。

设协方差矩阵为C，有如下特征值方程：$Cv = \lambda v$其中，v是特征向量，λ是特征值。

将特征值按从大到小的顺序排序，选择前k个最大的特征向量，即主成分，作为新的基向量。

这些特征向量构成了一个新的坐标系，用于表示原始数据的新坐标。

4.数据转换将原始数据投影到新的坐标系上，得到降维后的数据。

设原始数据集为X，新的基向量为V（由前k个特征向量组成），降维后的数据集为Y，可以通过如下公式计算：$Y=XV$其中，X是一个n×m的矩阵，表示n个样本的m个特征，V是一个m×k的矩阵，Y是一个n×k的矩阵。

通过PCA降维，可以获得降维后的数据集Y，它是一个n×k的矩阵。

总结：主成分分析（PCA）通过计算数据的协方差矩阵，得到协方差矩阵的特征值和特征向量。

主成分分析原理

主成分分析原理主成分分析（Principal Component Analysis，简称PCA）是一种常用的数据降维技术，广泛应用于统计分析、数据可视化、机器学习等领域。

PCA的原理是通过线性变换将高维数据映射到低维空间，使得映射后的数据保留尽量多的原始信息。

本文将介绍PCA的原理、算法及其在实际应用中的意义。

一、PCA原理PCA通过线性变换将原始数据集投影到新的坐标系上，将原始数据在各个坐标轴上的方差最大化。

具体来说，PCA首先对原始数据进行中心化处理，即将每个维度的数据减去该维度上所有样本数据的均值，使得处理后的数据均值为0。

然后，PCA计算数据的协方差矩阵，通过对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。

特征向量构成了新的坐标系，而特征值则代表了数据在特征向量上的投影长度，即方差。

二、PCA算法步骤1. 数据预处理：对原始数据进行中心化处理。

2. 计算协方差矩阵：通过对中心化后的数据计算协方差矩阵。

3. 特征值分解：对协方差矩阵进行特征值分解，得到特征向量和特征值。

4. 特征值排序：将特征值按照大小进行排序，选择前k个特征值对应的特征向量作为主成分。

5. 数据投影：将原始数据投影到选取的主成分上，得到降维后的数据。

三、PCA的应用意义1. 数据降维：PCA可以将高维数据降低到较低维度，减少数据存储和计算量，同时能够保留数据的主要信息。

2. 数据可视化：通过将数据投影到二维或三维空间，可以方便地进行数据可视化，发现数据的内在结构和规律。

3. 特征选择：通过PCA分析特征的重要性，可以帮助选择影响数据变化最大的特征，减少特征维度，提高模型的泛化能力。

4. 去除噪声：PCA可以通过去除数据中方差较小的成分，去除噪声和冗余信息，提高数据的表达能力。

5. 数据压缩：PCA可以将原始数据压缩为较低维度的数据表示，节省存储和传输空间。

综上所述，PCA作为一种主要的数据降维技术，具有重要的理论和实际应用价值。

主成分分析法原理

主成分分析法原理主成分分析法(PrincipleComponentAnalysis,PCA)是一种被广泛应用的统计和机器学习分析方法，其中最重要的原理是帮助我们将多维数据转换为更少的维度，并帮助我们去除数据中的冗余信息。

主成分分析的思想源于线性代数，它涉及到在矩阵中确定一系列称为“主成分”的新坐标轴。

PCA将源数据转换为这些新坐标轴，使得数据点在这些坐标轴上可以更容易地分析和比较。

因此，可以把PCA简单地理解为一种通过转换坐标轴的方式，可以使得统计和机器学习的数据分析更容易。

主成分分析是一种发现和描述数据结构的工具，它主要是通过降低数据集的维度来实现的，而PCA也会根据属性间的相关性进行调整。

主成分分析通过提取数据中存在的模式来建模数据，而不是仅仅考虑数据中每个变量，以进行预测和分类。

直观地说，PCA可以通过把数据中的各个维度减少到最低级别 -只有一个维度，而不失去太多有用的信息 -做到这一点。

PCA通常根据各个变量之间的相关性进行解释：如果两个变量之间的关系很密切，那么就可以把这两个变量合并为一个变量，以减少总维度数。

另外，PCA还可以帮助我们提取数据中隐藏的模式和聚类。

例如，如果一组变量正在表现出相关性，那么PCA可以帮助我们更好地识别出数据中的模式，而不是按照原来的变量进行分类。

PCA也可以帮助我们构建更有效的机器学习模型，因为它可以减少维度，并且也可以减少计算量。

此外，由于PCA可以消除冗余的信息，因此它还可以帮助我们提升模型的泛化能力，从而使模型能够更好地在新的数据上表现。

总的来说，PCA是一种相当有用的数据分析工具，它可以帮助我们快速简单地提取数据中存在的模式，而不影响数据的准确性，因此这也使得它更容易被统计学家和机器学习研究者所接受。

以上就是本文关于主成分分析法的相关介绍，希望能为你提供一些参考。

pca算法的基本原理

pca算法的基本原理
PCA全称为Principal Component Analysis，翻译成中文就是主成分分析。

它是一种数据降维的方法，可以将高维度的数据转换为低维度的数据，同时保留大部分原始数据的特征。

PCA算法的基本原理如下：
1. 特征提取：对于给定的数据集，首先需要找到其中最重要的特征，即数据集中的主成分。

主成分是指与原始数据最为相关的特征向量，或者说是最能代表原始数据特征的线性组合。

这些特征向量就是数据中的主轴方向，通过它们能够最大程度地解释整个数据集的方差。

通常情况下，只需要选择前几个主成分，就能够保留大部分数据特征。

2. 降维处理：在得到数据集的主成分之后，可以使用这些主成分将原始数据降维到一个低维度的空间。

在这个低维度空间中，数据点之间的距离和分布与原始数据点之间的距离和分布相似。

降维后的数据集可以更容易处理，从而加快了数据分析的速度。

3. 矩阵运算：PCA算法的核心是矩阵运算。

一般来说，PCA算法的实现需要计算数据集的协方差矩阵，通过对协方差矩阵进行SVD分解，即奇异值分解，得到主成分和对应的特征向量。

这些特征向量决定了数据的最主要的方向，可以用来降低数据的维度。

4. 可视化：通过PCA算法得到的降维数据可以进行可视化，便于数据分析和展
示。

在可视化过程中，考虑到主成分中的权重差异，需要进行合适的权重调整才能得到更好的可视化效果。

总之，PCA算法是一种重要的数据降维算法，在数据分析中有着广泛的应用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

主成分分析法原理简介
1.什么是主成分分析法
主成分分析也称主分量分析，是揭示大样本、多变量数据或样本之间内在关系的一种方法，旨在利用降维的思想，把多指标转化为少数几个综合指标，降低观测空间的维数，以获取最主要的信息。

在统计学中，主成分分析（principal components analysis, PCA）是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是，这也不是一定的，要视具体应用而定。

2.主成分分析的基本思想
在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具。

对同一个体进行多项观察时必定涉及多个随机变量X1，X2，…，X p，它们之间都存在着相关性，一时难以综合。

这时就需要借助主成分分析来概括诸多信息的主要方面。

我们希望有一个或几个较好的综合指标来概括信息，而且希望综合指标互相独立地各代表某一方面的性质。

任何一个度量指标的好坏除了可靠、真实之外，还必须能充分反映个体间的变异。

如果有一项指标，不同个体的取值都大同小异，那么该指标不能用来区分不同的个体。

由这一点来看，一项指标在个体间的变异越大越好。

因此我们把“变异大”作为“好”的标准来寻求综合指标。

3.主成分分析法的基本原理
主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。

4.主成分的一般定义
设有随机变量X1，X2，…，X p，样本标准差记为S1，S2，…，S p。

首先作标准化变换：
C j=a j1x1+a j2x2+ … +a j p x p , j=1,2,…,p
我们有如下的定义：
(1) 若C1=a11x1+a12x2+ … +a1p x p，，且使Var(C1)最大，则称C1为第一主成分；
(2) 若C2=a21x1+a22x2+…+a2p x p，，(a21，a22，…，a2p)垂直于(a11，a12，…，a1p)，且使Var(C2)最大，则称C2为第二主成分；
(3) 类似地，可有第三、四、五…主成分，至多有p个。

5.主成分的性质
主成分C1，C2，…，C p具有如下几个性质：
(1) 主成分间互不相关，即对任意i和j，C i 和C j的相关系数
Corr(C i,C j)=0 i j
(2) 组合系数(a i1，a i2，…，a ip)构成的向量为单位向量，
(3) 各主成分的方差是依次递减的，即Var(C1)≥Var(C2)≥…≥Var(C p)
(4) 总方差不增不减，即
Var(C1)+Var(C2)+ … +Var(C p) =Var(x1)+Var(x2)+ … +Var(x p) =p
这一性质说明，主成分是原变量的线性组合，是对原变量信息的一种改组，主成分不增加总信息量，也不减少总信息量。

(5) 主成分和原变量的相关系数Corr(C i，x j)=a ij =a ij
(6) 令X1，X2，…，X p的相关矩阵为R,(a i1，a i2，…，a ip)则是相关矩阵R的第i个特征向量(eigenvector)。

而且，特征值l i就是第i主成分的方差，即Var(C i)=l i 其中l i为相关矩阵R的第i个特征值(eigenvalue)
l1≥l2≥…≥l p≥0
6.主成分数目的选取
前已指出，设有p个随机变量，便有p个主成分。

由于总方差不增不减，C1，C2等前几个综合变量的方差较大,而C p，C p-1等后几个综合变量的方差较小, 严格说来，只有前几个综合变量才称得上主(要)成份，后几个综合变量实为“次 ”(要)成份。

实践中总是保留前几个，忽略后几个。

保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率)，它标志着前几个主成分概括信息之多寡。

实践中，粗略规定一个
百分比便可决定保留几个主成分；如果多留一个主成分，累积方差增加无几，便不再多留。

7.主成分分析的主要作用
概括起来说，主成分分析主要由以下几个方面的作用。

1．主成分分析能降低所研究的数据空间的维数。

即用研究m维的Y空间代替p维的X空间(m＜p)，而低维的Y空间代替高维的x空间所损失的信息很少。

即：使只有一个主成分Y l(即m＝1)时，这个Y l仍是使用全部X变量(p个)得到的。

例如要计算Yl的均值也得使用全部x的均值。

在所选的前m个主成分中，如果某个X i的系数全部近似于零的话，就可以把这个X i删除，这也是一种删除多余变量的方法。

2．有时可通过因子负荷a ij的结论，弄清X变量间的某些关系。

3．多维数据的一种图形表示方法。

我们知道当维数大于3时便不能画出几何图形，多元统计研究的问题大都多于3个变量。

要把研究的问题用图形表示出来是不可能的。

然而，经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，根据主成分的得分，画出n个样品在二维平面上的分布况，由图形可直观地看出各样品在主分量中的地位，进而还可以对样本进行分类处理，可以由图形发现远离大多数样本点的离群点。

4．由主成分分析法构造回归模型。

即把各主成分作为新自变量代替原来自变量x做回归分析。

5．用主成分分析筛选回归变量。

回归变量的选择有着重的实际意义，为了使模型本身易于做结构分析、控制和预报，好从原始变量所构成的子集合中选择最佳变量，构成最佳变量集合。

用主成分分析筛选变量，可以用较少的计算量来选择量，获得选择最佳变量子集合的效果。

8.主成分分析法的计算步骤
1、原始指标数据的标准化采集p 维随机向量x = (x ,X ,...,X ))，12p T n 个样品x = (x ,x ,...,x )i i 1i 2ip T ，i=1,2,…,n ，
n ＞p ，构造样本阵，对样本阵元进行如下标准化变换：
其中
，得标准化阵Z 。

2、对标准化阵Z 求相关系数矩阵
其中, 。

3、解样本相关矩阵R 的特征方程
, 得p 个特征根,确定主
成分按确定m 值，使信息的利用率达85%以上，对每个λj , j=1,2,...,m, 解方程组Rb = λb j 得单位特征向量。

4、将标准化后的指标变量转换为主成分
U 1称为第一主成分,U 2 称为第二主成分,…,U p 称为第p 主成分。

5 、对m 个主成分进行综合评价
对m 个主成分进行加权求和，即得最终评价值，权数为每个主成分的方差贡献率。

参考文献
1李成，孙旭，程福臻，用主成分分析法研究星团谱线的等值高度，天文学报，第43卷第2期，2002年5月
2Principal components analysis, Wikipedia
3 主成分分析法，MBAlib
4 Principal Components and Factor Analysis, StatSoft。