第六章主成分分析(PCA)

合集下载

主成分分析 ( Principal Component Analysis , PCA )

主成分分析 ( Principal Component Analysis , PCA )

主成分分析(Principal Component Analysis ,PCA )主成分分析(Principal Component Analysis ,PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。

计算主成分的目的是将高维数据投影到较低维空间。

给定n 个变量的m 个观察值,形成一个n ′m 的数据矩阵,n 通常比较大。

对于一个由多个变量描述的复杂事物,人们难以认识,那么是否可以抓住事物主要方面进行重点分析呢?如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。

但是,在一般情况下,并不能直接找出这样的关键变量。

这时我们可以用原有变量的线性组合来表示事物的主要方面,PCA 就是这样一种分析方法。

PCA 主要用于数据降维,对于一系列例子的特征组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的例子中都为1,或者与1差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。

所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是“精品”,而且计算量也变小了。

对于一个k维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。

例如,一个45度倾斜的椭圆,在第一坐标系,如果按照x,y坐标来投影,这些点的x和y的属性很难用于区分他们,因为他们在x,y轴上坐标变化的方差都差不多,我们无法根据这个点的某个x属性来判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为x轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比x,y轴的方法要好!所以我们的做法就是求得一个k维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。

主成分分析 ( Principal Component Analysis , PCA )

主成分分析 ( Principal Component Analysis , PCA )

主成分分析(Principal Component Analysis ,PCA )主成分分析(Principal Component Analysis ,PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。

计算主成分的目的是将高维数据投影到较低维空间。

给定n 个变量的m 个观察值,形成一个n ′m 的数据矩阵,n 通常比较大。

对于一个由多个变量描述的复杂事物,人们难以认识,那么是否可以抓住事物主要方面进行重点分析呢?如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。

但是,在一般情况下,并不能直接找出这样的关键变量。

这时我们可以用原有变量的线性组合来表示事物的主要方面,PCA 就是这样一种分析方法。

PCA 主要用于数据降维,对于一系列例子的特征组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的例子中都为1,或者与1差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。

所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是“精品”,而且计算量也变小了。

对于一个k维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。

例如,一个45度倾斜的椭圆,在第一坐标系,如果按照x,y坐标来投影,这些点的x和y的属性很难用于区分他们,因为他们在x,y轴上坐标变化的方差都差不多,我们无法根据这个点的某个x属性来判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为x轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比x,y轴的方法要好!所以我们的做法就是求得一个k维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。

主成分分析PCA介绍

主成分分析PCA介绍

主成分分析PCA介绍PCA的基本思想是找到投影向量,使得数据在该投影上的方差最大。

通过选择方差最大的投影向量,我们可以保留尽可能多的原始数据信息。

具体来说,PCA首先计算数据的协方差矩阵,然后对该矩阵进行特征值分解,得到特征向量和特征值。

特征向量就是我们要找的投影向量,而特征值表示数据在特征向量上的方差。

选择前k个特征向量,就可以将原始数据映射到k维空间中。

这样,通过选择适当的k值,既可以降低数据的维度,又可以尽量保留原始数据的信息。

PCA的应用非常广泛。

首先,PCA可以用于数据预处理,包括去除噪声、异常值和缺失值,以及数据标准化和归一化。

其次,PCA可以用于数据降维,减少冗余特征,提高计算效率。

特别是在高维数据集上,PCA可以减少特征的个数,提高模型的训练速度和结果的精确度。

此外,PCA还可以用于数据可视化,将高维数据投影到二维平面上,以便更好地理解数据的分布和结构。

除了基本的PCA方法外,还有一些对其进行改进和扩展的方法。

其中,核主成分分析(Kernel PCA)是一种非线性的PCA方法,通过将数据映射到高维特征空间来处理非线性关系。

自适应主成分分析(Adaptive PCA)可以根据数据的分布自动选择合适的特征数目。

增量主成分分析(Incremental PCA)可以处理大规模数据集,并能够在数据流中进行在线学习和更新。

然而,PCA也有一些限制和缺点。

首先,PCA假设数据服从线性分布,对于非线性关系的数据可能会失效。

其次,PCA只能找到数据集中的线性主成分,无法处理复杂的非线性关系。

最后,PCA对异常值和噪声敏感,可能会导致降维结果的偏差。

总的来说,PCA是一种常用的数据降维方法,可以在保留原始数据信息的同时,减少特征的个数,提高计算效率和模型的准确度。

通过选择适当的投影向量和特征数目,PCA可以应用于各种学科和领域,有助于数据分析和模式识别的进展。

但需要注意其在处理非线性数据和异常值方面的局限性,以及对噪声的敏感性。

主成分分析—PCA

主成分分析—PCA

主成分分析—PCA⼀.定义 主成分分析(principal components analysis)是⼀种⽆监督的降维算法,⼀般在应⽤其他算法前使⽤,⼴泛应⽤于数据预处理中。

其在保证损失少量信息的前提下,把多个指标转化为⼏个综合指标的多元统计⽅法。

这样可达到简化数据结构,提⾼分信息效率的⽬的。

通常,把转化⽣成的综合指标称为主成分,其中每个成分都是原始变量的线性组合,且每个主成分之间互不相关,使得主成分⽐原始变量具有某些更优越的性能。

⼀般,经主成分分析分析得到的主成分与原始变量之间的关系有:(1)每个主成分都是各原始变量的线性组合(2)主成分的数⽬⼤⼤骚鱼原始变量的数⽬(3)主成分保留了原始变量的绝⼤多数信息(4)各主成分之间互不相关⼆.过程 其过程是对坐标系旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐标轴的⽅向就是原始数据变差最⼤的⽅向。

(参见《多元统计分析》P114-117,新坐标轴Y1和Y2,⽤X1和X2的线性组合表⽰,⼏何上是将坐标轴按逆时针⽅向旋转⼀定的⾓度⽽得出) 详细版:数据从原来的坐标系转换到新的坐标系。

转换坐标系时,以⽅差最⼤的⽅向作为新坐标轴⽅向(数据的最⼤⽅差给出了数据的最重要的信息)。

第⼀个新坐标轴选择的是原始数据中⽅差最⼤的⽅法,第⼆个新坐标轴选择的是与第⼀个新坐标轴正交且⽅差次⼤的⽅向。

重复以上过程,重复次数为原始数据的特征维数。

在重复中,我们不断地得到新的坐标系。

Generally,⽅差集中于前⾯⼏个综合变量中,且综合变量在总⽅差中所占的⽐重依次递减,⽽后⾯新的坐标轴所包含的⽅差越来越⼩,甚⾄接近0。

实际应⽤中,⼀般只要挑选前⼏个⽅差较⼤的主成分即可。

那么,我们如何得到这些包含最⼤差异性的主成分⽅向呢?事实上,通过计算数据矩阵的协⽅差矩阵,然后得到协⽅差矩阵的特征值及特征向量,选择特征值最⼤(也即包含⽅差最⼤)的N个特征所对应的特征向量组成的矩阵,我们就可以将数据矩阵转换到新的空间当中,实现数据特征的降维(N维)。

主成分pca

主成分pca

主成分pca主成分分析(Principal Component Analysis,PCA)是一种常用的数据降维方法,它可以将高维数据转化为低维数据,并保留原始数据的大部分信息。

PCA最初被提出来是为了解决多变量统计分析中的共线性问题,但现在已经广泛应用于各个领域中。

一、PCA概述1.1 PCA定义PCA是一种线性变换技术,它将高维数据转化为低维数据。

在这个过程中,PCA通过寻找最大方差方向来确定新的特征空间,并将原始数据映射到这个新的特征空间中。

1.2 PCA应用领域PCA被广泛应用于各个领域,包括图像处理、语音识别、生物信息学、金融等。

其中,在图像处理领域中,PCA被用于降噪和特征提取;在生物信息学领域中,PCA被用于基因表达谱分析和蛋白质结构预测;在金融领域中,PCA被用于资产组合优化和风险管理。

二、PCA数学原理2.1 方差和协方差在介绍PCA的数学原理之前,我们需要先了解一些基本概念。

方差是衡量一个随机变量离其平均值的距离的度量,而协方差是衡量两个随机变量之间线性关系的度量。

2.2 特征值和特征向量特征值和特征向量是PCA中非常重要的概念。

在PCA中,我们需要将原始数据映射到一个新的特征空间中。

这个新的特征空间由一组正交的基向量组成,每个基向量都对应一个特征值。

这些基向量被称为特征向量,它们是通过求解协方差矩阵的特征值和特征向量得到的。

2.3 PCA步骤PCA可以分为以下几个步骤:(1)去均值化:将原始数据减去其均值,得到零均值数据。

(2)计算协方差矩阵:计算零均值数据的协方差矩阵。

(3)求解特征值和特征向量:对协方差矩阵进行特征分解,得到一组正交基向量和对应的特征值。

(4)选择主成分:根据前k个最大的特征值所对应的k个主成分,构建新的低维空间。

(5)映射到新空间:将原始数据映射到新的低维空间中。

三、PCA实例分析为了更好地理解PCA,我们可以通过一个简单的实例来说明其应用过程。

3.1 数据准备假设我们有一个包含两个变量(x和y)的数据集,其中每个变量都有10个观测值。

主成分分析(PCA)原理详解

主成分分析(PCA)原理详解

主成分分析(PCA)原理详解PCA的基本原理如下:1.数据标准化:对数据进行标准化处理,使得每个特征的均值为0,方差为1、这一步骤是为了保证不同特征的量纲一致,避免一些特征因数值过大而对分析结果造成影响。

2.计算协方差矩阵:协方差矩阵描述了数据特征之间的相关性。

通过计算标准化后的数据的协方差矩阵,可以得到不同特征之间的相关性信息。

3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。

特征向量表示了数据在各个方向上的投影情况,特征值则表示了各个特征向量的重要程度。

4.选择主成分:根据特征值的大小,选择最重要的K个特征向量作为主成分。

特征值越大,表示该特征向量所代表的特征在数据中的方差越大,所能解释的信息也越多。

5.构造降维后的数据集:将选取的K个特征向量组合成一个转换矩阵,将原始数据映射到新的K维空间中。

通过这个转换过程,可以实现降维并且保留较多的信息。

总结起来,PCA的主要思想是通过计算特征向量和特征值,找到数据中最重要的方向(主成分),然后通过投影到这些主成分上实现数据的降维。

PCA的应用包括数据可视化、特征选择、噪声过滤等。

例如,在数据可视化中,将高维数据降至二维或三维空间,有助于观察数据之间的分布情况。

在特征选择中,选择最能代表数据信息的主成分可以减少特征的数量,并且仍能保留较多的重要信息。

在噪声过滤中,提取数据中的主成分,滤除噪声成分,能够提高数据的质量和可靠性。

需要注意的是,PCA的有效性依赖于数据之间存在线性关系的假设。

对于非线性关系较强的数据,PCA不一定能够有效降维,这时可以采用核主成分分析等非线性降维方法。

以上是对PCA原理的详细解析。

通过PCA,我们能够将高维数据转换为一组更易理解和处理的低维特征,从而发现数据中的潜在结构、关系和模式,为后续分析和建模提供有益的信息。

主成分分析(PCA)数学原理详解

主成分分析(PCA)数学原理详解

主成分分析(PCA)数学原理详解PCA的数学原理可以分为以下几个步骤:1.数据中心化PCA首先将原始数据进行中心化处理,即将每个特征的均值减去相应特征的平均值,这是因为PCA假设数据围绕着原点分布,中心化可以消除数据的平移影响。

2.协方差矩阵的计算PCA的关键是计算数据的协方差矩阵。

协方差矩阵描述了不同特征之间的相关性。

对于一个n维的数据集,协方差矩阵是一个n×n的矩阵,其中第(i,j)个元素表示第i个特征和第j个特征的协方差。

协方差矩阵的计算公式如下:$C = \frac{1}{n-1} \sum _{i=1}^{n}(X_i - \overline{X})(X_i - \overline{X})^T$其中,X是一个n×m的矩阵,表示n个样本的m个特征,$\overline{X}$ 表示特征均值向量协方差矩阵是一个对称矩阵,通过对协方差矩阵的特征值分解,可以得到特征值和特征向量。

3.特征值和特征向量的计算对协方差矩阵进行特征值分解,可以得到特征值和对应的特征向量。

特征值代表了数据在特征向量方向上的方差,而特征向量表示了数据的主成分方向。

设协方差矩阵为C,有如下特征值方程:$Cv = \lambda v$其中,v是特征向量,λ是特征值。

将特征值按从大到小的顺序排序,选择前k个最大的特征向量,即主成分,作为新的基向量。

这些特征向量构成了一个新的坐标系,用于表示原始数据的新坐标。

4.数据转换将原始数据投影到新的坐标系上,得到降维后的数据。

设原始数据集为X,新的基向量为V(由前k个特征向量组成),降维后的数据集为Y,可以通过如下公式计算:$Y=XV$其中,X是一个n×m的矩阵,表示n个样本的m个特征,V是一个m×k的矩阵,Y是一个n×k的矩阵。

通过PCA降维,可以获得降维后的数据集Y,它是一个n×k的矩阵。

总结:主成分分析(PCA)通过计算数据的协方差矩阵,得到协方差矩阵的特征值和特征向量。

主成分分析(PCA)

主成分分析(PCA)

主成分分析(PCA)定义 主成分分析(Principal Component Analysis)也称为主分量分析,主要是利⽤降维的思想,把多指标转化为少数⼏个综合指标(即主成分),其中每⼀个主成分都能够反映原始变量的⼤部分信息,并且所含信息互不重复。

优点:降低数据的复杂性,识别最重要的多个特征。

缺点:不⼀定需要,且可能损失有⽤信息。

适⽤数据类型:数值型数据。

求解 PCA由所选的解码函数所决定。

具体地,为了简化解码器,使⽤矩阵乘法将编码映射回R n,即g(c) = Dc,其中D ∈R n×l是定义解码的矩阵。

⾸先,我们根据⼀个输⼊x得到⼀个最优编码c*。

⼀种⽅法是最⼩化原始输⼊向量x和重构向量g(c*)之间的距离。

可以使⽤范数来衡量他们之间的距离。

在PCA算法中,我们使⽤L2范数:c* = arg min c ||x - g(c)||2,我们可以⽤平⽅L2范数替代L2范数,因为两者在相同的值c上取得最⼩值(L2 范数是⾮负的,并且平⽅运算在⾮负值上是单调递增的。

):c* = arg min c ||x - g(c)||22 = (x - g(c))T(x - g(c))=x T x - x T g(c) - g(c)T x + g(c)T g(c) (1.1) 标量 g(c)T x 的转置等于本⾝。

除去上式中不依赖与c的项,得到如下优化⽬标:c* = arg min c - 2 x T g(c) + g(c)T g(c) (1.2) 将g(c) = Dc代⼊上式,(矩阵D的正交性和单位范数约束)得c* = arg min c - 2 x T Dc + c T D T Dc = arg min c - 2 x T Dc + c T I l c = arg min c - 2 x T Dc + c T c (1.3) 通过向量微积分求解最优化问题:▽c( - 2 x T Dc + c T c ) = 0- 2 D T x + 2 c = 0解得 c = D T x 最优编码x只需要⼀个矩阵-向量乘法操作。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12
§5.2 主成分分析的数学模型
适合用主成分分析的数据具有如下结构:
指 标
样 本
xij x
* ij
xij x j Varx j
, i 1,2,, n, j 1,2,, p
13
主成分分析中一个重要问题是受量纲的影响, 因此实际应用中,需要对数据进行标准化。
基本思想
将原来 p 个指标线性组合,作为新的综合指标,分别记为
第一步:对原始数据进行标准化处理
编号 面 配料 汤
NR1 NR2 NR3 NR4 NR5 NR6 NR7 NR8 NR9
23
-0.7 -1.3 1.3 -0.7 0 0.7 0.7 -1.3 0 1.3
0.3 1.2 0.5 1.4 1.2 0.5 0.3 1.4 0.5 1.2
1.4 1.3 0.8 0.1 1.4 0.6 0.1 1.3 0.6 0.1
第二学期 周学 考 考查 时 试 2 合格 3.5 合格 5 4 3 1 4.5 80 81 79 86 合格
课程名称
第 三 学 年
数字逻辑 离散数学 数据结构 编译原理 社会主义建设 计算机结构原 理 软件应用选讲 数理逻辑 接口与通讯 操作系统 程序设计语言 系统结构 软件工程
第一学期 周学 考 考查 时 试 4 86 4 77 4 85 4 84 2 合格 4 2 良 优
F1 , F2 ,,而这些新的线性组合必须满足:
F1尽可能的反映原来指标的信息(经典的方法是用方差
来表达信息,即选取使 var( F1 ) 最大的线性组合,称 F1为 第一主成分;
如果 F1不足以代表原来 p 个指标的信息, 再选取第二个线 性组合即 F2 , 同时要求 F1已包含的信息不需要再出现在 F2 中(数学上表示为 cov( F1 , F2 ) 0 ) ,称 F2 为第二主成分.
a11 a12 a1 p X 1 a a a X 22 2p 21 2 F AX a p1 a p 2 a pp X P
这就是正交旋转变换矩阵
17
§5.3 主成分的几何意义 平移、旋转坐标轴
15
满足:
1. 主成分的方差依次递减,重要性依次递减,即
Var (F1) Var ( F2 ) Var ( Fp )
2. 主成分之间互不相关,即无重叠的信息,即
Cov (Fi , F j) 0, i j , i, j 1, 2, , p
3. 每个主成分的系数平方和为1,即
10
问题的提出
基于上述问题,人们就希望在定量研究中涉及的 变量较少,而得到的信息量又较多。 主成分分析正是研究如何通过原来变量的少数几 个线性组合来解释原来变量绝大多数信息的一种 多元统计方法。
实际上是一种“降维”的思想
11
主成分分析案例
美国的统计学家Stone在1947年关于国民经济的研究. 他曾利用美国1929一1938年各年的数据,得到了17个反映 国民收入与支出的变量要素,例如雇主补贴、消费资料 和生产资料、纯公共支出、净增库存、股息、利息外贸 平衡等等. 在进行主成分分析后,竟以97.4%的精度,用三新变 量就取代了原17个变量. 根据经济学知识给这三个新变量 分别命名为总收入F1、总收入变化率F2和经济发展或衰 退的趋势F3. 更有意思的是,这三个变量其实都是可以直 接测量的.
29
实例2:主成分得分实际意义分析 y1 是刻画尺寸大小的因子. y2 反映人的胖瘦情况,是一个体形因子.反映 “长”的尺寸前面的系数为正; 反映“围”的 尺寸前的系数为负. y3 系数多数取值很小,接近于0。只有三个系 数绝对值较大. y3 是反映特殊体形的因子,区 分有无畸形.
30
31
第五步:计算主成分得分
编号
NR1 NR2 NR3 NR4 NR5 NR6 NR7 NR8
26
第一主成分得分 0.7 -1.0 1.0 -1.1 1.5 -0.3 0.6 -2.3 -0.7 1.4
第二主成分得分 0.5 1.9 -1.3 -0.7 0.8 -0.7 -0.1 -0.1 -0.3 0.1
第二学期 周学 考 考 时 试 查
2
合 格
4 4 4 4 4 4 4 4 3 4.5 80 合格 85 77
94 90 84 77 合 格 合 格
英语 第 数学分析 模拟电路 二 PASCAL语言 学 哲学 管理学概论 年 体育 概率统计 微分方程 程序设计基础
4 5 3.5 4 2 2 1
76 82 92 94 良 良 合格
NR10
第二步:计算样本相关系数矩阵
面 面 配料 汤 1 0.19 0.36
配料 0.19 1 0.30
汤 0.36 0.30 1
24
第三步:求相关系数矩阵的特征值和相应的特征向量
25
第四步:选择重要的主成分,并写出主成分表达式
F1 0.57*面 0.52*配料 0.63*汤 F2 0.6*面 0.79*配料-0.11*汤
F1
x1

19
平移、旋转坐标轴
x2 F2
• • • • • • • • • • • • •• • • • • • •
F1
• • • • • • • • • • • •• • •
x1
20
平移、旋转坐标轴
F2
• ••
x2

F1
•• • • • • • • • • • • •• • •• • • • • • •• • • • •• • • •• • • • • • • •• •• • • • • • • • •• • • • • • • • • • •• • • •• • • • • • • • • • • • • • • • • • •• • • • • • • •
第六章 主成分分析 Principal Components Analysis, PCA 本章教学目标:
掌握主成分分析的基本概念、基本原理及其分析应 用的基本步骤; 能应用主成分分析方法解决实际问题.
多元时间序列分析方法初步
1
本章主要内容:
§6.1 §6.2 §6.3 §6.4 §6.5
3
实例2:学生的数学、物理、化学、语文、历史、 英语的成绩如下表.
如何给出排名?如何评价学 生的综合能力?
4
课程名称
第一学期 周学时 考试 考查 2 4.5 4 5 4 3 1 合格 92 80 83 良 合格 合格
中共党史 第 高等代数 解析几何 一 数学分析 英语 学 年 数据处理概论 体育 普通物理
a
16
2 k1
ak 2 akp 1, k 1,2,, p
2 2
主成分分析的过程也就是坐标旋转的过程
F1 a11 x1 a12 x2 a1 p x p F 2 a21 x1 a22 x2 a2 p x p Fp a p1 x1 a p 2 x2 a pp x p
F2 x2
•• • • • • • • • • • • • • • • • • • • •• • • •
F1
• • • •• • • • • •
• •
x1
18
平移、旋转坐标轴
x2 F2
• • • • • • • •••• • • • •• •• • • •• • • • • • • • • • •• • • ••
21
x1
§5.4 主成分分析的主要步骤
第一步:对原始数据进行标准化处理; 第二步:计算样本相关系数矩阵; 第三步:求相关系数矩阵的特征值和相应的特征向量; 第四步:选择重要的主成分,并写出主成分表达式; 第五步:计算主成分得分; 第六步:依据主成分得分数据,进一步分析
22
§5.5 案例分析
例1:面馆人气综合评价问题
y2
0.20 0.14 -0.33 0.18 0.20 0.27 0.19 -0.37 0.07 -0.17 -0.35 -0.02 0.11 -0.37 -0.27 -0.36
y3
0.01 -0.06 0.14 0.03 0.03 -0.03 0.02 -0.15 0.63 -0.53 -0.20 -0.31 -0.02 0.25 0.14 0.24
哪个面馆人气最高?
8
问题的提出
一. 能不能把数据的多个变量(指标)用
一两个综合变量来表示呢?
二. 这一两个综合变量包含有多少原来
的信息呢?
三. 能不能利用找到的综合变量来对学
生成绩、面馆人气排序呢?
9
问题的提出
一方面人们为了避免遗漏重要的信息而考虑尽可 能多的指标; 另一方面随着考虑指标的增多增加了问题的复杂 性,同时由于各指标均是对同一事物的反映,不 可避免地造成信息的大量重叠,这种信息的重叠 有时甚至会抹杀事物的真正特征与内在规律;
14
依次类推,可构造出第三,第四个主成分…….
基本思想
指标
F1 a11x1 a12 x2 a1 p xp 第一主成分 F a x a x a x 2 21 1 22 2 2p p 第二主成分 F a x a x a x 1 1 2 2 p p p pp p cov( Fi , F j ) 0
NR9 NR10
27
第六步:统计分析
28
例2: 服装生产
特征向量
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16
身长 坐高 胸围 头高 裤长 下裆 手长 领围 前胸 后背 肩厚 肩宽 袖长 肋围 腰围 腿肚
y1
0.34 0.27 0.23 0.34 0.33 0.29 0.29 0.19 0.09 0.15 0.10 0.24 0.32 0.18 0.27 0.16
相关文档
最新文档