主成分分析和因子分析的区别

合集下载

主成分分析与因子分析的异同比较及应用

主成分分析与因子分析的异同比较及应用

主成分分析与因子分析的异同比较及应用一、相似之处:1.降低数据维度:主成分分析和因子分析都是降维方法,通过将原始变量进行线性组合,生成一组新变量,减少原始数据的维度。

2.揭示变量之间的关系:主成分分析和因子分析都可以揭示数据中变量之间的相关性和潜在结构,更好地理解变量之间的关系。

3.数据依赖:主成分分析和因子分析都依赖原始数据的线性关系。

二、主成分分析的特点和应用:1.数据探索:主成分分析可以用于对数据进行探索性分析,揭示数据中的模式和变量之间的关系。

2.特征选择:主成分分析可以用于提取最相关的变量,帮助选择最能代表数据信息的特征。

3.数据压缩:通过保留主要的主成分,主成分分析可以将数据压缩成较低维度,减少存储和计算的开销。

4.降噪:主成分分析可以通过去除与主成分相关较小的维度,减少噪声的影响。

三、因子分析的特点和应用:因子分析的目标是通过找到能够解释原始变量间共同方差的不可观测因子,来揭示变量背后的潜在结构。

因子分析的原理是通过将多个变量通过线性函数关系表示为少数几个潜在因子的和。

因子分析可以用于以下场景:1.变量间关系建模:因子分析可以用于建立变量之间的概念模型,识别变量的共同因子、独特因子和测量误差。

2.假设测试:因子分析可以用于检验变量之间的因果关系,以验证一些假设。

3.变量缩减:通过识别共同的因子,并组合成新的因子变量,因子分析可以减少数据集的维度。

4.数据恢复:因子分析可以通过基于因子提取的结果,恢复原始变量的丢失信息。

四、主成分分析与因子分析的区别:1.目标:主成分分析的目标是将原始变量转化为一组新的不相关的维度,以解释数据方差最大化;而因子分析的目标是将原始变量转化为一组潜在因子,以解释变量间的共同方差。

2.变量假设:主成分分析假设所有变量是观测变量的线性组合,而因子分析假设所有变量既有观测变量,也有不可观测的因子变量。

3.因素解释:主成分分析的主要解释对象是方差,因而主成分的解释目标是能够包含尽可能多的方差;而因子分析的解释对象是共同方差,因而因子的解释目标是能够解释原始变量之间的共同方差。

基于SPSS的主成分分析与因子分析的辨析

基于SPSS的主成分分析与因子分析的辨析

基于SPSS的主成分分析与因子分析的辨析主成分分析和因子分析是两种常用的多元统计分析方法,用于处理多个变量之间的关系和结构。

尽管它们在一些方面相似,但它们有着不同的目标、假设和应用领域。

主成分分析(PCA)是一种降维技术,旨在将多个相关的变量转化为较少数量的互相无关的新变量,称为主成分。

主成分是原始变量线性组合的结果,它们按照方差的大小递减排序,第一个主成分解释了尽可能多的方差,第二个主成分解释了剩余的方差,依此类推。

主成分分析的目标是找到最重要的成分,以减少数据维度并保留尽可能多的信息。

因子分析(FA)是一种探索性分析方法,旨在找到观察到的变量背后潜在的隐藏因子及其之间的关系。

它假设每个观察到的变量受到几个潜在因子的影响,并通过解释方差-共方差矩阵来确定这些因子。

因子分析的目标是解释数据的系统结构,并识别变量之间的潜在关系。

下面是主成分分析和因子分析的几个区别:1.假设:主成分分析假设所有的变量都是线性相关的,而因子分析假设变量之间存在潜在的隐藏因子。

2.目标:主成分分析的目标是减少数据的维度,使用少量的主成分来解释尽可能多的方差。

因子分析的目标是找出潜在因子,并解释数据的结构。

3.变量解释:在主成分分析中,每个主成分解释了数据中的方差,而在因子分析中,每个因子代表了一个潜在原因,描述了观察到的变量之间的共同性。

4.变换:在主成分分析中,通过线性组合原始变量来创建主成分。

在因子分析中,每个观察到的变量都被假设为由潜在因子和特定的误差项组合而成。

5.前提要求:主成分分析对变量之间的线性关系没有特定的要求,可以处理混合类型的数据。

因子分析假设线性关系是必需的,且数据应满足正态分布。

尽管主成分分析和因子分析在一些方面不同,但它们也有一些共同之处。

它们都可以用于数据降维和构建新的变量,以更好地解释和理解数据。

此外,它们都是无监督学习方法,不需要以前的假设。

在实际应用中,选择主成分分析还是因子分析取决于具体的研究目标和数据属性。

数据分析中的因子分析与主成分分析

数据分析中的因子分析与主成分分析

数据分析中的因子分析与主成分分析在当今信息爆炸的时代,数据分析已经成为了各行各业中不可或缺的一部分。

在数据分析的过程中,因子分析和主成分分析是常用的两种统计方法。

它们可以帮助我们理解数据背后的隐藏规律和关联性。

本文将介绍因子分析和主成分分析的基本概念、应用场景以及它们之间的区别。

一、因子分析因子分析是一种用于探索多个变量之间关系的统计方法。

它的基本思想是将多个相关的变量归纳为少数几个潜在因子,从而简化数据的复杂性。

通过因子分析,我们可以找到隐藏在数据背后的共性因素,并将其用较少的变量来代表。

在因子分析中,我们需要确定两个重要的概念:因子载荷和公因子。

因子载荷表示变量与因子之间的相关性,取值范围为-1到1。

而公因子则是指影响多个变量的共同因素。

通过因子分析,我们可以得到每个变量对于每个公因子的因子载荷,从而得知变量之间的相关性以及它们与公因子的关系。

因子分析在实际应用中有着广泛的用途。

例如,在市场调研中,我们可以利用因子分析来确定消费者对于某个产品的偏好因素;在心理学研究中,我们可以通过因子分析来探索人们的个性特征。

因子分析的结果可以帮助我们更好地理解数据,为进一步的分析提供基础。

二、主成分分析主成分分析是一种用于降维的统计方法。

它的目标是通过线性组合将原始变量转化为一组新的互相无关的变量,即主成分。

主成分分析通过保留原始数据的大部分信息,同时减少数据的维度,从而达到简化数据和减少冗余的目的。

在主成分分析中,我们首先需要计算协方差矩阵。

然后,我们通过求解协方差矩阵的特征值和特征向量,得到主成分。

特征值表示主成分的重要性,而特征向量则表示主成分的方向。

通过选择特征值较大的主成分,我们可以保留较多的原始数据信息。

主成分分析在实际应用中也有着广泛的用途。

例如,在金融领域,我们可以利用主成分分析来构建投资组合,降低风险;在图像处理中,我们可以利用主成分分析来提取图像的特征。

主成分分析可以帮助我们更好地理解数据的结构,发现数据中的重要特征。

因子分析、主成分分析

因子分析、主成分分析

通过主成分分析,可以研究多个变量之间的相关性,揭示变量
之间的内在联系。
多元回归分析
03
在多元回归分析中,主成分分析可以用来消除变量间的多重共
线性,提高回归分析的准确性和稳定性。
金融数据分析
风险评估
在金融数据分析中,主成分分析可以用来评估投资组合的风险, 通过提取主要因子来反映市场的整体波动。
市场趋势分析
主成分分析案例:金融数据分析
总结词
主成分分析用于金融数据分析中,能够 降低数据维度并揭示主要经济趋势。
VS
详细描述
在金融领域,主成分分析被广泛应用于股 票、债券等资产组合的风险评估和优化。 通过对大量金融数据进行主成分分析,可 以提取出几个关键主成分,这些主成分代 表了市场的主要经济趋势。投资者可以利 用这些信息进行资产配置和风险管理。
特征提取
主成分分析能够提取出数据中的 主要特征,突出数据中的主要变 化方向,有助于揭示数据的内在 规律。
数据可视化
降低数据维度后,数据的可视化 变得更加容易,有助于直观地理 解和分析数据。
多元统计
多元数据描述
01
主成分分析可以用来描述多元数据的总体特征,提供对多元数
据分布的整体理解。
多元相关分析
02
目的
通过找出影响观测变量的潜在结构, 更好地理解数据的意义,简化复杂数 据的分析,并解决诸如多重共线性等 问题。
因子分析的原理
1 2 3
基于相关性
因子分析基于观测变量之间的相关性,通过找出 这些相关性背后的公因子来解释变量之间的依赖 关系。
降维
通过提取公因子,将多个观测变量的复杂关系简 化为少数几个潜在因子的线性组合,实现数据的 降维。

主成分分析 因子分析

主成分分析 因子分析

主成分分析 因子分析主成分分析和因子分析是很重要的统计分析方法。

两者都是用于对一组同质或异质的变量进行数据探索研究的技术,它们都可以提供有价值的结论,增强数据有意义的理解。

1. 主成分分析主成分分析(Principal Component Analysis,简称PCA)是从一大组变量中提取具有代表性的正交变量,组成一个新的变量集合。

PCA通过减少变量数量,减少多变量间相关性带来的重复性,从而提升数据分析的准确性和有效性。

注意减少变量数量不是减少观测样本数量,而是把原先高维度的变量合并成一组较低维度的变量。

PCA算法的基本思想是:它分析原始数据集中的变异,并从中提取主要的变量,然后将这些变量的组合(叫做主成分)用推断法来重新构建原来的数据集,最后能够说明原始变量的结构,对被研究的变量结构有系统的解释。

2. 因子分析因子分析(Factor Analysis,简称FA)是一种用来探索相关变量之间潜在关系的统计分析方法。

这一方法注重的是把一系列的变量映射到一个尽可能少的多个隐变量的过程。

其中,这些隐变量就是“因子”,它们是原来变量的代表性变量,且变量之间有因果或相关的结构关系。

FA的基本思想是,将一组变量之间的复杂的相关关系映射到一组基本关系,即因子上。

然后,当每个变量映射到一个或几个因子上后,只需要解释因子就能够完全解释自变量变化的原因。

常用的因子模型有因子旋转、因子分层、因子波动等。

相比较,主成分分析和因子分析都有各自的专业领域,它们都有不同的数据需求和分析方法,在不同的数据处理中也表现出各自的优势和劣势。

主成分分析处理比较复杂的数据,可以根据原始变量的关系构建视图,但不涉及因果关系的推断;而因子分析可以推导出被研究的变量之间的关系,进而探索或验证其原因。

数据分析中的因子分析和主成分分析

数据分析中的因子分析和主成分分析

数据分析中的因子分析和主成分分析在数据分析领域,因子分析和主成分分析是两种常用的多变量分析方法。

它们可以用来处理大量的数据,找出数据的内在规律,并将数据简化为更少的变量。

本文将介绍因子分析和主成分分析的定义、应用以及它们在数据分析中的区别和联系。

一、因子分析因子分析是一种用于研究多个变量之间的潜在因素结构及其影响的统计方法。

它通过将多个观测变量转化为少数几个无关的因子,来解释变量之间的相关性。

因子分析的基本思想是将多个相关观测变量归因于少数几个潜在因子,这些潜在因子不能被观测到,但可以通过观测变量的变化来间接地推断出来。

因子分析通常包括两个主要步骤:提取因子和旋转因子。

提取因子是指确定能够解释原始变量方差的主要共性因子,常用的方法有主成分分析法和最大似然估计法。

旋转因子是为了减少因子之间的相关性,使得因子更易于解释。

常用的旋转方法有正交旋转和斜交旋转。

因子分析的应用非常广泛,可以用于市场研究、社会科学调查、心理学、金融等领域。

例如,在市场研究中,因子分析可以用来确定消费者购买行为背后的潜在因素,从而更好地理解市场需求。

二、主成分分析主成分分析是一种通过线性变换将原始变量转化为一组线性无关的主成分的统计方法。

主成分是原始变量的线性组合,具有较大的方差,能够尽可能多地解释原始数据。

主成分分析的主要思想是将原始变量投影到一个新的坐标系中,使得新坐标系上的第一主成分具有最大方差,第二主成分具有次最大方差,以此类推。

通过选择解释原始数据方差较多的前几个主成分,我们可以实现数据的降维和主要信息提取。

主成分分析在数据降维、特征提取和数据可视化等领域有广泛的应用。

例如,在图像处理中,主成分分析可以用来压缩图像数据、提取重要特征,并且可以在保留图像主要信息的同时减少存储空间的需求。

三、因子分析和主成分分析的区别和联系因子分析和主成分分析在某些方面有相似之处,但也存在明显的区别。

首先,因子分析是用于研究多个观测变量之间的潜在因素结构,而主成分分析是通过线性变换将原始变量转化为一组线性无关的主成分。

主成分分析与因子分析

主成分分析与因子分析

标题: 主成分分析和因子分析的区别1,因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。

2,主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。

3,主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。

因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。

4,主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。

5,在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。

在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。

和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。

大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。

而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。

当然,这中情况也可以使用因子得分做到。

所以这中区分不是绝对的。

总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。

主成分分析一般很少单独使用:a,了解数据。

(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。

(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

因子分析主成分分析

因子分析主成分分析

因子分析主成分分析因子分析和主成分分析是一种统计方法,用于探索多个变量之间的关系。

它们可以帮助人们理解数据的结构、降低变量维度、提取重要信息以及进行数据压缩等。

因子分析和主成分分析的基本思想是将一组观测变量转化为一组新的、不相关的变量(主成分或因子),以保留原始数据中的关键信息。

主成分分析(PCA)是一种线性降维方法,它通过寻找原始数据中方差最大的方向(主成分),将原始数据映射到一个低维子空间中。

这些主成分是原始数据中的线性组合,但它们是彼此正交的,也就是说,它们在数据中没有相关性。

主成分的数量通常比原始变量少,因此可以实现数据压缩和降维的目的。

主成分分析的步骤如下:1.标准化数据:将原始数据标准化为均值为0,标准差为1的数据集,以消除不同变量之间的量纲差异。

2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。

3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和特征向量。

4.选择主成分:根据特征值的大小选择前k个主成分,其中k是降维后的维度。

5.构建降维矩阵:将选定的主成分按照特征值大小的顺序组合起来,构成降维矩阵。

6.数据转化:将原始数据通过降维矩阵映射到低维子空间中,得到降维后的数据。

因子分析(Factor Analysis)是一种非线性降维方法,它假设观测数据是由若干个“潜在因子”造成的,这些因子不能直接观测到,只能通过相关的观测变量间接反映出来。

因子分析通过寻找观测数据中的共同因素,解释多变量之间的协方差结构,并试图从中识别出潜在的因素。

因子分析的步骤如下:1.确定因子数:通过确定潜在因素的数量,决定需要提取的因子个数。

2.选择提取方法:根据因素的假设和数据特点选择合适的提取方法,常用的有主成分法、极大似然法和最小残差法等。

3.估计因子载荷:根据选择的提取方法,估计每个观测变量与每个因子的相关程度,即因子载荷。

4.解释因子:根据因子载荷的结果解释因子的意义和潜在的因素。

5.因子旋转:将因子旋转到更容易解释和解读的位置,常用的旋转方法有方差最大化法、正交旋转法和斜交旋转法等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——主成分分析和因子分析的区别一、二者在 SPSS 中的实现(一) 、因子分析在 进行因子分析主要步骤如下: 1. 2. 3. 4. 5. 指标数据标准化(SPSS 软件自动执行) ; 指标之间的相关性判定; 确定因子个数; 综合得分表达式; 各因子 Fi 命名; 例子:对沿海 10 个省市经济综合指标进行因子分析 (一)指标选取原则 本文所选取的数据来自 《中国统计年鉴 2003》 2002 年的统计数据,在沿海 10 省市经济状况主要指标 中 体系中选取了 10 个指标: X1——GDP X3——农业增加值 X5——第三产业增加值 X7——基本建设投资 X9——海关出口总额 X2——人均 GDP X4——工业增加值 X6——固定资产投资 X8——国内生产总值占全国比重(%) X10——地方财政收入SPSS 中的实现图表 1 沿海 10 个省市经济数据 社会消 农业增加 工业增加 第三产业 固定资产 基本建设 费品零 值 值 增加值 投资 投资 售总额 14883.3 1390 950.2 83.9 1122.6 86.2 680 663 1023.9 591.4 1376.2 3502.5 1406.7 822.8 3536.3 2196.2 2356.5 1047.1 4224.6 367 2258.4 3851 2092.6 960 3967.2 2755.8 3065 1859 4793.6 995.7 1315.9 2288.7 1161.6 703.7 2320 1970.2 2296.6 964.5 3022.9 542.2 529 1070.7 597.1 361.9 1141.3 779.3 1180.6 397.9 1275.5 352.7 2258.4 3181.9 1968.3 941.4 3215.8 2035.2 2877.5 1663.3 5013.6 1025.5地区GDP人均 GDP 13000 11643 9047 22068 14397 40627 16570 13510 15030 5062海关出 地方财 口总额 政收入 123.7 211.1 45.9 115.7 384.7 320.5 294.2 173.7 1843.7 15.1 399.7 610.2 302.3 171.8 643.7 709 566.9 272.9 1202 186.7辽宁 5458.2 山东 10550 河北 6076.6 天津 2022.6 江苏 浙江 福建 广东 10636 7670 4682 11770 上海 5408.8广西 2437.2(二)因子分析在 SPSS 中的具体操作步骤1更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——运用 SPSS 统计分析软件 Factor 过程[2]对沿海 10 个省市经济综合指标进行因子分析。

具体操作步骤如 下: 1. 2. 3. 4. Analyzeà Data Reductionà Factor Analysis,弹出 Factor Analysis 对话框 把 X1~X10 选入 Variables 框 Descriptives: Correlation Matrix 框组中选中 Coefficients 等选项, 然后点击 Continue, 返回 Factor Analysis 点击“OK”对话框图表 2 Factor Analyze 对话框与 Descriptives 子对话框SPSS 在调用 Factor Analyze 过程进行分析时,SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后指的变量都是指经过标准化处理后的变量, SPSS 不会直接给出标准 但 化后的数据,如需要得到标准化数据,则需调用 Descriptives 过程进行计算。

我们可以通过 AnalyzeàDescriptive Statisticsà Descriptives 对话框来实现: 弹出 Descriptives 对话框后, X1~ 把 X10 选入 Variables 框,在 Save standardized values as variables 前的方框打上钩,点击“OK”, 经标准化的数据会自动填入数据窗口中,并以 Z 开头命名。

Descriptives 对话框图表 3 相关系数矩阵2更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——图表 4 方差分解因子提取分析表图表 5 初始因子载荷矩阵3更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——从图表 3 可知 GDP 与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零 售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。

可见许多变 量之间直接的相关性比较强,证明他们存在信息上的重叠。

通过图表 4(方差分解因子提取分析)可知,提取 2 个因子,因为方差累积贡献率为 84.551%,接近 85%。

从图表 5(初始因子载荷矩阵)可知 GDP、工业增加值、第三产业增加值、固定资产投资、基本建 设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一因子上有较高载荷,说明第一因子基 本反映了这些指标的信息;人均 GDP 和农业增加值指标在第二因子上有较高载荷,说明第二因子基本反 映了人均 GDP 和农业增加值两个指标的信息。

所以提取两个因子是可以基本反映全部指标的信息,所以 决定用两个新变量来代替原来的十个变量。

此时,因子得分已经在窗口中自动给出。

此处还可以选择对话 框中图表 2 中的 Rotation,选择不同的旋转方式,一般较为多用的是最大方差旋转。

关于综合得分,是用第一因子和第二因子加权平均得到,权重由 方差来得到,表 4 中 7.22+1.235=8.455 第一因子权重为 7.22/8.455,第二因子权重为 1.235/8.455总因子得分=(7.22/8.455)*第一因子得分+(1.235/8.455)*第二因子得分(二) 、主成分分析在 SPSS 中的实现假定现在接着要对上面的例子进行主成分分析。

spss 软件中没有直接给出主成分系数,而是给出 的因子载荷(图表 5),我们可将初始因子载荷系数(注意,非旋转后的因子载荷系数)除以相应的 ,4更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——即可得到主成分系数。

在菜单 Transform----Compute 中计算(见下图),5更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——由 Component1 的这一列系数除以 SQRT(7.22),Component2 的系数除以 SQRT(1.235),就得 到了主成分分析所需特征向量:具体的主成分的计算方法见主成分分析和因子分析(1)主成分的性质、 求解方法及分析步骤,有类似例子。

二、 主成分分析和因子分析(1)主成分分析( principal component analysis )和因子分析( factor analysis )是两种把变量维数降低以便于描述、理解和分析的方法:实际上主成分分析 可以说是因子分析的一个特例。

在引进主成分分析之前,先看下面的例子。

成绩数据( student.sav ) 100 个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。

从本例可能提出的问题是,能不能把这个数据的 6 个变量用一两个综合变量来表示 呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排 序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等 问题。

(一)、主成分分析1 、主成分分析的基本理论与方法;主成分分析的几何意义; 例中的的数据点是六维的;也就是说,每个观测值是 6 维空间中的一个点。

我们希望 把 6 维空间用低维空间表示。

先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值 都有相应于这两个坐标轴的两个坐标值; 如果这些数据形成一个椭圆形状的点阵 (这在变量 的二维正态的假定下是可能的),那么这个椭圆有一个长轴和一个短轴。

在短轴方向上,数6更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点 的变化了;这样,由二维到一维的降维就自然完成了。

当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代 表短轴的变量就描述了数据的次要变化。

但是, 坐标轴通常并不和椭圆的长短轴平行。

因此, 需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。

如果长轴变量代表 了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完 成了。

椭圆(球)的长短轴相差得越大,降维也越有道理。

对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。

首先把高维椭球的主轴找出来, 再用代表大多数数据信息的最长的几个轴作为新变量; 这样,主成分分析就基本完成了。

注意,和二维情况类似,高维椭球的主轴也是互相垂直的。

这些互相正交的新变量是 原先变量的线性组合,叫做主成分 (principal component) 。

正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。

选择越少的主成分,降维就越好。

什么是标准呢?那就是这些被选的主成分所代表的 主轴的长度之和占了主轴长度总和的大部分。

有些文献建议, 所选的主轴总长度占所有主轴 长度之和的大约 85% 即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而 定。

2 、主成分的性质、求解方法及分析步骤;对于我们的数据, SPSS 输出为:主成分分析的一般模型7更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——这个方程且满足:其中 μ ij 有以下原则来确定:这时称: Y1 是第一主成分 Y2 是第二主成分 主成分的含义有原始数据的协方差阵或相关系数据阵,可计算出矩阵的特征根:但是, spss 软件中没有直接给出主成分系数,而是给出的因子载荷,我们可将因子 载荷系数除以相应的 ,即可得到主成分系数。

相关文档
最新文档