ch19主成分分析和因子分析2011
主成分分析与因子分析的优缺点

之马矢奏春创作主成份分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构.综合指标即为主成份.所得出的少数几个主成份,要尽可能多地保管原始变量的信息,且彼此不相关.因子分析是研究如何以最少的信息丧失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法.聚类分析是依据实验数据自己所具有的定性或定量的特征来对年夜量的数据进行分组归类以了解数据集的内在结构,而且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于分歧组的样本应该足够不相似.三种分析方法既有区别也有联系,本文力图将三者的异同进行比力,并举例说明三者在实际应用中的联系,以期为更好天时用这些高级统计方法为研究所用有所裨益.二、基本思想的异同(一) 共同点主成份分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包括的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.而且新的变量彼其间互不相关,消除多重共线性.这两种分析法得出的新变量,其实不是原始变量筛选后剩余的变量.在主成份分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成份都是由原有p 个变量线性组合获得.在诸多主成份Zi 中,Z1 在方差中占的比重最年夜,说明它综合原有变量的能力最强,越往后主成份在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部份.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量单独具有的因子.对新发生的主成份变量及因子变量计算其得分,就可以将主成份得分或因子得分取代原始变量进行进一步的分析,因为主成份变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处置数据降低了难度.聚类分析的基本思想是: 采纳多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏不同水平,归入分歧的分类中一元,使分类更具客观实际并能反映事物的内在肯定联系.也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ].聚类分析是通过一个年夜的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集.对向量聚类后,我们对数据的处置难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用.(二) 分歧之处主成份分析是研究如何通过少数几个主成份来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成份(变量) ,使它们尽可能多地保管原始变量的信息,且彼此不相关.它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,坚持变量的总方差(方差之和) 不变,同时具有最年夜方差,称为第一主成份;具有次年夜方差,称为第二主成份.依次类推.若共有p 个变量,实际应用中一般不是找p 个主成份,而是找出m (m < p) 个主成份就够了,只要这m 个主成份能反映原来所有变量的绝年夜部份的方差.主成份分析可以作为因子分析的一种方法呈现.因子分析是寻找潜在的起支配作用的因子模型的方法.因子分析是根据相关性年夜小把变量分组,使得同组内的变量之间相关性较高,但分歧的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子.对所研究的问题就可试图用最少个数的不成测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.通过因子分析得来的新变量是对每个原始变量进行内部剖析.因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部份.具体地说,就是要找出某个问题中可直接丈量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不成直接丈量到、且相对自力的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态.因子分析只能解释部份变异,主成份分析能解释所有变异. 聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小.聚类可以理解为: 类内的相关性尽量年夜,类间相关性尽量小.聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律.从三类分析的基本思想可以看出,聚类分析中并没于发生新变量,可是主成份分析和因子分析都发生了新变量.三、数据标准化的比力主成份分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据.而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,而且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系其实不太年夜,固然在采纳主成份法求因子变量时,仍需标准化.不外在实际应用的过程中,为了尽量防止量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化.在构造因子变量时采纳的是主成份分析方法,主要将指标值先进行标准化处置获得协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价.聚类分析中如果介入聚类的变量的量纲分歧会招致毛病的聚类结果.因此在聚类过程进行之前必需对变量值进行标准化,即消除量纲的影响.分歧方法进行标准化,会招致分歧的聚类结果要注意变量的分布.如果是正态分布应该采纳z 分数法.四、应用中的优缺点比力(一) 主成份分析1、优点首先它利用降维技术用少数几个综合变量来取代原始多个变量,这些综合变量集中了原始变量的年夜部份信息.其次它通过计算综合主成份函数得分,对客观经济现象进行科学评价.再次它在应用上偏重于信息贡献影响力综合评价.2、缺点当主成份的因子负荷的符号有正有负时,综合评价函数意义就不明确.命名清晰性低.(二) 因子分析1、优点第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高.2、缺点在计算因子得分时,采纳的是最小二乘法,此法有时可能会失效.(三) 聚类分析1、优点聚类分析模型的优点就是直观,结论形式简明.2、缺点在样本量较年夜时,要获得聚类结论有一定困难.由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,可是,聚类分析模型自己却无法识别这类毛病.。
调研数据的主成分分析和因子分析

调研数据的主成分分析和因子分析主成分分析(Principal Component Analysis,PCA)和因子分析(Factor Analysis)是调研数据分析中常用的两种方法。
它们都是多元统计分析的技术手段,旨在发现数据中的潜在结构和解释变量之间的关系。
本文将从理论功能、数据处理、应用领域等方面进行介绍和比较。
我们来了解一下主成分分析。
主成分分析是一种降维技术,通过线性组合将原始变量转换为一组新的无关变量,这些新变量称为主成分。
主成分旨在捕获数据集中最多的方差信息,并且彼此之间是无关的。
主成分按照解释的方差大小排序,前几个主成分包含了尽可能多的信息。
主成分分析可以帮助我们发现数据中的隐藏模式和变量之间的关系,减少变量之间的相关性。
相比之下,因子分析是一种探索性的数据分析方法,通过确定潜在的未观察到的因子来解释观察到的变量之间的关系。
因子分析假设观测变量是通过一组潜在因子来生成的,这些潜在因子是无法直接观察到的。
因子分析的目标是解释观测变量的共同方差,并将它们归因于潜在因子。
因子分析通过估计因子载荷矩阵,确定每个变量与每个因子之间的关系。
因子的数量可以根据解释方差的要求进行选择。
在数据处理方面,主成分分析和因子分析都需要进行数据标准化,以确保变量之间具有可比性。
数据标准化的方法包括中心化(减去均值)和缩放(除以标准差)。
标准化后的数据可以避免变量的量纲和单位对分析结果的影响。
主成分分析和因子分析在应用领域上有一些区别。
主成分分析通常用于降维和变量选择,可以帮助我们从大量的变量中提取最有意义的几个主成分。
主成分分析在数据可视化、模式识别和聚类分析等领域得到广泛应用。
而因子分析更多用于探索变量之间的内在结构和关联,尤其适用于心理学、社会科学和市场研究等领域,可以帮助解释问卷调查或者对消费者行为进行分析。
虽然主成分分析和因子分析都可以检测变量之间的关系,但是它们的假设和模型有所不同。
主成分分析假设主成分是数据集的线性组合,并且每个主成分都解释了尽可能多的方差。
CHAP13主成分分析与因子分析

02
通过对历史金融数据的主成分或因子分析,预测未来市场走势
和风险。
信用评估
03
通过分析借款人的多方面数据,利用主成分或因子分析评估借
款人的信用风险。
06 主成分分析与因子分析的 局限性与发展趋势
存在的局限性
依赖样本量
主成分分析和因子分析的结果对样本量 较为敏感,样本量过小可能导致分析结
果不稳定。
市场细分
利用主成分或因子分析,将市场 按照消费者特征、需求、行为等 因素进行细分,以便更好地制定 营销策略。
产品组合优化
通过分析消费者对不同产品属性 的偏好,利用主成分或因子分析 优化产品组合,提高市场竞争力。
在社会调查中的应用
1 2
社会问题研究
利用主成分或因子分析,对社会问题进行分类和 解释,深入了解问题的本质和原因。
对异常值敏感
主成分分析和因子分析对异常值较为 敏感,异常值可能对分析结果产生较
大影响。
变量选择主观性
在确定主成分或因子个数时,往往需 要主观判断,这可能影响结果的客观 性和准确性。
难以解释
对于一些复杂的数据集,主成分和因 子的实际意义可能不明确,导致解释 困难。
未来的发展趋势和研究方向
改进算法
进一步优化主成分分析和因子分析的算法,提高分析的稳定性和准确 性。
THANKS FOR WATCHING
感谢您的观看
特征值分解通过计算原始变量的协方 差矩阵的特征值和特征向量,得到主 成分向量和因子载荷矩阵。
主成分的几何解释
主成分的几何解释是通过投影的方式将原始变量空间投影到低维的主成分空间, 从而实现降维。
主成分可以理解为原始变量在主成分空间中的坐标轴,通过这些坐标轴可以解释 原始变量的变异性。
基于主成分分析的长沙市房地产周期波动研究

究长沙市房地产周期波动 。
2 研 究手 段
21 主成 分 分 析 法 .
( ) 据 处 理 方 法 。 成 分 分 析 是 把 多 个 指 标 化 为少 数 几 1数 主
②将原 始数据进行标 准化处理 。 首先对列 进行 中心化 , 然
后用标准差给予标准化, Xj x ) j x = x 即 i(- / , 一 i = 厂 i S 其中 1 / 一 i
第 3 卷第 1 8 1期 ・ 术 学
Vo13 . 8 N o. 1 1
湖
南
农
机
2011 年 11 月
Nov. 2011
HUnAN AGRI TUR MACHI RY I CUL AL NE
基于主成 分分析 的长沙 市房地产周期波动研究
卢依 川 , 建南 段
( 南农业 大 学 资 源环 境学 院 , 湖 湖南 长沙 40 2 ) 1 1 8
吣 :
③ 计算标准化指标的相关系数矩阵。
rl r1 1 2
‘‘ ‘
ri p
r2 1
r2 2
收栖 _ 1 0_ 2 9I 01 -
作者 简介 : 卢依 川(96 )男 , 南长沙人 , 士研 究生 , 究 18一 , 湖 硕 研
方向 : 土地规划与城镇规划
R=
摘
要: 文章借鉴 国内外研 究指标体 系的思想 , 从宏观 经济和市场的角度 , 选取 1 1个具体指标 , 建立长沙 市房地
产周期波动指标体 系。采 用主成分分析法计算长沙市房地产周期 波动 综合指数 , 并对其周期波动特征进行分析 。 结果 表 明: 长沙市房地产 市场存在 为期近 5年 的周期 , 目前房地产 市场发展 处于增速减缓期 , 但从 长期 看 , 仍具上 涨趋 势。
主成分因子分析

一主成分分析法的原理主成分分析法是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法这些综合指标通常被称为主成分,主成分相比原始变量而言,具有更多的优越性,即在研究许多复杂问题时不至于丢失太多信息,从而使我们更容易抓住事物的主要矛盾,提高分析效率该方法的核心就是通过主成分分析,选择n个主分量Y1,Y2,…,Yn,其中Yi (i=1,2,,n)为第i个主成分的得分,以主分量Yi 的方差贡献率ai 作为权数,构造综合评价函数:Y=a1Y2+a2Y2+ +anYn,这样当我们把第i个主成分的得分算出来后,便可以很快求出综合得分,并且按照得分的高低来排序同时我们可以根据第i个主成分的得分来衡量某地区或某企业在第i个主成分所代表的经济效益方面的地位二、主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。
主成分分析和因子分析的区别

标题: 主成分分析和因子分析的区别1,因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
2,主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
3,主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。
因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。
4,主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。
5,在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。
在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。
和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。
大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。
而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。
当然,这中情况也可以使用因子得分做到。
所以这中区分不是绝对的。
总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。
主成分分析一般很少单独使用:a,了解数据。
(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。
(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
因子分析实验报告范本

因子分析实验报告范本(8)对实验结果进行分析研究5、预习抽查、提问及成绩(请按优,良,中,及格,不及格五级评定)6、未抽查学生的预习成绩(请按优,良,中,及格,不及格五级评定,由教师评阅实验报告时确定)第二部分:实验过程记录(可加页)1、实验原始记录(包括实验数据记录,实验现象记录,实验过程发现的问题等)第一步:导入数据交作® 编勘视图茁fttg(D)炜飘D 分折他)图羽〔① 起H■幵数据俸回3檢素…■关闭Q Ct甘斗Q 探存Ctrl-S另存M£0...1舲股票代冯蛋票启称星玉每股收主营业务临入万元主营壮务和净利掏万元总资庐万元总氏储万元am万元净资庐万元1600519蛊州茅台9.3500217181918531611D69333536615&831023:625034133 2520*ST 風圈 4.3100 765S9 91S3 4360£9 5321S J3330 34 48773 2304 洋河战储370001230535 735376 396274 29^0921D08495 3719206974 E00694大酋股盼 3.5100244355349&401 1029551M0G9409297431E177205 551 格力电器 3.27® 9341Q06 35387J6982755 1595O3B3 11073129 1140772596 600392 广杀朋珠 2.42008612 5149 02756 2&35B1 1041310 25314B76031B8亚邦股粘 2.380019276S9613051512365843105490 10 260053 8300386 飞天诚信 2.3200 73471 31617 18937 1452S8 13802 13 131J869 33B 建茉动力 2.2200 5614B38 1196345 J44543 12291644 8253531 4B4038113 10300Q95三六五网•-■'ill3275730342117353B773BO536080720 111600340 痒夏車舊 2 130******** 5SI71492821171O454E07 0757223 75 1697464 12333 美的菓团 2.120010908416 2724175895296 115822077164805 7D 4417492 13601336新华■保晞 2.030010992500770400&3250061043000663669001246B2100 14 E0Q742 一汽宣錐 1.0300 321935 44368 39B42E25EQ323354120392142 15538 云甫白药 1.0700 1331752397977 194470 1471992397999 37 1074393 1660D436片甘腐 1.06001067735215223877338619&37^025274S21 17 600104 上芫棄团1,0500 46954731 528B0772CMO93238147695 2127279010 16674997 106D3168 张普罢思 1.B400 5B567 41D699995 8347S 1031789 7315819601533匠城汽生 1.BJ0042665B9105313355S625543O55J2317249213113305 2060081G 妄怯信托1,6100135026 109457 S209Q22956270060:45 1594&4图1数据第二步:将数据标准化fe9.36004.3100口十"gn丄H L H教IM也…,貝谒股J締出(①…■本©•••r Trnrsn点击分析f 描述统计f 描述。
主成份分析的分析和步骤

主成分分析的概念与步骤1. 主成分分析基本思想主成分分析是数学上对数据降维的一种方法。
其基本思想是设法将原来众多的具有一定相关性的指标(比如p 个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。
通常数学上的处理就是将原来p 个指标作线性组合,作为新的综合指标。
但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢?在所有的线性组合中所选取的F 1应该是方差最大的,故称F 1为第一主成分。
如果第一主成分不足以代表原来p 个指标的信息,再考虑选取F 2即选第二个线性组合。
为了有效地反映原有信息,F 1已有的信息就不需要再出现在F 2中,用数学语言表达就是要求Cov(F 1,F 2)=0。
称F 2为第二主成分,依此类推可以构造出第三、第四、…、第p 个主成分。
2. 主成分分析的数学模型设有n 个样品(多元观测值),每个样品观测p 项指标(变量):X 1,X 2,…,X p ,得到原始数据资料阵:其中X i = (x 1i ,x 2i ,…,x ni )',i = 1,2,…,p 。
用数据矩阵X 的p 个列向量(即p 个指标向量)X 1,X 2,…,X p 作线性组合,得综合指标向量:简写成:F i = a 1i X 1 + a 2i X 2 +…+a pi X p i = 1,2,…,p 为了加以限制,对组合系数a i ' = (a 1i ,a 2i ,…,a pi )作如下要求:即:a i 为单位向量:a i 'a i = 1,且由下列原则决定:),...,,(.....................21212222111211p np n n p p X X X x x x x x x x x x X =⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=11112121212122221122...............p p p p p p p pp pF a X a X a X F a X a X a X F a X a X a X =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩p i a a a pi i i ,...,2,1,1...22221==+++1) F i 与F j (i ≠j , i , j = 1, …, p )互不相关,即Cov(F i ,F j ) = 0,并有Var(F i )=a i 'Σa i ,其中Σ为X 的协方差阵2) F 1是X 1,X 2,…,X p 的一切线性组合(系数满足上述要求)中方差最大的,即 ,其中c = (c 1,c 2,…,c p )'F 2是与F 1不相关的X 1,X 2,…,X p 一切线性组合中方差最大的,…,F p 是与F 1,F 2,…,F p-1都不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如果想知道每个变量与公共因子的关系,则 就要进行因子分析。因子分析模型为:
x1 a11F1 a12F2 a1mFm ε 1 x 2 a 21F1 a 22F2 a 2pFP ε 2 x p a p1F1 a p2F2 a pmFm ε p
变量Xj的共同度(Communalities):因子载荷 阵中各行元素的平方和
p
hi2 aij2 ( j 1,2,..., m) i 1
表示公因子Fj对第i个变量总方差的贡献,也 就是变量xi的信息能够被m个公因子描述的程度。
x1 a11F1 a12F2 a1mFm ε 1 x 2 a 21F1 a 22F2 a 2pFP ε 2 x p a p1F1 a p2F2 a pmFm ε p
.874
179.633 10
.000
球形检验:ρ=0(各变量彼此独立),拒绝假设, 5个变量互有关系
数据越相关,降维效果就越好!!!
由相关系数矩阵R计算得到的特征值、方差贡献率
Total Variance Explained
Initial Eigenvalues
Extraction Sums of Squared Loadings
这样,由二维到一维的降维就完成了
F2
•••••••
•••
• •
•
••••••••••••••••••••••••
x 1
如果这个椭圆越扁,则降维效果越好
主成分
对于多维变量的情况和二维类似,也有高维的椭球, 不过我们无法直观地看见。
首先将高维椭球的主轴找出来,再用代 表大多数数据信息的最长的几个轴作为 新变量;这样,主成分分析就基本完成 了。
主成分的贡献率
1)贡献率:第i个主成分的方差在全部方差中所占
比重 i ip1i,称为贡献率,反映了原来P个指 标多大的信息,有多大的综合能力 。
2)累积贡献率:前k个主成分共有多大的综合能力,
用这k个主成分的方差和在全部方差中所占比重
k
i 1
i
p
i 1
i
来描述,称为累积贡献率。
应该选择多少个主成分?
主成分分析的目的之一是希望用尽可能少的主成 分y1,y2,…,yk(k≤p)代替原来的p个指标。
在实际工作中,主成分个数的多少取决于能够反 映原来变量80%以上的信息量为依据,即当累积 贡献率 ≥ 80%时的主成分的个数就足够了。
最常见的情况是主成分为2到3个。
例:某医学院测 得20例肝病患者的4 项肝功能指标∶转氨 酶、肝大指数、硫酸 锌浊度和胎甲球。试 对数据进行降维。
Component Matrixa
Component
λ1= 1.718 λ2= 1.094
1
2
主成分系数
转氨酶
.918 .099
肝大指数 .904 -.297
0.700 0.095
硫酸锌浊度 .115 .945
0.690 -0.284
胎甲球
.213 .319
0.088 0.904
Extraction Method: Principal Component Analysis0..163
第19章 主成分分析 和因子分析
主成分分析
Principal component analysis, PCA
一、数据降维
我们经常会遇到有很多变量的数据。
例如,在某次儿童生长发育调查中测量了 许多指标,其中有关心脏的指标为心脏横径、 纵径、宽径、胸腔横径以及心脏面积。
这些数据的共同特点是变量很多,在如此 多的变量之中,有很多是相关的(变量的共线 性问题)。
找到更少的指标 代替原来的指标。
4项肝功能指标.sav
主成分分析 特征根大于1的公因子被提取;
KMO统计量:接近0.9
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
Bartlett's Test of Sphericity Approx. Chi-Square df Sig.
Rotation Sums of Squared Loadings
Comp
% of Cumula
% of Cumulaห้องสมุดไป่ตู้
% of Cumula
onent Total Variance tive % Total Variance tive % Total Variance tive %
1
1.718 42.956 42.956 1.718 42.956 42.956 1.687 42.179 42.179
三、特征根(Eigenvalue)
回顾:协方差
MPx1x2
( X1 X1)( X 2 X 2 ) n 1
对于p个随机变量X = (x1,…, xp),
2 1
12
1p
设X的协方差阵为
Σx
21
2 2
2
p
p1
p2
2 p
因子分析
Factor analysis
主成分分析的目的是尽可能多地提取各 变量的变异。
因子分析则需要为每一个公因子寻找适 当的生物学解释。
一、因子分析的适用
例如:考虑5项生理指标─收缩压、舒张压、心跳 间隔、呼吸间隔和舌下温度,从生理学知识知道:这 5项指标是受植物神经的交感神经和副交感神经支配 的,而这2种神经的状态也不能直接测定出来。
和二维情况类似,高维椭球的主轴也是 互相垂直的。这些互相正交的新变量是 原先变量的线性组合(用原来变量以方 程的形式表示),叫做主成分。
二、主成分分析的数学模型
假设所讨论的实际问题中,有p个指标,也 就是p个随机变量,记为X1, X2, … , Xp
主成分分析就是要将这p个指标的问题,转 变为讨论p个指标的线性组合的问题
公因子Fj的方差贡献率(Contribution):因 子载荷阵中,各列元素的平方和
m
g j2 aij2 (i 1,2,..., p) j 1
表示公因子Fj对x所提供方差的总和(其实就 是j),它是衡量公因子相对重要性的指标。方 差贡献率越大,表明公因子对X的贡献越大。
例:100个学生的数学、物理、化学、语文、 历史、英语的成绩如下表。能不能利用找到的 综合变量来对学生排序呢?student.sav
0.305
a. 2 components extracted.
y1=0.700*zx1+0.690*zx2+0.088*zx3+0.163*zx4
y2=0.095*zx1 -0.284*zx2+0.904*zx3+0.305*zx4
这些系数表示主成分和相应的原先变量的相关性。 相关系数(绝对值)越大,主成分对该变量的代表性也越大。
x 1
••
数据的信息
在统计学上数据的信息实际上是由数据的变异(如方差)
所表示。这个椭圆有一个长轴和一个短轴。在短轴方向上, 数据变化很少,在长轴的方向数据的变异明显较大;
如果沿椭圆的长短轴方向重新建立一
x
F1
2
个坐标系,新产生的两个变量和原始 变量存在数学换算关系,但彼此不再 相关;
新变量的信息分布明显不同,长轴代 表了大部分的数据信息,而短轴代表 的信息则可以忽略了;
% of Cumulative
Total Variance
%
3.120 52.004
52.004
1.603 26.711
78.714
主成分载荷
Component Matrix a
Component
λ1= 3.120 λ2= 1.603
主成分系数
math phys
1 -.540 -.559
2 .680 .569
aij 称为因子载荷(factor loading)。
因子载荷的统计学意义:就是第i个变量与第j 个公共因子的相关系数,即表示变量xi依赖于Fj 的份量(比重),心理学家将它称为载荷。
x1 a11F1 a12F2 a1mFm ε 1 x 2 a 21F1 a 22F2 a 2pFP ε 2 x p a p1F1 a p2F2 a pmFm ε p
-0.306 -0.317
我们希望能够找出它们的少数“代表”来 对它们进行描述(数据降维)。
数据的信息
先假定只有二维,即只有两个变
量,它们由横坐标和纵坐标所代表;
因此每个观测值都有相应于这两个坐
标轴的两个坐标值,即为2维空间的
x2
一个点;
如果两个变量相关这些数据形成 一个椭圆形状的点阵。
••••••••••
••••• •••••••••••••••••• ••
Extraction .852 .906 .907 .147
Extraction Method: Principal Component Analysis.
表示各变量中所含信息能被提取的程度。
没有直接给出主成分系数,而是给出的主成分负荷
(载荷,loading),可将载荷系数除以相应的 i ,得到主 成分系数。
Σx的特征根。
特征值Eigenvalue的含义
以儿童生长发育数据为例,特征根就是指5维 空间五个主轴长度。