Weka[32] PCA源代码分析

Weka[32] PCA源代码分析
Weka[32] PCA源代码分析

PCA主成分分析计算步骤

主成分分析( Principal Component Analysis , PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定 n 个变量的 m 个观察值,形成一个 n*m 的数据矩阵, n 通常比较大。对于一个由多个变量描述的复杂事物,人们难以认识,那么是否可以抓住事物主要方面进行重点分析呢?如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。但是,在一般情况下,并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面, PCA 就是这样一种分析方法。 PCA 的目标是寻找 r ( r

因素分析法

因素分析法(Factor Analysis Approach),又称指数因素分析法,是利用统计指数体系分析现象总变动中各个因素影响程度的一种统计分析方法,包括连环替代法、差额分析法、指标分解法、定基替代法。因素分析法是现代统计学中一种重要而实用的方法,它是多元统计分析的一个分支。使用这种方法能够使研究者把一组反映事物性质、状态、特点等的变量简化为少数几个能够反映出事物内在联系的、固有的、决定事物本质特征的因素。 因素分析法的最大功用,就是运用数学方法对可观测的事物在发展中所表现出的外部特征和联系进行由表及里、由此及彼、去粗取精、去伪存真的处理,从而得出客观事物普遍本质的概括。其次,使用因素分析法可以使复杂的研究课题大为简化,并保持其基本的信息量。 2应用编辑 是通过分析期货商品的供求状况及其影响因素,来解释和预测期货价格变化趋势的方法。期货交易是以现货交易为基础的。期货价格与现货价格之间有着十分紧密的联系。商品供求状况及影响其供求的众多因素对现货市场商品价格产生重要影响,因而也必然会对期货价格重要影响。所以,通过分析商品供求状况及其影响因素的变化,可以帮助期货交易者预测和把握商品期货价格变化的基本趋势。在现实市场中,期货价格不仅受商品供求状况的影响,而且还受其他许多非供求因素的影响。这些非供求因素包括:金融货币因素,政治因素、政策因素、投机因素、心理预期等。因此,期货价格走势基本因素分析需要综合地考虑这些因素的影响。 商品供求状况对商品期货价格具有重要的影响。基本因素分析法主要分析的就是供求关系。商品供求状况的变化与价格的变动是互相影响、互相制约的。商品价格与供给成反比,供给增加,价格下降;供给减少,价格上升。商品价格与需求成正比,需求增加,价格上升;需求减少,价格下降。在其他因素不变的条件下,供给和需求的任何变化,都可能影响商品价格变化,一方面,商品价格的变化受供给和需求变动的影响;另一方面,商品价格的变化又反过来对供给和需求产生影响:价格上升,供给增加,需求减少;价格下降,供给减少,需求增加。这种供求与价格互相影响、互为因果的关系,使商品供求分析更加复杂化,即不仅要考虑供求变动对价格的影响,还要考虑价格变化对供求的反作用。 连环替代法 它是将分析指标分解为各个可以计量的因素,并根据各个因素之间的依存关系,顺次用各因素的比较值(通常即实际值)替代基准值(通常为标准值或计划值),据以测定各因素对分析指标的影响。 例如,设某一分析指标M是由相互联系的A、B、C三个因素相乘得到,报告期(实际)指标和基期(计划)指标为: 报告期(实际)指标M1=A1 * B1 * C1 基期(计划)指标 M0=A0 * B0 * C0 在测定各因素变动指标对指标R影响程度时可按顺序进行: 基期(计划)指标M0=A0 * B0 * C0 (1)

主成分分析法的原理应用及计算步骤..

一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 二、基本原理 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。 设F1表示原变量的第一个线性组合所形成的主成分指标,即 11112121...p p F a X a X a X =+++,由数学知识可知,每一个主成分所提取的信息量可 用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP 的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p 个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不

主成分分析的计算步骤

主成分分析的计算步骤 样本观测数据矩阵为: ??????? ??=np n n p p x x x x x x x x x X 21 2222111211 第一步:对原始数据进行标准化处理 )var(*j j ij ij x x x x -= ),,2,1;,,2,1(p j n i == 其中 ∑==n i ij j x n x 1 1 21 )(11)var(j n i ij j x x n x --=∑= ),,2,1(p j = 第二步:计算样本相关系数矩阵 ?????? ????????=pp p p p p r r r r r r r r r R 212222111211 为方便,假定原始数据标准化后仍用X 表示,则经标准化处理后的数据的相关系数为: tj n t ti ij x x n r ∑=-=1 11 ),,2,1,(p j i = 第三步:用雅克比方法求相关系数矩阵R 的特征值(p λλλ 21,)和相应的特征向量()p i a a a a ip i i i 2,1,,,21==。 第四步:选择重要的主成分,并写出主成分表达式 主成分分析可以得到p 个主成分,但是,由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,一般不是选取p 个主成分,而是根据各个主成分累计贡献率的大小选取前k 个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,

实际也就是某个特征值占全部特征值合计的比重。即 贡献率=∑=p i i i 1λ λ 贡献率越大,说明该主成分所包含的原始变量的信息越强。主成分个数k 的选取,主要根据主成分的累积贡献率来决定,即一般要求累计贡献率达到85%以上,这样才能保证综合变量能包括原始变量的绝大多数信息。 另外,在实际应用中,选择了重要的主成分后,还要注意主成分实际含义解释。主成分分析中一个很关键的问题是如何给主成分赋予新的意义,给出合理的解释。一般而言,这个解释是根据主成分表达式的系数结合定性分析来进行的。主成分是原来变量的线性组合,在这个线性组合中个变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用,线性组合中各变量系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的实际意义,这要结合具体实际问题和专业,给出恰当的解释,进而才能达到深刻分析的目的。 第五步:计算主成分得分 根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。具体形式可如下。 ?????? ? ??nk n n k k F F F F F F F F F 212222111211 第六步:依据主成分得分的数据,则可以进行进一步的统计分析 其中,常见的应用有主成份回归,变量子集合的选择,综合评价等。

主成分分析计算方法和步骤

主成分分析计算方法和步骤: 在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893 教育经费投 0.881 0.893 1.000 入

spss进行主成分分析的步骤图文)

主成分分析の操作过程 原始数据如下(部分) 调用因子分析模块(Analyze―Dimension Reduction―Factor),将需要参与分析の各个原始变量放入变量框,如下图所示: 单击Descriptives按钮,打开Descriptives次对话框,勾选KMO and Bartlett’s test of sphericity选项(Initial solution选项为系统默认勾选の,保持默认即可),如下图所示,然後点击Continue按钮,回到主对话框: 其他の次对话框都保持不变(此时在Extract次对话框中,SPSS已经默认将提取公因子の方法设置为主成分分析法),在主对话框中点OK按钮,执行因子分析,得到の主要结果如下面几张表。 ①KMO和Bartlett球形检验结果: KMO为0.635>0.6,说明数据适合做因子分析;Bartlett球形检验の显着性P值为0.000<0.05,亦说明数据适合做因子分析。 ②公因子方差表,其展示了变量の共同度,Extraction下面各个共同度の值都大於0.5,说明提取の主成分对於原始变量の解释程度比较高。本表在主成分分析中用处不大,此处列出来仅供参考。 ③总方差分解表如下表。由下表可以看出,提取了特征值大於1の两个主成分,两个主成分の方差贡献率分别是55.449%和29.771%,累积方差贡献率是85.220%;两个特征值分别是3.327和1.786。 ④因子截荷矩阵如下: 根据数理统计の相关知识,主成分分析の变换矩阵亦即主成分载荷矩阵U与因子载荷矩阵A以及特征值λの数学关系如下面这个公式: 故可以由这二者通过计算变量来求得主成分载荷矩阵U。 新建一个SPSS数据文件,将因子载荷矩阵中の各个载荷值复制进去,如下图所示: 计算变量(Transform-Compute Variables)の公式分别如下二张图所示: 计算变量得到の两个特征向量U1和U2如下图所示(U1和U2合起来就是主成分载荷矩阵): 所以可以得到两个主成分Y1和Y2の表达式如下:

主成分分析、因子分析步骤

主成分分析、因子分析步骤不同 点 主成分分析因子分析 概念具有相关关系的p 个变量,经过线性 组合后成为k个不 相关的新变量将原数据中多个可能相关的变量综合成少数几个不相关的可反映原始变量的绝大多数信息的综合变量 主要目标减少变量个数,以 较少的主成分来解 释原有变量间的大 部分变异,适合于 数据简化 找寻变量间的内部相关性 及潜在的共同因素,适合做 数据结构检测 强调重点强调的是解释数据 变异的能力,以方 差为导向,使方差 达到最大 强调的是变量之间的相关 性,以协方差为导向,关心 每个变量与其他变量共同 享有部分的大小 最终结果应用形成一个或数个总 指标变量 反映变量间潜在或观察不 到的因素 变异解释程度它将所有的变量的 变异都考虑在内, 因而没有误差项 只考虑每一题与其他题目 共同享有的变异,因而有误 差项,叫独特因素

是否需要旋转主成分分析作综合 指标用, 不需要旋转 因子分析需要经过旋转才 能对因子作命名与解释 是否有假设 只是对数据作变 换,故不需要假设 因子分析对资料要求需符 合许多假设,如果假设条件 不符,则因子分析的结果将 受到质疑 因子分析 1【分析】→【降维】→【因子分析】(1)描述性统计量(Descriptives)对话框设置 KMO和Bartlett的球形度检验(检验多变量正态性和原始变量是 否适合作因子分析)。 (2)因子抽取(Extraction)对话框设置 方法:默认主成分法。主成分分析一定要选主成分法 分析:主成分分析:相关性矩阵。 输出:为旋转的因子图 抽取:默认选1. 最大收敛性迭代次数:默认25. (3)因子旋转(Rotation)对话框设置因子旋转的方法,常选择“最大方差法”。“输出”框中的“旋 转解”。 (4)因子得分(Scores)对话框设置

主成分分析操作步骤

主成分分析操作步骤 1)先在spss中录入原始数据。 2)菜单栏上执行【分析】——【降维】——【因子分析】,打开因素分析对话框,将要分析的变量都放入【变量】窗口中。

3)设计分析的统计量 点击【描述】:选中“Statistics”中的“原始分析结果”和“相关性矩阵”中的“系数”。(选中原始分析结果,SPSS自动把原始数据标准差标准化,但不显示出来;选中系数,会显示相关系数矩阵)然后点击“继续”。 点击【抽取】:“方法”里选取“主成分”;“分析”、“输出”、“抽取”均选中各自的第一个选项即可。

点击【旋转】:选取第一个选项“无”。(当因子分析的抽取方法选择主成分法时,且不进行因子旋转,则其结果即为主成分分析) 点击【得分】:选中“保存为变量”,方法中选“回归”;再选中“显示因子得分系数矩阵”。 点击【选项】:选择“按列表排除个案”。

4)结果解读 5)A. 相关系数矩阵:是6个变量两两之间的相关系数大小的方阵。通过相关系 数可以看到各个变量之间的相关,进而了解各个变量之间的关系。 相關性矩陣 食品衣着燃料住房交通和通讯娱乐教育文化相關食品 1.000 .692 .319 .760 .738 .556 衣着.692 1.000 -.081 .663 .902 .389 燃料.319 -.081 1.000 -.089 -.061 .267 住房.760 .663 -.089 1.000 .831 .387 交通和通讯.738 .902 -.061 .831 1.000 .326 娱乐教育文化.556 .389 .267 .387 .326 1.000 B. 共同度:给出了这次主成分分析从原始变量中提取的信息,可以看出交通和 通讯最多,而娱乐教育文化损失率最大。 Communalities 起始擷取 食品 1.000 .878 衣着 1.000 .825 燃料 1.000 .841 住房 1.000 .810 交通和通讯 1.000 .919 娱乐教育文化 1.000 .584 擷取方法:主體元件分析。 C. 总方差的解释:系统默认方差大于1的为主成分。如果小于1,说明这个主 因素的影响力度还不如一个基本的变量。所以只取前两个,且第一主成分的方差 为3.568,第二主成分的方差为1.288,前两个主成分累加占到总方差的80.939%。 說明的變異數總計 元件 起始特徵值擷取平方和載入 總計變異的% 累加% 總計變異的% 累加% 1 3.568 59.474 59.474 3.568 59.474 59.474 2 1.288 21.466 80.939 1.288 21.466 80.939 3 .600 10.001 90.941 4 .358 5.97 5 96.916 5 .142 2.372 99.288 6 .043 .712 100.000 擷取方法:主體元件分析。

层次分析法的计算步骤

层次分析法的计算步骤

8.3.2 层次分析法的计算步骤 一、建立层次结构模型 运用AHP进行系统分析,首先要将所包含的因素分组,每一组作为一个层次,把问题条理化、层次化,构造层次分析的结构模型。这些层次大体上可分为3类 1、最高层:在这一层次中只有一个元素,一般是分析问题的预定目标或理想结果,因此又称目标层; 2、中间层:这一层次包括了为实现目标所涉及的中间环节,它可由若干个层次组成,包括所需要考虑的准则,子准则,因此又称为准则层; 3、最底层:表示为实现目标可供选择的各种措施、决策、方案等,因此又称为措施层或方案层。 层次分析结构中各项称为此结构模型中的元素,这里要注意,层次之间的支配关系不一定是完全的,即可以有元素(非底层元素)并不支配下一层次的所有元素而只支配其中部分元素。这种自上而下的支配关系所形成的层次结构,我们称之为递阶层次结构。 递阶层次结构中的层次数与问题的复杂程度及分析的详尽程度有关,一般可不受限制。为了避免由于支配的元素过多而给两两比较判断带来困难,每层次中各元素所支配的元素一般地不要超过9个,若多于9个时,可将该层次再划分为若干子层。 例如,大学毕业的选择问题,毕业生需要从收入、社会地位及发展机会方面考虑是否留校工作、读研究生、到某公司或当公务员,这些关系可以将其划分为如图8.1所示的层次结构模型。

图8.1 再如,国家综合实力比较的层次结构模型如图6 .2: 图6 .2 图中,最高层表示解决问题的目的,即应用AHP 所要达到的目标;中间层表示采用某种措施和政策来实现预定目标所涉及的中间环节,一般又分为策略层、约束层、准则层等;最低层表示解决问题的措施或政策(即方案)。 然后,用连线表明上一层因素与下一层的联系。如果某个因素与下一层所有因素均有联系,那么称这个因素与下一层存在完全层次关系。有时存在不完全层次关系,即某个因素只与下一层次的部分因素有联系。层次之间可以建立子层次。子层次从属于主层次的某个因素。它的因素与下一层次的因素有联系,但不形成独立层次,层次结构模型往往有结构模型表示。 二、构造判断矩阵 任何系统分析都以一定的信息为基础。AHP的信息基础主要是人们对每一层次各因素的相对重要性给出的判断,这些判断用数值表示出来,写成矩阵形式就是判

用SPSS进行详细的主成分分析步骤

怎样用SPSS进行主成分分析 怎样用SPSS进行主成分分析 一、基本概念与原理 主成分分析(principal component analysis) 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。 (1)主成分分析的原理及基本思想。 原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。 基本思想:主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来

主成分分析计算方法和步骤

在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比 重点高校数 教工人数 本科院校数 招生人数 教育经费投 入

师生比重点高校数教工人数 相关性师生比 重点高校数 教工人数 本科院校数 招生人数 教育经费投 入(元) 表5-7给出的是各主成分的方差贡献率和累计贡献率,我们选取主成分的标准有两个:第一,特征根大于1,因为,如果特征根小于1,说明该主成分的解释力度太弱,还比不上直接引入一个原始变量的平均解释力度大;第二,方差贡献率大于85%,如果这两个标准不能同时符合要求,则往往是因为选择的指标不合理或者样本容量太小,应继续调整。表5-7还显示,只有前2个特征根大于1,因此SPSS只提取了前两个主成分,而这两个主成分的方差贡献率达到了%,因此选取前两个主成分已经能够很好地描述我国高等教育地区现状。

(完整版)方法:因子分析法

因子分析基础理论知识 1 概念 因子分析(Factor analysis ):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis ):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 3 类型 根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。 但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。 4分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 : ?????? ????? ???=np n n p p x x x x x x x x x X ΛM M M M ΛΛ212222111211

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

因素分析法的计算例题多因素分析法研究

因素分析法的计算例题多因素分析法研究 多因素分析法研究 WTT为大家整理的相关的多因素分析法研究资料,供大家参考选择。 多因素分析 研究多个因素间关系及具有这些因素的个体之间的一系列统计分析方法称为多元(因素)分析。主要包括: 多元线性回归(multiple linear regression) 判别分析(disoriminant analysis) 聚类分析(cluster analysis) 主成分分析(principal ponent analysis) 因子分析(factor analysis) 典型相关(canonical correlation) logistic 回归(logistic regression) Cox 回归(COX regression) 1、多元回归分析(multiple linear regression) 回归分析是定量研究因变量对自变量的依赖程度、分析变量之间的关联性并进行预测、预报的基本方法。研究一个因变量对几个自变量的线性依存关系时,其模型称为多元线性回归。函数方程建立有四种方法:全模型法、向前选择法、向后选择法、逐步选择法。 全模型法其数学模型为:ebbbb++++=ppxxxyL22110 式中 y 为因变量, pxxxL21, 为p个自变量,0b为常数项,pbbbL21,为待定参数,

称为偏回归系数(partial regression coefficient)。pbbbL21,表示在其它自变量固定不变的情况下,自变量Xi 每改变一 个单位时,单独引起因变量Y的平均改变量。多因素分析法研究 e为随机误差,又称残差(residual), 它是在Y的变化中不能为自变量所解释的部分 例如:1、现有20名糖尿病病人的血糖(Lmmoly/,)、胰岛素(LmUx/,1)及生长素(Lgx/,2m)的数据,讨论血糖浓度与胰岛素、生长素的依存关系,建立其多元回归方程。 逐步回归分析(stepwise regression analysis) 在预先选定的几个自变量与一个因变量关系拟合的回归中,每个自变量对因变量变化所起的作用进行显著性检验的结果,可能有些有统计学意义,有些没有统计学意义。有些研究者对所要研究的指标仅具有初步知识,并不知道哪些指标会有显著性作用,只想从众多的变量中,挑选出对因变量有显著性意义的因素。 一个较理想的回归方程,应包括所有对因变量作用有统计学意义的自变量,而不包括作用无统计学意义的自变量。建立这样一个回归方程较理想的方法之一是逐步回归分析(stepwise regression analysis)

因子分析方法

因子分析法 1. 因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较 密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不 可观测的,即不是具体的变量) ,以较少的几个因子反映原资料的大部分信息。运用这种研究技 术,我们可以方便地找岀影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响 力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 因子分析法与其他一些多元统计方法的区别: 2?主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析 来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data) ,b,和cluster analysis 一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简 化。(reduce dimensionality ) d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumpti on s),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子( specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定( spss根据一定的条件自动设定,只要是特征 值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技 术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进 行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的 变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息) 来进入后续的分析,则可 以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单 独使用:a,了解数据。(screening the data) ,b,和cluster analysis 一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份 发对变量简化。(reduce dimensionality ) d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

因素分析法

因素分析法 因素分析法(Factor Analysis Approach) 什么是因素分析法? 因素分析法是依据分析指标与其影响因素的关系,从数量上确定各因素对分析指标影响方向和影响程度的一种方法。因素分析法既可以全面分析各因素对某一经济指标的影响,又可以单独分析某个因素对经济指标的影响,在财务分析中应用颇为广泛。 因素分析法的方法 连环替代法 设某一分析指标M是由相互联系的A、B、C三个因素相乘得到,报告期(实际)指标和基期(计划)指标为: 报告期(实际)指标M1=A1 * B1 * C1 基期(计划)指标M0=A0 * B0 * C0 在测定各因素变动指标对指标R影响程度时可按顺序进行: 基期(计划)指标M0=A0 * B0 * C0 (1) 第一次替代A1 * B0 * C0 (2) 第二次替代A1 * B1 * C0 (3) 第三次替代A1 * B1 * C1 (4) 分析如下: (2)-(1)→A变动对M的影响。 (3)-(2)→B变动对M的影响。 (4)-(3)→C变动对M的影响。 把各因素变动综合起来,总影响:△M = M1 - M0 差额分析法

它是连环替代法的一种简化形式,是利用各个因素的比较值与基准值之间的差额,来计算各因素对分析指标的影响。 例如,某一个财务指标及有关因素的关系由如下式子构成:实际指标:Po=Ao×Bo×Co;标准指标:Ps=As×Bs×Cs;实际与标准的总差异为Po-Ps,Po-Ps 这一总差异同时受到A、B、C三个因素的影响,它们各自的影响程度可分别由以下式子计算求得: A因素变动的影响:(Ao-As)×Bs×Cs; B因素变动的影响;Ao×(Bo-Bs)×Cs; C因素变动的影响:Ao×Bo×(Co-Cs)。 最后,可以将以上三大因素各自的影响数相加就应该等于总差异Po-Ps。 指标分解法 例如资产利润率,可分解为资产周转率和销售利润率的乘积。 定基替代法 分别用分析值替代标准值,测定各因素对财务指标的影响,例如标准成本的差异分析。运用因素分析法的一般程序 1、确定需要分析的指标; 2、确定影响该指标的各因素及与该指标的关系; 3、计算确定各个因素影响的程度数额。 采用因素分析法时注意的问题 1、注意因素分解的关联性; 2、因素替代的顺序性; 3、顺序替代的连环性,即计算每一个因素变动时,都是在前一次计算的基础上进行,并采用连环比较的方法确定因素变化影响结果; 4、计算结果的假定性,连环替代法计算的各因素变动的影响数,会因替代计算的顺序不同而有差别,即其计算结果只是在某种假定前提下的结果,为此,财务分析人员在具体运用此方法

(完整版)主成分分析法的步骤和原理

(一)主成分分析法的基本思想 主成分分析(Principal Component Analysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型 假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。设随机向量X 的均值为μ,协方差矩阵为Σ。对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X p Z 2=μ21X 1+μ22X 2+…μ2p X p …… …… …… Z p =μp1X 1+μp2X 2+…μpp X p 主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2 ……Z p-1都不相关的线性组合中方差最大者。 (三)主成分分析法基本步骤 第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m ×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。 第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。 第三步:根据标准化数据矩阵建立协方差矩阵R ,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。其中,R ij (i ,j=1,2,…,p )为原始变量X i 与X j 的相关系数。R 为实对称矩阵 (即R ij =R ji ),只需计算其上三角元素或下三角元素即可,其计算公式为: 2211)()() ()(j kj n k i kj j kj n k i kj ij X X X X X X X X R -=--=-=∑∑ 第四步:根据协方差矩阵R 求出特征值、主成分贡献率和累计方差贡献率,确定主成分个数。解特征方程0=-R E λ,求出特征值λi (i=1,2,…,p )。 因为R 是正定矩阵,所以其特征值λi 都为正数,将其按大小顺序排列,即λ1≥λ2≥…≥λi ≥0。特征值是各主成分的方差,它的大小反映了各个主成分的影响力。主成分Z i 的贡献率W i =∑=p j j j 1λλ,累计贡献率为

相关文档
最新文档