对主成分分析中综合得分方法的质疑
主成分分析用于多指标评价的方法研究主成分评价

主成分分析用于多指标评价的方法研究主成分评价一、本文概述本文旨在探讨主成分分析(PCA)在多指标评价中的应用及其方法研究。
主成分分析作为一种广泛使用的统计分析工具,其主要目的是通过降维技术,将多个相关变量转化为少数几个独立的综合指标,即主成分,以便更好地揭示数据的内在结构和规律。
在多指标评价体系中,由于指标间可能存在的信息重叠和相关性,直接分析往往难以得出清晰的结论。
因此,利用主成分分析进行降维处理,提取出关键的主成分,对于简化评价过程、提高评价效率和准确性具有重要意义。
本文首先介绍主成分分析的基本原理和步骤,包括数据标准化、计算协方差矩阵、求解特征值和特征向量、确定主成分个数以及计算主成分得分等。
然后,结合具体案例,详细阐述主成分分析在多指标评价中的应用过程,包括评价指标的选择、数据的预处理、主成分的计算和解释等。
对主成分分析方法的优缺点进行讨论,并提出相应的改进建议,以期为多指标评价领域的研究和实践提供参考和借鉴。
通过本文的研究,旨在加深对主成分分析在多指标评价中应用的理解,提高评价方法的科学性和实用性,为相关领域的研究和实践提供有益的启示和帮助。
二、主成分分析的基本原理和方法主成分分析(Principal Component Analysis,PCA)是一种广泛应用于多变量数据分析的统计方法。
其基本原理是通过正交变换将原始数据转换为一系列线性不相关的变量,即主成分。
这些主成分按照其解释的原始数据方差的大小进行排序,第一个主成分解释的方差最大,之后的主成分依次递减。
通过这种方式,主成分分析可以在不损失过多信息的前提下,降低数据的维度,从而简化复杂的多变量系统。
数据标准化:需要对原始数据进行标准化处理,以消除量纲和数量级的影响。
标准化后的数据均值为0,标准差为1。
计算协方差矩阵:然后,计算标准化后的数据的协方差矩阵,以捕捉变量之间的相关性。
计算特征值和特征向量:接下来,求解协方差矩阵的特征值和特征向量。
关于用主成分分析做综合评价的若干问题

关于用主成分分析做综合评价的若干问题阎慈琳(杭州大学,杭州,310028)摘 要 阎慈琳.关于用主成分分析做综合评价的若干问题.数理统计与管理,1998,17(2),22~25.探讨了特征向量的方向对用主成分分析做综合评价的影响,并提出改正意见。
关键词:主成分分析,因子分析,综合评价。
近来有好些文章,都是用主成分分析法〔1〕〔2〕做综合评价〔3〕。
基本做法是:对n 个个体,每个个体有p 个指标:y i 1,y i 2,…,y i p ,i =1,2,…,n ,把这p 个指标标准化得:y (i )*=y *i 1,…,y *ip ′,i =1,2,…,n .(1)计算它们的相关矩阵R ,求R 的p 个特征根设为λ1≥λ2≥…≥λp ≥0(2)相应的正则化特征向量e j =l 1j ,l 2j ,…,l pj ′,j =1,2,…,p .(3)求出其头m 个主成分Z j =e ′j y *=l 1j y *1+l 2j y *2+…+y *p ,j =1,2,…,m ≤p .(4)它们彼此不相关,而且分别以方差贡献率T j =λj /E pk =1λk (5)解释了p 个指标,当累计贡献率E mj =1T j 达到一定数值(如≥85%)时,这m 个主成分就以较p 为少的指标个数综合体现了p 个指标。
为了进一步综合成一个指标,以T j 为数对Z j 求和得综合评价函数为D 1=E mj =1T j Z j (6)以第i 个个体的指标y(i )*代入(4)式,进而计算(6)式,就得第i 个个体的综合得分,用来对这些个体排序。
一、问题的产生然而在对实际问题实施上述方法时,我们发现对同一问题同用上面方法却得到很不相同的结果。
例1 文〔2〕的例 2.4叙述了全国20个药厂用四项指标来制定药厂经济效益综合指标。
按文〔2〕表 2.5的四列数据,我们用国际流行的两个系统统计分析软件sysTA T 和sas 分别计收稿日期:1996年5月3日,1997年1月31日收到修改稿算,结果是相同的,都是:1234特征根λ:2.9840.8040.1660.046贡献率:74.59920.102 4.160 1.139特征向量:e (2)1=(0.452,0.537,0.484,0.522)′e (2)2=(0.653,-0.338,-0.592,0.331)′e (2)3=(-0.505,-0.400,0.096,0.760)′e (2)4=(-0.337,0.658,-0.634,0.202)′除了λ值和特征向量各分量绝对值与〔3〕表 2.15所载特征向量(简记作e (1)1,…,e (1)4)略有不同外(那可能是个别原始数据抄写时有误,或看成舍λ误差),仅e (2)1≈e (1)1,但e (2)2,…,e (2)4与e (1)2,…,e (1)4的符号全部相反。
对主成分分析法三个问题的剖析

逐一剖析: 1. 为什么主成分系数是经标准差标准化后原始变量的协方差矩阵的特征向量 ? 2. 特征向量正负号 如何选取? 对进一步的研究如计算综合得分和聚类分析有何影响 ? 3. 主成分载荷值是如何得来的 ? 同时指 以致造成错误的结果. 出有些教材在计算主成分得分时混淆了主成分载荷和特征向量的概念 , 关键词 主成分分析法 特征值 特征向量 主成分载荷 主成分得分
always puzzling students in the process of teaching one by one. The first one is,why the principal component coefficients is the eigenvectors of the covariance matrix of normalized original variables? And the second one,How to select the sign of eigenvectors? What is the impact on further studies such as the calculation of composite scores and cluster analysis? The third one, How the principal component loading values come from? Besides, confusion of the concept of principal component loading and eigenvectors in the process of calculating the principal component scores from some which would cause erroneous results. materials was pointed out, Key words Principal Component Analysis Eigenvalue Eigenvectors Principal component loading Principal component scores
主成分分析用于综合评价合理性的探讨

·学术讨论·主成分分析用于综合评价合理性的探讨滨州医学院(264003) 孙红卫 徐天和 王 玖 近年来在不少文献上用主成分的方法来进行综合评价。
具体方法是:对p 个原始指标x 1,x 2,…,x p ,通过主成分分析,取前m 个主成分y 1,y 2,…,y m ,其方差分别为λ1,λ2,…,λm ,以每个主成分的y i 的贡献率k i =λi /∑pi =1λi 作为权数,构造综合评价函数:F =k 1y 1+k 2y 2+…+k m y m计算出每个样品的(F )综合得分,然后依这个得分的大小对所有样品进行综合排名〔1〕。
并认为主成分分析用于综合评价优点有两个,一是可以对指标进行客观赋权,因为各个主成分是原指标的线性函数,其系数可以看为权重,而且各个主成分还有对总方差的贡献率作为权重,这都是计算出来的,而不需要人为来定;二是可以解决指标相关给综合评价带来的问题,原变量实施这样的变量代换后,原来相关的x 1,x 2,…,x p 可变成相对独立的y 1,y 2,…,y m ,这样就有助于消除变量间相关对综合评价的信息重复影响〔2〕。
这两个优点解决的都是综合评价应用中的难点问题。
但是主成分分析是否真的能解决这两个问题呢?我们从主成分方法的思想出发,并结合实例,来探讨主成分分析法是否达到了能够合理地综合评价的目的。
探讨主成分的思想与综合评价的目的是否一致设x ′=(x 1,x 2,…,x p ),为综合评价中的p 个原始指标,a ′=(a 1,a 2,…,a p ),为综合评价中待定的权重,求第一主成分就是寻找a ′使得线性函数y =a ′x 的方差达到最大,即Var (a ′x )=a ′V a 达到最大,且a ′a =1。
则此处V 为x 的协方差阵。
则线性函数y 能达到的最大方差恰好为V 的最大特征根λ1,a 是λ1相应的特征向量。
而第二主成分是与第一主成分无关的前提下其方差达到最大,并依此类推可以得到p 个主成分。
关于主成分分析做综合评价的改进

一、 引言 利用主成分分析进行综合评价的基本思路是 : 首先求出原始 P 个指标的 P 个主成分, 然 后按一定的要求筛选几个主成分 , 来代替原始指标, 再将所选取的主成分用适当的形式进行综 合 , 得到综合评价值, 依据它对被评价对象进行比较排序。 [ 1] [ 2] [ 6] 研究并讨论了实际问题, 提出了部分改进方法。本文在其基础上提出新改进方 法 , 以希商榷。 二、 改进原始数据的无量纲化 主成分综合评价方法的关健是求主成分, 其工具是协方差矩阵。 由于协方差矩阵易受指标 的量纲和数量级的影响 , 经常要对原始数据进行标准化处理, 标准化使协方差矩阵变成了相关 系数矩阵。 但在消除量纲与数量级影响的同时, 也消除了各指标变异程度上的差异信息。 由于 原始数据中包含两部分信息 : 一部分是各指标变异程度的差异信息 , 由各指标的方差大小来反 映 ; 另一部分是各指标间相互影响程度上的相关信息 , 由相关系数矩阵来体现。标准化使各指 标的方差变成 1, 消除了各指标变异程度上的差异 , 因此从标准化的数据提取的主成分 , 实际 上只包含了各指标间相互影响这一部分信息, 不能准确反映原始数据所包含的全部信息。 所以 必须改进原始数据的无量纲化方法, 均值法方法就是其中较好的一种。 设有 N 个被评价的对象 , 及 P 个指标, 原始数据为 ( Xij) n * p, 各指标的均值为 X j 均值化就是用各指标的均值去除它们相应的原始数据, 即 Zij = Xji / Xj 均值化后 , 数据的协方差矩阵 V = ( uij ) p×p 的元素为 1 u ij = ( z li - z i ) ( z lj - z j ) n - 1 l= 1 由上式可知, 均值化后各指标的均值为 1, 可得 uij = 1 1 ( x li - x i ) ( x lj - x j ) s ij ( z li - 1) ( z lj - 1) = = n - 1 l= 1 n - 1 l= 1 x ix j x ix j
基于主成分分析法的综合评价方法的改进_孙刘平

本一致, 此时我们将两种方法的最后得分进行标准化处理, 然后求其标准分之和, 最后按其
标准分之和进行排序, 即得最后评价结果. 如果评价结果不具有一致性, 则采用主成分聚类 法进行综合评价.
若采用第一主成分得到的综合评价结果与采用熵值法得到的综合评价结果通过一致性
( x ij ) n×p 做均值化处理便得到均值化数
据阵 Y = ( y ij ) n×p . 由该均值化矩阵协方差矩阵进行主成分分析. 容易推出该协方差矩阵的
非主对角线上的元素与用标准化处理所得的协方差矩阵的非主对角线上的元素相同, 也就
是说这两种方法均不改变指标之间的相关程度, 而且利用均值处理得到的协方差矩阵的主
2. 1 熵值法做综合评价的步骤
1) 将各指标同度量化, 计算第 j 个指标下第 i 个样本的比重 p ij
n
∑ p ij = x ij / x ij i= 1
2) 计算第 j 项指标的熵值
∑n
Ej = - k p ij
i= 1
l n( p ij ) , 其中 k =
1 ln n
3) 定义第 j 个指标的熵权 w j 第 j 个指标的熵权 w j 定义为
1. 2 改进的主成分分析法 根据叶双峰的研究[ 4] 采用数据标准化处理会造成指标信息的丢失, 并采用数据均值化
方法进行主成分分析. 所谓均值法就是用数据的均值去除原始数据, 即 y ij = x ij , 其中 x j = xj
n
∑ 1
n
x ij , j
i= 1
=
1, 2, …, p . 这样对原始数据矩阵 X =
如何有效利用主成分分析进行综合评价.
如何有效利用主成分分析进行综合评价摘要:由于主成分分析在多元统计分析中的降维作用,使之在社会、经济、医疗、生化等各领域运用越来越广泛,但由于传统主成分分析方法的局限性导致了一些问题的产生。
这些问题吸引了许多领域专家的关注,并具有针对性的提出了一些不同的改进方法。
本文介绍了主成分分析的基本和性质,并整理了近年来主成分分析在综合评价应用中遇到的普遍问题并整理验证了认同率较强的一些改进方法,以供大家研究学习。
关键词:主成分分析;综合评价;均值化1引言1.1研究的背景和意义随着生产力的不断进步,生产方式由外延式扩张转化为追求经济效益的内涵式发展,以致在生产过程中必须考虑经济效益的各个方面,如生产力水平、技术进步、资源占用等情况,并需要就综合各方面的因素进行综合评价。
评价是根据确定的目的来测定对象系统的属性,并将这种属性变为客观定量的计值或者主观效用行为,整个过程离不开评价者的参与,而综合评价作为评价的一种也需要评价者做出相应反应或指示,而很多综合评价过程易受到评价者的干预,使评价结果产生偏差。
主成分分析能将高维空间的问题转化到低维空间去处理【9】,使问题变得比较简单、直观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。
而且,伴随主成分分析的过程,将会自动生成各主成分的权重,这就在很大程度上抵制了在评价过程中人为因素的干扰,因此以主成分为基础的综合评价理论能够较好地保证评价结果的客观性,如实地反映实际问题。
主成分综合评价提供了科学而客观的评价方法,完善了综合评价理论体系,为管理和决策提供了客观依据,能在很大程度上减少了上述不良现象的产生。
所以在社会经济、管理、自然科学等众多领域的多指标体系中,如节约型社会指标体系、生态环境可持续型指标体系、和谐社会指标体系、投资环境指标体系等,主成分分析法常被应用于综合评价与监控【6】。
综上所述,对综合评价指标体系理论进行研究,既有理论上的必要性,更有实践中的迫切性。
对主观评分结果进行评价的误区与对策(
对主观评分结果进行评价的误区与对策*刘钦龙(安徽师范大学体育学院,安徽,芜湖,241000)摘要:采用统计分析法,通过对主观评分的结果进行评价中统计处理的误区分析,提出秩相关分析与偏差分析相结合的综合评价更具有针对性。
关键词:主观评分;评价,误区;对策Misunderstanding and Countermeasurement to the Evaluation on Subjective Scoring’s ResultsLiu-qinlongPhysical Education College Anhui Normal University Anhui Wuhu 241000 Abstract: By means of statistical analysis, the author tries to analyze the misunderstanding and misuse of statistical processing in the evaluation on the results of subjective scoring, then points out that there would be no mistaking what the analysis is aimed at if the users combine rank correlation analysis with deviation analysis.Key Words: subjective scoring; evaluation; misunderstanding; countermeasurement1前言在没有可以用物理方法计量的客观标准的竞赛项目中,如体操,武术、跳水、健美操、花样滑冰等,一般采取裁判员依据运动竞赛规则对运动员的现场的竞技水平进行主观评分的方法。
最常用的评分形式是:若干裁判员对每个参赛者各自独立地同时打分,然后去掉一个最高分、一个最低分,将其余分数的算术平均数作为运动员的最后得分。
主成分分析中主成分个数的确定及其综合评价方法的讨论
主成分分析中主成分个数的确定及其综合评价方法的
讨论
确定主成分个数的综合考量方法有以下几种:
(1)满足可视化要求法。
有时候,一般需要将原始数据投影到一个二
维平面或三维空间中,进行可视化处理。
因此,关于主成分个数的选
择应该兼顾可视性的要求,至少要可以实现二维或者三维的显示;
(2)满足最终的分析要求法。
有时候。
在决定主成分个数时,可以根
据最终的统计分析目的,使主成分的个数发挥最大的贡献;
(3)变异性离散程度充足法。
主成分分析一般采用变异性贡献率来评
价每一个主成分的重要性。
一般而言,变异性贡献率应至少是5%以上。
当变异性贡献率不足时,就可以减少主成分个数;
(4)特征值法。
在主成分分析中,对原始数据的投影方程会产生一组
正交矩阵,其中正交矩阵的每一个特征值,就表示变量的变异性贡献率,而特征值的大小与变量的变异性贡献率呈负相关。
选取特征值小
于一定的特征向量并删除,即可确定主成分个数;
(5)提升变量得分系数法。
在主成分分析中,对变量进行投影后,就
会产生一组新的变量得分系数,其数量等于变量的数量。
一般而言,
为了增强变量的变异性贡献率,新的变量得分系数应当大于起始变量
的得分系数,一般情况下,其加权平均比率至少可以达到50%以上;
(6)拟合度检验法。
也可以使用拟合度检验来对主成分的个数进行检测,从而确定具有最佳拟合阶段的主成分个数。
主成分进行综合评价 综合评价主成分分析方法与因子分析方法的比较
主成分进行综合评价综合评价主成分分析方法与因子分析方法的比较统计研究主成分分析方法和因子分析方法都是寻求从高维空间到低维空间的映射的方法,其目的是起到降维的效果,以便于用几个较少的综合指标来综合所研究总体各方面的信息,且这几个指标所代表的信息不重叠,也就是说从高维空间到低维空间的映射仍保持高维空间的“序”的结构。
但这两种综合评价方法往往易混淆,本文从这两种方法的统计依据、数学模型、计算方法、综合指标的选取等方面比较它们的异同,以供初学者参考。
1、统计依据不同。
主成分分析方法的统计问题:依P个指标戈l,x2,A,戈P的/7,个观察值矩阵X=G0帅,能否找到能较好地综合反映这个P、二指标的线性函数Y=乞atxt,即i=1找到这个主成分的方法就是主成分分析方法。
因子分析方法的统计问题仍口由P个指标戈。
,戈:,A,却的几个观钱道察信息阵X=GF)忡,用有限个不翠可观测的潜在变量来解释原始变量间的相关性或协方差关系,寻求这几个公因子的方法就是因子缉含汗价士气分析劣珐乡图分奸劣珐的火仪分析法。
它的原理源于已知信息的指标向量戈=0。
,戈:,A,菇P)’,总存在正交变换戈=Qy使得记x=Az,这里正交阵Q是X=G0。
巾的协方差阵y的特征向量排成的,y的各分量是不相关的,若茹的方差集中在少数几个变量三,,A,缸上,即y的特征值A,,A,A。
较大,后几个特征值A㈨,A,A。
很小几乎为零,于是就有因子模型算=4厂+s。
寻求公因子、厂及因子载荷阵A的方法就是因子分析法。
,2、数学模型不同。
主成分分析的数学模型:Y=Eat、、ri,1=1即主成分是原始指标的线性函数。
因子分析的数学模型:戈=4厂+£,A为因子载荷阵。
厂为公因子向量,£为随机误差项,Vnroq=I。
,Var=o,VarI30圈羹堑绻过丝Q丝生皇塑万方数据=D。
从形式上看二者的模型不同,但主成分分析又为因子分析中因子的寻求提供了一个有效的途径。
主成分分析与因子分析法最易混淆的地方在于,将主成分分析方法与因子分析方法中估计公因子及因子载荷阵的主分量法混为一谈。