如何有效利用主成分分析进行综合评价

合集下载

主成份分析在综合评价中的运用讲解

主成份分析在综合评价中的运用讲解

综合评价 8
Z 1F1 2F2 ... m Fm
主成份分析运用实例 Step2:确定综合评价的指标体系
综合评价 9
1 指标的选取对整个研究过程是至关重要的,选取的合理与 否直接影响到分析结果的客观性 。
2 如果部分指标选取有误,比如本不属于该指标体系的指标 被选入,或是本应该纳入该指标体系的指标却被漏选,最 后得出的评价效果(如综合排名)可能会出现不合理的现 象。
0.240
城镇居民人均可支配 收入
床位数
0.173 0.185
主成份分析运用实例
综合评价 15
Step3:指标数据的收集及处理
1 可以从“中国统计年鉴”或国家统计局网站获取数据
2 数据处理方面有以下几点需注意
1 为消除各指标之间在数量级别和量纲上的不同,就必须对原始数据 进行标准化处理。另外,标准化方法并非主成分综合评价中对原始 数据进行无量纲化的唯一方法 。
Extraction Sums of Squared Loadings
Total % of Variance Cumulativ e %
3.448
57.468
57.468
1.807
30.110
87.577
第二主成 份的方差
累计方 差贡献

>85%
结论:取前两各主成份进行综合评价(依据接着往下看)
主成份分析运用实例 Step5:建模结果的解释
综合评价 11
Step2:确定综合评价的指标体系
1 假如指标体系中有N个指标,他们的相关程度有以下几种情况:
1 N个指标完全相关 。此时剔除N-1个指标,只留一个就可以 做出排序了。
2 N个指标完全不相关。此时不可能将它们压缩为较少的指标 ,主成分分析的出发点通常是指标的相关矩阵,如果指标 间完全不相关,相关矩阵为对角阵,主成分分析的去相关 作用就无从谈起 。

浅谈统计综合评价中主成分分析法的应用

浅谈统计综合评价中主成分分析法的应用

③ 在主成分分析将原始变量变换
为成分的过程中 , 同时形成了反 映成分和指标包含信息量的权 数 , 以计算综合评价值 , 这比人为 地确定权数 , 工作量少些 , 也有助 于保证客观地反映样本间的现实 关系。 此外 , 随着电子计算机技术 的 发 展 , SAS、 SPSS等 商 品 化 统 计 分析软件的推广与应用 , 使得主 成分分析在各类综合评价实践中 的广泛应用成为现实。
GONGZUOYANJ IU
等功能于一身 , 是世界著名的统 计分析软件之一。 因此 , 我们可以 利用 SPSS中的主成分分析模块进 行评价。 具体做法是 : 将参评指标的 数据导入软件后 , 在分析模块上 选择主成分法进行分析。在矩阵 方差最大旋转” 它 旋转方面 , 取“ 。 是一种正交旋转方法。它使每个 因子上的具有最高载荷的变量数 最小 , 可以简化对因子的解释。 其 余的都可按系统默认值确定。最 后我们用第一主成分的特征向量 与原始指标值的线性加权的值得 出综合值 , 并根据其分值对企业 由高到低进行排序。 总之 , 综合评价的过程实际 上是理论与实践相结合的过程。 没有经济理论和统计专业知识的 而主 支持 , 是体现不出科学性的。 成分分析在综合评价中的应用可 避免许多人为因素 , 使评价结果 更为科学。 此外 , 由于计算机的普 及和计算软件的发展 , 使得进行 主成分分析已变成一件逐渐普遍 和十分容易的事情了。
通过数学计算可将p个原始指标的总方差分解为p个不相关的综合指标的方差之和方差达到最大贡献率最大第二个综合指标y的方差次大以此类推一般前面几个综合指标yp即可包含总方差中绝大部分也就是说主成分分析可以使原始指标的大部分方差集中于少数几个主成分综合指标上通过对这几个主成分的分析来实现对总体的综合评价
工作研究

利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。

利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。

第3题. 利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。

近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。

但由于我国各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异,不同的地区具有不同的特点。

对我国各地区普通高等教育的发展状况进行聚类分析,明确各类地区普通高等教育发展状况的差异与特点,有利于管理和决策部门从宏观上把握我国普通高等教育的整体发展现状,分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展。

遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体见下图图1. 高等教育的十项评价指标指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值,具体数值见下表见表6,其中:1x 为每百万人口高等院校数;2x 为每十万人口高等院校毕业生数;3x 为每十万人口高等院校招生数;4x 为每十万人口高等院校在校生数;5x 为每十万人口高等院校教职工数;6x 为每十万人口高等院校专职教师数;7x 为高级职称占专职教师的比例;8x 为平均每所高等院校的在校生数;9x 为国家财政预算内普通高教经费占国内生产总值的比重;10x 为生均教育经费。

建模与求解:一构造原始数据矩阵X=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡1021x x x二使矩阵X标准化(程序见附录1)Z= 4.3685 3.9057 4.0909 4.1392 4.5401 4.5748 2.4120 0.39541.98622.6869 2.3854 2.4187 2.0965 1.9157 0.8299 1.13461.0221 1.4520 1.5048 1.3575 0.9509 1.0406 1.4024 1.09910.0952 0.2331 0.1895 0.2072 0.1326 0.1823 0.0558 0.53750.2342 0.3453 0.3790 0.3951 0.0988 0.1823 0.7080 0.72190.3918 0.3133 0.2898 0.2270 0.1495 0.1823 0.5775 -0.2813-0.0717 -0.0556 -0.0111 -0.0169 -0.0536 -0.0533 0.8638 0.2482 -0.1829 0.0086 -0.0223 -0.0136 -0.0649 -0.0701 0.4691 0.7675 -0.2756 -0.0396 0 -0.0466 -0.1383 -0.1374 0.2405 1.0602 -0.5166 -0.4405 -0.2564 -0.3168 -0.3696 -0.3899 0.7418 1.0264 -0.6371 -0.4245 -0.4124 -0.4091 -0.3696 -0.4067 0.4234 1.2987 -0.6279 -0.1358 -0.3344 -0.3959 -0.3922 -0.4235 0.4793 1.3884 -0.4981 -0.3924 -0.3567 -0.3663 -0.3414 -0.3562 -0.3371 0.4664 -0.4703 -0.3924 -0.3678 -0.3531 -0.3696 -0.3899 0.4979 0.4005 -0.3590 -0.3924 -0.2564 -0.3201 -0.3414 -0.3562 -0.0305 -0.03090.0396 -0.3122 -0.2341 -0.1191 -0.0705 -0.0196 -0.7098 -0.5435-0.1922 -0.2160 -0.2564 -0.2740 -0.3584 -0.3562 -0.1881 -0.4775 -0.3683 -0.2160 -0.3233 -0.2740 -0.2850 -0.2889 -0.7606 0.2939 -0.4054 -0.3764 -0.3121 -0.3729 -0.3696 -0.4067 -0.0509 -0.1155 -0.6093 -0.5047 -0.5239 -0.5113 -0.4543 -0.4572 0.4590 0.1806 -0.5444 -0.4886 -0.6019 -0.5640 -0.4656 -0.4740 -0.2660 -0.6889 -0.4425 -0.3764 -0.3455 -0.3531 -0.3358 -0.4067 -0.2220 0.2262 -0.5074 -0.5367 -0.4793 -0.4487 -0.4486 -0.4909 -0.4709 -0.0630 -0.3776 -0.3764 -0.5128 -0.4289 -0.3471 -0.3057 -0.4184 -0.59080.4103 -0.6490 -0.5462 -0.5410 -0.2906 -0.2384 -3.0524 -2.6580-0.6464 -0.5528 -0.5350 -0.5640 -0.4656 -0.5077 -0.2897 -0.0681 -0.6001 -0.6169 -0.5685 -0.5673 -0.4938 -0.5077 0.3065 -0.39800.1322 -0.2962 -0.3567 -0.3070 -0.2793 -0.2216 -1.2569 -1.4908-0.5630 -0.6971 -0.6911 -0.6860 -0.5051 -0.5245 -0.3388 -1.54320.2157 -0.4565 -0.5350 -0.4948 -0.3584 -0.2889 -2.0750 -2.2960三构造矩阵相关系数矩阵R(程序见附录2)R= 1.0000 0.9434 0.9528 0.9591 0.9746 0.9798 0.4065 0.06630.9434 1.0000 0.9946 0.9946 0.9743 0.9702 0.6136 0.35000.9528 0.9946 1.0000 0.9987 0.9831 0.9807 0.6261 0.34450.9591 0.9946 0.9987 1.0000 0.9878 0.9856 0.6096 0.32560.9746 0.9743 0.9831 0.9878 1.0000 0.9986 0.5599 0.24110.9798 0.9702 0.9807 0.9856 0.9986 1.0000 0.5500 0.22220.4065 0.6136 0.6261 0.6096 0.5599 0.5500 1.0000 0.77890.0663 0.3500 0.3445 0.3256 0.2411 0.2222 0.7789 1.00000.8680 0.8039 0.8231 0.8276 0.8590 0.8691 0.3655 0.11220.6609 0.5998 0.6171 0.6124 0.6174 0.6164 0.1510 0.0482四求出R的特征值和累积贡献率(程序见附录3)λ1= 7.5022贡献率τ1=λ1/10=75.0216%λ2= 1.577累积贡献率τ1+τ2=90.7915%λ3= 0.5362累积贡献率τ1+τ2+τ3=96.1536%λ4= 0.2064累积贡献率τ1+τ2+τ3+τ4=98.2174%可以看出,前两个特征根的累计贡献率就达到90%以上,主成分分析效果很好。

基于主成分分析法的学生成绩综合评价-2019年教育文档

基于主成分分析法的学生成绩综合评价-2019年教育文档

基于主成分分析法的学生成绩综合评价一、引言在经济全球化和社会分工越来越细化的当今社会,人力资源已成为人类的第一宝贵资源。

作为高素质人才主要培养基地的高等院校,如何科学地评价大学生的综合成绩成为当前各高校在全面推进素质教育过程中所面临的问题之一。

传统的以多门课程总平均分排名的评价方法,比较笼统,为了尽可能全面、科学地反映被评价对象的情况,往往需要选取众多的指标构成评价体系,但是,过多的指标不仅会增加评价的工作量,还会因评价指标间的相关性造成评价信息相互重叠、相互干扰,从而难以客观地反映被评价对象的真实水平。

本文认为可以使用主成分分析法解决此类问题。

二、主成分分析方法简介主成分分析,是利用降维的方法,将多个指标转化为少数几个综合指标,去解释原始资料中的大部分变异的一种方法。

在实际问题中,为了全面、系统地分析问题,通常必须考虑众多的影响因素,这些影响因素一般被称为指标或者变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时,变量太多会增加计算量和分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。

因此,把这些变量转化成彼此不相关的变量,然后从中选出比原始变量个数少、却能解释原始资料中大部分变异的几个新变量,即所谓的主成分,从而达到降维和简化问题分析的目的。

具体而言,主成分分析法是通过数学变换把给定的一组相关变量通过线性变换转成另一组不相关的变量,并按方差依次递减的顺序排列,找到第一、第二、⋯第k 个主成分,然后计算因子载荷矩阵,建立主成分模型,最后按因子得分及贡献率的大小,计算综合得分并进行排序。

三、高校学生成绩综合评价应用(一)研究的对象及指标的选择本文以贵州航天职业技术学院11级社区管理与服务班在2011—2012 学年的13门主要课程考试成绩为研究对象,借助统计软件进行主成分分析,计算出主成分得分,并按主成分得分对学生进行了排名。

主成分分析在煤矿安全评价中的应用

主成分分析在煤矿安全评价中的应用

主成分分析在煤矿安全评价中的应用1.建立指标体系主成分分析可以通过对煤矿安全相关指标的分析,确定一个综合评价指标体系。

对于煤矿安全评价来说,可以将各类指标分为物理指标(如瓦斯浓度、煤尘浓度等)、技术指标(如瓦斯抽放量、通风量等)、管理指标(如事故率、投入产出比等)等。

通过主成分分析,可以将这些指标综合,得到一个综合评价指标,用于对煤矿安全状况进行评价和比较。

2.确定主要风险因素主成分分析可以通过对煤矿安全指标的分析,确定主要的风险因素。

通过主成分分析,可以对各个指标之间的关联关系进行分析,找出其中具有高度相关性的指标,并将其归纳为主要风险因素。

这样可以帮助煤矿安全管理者更好地了解煤矿安全的脆弱性,有针对性地采取措施来降低风险。

3.评估煤矿安全状况主成分分析可以通过对一段时间内煤矿安全实际数据的分析,评估煤矿的安全状况。

通过主成分分析,可以从多个角度对煤矿安全进行综合评价,从而得到一个客观的安全状况评估结果。

这样可以帮助煤矿安全管理者更好地了解煤矿当前的安全状况,及时采取措施来改善安全状况。

4.风险预警和预测主成分分析还可以通过对历史数据的分析,建立预测模型,用于煤矿安全风险的预警和预测。

通过主成分分析,可以提取出影响煤矿安全风险的关键因素,并建立模型进行预测。

这样可以帮助煤矿安全管理者提前预判潜在的安全风险,并采取措施来避免或减轻事故的发生。

5.优化煤矿管理策略主成分分析可以通过对煤矿安全指标的分析,帮助煤矿安全管理者优化管理策略。

通过主成分分析,可以找到关键的影响因素,并确定其权重,从而更好地分配资源和制定管理策略。

这样可以帮助煤矿安全管理者制定科学有效的管理措施,以提高煤矿的安全水平。

综上所述,主成分分析在煤矿安全评价中具有广泛的应用价值。

通过主成分分析,可以建立综合评价指标体系、确定主要风险因素、评估煤矿安全状况、进行风险预警和预测、优化管理策略等,从而提高煤矿的安全水平。

(完整版)利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。

(完整版)利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。

第3题. 利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。

近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。

但由于我国各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异,不同的地区具有不同的特点。

对我国各地区普通高等教育的发展状况进行聚类分析,明确各类地区普通高等教育发展状况的差异与特点,有利于管理和决策部门从宏观上把握我国普通高等教育的整体发展现状,分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展。

遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体见下图图1. 高等教育的十项评价指标指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值,具体数值见下表见表6,其中:1x 为每百万人口高等院校数;2x 为每十万人口高等院校毕业生数;3x 为每十万人口高等院校招生数;4x 为每十万人口高等院校在校生数;5x 为每十万人口高等院校教职工数;6x 为每十万人口高等院校专职教师数;7x 为高级职称占专职教师的比例;8x 为平均每所高等院校的在校生数;9x 为国家财政预算内普通高教经费占国内生产总值的比重;10x 为生均教育经费。

建模与求解:一构造原始数据矩阵X=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡1021x x x二使矩阵X标准化(程序见附录1)Z= 4.3685 3.9057 4.0909 4.1392 4.5401 4.5748 2.4120 0.39541.98622.6869 2.3854 2.4187 2.0965 1.9157 0.8299 1.13461.0221 1.4520 1.5048 1.3575 0.9509 1.0406 1.4024 1.09910.0952 0.2331 0.1895 0.2072 0.1326 0.1823 0.0558 0.53750.2342 0.3453 0.3790 0.3951 0.0988 0.1823 0.7080 0.72190.3918 0.3133 0.2898 0.2270 0.1495 0.1823 0.5775 -0.2813-0.0717 -0.0556 -0.0111 -0.0169 -0.0536 -0.0533 0.8638 0.2482 -0.1829 0.0086 -0.0223 -0.0136 -0.0649 -0.0701 0.4691 0.7675 -0.2756 -0.0396 0 -0.0466 -0.1383 -0.1374 0.2405 1.0602 -0.5166 -0.4405 -0.2564 -0.3168 -0.3696 -0.3899 0.7418 1.0264 -0.6371 -0.4245 -0.4124 -0.4091 -0.3696 -0.4067 0.4234 1.2987 -0.6279 -0.1358 -0.3344 -0.3959 -0.3922 -0.4235 0.4793 1.3884 -0.4981 -0.3924 -0.3567 -0.3663 -0.3414 -0.3562 -0.3371 0.4664 -0.4703 -0.3924 -0.3678 -0.3531 -0.3696 -0.3899 0.4979 0.4005 -0.3590 -0.3924 -0.2564 -0.3201 -0.3414 -0.3562 -0.0305 -0.03090.0396 -0.3122 -0.2341 -0.1191 -0.0705 -0.0196 -0.7098 -0.5435-0.1922 -0.2160 -0.2564 -0.2740 -0.3584 -0.3562 -0.1881 -0.4775 -0.3683 -0.2160 -0.3233 -0.2740 -0.2850 -0.2889 -0.7606 0.2939 -0.4054 -0.3764 -0.3121 -0.3729 -0.3696 -0.4067 -0.0509 -0.1155 -0.6093 -0.5047 -0.5239 -0.5113 -0.4543 -0.4572 0.4590 0.1806 -0.5444 -0.4886 -0.6019 -0.5640 -0.4656 -0.4740 -0.2660 -0.6889 -0.4425 -0.3764 -0.3455 -0.3531 -0.3358 -0.4067 -0.2220 0.2262 -0.5074 -0.5367 -0.4793 -0.4487 -0.4486 -0.4909 -0.4709 -0.0630 -0.3776 -0.3764 -0.5128 -0.4289 -0.3471 -0.3057 -0.4184 -0.59080.4103 -0.6490 -0.5462 -0.5410 -0.2906 -0.2384 -3.0524 -2.6580-0.6464 -0.5528 -0.5350 -0.5640 -0.4656 -0.5077 -0.2897 -0.0681 -0.6001 -0.6169 -0.5685 -0.5673 -0.4938 -0.5077 0.3065 -0.39800.1322 -0.2962 -0.3567 -0.3070 -0.2793 -0.2216 -1.2569 -1.4908-0.5630 -0.6971 -0.6911 -0.6860 -0.5051 -0.5245 -0.3388 -1.54320.2157 -0.4565 -0.5350 -0.4948 -0.3584 -0.2889 -2.0750 -2.2960三构造矩阵相关系数矩阵R(程序见附录2)R= 1.0000 0.9434 0.9528 0.9591 0.9746 0.9798 0.4065 0.06630.9434 1.0000 0.9946 0.9946 0.9743 0.9702 0.6136 0.35000.9528 0.9946 1.0000 0.9987 0.9831 0.9807 0.6261 0.34450.9591 0.9946 0.9987 1.0000 0.9878 0.9856 0.6096 0.32560.9746 0.9743 0.9831 0.9878 1.0000 0.9986 0.5599 0.24110.9798 0.9702 0.9807 0.9856 0.9986 1.0000 0.5500 0.22220.4065 0.6136 0.6261 0.6096 0.5599 0.5500 1.0000 0.77890.0663 0.3500 0.3445 0.3256 0.2411 0.2222 0.7789 1.00000.8680 0.8039 0.8231 0.8276 0.8590 0.8691 0.3655 0.11220.6609 0.5998 0.6171 0.6124 0.6174 0.6164 0.1510 0.0482四求出R的特征值和累积贡献率(程序见附录3)λ1= 7.5022贡献率τ1=λ1/10=75.0216%λ2= 1.577累积贡献率τ1+τ2=90.7915%λ3= 0.5362累积贡献率τ1+τ2+τ3=96.1536%λ4= 0.2064累积贡献率τ1+τ2+τ3+τ4=98.2174%可以看出,前两个特征根的累计贡献率就达到90%以上,主成分分析效果很好。

用主成分分析模型构造综合评价指数

用主成分分析模型构造综合评价指数

用主成分分析模型构造中学考试综合评价指数[摘要] 在中学考试的综合评价中,使用较多的指标进行描述使分析复杂化,难以对众多指标的影响作出正确的判断,需要少量几个“综合评价指标”。

通过简单加权的合成方法,难以得到科学的结果。

主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少量几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关,较好地解决了这一课题。

[关键词] 考试评价;主成分分析;数学模型;计算步骤,指数构造方法一、问题的提出在中学考试评价中,通常使用各学科的“平均分”、“优秀率”、“及格率”和“低分率”等指标。

考虑到成绩的分布状况(“优秀率”与“及格率”之间的差距偏大,可能失去部分信息量),某些地区还使用了“良好率”指标。

这样,k 个学科的考试评价的p 项指标将多达k ╳p 个。

在对考试进行综合的评价时,使用较多的指标进行描述不仅会增加评价的工作量,而且会因评价指标间的相关性造成评价信息重叠,相互干扰,其结果使分析复杂化,难以对众多指标的影响作出正确的判断。

因此,需要少数几个甚至一个“综合评价指标”来代替众多的且相互之间具有相关关系的指标,同时又需要不失去原有指标具有的信息量,这是考试评价中具有现实意义的课题。

某些地区采用一种“降维”的方法,较成功地把k ╳p 维指标降为p 维指标,即在使用“总分平均分”的同时,用“科平均╳╳率”取代各科的“╳╳率”(计算方法见备注1)。

如何把p 维指标再合成为一个“综合评价指标”?采用一些简单加权的合成方法时,由于对各指标的影响不容易作出正确的定量化的判断,及权数产生的科学性等问题,往往难以得到令人信服的科学的结果。

主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少数几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关。

较好地解决了这一课题。

二、主成分分析的数学模型设有n 个样品,每个样品观测p 个指标(变量):X 1,X 2,…,X p , 得到原始数据矩阵:用数据矩阵X 的p 个列向量(即p 个指标向量)作线形组合(即综合指标向量)为:上述方程组要求:且系数αij 由下列原则决定:①、F i 与F j (i ≠j ,i ,j =1,…,p )不相关;②、F 1是X 1,X 2,…,X p 的一切线性组合(系数满足上述方程组)中方差最大的,F 2是与F 1不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的,…,F p 是是与F 1,F 2,…,F p-1都不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的。

基于主成分分析的苹果品质综合评价

基于主成分分析的苹果品质综合评价

基于主成分分析的苹果品质综合评价引言苹果是世界上最受欢迎的水果之一,其种类繁多,口感和品质也各不相同。

针对不同种类的苹果,消费者们需要有一个科学的方法来评价其品质。

主成分分析是一种多变量统计分析方法,可以用来评价复杂的数据集,例如苹果的品质评价。

本文将利用主成分分析来综合评价苹果的品质,为消费者提供科学的参考。

一、研究目的本研究旨在利用主成分分析方法对苹果的品质进行综合评价,为消费者提供科学的方法来选择优质的苹果。

二、研究数据来源本研究选取了来自不同地区的10种苹果样本,共计100个样本作为研究对象。

研究变量包括苹果的色泽、口感、香味、果肉质地、糖分含量和酸度等6个指标。

三、研究方法本研究将采用主成分分析方法对苹果品质进行综合评价。

主成分分析是一种通过线性变换将多变量数据转换为少数几个主成分来实现数据降维、提取主要信息的方法。

通过主成分分析,可以找到最能够反映初始变量间关系的主成分,从而实现对样本间的品质差异进行综合评价。

四、研究步骤1. 数据预处理:对原始数据进行标准化处理,将不同指标的测量单位进行统一,以确保各个指标具有相同的权重。

2. 主成分提取:通过主成分分析方法提取出能够最大程度反映原始数据变异的主成分。

3. 数据分析:利用主成分得分来进行苹果品质的综合评价。

4. 结果解释:解释和分析主成分的贡献率和载荷,从而理解每个主成分代表了什么样的品质特征。

五、研究结果通过主成分分析,我们提取出了3个主成分,累计贡献率达到了80%以上,说明这3个主成分可以很好地代表原始数据的变异情况。

通过对主成分的载荷矩阵进行解释,我们发现第一个主成分主要包括了果肉质地和口感两个指标,第二个主成分主要包括了色泽和香味两个指标,第三个主成分主要包括了糖分含量和酸度两个指标。

我们可以将这3个主成分分别理解为果肉质地和口感、色泽和香味、糖分含量和酸度这3个品质维度。

根据主成分得分,我们对每个苹果样本的品质进行了综合评价,得出了每个样本在这3个品质维度上的得分。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

如何有效利用主成分分析进行综合评价摘要:由于主成分分析在多元统计分析中的降维作用,使之在社会、经济、医疗、生化等各领域运用越来越广泛,但由于传统主成分分析方法的局限性导致了一些问题的产生。

这些问题吸引了许多领域专家的关注,并具有针对性的提出了一些不同的改进方法。

本文介绍了主成分分析的基本和性质,并整理了近年来主成分分析在综合评价应用中遇到的普遍问题并整理验证了认同率较强的一些改进方法,以供大家研究学习。

关键词:主成分分析;综合评价;均值化1引言1.1研究的背景和意义随着生产力的不断进步,生产方式由外延式扩张转化为追求经济效益的内涵式发展,以致在生产过程中必须考虑经济效益的各个方面,如生产力水平、技术进步、资源占用等情况,并需要就综合各方面的因素进行综合评价。

评价是根据确定的目的来测定对象系统的属性,并将这种属性变为客观定量的计值或者主观效用行为,整个过程离不开评价者的参与,而综合评价作为评价的一种也需要评价者做出相应反应或指示,而很多综合评价过程易受到评价者的干预,使评价结果产生偏差。

主成分分析能将高维空间的问题转化到低维空间去处理【9】,使问题变得比较简单、直观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。

而且,伴随主成分分析的过程,将会自动生成各主成分的权重,这就在很大程度上抵制了在评价过程中人为因素的干扰,因此以主成分为基础的综合评价理论能够较好地保证评价结果的客观性,如实地反映实际问题。

主成分综合评价提供了科学而客观的评价方法,完善了综合评价理论体系,为管理和决策提供了客观依据,能在很大程度上减少了上述不良现象的产生。

所以在社会经济、管理、自然科学等众多领域的多指标体系中,如节约型社会指标体系、生态环境可持续型指标体系、和谐社会指标体系、投资环境指标体系等,主成分分析法常被应用于综合评价与监控【6】。

综上所述,对综合评价指标体系理论进行研究,既有理论上的必要性,更有实践中的迫切性。

1.2研究的发展史基于主成分分析的综合评价以主成分分析为理论基础,以综合评价为主线,着眼于作出合理公正的综合评价。

以下从综合评价和主成分分析两个方面来讨论主成分综合评价的发展史。

1.2.1综合评价的发展史综合评价是伴随着人类文明的产生、发展而产生、发展的。

其基本思想是将反映研究对象数量特征的多个指标转化为一个综合指标,并据以对各个具体评价对象进行排序比较,从而做出好坏优劣的评价结论。

1888年,艾奇沃斯(Edgeworth)发表了论文《考试中的统计学》,提出了对考生中的不同部分应如何加权。

1913年,斯皮而曼(sPe~an)发表了《和与差的相关性》一文,讨论了不同加权的作用。

在20世纪30年代,瑟斯通(Thurstone)和利克特(Likert)又对定性记分方法的工作给予了新的推动。

20世纪60年代,美国学者查德(L·A·zadaen)模糊集合理论,为模糊综合评价法奠定了基础。

20世纪70一80年代,是现代科学评价蓬勃兴起的年代。

在此期间,产生了多种应用广泛的评价方法,诸如ELECTRE法(1971一1977,1983)、多维偏好分析的线性规划法(LINMAP,1973)、层次分析法(AHP,1977)、数据包络分析法(DEA,1978)、逼近于理想解的排序法(TOPSIS,1981)等【7】。

1.2.2主成分分析的发展史主成分分析,首先是由英国的皮尔生(Kar卜Pearson)对非随机变量引入的,而后美国的数理统计学家赫特林(Harold.Hotelling)在1933年将此方法推广到随机向量的情形团【8】。

主成分分析的降维思想从一开始就很好地为综合评价提供了有力的理论和技术支持。

20世纪80~90年代,是现代科学评价在我国向纵深发展的年代,人们对包括主成分综合评价在内的评价理论、方法和应用开展了多方面的、卓有成效的研究,主要表现为:常规评价方法在国民经济、生产控制和社会生活中的广泛应用;多种评价方法的组合研究,综合应用及比较;新评价方法的研究和应用;评价方法的深入研究,如:评价属性集的设计、标准化变换、评价模型选择等等。

1.3主成分做综合评价的研究现状目前国内外关于综合评价的方法很多,在根据各指标间相关关系或各指标值的变异程度来确定权重系数的方法中,主成分分析法是应用尤为广泛。

在使用该方法的早期,大多都是按照传统的主成分分析法做综合评价的步骤来计算综合得分来对样品排序,即利用主成分F1,F2,…,F m做线性组合,并以每个主成分F i的方差贡献率αi作为权重系数来构造一个综合评价函数:Y =α1F 1 +α2F 2 +…+αm F m然而,随着传统主成分分析方法在综合评价中的进一步应用,人们发现此方法时经不起实践检验的。

在实际应用中,经常发现运用此方法所得结果的解释往往与实际情况不符。

举了一个简单的例子,假定高考中考试科目有四门:数学(x 1)、语文(x 2)、外语(x 3)和物理(x 4),满分都是相同的150分。

考生的四门考试成绩必须综合成一个综合评价函数,一般取为总分i x i ∑=41。

但从统计学的角度来看,可能取为*41i x i ∑=更为合理,这里x i*是x i的标准化数值(x 1* 、x 2* 、x 3* 、x 4*有相同的均值和标准差)。

如果我们使用传统的主成分分析法,根据上述综合评价函数F 的得分来对学生进行排名,那就酿成大错了。

就此,一些学者提出了一些改进的方法,其中具有代表性的方法有:Y an(1998)提出,当第一主成分的方差比较大时,即贡献率较大时,用它做综合评价指标。

如果觉得用一个主成分解释的方差不够大时,综合反映X 1 ,X 2 ,…,X p 信息的能力不够,而用多个主成分构造综合评价函数又不合适时,可以像因子分析那样对主成分进行旋转。

Hou(2006)也提出,当用第一主成分进行综合评价达不到理想结果时,可用分组主成分评价法。

即先用因子分析法将p 个变量分成k 组,然后分别对各组变量进行主成分分析,只取每组的一主成分,求出各组第一主成分的得分C j (j=1,2,…,k)以因子旋转后各因子的放差贡献率为权重∑==kj jjWj 1λλ建立综合评价函数:∑==kj WjCj z 1。

最后根据各评价样本综合得分y 来对样品进行排序。

但其可行性也受到了一些学者的质疑【4】。

由此可见,主成分综合评价法是一片有待进一步深耕细作的热土。

2关于主成分分析基本知识 2.1主成分分析设要进行主成分分析的原指标有p 个,记作x 1 ,x 2 ,…,x p 。

现有n 个样品,相应的观测值为x ik , i =1,2,…,n,而k =1,2,…,p 。

作标准化变换后,将X k 变换为X k *,即SkXk-Xk Xk*=,k =1,2,…,m.式中,Xk 及Sk 分别是x k 的均值及标准差,x k *的均值为0、标准差为1. 主成分分析的原理是:根据各样品原指标的观测值x ik 或标准化变换后的观测值x ik *求出系数 a ik (k=1,2,…,p,j=1,2,…,m ,m <p),建立用标准化变换后的指标x k *表示综合指标Fj 的方程*xk akj Fj k∑=,也可建立用原指标X k 表示综合指标Fj 的方程*xk akj Fj k∑=。

对系数a ik 由下列原则决定:(1)各个综合指标Fj 彼此独立或不相关;(2)各个综合指标Fj 所反映的各个样品的总信息等于原来p 个指标X k *所反映的各个样品的总信息,即p 个Fj 的方差λj 之和等于p 个X k *的方差之和,也就是P j j=∑λ且λ1≥λ 2 … ≥λP 。

称上述彼此独立或不相关又不损失或损失很少原有信息的各个综合指标。

y j 为原指标 的主成分.其中,第一综合指标F 1的方差最大,吸收原来p 个指标的总信息最多,称第一主成分;第二综合指标F 2的方差次之,吸收原来p 个指标的总信息次之,称为第二主成分;同理,F 3 F 4…F p 分别称为第三主成分、第四主成分……第p 主成分。

【9】2.2 主成分分析能否旋转2.2.1 主成分分析与因子分析的联系与区别相当数量的应用文章对主成分分析与因子分析不加严格区分,因而对分析结果的解释非常模糊。

文献【1】认为主成分分析与因子分析两者之间有联系,但也存在着明显的区别。

从联系上看,主成分分析和因子分析都是将多个相关变量(指标)转化为少数几个不相关变量的一种多元统计分析方法。

其目的是使在高维空间中研究样本分布规律的问题,通过降维得到简化,并尽量保留原变量的信息量。

两者都有消除相关、降维的功能。

主成分分析是通过变量变换把注意力集中到具有最大变差的那些主成分上,而视变量不大的主成分为常数予以舍弃;因子分析是通过因子模型把注意力集中到少数不可观测的公共因子上,而舍弃特殊因子。

主成分个数与公共因子个数的选择准则通常是相同的。

主成分分析中主成分向量Y 与原指标向量X 的表达式为X L Y T=,式中()pp ijl L .=;而因子分析中的因子模型为ε+=AF X ,其中ε为特殊因子,().m p ija A =,当()0=εD 时,可采用主成分分析法估计A 阵,则ij j ij l a λ=。

对主成分分析中的主成分与因子分析中的公共因子的含义均需进行明确解释,否则,会遇到应用上的困难。

虽然主成分分析法与因子分析法有着密切的联系,但从应用上更需关注的是它们之间的区别。

1、 主成分分析的实质是P 维空间的坐标旋转,并不改变样本数据结构,不能作为模型来描述;因子分析的实质是P 维空间到M 维空间的一种映射,需构造模型。

2、 主成分的个数与原变量个数相等,而公因子的个数小于原变量的个数。

3、 主成分分析是把主成分表示为原变量的线性组合,因子分析是把原变量表示为公共因子和特殊因子的线性组合。

4、 主成分分析由可观测的变量X 直接求的主成分Y ,并可逆;因子分析只能通过可观测的原变量去估计不可观测的公共因子F ,不能用X 表示F 。

5、 主成分分析中的L 阵是唯一的正交阵;因子分析中的A 阵不唯一,也不一定是正交阵。

6、 主成分分析主要应用在综合评价和指标筛选上;因子分析除这两个作用以外,还可以应用于对样本或变量的分类。

2.2.2 能否对主成分实施旋转对于主成分能否进行旋转这一问题,很多研究学者认为,当主成分不能很好解释综合评价结果时,可以像因子分析那样进行正交旋转,从而使主成分得到更好的解释。

关于主成分能否旋转的问题,文献【1】【4】【5】【7】【8】均做了论证,发现这种方法是不可行的。

论证具体如下:主成分分析的实质是对原始指标变量进行线性变换,即F =XA ,其中()pp ij a A .=显然A 为正交矩阵,如果对主成分进行旋转,则有:T T T T A FA FLL FA X ˆˆ=== 其中L 是正交矩阵。

相关文档
最新文档