多指标评估体系的分析

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

多指标评估体系的分析

摘要：本文以地区限额以上工业主要评价指标体系为例，讨论了主成分分析、聚类分析以及主成分聚类分析在多指标评估体系中的应用，显示了主成分分析在简化指标体系、突出主要因素方面的作用，体现了聚类分析将相似样本进行聚类，简化数据处理难度的优点，同时也证明了主成分聚类分析的可行性。 0 引言

为全面评价对象，往往给出一个由许多指标构成的评价指标体系。为使信息集中，又经常使用加权平均。这存在以下几个问题：（1）一般评价体系指标众多，由于信息的重叠，一些指标之间存在一定的相关关系；（2）简单的加权平均的权重分配有较大的人为因素；（3）简单的加权平均损失大量信息，主要因素不突出。

本文以地区限额以上工业主要评价指标体系为例，利用主成分分析法，构造少数几个综合指标以充分揭示隐藏在样本数据后的大量信息，突出主要影响因素，以对评价对象作出科学评价；利用聚类分析方法，根据各指标之间的相似性逐步进行归群成类，客观地反映了这些指标之间的内在组合关系，对指标进行群聚，大大简化了数据的处理难度，为评价过程提供有力的依据。利用主成分聚类分析减少了数据的冗余，原理清晰，计算简单，所得的结论客观，为分析问题提供了有力的依据。

1 主成分分析法

主成分分析基本思想是通过原有变量（指标）的少数几个线性组合来解释原有变量所体现的样本变差。由于原有变量之间的相关性，原有p 个变量的大部分样本变差能够由k （比p 小很多）个主成分（特殊的线性组合）来概括。在新的综合指标体系（指标数将大为减少）中，对评价对象进行分析、类比。

设p X X X ,,,21 为原有的p 个指标；()p n ij x X ⨯=为其标准化观察矩阵；

()p p ij r R ⨯=为其相关系数矩阵；()()p i l l l L T pi i i i ,,2,1,,,21 ==为p 个常数向量。

考虑如下线性组合：∑===p

k k ki i p i X l Z 1

,2,1, 为p 个新指标（主成分）。Zi 的样

本方差i T i i RL L Z =var ，协方差()()p j i RL L Z Z Cov j T i j i ,,2,1, ==。希望用较少的新指标代替原来的p 个指标，就要求它们含有尽可能多的原指标信息且互不相关。指标中所含信息量的大小通常用该指标的方差来表示。

设R 的特征值和对应的正交单位化特征向量分别为021>≥≥≥p λλλ ；e1，

e2，…，p e ，则取i i e L =时，i i Z λ=var ，()()p j i Z Z j i ,,2,1,0cov ==。

可以证明原有指标的标准化样本总方差为p ，称p

i λ为第i 个主成分的贡献率；∑=k i i p

1λ为前k 个主成分的累积贡献率。累积贡献率表明了前k 个主成分提取了原有指标总信息量的分额，当其达到一定数值时，用k 个主成分代替原有指标将不致于损失太多信息，从而达到减少指标的目的。

2 聚类分析法

聚类分析（Cluster Analysis ）是统计学所研究的“物以类聚”问题的一种方法，它属于多变量统计分析的范畴。它是一种建立分类的方法，能够将一批样本数据（或变量）按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。这里，一个类就是一个具有相似的个体的集合，不同类之间具有明显的非相似性。在分类过程中，不必事先给出一个分类标准，聚类分析能够从样本数据出发，客观地决定分类标准。

系统聚类法（Hierarchical Clustering Methods ）也称层次聚类分析法，是目前国内外使用得最多的一种方法。这种方法的基本思想是：先将n 个样品各自看成一类，然后规定样品之间的距离和类与类之间的距离。开始，因每个样品自成一类，类与类之间的距离与样品之间的距离是相等的，选择距离最小的一对并成一个新类，计算新类和其他类的距离，再将距离最近的两类合并，这样每次减少一类，直至所有的样品都成一类为止。由此可见，系统聚类方法中，度量数据之间的亲疏程度是极为关键的。这里并没有给定分类的标准，也没有给出所有数据分成几类，而要求比较客观地从数据自身出发进行分类。类与类之间的亲疏程度有最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法等。 3 应用实例

以年全国个省市的项限额以上工业主要评价指标为例（数据来自统计年鉴），见表1，分别用主成分分析和聚类的方法对其进行分析。

3.1 用主成分分析进行分析

3.1.1 程序：

data a01;

input group $ x1-x7;

cards;

北京 1857.46 380.47 101.86 5.89 109.77 62.37 43925.20 天津 2034.65 445.08 104.58 7.02 115.95 61.36 33414.17 河北 2907.36 490.70 104.00 8.41 105.67 64.37 28311.56 山西 975.46 318.06 69.03 5.02 101.50 67.70 16453.57

上海 4987.44 1083.91 127.04 8.24 108.65 52.30 62870.09 江苏 8343.14 1363.77 105.89 8.37 112.27 61.95 35613.99 浙江 4814.59 744.35 124.25 11.38 114.38 58.86 41074.00 安徽 1400.46 280.31 81.10 7.16 104.51 63.02 22859.46

福建 1951.38 341.76 108.36 9.13 114.67 55.83 29443.326 山东 6566.99 856.04 109.68 9.55 109.60 63.36 36249.00 广东 9678.50 1786.91 109.22 7.26 106.03 61.12 45812.17 广西 848.91 163.86 77.73 6.55 105.27 69.37 24264.62

重庆 816.74 224.61 67.87 5.88 109.94 69.08 20617.75

四川 1853.21 447.25 85.19 6.83 108.09 41.81 22346.29

贵州 433.72 157.88 71.50 7.05 104.87 71.78 21684.85

陕西 922.56 266.69 67.67 5.54 107.12 69.90 19011.00

甘肃 575.39 164.68 59.69 5.44 93.60 68.59 15767.15