基于因子和聚类分析对河南省18地市的综合经济实力评价

基于因子和聚类分析对河南省18地市的综合经济实力评价
基于因子和聚类分析对河南省18地市的综合经济实力评价

龙源期刊网 https://www.360docs.net/doc/884459210.html,

基于因子和聚类分析对河南省18地市的综合经济实力评价

作者:陈金曼

来源:《经济研究导刊》2013年第06期

摘要:作为国家战略中第四大经济区——中原经济区的主要省份,河南省地处中原腹

地,是中国经济大省、工业大省、食品工业大省、国家战略综合交通枢纽。虽然河南整体的资源能源十分丰厚,但是河南18地市因其优势不同,综合经济实力相距甚远。因此,对18地市的综合实力进行评价,明确地区发展的程度和面临的问题,在当前具有很重要的意义。通过SPSS因子和聚类分析方法,为18地市进行综合实力评价和分类,并提出相关建议。

关键词:河南省;综合实力评价;因子;聚类分析

中图分类号:F22 文献标志码:A 文章编号:1673-291X(2013)06-0156-02

一、指标体系的建立

文章根据相关文献资料,结合河南省内实际,充分考虑到经济数据的复杂性和多样性,一共选取了8 个指标系统地描述了河南各市经济发展的现状,分别是:职工平均工资X1(元)、固定投资金额 X2(万美元)、财政一般预算收入 X3(万元)、工业总产值 X4(万元)、社会消费品零售总额 X5(万元)、第三产业增加值X6(万元)、第一产业增加值X7(万元)、公路通车里程 X8(公里),利用这8个指标建立评价模型(具体数据来源于《河南统计年鉴 2011》)。

二、因子分析

在对经济进行分析时,选择的数据虽然包括了必要的内容,但由于该种数据的特殊性,也使分析难度增加。举例子说,数据在某些情况下显示的信息可能是相同的,这时需要避免相关性。有一个方法可以解决这种情况,并且缺失的信息可能很少,这就是因子分析。原理是把变量减少,但是信息量不减少,集中为几个重要的因子,也就不影响下一阶段的分析了。对8个变量用SPSS软件检测,结果显示它们之间具有高度相关性,这就为因子分析提供基础。下一步将得到总方差能力解释表,以及相关系数矩阵的全部特征值、方差贡献率、累计方差贡献率、未经旋转提取因子的载荷平方和等信息。其中两个最大的特征值分别为5.169 和2.162,

且累计贡献率已达 91.64 3%,故提取两个公共因子 F1、F2。

因子的协方差阵显示,所得的两个公因子线性无关,达到了因子分析的目的,那么下一步得到旋转后的空间成分图(见图 1)可以发现:

因子分析和K均值聚类分析

基于因子分析和K均值聚类法对河南省经济发展水平研 究 一、因子分析的基本概念 1.1、引言 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen 等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善,它是多元统计分析中典型方法之一。 因子分析也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探究观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个“抽象”的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。 因子分析的内容非常丰富,常用的因子分析类型是R型因子分析和Q型因子分析。R型因子分析是对变量作因子分析,Q型因子分析是对样品作因子分析。而本文侧重讨论R型因子分析。 1.2、因子分析模型 因子分析模型中,假定每个原始变量由两部分组成:公共因子和特殊因子。公共因子是各个原始变量所共有的因子,解释变量之间的相关关系。特殊因子顾名思义是每个原始变量所特有的因子,表示该变量不能被公共因子解释的部分。原始变量与因子分析时抽出的公共因子的相关关系用因子负荷表示。 常用的因子分析类型是R型因子分析和Q型因子分析。 (1). R型:从变量的相关阵出发,找出控制所有变量的几个公共因子,

用以对变量或样本进行分类。 (2). Q 型:从样本的相相似据阵出发,找出控制所有样本的几个主要因素。 (一)R 型因子分析的数学模型 R 型因子分析中的公共因子是不可以直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即 i m im i i i F a F a F a X ε++++= 2211 ,p i ,2,1= 上式中的m F F F ,,21称为公共因子,i ε称为i X 的特殊因子。该模型可用矩阵表示为 ε+=AF X 即 这里 ),(21212222111211m pm p p m m A A A a a a a a a a a a A =??????????????= ??????????????=p X X X X 21, ?????? ??????=m F F F F 21, ??????????????=p εεεε 2 1 且满足: (1)p m ≤; (2)0),cov(=εF ,即公共因子与特殊因子是不相关的; 1111122112211222221122m m m m p p p pm m p X a F a F a F X a F a F a F X a F a F a F εεε=++++??=++++????=++ ++ ?

主成分分析、聚类分析、因子分析的基本思想及优缺点

主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计) 注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法; 2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分; 3.主成分分析不要求数据来源于正态分布; 4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。 优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。 缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。 聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。 注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法要求分析人员事先知道样品分为多少类;

主成分分析、聚类分析、因子分析的基本思想及优缺点

注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类; 2. K-均值法要求分析人员事先知道样品分为多少类; 3. 对变量的多元正态性,方差齐性等要求较高。应用领域:细分市场,消费行为划分,设计抽样方案等 优点:聚类分析模型的优点就是直观,结论形式简明。 缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密 的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。 因子分析:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子

分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系),就是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。 注意事项:5. 因子分析中各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 应用领域:解决共线性问题,评价问卷的结构效度,寻找变量间潜在的结构,内在结构证实。 优点:第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。 缺点:在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。 判别分析:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最

多元数据处理——因子分析法

多元数据处理 ---因子分析方法 多元数据处理主要包括多元随机变量,协方差分析,趋势面分析,聚类分析,判别分析,主成分分析,因子分析,典型相关分析,回归分析以及各个分析方法的相互结合等等。本文主要针对其中的因子分析方法展开了论述,并举了一个因子分析法在我国房地产市场绩效评价中的应用实例。 第一章因子分析方法概述 1.1因子分析的涵义 为了更全面和准确的测量和评估对象的特征,在实际的应用中,我们往往尽可能多的选用特征指标进行系统评估,选取的指标越多,就越能全面、客观的反映评价对象的特征。选取众多指标的同时也带来了统计分析的困难:一、不同的指标,不同重要程度需要赋予不同的权重,而靠主观的评价避免不了一些失误与错误。二、收集到的指标之间可能存在较大的相关性,大量收集指标带来了人力、物力和财力的浪费。而因子分析方法则较好的解决了上述问题。 因子分析[1]是一种多元统计方法,该方法起源于20世纪初Karl Pearson 和Charles Spearman 等人关于心理测试的统计分析,它的核心是用最少的相互独立的因子反映原有变量的绝大部分信息。[2]通过分析事物内部的因果关系来找出其主要矛盾,找出事物内在的基本规律。 因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但是,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,使不同组内的变量相关性较低[3]。对于所研究的问题就可试图用最少个数的所谓因子的线性函数与特殊因子之和来描述原来观测的每一变量[4]。因子变量的特点:第一,因子变量的数量远小于原指标的数量,对因子变量的分析能够减少分析的工作量;第二,因子变量不是原有变量的简单取舍,而是对原有变量的

基于因子分析和聚类分析的客户偏好探究

基于因子分析和聚类分析的客户偏好探究 一文献综述 二十世纪五十年代中期,美国学者温德尔史密斯提出了顾客细分理论。该理论指出,顾客由于其文化观念、收入、消费习俗等方面的不同可以分为不同的消费群体。企业在经营中应该针对不同的顾客提供针对性的服务,这样才能够利用有限资源进行有效的市场竞争。对顾客的细分从方法上讲有根据人口特征和购买历史的细分和根据顾客对企业的价值即基于顾客的消费金额、消费频率的细分。本文的细分是基于购买历史和人口特征的聚类分析。饭店作为一个古老的服务行业,在现阶段的高度竞争市场下的发展趋势最重要的方面便是服务趋于个性化,所以针对饭店的消费群体特征的聚类可以对饭店进行定位,在此基础上通过分析目标客户群体对消费质量评价的最主要影响因素可以达到其服务个性化的目标。波特把顾客的价值定义为买方感知性与购买成本的一种权衡。对顾客的个性化服务增加了买方的感知度从而加大了他们愿意为此付出的成本,于是饭店便可以增加营业额。 聚类分析是把研究对象视作多维空间中的许多点, 并合理地分成若干类,即一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。1故聚类算法是对顾客进行分析的一个有效方式。在聚类分析的众多算法中因子分析是研究如何以最少的信息丢失, 将众多原始变量浓缩成少数几个因子变量, 以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。2而典型的k-means算法以平方误差准则较好地实现了空间聚类,对于大数据集的处理效率较高。3在对顾客细分相关文献的研究过程中,主要运用的方法有神经网络,分层聚类,因子分析等方法。比如,在关于网络青少年用户的分类中,作者用层次聚类的方法,通过对青少年年龄,性别,民族,网络可得性,父母的观点等变量等变量定义不同的上网动机,在此基础上对其进行了分类。而在研究人寿保险持有者未来购买基金支持寿险可能性的文章中,通过灰度聚类和神经网络利用消费者的基本信息,财产地位信息,风险承受程度将消费者分为了忠实客户和非忠实客户。在对客户忠诚度的聚类中,作者用RFM的商业模型用DBI确定了Kmeans的最优K值,并最终用kmeans对客户忠诚度进行了聚类。 经过综合分析,我们选择了这两种方法处理顾客数据和饭店的基本资料。即,通过 k-means对客户进行聚类后通过因子分析分析不同类别客户的评价影响因素。 为分析每类客户倾向的饭店特征,本文根据客户聚类结果对饭店数据进行筛选。由于饭店部分属性之间具有相关性,本文采用因子分析法挖掘其“根本属性”,之后对饭店数据进 1李蓉, 李宇. 基与主成分分析与聚类分析方法的我国西部区域划分问题的研究. 科技广场, 2李新蕊.主成分分析、因子分析、聚类分析的比较与应用. 山东教育学院学报. 3杨善林.kmeans 算法中的k 值优化问题研究系统工程理论与实践

SPSS案例 因子分析结果聚类

对因子分析结果进行聚类分析 一、指标选取 由因子分析结果可得,我国城市设施可以由三个方面来综合体现。因子 1主要解释的是城市用水普及率,每万人拥有公共交通车辆,命名为保障因子;而因子 2 主要解释的是人均城市道路面积,人均公园绿地面积3个指标,命名为环境因子,而因子 3主要解释的是每万人拥有公共厕所,命名为卫生因子。以全国31个城市为研究对象,以这三个因子为指标进行聚类分析。 地区F1 F2 F3 北京 2.36728 -1.68575 0.91094 天津 1.35165 0.00992 -0.9577 河北0.62336 1.34702 0.93879 山西-0.0897 -0.25653 -0.25885 内蒙古-1.65337 1.15093 2.04044 辽宁0.45876 -0.3989 -0.50817 吉林-0.8115 -0.24987 0.85291 黑龙江-1.14711 -0.30999 2.50788 上海 1.11609 -2.02566 -0.84024 江苏0.87137 1.43234 0.72032 浙江 1.03937 0.57022 1.09306 安徽-0.12794 0.75959 -0.70182 福建0.75177 0.10651 -0.3275 江西0.09848 0.64879 -0.82126 山东0.74226 2.18502 -0.99359 河南-1.37868 -0.88058 0.29946 湖北0.36699 -0.08188 -0.31494 湖南-0.2581 -0.54059 -0.89428 广东0.42696 0.31341 -0.8834 广西-0.61419 0.15371 -0.78088 海南-0.05918 0.84454 -1.28128 重庆-0.71603 1.09208 -1.16201 四川-0.55238 -0.47152 0.09303 贵州-1.62862 -1.86191 -0.88865 云南-1.01009 -0.63952 -0.7554 西藏-1.17799 -0.0862 0.38722 陕西0.51087 -0.2481 0.80618 甘肃-1.28138 -0.90858 -0.57849 青海 1.27055 -0.97516 1.7782 宁夏-0.39119 1.45719 0.34234 新疆0.90167 -0.45055 0.1777

数学建模模拟题,图论,回归模型,聚类分析,因子分析等 (48)

第11章第2题 摘要 本题分析4 种化肥和3 个小麦品种对小麦产量的影响,以及二者交互作用对小麦产量的影响,可视为两因素方差分析,即化肥和小麦品种两个因素,4种化肥可看作是化肥的四个不同水平,3个小麦品种也可以看作是小麦品种的三个不同水平。 试验的目的是分析化肥的四个不同水平以及小麦品种的三个不同水平对小麦产量有无显着性影响。 关键词:方差分析显着性化肥种类小麦品种

一.问题重述 为了分析4 种化肥和3 个小麦品种对小麦产量的影响,把一块试验田等分成36个小块,分别对3种种子和四种化肥的每一种组合种植3 小块田,产量如表1所示(单位公斤),问不同品种、不同种类的化肥及二者的交互作用对小麦产量有无显着影响。 二.问题分析 本题意在分析四种化肥和三种小麦品种对小麦产量的影响,以及二者交互作用对小麦产量的影响,为两因素方差分析问题,即化肥和小麦品种两个因素,4种化肥可看作是化肥的四个不同水平,3个小麦品种也可以看作是小麦品种的三个不同水平。通过对这两种因素的不同水平及交互作用的分析,从而分析 4 种化肥和3 个小麦品种对小麦产量的影响。 三.模型假设 1.假设只有化肥种类和小麦品种两个因素,其他因素对试验结果不构成影响。 2.假设不存在数据记录错误。 3.假设每一块试验田本身各项指标相同,不会影响结果。 四.符号说明 数字1,2,3,4——不同的化肥种类 数字1,2,3——不同的小麦品种 五.模型建立 将化肥种类和小麦品种视为两个因素,四种化肥种类看作是化肥种类的四个不同水平,三个小麦品种看作是小麦品种的三个不同水平,将表1的数据进行整理,如表2所示。

六.模型求解 将表2数据导入到spss软件中,进行两因素方差检验,得到结果如下:表3

基于聚类_因子分析的科技评价指标体系构建_顾雪松

第28卷 第4期2010年4月科 学 学 研 究 S t u d i e s i nS c i e n c e o f S c i e n c e V o l .28N o .4 A p r .2010   文章编号:1003-2053(2010)04-0508-07 基于聚类-因子分析的科技评价指标体系构建 顾雪松,迟国泰,程 鹤 (大连理工大学管理学院,辽宁大连116024) 摘 要:根据“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展”的科学发展观的内涵,从科技投入、科技产出、科技对经济与社会的影响三个方面海选科学技术评价指标,利用R 聚类与因子分析相结合的方法定量筛选指标,构建了科学技术综合评价指标体系。本文的创新与特色:一是通过R 聚类将同一准则层内的指标分类,使不同的类代表科技评价的不同方面。二是通过因子分析筛选出各个类中因子载荷最大的指标、并剔除其他指标,既保证了筛选出的指标在所在类别中对评价结果影响最显著、又避免了同一类指标的信息重复。三是研究结果表明,最终建立的指标体系用18%的指标反映了98%的原始信息。四是通过科技进步贡献率、万元G D P 综合能耗等指标反映了全面、协调与可持续发展的科学发展内涵。五是在国际权威机构典型观点高频指标基础上进行客观数据筛选的指标体系,兼具专家知识和客观实际的双重信息。 关键词:科技评价体系;科技评价指标;科学发展;指标体系中图分类号:N 945.16;F 204 文献标识码:A 收稿日期:2009-06-11;修回日期:2009-10-19 基金项目:国家社会科学基金重大项目(06&Z D 039);大连理工大学人文社会科学研究基金重大项目(D U T H S 2007101) 作者简介:顾雪松(1984-),男,辽宁抚顺人,硕士研究生,研究方向为复杂系统评价。 迟国泰(1955-),男,黑龙江海伦人,教授、博士生导师,博士,研究方向为复杂系统评价。 程 鹤(1983-),女,吉林松原人,博士研究生,研究方向为复杂系统评价。 科学技术评价指标体系的构建是根据“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展”的科学发展观的内涵,筛选出对科学技术评价有重要影响的代表性指标。建立合理的指标体系是科学技术评价的关键。如果指标体系不合理,则无论采用什么评价方法,评价结果都不会有任何意义。 (1)科学技术评价指标体系的研究现状一是国外权威机构的评价指标体系。代表性的有经济合作与发展组织(O E C D )[1] 、瑞士洛桑国际管理研究院(I M D )[2] 、世界银行(W o r l dB a n k )[3] 等建立的科学技术评价指标体系。 二是国内权威机构的科技评价指标体系。代表性的有中国科学技术部建立的科技发展评价指标体系 [4] 。 以上两类指标体系虽然权威性强,但是偏向于 宏观层面各个国家科学技术综合竞争力的评价,不适合不同一国之内不同地区微观层面的评价。 三是学术文献整理得出的评价体系。代表性的 有唐炎钊建立的区域科技创新评价指标体系[5] 。 吴强等用文献聚合分析建立的科技评价指标体 系 [6] 。T i s d e l l C l e m 等针对中国的科技体制改革建 立的科技评价指标体系[7] 。S h i n i c h i K o b a y a s h i 等在 日本建立的科技评价指标体系[8] 。H a r i o l f G r u p p 等 建立的评价国家科技政策的指标体系[9] 。 这类指标体系存在反映同一科技信息的多个重复指标,指标体系庞杂。 (2)科学技术评价指标筛选方法的研究现状一是基于专家经验的主观筛选方法。孙兰学从科学技术评价的内涵出发对科技创新评价指标进行筛选 [10] 。专家主观筛选法存在的问题是单纯依靠 指标的含义和个人经验,主观随意性强。 二是客观的评价指标筛选方法。范柏乃等对城市技术创新能力评价指标进行筛选[11] 。郭冰洋筛 选农业科技现代化评价指标 [12] 。赵金楼等建立了 科技创新型企业评价指标阶段式综合筛选方法[13] 。 客观筛选法存在的问题是过度依赖于指标数据,忽 略了指标的实际含义。 DOI :10.16192/j .cn ki .1003-2053.2010.04.021

使用SPSS软件进行因子分析和聚类分析的方法

使用SPSS软件进行因子分析和聚类分析的方法 一、方法原理 1.因子分析(FactorAnalysis ) 因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。 我们在多元分析中处理的是多指标的问题,观察指标的增加是为了使研究过程趋于完整,但由于指标太多,使得分析的复杂性增加;同时在实际工作中,指标间经常具备一定的相关性,使得观测数据所放映的信息有重叠,故人们希望用较少的指标代替原来较多的指标,但依然能放映原有的全部信息,于是就产生了因子分析方法。 2.聚类分析(ClusterAnlysis ) 聚类分析是根据事物本身特性来研究个体分类的统计方法,是按照物以类聚的原则来研究的事物分类。 3.市场细分方法的流程图

1理■業2凳| 1因子A 因孑A 1園不&A 1…因€ i zld W余五头冒卓巨云奈蓉跻门彳耳字

、实证分析

总人口d生产总值 〔亿J 消费忌霰 〔亿) 人均年工資 (千) 年度总储番 额丿忑亿 年屢阳政 总收入/亿 1启东币U4 33 153 63 50.27io. as ⑵551O.02 2江郡币10S. 69139. ZB 43.3610. &4119.4211用3丹阳币80. 2E 174 T546. 0113.50 95 81 16.62 4如皋市143 S7 他.7& 37.3611.M33 18gm 5Xft市154. 99103. 29 26.00 10.3T 76.61 7.K 6东台市116. 24135 03 36.02 101.60 35.39 3.30 7 如东县109. 36 102. 57 36.8011.&£33.68 3.37 fi沐阳县174. 54 87. 05 21.35 9.15 空⑷ 3 81 Q邳州市158 0492. 6323.798.664J0.24S.70 10海妄县95. 5493 54 26.4411.5S111.7& 8.51 11油县119. 5086. 60IB. 53 8.8453.51 5. W IL姜堰市90. TO36. 33 31.51 10.96 76.40 3.S2 13 射阳县104. TO96. 15 25.509.60 46.43 5 90 14105. 0073. 50 1^.70g.2S40.61 3 85 15丈丰市73. 3T go. so 21芒一9.8€53 33& 31 1&91. gg S7. 8&20.35 9.7S 47.39 4.83 17建湖县79. L2ei. az 23.269.5146.£1 5.82 10 东海县114. 35 5S 2816.24 a.24S8.O4 3.00 10高邯市03 06 TO. SI 20.95 10.2051.53 5 5C 20107.筍SI. 73 19.29 9.5627.4T 3 0E 21丰县LOQ. 0054 2016.80 8.2S28.8& 2 53 22103. DO56. 70 14 60 9 3927 19 3.00 23琵都县35. 0090. 6022.009,7S12.75 5.01 24枚征市50. 35724Q29.0014.56S2 35 11 2S £5m洪103. 00sa go 12.30T.9E22.0& 3 ZE新沂市S5. GO54 £01T.S0 3 31 Z6 15 3 33 2T谨水县103. 0052. 60 14. TO S.D3 1^.41 2.51 2?谨云县107. 23 10. 02 14.51 7.95 1^.65 1 97 29杼中币27 2480. Id i甘.1813.坨51.22 8.31 ?0肝胎县T3. 2256. 6513^810.00 le.^r 3.06 31踝水县40. E3&】,E5 19.71 13. 9T Z2.23 6. H 芳曜南72. T1 瓯470S6 T .95 11.53 2 W 33响水县57. 00瓯47 a. 9T 3.94 15.3& 2.04 34金湖县36. 0431. 4510.409.3517.5& 2.7^

(整理)因子分析与聚类分析案例.

1 因子分析与聚类分析理论简介 1.1 因子分析法 因子分析法是一种通过分析多个变量间协方差矩阵(或相关系数矩阵)的内部依赖关系,找出能代表所有变量的少数几个随机变量的计量分析方法。其中,找出的几个随机变量是不可测量的,将其称为公因子。每个公因子之间是互不相关的,所有变量都可以由这几个公因子的线性表示。因子分析通过减少变量的数目,用少数因子代替所有变量去分析整个经济问题,大大简化了现实分析过程。 假设有N 个样本,P 个指标,()T P X X X X ,,,21???=是随机向量,需要寻找的公 因子是()T m F F F F ,,,21???=,则将模型 112121111ε++???++=m m F a F a F a X 222221212ε++???++=m m F a F a F a X ... p m pm p p p F a F a F a X ε++???++=2211 称为因子模型。将矩阵() ij a A =称为因子载荷矩阵,将ij a 称为因子载荷(Loading ),因子载荷的实质是公因子Fi 与变量Xj 的相关系数。其中,ε为特殊因子,代表公因子以外的影响因素,在实际分析时一般忽略不计。 对于需要求出的的公因子,其实际含义取决于该公因子在哪些变量上有较大的载荷。但一般情况下,初始因子模型的因子载荷矩阵都比较复杂,不利于因子的解释。因此可进一步通过因子旋转,给出对各公因子更加合理明显的解释。 公因子求出后,可以进一步用回归估计等方法求出各个公因子得分的数学模型,将其表示成变量的线性形式,从而计算求出得分。模型如下: n in i i i X b X b X b F +???++=2211 (i = 1,2,...,m ) 1.2 层次聚类法 聚类分析的实质是按照距离的远近将数据分为若干个类别,以使得类别内数据的“差异”尽可能小,类别间的“差异”尽可能大。 “差异”的描述是通过距离或相似性的方法来描述。在统计学中最常用的是距离表达式欧几里得距离,对于两条数据),,(111z y x 和),,(222z y x ,欧几里得距离的计算公式是: 221221221)()()()2,1(z z y y x x Euclid -+-+-= 本文应用的是聚类分析法中的层次分析法,选用的是欧几里得距离的计算方法。 层次分析法通过把距离接近的数据一步一步归为一类,直到数据数据完全归为

聚类分析和因子分析在股票研究中的应用.

上海理工大学学报 第24卷第4期 J. University of Shanghai for Science and Technology Vol.24 No.4 2002 文章编号: 1007-6735(200204-0371-04 聚类分析和因子分析在股票研究中的应用 柯冰, 钱省三 (上海理工大学管理学院, 上海 200093 摘要: 选取9项主要财务指标,对汽车及配件行业19家上市公司进行了聚类分析和因子分析. 研究结果表明,两种分类方法都能把上市公司区分为蓝筹股、绩优股、一般股和劣质股,与公司的实际情况相符;而且因子分析将财务指标综合为规模效益综合因子、投资效率和主营业务因子3个综合变量,为公司的分类和评估提供了很好的依据. 关键词: 聚类分析; 因子分析; 股票研究中图分类号: O 212.4 文献标识码: A Application of cluster and factor analysis to stock research KE Bing , QIAN Xing-san (College of Management , University of Shanghai for Science and Technology , Shanghai 200093, China Abstract : 9 financial ratios from 19 auto manufacturing listed corporations have been studied by means of cluster and factor analysis. It pointed out that good results in classification can be got by any one of the both mothods and they are in good agreement with the practical situations. Moreover, 3 synthetic factors are extracted from the ten variables: the first is related to the scale and benefit of the corporation, the second is

(完整版)主成分分析与因子分析的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关.因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法. 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似. 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益. 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度. 聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的

因子分析和聚类分析实例解译

地球化学数据 因子分析和聚类分析实例解译 编写人:刘红杰 QQ:498236930 内蒙古第三地质矿产勘查开发院

第*节元素组合(元素的共生组合特征)及分类特征 元素组合是元素亲合性在地质体内的具体表现,而元素亲合性又与地质环境有关[16]。 确定成矿及伴生元素的组合特征是确定成矿最佳地球化学标志元素组合的前提,为了研究 本区元素的共生组合规律和区域成矿的特点,我们对全区的样品进行了相关分析,聚类分析 和因子分析。具体结果如下: 一、相关分析 作为地质作用的微观结果,地球化学信息必然与地质信息相关连。相关分析是一种简单而直接的研究元素亲合性的方法。本次研究对所测13个元素进行了相关分析,用新疆金维 软件计算了各元素之间的相关系数,计算之前首先对原始数据进行标准化,计算结果见表1。 表1 阿尔山市三十公里等三幅1:5万化探相关系数矩阵 Pb Mn Cu Sn Mo Ag Zn Co W As Bi Hg Au Pb 1 0.2786 0.0813 0.1417 0.191 0.358 0.4656 -0.0455 0.1938 0.047 0.1198 0.0616 0.0054 Mn 1 0.1315 0.1385 0.0768 0.195 0.4076 0.2994 0.098 0.0991 0.0339 0.0751 0.0012 Cu 1 -0.0189 0.0198 0.2198 0.2738 0.4897 -0.0296 0.0644 0.0413 0.0192 0.1754 Sn 1 0.2043 0.133 0.1401 -0.0795 0.3298 0.046 0.1488 0.0452 -0.0166 Mo 1 0.1883 0.067 -0.0397 0.2436 0.201 0.2649 0.1648 0.0788 Ag 1 0.2594 -0.0032 0.1693 0.1534 0.2909 0.2333 0.1169 Zn 1 0.2384 0.1364 0.0191 0.0784 0.0269 0.007 Co 1 -0.1361 0.0544 -0.0401 -0.0383 -0.0113 W 1 0.1694 0.1807 0.0779 0.0145 As 1 0.0331 0.0308 0.0638 Bi 1 0.7183 -0.0082 Hg 1 0.0275 Au 1 由表1可知:Pb与Zn、Ag、Mn呈正强相关;W与Mo、Sn呈明显正相关. Bi与Mo、Ag 元素之间呈正相关, Hg、Bi元素呈显著正相关。Co与Cu、Zn、Mn之间相关性也较好. 二、聚类分析 聚类分析以变量之间的相似程度为基础,将变量分成不同级别的类或点群,直观地对变量进行分类。 据元素聚类谱系图(图)可见R=0.2783为界可分六簇。 第一簇Pb、Zn、Mn、Ag:为一组低中温、中高温元素组合,Pb与Zn密切相关,反映Pb、Zn、Mn、Ag元素的富集主要与中低温热液成矿作用有关,组合异常的出现是测区寻找 Pb、Zn多金属矿床的重要地球化学找矿标志。

聚类分析、判别分析、主成分分析、因子分析

聚类分析、判别分析、主成分分析、因子分析 主成分分析与因子分析的区别 1. 目的不同:因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。 2. 线性表示方向不同:因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。 3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。 5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。 6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS 根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。 7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。 1 、聚类分析 基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。

主成分分析与因子分析的优缺点讲课稿

主成分分析与因子分析的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关. 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子 变量具有较强的可解释性的一种多元统计分析方法. 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似. 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的 联系,以期为更好地利用这些高级统计方法为研究所用有所裨益. 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息, 变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量 比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.

聚类分析,因子分析

主成分分析,聚类分析,因子分析的基本思想以及他们各自的优缺点。 主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。 聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ]。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。 (二) 不同之处

数学建模聚类分析因子分析实例

多元统计分析中的降维方法在四川省社会福利中的应用 由于计算机的发展和日益广泛的使用,多元分析方法也很快地应用到社会学、农业、医学、经济学、地质、气象等各个领域。在国外,从自然科学到社会科学的许多方面,都已证实了多元分析方法是一种很有用的数据处理方法;在我国,多元分析对于农业、气象、国家标准和误差分析等许多方面的研究工作都取得了很大的成绩,引起了广泛的注意。在许多领域的研究中,为了全面系统地分析问题,对研究对象进行综合评价,我们常常需要考虑衡量问题的多个指标(即变量),由于变量之间可能存在着相关性,如果采用一元统计方法,把多个变量分开,一次分析一个变量,就会丢失大量的信息,研究结果也会偏差很大。因此需要采用多元统计分析的方法,同时对所有变量的观测数据进行分析。多元统计分析就是一种同时研究多个变量之间的相互关系,经过对变量的综合处理,充分提取变量之间的信息,进行综合分析和评价的统计方法。多元统计分析法主要包括降维、分类、回归及其他统计思想。 一.多元统计分析方法中降维的方法 1.概述 多元统计分析方法是同时对多个变量的观察数据做综合处理和分析。在不损失有价值信息的情况下,简化观测数据或数据结构,尽可能简单地将被研究对象描述出来,使得对复杂现象的解释变得更容易些。同时,采用多元统计分析中的聚类分析或判别分析可以对变量或样品进行分类与分组。根据所测量的特征和分类规则将一些“类似的”对象或变量分组。多元统计分析也可以研究变量间依赖性。即对变量间关系的本质进行研究。是否所有的变量都相互独立?还是一个变量或多个变量依赖于其他变量?它们又是怎样依赖的?通过观测变量数据的散点图,我们可以建立多元回归统计模型,确定出变量之间具体的依赖关系,进而可以根据某些变量的观测值预测另一个或另一些变量的值对事物现象的发展作预测。最后我们需要构造假设,并对所建立的以多元总体参数形式陈述的多种特殊统计假设进行检验。 在多元统计分析方法中数据简化或结构简化,实质上就是数学中的降维方法。多元统计分析中的降维方法主要包括聚类分析、判别分析、主成分分析、因子分析、对应分析和典型相关分析等几种方法。其中主成分分析和因子分析是在作综合评价方面应用最广泛、较为有效的方法。本文主要介绍这两种多元统计分析方法的应用。 2 主成分分析 2.1主成分分析的基本思想 在大部分实际问题中,需要考察的变量多,变量之间是有一定的相关性的,主成分分析就是以损失很少部分信息为代价,保留绝大部分信息的前提下, 将原来众多具有一定线性相关性的p个指标压缩成少数几个互不相关的综合指 标(主成分),并通过原来变量的少数几个的线性组合来给出各个主成分的具有实际背景和意义的解释。由于主成分分析浓缩了众多指标的信息,降低了指标的

相关文档
最新文档