西部地区文化竞争力比较研究_基于因子分析与聚类分析法

西部地区文化竞争力比较研究_基于因子分析与聚类分析法
西部地区文化竞争力比较研究_基于因子分析与聚类分析法

2009年第2期青海社会科学2009年3月

N o 2,2009Q ingha i Socia l Sciences M arch,2009

西部地区文化竞争力比较研究

基于因子分析与聚类分析法

谭志云

摘要!本文从区域文化竞争力指标体系建构入手,对西部十二个省、直辖市、自治区的文化竞争力状况进行了分析。因子分析结果表明,四川、陕西、重庆的文化竞争力最强。聚类分析表明,四川、广西、重庆、云南等地区文化竞争力内部结构相近,贵州、西藏单独为一类,其他地区为一类。在此基础上,提出了西部地区提升文化竞争力的三大对策。

关键词!西部地区;文化竞争力;因子分析;聚类分析

中图分类号!G122 文献标识码!A 文章编号!1001 2338(2009)02 0044 04

随着现代科技的飞速发展和知识经济时代的来临,文化已渗透到社会生活的各个领域。进入21世纪,英国、美国、日本、韩国以及我国北京、上海、深圳文化产业的崛起,昭示知识经济进入?文化化#的新阶段。文化与经济、政治相互交融,与科技的结合日益紧密,在综合国力竞争中的地位和作用更加突出,已成为衡量一个国家综合实力强弱的重要尺度之一。研究表明,?十一五#期间,从各地发展的战略来看,?文化强省#、?文化强区#、?文化强市#建设已经成为很多地区今后发展的一个重要目标。西部地区地处中国大陆西南、西北,幅员辽阔,自然资源多样,历史人文资源丰富,但是环境相对脆弱,大部分地区属于国家限制开发的区域。相对东中部地区来说,西部地区经济发展水平滞后,资金、人才、技术等要素比较缺乏。在这种情境下,通过发展文化产业、文化事业,增强西部地区的文化竞争力,从而在保护好自然环境的前提下实现又好又快的发展的目标,是西部地区发展的必然选择。

一、文化竞争力指标评价体系的建构

提升文化竞争力就是通过文化的发展来带动整个地区经济社会的发展。区域文化竞争能力的相对强弱只能通过区域之间的横向比较才能得出。因而,建立区域文化竞争力指标体系的目的在于定量地测度不同区域的文化竞争优势和竞争劣势,从而对不同区域文化竞争力的变化情况及其影响因素进行比较分析。近年来,虽然学界、政府部门反复使用文化竞争力这个概念,但是,到目前为止,尚无对它的内涵有比较清晰的界定。文化竞争力作为竞争力研究中一个崭新的领域,其研究尚显薄弱,仅在其它竞争力理论中有所涉及,如世界经济论坛(W EF)和瑞士洛桑国际管理发展学院(I M D)的?国际竞争力理论#、以熊?彼特理论为基础的技术创新理论、以诺思为代表的制度创新竞争力优势理论、美国学者迈克尔?波特的?国家竞争优势理论#和国内学者倪鹏飞的?城市竞争力理论#。[1]

与此相关的还有文化产业竞争力概念。一般认为,文化产业竞争力既是文化产业现实发展能力,也是文化产业的可持续发展能力。作为中观层次的竞争力,文化产业竞争力与国家竞争力、企业竞争力之间具有相互影响和相互作用的关系。文化企业竞争力是构成文化产业竞争力的基础和根本条件,而国家竞争力则会影响文化产业竞争力和企业竞争力的成长。[2]在开放经济条件下,文化产业竞

本文为国家社会科学基金重大项目%经济转轨中的文化体制改革和文化产业发展&(06&ZD027)的部分成果。

争力包括两个方面:一是在国内市场上与外国产品的竞争能力;二是在国际市场上与国外产品的竞争能力。无论在国内市场还是在国外市场,产业竞争的最高层面大都表现为文化的竞争。[3]这些理论对于文化竞争力评价指标体系的建立有着重要的参考意义。结合上述研究,笔者认为,可以从以下几个方面来建立文化竞争力的指标体系:一是系统性的原则。文化是一个复杂的大系统,包括公共文化资源、新闻出版、文化产业、文化创新、民族文化保护、对外文化交流与人才队伍的建设等子系统。评定文化竞争力水平,必须考虑到文化系统的各个组成部分,还要考虑到文化系统的支撑体系,特别是经济基础对文化竞争力的重要影响。二是代表性原则。文化门类众多,涉及面广泛,不能不分主次将区域文化竞争力各方面都包括进来。如果评价指标过于庞杂,就难以抓住区域文化竞争力的主要方面。因此,评价区域文化竞争力,要选择有针对性的一些核心指标进行评价。%国家?十一五#时期文化发展规划纲要&从理论和思想道德建设、公共文化服务、新闻事业、文化产业、文化创新、民族文化保护、对外文化交流、人才队伍等八个方面提出了?十一五#时期文化发展的重心。因此,在评价指标体系建立中,必须以这些方面为重点。三是可计算性的原则。指标必须具有可计算性,也就是说为具备相应的数据支持,不能片面地追求理论层次上的完美。文化竞争力应该分别从一个地区的文化事业发展、文化产业发展、文化人才队伍建设、居民文化消费状况等方面进行建构。

基于上述认识,笔者针对文化竞争力设立的文化产业竞争力评价的指标体系,在尊重前人研究成果的基础上,结合统计指标可获得性原则,选取了适量的指标进行因子分析和聚类分析,从而达到对西部地区的文化竞争力进行定量和定性的分析目的。这一指标体系分为支撑能力层、核心能力层和目的能力层三个等级:支撑能力层主要考虑到经济对文化发展的强有力的支撑作用,揭示一个地区文化发展的经济支撑能力;核心能力层包括一个地区的文化事业、文化产业发展和文化人才建设状况,综合表达该地区文化竞争力的核心水平;目的能力层主要包括一个地区的居民文化消费水平,反映该地区文化建设对群众文化生活提升的影响和总体效果。

表1文化竞争力评价指标体系

一级指标二级指标三级指标

区域文化竞争力核心能力

人均公共图书占有量

报刊发行量

图书发行量

广播覆盖率

电视覆盖率

每百户城镇居民家庭拥有电脑数

文体广播事业费占财政支出比重(%)

文化产业增加值

文化产业增加值占G DP比重(%)

文化、体育、娱乐业从业人数(万)

目的能力

居民文化消费系数

恩格尔系数

支持能力

GDP(亿元)

社会消费品零售总额(亿元)

中外旅游者人次数(万人次)

二、西部地区文化竞争力分析与比较

根据上述指标体系,我们可根据相关数据构建一个西部地区文化竞争力的评价模型,从而清晰地认知西部各省、区文化发展的真实情况。同时,为进一步评价各城市的文化竞争力状况及特征,在对

比分析中,评价模型采用的是因子分析模型与聚类分析模型,并以2007年公布的统计数字为依据,旨在量化分析西部地区文化竞争水平。

KMO(K aiser M eyer O lkin)统计量是用于比较变量间简单相关系数和偏相关系数的指标,其取值在0 1,KMO值越接近于1表明原始变量相关性越强。Bartlett球形检验的原假设是:原始变量的相关系数矩阵是单位阵,即主对角线元素为1,其他元素均为0。本例运用SPSS13 0统计软件,对12个地区的数据进行分析可得KMO值为0 881,根据KMO度量标准可知适合度符合要求。同时,Bart lett球度的检验值为438 252,检验的概率p值为0 000,即假设被拒绝,也就是说,可以认为相关系数矩阵与单位矩阵有显著差异。因此,原变量适合进行因子分析。

表2因子变量解释原有变量总方差表

未经旋转的因子载荷的平方和旋转后因子载荷的平方和

因子

特征值方差贡献率%累计方差贡献率%特征值方差贡献率%累计方差贡献率%

17 66054 71754 7177 36752 62052 620

22 40317 16771 8832 33616 68769 308

31 43110 22482 1081 79212 80082 108

表2的方差解释的结果表明,三个因子的信息容纳量达到了82 108%,基本上保留了原来指标标的信息,因此可以选择3个主因子对原指标进行简化(见表3)。

表3文化竞争力相关指标简化表

未旋转的因子载荷旋转后的因子载荷

123123

人均公共图书占有量-0 4130 614-0 16-0 3640 513-0 421

报刊发行量(亿册)0 924-0 124-0 0740 917-0 0850 162

图书发行量(亿册)0 92-0 1440 1690 86-0 0330 393

广播覆盖率(%)0 6620 593-0 1530 6840 559-0 184

电视覆盖率(%)0 7590 407-0 2890 8070 347-0 234

每百户城镇居民家庭拥有电脑数(台)0 5610 168-0 3180 6180 099-0 229

文体广播事业费占财政支出比重(%)0 204-0 3030 8220 019-0 0320 899

文化产业增加值0 823-0 269-0 1840 841-0 2620 082

文化、体育、娱乐从业者人数(万)0 9220 0470 2920 8370 1860 45

居民文化消费系数0 4580 5840 540 3330 7450 421

恩格尔系数0 113-0 937-0 2220 153-0 9520 101 GDP(亿元)0 9540 0190 0360 9230 0860 227

社会消费品零售总额(亿元)0 942-0 008-0 060 9330 030 143

中外旅游者人次数0 935-0 243-0 1490 943-0 220 13

从表3可以得知,报刊发行量、图书发行量、广播覆盖率、电视覆盖率、每百户城镇居民家庭拥有电脑数、文化产业增加值、文化体育娱乐从业者人数、GDP、社会消费品零售总额、中外旅游者人次数与因子1的相关系数较大,这些指标主要反映了一个地区文化事业、文化产业和经济状况,我们将第一个因子称为文化发展因子。人均公共图书占有量、居民文化消费指数、恩格尔系数与因子2的相关系数较大,这些指标主要反映了一个地区居民文化消费水平,我们将它称为文化消费因子。文体广播事业费占财政支出比重与因子3的相关系数较大,反映的是一个地区文化事业投入水平,我们将它称为公共文化建设投入因子。

根据SPSS软件提供的因子得分系数矩阵计算出各个城市的主因子得分情况(见表4)。

表4因子得分系数矩阵及综合得分

因子1因子2因子3综合得分

四 川2 18057-0 55724-0 224161 03

陕 西0 532461 218341 154840 63

重 庆0 86377-0 07838-1 449820 26

广 西0 59435-0 703960 453550 25

云 南0 70327-0 800470 11990 25

内蒙古-0 148981 38070 241350 18

新 疆-0 257040 89095-0 32167-0 03

甘 肃-0 630280 450471 21019-0 10

贵 州-0 75041-0 937081 62385-0 34

宁 夏-0 809830 66458-0 98991-0 44

青 海-0 953450 39203-1 35523-0 61

西 藏-1 32443-1 91994-0 46291-1 08

从表4各个省(直辖市、自治区)综合得分排名可知,西部地区文化竞争力从强到弱依次为四川、陕西、重庆、广西、云南、内蒙古、新疆、甘肃、贵州、宁夏、青海、西藏。分析结果还表明,文化发展因子对四川、西藏的影响最大,对内蒙古的影响最小。文化消费因子对西藏、陕西和内蒙古的影响最大,对青海的影响最小。公共文化建设投入因子对贵州、重庆的影响最大,对云南、四川等省的影响最小。

从总体上看,我国西部地区的文化竞争力水平呈?阶梯型#结构。聚类分析进一步表明,西部地区十二个省、自治区、直辖市的文化竞争力状况大致可以分成四类:第一类包括四川、广西、重庆、云南等。这类地区的经济发展水平相对较好,图书、报刊发行量较大,文化产业增加值较大,具有较好的文化发展基础。第二类包括陕西、内蒙古、青海、甘肃、新疆、宁夏等。这些地区文化消费水平较高。第三类包括贵州。贵州的公共文化投入水平较高。第四类为西藏。各个指标得分相对较低。

三、结论

文化竞争力既是一个地区文化发展水平的反映,也是该地区经济发展水平的体现。同时,在经济文化一体化的今天,文化与经济发展形成了交互影响。文化的发展离不开经济,经济的发展更离不开文化。换言之,一个地区只有发展好经济,才能更好地发展文化;同时,也只有发展好文化,才能促进经济又好又快的发展。

文化竞争力的提高还依赖于一个地区基础文化建设状况、文化事业的投入状况以及居民的文化消费水平提高等因素,在这些因素中,经济发展水平、基础文化设施建设(包括广播电视的覆盖率、居民拥有电脑数目等)、文化产业发展水平等因素是重中之重。只有通过这些核心因素的建设与提升,才能真正提高该地区的文化竞争力。

有鉴于此,西部各省(直辖市、自治区)要提高自身的文化竞争力,至少要做到以下三点:一是努力提高经济发展水平,完善文化基础设施建设。文化基础设施建设需要政府的大力投入,而这一点与该地区的经济发展水平、政府财政能力是密不可分的。只有经济水平发展了,才能更好地投入。当然,必须强调的是,经济发展水平只是一个相对概念,绝不能一定等到经济发展到某个水平后才进行文化建设。文化建设应该与经济建设同等重要。

二是注重提高居民的文化消费水平。党的十六大以来,中央提出了科学发展观。科学发展强调?以人为本#,就是一切从人民群众的需要出发,促进人的全面发展,实现人民群众的根本利益。文化竞争力水平提高的最终目的是满足人民的文化消费需要,因此,应该把切实提升居民的文化消费水平作为政府文化工作的重点。

三是实现文化创新,加强文化人才队伍的建设。文化发展、文化竞争力水平的提(下转第10页)

利益、社会共同利益、自然的利益统一起来,自觉承担对他人、对社会、对自然的道德义务,寻求人与自然、人与社会之间的利益和谐及人与自我的平衡,以实现人的自由全面和谐发展,其实质是人本伦理思想的具体体现。

参考文献!

[1]蒋正华,李蒙主编 生态健康与科学发展观[M] 北京:气象出版社,2005 196

[2]李劲松 论循环经济伦理学的生成与固本强基[J] 湖南师范大学社会科学学报,2009,(2)

[3]衣俊卿 现代性的维度及其当代命运[J] 中国社会科学,2004,(4):13-22

[4]李林杰,赖雄麟 和平崛起:当代理想人格的建构须促进国家现代化 兼论?高校新主体人格培养模式与民族

精神教育#的总纲并与张华商榷[J] 辽宁教育研究,2004,(7):21-23

[5]田大伦主编 高级生态学[M] 北京:科学出版社,2008 7

[6]林耀华 民族学通论(修订本)[M] 北京:中央民族大学出版社,1997 510

[7]刘湘溶,朱翔等 生态文明 人类可持续发展的必由之路[M] 长沙:湖南师范大学出版社,2003

[8]王如松 生态文明 中国的新追求[N] 人民日报(海外版),2007 11 03(8) 62-63

[9]徐云 绿色新概念 21世纪经济与环境发展大趋势[M] 北京:中国科学技术出版社,2004

[10]吕逸新,栾贻信 循环经济的道德特性和行为方式[J] 生态经济,2007,(7):152-155

[11]马克思 1844年经济学哲学手稿[M] 北京:人民出版社,1985 82

[12]吴季松 循环经济[M] 北京:北京出版社,2003 7

[13]卢风,刘湘溶主编 现代发展观与环境伦理[M] 保定:河北大学出版社,2004 274

[14]彭福扬,刘红玉 论生态化技术创新的人本伦理思想[J] 哲学研究,2006,(8):104-106

作者简介! 李劲松,女,湖南师范大学伦理学研究所伦理学专业博士研究生。研究方向:环境经济政策的伦理审度。

李林杰,男,湖南农业大学资源环境学院农业环境科学与工程专业博士研究生。研究方向:污染系统优化控制、超级杂交稻生态工程。

(上接第47页)升离不开文化的创新、离不开文化人才队伍的建设。文化创新包括文化理论的创新、文化内容的创新、艺术形式的创新、文化管理模式的创新、文化运行机制的创新和文化产业业态的创新。要充分调动和激发文化工作者的积极性、创造性,在创新文化建设新举措上深入思考,增强文化发展意识,提高文化创新能力,推动学习成果向文化建设实践的转化。同时,必须加强艺术专业人才、文化经营人才、文化管理人才的队伍建设,建立以业绩、以艺德为人才的使用标准和评价体系,让真正有才华的人有施展空间。

参考文献!

[1]范玉刚 试析文化产业对提升我国文化竞争力的意义[J] 学习与实践,2006,(11)

[2]花建 文化产业竞争力的内涵、结构和战略重点[J] 北京大学学报(哲学社会科学版),2005,(2)

[3]赵彦云,余毅,马文涛 中国文化产业竞争力评价和分析[J] 中国人民大学学报,2006,(4)

[4]国家?十一五#时期文化发展规划纲要[EB/OL] 中央政府门户网站,https://www.360docs.net/doc/278334502.html,

作者简介! 谭志云,男,南京大学社会学系社会学博士后,南京市社会科学院社会学副研究员。研究方向:社会学。

因子分析和K均值聚类分析

基于因子分析和K均值聚类法对河南省经济发展水平研 究 一、因子分析的基本概念 1.1、引言 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen 等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善,它是多元统计分析中典型方法之一。 因子分析也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探究观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个“抽象”的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。 因子分析的内容非常丰富,常用的因子分析类型是R型因子分析和Q型因子分析。R型因子分析是对变量作因子分析,Q型因子分析是对样品作因子分析。而本文侧重讨论R型因子分析。 1.2、因子分析模型 因子分析模型中,假定每个原始变量由两部分组成:公共因子和特殊因子。公共因子是各个原始变量所共有的因子,解释变量之间的相关关系。特殊因子顾名思义是每个原始变量所特有的因子,表示该变量不能被公共因子解释的部分。原始变量与因子分析时抽出的公共因子的相关关系用因子负荷表示。 常用的因子分析类型是R型因子分析和Q型因子分析。 (1). R型:从变量的相关阵出发,找出控制所有变量的几个公共因子,

用以对变量或样本进行分类。 (2). Q 型:从样本的相相似据阵出发,找出控制所有样本的几个主要因素。 (一)R 型因子分析的数学模型 R 型因子分析中的公共因子是不可以直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即 i m im i i i F a F a F a X ε++++= 2211 ,p i ,2,1= 上式中的m F F F ,,21称为公共因子,i ε称为i X 的特殊因子。该模型可用矩阵表示为 ε+=AF X 即 这里 ),(21212222111211m pm p p m m A A A a a a a a a a a a A =??????????????= ??????????????=p X X X X 21, ?????? ??????=m F F F F 21, ??????????????=p εεεε 2 1 且满足: (1)p m ≤; (2)0),cov(=εF ,即公共因子与特殊因子是不相关的; 1111122112211222221122m m m m p p p pm m p X a F a F a F X a F a F a F X a F a F a F εεε=++++??=++++????=++ ++ ?

主成分分析、聚类分析、因子分析的基本思想及优缺点

主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计) 注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法; 2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分; 3.主成分分析不要求数据来源于正态分布; 4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。 优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。 缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。 聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。 注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法要求分析人员事先知道样品分为多少类;

多元数据处理——因子分析法

多元数据处理 ---因子分析方法 多元数据处理主要包括多元随机变量,协方差分析,趋势面分析,聚类分析,判别分析,主成分分析,因子分析,典型相关分析,回归分析以及各个分析方法的相互结合等等。本文主要针对其中的因子分析方法展开了论述,并举了一个因子分析法在我国房地产市场绩效评价中的应用实例。 第一章因子分析方法概述 1.1因子分析的涵义 为了更全面和准确的测量和评估对象的特征,在实际的应用中,我们往往尽可能多的选用特征指标进行系统评估,选取的指标越多,就越能全面、客观的反映评价对象的特征。选取众多指标的同时也带来了统计分析的困难:一、不同的指标,不同重要程度需要赋予不同的权重,而靠主观的评价避免不了一些失误与错误。二、收集到的指标之间可能存在较大的相关性,大量收集指标带来了人力、物力和财力的浪费。而因子分析方法则较好的解决了上述问题。 因子分析[1]是一种多元统计方法,该方法起源于20世纪初Karl Pearson 和Charles Spearman 等人关于心理测试的统计分析,它的核心是用最少的相互独立的因子反映原有变量的绝大部分信息。[2]通过分析事物内部的因果关系来找出其主要矛盾,找出事物内在的基本规律。 因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但是,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,使不同组内的变量相关性较低[3]。对于所研究的问题就可试图用最少个数的所谓因子的线性函数与特殊因子之和来描述原来观测的每一变量[4]。因子变量的特点:第一,因子变量的数量远小于原指标的数量,对因子变量的分析能够减少分析的工作量;第二,因子变量不是原有变量的简单取舍,而是对原有变量的

基于因子分析和聚类分析的客户偏好探究

基于因子分析和聚类分析的客户偏好探究 一文献综述 二十世纪五十年代中期,美国学者温德尔史密斯提出了顾客细分理论。该理论指出,顾客由于其文化观念、收入、消费习俗等方面的不同可以分为不同的消费群体。企业在经营中应该针对不同的顾客提供针对性的服务,这样才能够利用有限资源进行有效的市场竞争。对顾客的细分从方法上讲有根据人口特征和购买历史的细分和根据顾客对企业的价值即基于顾客的消费金额、消费频率的细分。本文的细分是基于购买历史和人口特征的聚类分析。饭店作为一个古老的服务行业,在现阶段的高度竞争市场下的发展趋势最重要的方面便是服务趋于个性化,所以针对饭店的消费群体特征的聚类可以对饭店进行定位,在此基础上通过分析目标客户群体对消费质量评价的最主要影响因素可以达到其服务个性化的目标。波特把顾客的价值定义为买方感知性与购买成本的一种权衡。对顾客的个性化服务增加了买方的感知度从而加大了他们愿意为此付出的成本,于是饭店便可以增加营业额。 聚类分析是把研究对象视作多维空间中的许多点, 并合理地分成若干类,即一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。1故聚类算法是对顾客进行分析的一个有效方式。在聚类分析的众多算法中因子分析是研究如何以最少的信息丢失, 将众多原始变量浓缩成少数几个因子变量, 以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。2而典型的k-means算法以平方误差准则较好地实现了空间聚类,对于大数据集的处理效率较高。3在对顾客细分相关文献的研究过程中,主要运用的方法有神经网络,分层聚类,因子分析等方法。比如,在关于网络青少年用户的分类中,作者用层次聚类的方法,通过对青少年年龄,性别,民族,网络可得性,父母的观点等变量等变量定义不同的上网动机,在此基础上对其进行了分类。而在研究人寿保险持有者未来购买基金支持寿险可能性的文章中,通过灰度聚类和神经网络利用消费者的基本信息,财产地位信息,风险承受程度将消费者分为了忠实客户和非忠实客户。在对客户忠诚度的聚类中,作者用RFM的商业模型用DBI确定了Kmeans的最优K值,并最终用kmeans对客户忠诚度进行了聚类。 经过综合分析,我们选择了这两种方法处理顾客数据和饭店的基本资料。即,通过 k-means对客户进行聚类后通过因子分析分析不同类别客户的评价影响因素。 为分析每类客户倾向的饭店特征,本文根据客户聚类结果对饭店数据进行筛选。由于饭店部分属性之间具有相关性,本文采用因子分析法挖掘其“根本属性”,之后对饭店数据进 1李蓉, 李宇. 基与主成分分析与聚类分析方法的我国西部区域划分问题的研究. 科技广场, 2李新蕊.主成分分析、因子分析、聚类分析的比较与应用. 山东教育学院学报. 3杨善林.kmeans 算法中的k 值优化问题研究系统工程理论与实践

主成分分析、聚类分析、因子分析的基本思想及优缺点

注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类; 2. K-均值法要求分析人员事先知道样品分为多少类; 3. 对变量的多元正态性,方差齐性等要求较高。应用领域:细分市场,消费行为划分,设计抽样方案等 优点:聚类分析模型的优点就是直观,结论形式简明。 缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密 的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。 因子分析:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子

分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系),就是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。 注意事项:5. 因子分析中各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 应用领域:解决共线性问题,评价问卷的结构效度,寻找变量间潜在的结构,内在结构证实。 优点:第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。 缺点:在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。 判别分析:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最

数学建模模拟题,图论,回归模型,聚类分析,因子分析等 (48)

第11章第2题 摘要 本题分析4 种化肥和3 个小麦品种对小麦产量的影响,以及二者交互作用对小麦产量的影响,可视为两因素方差分析,即化肥和小麦品种两个因素,4种化肥可看作是化肥的四个不同水平,3个小麦品种也可以看作是小麦品种的三个不同水平。 试验的目的是分析化肥的四个不同水平以及小麦品种的三个不同水平对小麦产量有无显着性影响。 关键词:方差分析显着性化肥种类小麦品种

一.问题重述 为了分析4 种化肥和3 个小麦品种对小麦产量的影响,把一块试验田等分成36个小块,分别对3种种子和四种化肥的每一种组合种植3 小块田,产量如表1所示(单位公斤),问不同品种、不同种类的化肥及二者的交互作用对小麦产量有无显着影响。 二.问题分析 本题意在分析四种化肥和三种小麦品种对小麦产量的影响,以及二者交互作用对小麦产量的影响,为两因素方差分析问题,即化肥和小麦品种两个因素,4种化肥可看作是化肥的四个不同水平,3个小麦品种也可以看作是小麦品种的三个不同水平。通过对这两种因素的不同水平及交互作用的分析,从而分析 4 种化肥和3 个小麦品种对小麦产量的影响。 三.模型假设 1.假设只有化肥种类和小麦品种两个因素,其他因素对试验结果不构成影响。 2.假设不存在数据记录错误。 3.假设每一块试验田本身各项指标相同,不会影响结果。 四.符号说明 数字1,2,3,4——不同的化肥种类 数字1,2,3——不同的小麦品种 五.模型建立 将化肥种类和小麦品种视为两个因素,四种化肥种类看作是化肥种类的四个不同水平,三个小麦品种看作是小麦品种的三个不同水平,将表1的数据进行整理,如表2所示。

六.模型求解 将表2数据导入到spss软件中,进行两因素方差检验,得到结果如下:表3

基于聚类_因子分析的科技评价指标体系构建_顾雪松

第28卷 第4期2010年4月科 学 学 研 究 S t u d i e s i nS c i e n c e o f S c i e n c e V o l .28N o .4 A p r .2010   文章编号:1003-2053(2010)04-0508-07 基于聚类-因子分析的科技评价指标体系构建 顾雪松,迟国泰,程 鹤 (大连理工大学管理学院,辽宁大连116024) 摘 要:根据“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展”的科学发展观的内涵,从科技投入、科技产出、科技对经济与社会的影响三个方面海选科学技术评价指标,利用R 聚类与因子分析相结合的方法定量筛选指标,构建了科学技术综合评价指标体系。本文的创新与特色:一是通过R 聚类将同一准则层内的指标分类,使不同的类代表科技评价的不同方面。二是通过因子分析筛选出各个类中因子载荷最大的指标、并剔除其他指标,既保证了筛选出的指标在所在类别中对评价结果影响最显著、又避免了同一类指标的信息重复。三是研究结果表明,最终建立的指标体系用18%的指标反映了98%的原始信息。四是通过科技进步贡献率、万元G D P 综合能耗等指标反映了全面、协调与可持续发展的科学发展内涵。五是在国际权威机构典型观点高频指标基础上进行客观数据筛选的指标体系,兼具专家知识和客观实际的双重信息。 关键词:科技评价体系;科技评价指标;科学发展;指标体系中图分类号:N 945.16;F 204 文献标识码:A 收稿日期:2009-06-11;修回日期:2009-10-19 基金项目:国家社会科学基金重大项目(06&Z D 039);大连理工大学人文社会科学研究基金重大项目(D U T H S 2007101) 作者简介:顾雪松(1984-),男,辽宁抚顺人,硕士研究生,研究方向为复杂系统评价。 迟国泰(1955-),男,黑龙江海伦人,教授、博士生导师,博士,研究方向为复杂系统评价。 程 鹤(1983-),女,吉林松原人,博士研究生,研究方向为复杂系统评价。 科学技术评价指标体系的构建是根据“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展”的科学发展观的内涵,筛选出对科学技术评价有重要影响的代表性指标。建立合理的指标体系是科学技术评价的关键。如果指标体系不合理,则无论采用什么评价方法,评价结果都不会有任何意义。 (1)科学技术评价指标体系的研究现状一是国外权威机构的评价指标体系。代表性的有经济合作与发展组织(O E C D )[1] 、瑞士洛桑国际管理研究院(I M D )[2] 、世界银行(W o r l dB a n k )[3] 等建立的科学技术评价指标体系。 二是国内权威机构的科技评价指标体系。代表性的有中国科学技术部建立的科技发展评价指标体系 [4] 。 以上两类指标体系虽然权威性强,但是偏向于 宏观层面各个国家科学技术综合竞争力的评价,不适合不同一国之内不同地区微观层面的评价。 三是学术文献整理得出的评价体系。代表性的 有唐炎钊建立的区域科技创新评价指标体系[5] 。 吴强等用文献聚合分析建立的科技评价指标体 系 [6] 。T i s d e l l C l e m 等针对中国的科技体制改革建 立的科技评价指标体系[7] 。S h i n i c h i K o b a y a s h i 等在 日本建立的科技评价指标体系[8] 。H a r i o l f G r u p p 等 建立的评价国家科技政策的指标体系[9] 。 这类指标体系存在反映同一科技信息的多个重复指标,指标体系庞杂。 (2)科学技术评价指标筛选方法的研究现状一是基于专家经验的主观筛选方法。孙兰学从科学技术评价的内涵出发对科技创新评价指标进行筛选 [10] 。专家主观筛选法存在的问题是单纯依靠 指标的含义和个人经验,主观随意性强。 二是客观的评价指标筛选方法。范柏乃等对城市技术创新能力评价指标进行筛选[11] 。郭冰洋筛 选农业科技现代化评价指标 [12] 。赵金楼等建立了 科技创新型企业评价指标阶段式综合筛选方法[13] 。 客观筛选法存在的问题是过度依赖于指标数据,忽 略了指标的实际含义。 DOI :10.16192/j .cn ki .1003-2053.2010.04.021

使用SPSS软件进行因子分析和聚类分析的方法

使用SPSS软件进行因子分析和聚类分析的方法 一、方法原理 1.因子分析(FactorAnalysis ) 因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。 我们在多元分析中处理的是多指标的问题,观察指标的增加是为了使研究过程趋于完整,但由于指标太多,使得分析的复杂性增加;同时在实际工作中,指标间经常具备一定的相关性,使得观测数据所放映的信息有重叠,故人们希望用较少的指标代替原来较多的指标,但依然能放映原有的全部信息,于是就产生了因子分析方法。 2.聚类分析(ClusterAnlysis ) 聚类分析是根据事物本身特性来研究个体分类的统计方法,是按照物以类聚的原则来研究的事物分类。 3.市场细分方法的流程图

1理■業2凳| 1因子A 因孑A 1園不&A 1…因€ i zld W余五头冒卓巨云奈蓉跻门彳耳字

、实证分析

总人口d生产总值 〔亿J 消费忌霰 〔亿) 人均年工資 (千) 年度总储番 额丿忑亿 年屢阳政 总收入/亿 1启东币U4 33 153 63 50.27io. as ⑵551O.02 2江郡币10S. 69139. ZB 43.3610. &4119.4211用3丹阳币80. 2E 174 T546. 0113.50 95 81 16.62 4如皋市143 S7 他.7& 37.3611.M33 18gm 5Xft市154. 99103. 29 26.00 10.3T 76.61 7.K 6东台市116. 24135 03 36.02 101.60 35.39 3.30 7 如东县109. 36 102. 57 36.8011.&£33.68 3.37 fi沐阳县174. 54 87. 05 21.35 9.15 空⑷ 3 81 Q邳州市158 0492. 6323.798.664J0.24S.70 10海妄县95. 5493 54 26.4411.5S111.7& 8.51 11油县119. 5086. 60IB. 53 8.8453.51 5. W IL姜堰市90. TO36. 33 31.51 10.96 76.40 3.S2 13 射阳县104. TO96. 15 25.509.60 46.43 5 90 14105. 0073. 50 1^.70g.2S40.61 3 85 15丈丰市73. 3T go. so 21芒一9.8€53 33& 31 1&91. gg S7. 8&20.35 9.7S 47.39 4.83 17建湖县79. L2ei. az 23.269.5146.£1 5.82 10 东海县114. 35 5S 2816.24 a.24S8.O4 3.00 10高邯市03 06 TO. SI 20.95 10.2051.53 5 5C 20107.筍SI. 73 19.29 9.5627.4T 3 0E 21丰县LOQ. 0054 2016.80 8.2S28.8& 2 53 22103. DO56. 70 14 60 9 3927 19 3.00 23琵都县35. 0090. 6022.009,7S12.75 5.01 24枚征市50. 35724Q29.0014.56S2 35 11 2S £5m洪103. 00sa go 12.30T.9E22.0& 3 ZE新沂市S5. GO54 £01T.S0 3 31 Z6 15 3 33 2T谨水县103. 0052. 60 14. TO S.D3 1^.41 2.51 2?谨云县107. 23 10. 02 14.51 7.95 1^.65 1 97 29杼中币27 2480. Id i甘.1813.坨51.22 8.31 ?0肝胎县T3. 2256. 6513^810.00 le.^r 3.06 31踝水县40. E3&】,E5 19.71 13. 9T Z2.23 6. H 芳曜南72. T1 瓯470S6 T .95 11.53 2 W 33响水县57. 00瓯47 a. 9T 3.94 15.3& 2.04 34金湖县36. 0431. 4510.409.3517.5& 2.7^

聚类分析和因子分析在股票研究中的应用.

上海理工大学学报 第24卷第4期 J. University of Shanghai for Science and Technology Vol.24 No.4 2002 文章编号: 1007-6735(200204-0371-04 聚类分析和因子分析在股票研究中的应用 柯冰, 钱省三 (上海理工大学管理学院, 上海 200093 摘要: 选取9项主要财务指标,对汽车及配件行业19家上市公司进行了聚类分析和因子分析. 研究结果表明,两种分类方法都能把上市公司区分为蓝筹股、绩优股、一般股和劣质股,与公司的实际情况相符;而且因子分析将财务指标综合为规模效益综合因子、投资效率和主营业务因子3个综合变量,为公司的分类和评估提供了很好的依据. 关键词: 聚类分析; 因子分析; 股票研究中图分类号: O 212.4 文献标识码: A Application of cluster and factor analysis to stock research KE Bing , QIAN Xing-san (College of Management , University of Shanghai for Science and Technology , Shanghai 200093, China Abstract : 9 financial ratios from 19 auto manufacturing listed corporations have been studied by means of cluster and factor analysis. It pointed out that good results in classification can be got by any one of the both mothods and they are in good agreement with the practical situations. Moreover, 3 synthetic factors are extracted from the ten variables: the first is related to the scale and benefit of the corporation, the second is

(完整版)主成分分析与因子分析的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关.因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法. 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似. 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益. 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度. 聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的

(整理)因子分析与聚类分析案例.

1 因子分析与聚类分析理论简介 1.1 因子分析法 因子分析法是一种通过分析多个变量间协方差矩阵(或相关系数矩阵)的内部依赖关系,找出能代表所有变量的少数几个随机变量的计量分析方法。其中,找出的几个随机变量是不可测量的,将其称为公因子。每个公因子之间是互不相关的,所有变量都可以由这几个公因子的线性表示。因子分析通过减少变量的数目,用少数因子代替所有变量去分析整个经济问题,大大简化了现实分析过程。 假设有N 个样本,P 个指标,()T P X X X X ,,,21???=是随机向量,需要寻找的公 因子是()T m F F F F ,,,21???=,则将模型 112121111ε++???++=m m F a F a F a X 222221212ε++???++=m m F a F a F a X ... p m pm p p p F a F a F a X ε++???++=2211 称为因子模型。将矩阵() ij a A =称为因子载荷矩阵,将ij a 称为因子载荷(Loading ),因子载荷的实质是公因子Fi 与变量Xj 的相关系数。其中,ε为特殊因子,代表公因子以外的影响因素,在实际分析时一般忽略不计。 对于需要求出的的公因子,其实际含义取决于该公因子在哪些变量上有较大的载荷。但一般情况下,初始因子模型的因子载荷矩阵都比较复杂,不利于因子的解释。因此可进一步通过因子旋转,给出对各公因子更加合理明显的解释。 公因子求出后,可以进一步用回归估计等方法求出各个公因子得分的数学模型,将其表示成变量的线性形式,从而计算求出得分。模型如下: n in i i i X b X b X b F +???++=2211 (i = 1,2,...,m ) 1.2 层次聚类法 聚类分析的实质是按照距离的远近将数据分为若干个类别,以使得类别内数据的“差异”尽可能小,类别间的“差异”尽可能大。 “差异”的描述是通过距离或相似性的方法来描述。在统计学中最常用的是距离表达式欧几里得距离,对于两条数据),,(111z y x 和),,(222z y x ,欧几里得距离的计算公式是: 221221221)()()()2,1(z z y y x x Euclid -+-+-= 本文应用的是聚类分析法中的层次分析法,选用的是欧几里得距离的计算方法。 层次分析法通过把距离接近的数据一步一步归为一类,直到数据数据完全归为

聚类分析、判别分析、主成分分析、因子分析

聚类分析、判别分析、主成分分析、因子分析 主成分分析与因子分析的区别 1. 目的不同:因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。 2. 线性表示方向不同:因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。 3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。 5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。 6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS 根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。 7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。 1 、聚类分析 基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。

因子分析和聚类分析实例解译

地球化学数据 因子分析和聚类分析实例解译 编写人:刘红杰 QQ:498236930 内蒙古第三地质矿产勘查开发院

第*节元素组合(元素的共生组合特征)及分类特征 元素组合是元素亲合性在地质体内的具体表现,而元素亲合性又与地质环境有关[16]。 确定成矿及伴生元素的组合特征是确定成矿最佳地球化学标志元素组合的前提,为了研究 本区元素的共生组合规律和区域成矿的特点,我们对全区的样品进行了相关分析,聚类分析 和因子分析。具体结果如下: 一、相关分析 作为地质作用的微观结果,地球化学信息必然与地质信息相关连。相关分析是一种简单而直接的研究元素亲合性的方法。本次研究对所测13个元素进行了相关分析,用新疆金维 软件计算了各元素之间的相关系数,计算之前首先对原始数据进行标准化,计算结果见表1。 表1 阿尔山市三十公里等三幅1:5万化探相关系数矩阵 Pb Mn Cu Sn Mo Ag Zn Co W As Bi Hg Au Pb 1 0.2786 0.0813 0.1417 0.191 0.358 0.4656 -0.0455 0.1938 0.047 0.1198 0.0616 0.0054 Mn 1 0.1315 0.1385 0.0768 0.195 0.4076 0.2994 0.098 0.0991 0.0339 0.0751 0.0012 Cu 1 -0.0189 0.0198 0.2198 0.2738 0.4897 -0.0296 0.0644 0.0413 0.0192 0.1754 Sn 1 0.2043 0.133 0.1401 -0.0795 0.3298 0.046 0.1488 0.0452 -0.0166 Mo 1 0.1883 0.067 -0.0397 0.2436 0.201 0.2649 0.1648 0.0788 Ag 1 0.2594 -0.0032 0.1693 0.1534 0.2909 0.2333 0.1169 Zn 1 0.2384 0.1364 0.0191 0.0784 0.0269 0.007 Co 1 -0.1361 0.0544 -0.0401 -0.0383 -0.0113 W 1 0.1694 0.1807 0.0779 0.0145 As 1 0.0331 0.0308 0.0638 Bi 1 0.7183 -0.0082 Hg 1 0.0275 Au 1 由表1可知:Pb与Zn、Ag、Mn呈正强相关;W与Mo、Sn呈明显正相关. Bi与Mo、Ag 元素之间呈正相关, Hg、Bi元素呈显著正相关。Co与Cu、Zn、Mn之间相关性也较好. 二、聚类分析 聚类分析以变量之间的相似程度为基础,将变量分成不同级别的类或点群,直观地对变量进行分类。 据元素聚类谱系图(图)可见R=0.2783为界可分六簇。 第一簇Pb、Zn、Mn、Ag:为一组低中温、中高温元素组合,Pb与Zn密切相关,反映Pb、Zn、Mn、Ag元素的富集主要与中低温热液成矿作用有关,组合异常的出现是测区寻找 Pb、Zn多金属矿床的重要地球化学找矿标志。

主成分分析与因子分析的优缺点讲课稿

主成分分析与因子分析的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关. 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子 变量具有较强的可解释性的一种多元统计分析方法. 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似. 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的 联系,以期为更好地利用这些高级统计方法为研究所用有所裨益. 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息, 变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量 比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.

聚类分析,因子分析

主成分分析,聚类分析,因子分析的基本思想以及他们各自的优缺点。 主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。 聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ]。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。 (二) 不同之处

数学建模 聚类分析因子分析实例

多元统计分析中的降维方法在四川省社会福利中的应用 由于计算机的发展和日益广泛的使用,多元分析方法也很快地应用到社会学、农业、医学、经济学、地质、气象等各个领域。在国外,从自然科学到社会科学的许多方面,都已证实了多元分析方法是一种很有用的数据处理方法;在我国,多元分析对于农业、气象、国家标准和误差分析等许多方面的研究工作都取得了很大的成绩,引起了广泛的注意。在许多领域的研究中,为了全面系统地分析问题,对研究对象进行综合评价,我们常常需要考虑衡量问题的多个指标(即变量),由于变量之间可能存在着相关性,如果采用一元统计方法,把多个变量分开,一次分析一个变量,就会丢失大量的信息,研究结果也会偏差很大。因此需要采用多元统计分析的方法,同时对所有变量的观测数据进行分析。多元统计分析就是一种同时研究多个变量之间的相互关系,经过对变量的综合处理,充分提取变量之间的信息,进行综合分析和评价的统计方法。多元统计分析法主要包括降维、分类、回归及其他统计思想。 一.多元统计分析方法中降维的方法 1.概述 多元统计分析方法是同时对多个变量的观察数据做综合处理和分析。在不损失有价值信息的情况下,简化观测数据或数据结构,尽可能简单地将被研究对象描述出来,使得对复杂现象的解释变得更容易些。同时,采用多元统计分析中的聚类分析或判别分析可以对变量或样品进行分类与分组。根据所测量的特征和分类规则将一些“类似的”对象或变量分组。多元统计分析也可以研究变量间依赖性。即对变量间关系的本质进行研究。是否所有的变量都相互独立?还是一个变量或多个变量依赖于其他变量?它们又是怎样依赖的?通过观测变量数据的散点图,我们可以建立多元回归统计模型,确定出变量之间具体的依赖关系,进而可以根据某些变量的观测值预测另一个或另一些变量的值对事物现象的发展作预测。最后我们需要构造假设,并对所建立的以多元总体参数形式陈述的多种特殊统计假设进行检验。 在多元统计分析方法中数据简化或结构简化,实质上就是数学中的降维方法。多元统计分析中的降维方法主要包括聚类分析、判别分析、主成分分析、因子分析、对应分析和典型相关分析等几种方法。其中主成分分析和因子分析是在作综合评价方面应用最广泛、较为有效的方法。本文主要介绍这两种多元统计分析方法的应用。 2 主成分分析 2.1主成分分析的基本思想 在大部分实际问题中,需要考察的变量多,变量之间是有一定的相关性的,主成分分析就是以损失很少部分信息为代价,保留绝大部分信息的前提下, 将原来众多具有一定线性相关性的p个指标压缩成少数几个互不相关的综合指 标(主成分),并通过原来变量的少数几个的线性组合来给出各个主成分的具有实际背景和意义的解释。由于主成分分析浓缩了众多指标的信息,降低了指标的

基于因子分析与聚类分析的企业经营绩效评价研究

基于因子分析与聚类分析的企业经营绩效评价研究 作者:王维李嫚武志勇 来源:《财会通讯》2012年第35期 一、引言 近年来,随着经济和医疗卫生事业的不断发展,医药行业的发展速度越来越快,成为全球仅次于银行业和石油业的第三大投资行业,但同时也面临着复杂多变的市场竞争环境。因此,越来越多的研究者开始关注这一行业的经营绩效评价问题。目前评价企业经营绩效的方法主要有平衡计分卡法、EVA评价分析法、沃尔评分法和模糊决策财务分析法等。但由于企业经营绩效评价指标的复杂性和多样性以及评价方法的主观性,其结果并不理想,偏差较大。因子分析和聚类分析根据数据本身结构特征,能克服一些传统评价方法的主观偏差,具有独特的优越性。本文采用因子分析和聚类分析,试对我国医药上市公司的经营绩效进行评价并提出改善建议。 二、指标选取 本文参照财政部在1999年6月颁发的“工商类竞争性企业绩效评价指标体系”,针对我国医药上市公司的特点,选取盈利能力、偿债能力、运营能力、获现能力和成长能力等六方面的共20个指标来评价上市公司的经营绩效。为消除初选指标间信息的重叠,利用SPSS17.0统计分析软件,运行包含20个经营绩效评价指标的基本模型,并计算各指标的适合测度值(MSA),剔除小于0.6的指标重新定义模型。通过多次筛选,剔除营业成本比率,净资产收益率,股东权益比率,应收账款周转率,销售增长率等五个财务指标。经处理的评价指标体系及MSA值见表1。 三、基于因子分析与聚类分析的医药上市公司经营绩效评价 (一)因子分析主要包括以下步骤: (1)样本数据标准化。为了使研究结果更能反映医药上市公司经营绩效的现实状况,本文在选取样本时,剔除了不能取得所需研究数据和数据披露不真实的上市公司。依据2009年度医药上市公司综合竞争力排名,分为强、中、弱三类,然后采用配额抽样,分别从好中差三类中各抽取十家,共得样本30家。收集的30家医药上市公司财务数据来源于中国证券监督管理委员会和证券之星的2010年度财务报表,并对所收集的数据进行了标准化处理。 (2)因子分析适用性检验。由于KMO统计量为0.743>0.7,因子分析的效果比较好,再由Barlett球形检验,可知各变量的独立性假设不成立,故因子分析的适用性检验通过。

相关文档
最新文档