主成分分析法在我国居民生活质量状况-多元统计分析
多元统计分析

多元统计分析
多元统计分析(multivariate statistical analysis)是指使用多种统计方法来分析多个变量之间关系的方法。
它是应用数学、
计算机和统计学原理对多个变量之间的相互关系展开的一种基于数
据挖掘的分析方法。
它通过对多个变量进行综合分析来发现数据隐
藏的规律和模式,以及变量之间的相关性和因果关系。
多元统计分析可以应用于许多领域,如社会科学、商业、医学、金融等。
其主要方法包括因子分析、主成分分析、聚类分析、回归
分析、判别分析等。
多元统计分析有助于提高数据分析的深度和广度,并在数据分
析上寻找新的解决方法。
同时,它也使得决策者更加理性地分析和
理解结果,以便做出更准确的决策。
《多元统计分析》课件

采用L1正则化,通过惩罚项来选择最重要 的自变量,实现特征选择和模型简化。
比较
应用场景
岭回归适用于所有自变量都对因变量有影 响的情况,而套索回归更适用于特征选择 和模型压缩。
适用于数据集较大、自变量之间存在多重 共线性的情况,如生物信息学数据分析、 市场细分等。
主成分回归与偏最小二乘回归
主成分回归
适用于自变量之间存在多重 共线性的情况,同时要求高 预测精度,如金融市场预测 、化学计量学等。
06 多元数据的典型相关分析
典型相关分析的基本思想
01
典型相关分析是一种研究多个 随机变量之间相关性的多元统 计分析方法。
02
它通过寻找一对或多个线性组 合,使得这些线性组合之间的 相关性达到最大或最小,从而 揭示多个变量之间的关系。
原理
基于最小二乘法原理,通过最小化预 测值与实际值之间的平方误差来估计 回归系数。
应用场景
适用于因变量与自变量之间存在线性 关系的情况,如预测房价、股票价格 等。
注意事项
需对自变量进行筛选和多重共线性诊 断,以避免模型的不稳定性和误差。
岭回归与套索回归
岭回归
套索回归
是一种用于解决多重共线性的回归方法, 通过引入一个小的正则化项来稳定系数估 计。
层次聚类
01
步骤
02
1. 将每个数据点视为一个独立的集群。
2. 计算任意两个集群之间的距离或相似度。
03
层次聚类
01 3. 将最相近的两个集群合并为一个新的集群。 02 4. 重复步骤2和3,直到满足终止条件(如达到预
设的集群数量或最大距离阈值)。
03 应用:适用于探索性数据分析,帮助研究者了解 数据的分布和结构。
统计学中的多元统计分析方法

统计学中的多元统计分析方法多元统计分析是统计学的一个重要分支,用于处理多个变量之间的关系和相互作用。
它提供了一种全面理解和解释数据的方式,使我们能够更好地理解现象和预测未来趋势。
在本文中,我们将介绍几种常见的多元统计分析方法,并讨论它们的应用场景和计算步骤。
一、主成分分析(Principal Component Analysis,PCA)主成分分析是一种无监督学习方法,用于降低数据维度并发现主要成分。
其目标是通过线性变换将高维数据转化为低维表示,以便更好地解释数据的方差。
主成分分析通过计算特征值和特征向量来确定主要成分,并将数据投影到这些主成分上。
主成分分析常用于数据降维和可视化。
二、因子分析(Factor Analysis)因子分析是一种用于统计数据降维和变量关系分析的方法。
它通过将一组观测变量解释为一组潜在因子来发现数据背后的结构。
因子分析可以帮助我们理解变量之间的相关性,发现潜在的构成因素,并将多个变量归纳为更少的几个因子。
因子分析在市场研究、心理学和社会科学等领域得到广泛应用。
三、判别分析(Discriminant Analysis)判别分析是一种监督学习方法,用于寻找最佳分类边界,并将数据点分配到不同的类别中。
判别分析通过计算组间方差和组内方差来确定最优的分类边界。
它常用于模式识别、生物医学和金融领域等。
通过判别分析,我们可以了解变量对于区分不同类别的贡献程度,并进行有效的样本分类。
四、聚类分析(Cluster Analysis)聚类分析是一种无监督学习方法,用于将相似的数据点组合成不同的类别或群集。
聚类分析通过度量数据点之间的相似性来揭示数据的内在结构。
常见的聚类方法包括K均值聚类和层次聚类。
聚类分析在市场细分、图像分析和生物学分类等领域具有重要应用。
五、回归分析(Regression Analysis)回归分析是一种用于建立变量之间关系模型的方法。
它通过拟合一个数学模型来预测一个或多个自变量对应因变量的值。
多元统计分析

多元统计分析多元统计分析是一种用于处理和解释多维数据的方法。
它将多个变量同时考虑,并探索变量之间的关系和模式。
在许多领域,例如社会科学、医学研究和市场调查中,多元统计分析被广泛应用于数据分析和决策支持。
通过对大量数据进行综合分析,我们可以获得更准确的结论和洞察力,为问题的解决提供有力的支持。
1. 多元统计分析的基本概念和方法多元统计分析涉及许多不同的技术和方法。
其中一些包括主成分分析、因子分析、聚类分析、判别分析和多元回归分析。
这些方法可以帮助我们降维、识别变量间的关系、发现群组和预测未来趋势。
2. 主成分分析主成分分析是一种降维技术,可以将大量的变量转化为相对较少的几个无关变量,称为主成分。
通过这种方式,我们可以更好地理解数据,并减少冗余信息。
主成分分析通常用于数据可视化和探索性分析。
3. 因子分析因子分析是一种用于探索变量之间潜在关系的技术。
它可以帮助我们确定潜在因素,即变量背后的共同因素。
因子分析常用于市场研究,以确定产品特征或消费者态度的维度。
通过这种方式,我们可以对复杂的数据进行简化和解释。
4. 聚类分析聚类分析是一种将相似观测对象划分为群组的技术。
它基于变量间的相似性或距离度量,将观测对象聚合在一起,并形成具有相似特征的群组。
聚类分析常用于市场分割和客户分类。
5. 判别分析判别分析是一种用于预测和分类的技术。
它可以帮助我们从一系列的预测变量中确定哪些变量对于区分不同组别是最重要的。
判别分析常用于医学诊断、人力资源管理和贷款风险评估等领域。
6. 多元回归分析多元回归分析用于研究多个自变量对因变量的影响。
通过建立回归模型,我们可以理解各个变量对于因变量的相对重要性,并进行预测和解释。
总结:多元统计分析是一种强大的数据分析工具,可以帮助我们理解和解释复杂的多维数据。
通过运用各种分析方法,我们可以从大量的数据中发现模式和关系,并得出准确的结论和洞察力。
无论是在学术研究、商业决策还是社会科学领域,多元统计分析都发挥着重要的作用。
多元统计分析与主成分分析

多元统计分析与主成分分析多元统计分析是一种分析多个变量之间关系的方法,通过统计模型来揭示不同变量之间的相关性和相互作用。
而主成分分析则是多元统计分析中的一种方法,用于降低变量维度和提取最重要的信息。
在多元统计分析中,我们常常面临大量的变量,而这些变量相互之间可能存在一定的相关性。
在这种情况下,我们需要找到一种方法来降低变量的维度,以便更好地理解和解释数据。
主成分分析就是一种能够帮助我们达到这一目标的方法。
主成分分析通过线性变换将原始的变量转化为一组新的变量,这些新的变量被称为主成分。
每个主成分代表了原始变量中的一部分信息,而且它们之间相互独立。
通过主成分分析,我们可以将变量的维度从原来的n维降低到k维,并保留了大部分的信息。
主成分分析的过程可以简单地分为以下几个步骤:1. 数据标准化:首先,我们需要对原始数据进行标准化处理,确保各个变量具有相同的量纲和可比性。
2. 计算相关矩阵:然后,我们计算原始数据中各个变量之间的相关系数矩阵,以评估它们之间的线性关系。
3. 求解特征值和特征向量:接下来,我们通过对相关矩阵进行特征值分解,求解出对应的特征值和特征向量。
4. 确定主成分数目:我们根据特征值的大小来确定需要保留的主成分数目。
通常我们选择特征值较大的前k个主成分,以保留较大比例的信息。
5. 计算主成分得分:在确定主成分数目后,我们计算每个观测值在各个主成分上的得分,得到一组新的主成分变量。
6. 解释主成分:最后,我们对每个主成分进行解释和解读,以理解它们所代表的原始变量的意义和权重。
通过主成分分析,我们可以简化多元统计分析的复杂性,并找到最具解释力的主成分来解释原始数据。
这种方法不仅可以应用于各种领域的数据分析,还可以帮助我们发现变量之间的潜在关联和主要影响因素。
总结起来,多元统计分析和主成分分析是一对不可或缺的分析工具。
多元统计分析可以帮助我们理解变量之间的关系,而主成分分析则可以降低变量的维度和提取关键信息。
多元统计分析主成分分析(1)

例1 下面是8 个学生两门课程的成绩表
语文 x 1 100 90 70 70 85 55 55 45
数学 x 2 65 85 70 90 65 45 55 65
对此进行主成分分析。
1. 求样本均值和样本协方差矩阵
X xx127617..255
3 1.56
(a 1,a 12,a 13)1 (0 .5,0 .6 4,0 .2 7)1 (a 1,2 a 2,2 a 3)2 (0 .8, 0 1 .3, 0 3 .4)8 (a 1,3 a 2,3 a 3)3 (0 .0,0 .3 8, 0 5 .5)3
4. 由此我们可以写出三个主成分的表达式:
S1302..3314 18.75
2. 求解特征方程 S I =0
S1302..3314 18.75
32.43 10.13 10.13 18.570
(3.2 4 3 )1 (.8 5 7 ) 1.0 1 2 3 0
化简得:251 .9050.0 9 0 07
S 17.12 21.11
30.00 32.58 55.53
2. 求解协方差矩阵的特征方程 SI 0
46.67 17.12 30.00 17.12 21.11 32.58 0 30.00 32.58 55.53
3.解得三个特征值 和对应的单位特征向量:
1 98.15 2 23.60
F 1 0 . 5 ( x 1 1 6 . 2 ) 6 0 . 4 ( x 1 2 2 7 . 3 ) 0 7 . 7 ( x 3 5 1 . 2 )1 F 2 0 . 8 ( x 1 1 1 . 2 ) 6 0 . 3 ( x 2 1 3 7 . 3 ) 0 7 . 4 ( x 3 8 5 . 2 )1 F 3 0 . 0 ( x 1 1 3 . 2 ) 6 0 . 8 ( x 1 2 5 7 . 3 ) 0 7 . 5 ( x 3 3 5 . 2 )1
多元统计分析 实验报告
多元统计分析实验报告多元统计分析实验报告一、引言多元统计分析是一种研究多个变量之间关系的统计方法,可以帮助我们更全面地了解数据集中的信息。
本实验旨在通过多元统计分析方法,探索不同变量之间的关系,并分析其对研究结果的影响。
二、数据收集与处理在本实验中,我们收集了一份关于学生学业成绩的数据集。
数据集包括学生的性别、年龄、家庭背景、学习时间、考试成绩等多个变量。
为了方便分析,我们对数据进行了清洗和预处理,包括删除缺失值、标准化处理等。
三、描述性统计分析在进行多元统计分析之前,我们首先对数据进行了描述性统计分析。
通过计算各变量的均值、标准差、最小值、最大值等统计量,我们对数据的整体情况有了初步的了解。
例如,我们发现男生和女生的平均成绩存在差异,家庭背景与学习时间之间存在一定的相关性等。
四、相关性分析为了探索不同变量之间的关系,我们进行了相关性分析。
通过计算各个变量之间的相关系数,我们可以了解它们之间的线性关系强弱。
通过绘制相关系数矩阵的热力图,我们可以直观地观察到各个变量之间的相关性。
例如,我们发现学习时间与考试成绩之间存在较强的正相关关系,而年龄与考试成绩之间的相关性较弱。
五、主成分分析主成分分析是一种常用的降维方法,可以将多个相关变量转化为少数几个无关的主成分。
在本实验中,我们应用主成分分析方法对数据进行了降维处理。
通过计算各个主成分的解释方差比例,我们可以确定保留的主成分个数。
通过绘制主成分得分图,我们可以观察到不同变量在主成分上的贡献程度。
例如,我们发现第一主成分主要与学习时间和考试成绩相关,而第二主成分主要与家庭背景和性别相关。
六、聚类分析聚类分析是一种将样本按照相似性进行分类的方法,可以帮助我们发现数据集中的潜在模式和群体。
在本实验中,我们应用聚类分析方法对学生进行了分类。
通过选择适当的聚类算法和距离度量,我们可以将学生分为不同的群体。
通过绘制聚类结果的散点图,我们可以观察到不同群体之间的差异。
多元统计分析——主成分分析法PPT学习教案
思考3——服装的定型分类问题
为了较好地满足市场的需要,服装 生产厂要了解所生产的一种服装究竟设 计几种型号合适?这些型号的服装应按 怎样的比例分配生产计划才能达到较好 的经济效益?
第3页/共59页
大纲
计算等
1.基本思想 2.定义 3.主成分的性质、
4.案例
第4页/共59页
5.主成分回归
Y2得分
-3.94396 2.43505 0.12551 3.34907 0.61942 1.90248 2.31576 2.53147 -0.79528 -1.07448 -1.09413 0.61915 -1.13709 -1.92281 -0.48313
第33页/共59页
第一主成分名次
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
多元统计分析——主成分分析法
会计学
1
思考1
反映地区社会经济发展的指标体系
X1:国内生产总值(GDP) X3:第三产业产值占GDP比重 X5:工业企业劳动生产率 X7:每万人拥有卫生技术人员数 X9:教育经费投入占GDP比重 X11:人均邮电业务总量 X13:人均固定资产投资 X15:地方财政收入占GDP比重 X17:科研经费占GDP比重
反映地区社会经济发展的指标体系
X1:国内生产总值(GDP) X3:第三产业产值占GDP比重 X5:工业企业劳动生产率 X7:每万人拥有卫生技术人员数 X9:教育经费投入占GDP比重 X11:人均邮电业务总量 X13:人均固定资产投资 X15:地方财政收入占GDP比重 X17:科研经费占GDP比重
X2:人均GDP X4:人均出口额 X6:人均社会消费品零售额 X8:每万人高等学校在校生数 X10:人均货运总量 X12:每万人电话机装机数 X14:人均实际利用外资 X16:每万人科研机构数
多元统计分析
多元统计分析随着社会的发展和科学的进步,数据分析的需求日益增长,而多元统计分析作为一种强大的统计工具,能够帮助我们更深入地理解数据背后的规律和关联性。
本文将介绍多元统计分析的概念、应用场景以及常用的方法。
一、多元统计分析概述多元统计分析是一种涉及多个变量之间关系的统计分析方法。
它可以通过分析数据集中多个变量之间的关联性,揭示出隐藏在数据背后的规律和结构,从而更好地理解数据以及作出推断和预测。
二、多元统计分析的应用场景1. 市场研究分析多元统计分析在市场研究领域有着广泛的应用。
例如,一家公司希望了解不同产品特征对消费者购买行为的影响,可以通过多元统计分析来确定哪些产品特征对消费者产生了积极的影响,从而制定出更加精准的市场策略。
2. 医学研究分析在医学领域,多元统计分析可以用于研究不同变量与疾病之间的关联性。
例如,通过对大量病例和对照组数据的分析,可以找到与某种疾病相关的风险因素,从而有针对性地预防和治疗疾病。
3. 社会科学研究分析社会科学研究中的数据通常包含多个变量,如人口、教育水平、收入等。
通过多元统计分析,可以了解不同变量之间的关系,从而对社会现象作出解释和预测。
三、常用的多元统计分析方法1. 主成分分析(PCA)主成分分析是一种用于降维的多元统计方法,它将原始的高维数据通过线性变换,转化为低维的主成分,从而保留了原始数据中的大部分信息。
主成分分析常用于数据可视化和特征选择。
2. 因子分析因子分析是一种用于探索数据内部结构的方法,它可以识别出数据集中的潜在因子,并将多个观测变量归纳为几个共同的因子。
因子分析在心理学、教育学等领域具有广泛的应用。
3. 判别分析判别分析是一种用于分类的多元统计方法,它通过寻找最佳的分割线,将不同类别的样本划分为不同的群组。
判别分析在模式识别和数据分类中具有重要的意义。
4. 聚类分析聚类分析是一种将相似样本归类到同一组的方法,通过测量样本之间的相似性或距离来实现。
聚类分析常用于数据分类、市场细分以及生物学、地理学等领域的研究。
多元统计分析的重点和内容和方法
一、什么是多元统计分析❖多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。
❖多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。
二、多元统计分析的内容和方法❖1、简化数据结构(降维问题)将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。
(1)主成分分析(2)因子分析(3)对应分析等❖2、分类与判别(归类问题)对所考察的变量按相似程度进行分类。
(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。
(2)判别分析:判别样本应属何种类型的统计方法。
例5:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。
考察指标有6个:1、X1:每千居民拥有固定电话数目2、X2:每千人拥有移动电话数目3、X3:高峰时期每三分钟国际电话的成本4、X4:每千人拥有电脑的数目5、X5:每千人中电脑使用率6、X6:每千人中开通互联网的人数❖3、变量间的相互联系一是:分析一个或几个变量的变化是否依赖另一些变量的变化。
(回归分析)二是:两组变量间的相互关系(典型相关分析)❖4、多元数据的统计推断点估计参数估计区间估计统 u检验计参数 t检验推 F检验断假设相关与回归检验卡方检验非参秩和检验秩相关检验❖1、假设检验的基本原理小概率事件原理❖ 小概率思想是指小概率事件(P<0.01或P<0.05等)在一次试验中基本上不会发生。
反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;反之,则认为假设成立。
❖ 2、假设检验的步骤 (1)提出一个原假设和备择假设❖ 例如:要对妇女的平均身高进行检验,可以先假设妇女身高的均值等于 160 cm (u=160cm )。
这种原假设也称为零假设( null hypothesis ),记为 H 0 。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《多元统计分析》课程设计报告 学生姓名: 峰 学 号: 090 090 鹤 090 学 院: 理学院 班 级: 数学0 题 目: 主成分分析法在我国居民生活质量状况
综合评价中的应用 指导教师: 辰 职称: 教 授
红 讲 师
2012 年 12 月 7 日 2
一、问题分析 1.1 问题及背景 人均GDP达到1000美元,标志着我国居民生活水平迈上了一个新台阶,我国经济步入了一个崭新的发展时期。然而,我国地域辽阔,人口众多,地区间经济发展很不平衡,城乡差距明显,经济发展的非均衡性已经严重威胁到我国经济的持续、健康发展。若不妥善处理,将会成为制约我国经济发展的瓶颈因素。事实上,东、中、西部地区的经济发展差距已是众所周知,并引起中央政府和有关部门的广泛重视。但在地区间经济发展差距的背后,东、中、西部地区居民的生活质量究竟存在着多大的差距却鲜为人知。随着生产力水平的不断提高,我国居民生活水平不断提高,生活质量也在不断改善。但是,受各地生产力发展水平不平衡的影响,我国各地居民的生活质量也表现为不平衡。利用主成分分析法对我国31个省市、自治区居民的生活状况进行评价分析。为全面分析各地居民生活状况,可选取如下指标体系进行反应:职工人均工资、人均居住面积、城市人均用水普及量、城市煤气普及量、人均拥有道路面积、人均绿地公共面积、批发零售贸易商品销售总额、旅游外汇收入。对我国居民生活质量问题的研究不仅是社会经济发展的客观要求,也是我国全面建设小康社会的迫切需要 城市居民生活质量的评价体系,是依据中国城市居民生活的特征,并参阅国内外生活质量评价研究的大量成果后构建的,集中体现了研究者的专业知识和对生活质量评价体系的理论构思,具有主观色彩,因此,有必要对理论遴选的评价指标进行隶属度分析、相关分析和辨别力分析等实证筛选,以增强评价指标的科学性、合理性和可操作性。 3
1.2 数据 图1 数据来源:《中国统计年鉴2009》 4
二、主成分分析方法基本原理 2.1 主成分分析定义 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。 2.2 主成分分析法方法简介
主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用1F(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(1F)越大,表示1F包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称1F为第一主成分。如果第一主成分不足 5
以代表原来P个指标的信息,再考虑选取2F即选第二个线性组合,为了有效地反映原来信息,1F已有的信息就不需要再出现在2F中,用数学语言表达就是要求0)F,F(21Cov,则称2F为第二主成分,依此类推可以构造出第三、第四,„„,第P个主成分。 ppi22i11iXaXaXaFp其中m),1,(ia, ,a ,api2i1i为X的协方差阵Σ的特征值所对应的特征向量,P21X , ,X ,X是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响。
iaiaim21ijR,)a,a,(am)p(aA,R为相关系数矩阵,i、ia是相应的特征值和单位特征向量,0p21。 进行主成分分析主要步骤如下: 1. 指标数据标准化; 2. 指标之间的相关性判定; 3. 确定主成分个数m; 4. 主成分iF表达式; 5. 主成分iF命名; 其中Li为p维正交化向量,iZ之间互不相关且按照方差由大到小排列,则称iZ为X的第I个主成分。设X的协方差矩阵为Σ,则Σ必为半正定对称矩阵,求特征值i(按从大到小排序)及其特征向量,可以证明,i所对应的正交化特征向量,即为第I个主成分iZ所对应的系数向量iL,而iZ的方差贡献率定义为ji/,通常要求提取的主成分的数量k满足85.0/kj。
2.3主成分分析主要目的 主成分分析主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。 6
三、问题求解 第一步:录入数据,有以下变量:职工人均工资,人均居住面积,城市人口用水普及量,城市煤气普及量,人均拥有道路面积,人均绿地公共面积,批发零售贸易商品销售总额,旅游外汇收入,见图2
图2 第二步:选择功能模块
图3 7
第三步:将变量添加到Varicrible 图4 第四步:输入信息
图5 8 图6
图7 9 图8
第五步:单击“OK”按钮,完成运算。
图9 10
四、结果分析 Communalities Initial Extraction 人均工资 1.000 .730
居住面积 1.000 .598
人均用水 1.000 .636
煤气普及 1.000 .794
人均道路 1.000 .776
人均绿地 1.000 .771
商品总额 1.000 .883
旅游外汇 1.000 .653
分析:第一列是列出八个原始变量,第二列是根据主成分分析初始解计算出变量共同度,第三列是是根据主成分分析最终解计算出变量共同度,这时由于因子变量个数少于原始变量个数,因此每个变量的共同度必然小于1。例如,第一行中0.730表示m个因子变量共同解释掉原始变量“人均工资”方差72.2%。
Total Variance Explained
Component Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %
1 3.955 49.438 49.438 3.955 49.438 49.438 3.874 48.419 48.419 2 1.886 23.581 73.019 1.886 23.581 73.019 1.968 24.600 73.019 3 .883 11.033 84.051 4 .463 5.783 89.834 5 .442 5.530 95.364 6 .230 2.874 98.239 7 .093 1.164 99.403 8 .048 .597 100.000 Extraction Method: Principal Component Analysis.
分析:上表为SAS输出结果,从上表可以看出特征值和和贡献率。从上表可以看出公共因子对原变量总体的描述情况。可以看出前2个公共因子的的贡献率达到73.019%,所以提取2个公共因子就可以反映原变量的大部分信息。