主成分分析、聚类分析比较教学提纲
8-聚类分析和主成分分析

四、变量测量尺度的类型
• 间隔尺度。指标度量时用数量来表示,其数值由测量或计数、 间隔尺度。指标度量时用数量来表示,其数值由测量或计数、 统计得到,如长度、重量、收入、支出等。一般来说, 统计得到,如长度、重量、收入、支出等。一般来说,计数 连续数量。 得到的数量是离散数量 测量得到的数量是连续数量 离散数量, 得到的数量是离散数量,测量得到的数量是连续数量。在间 隔尺度中如果存在绝对零点,又称比例尺度。 隔尺度中如果存在绝对零点,又称比例尺度。 • 顺序尺度。指标度量时没有明确的数量表示,只有次序关系, 顺序尺度。指标度量时没有明确的数量表示,只有次序关系, 或虽用数量表示,但相邻两数值之间的差距并不相等,它只 或虽用数量表示,但相邻两数值之间的差距并不相等, 表示一个有序状态序列 如评价酒的味道,分成好、 有序状态序列。 表示一个有序状态序列。如评价酒的味道,分成好、中、次 三等,三等有次序关系,但没有数量表示。 三等,三等有次序关系,但没有数量表示。 • 名义尺度。指标度量时既没有数量表示也没有次序关系,只 名义尺度。指标度量时既没有数量表示也没有次序关系, 有一些特性状态 如眼睛的颜色,化学中催化剂的种类等。 特性状态, 有一些特性状态,如眼睛的颜色,化学中催化剂的种类等。 在名义尺度中只取两种特性状态的变量是很重要的, 在名义尺度中只取两种特性状态的变量是很重要的,如电路 的开和关,天气的有雨和无雨,人口性别的男和女, 的开和关,天气的有雨和无雨,人口性别的男和女,医疗诊 断中的“ 断中的“十”和“一”,市场交易中的买和卖等都是此类变 量。
五、聚类分析方法
• 系统聚类法。先将n个元素看成 类,然后将性质最接 系统聚类法。先将 个元素看成 个元素看成n类 或相似程度最大)的两类合并为一个新类, 近(或相似程度最大)的两类合并为一个新类,得到 n-1类。再从中找出最接近的两类加以合并,变成 类 再从中找出最接近的两类加以合并,变成n-2 如此下去,最后所有的元素全聚在一类之中。 类。如此下去,最后所有的元素全聚在一类之中。 • 调优法。先将样品做一个初始的分类,然后按照某种 调优法。先将样品做一个初始的分类, 最优的原则逐步调整,一直调整到分类比较合理为止。 最优的原则逐步调整,一直调整到分类比较合理为止。 • 图论法。从几何观点来考虑。将n个样品看成 维空间 图论法。从几何观点来考虑。 个样品看成m维空间 个样品看成 个点, 的n个点,点与点间用直线连接,从而构成 维空间的 个点 点与点间用直线连接,从而构成m维空间的 点的连接图,再应用图论的观点将样本点在m维空间 点的连接图,再应用图论的观点将样本点在 维空间 作最小支撑数,最终达到分类目的。 作最小支撑数,最终达到分类目的。
主成分分析和聚类分析

北京建筑工程学院理学院信息与计算科学专业实验报告课程名称《数据分析》实验名称《主成分分析和聚类分析》实验地点:基础楼C-423日期__2016.5.5_____ 姓名张丽芝班级信131 学号201307010108___指导教师王恒友成绩(1)熟悉利用主成分分析进行数据分析,能够使用SPSS软件完成数据的主成分分析;(2)熟悉利用聚类分析进行数据分析,能够运用主成分分析的结果,做进一步分析,如聚类分析、回归分析等,能够使用SPSS软件完成该任务。
【实验要求】根据各个题目的具体要求,分别运用SPSS软件完成实验任务。
【实验内容】1、表4.9(数据见exercise4_5.txt)给出了1991年我国30个省市、城镇居民的月平均消费数据,所考察的八个指标如下:(单位均为元/人)X1: 人均粮食支出; X2:人均副食支出;X3: 人均烟酒茶支出; X4: 人均其他副食支出;X5:人均衣着商品支出; X6: 人均日用品支出;X7: 人均燃料支出; X8: 人均非商品支出。
(1)求样本相关系数矩阵R。
(2)从R出发做主成分分析,求出各主成分的贡献率及前两个主成分的累积贡献率;2、(1)对题1中的数据,按照原有的八个指标,对30个省份进行聚类,给出分为3类的聚类结果。
(2)利用题1得到的前2个主成分指标,分别按最短距离法(最近邻居距离)、最长距离法(最远邻居距离)、类平均距离法(组间平均距离)、重心距离法;其中距离均采用欧式平方距离,对样本进行谱系聚类分析,并画出谱系聚类图;给出分为3类的聚类结果。
并与(1)的结果进行比较【实验步骤】(此部分主要包括实验过程、方法、结果、对结果的分析、结论等)11)2)方差贡献率是38.704%,第二个主成分的方差贡献率是29.590%,前两个主成分的方差占所有主成分方差的64.294%。
前两个主成分的累计贡献率为68.294%,选择前两个主成分即可代表绝大多数原来的变量。
主成分分析,聚类分析比较

主成分分析、聚类分析的比较与应用主成分分析、聚类分析的比较与应用摘要:主成分分析、聚类分析是两种比较有价值的多元统计方法,但同时也是在使用过程中容易误用或混淆的几种方法。
本文从基本思想、数据的标准化、应用上的优缺点等方面,详细地探讨了两者的异同,并且举例说明了两者在实际问题中的应用。
关键词:spss、主成分分析、聚类分析一、基本概念主成分分析就是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
综合指标即为主成分。
所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。
因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。
聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。
其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
二、基本思想的异同(一)共同点主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。
并且新的变量彼此间互不相关,消除了多重共线性。
这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。
在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。
在诸多主成分Zi中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。
因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。
主成分分析和聚类分析的比较

主成分分析和聚类分析的比较一、定义:1.主成分分析:PCA是一种数学方法,通过线性变换将原始数据投影到新的坐标系上,使得投影的数据在新的坐标系下具有最大的方差,从而达到降维和提取数据特征的目的。
2.聚类分析:聚类分析是一种无监督学习方法,通过对样本集合中的数据进行分类,使得同一类别的数据尽量相似,不同类别的数据尽量不相似。
二、目的:1.主成分分析:PCA的主要目的是降低数据的维度,同时保留尽可能多的数据信息。
通过确定主成分,可以选择保留最重要的几个主成分,达到降维的目的,同时避免信息损失。
2.聚类分析:聚类分析的主要目的是发现数据的内在结构和相似性,将数据分成若干个互不交叠的群组,使得同一群组的数据相似度较高,不同群组的数据相似度较低。
三、步骤:1.主成分分析:-对数据进行标准化处理。
-计算数据样本的协方差矩阵。
-对协方差矩阵进行特征值分解,得到特征值和特征向量。
-选择主成分并确定保留的主成分数目。
-根据主成分和原始数据计算得到新的数据集,即降维后的数据集。
2.聚类分析:- 选择合适的聚类算法(如K-means、层次聚类等)。
-初始化聚类中心。
-计算每个样本与聚类中心的距离。
-将样本分配到最近的聚类中心。
-更新聚类中心,重复上述步骤直到满足终止条件。
四、应用领域:1.主成分分析:-数据降维与特征提取:对于高维数据,可以通过PCA将数据降低到较低的维度,并保留主要特征信息。
-数据可视化:通过PCA将高维数据投影到二维或三维空间中,方便数据的可视化展示。
-噪声滤除:PCA可以去除数据中的噪声信息,保留主要特征。
2.聚类分析:-客户细分:在市场营销中,可以通过聚类分析将客户分为不同的群组,根据每个群组的特征制定相应的营销策略。
-图像分割:在图像处理中,可以利用聚类分析对图像进行分割,将图像中的不同物体分别提取出来。
-社交网络分析:通过对社交网络用户之间的关系进行聚类分析,可以发现群组内的用户行为模式和用户兴趣。
主成分分析、聚类分析比较

主成分分析、聚类分析的比较与应用主成分分析、聚类分析的比较与应用摘要:主成分分析、聚类分析是两种比较有价值的多元统计方法,但同时也是在使用过程中容易误用或混淆的几种方法。
本文从基本思想、数据的标准化、应用上的优缺点等方面,详细地探讨了两者的异同,并且举例说明了两者在实际问题中的应用。
关键词:spss、主成分分析、聚类分析一、基本概念主成分分析就是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
综合指标即为主成分。
所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。
因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。
聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。
其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
二、基本思想的异同(一)共同点主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。
并且新的变量彼此间互不相关,消除了多重共线性。
这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。
在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。
在诸多主成分Zi中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。
因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。
主成分分析聚类分析比较

主成分分析聚类分析比较
聚类分析(Cluster Analysis)是一种将数据划分为不同组(即簇)
的方法。
它通过根据数据之间的相似性度量来识别相似的数据点,并将它
们分配到同一个簇中。
聚类分析可以帮助我们在没有预先定义类别的情况下,发现数据中的特定模式和群集。
它在无监督学习中常用于探索性数据
分析和市场细分等领域。
然而,主成分分析和聚类分析也有一些明显的区别。
首先,在目标上,主成分分析旨在将原始数据映射到一个低维空间,以便更好地理解数据的
结构。
而聚类分析旨在将数据分成不同的组或簇,以便更好地识别数据中
的模式。
其次,在技术上,主成分分析使用线性变换和协方差矩阵来找到
数据中的主成分,而聚类分析使用不同的相似性度量方法(如欧氏距离、
余弦相似度等)来识别簇。
由于主成分分析和聚类分析的应用领域和基本原理不同,因此在具体
问题中选择使用哪种方法取决于数据的性质和分析的目的。
例如,如果我
们想要降低数据的维度以便更好的可视化,或者减少计算复杂性以便更容
易进行后续分析,那么主成分分析是一个不错的选择。
另一方面,如果我
们对数据中的模式和群集感兴趣,并希望找出数据中的隐藏结构,那么聚
类分析是更合适的选择。
综上所述,虽然主成分分析和聚类分析在目标和技术上存在一些差异,但它们都是有助于揭示数据的潜在结构和模式的无监督学习方法。
在数据
分析中,我们可以根据具体的需求选择适当的方法,以便更好地理解和利
用数据。
主成分分析和聚类分析的比较

主成分分析和聚类分析的比较摘要:主成分分析和聚类分析方多元统计中两种重要的分析方法,但却容易在使用中混淆。
本文从基本思想,应用的优缺点、应用实例中讨论两者的异同,并简述两种方法在实际问题中的应用。
关键词:主成分分析;聚类分析一、引言主成分分析是利用降维的思想,在缺失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。
通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。
聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。
其主要依据是聚到同一个数据集的样本应该性质相似,而属于不同组的样本应该足够不相似。
两种方法既有区别又有联系,本文将两者的异同进行比较,并举例说明两者在实际应用中的联系,以便更好地理解这两种统计方法而为实际所应用。
二、基本思想的异同相同点:主成分分析方法是用少数的几个变量来综合反映原始变量的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85%以上,因此其可信度很高。
通过主成分分析,可以将事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,解释变量之间的内在关系。
因此主成分变量比原始变量少了很多,从而起到了降维的作用。
聚类分析的基本思想是采用多变量的统计值,定量的确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用。
按它们亲疏差异程度,归类不同的分类中的一元。
使分类更具有客观实际并能反映事物的内在必然联系。
聚类分析是通过一种大的对称矩阵来探索相关关系的一种数学分析方法。
对变量分类后,我们对数据的处理难度也降低,所以从某种意义上说,聚类分析也起到了降维的作用。
不同点:主成分分析是研究如何通过原来变量的少数几个变量组合来解释原来变量绝大多数信息的一种多元统计方法。
聚类分析、判别分析、主成分分析、因子分析

聚类分析、判别分析、主成分分析、因子分析聚类分析、判别分析、主成分分析、因子分析主成分分析与因子分析的区别1. 目的不同:因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。
2. 线性表示方向不同:因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。
3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。
4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。
5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。
6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。
7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。
当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。
1 、聚类分析基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析、聚类分析比较主成分分析、聚类分析的比较与应用主成分分析、聚类分析的比较与应用摘要:主成分分析、聚类分析是两种比较有价值的多元统计方法,但同时也是在使用过程中容易误用或混淆的几种方法。
本文从基本思想、数据的标准化、应用上的优缺点等方面,详细地探讨了两者的异同,并且举例说明了两者在实际问题中的应用。
关键词:spss、主成分分析、聚类分析一、基本概念主成分分析就是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
综合指标即为主成分。
所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。
因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。
聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。
其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
二、基本思想的异同(一)共同点主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。
并且新的变量彼此间互不相关,消除了多重共线性。
这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。
在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。
在诸多主成分Zi中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。
因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。
公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。
对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。
聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。
也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。
聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。
对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。
(二) 不同之处主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量) ,使它们尽可能多地保留原始变量的信息,且彼此不相关。
它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,保持变量的总方差(方差之和) 不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。
依次类推。
若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m(m < p) 个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差。
主成分分析可以作为因子分析的一种方法出现。
因子分析是寻找潜在的起支配作用的因子模型的方法。
因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。
对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
通过因子分析得来的新变量是对每个原始变量进行内部剖析。
因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。
具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。
因子分析只能解释部分变异,主成分分析能解释所有变异。
聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。
聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小。
聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。
从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量。
三、数据标准化的比较主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据。
而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化。
不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化。
在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价。
聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。
因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。
不同方法进行标准化,会导致不同的聚类结果要注意变量的分布。
如果是正态分布应该采用z 分数法。
四、应用中的优缺点比较(一) 主成分分析1、优点首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。
其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。
再次它在应用上侧重于信息贡献影响力综合评价。
2、缺点当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
命名清晰性低。
(二) 聚类分析1、优点聚类分析模型的优点就是直观,结论形式简明。
2、缺点在样本量较大时,要获得聚类结论有一定困难。
由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。
五.案例分析:下表是关于全国31个省市的8项经济指标,以此为例,进行主成分分析。
省份国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.94721717.3116.9115.6697.25内蒙832.881387250.234134781.7117.5116.8419.39辽宁2793.372397387.9949111371.7116.11141840.55吉林1129.21872320.454430497.4115.2114.2762.47黑龙江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.71131642.95江苏5155.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67江西1205.111182282.844211411.7116.9115.9571.84山东5002.3415271229.5551451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849120116.61220.72湖南2195.71408422.6147971011.8119115.5843.83广东5381.7226991639.838250656.5114111.61396.35广西1606.151314382.595105556118.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川35341261822.544645902.3118.51171431.81贵州630.07942150.844475301.1121.4117.2324.72云南1206.6812613345149310.4121.3118.1716.65西藏55.98111017.877382 4.2117.3114.9 5.57陕西1000.031208300.274396500.9119117600.98甘肃553.351007114.815493507119.8116.5468.79青海165.31144547.76575361.6118116.3105.8宁夏169.75135561.985079121.8117.1115.3114.4新疆834.571469376.965348339119.7116.7428.76经过输入数据,设置各项,Spss最终输出结果如下:描述统计量均值标准差分析 N国内生产1921.092667 1.4748060E3 30居民消费1745.93 861.642 30固定资产511.508667 402.8853614 30职工工资5457.63 1310.218 30货物周转666.140000 459.9669850 30消费价格117.287 2.0253 30商品零售114.907 1.8981 30工业产值862.998000 584.5872585 30相关矩阵a国内生产居民消费固定资产职工工资货物周转消费价格相关国内生产 1.000 .267 .951 .191 .617 -.273居民消费.267 1.000 .426 .718 -.151 -.235固定资产.951 .426 1.000 .400 .431 -.280职工工资.191 .718 .400 1.000 -.356 -.135货物周转.617 -.151 .431 -.356 1.000 -.253消费价格-.273 -.235 -.280 -.135 -.253 1.000商品零售-.264 -.593 -.359 -.539 .022 .763工业产值.874 .363 .792 .104 .659 -.125a. 行列式 = .000相关矩阵a商品零售工业产值相关国内生产-.264 .874居民消费-.593 .363固定资产-.359 .792职工工资-.539 .104货物周转.022 .659消费价格.763 -.125商品零售 1.000 -.192工业产值-.192 1.000 a. 行列式 = .000公因子方差初始提取国内生产 1.000 .945居民消费 1.000 .800固定资产 1.000 .902职工工资 1.000 .875货物周转 1.000 .857消费价格 1.000 .957商品零售 1.000 .929工业产值 1.000 .903提取方法:主成份分析。