第八章聚类分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二节 层次聚类
• 以分解的方式聚类 – 首先,所有个体都属于一类 – 其次,将大类中最“疏远”的小类或个体分离出去 – 然后,分别将小类中最“疏远”的小类或个体再分离出去 – 重复上述过程,即:把类分解成越来越小的小类,直到所 有的个体自成一类为止 – 可见,随着聚类的进行,类内的亲密性在逐渐增强
Euclidean Distance
Case 1:A商厦 1:A商厦 .000 2:B商厦 8.062 3:C商厦 17.804 4:D商厦 26.907 5:E商厦 30.414
2:B商厦 8.062 .000
25.456 34.655 38.210
3:C商厦 17.804 25.456 .000 9.220 12.806
4:D商厦 26.907 34.655 9.220 .000 3.606
This is a dissimilarity matrix
5:E商厦 30.414 38.210 12.806 3.606 .000
第二节 层次聚类
三、层次聚类的基本操作
Fra Baidu bibliotek
第二节 层次聚类
5:E 商厦 4:D商厦 3:C商厦 2:B商厦 1:A商厦
第二节 层次聚类
二、个体与小类、小类间“亲疏程度”度量方法
– 最短距离法(Nearest neighbor) – 最长距离法(Furthest neighbor) – 组间平均链锁 (Between-groups linkage)距离 – 组内平均链锁 (Within-groups linkage)距离 – 重心(Centroid clustering)距离 – 最小离差平方和Pr(oWxiamridt’ys mMeatthroidx)
第一节 聚类分析概述
三、聚类分析注意事项
1、所选择的变量应符合聚类的要求 2、各变量的变量值不应有数量级上的差异 3、各变量之间不应有较强的线性相关关系
第二节 层次聚类
层次聚类,又称为系统聚类、分层聚 类,即聚类过程具有一定的层次性。
第二节 层次聚类
一、层次聚类的两种类型和两种方式
1、两种类型
编号 购物环境 服务质量
A
73
68
B
66
69
C
84
82
D
91
88
E
94
90
两类:(A B)、(C D E) 三类:(A B)、(C)、(D E)
第一节 聚类分析概述
二、亲疏程度的度量方法
➢ 相似性:数据间相似程度的度量。 ➢ 距离: 数据间差异程度的度量。距离越近,越
“亲密”,聚成一类;距离越远,越“疏远”,分别 属于不同的类。
• 聚类分析是建立一种分类,是将一批样本(或变量)按 照在性质上的“亲疏”程度,在没有先验知识的情况 下自动进行分类的方法。其中:类内个体具有较高的相 似性,类间的差异性较大。
第一节 聚类分析概述
依据平均得分 的差距,差距较小 的为一类。
分类过程中,没 有事先指定分类 的标准。完全根 据样本数据客观 产生分类结果。
• Q型——样本聚类 • R型——变量聚类
2、两种方式
• 凝聚方式聚类(√) • 分解方式聚类
第二节 层次聚类
• 以合并(凝聚)的方式聚类(SPSS采用) – 首先,每个个体自成一类 – 其次,将最“亲密”的个体聚成一小类 – 然后,将最“亲密”的小类或个体再聚成一类 – 重复上述过程,即:把所有的个体和小类聚集成越来越 大的类,直到所有的个体都到一起(一大类)为止 – 可见,随着聚类的进行,类内的“亲密”性在逐渐减低
联系方式
Tel: Email:
主要内容
第一章 统计分析及软件概述 第二章 数据预处理与管理 第三章 基本统计分析 第四章 参数检验与非参数检验 第五章 方差分析 第六章 相关分析 第七章 回归分析 第八章 聚类分析
第九章 因子分析
第一节 聚类分析概述
一、聚类分析的意义 • 概念:
– 统计学中研究“物以类聚”的一种方法,属多元统计分析方法. – 例如:细分市场、消费行为划分
姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4
张三 男 1 0 1
0
0
0
李四 女 1 0 1
0
1
0
王五 男 1 1 0
0
0
0
d(张,李 三) 四 01 0.33 d(张,王 三)五 11 0.67
201
101
d(李,王 四)五 1 1 1 220.75结似论的:病张; 三李和四李和四王最五有不可太能可得能类
的聚类解,而快速聚类只能产生单一的聚类解
第三节 K-Means聚类
二、思路
1. 指定最后要聚成K类
2. 用户指定k个样本作为初始类中心或系统自动确定k个 样本作为初始类中心
合计 19 19 38
( 9 8 .5 ) 2 ( 6 6 ) 2 ( 4 4 .5 ) 2 8 8 .5 ) 2 ( 6 6 ) 2 ( 5 4 .5 ) 2
(
) ( ) 0 .41
8 .5 6 4 .5 8 .5 6 4 .5
第一节 聚类分析概述
3、二值变量个体间的距离
• 简单匹配(simple matching)系数 • 雅科比(Jaccard)系数
第一节 聚类分析概述
二、亲疏程度的度量方法
1、定距型个体间的距离 把每个个案数据看成是n维空间上的点,在点和点
之间定义某种距离。
• 欧氏距离(EUCLID)
• 平方欧氏距离(SEUCLID)
• 切比雪夫距离 • Block距离
k
EUC(xL,yI)D (xi yi)2
• 明考斯基距离
i1
• 夹角余弦距离
第一节 聚类分析概述
二、亲疏程度的度量方法 2、计数变量个体间的距离
• 卡方距离(Chi-Square measure) • Phi方距离(Phi-Square measure)
姓名 选修课门数
张三 9(8.5)
李四 8(8.5)
合计
17
专业课门数 6(6) 6(6) 12
得优门数 4(4.5) 5(4.5) 9
Number of clusters
1
2
3
4
Vertical Icicle Case
XX X X X X X X X
XX X X X
XXX
XX X
X
XXX
XX X
X
X
X
第三节 K-Means聚类
一、出发点
• 希望:
– 克服分层聚类在大样本时产生的困难,提高聚类效 率
• 做法:
– 通过用户事先指定聚类数目的方式提高效率 – 因此,分层聚类可以对不同的聚类数而产生一系列
相关文档
最新文档