二聚类与判别

合集下载

北航数理统计大作业2-聚类与判别分析讲解

应用数理统计作业二学号：姓名：电话：二〇一四年十二月对NBA球队的聚类分析和判别分析摘要：NBA联盟作为篮球的最高殿堂深受广大球迷的喜爱，联盟的30支球队大家也耳熟能详，本文选取NBA联盟30支球队2013-2014常规赛赛季场均数据。

利用spss软件通过聚类分析对27个地区进行实力类型分类，并利用判断分析对其余3支球队对分类结果进行验证。

可以看出各球队实力类型与赛季实际结果相吻合。

关键词：聚类分析，判别分析，NBA目录1. 引言 (4)2、相关统计基础理论 (5)2.1、聚类分析 (5)2.2，判别分析 (6)3.聚类分析 (7)3.1数据文件 (7)3.2聚类分析过程 (9)3.3 聚类结果分析 (11)4、判别分析 (12)4.1 判别分析过程 (12)4.2判别检验 (17)5、结论 (20)参考文献 (21)致谢 (22)1. 引言1896年，美国第一个篮球组织"全国篮球联盟（简称NBL）"成立，但当时篮球规则还不完善，组织机构也不健全，经过几个赛季后，该组织就名存实亡了。

1946年4月6日，由美国波士顿花园老板沃尔特.阿.布朗发起成立了“美国篮球协会”（简称BAA）。

1949年在布朗的努力下，美国两大篮球组织BAA和NBL合并为“全国篮球协会”（简称NBA）。

NBA季前赛是 NBA各支队伍的热身赛，因为在每个赛季结束后，每支球队在阵容上都有相当大的变化，为了让各队磨合阵容，熟悉各自球队的打法，确定各队新赛季的比赛阵容、同时也能增进队员、教练员之间的沟通，所以在每个赛季开始之前，NBA就举办若干场季前赛，使他们能以比较好的状态投入到漫长的常规赛的比赛当中。

为了扩大NBA在全球的影响，季前赛有约三分之一的球队在美国以外的国家举办。

从总体上看，NBA的赛程安排分为常规赛、季后赛和总决赛。

常规赛采用主客场制，季后赛和总决赛采用七场四胜制的淘汰制。

[31]NBA常规赛从每年的11月的第一个星期二开罗，到次年的4月20日左右结束。

聚类分析与判别分析区别

ｉｊ
表示
：
ｃｏｓ
!
ｉｊ
＝
ｐ
ａ
＝
１
!
ｘ
ｉａ
ｘ
ｊａ
ｐ
ａ
＝
１
!
ｘ
２
・
ｐ
ａ
＝
１
!
ｘ
２
"
ｉａ
ｊａ
１
≤
ｃｏｓ
!
ｉｊ
≤
１
当
ｃｏｓ
!
ｉｊ
＝１
，
说明两个样品
ｘ
ｉ
与
ｘ
ｊ
完全相似
；
ｃｏｓ
!
ｉｊ
接
近
１
，
说
明
两
个
样
品
ｘ
ｉ
与
ｘ
ｊ
相
似
密
切
；
ｃｏｓ
!
ｉｊ
＝０
，
说明
ｘ
ｉ
与
ｘ
ｊ
完全不一样
；
ｃｏｓ
!
ｉｊ
接近
０
，
说
明
ｘ
ｉ
与
ｘ
ｊ
差别大。把所有两两样品的相似系数都
通过聚类分析可以达到简化数据的目的
，
将
众多的样品先聚集成比较好处理的几个类别或子
集
，
然后再进行后续的多元分析。
比如在回归分析
中
，
有时不对原始数据进行拟合
，
而是对这些子集
的中心作拟合
，
可能会更有意义。又比如
，
为了研
究不同消费者群体的消费行为特征
，

聚类分析和判别分析

18
24 30 36 42 48 54 60 66 72
0.69
0.77 0.59 0.65 0.51 0.73 0.53 0.36 0.52 0.34
1.33
1.41 1.25 1.19 0.93 1.13 0.82 0.52 1.03 0.49
0.48
0.52 0.30 0.49 0.16 0.35 0.16 0.19 0.30 0.18
i i
( xi x ) 2 ( yi y ) 2
i i
i
当变量的测量值相差悬殊时,要先进行标准化. 如R为极差, s 为标准差, 则标准化的数据为每个观测值减去均值后再除以R或s. 当观测值大于0时, 有人采用Lance和Williams的距离
1 | xi yi | x y p i i i
Number of Cases in each Cluster Cluster 1 2 3 4 1.000 1.000 2.000 15.000 19.000 .000
Valid Missing
结果解释
参照专业知识，将儿童生长发育分期定为：第一期，出生后至满月，增长率最高；第二期，第2个月起至第3个月，增长率次之；第三期，第3个月起至第8个月，增长率减缓；第四期，第8个月后，增长率显著减缓。
k-均值聚类：案例
为研究儿童生长发育的分期，调查1253名1月至7岁儿童的身高（cm）、体重（kg）、胸围（cm）和坐高（cm）资料。资料作如下整理：先把1月至7岁划成19个月份段，分月份算出各指标的平均值，将第1月的各指标平均值与出生时的各指标平均值比较，求出月平均增长率（%），然后第2月起的各月份指标平均值均与前一月比较，亦求出月平均增长率（%），结果见下表。欲将儿童生长发育分为四期，故指定聚类的类别数为4，请通过聚类分析确定四个儿童生长发育期的起止区间。

判别分析与聚类分析的基本原理

判别分析与聚类分析的基本原理数据分析是在如今信息时代中，越来越重要的一项技能。

在数据分析的过程中，判别分析和聚类分析是两个非常重要的方法。

本文将介绍判别分析和聚类分析的基本原理，以及它们在数据分析中的应用。

一、判别分析的基本原理判别分析是一种用于分类问题的统计方法，其目的是通过学习已知类别的样本数据，来构建一个分类器，从而对未知样本进行分类。

判别分析的基本原理可以简单概括为以下几个步骤：1. 数据预处理：首先需要对数据进行预处理，包括数据清洗、缺失值处理、特征选择等，以获得更好的数据质量。

2. 特征提取：在进行判别分析之前，需要将原始数据转化为有效的特征。

特征提取的方法有很多种，常用的包括主成分分析、线性判别分析等。

3. 训练分类器：利用判别分析算法对已知类别的样本数据进行训练，建立分类模型。

常用的判别分析方法有线性判别分析、二次判别分析等。

4. 分类预测：通过训练好的分类器，对未知样本进行分类预测。

分类预测的结果可以是离散的类标签，也可以是概率值。

判别分析广泛应用于医学、金融、市场营销等领域。

例如，在医学领域，可以利用判别分析来预测疾病的状态，辅助医生做出诊断决策。

二、聚类分析的基本原理聚类分析是一种无监督学习方法，其目的是将相似的数据对象分组，使得同一组内的对象相似度较高，不同组间的相似度较低。

聚类分析的基本原理可以概括为以下几个步骤：1. 选择相似性度量：首先需要选择一个合适的相似性度量，用于评估数据对象之间的相似程度。

常用的相似性度量包括欧氏距离、曼哈顿距离等。

2. 选择聚类算法：根据具体的问题需求，选择合适的聚类算法。

常用的聚类算法有K-means、层次聚类等。

3. 确定聚类数目：根据实际问题，确定聚类的数目。

有些情况下，聚类数目事先是已知的，有些情况下需要通过评价指标进行确定。

4. 根据聚类结果进行分析：将数据对象划分到各个聚类中，并对聚类结果进行可视化和解释。

聚类分析被广泛应用于市场分析、图像处理、社交网络等领域。

聚类和判别分析

市场细分
在市场营销中，判别分析可用于识别消费者群体的特征和行为模式，以便进行更有效的市场细分和定位。
04
判别分析算法
线性判别分析（LDA）
01
基本思想：通过找到一个投影方向，使得同类样本在该方向上投影后尽可能接近，不同类样本在该方向上投影后尽可能远离。
02
算法步骤
03
1. 计算各类样本均值。
04
2. 计算类间散度矩阵和类内散度矩阵。
05
3. 计算投影方向，使得类间散度矩阵最大，类内散度矩阵最小。
06
4. 将样本投影到该方向上，得到判别结果。
支持向量机（SVM）
算法步骤
2. 计算支持向量所构成的法向量。
基本思想：通过找到一个超平面，使得该超平面能够将不同类样本尽可能分开，同时使得离超平面最近的样本距离尽可能远。
目的
聚类分析的目的是揭示数据集中的内在结构，帮助我们更好地理解数据的分布和特征，为进一步的数据分析和挖掘提供基础。
聚类方法分类
01
基于距离的聚类
根据对象之间的距离进行聚类，常见的算法有K-means 、层次聚类等。
02
基于密度的聚类
根据数据点的密度进行聚类，将密度较高的区域划分为一类，常见的算法有DBSCAN、OPTICS等。
聚类和判别分析
目录
• 聚类分析概述 • 聚类分析算法 • 判别分析概述 • 判别分析算法 • 聚类与判别分析的比较与选择
01
聚类分析概述
定义与目的
定义
聚类分析是一种无监督学习方法，旨在将数据集中的对象按照它们的相似性或差异性进行分组，使得同一组内的对象尽可能相似，不同组之间的对象尽可能不同。

聚类分析和判别分析

垂直冰柱图
树状图是将实际的距离按比例调整到0-25 例调整到的范围内, 的范围内,用逐级连线的方式连线距离相近的样品和新类,直至成为一大类. 一大类.
判别分析
判别分析也是一种常用比较常用的分类分析方法, 类分析方法,它先根据已知类别的事物的性质(自变量) 建立函数式( 的性质(自变量),建立函数式(自变量的线性组合,即判别函数) 线性组合,即判别函数),然后对未知类别的新事物进行判断以将之归入已知的类别中. 类别中.
1,快速聚类快速聚类也称为逐步聚类, 快速聚类也称为逐步聚类,它先对数据进行初始分类, 对数据进行初始分类,然后系统采用标准迭代算法进行运算,逐步调整, 准迭代算法进行运算,逐步调整,把所有的个案归并在不同的类中, 有的个案归并在不同的类中,得到最终分类.它适用于大容量样本的情形. 分类.它适用于大容量样本的情形.
利用快速聚类分析对20家上市公司进行分类. 20家上市公司进行分类例1:利用快速聚类分析对20家上市公司进行分类.
SPSS实现 SPSS实现 (1)打开文件打开文件: (1)打开文件:上市公司.sav .sav. 公司.sav. (2)点击分析/ 点击" (2)点击"分析/分 /K类/K-均值聚类". (3)选择变量选择变量, (3)选择变量, 个案标记依据, 个案标记依据, 分类类别数. 分类类别数. (如图对话框中 2表示把所有个案分为两类) 案分为两类)
聚类分析主要解决的问题: 聚类分析主要解决的问题:所研究的对象事前不知道应该分为几类, 象事前不知道应该分为几类,更不知道分类情况, 情况,需要建立一种分类方法来确定合理的分类数目,并按相似程度, 分类数目,并按相似程度,相近程度对所有对象进行具体分类. 对象进行具体分类. 基本思路:在样本之间定义距离, 基本思路:在样本之间定义距离,在指标之间定义相关系数,按距离的远近, 标之间定义相关系数,按距离的远近,相似系数的大小对样本或指标进行归类. 系数的大小对样本或指标进行归类. SPSS实现实现: 分析/分类"命令. SPSS实现:"分析/分类"命令. 常用的有快速( K-均值)聚类分析, 常用的有快速( K-均值)聚类分析,系统聚类分析. 类分析.

判别分析与聚类分析

判别分析与聚类分析判别分析与聚类分析是数据分析领域中常用的两种分析方法。

它们都在大量数据的基础上通过统计方法进行数据分类和归纳，从而帮助分析师或决策者提取有用信息并作出相应决策。

一、判别分析：判别分析是一种有监督学习的方法，常用于分类问题。

它通过寻找最佳的分类边界，将不同类别的样本数据分开。

判别分析可以帮助我们理解和解释不同变量之间的关系，并利用这些关系进行预测和决策。

判别分析的基本原理是根据已知分类的数据样本，建立一个判别函数，用来判断未知样本属于哪个分类。

常见的判别分析方法包括线性判别分析（LDA）和二次判别分析（QDA）。

线性判别分析假设各类别样本的协方差矩阵相同，而二次判别分析则放宽了这个假设。

判别分析的应用广泛，比如在医学领域可以通过患者的各种特征数据（如生理指标、疾病症状等）来预测患者是否患有某种疾病；在金融领域可以用来判断客户是否会违约等。

二、聚类分析：聚类分析是一种无监督学习的方法，常用于对数据进行分类和归纳。

相对于判别分析，聚类分析不需要预先知道样本的分类，而是根据数据之间的相似性进行聚类。

聚类分析的基本思想是将具有相似特征的个体归为一类，不同类别之间的个体则具有明显的差异。

聚类分析可以帮助我们发现数据中的潜在结构，识别相似的群组，并进一步进行深入分析。

常见的聚类分析方法包括层次聚类分析（HCA）和k-means聚类分析等。

层次聚类分析基于样本间的相似性，通过逐步合并或分割样本来构建聚类树。

而k-means聚类分析则是通过设定k个初始聚类中心，迭代更新样本的分类，直至达到最优状态。

聚类分析在市场细分、社交网络分析、图像处理等领域具有广泛应用。

例如，可以将客户按照他们的消费喜好进行分组，以便为不同群体提供有针对性的营销活动。

总结：判别分析和聚类分析是两种常用的数据分析方法。

判别分析适用于已知分类的问题，通过建立判别函数对未知样本进行分类；聚类分析适用于未知分类的问题，通过数据的相似性进行样本聚类。

聚类分析与判别分析的区别

二聚类分析与判别分析的区别1基本思想不同1聚类分析的基本思想我们所研究的样品或指标变量之间存在程度不同的相似性亲疏关系于是根据一批样品的多个观测指标具体找出一些能够度量样品或指标之间相似程度的统计量以这些统计量作为划分类型的依据
武汉学刊２００６年第１期
经济研究
聚类分析与判别分析的区别
邓海燕
上世纪６０年代末到７０年代初，人们把大量因变量的各个类别。
义如下：
ｍ
"! ２
ｄｉｊ＝
（Ｘｉｋ－Ｘｊｋ）
ｋ＝１
其中：Ｘｉｋ：第ｉ个样品的第ｋ个指标的观测值
Ｘｊｋ：第ｊ个样品的第ｋ个指标的观测值
ｄｉｊ：第ｉ个样品与第ｊ个样品之间的欧氏距离
依次求出任何两个点的距离系数ｄｉｊ（ｉ，ｊ＝１，２，
…，ｎ）以后，则可形成一个距离矩阵：
或“ 相似系数 ”较小的点归为不同的类。
“距离”常用来度量样品之间的相似性，“相似
系数 ”常用来度量变量之间的相似性。
ａ、根据不同的需要，距离可以定义为许多类
型，最常见、最直观的距离是欧几里德距离，其定
目的决定，一般可用背景变量、生活形态变量、产品使用变量或消费者行为变量等。
ｂ、研究消费者行为同一类别的消费者或购买者可能有着相似的购买行为，通过对不同类别的消费者的研究，可以深入地探讨各类消费者的消费行为。ｃ、设计抽样方案在大规模的抽样调查中，常常采用分层抽样，以提高抽样的精度。例如：湖北省的消费者调查的抽样方案，首先将城市或地区按一些可能影响消费水平和行为的变量分层，然后在各层中再实行多级抽样，分层所采用的方法之一就是聚类分析。ｄ、寻找新的潜在市场按照同一类的产品或品牌聚类，可将竞争的产品或品牌分类。竞争更为激烈的会在同一类内。通过考察和比较目前自己的情况和竞争对手的情况，就有可能发现潜在的新产品机会。ｅ、选择试验的市场为了推出某项新的市场策略，例如开发新的产品、实行新的促销方式、新的广告创意等，需要进行事先的实验。通过聚类分析，可将实验的对象（例如商店、城市、居民区等）分成同质的几个组作为实验组和控制组。ｆ、作为多元分析的预处理通过聚类分析可以达到简化数据的目的，将众多的样品先聚集成比较好处理的几个类别或子集，然后再进行后续的多元分析。比如在回归分析中，有时不对原始数据进行拟合，而是对这些子集的中心作拟合，可能会更有意义。又比如，为了研究不同消费者群体的消费行为特征，可以先聚类，然后再利用判别分析进一步研究各个群体之间的差异。（２）判别分析在市场研究中主要用于对一个企业进行市场细分，以选择目标市场，有针对性地进行广告、促销等活动。例如，根据消费者的一些背景资料如何判定他们中的哪些会是某种品牌的忠诚用户，哪些不是？或者想要知道，忠诚用户和非忠诚用户在人口的基本特征方面到底有哪些不同？如何区分价格敏感型的顾客和非敏感型的顾客？哪些心里特征或生活形态特征可以用作判别或区分的标准？各种目标消费群体在媒介接触方面是否有显著的差异？等等这类均可以通过判别

判别分析与聚类分析方法

⎪⎩∞
如果G P 和Gq 是近邻否则
聚类方法比较
综合特性最好的聚类方法为类平均法或Ward 最小方差法，而最差的则为最短距离法。 Ward最小方差法倾向于寻找观察数相同的类。类平均法偏向寻找等方差的类。拉长的或无规则的类使用最短距离法比其他方法好。非参数问题的聚类方法为密度估计法。
5
类的统计量
3
修改后的程序
data newiris;/*测试新数据*/
input sepallen sepalwid petallen petalwid @@;
cards;
56 30 41 13
51 35 14 23
67 25 18 15
run;
proc discrim data=iris pool=test outstat=plotiris testdata=newiris testout=plotp;
样品聚类法2：动态(快速)聚类法
K-means cluster ①选择若干个观察作为“凝聚点”或称类的中心点，作
proc candisc <选项列表>； class 变量； by 变量表； freq 变量； var 变量表； weight 变量； run；
candisc选项
out=数据集名——生成一个包含原始数据和典型变量得分的SAS数据集。 ncan＝——指定将被计算的典型变量的个数。
实例分析
Fisher鸢尾花（Iris）数据修改后的程序chap8_01B
∑ ( ) k exp i =1
−
0.5Di2
( x, Gi
)
广义平方距离
Di2 (x)
=
d
2 i
(
x)

聚类分析聚类分析和判别分析有相似的作用，都是起到分类的作用...

聚类分析聚类分析和判别分析有相似的作用，都是起到分类的作用。

但是，判别分析是已知分类然后总结出判别规则，是一种有指导的学习；而聚类分析则是有了一批样本，不知道它们的分类，甚至连分成几类也不知道，希望用某种方法把观测进行合理的分类，使得同一类的观测比较接近，不同类的观测相差较多，这是无指导的学习。

所以，聚类分析依赖于对观测间的接近程度（距离）或相似程度的理解，定义不同的距离量度和相似性量度就可以产生不同的聚类结果。

SAS/STAT中提供了谱系聚类、快速聚类、变量聚类等聚类过程。

谱系聚类方法介绍谱系聚类是一种逐次合并类的方法，最后得到一个聚类的二叉树聚类图。

其想法是，对于个观测，先计算其两两的距离得到一个距离矩阵，然后把离得最近的两个观测合并为一类，于是我们现在只剩了个类（每个单独的未合并的观测作为一个类）。

计算这个类两两之间的距离，找到离得最近的两个类将其合并，就只剩下了个类……直到剩下两个类，把它们合并为一个类为止。

当然，真的合并成一个类就失去了聚类的意义，所以上面的聚类过程应该在某个类水平数（即未合并的类数）停下来，最终的类就取这些未合并的类。

决定聚类个数是一个很复杂的问题。

设观测个数为，变量个数为，为在某一聚类水平上的类的个数，为第个观测，是当前（水平）的第类，为中的观测个数，为均值向量，为类中的均值向量（中心），为欧氏长度，为总离差平方和，为类的类内离差平方和，为聚类水平对应的各类的类内离差平方和的总和。

假设某一步聚类把类和类合并为下一水平的类，则定义为合并导致的类内离差平方和的增量。

用代表两个观测之间的距离或非相似性测度，为第水平的类和类之间的距离或非相似性测度。

进行谱系聚类时，类间距离可以直接计算，也可以从上一聚类水平的距离递推得到。

观测间的距离可以用欧氏距离或欧氏距离的平方，如果用其它距离或非相似性测度得到了一个观测间的距离矩阵也可以作为谱系聚类方法的输入。

根据类间距离的计算方法的不同，有多种不同的聚类方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验二聚类与判别实验项目名称：利用Matlab进行聚类和判别分析实验项目性质：普通实验所属课程名称：数学建模实验参考资料：实验计划学时：4一、实验目的：1、利用MATLAB进行聚类分析和判别分析；2、通过实际例题学习用聚类和判别分析解决相关简单的实际问题；3、理解判别分析误判率含义，应用判别模型进行预测。

二、实验内容2.1 聚类分析1、工厂产品问题（教材220页例题9.3）；2、工人身高体重问题（教材239页习题9.1）；2.2 判别分析1、雨天非雨天问题（教材231页例9.5）；2、蠓的分类（教材234页）；三、实验方法、步骤及结果分析简要提示3.1 基础知识一、聚类在MATLAB中通过pdist、linkage、dendrogram、cluster等函数来完成此种方法。

层次聚类的过程如下：1、相似性度量确定对象（实际上就是数据集中的每个数据点）之间的相似性，实际上就是定义一个表征对象之间差异的距离，例如最简单的平面上点的聚类中，最经常使用的就是欧几里得距离。

使用pdist来实现，具体用法如下:Y = pdist（X，distance）根据距离distance来计算X中各点之间的距离Y。

其中X为数据集，distance可以取为欧氏距离，马氏距离，切比雪夫距离。

对于具有M个点的数据集X，pdist之后的Y将是具有M*(M-1)/2个元素的行向量。

例1-1：Y=pdist（X）举例。

>> X=randn(6,2)X =-0.4326 1.1892-1.6656 -0.03760.1253 0.32730.2877 0.1746-1.1465 -0.18671.1909 0.7258>>plot(X(:,1),X(:,2),'bo') %画出X的散点图（图1）图1>>Y=pdist(X) %计算X的第一个点与与2-6点、第2点与3-6点,......距离Y =Columns 1 through 151.7394 1.0267 1.2442 1.5501 1.6883 1.8277 1.9648 0.54012.9568 0.2228 1.3717 1.1377 1.4790 1.0581 2.5092例子中X数据集可以看作包含6个平面数据点，pdist之后的Y是一个行向量，15个元素分别代表XC个元素的行向量。

的第1点与2-6点、第2点与3-6点,......这样的距离。

则Y为具有26注：（1）Y这样的显示虽然节省了内存空间，但对用户来说不是很易懂，如果需要对这些距离进行特定操作的话，也不太好索引。

MATLAB中可以用squareform把Y转换成方阵形式，方阵中<i，j>位置的数值就是X中第i和第j点之间的距离，显然这个方阵应该是个对角元素为0的对称阵。

>> squareform(Y)ans =0 1.7394 1.0267 1.2442 1.5501 1.68831.7394 0 1.8277 1.9648 0.54012.95681.0267 1.8277 0 0.2228 1.3717 1.13771.2442 1.9648 0.2228 0 1.4790 1.05811.5501 0.5401 1.3717 1.4790 02.50921.68832.9568 1.1377 1.0581 2.5092 0注：（2）pdist可以使用多种参数，指定不同的距离算法。

另外，当数据规模很大时，可以想象pdist产生的Y占用内存将是很吓人的，比如X有10k个数据点，那么X占10k*8*2Bytes=160K，这看起来不算啥，但是pdist后的Y会有10k*10k/2*8Bytes=400M。

因此，使用MATLAB的层次聚类来处理大规模数据，大概是很不合适的。

2、聚类树的产生确定好了对象间的差异度（距离）后，就可以用Z=linkage(Y)产生层次聚类树。

>> Z=linkage(Y) Z =3.00004.0000 0.22288.0000 10.0000 1.3717对于6个元素的X ， Y 是1行6*(6-1)/2的行向量，Z 则是(6-1)*3的矩阵。

Z 数组的前两列是索引下标列，最后一列是距离列。

如上例中表示在产生聚类树的计算过程中，第3和第4点先聚成一类，他们之间的距离是0.2228，以此类推。

要注意的是，为了标记每一个节点，需要给新产生的聚类也安排一个标识，MATLAB 中会将新产生的聚类依次用6+1,6+2,....依次来标识。

比如第3和第4点聚成的类以后就用7来标识，第2和第5点聚成的类用8来标识，依次类推。

通过linkage 函数计算之后，实际上二叉树式的聚类已经完成了。

Z 这个数据数组不太好看，可以用dendrogram(Z)来可视化聚类树。

dendrogram(Z)注：（3） dendrogram 默认最多画30个最底层节点，当然可是设置参数改变这个限制，比如dendrogram(Z,0)就会把所有数据点索引下标都标出来，但对于成千上万的数据集合，这样的结果必然是图形下方非常拥挤。

3、聚类树的检验（Verifying the Cluster Tree ）*初步的聚类树画完后，还要做很多后期工作的，包括这样的聚类是不是可靠，是不是代表了实际的对象分化模式，对于具体的应用，应该怎样认识这个完全版的聚类树，产生具有较少分叉的可供决策参考的分类结果呢？这都是需要考虑的。

MATLAB 中提供了cluster, clusterdata, cophenet, inconsistent 等相关函数。

cluster 用于剪裁完全版的聚类树，产生具有一定cutoff 的可用于参考的树。

clusterdata 可以认为是pdist,linkage,cluster 的综合，当然更简易一点。

cophenet 和inconsistent 用来计算某些系数，前者用于检验一定算法下产生的二叉聚类树和实际情况的相符程度（就是检测二叉聚类树中各元素间的距离和pdist计算产生的实际的距离之间有多大的相关性），inconsistent则是量化某个层次的聚类上的节点间的差异性（可用于作为cluster的剪裁标准）。

后面这些的理解，大概需要对聚类有一个更深刻更数学的认识。

在一个层次聚类树中，在原数据集中任何两个对象最终是某种程度上联结在一起。

联结的高度代表了包含这两个对象两个组之间的距离。

这个高度就是两个对象间的分类距离。

对于由linkage函数产生的聚类树，一种衡量其优劣的方式就是比较由linkage和pdist产生的距离。

如果聚类有效，在分类树中，对象的联结与距离向量中的对象将会具有强关联性。

Cophenet函数比较了这些值所在的两个集合并且计算它们的相关性，返回值称为分类相关系数，此值越接近1，说明对数据聚类的结果越能精确。

例如：图4 将20工厂的值赋给16和21工厂的聚类结果根据图4可见，聚类结果为：第一次计算两个样品的最小距离是1，所以把距离为1的点合成一类：{17，18，19}，{12，13}，{5，6，11}，{7，8，9}，{1，2}第二次计算两个类间的最短距离为2。

把距离不大于2的类归为一类，则得5个扩大的新类：{20，17，18，19}，{5，6，11，3}，{7，8，9，10}第三次计算两个类间的最小距离为2，则有新类{12，13，15}，{1，2，3，4}第四次计算两个类间的最小距离为2.2361，则将所有的点（除16和21），归在四类中：{12，13，15，14}，{1，2，3，4，5，6，11}，{7，8，9，10}，{17，18，19，20}二、判别能将数据模型进行分类的特征曲线称作分类器。

对于一种已知的分类器而言，源于训练数据。

然后基于此分类器对新的样本进行分类。

两个总体的判别法参数化的方法，例如判别分析—根据训练数据拟合出参数模型，然后代入新的数据对其进行分类。

非参数化的方法，如分类树的方法—使用其它的方式去确定分类器。

判别分析使用训练数据去估计关于预测变量的判别函数。

在预测空间中，判别函数确定不同类之间的界限。

1、距离判别法以G 1和G 2分别表示两总体，设它们是取值于R p 中的随机变量，它们的数学期望和协方差矩阵分别为11EG μ=，22EG μ=，11VarG S =，22VarG S =问题：设有一个样本x ∈R p，问x 属于总体G 1还是属于总体G 2？距离判别法是根据x 与G 1、G 2的距离决定x 的归属。

其原则是：若x 与G 1距离小，则x 属于G 1；若x 与G 2的距离小，则x 属于G 2。

即（ⅰ）如果1(,G )d x ≤2(,G )d x ，则判断1G x ∈；（ⅱ）如果2(,G )d x <1(,G )d x ，则判断2G x ∈。

其中，(,G )i d x 为马氏距离，即2(,G )i d x =(T 1)()i i i x S x μμ---，2,1=i[class,err,POSTERIOR] = classify(sample,training,group,type) 说明：sample —样本数据；training —训练数据集。

Classify 将训练集training 中的每行样本sample 数据进行分类， sample与training 必须是具有相同列数的矩阵； group —训练数据所对应的类集合； type —判别函数的类型；可选以下类型：（1）'linear' — 线性分类器，为缺省时默认值。

（2）'diaglinear' — 对角线性分类器，类似于 'linear', 但其具有一对角协方差矩阵估计 (naiveBayes classifiers).（3）'quadratic' — Fits multivariate normal densities with covariance estimates stratified by group.（4）'diagquadratic' — 类似于'quadratic'，但具有一个对角协方差矩阵估计。

Similar to 'quadratic', but with a diagonal covariance matrix estimate (naive Bayes classifiers).（5）'mahalanobis' — 使用马氏距离及协方差估计。

返回值class —对sample 的分类结果；err —基于训练数据的误判率估计；POSTERIOR —后验概率矩阵的估计值，即已知第i 个样本观察值条件下，其来源于第j 各类的概率Pr(group j|obs i)。