第二章聚类分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、相似测度
测度基础:以两矢量的方向是否相近作为考虑的基 础,矢量长度并不不重要。设
1.角度相似系数(夹角余弦)
(2-2-11)
毒蛇(viper)
猫 (cat)
麻雀(sparrow) 海鸥 (seagull)
金鱼(gold fish) 绯鲵鲣(red-mullet)
蛙 (frog)
要对这些动物进行分类,则不同的特征有不同的分法:
第二章 聚类分析
特征选取不同对聚类结果的影响
(a) 按繁衍后代的方式分
羊, 狗, 猫 蓝鲨
蜥蜴,毒蛇, 麻雀,海鸥,金鱼,
第二章 聚类分析
(Clustering Analysis)
2.1 聚类分析的概念 2.2 模式相似性测度 2.3 类的定义与类间距离 2.4 聚类的算法
第二章 聚类分析 2.1 聚类分析的概念
一、聚类分析的基本思想 ★相似的归为一类。 ★模式相似性的度量和聚类算法。 ★无监督分类(Unsupervised) 。
(2-2-3)
(2-2-4)
第二章 聚类分析 2.2 模式相似性测度
随机矢量 X的自协方差矩阵表征各分量围绕
其均值的散布情况及各分量间的相关关系,
其定义为:
r rr r
E[(X X )(X X )']
X
n
(xr
r )(xr
r )
'
p(xr )dxr
(
2 ij
)nn
第二章 聚类分析 2.2 模式相似性测度
⑶ d(x, y) d(x, z) d(z, y)
第二章 聚类分析 2.2 模式相似性测度
常用的距离测度有: 1.欧氏(Euclidean)距离
第二章 聚类分析 2.2 模式相似性测度
2.绝对值距离(街坊距离或Manhattan距离) (2-2-2)
3.切氏(Chebyshev)距离 4.明氏(Minkowski)距离
第二章 聚类分析
聚类应用的四个基本方向
四、基于分组的预测
对现有数据进行聚类分析,形成模式的特征, 并用特征表示聚类,接下来,对于一个未知模式, 就可以用前面的聚类来确定是哪一类?
例如:考虑被同种疾病感染的病人数据集。 先按聚类分析进行分类,然后对新的病人确定他 适合的聚类,从而判断他病情。
第二章 聚类分析 2.2 模式相似性测度
b
w1
W1
3.特征选取过多可能无益反
而有害,增加分析负担并使
分析效果变差。
w 2
W2
x1
第二章 聚类分析 2.1 聚类分析的概念
三、方法的有பைடு நூலகம்性
取决于分类算法和特征 点分布情况的匹配。
分类无效时的情况 4.量纲选取不当。
第二章 聚类分析 2.1 聚类分析的概念
三、方法的有效性
取决于分类算法和特征 点分布情况的匹配。
特征选取不同对聚类结果的影响
(d) 按繁衍后代方式和肺是否存在分
蜥蜴,毒蛇 麻雀,海鸥
青蛙
金鱼 绯鲵鲣
非哺乳且有肺 非哺乳且无肺
羊,狗,猫
哺乳且有肺
蓝鲨
哺乳且无肺
第二章 聚类分析
距离测度不同,聚类结果也不同
数据的粗聚类是两类,细聚类为4类
第二章 聚类分析
综上可见:
选择什么特征? 选择多少个特征? 选择什么样的量纲? 选择什么样的距离测度?
二、假说生成
在这种情况下,为了推导出数据性质的一些假 说,对数据集进行聚类分析。因此,这里使用聚类 作为建立假说的方法,然后用其他数据集验证这些 假说。
第二章 聚类分析
聚类应用的四个基本方向
三、假说检验
用聚类分析来验证指定假说的有效性。
例如:考虑这样的假说“大公司在海外投资”。 要验证这个假说是否正确,就要对大公司和有 代表性的公司按规模、海外活跃度、成功完成 项目的能力等进行聚类分析。从而来支持这个 假说。
5.马氏(Mahalanobis)距离
行列式>0
注意!马氏距离对一切非奇异线性变换都 是不变的,这说明它不受特征量纲选择的 影响,并且是平移不变的。
上面的V的含义是这个矢量集的协方差 阵的统计量,故马氏距离加入了对特征的 相关性的考虑。
第二章 聚类分析 2.2 模式相似性测度
Cholesky分解
2.2 模式相似性测度
二、特征量的类型 ★物理量----(重量、长度、速度) ★次序量----(等级、技能、学识) ★名义量----(性别、状态、种类)
第二章 聚类分析 2.1 聚类分析的概念
三、方法的有效性
取决于分类算法和特征 x2
点分布情况的匹配。
分类无效时的情况
b
w1
W1
1.特征选取不当使分类无效。
w 2
W2
x1
分类无效时的情况 4.量纲选取不当。
第二章 聚类分析 2.1 聚类分析的概念
三、方法的有效性
取决于分类算法和特征 点分布情况的匹配。
分类无效时的情况 4.量纲选取不当。
第二章 聚类分析
特征选取不同对聚类结果的影响
下列是一些动物的名称:
羊 (sheep)
狗 (dog)
蓝鲨(blue shark) 蜥蜴 (lizard)
用于描述各模式之间特征的相似程度 ●距 离 测 度 ●相 似 测 度 ●匹 配 测 度
第二章 聚类分析 2.2 模式相似性测度
一、距离测度(差值测度) 测度基础:两个矢量矢端的距离 测度数值:两矢量各相应分量之差的函数。

d
(x,
y)
0
,当且仅当
y
x
时,等号成立;

d
(
x,
y)
d
(
y,
x)
这些对分类结果都会产生极大影响。
第二章 聚类分析
聚类应用的四个基本方向
一、减少数据
许多时候,当数据量N很大时,会使数据处理 变得很费力。因此可使用聚类分析的方法将数据分 成几组可判断的聚类m(m<<N)来处理,每一个 类可当作独立实体来对待。从这个角度看,数据被 压缩了。
第二章 聚类分析
聚类应用的四个基本方向
绯鲵鲣, 青蛙
哺乳动物
非哺乳动物
第二章 聚类分析
特征选取不同对聚类结果的影响
(b) 按肺是否存在分
金鱼 绯鲵鲣
蓝鲨
无肺
羊,狗,猫 蜥蜴,毒蛇 麻雀,海鸥
青蛙
有肺
第二章 聚类分析
特征选取不同对聚类结果的影响
(c) 按生活环境分
羊,狗,猫 蜥蜴,毒蛇 麻雀,海鸥
金鱼 绯鲵鲣
蓝鲨
陆地
水里
青蛙
两栖
第二章 聚类分析
第二章 聚类分析 2.1 聚类分析的概念
三、方法的有效性
取决于分类算法和特征 x2 w 1
点分布情况的匹配。
W1
w
分类无效时的情况
2
W2
2.特征选取不足可能使不同
类别的模式判为一类。
w3
W3
x1
第二章 聚类分析 2.1 聚类分析的概念
三、方法的有效性
取决于分类算法和特征 x2
点分布情况的匹配。
分类无效时的情况
相关文档
最新文档