聚类集成研究与应用

摘要 ............................................................................................................................... I Abstract ........................................................................................................................ I I 第一章绪论 .. (1)

1.1研究背景与意义 (1)

1.1.1研究背景 (1)

1.1.2研究意义 (2)

1.2集成学习发展现状 (2)

1.2.1 集成学习理论发展现状 (2)

1.2.2集成学习的应用 (3)

1.3本文的研究内容 (4)

1.4论文的组织结构 (4)

第二章相关理论 (5)

2.1聚类分析 (5)

2.1.1聚类分析介绍 (5)

2.1.2聚类方法的分类 (7)

2.1.3聚类结果的评价 (10)

2.2 集成学习 (12)

2.2.1聚类集成 (13)

2.2.2聚类集成过程 (13)

2.2.3 生成聚类成员 (14)

2.2.4 一致性集成 (15)

2.3 聚类集成的缺点 (17)

本章小结 (18)

第三章基于ClusterDP的聚类集成算法 (19)

3.1ClusterDP算法原理 (19)

3.1.1 基本假设 (19)

3.1.2 聚类过程 (20)

3.1.2 算法特点 (21)

3.2 ClusterDP聚类集成 (21)

3.2.1 生成聚类成员 (21)

3.2.2 确定数据权重 (22)

3.2.3 获取最终结果 (23)

3.3实验结果与分析 (24)

本章小结 (26)

第四章基于权重的LCE算法 (27)

4. 1 LCE算法 (27)

4.1.1算法流程 (28)

4.1.2 CTS矩阵 (29)

4.2引入权重信息 (31)

4.1.1 算法 (33)

4.3实验结果与分析 (35)

本章小结 (39)

第五章基于聚类集成的图像分类算法 (40)

5. 1 算法介绍 (40)

5.1.1白化处理 (40)

5.1.2算法流程 (40)

5.1.3算法改进 (41)

5.2实验结果与分析 (43)

本章小结 (44)

第六章总结与展望 (45)

致谢 (47)

参考文献 (48)

附录 (51)

摘要

聚类分析的目是将数据自动划分成有意义的分组。不同的聚类算法在相同的数据集上运行会得到不同的结果，没有一种单独的聚类算法能够在所有的数据集上找到最好的划分。聚类集成的出现很好的解决了上述题。

聚类集成由两个阶段组成：生成有差异的聚类成员，利用一致性集成获取最终聚类结果。通过设置单个聚类算法的不同参数，采用数据子集或者数据的子空间产生聚类成员。一致性集成则是将多个聚类成员生成的结果转换成共协矩阵或簇关联矩阵，最后利用层次聚类，超图划分等方法来获取最终聚类结果。

首先本文利用自编码器和ClusterDP算法产生聚类成员，使用WOMC算法对聚类成员进行集成，得到EClusterDP算法。在投票法中使用聚类成员的权重信息相对比较容易，但是这类算法都严格限制聚类成员产生数目相同的簇，这将导致生成的互信息矩阵中元素差异较小，进而使得聚类成员的权重比较接近影响加权效果，本文基于不限制聚类成员生成相同簇数量的算法LCE，利用抽样的方法将聚类成员的权重引入LCE算法中。在集成规模扩大，不能明显提高聚类结果时，使用加权的方法能有效的提高聚类结果，接着本文研究利用k-means算法进行特征转换的图像分类算法，由于k-means算法易受初始点影响，且容易陷入局部最优导致算法不稳定，本文通过对k-means 算法进行聚类集成，找到更好的数据表达，提高分类准确率。

关键词：聚类分析；权重信息；聚类集成；一致性集成