Kmeans聚类算法研究及应用

合集下载

kmeans色彩聚类算法

kmeans色彩聚类算法
K均值（K-means）色彩聚类算法是一种常见的无监督学习算法，用于将图像中的像素分组成具有相似颜色的集群。

该算法基于最小
化集群内部方差的原则，通过迭代寻找最优的集群中心来实现聚类。

首先，算法随机初始化K个集群中心（K为预先设定的参数），然后将每个像素分配到最接近的集群中心。

接下来，更新集群中心
为集群内所有像素的平均值，然后重新分配像素直到达到收敛条件。

最终，得到K个集群，每个集群代表一种颜色，图像中的像素根据
它们与集群中心的距离被归类到不同的集群中。

K均值色彩聚类算法的优点是简单且易于实现，对于大型数据
集也具有较高的效率。

然而，该算法也存在一些缺点，例如对初始
集群中心的选择敏感，可能收敛于局部最优解，对噪声和异常值敏
感等。

在实际应用中，K均值色彩聚类算法常被用于图像压缩、图像
分割以及图像检索等领域。

同时，为了提高算法的鲁棒性和效果，
通常会结合其他技术和方法，如颜色直方图、特征提取等。

此外，
还有一些改进的K均值算法，如加权K均值、谱聚类等，用于解决
K均值算法的局限性。

总之，K均值色彩聚类算法是一种常用的图像处理算法，通过对图像像素进行聚类，实现了图像的颜色分组和压缩，具有广泛的应用前景和研究价值。

《数据挖掘实验》---K-means聚类及决策树算法实现预测分析实验报告

实验设计过程及分析：1、通过通信企业数据（USER_INFO_M.csv），使用K-means算法实现运营商客户价值分析，并制定相应的营销策略。

（预处理，构建5个特征后确定K 值，构建模型并评价）代码：setwd("D:\\Mi\\数据挖掘\\")datafile<-read.csv("USER_INFO_M.csv")zscoredFile<- na.omit(datafile)set.seed(123) # 设置随机种子result <- kmeans(zscoredFile[,c(9,10,14,19,20)], 4) # 建立模型，找聚类中心为4round(result$centers, 3) # 查看聚类中心table(result$cluster) # 统计不同类别样本的数目# 画出分析雷达图par(cex=0.8)library(fmsb)max <- apply(result$centers, 2, max)min <- apply(result$centers, 2, min)df <- data.frame(rbind(max, min, result$centers))radarchart(df = df, seg =5, plty = c(1:4), vlcex = 1, plwd = 2)# 给雷达图加图例L <- 1for(i in 1:4){legend(1.3, L, legend = paste("VIP_LVL", i), lty = i, lwd = 3, col = i, bty = "n")L <- L - 0.2}运行结果：2、根据企业在2016.01-2016.03客户的短信、流量、通话、消费的使用情况及客户基本信息的数据，构建决策树模型，实现对流失客户的预测，F1值。

第二讲聚类Kmeans算法跟运用（K-meanscluster）

第⼆讲聚类Kmeans算法跟运⽤（K-meanscluster）CLEMENTINE 1212 CLEMENTINE--SEGMENTATION（K-MEANS）何谓集群分析何谓集群分析((CLUSTERING ANALYSIS )集群分析是⼀种将样本观察值进⾏分析，具有某些共同特性者予以整合在⼀起，再将之分配到特定的群体，最后形成许多不同集群的⼀种分析⽅法。

Clementine 12.0中提供的集群分析⽅法有三种：1. K-means2. Two-step3. KohonenK-MEANS的理论背景K-Means是集群分析(Cluster Analysis)中⼀种⾮阶层式((Nonhierarchical))的演算⽅法，由J. B. Mac Queen于1967年正式发表，也是最早的组群化计算技术。

其中，⾮阶层式则是指在各阶段分群过程中，将原有的集群予以打散，并重新形成新的集群。

K-Means是⼀种前设式群集算法，也就是说必须事前设定群集的数量，然后根据此设定找出最佳群集结构。

⽽K-Means算法最主要的概念就是以集群内资料平均值为集群的中⼼。

计算距離并分群的中⼼点重新计算新的距離并分群不断重复步骤三四，直到所设计的停⽌条件发⽣。

⼀般是以没有任何对象变换所属集群为停⽌绦件，也就是所谓的s q u a r e -e r r o r c r i t e r i o n ：代表集群的中⼼(平均数)，是集群内的物件，则代表集群。

210iKi p CiE p m =∈=?=∑∑i m i p i iC iK-MEANS的基本需求与优缺点建⽴K-means模型的要求：需要⼀个以上的In字段。

⽅向为Out、Both、None的字段将被忽略。

优点：建⽴K-means模型不需要分组数据。

对于⼤型数据集，K-means模型常常是最快的分群⽅法。

缺点：对于初始值的选择相当敏感，选择不同的初始值，可能会导致不同的分群结果。

kmeans聚类算法应用实例

kmeans聚类算法应用实例K-Means聚类算法应用实例一、K-Means聚类算法简介K-Means聚类算法是一种基于凝聚属性的迭代算法，它旨在将数据集中的样本点分类划分到指定数量的簇中，以达到相关性最强的分组效果。

算法的核心思想是，寻找代表簇中心的聚类中心，并根据距离聚类中心的远近，将样本分类到不同的簇中。

K-Means聚类的目的是要求出最优的聚类中心，使得样本集可以被完美划分成K个簇。

二、K-Means聚类算法的应用实例（1）客群分析K-Means聚类算法可以帮助分析客户行为及消费习惯，自动归类用户构成不同客群，如：高价值客户，积极向上的客户，偶尔购买的客户，交易历史较短的客户，低价值客户等，使企业更明确地识别其客户，选择最佳的沟通方式，创造出最大的收益。

（2）市场营销用户的社会属性，行为属性和品牌属性等，都可以利用K-Means算法对用户进行分类，进而分析用户喜好，细分市场，在不同市场中采取不同的营销战略，从而从更佳的维度去理解市场消费行为，深入分析和把握客户的行为，改善企业的市场营销效果。

（3）图像聚类K-Means聚类算法也可以用于图像处理中的相似图像聚类，以减少用户在查看数据时需要处理太多图像。

它旨在将图像划分为几个集群，使得每个簇中的样本相似度最高。

K-Means聚类算法可以用于解决视觉识别任务中的分类问题，提高图像识别系统的正确率以及效率。

（4）故障诊断K-Means聚类也可以用于故障诊断，将系统参数情况分类，来区分出系统的故障，当某一参数的值远低于正常值时，可以准确的将其分类为异常值，从而确定系统存在什么故障，从而可以有效降低系统故障率，提高系统稳定性和可靠性。

三、四、K-Means聚类算法的优缺点（1）优点a. K-Means算法效率高，计算量少；b. K-Means算法易于实现，调参相对容易；c. K-Means算法执行简单，可轻松融入现有系统；d. K-Means具有 translation invariant， scale invariant等特性，可解决非线性问题；（2）缺点a. K-Means算法的缺点是受初始聚类中心的影响较大，其结果可能受噪声干扰；b. K-Means算法可能收敛到局部最佳解；c. K-Means算法不能解决不同量级聚类间隔差异大的问题；d. K-Means算法对异常值存在敏感性，容易影响到聚类结果。

kmeans 聚类算法

kmeans 聚类算法Kmeans聚类算法Kmeans聚类算法是一种基于距离的无监督机器学习算法，它可以将数据集分为多个类别。

Kmeans算法最初由J. MacQueen于1967年提出，而后由S. Lloyd和L. Forgy独立提出。

目前，Kmeans算法已经成为了机器学习领域中最常用的聚类算法之一。

Kmeans算法的基本思想是将数据集划分为k个不同的簇，每个簇具有相似的特征。

簇的数量k是由用户指定的，算法会根据数据集的特征自动将数据集分成k个簇。

Kmeans算法通过迭代的方式来更新每个簇的中心点，以此来不断优化簇的划分。

Kmeans算法的步骤Kmeans算法的步骤可以概括为以下几个步骤：1. 随机选择k个点作为中心点；2. 将每个数据点与离它最近的中心点关联，形成k个簇；3. 对于每个簇，重新计算中心点；4. 重复2-3步骤，直到簇不再变化或达到最大迭代次数。

Kmeans算法的优缺点Kmeans算法的优点包括：1. 算法简单易实现；2. 能够处理大规模数据集；3. 可以处理多维数据。

Kmeans算法的缺点包括：1. 需要用户指定簇的数量；2. 对于不规则形状的簇，效果不佳；3. 对于包含噪声的数据集，效果不佳。

Kmeans算法的应用Kmeans算法在机器学习和数据挖掘中有着广泛的应用。

以下是Kmeans算法的一些应用：1. 图像分割：将图像分为多个不同的区域；2. 文本聚类：将文本数据划分为多个主题；3. 市场分析：将消费者分为不同的群体，以便进行更好的市场分析；4. 生物学研究：将生物数据分为不同的分类。

总结Kmeans聚类算法是一种基于距离的无监督机器学习算法，它可以将数据集分为多个类别。

Kmeans算法的步骤包括随机选择中心点、形成簇、重新计算中心点等。

Kmeans算法的优缺点分别是算法简单易实现、需要用户指定簇的数量、对于不规则形状的簇效果不佳等。

Kmeans算法在图像分割、文本聚类、市场分析和生物学研究等领域有着广泛的应用。

K-means聚类算法实现及应用

K-means聚类算法的实现及应用内容摘要本文在分析和实现经典k-means算法的基础上，针对初始类中心选择问题，结合已有的工作，基于对象距离和密度对算法进行了改进。

在算法实现部分使用vc6.0作为开发环境、sql sever2005作为后台数据库对算法进行了验证，实验表明，改进后的算法可以提高算法稳定性，并减少迭代次数。

关键字 k-means；随机聚类；优化聚类；记录的密度1 引言1.1聚类相关知识介绍聚类分析是直接比较各事物之间性质，将性质相近的归为一类，将性质不同的归为一类，在医学实践中也经常需要做一些分类工作。

如根据病人一系列症状、体征和生化检查的结果，将其划分成某几种方法适合用于甲类病的检查，另几种方法适合用于乙类病的检查，等等。

聚类分析被广泛研究了许多年。

基于聚类分析的工具已经被加入到许多统计分析软件或系统中，入s-plus,spss,以及sas。

大体上，聚类算法可以划分为如下几类：1) 划分方法。

2) 层次方法。

3) 基于密度的算法。

4) 基于网格的方法。

5) 基于模型的方法。

1.2 研究聚类算法的意义在很多情况下，研究的目标之间很难找到直接的联系，很难用理论的途径去解决。

在各目标之间找不到明显的关联，所能得到的只是些模糊的认识，由长期的经验所形成的感知和由测量所积累的数据。

因此，若能用计算机技术对以往的经验、观察、数据进行总结，寻找个目标间的各种联系或目标的优化区域、优化方向，则是对实际问题的解决具有指导意义和应用价值的。

在无监督情况下，我们可以尝试多种方式描述问题，其中之一是将问题陈述为对数分组或聚类的处理。

尽管得到的聚类算法没有明显的理论性，但它确实是模式识别研究中非常有用的一类技术。

聚类是一个将数据集划分为若干聚类的过程，是同一聚类具有较高相似性，不同聚类不具相似性，相似或不相似根据数据的属性值来度量，通常使用基于距离的方法。

通过聚类，可以发现数据密集和稀疏的区域，从而发现数据整体的分布模式，以及数据属性间有意义的关联。

somk-means聚类分区案例

somk-means聚类分区案例K-means聚类分区案例第一篇在数据分析领域，聚类是一种常用的无监督学习方法，能够将数据集中具有相似特征的数据样本划分为不同的类别或群组。

其中，K-means聚类是一种常见而有效的方法，它通过为每个数据样本分配一个与之最相似的聚类中心来实现分类。

在本文中，我们将介绍一个关于K-means聚类分区的案例。

将我们的案例定位于零售行业，想象一家超市的连锁店正计划在不同区域开设新的分店。

为了确定最佳的分店位置，他们决定利用K-means聚类算法对特定区域的顾客进行分析。

这样可以使他们对不同的市场细分，更好地了解各个区域的消费者需求和购物习惯。

通过这种方式，企业可以制定更有针对性的市场营销策略，提高销售额和市场份额。

首先，我们需要收集一些与消费者行为相关的数据。

这些数据可以包括每个顾客的购买记录、年龄、性别、消费金额等信息。

假设我们已经获得了一份包含500个顾客的数据集。

接下来，我们需要对数据进行预处理。

这包括去除异常值、处理缺失值以及数据标准化等步骤。

这些步骤旨在保证数据质量和可靠性，在分析过程中不会产生误导性的结果。

一旦数据预处理完成，我们可以开始使用K-means聚类算法。

该算法的基本思想是，通过计算每个数据样本与聚类中心的距离，将其归类到距离最近的聚类中心。

为了完成这个过程，我们首先需要确定聚类的数量K，也就是分店的数量。

为了确定最佳的K值，我们可以使用一种称为肘方法的技巧。

该方法基于聚类误差平方和（SSE），即聚类中心与其所包含数据样本距离的平方和，来评估聚类质量。

我们可以通过尝试不同的K值，计算相应的SSE，然后选择SSE曲线上的“肘点”作为最佳的K值。

在确定了最佳的K值之后，我们可以应用K-means算法进行聚类分析。

通过迭代更新聚类中心和重新分配样本，我们可以获取最终的聚类结果。

这些结果可以帮助我们理解不同区域顾客的消费行为和购物偏好。

最后，我们可以将聚类结果可视化，并提取有关每个聚类的关键特征。

基于K-means的电力系统典型日负荷特性计算方法研究

基于K-means的电力系统典型日负荷特性计算方法研究一、引言电力系统的负荷特性计算对于电力系统的运行与规划非常重要。

负荷特性可以反映出用户用电的规律与变化，对于电力系统的日常调度和未来规划具有重要的参考价值。

而K-means聚类算法是一种常用的数据挖掘方法，可以对数据进行分群，从而分析出不同类别的特性。

本文将通过研究基于K-means的电力系统典型日负荷特性计算方法，以期为电力系统调度和规划提供更为准确的负荷特性分析。

二、K-means聚类算法K-means聚类算法是一种基于距离的聚类方法，其基本思想是将数据集分成K个簇，并使每个数据点都被分配到最近的簇中，使得簇内数据的相似度最大化，簇间数据的相似度最小化。

K-means算法的过程可以分为以下几步：1. 随机初始化K个中心点2. 根据每个点到中心点的距离，将所有点分配到最近的中心点所在的簇3. 重新计算每个簇的中心点4. 重复第2步和第3步，直到中心点不再发生变化或达到迭代次数最终得到K个簇，以及每个簇的中心点，从而对数据集进行了分群。

三、基于K-means的电力系统典型日负荷特性计算方法1. 数据准备为了进行典型日负荷特性的计算，首先需要准备一段时间内的负荷数据。

通常可以选择一年内的数据作为分析对象。

这样的原始数据量过大，不适合直接进行K-means聚类，因此需要进行预处理，将原始负荷数据进行聚合，得到更为精简的数据集。

常见的聚合方式包括按天、按周、按月进行聚合，从而将原始数据进行压缩，方便后续的聚类分析。

2. K值的选择K-means聚类算法需要事先确定簇的个数K，而对于电力系统的典型日负荷特性计算，K值的选择往往是一个挑战。

一般来说，K的选择需要根据具体的数据集与分析目的来确定，可以通过经验或者利用一些模型进行K值的选择。

在实际应用中，可以尝试不同的K值，通过评价指标（如轮廓系数、Calinski-Harabasz指数等）来确定最优的K值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

通过分析证实,合成初始凝聚点聚类结果整体上要优于实际观测点作为初始凝聚点,因为合成初始凝聚点的代表性比实际的观测点要高;在聚类个数K相等的情况下,任何一种选择初始凝聚点的方法,随着试验次数的增加,所有试验次数中误差平方和的最小值越来越小,类内的同质性越来越大,说明用K-Means算法进行聚类,同一方法改变初始凝聚点组合多次运行,并取最优结果的必要性。
本文首先详细分析了聚类算法的思想、步骤和理论基础。目前,已经提出了很多的聚类算法,它们基本上可以分为以下几种方法:基于层次的聚类、基于划分的聚类、基于密度的聚类以及基于模型的聚类,这些方法各有优缺点,也出现了很多基于这些方法的改进算法。本文在第三章选取了K-means、LVQ、核聚类三种经典的聚类算法进行了实验,其中,又对比了LVQ算法的改进算法MLVQ,最后选取K-means算法作为研究大类别汉字识别的工具。并结合了模式识别中的特征提取算法和LDA算法提高识别率,在特征提取算法中,我们着重分析了两种特征提取算法:Gabor特征和梯度特征,实验证明梯度特征的识别效率略优于我们常用的Gabor特征,并且经由LDA降维后的特征向量识别率也有很大的提高。
本文第一章主要阐述客户细分的研究背景,并说明研究的动机与目的以及本文研究的步骤。
本文第二章对实现客户细分的相关技术理论进行了总结和回顾。利用数据挖掘方法进行客户细分一个关键的问题就是客户细分方法论,在参阅大量国内外理论研究和实践文献的基础上,归纳总结了客户细分方法论,作为后续研究的基础。
客户细分通常用聚类分析方法来实现,在阐述了聚类分析相关概念如距离、数据矩阵、变量标准化等基础上,重点分析了K-Means聚类的优点和缺点。K-Means聚类是一种优化聚类算法,运算速度快,适宜处理大数据,但是聚类结果与变量的量纲、异常值的处理方式、变量的维度、观测的顺序以及
3.期刊论文汪嘉.姜明富.李友国.Wang Jia.Jiang Mingfu.Li Youguo一种基于改进的K-Means算法的聚类分析方
法-农业网络信息2009(10)
本文将最大最小距离算法和传统的K-Means算法相结合,提出了一种改进的K-Means算法,此算法可以弥补传统K-Means算法中初始中心点难以确定的缺点,有效地解决了传统K-Means算法对初始中心的选择具有较大依赖性以及由于初始聚类中心选择不当,算法极易陷入局部极小点的问题[1,2].
本文的主要贡献及创新之处在于:
1)从写作思路上来看。近年来,数据挖掘综述方面的文章比较多,但是写数据挖掘具体实施的实证研究论文不多见,是本研究的一个有益尝试;目前利用K-Means算法进行聚类实证研究的文章,大多对如何利用K-Means分析的不够深入,也没有K-Means算法进行实证分析的详细过程,对细分后如何解释类和导出应用策略研究的较多,也就是重“业务分析”轻“理论技术”,但是,运用得当的技术可以使细分后的群体同质性更高,也更利于结果的解释,因此本文走的是重“技术思路”轻“业务分析”的路线,用实际数据来探索利用K-Means算法进行客户细分的数据挖掘流程。
武汉理工大学
硕士学位论文
K-means聚类算法研究及应用
姓名:张建辉
申请学位级别:硕士
专业:系统工程
指导教师:王学锋
20070401
K-means聚类算法研究及应用
作者:张建辉
学位授予单位:武汉理工大学
本文第四章在某银行客户数据的基础上,借助SAS/STAT、EM所提供的统计分析和数据挖掘方法,围绕认识和理解客户的目标,主要利用K-Means算法对客户数据进行实证分析,探索K-Means聚类用于客户细分的主要过程和一般分析方法。
本章共对比了实践中比较常用的八种选择初始凝聚点的方法,对他们的聚类结果进行了对比分析,并给出方法实现的SAS代码。这八种方法共分为两种类别:合成初始凝聚点的方法;实际观测点作为初始凝聚点的方法。前者如用初始聚类的质心作为聚类的初始凝聚点(Random centriods)、爬行中点法(Scrambled midpoint)、爬行中位数法(Scrarabled median)、非爬行中点法(Unscrambled midpoint),后者如利用SAS默认的两种限制凝聚点替代的方法进行种子选择(记为Replace full)、完全随机法(Random)、拆分法(Breakup)、对每个观测的所有变量值求和(Feature Value Sums)。
1.学位论文邢留伟K-Means算法在客户细分中的应用研究2007
无论是金融行业,还是电信行业,日益激烈的竞争使企业认识到客户是他们真正的资产,主要工作也都是围绕保留现有客户和发展新客户展开,营销方式也从大众化营销转为通过差异化、一对一营销来实现客户满意和公司获利的双赢,而差异化、一对一营销的关键就是有效的客户细分。客户细分的关键问题就是找出客户的特征,通过一些统计分析方法可以将客户隐藏在数据中的特征挖掘出来,从而进行分类。
3)从K-Means方法的应用理念角度来看。国内的实证研究文章大多数提到了K-Means是一种局部最优算法,但是并没有指出在现有可利用的工具软件下,如何改善局部最优的困境。本文经过分析指出,对于K-Means聚类结果的技术评价不以算法收敛为准则,而是取通过选取不同初始凝聚点组合多次运行所达到的最小类内残差平方和(SSE)所对应的那个聚类结果为最终结果,可以有效地改善局部最优的状况;K-Means聚类的结果与初始凝聚点选取有很大的关系,本文首次提出无论哪种选择初始凝聚点的方法,只要选择多种初始凝聚点组合方案进行实验,均可以取得较为理想的结果,而且为改善局部最优的状况必须选择不同的初始凝聚点组合进行多次聚类。
6.学位论文杨军聚类分析及其在大类别汉字识别中的应用2007
随着科学技术的快速发展,人们可以得到越来越多的信息。但是,要从这些大量数据中找到数据之间的模式变得越来越困难。为了找到大数据集合中的模式,人们引入了聚类分析技术。今天,聚类分析已广泛用于数据挖掘、模式识别、图像处理等领域。本文主要研究了聚类分析算法在大类别模式汉字识别中的应用。
为了验证K-Means算法聚类的有效性,本文用神经网络方法SOM(Self-Organized Map)对同样的客户数据进行聚类,结果发现两种模型的一致性很高,说明K-Means聚类结果是稳定的、有效的。并用判别分析方法进一步评估了分群的稳定性。
最后对细分结果解释和模型部署以及模型应用方面应注意的问题进行了简单阐述。
5.期刊论文翟音.罗萍.ZHAI Yin.LUO Ping基于K-means算法的产品市场定位聚类分析-电脑知识与技术
2008,3(26)
聚类算法是数据挖掘中核心技术之一,而k-means算法在经典聚类算法中占有重要地位.根据市场调查中的顾客感知质量,感知价格,市场份额和品牌类别为测试数据,用k-means算法进行数据挖掘,充分利用数据挖掘结果,得出符合市场现状的市场定位结论.
4.学位论文孙总参数据挖掘中聚类算法的研究与应用2004
该文首先系统的介绍了数据挖掘的基本技术,重点介绍了聚类分析的相关技术.在深入分析客户信息数据库CID(Customer Information
Database,CID)数据的基础上,依据专家建议,确定该文的挖掘目标:对银行客户进行聚类分析,在客户中发现不同的客户群,从而有助于金融政策的调整和制定.其次,针对CID数据库中数据的特点以及该文的研究目标,该文采用属性选择、数据清理、属性重构、数据归约和数据变换等方法对CID数据库进行处理.数据预处理技术改进了数据的质量,提高了聚类分析过程的精度和性能.另外,该文着重对聚类算法进行了研究.由于CID数据库同时含有数值型数据和符号型数据,该文选用K-Means算法及其变形作为主要方法,采用两种策略对CID数据库进行聚类分析:一种是把符号类型的数据转化为数值型数据,用能处理数值型数据的K-Means算法进行分析;另一种是直接利用可以处理混合属性的K-Prototypes算法来进行聚类分析.然后分别对这两种方法的聚类结果进行了分析,并对这两者的效率进行了对比.直接K-Means算法其时间复杂性与对象数目和聚类数目成比例,当对大型数据库进行分析时,其计算代价是相当高的.针对其在处理大数据集时的不足,该文给出了基于k-d树的K-Means聚类分析算法.该方法采用k-d树作为主要的存储结构,将数据信息存放在k-d树中.实验表明,其运行效率较直接K-Means算法有了明显的提高,充分显示出采用k-d树作为存储结构的优点.最后,该文总结了已有的研究工作,并对未来工作进行了展望.
客户细分通常用聚类分析方法来实现,其中K-Means算法是实践中最为常用的数据挖掘算法之一,在处理大数据量方面有绝对优势,而且可以取得较好的效果。
在客户细分中,围绕K-Means聚类,如何依据通用的数据挖掘方法论,有针对性地将K-Means应用于客户数据建模中,对这些问题的实证研究在国内尚个多见。因此,从数据挖掘建模的角度,对用K-Means算法对客户进行聚类的问题进行理论分析和实证研究,具有一定的现实意义。
K个初始凝聚点的选择等都有很大的关系,本章着重对影响K-Means聚类结果的因素尤其是初始凝聚点的选择方法进行了理论上的分析和总结,也对K-Means聚类在实际中应用状况进行了文献回顾和探讨。
聚类结果对实际是否有意义,需要对结果从技术和业务两个方面进行评估,本章对聚类结果好坏的评价标准进行了探讨。K-Means算法对高维数据的聚类效果较差,本文引进用主成分分析方法对高维数据进行降维。
本文第五章为研究结论。通过实证分析发现,用K-Means算法对客户进行聚类需要重复多次运行以取得较为理想的结果。由于数据挖,比如对客户进行聚类,究竟利用过去三个月、六个月还是十二个月的数据并没有理论做支撑,主要还得看细分的效果。本文在最后指出了本研究的贡献和不足,并给出了用K-Meatls算法进行客户细分后续研究的方向。
2)从方法处理的角度来看。基于SAS的K-Means聚类实证研究不多,本文给出了利用SAS进行K-Means聚类,选择初始凝聚点常用的八种方法的SAS代码,有一定的实践参考价值;用SAS/EM的神经网络方法(Self-Organized Map)和判别分析方法对K-Means聚类所得到的结果进行验证,说明K-Means聚类结果的有效性和稳定性;