实例解析关键词聚类的方法策略

合集下载

聚类算法经典案例

聚类算法经典案例聚类算法是一种机器学习技术，它通过将数据分成不同的类别或群集并分配标签来发现数据内在的结构和模式。

下面将介绍几个聚类算法的经典案例。

1. K-Means算法K-Means算法是聚类算法中最常见和最简单的方法之一。

它将数据分成K个类别，并在每个类别中放置一个聚类质心。

接着，算法计算每个数据点到聚类质心的距离，并将其分配给最近的质心，形成一个聚类。

最后，算法更新每个聚类的质心，并重新分配每个数据点，直到收敛为止。

经典案例：在市场细分中，K-Means算法可以用来将消费者分成不同的群体。

例如，可以使用购买历史和口味偏好来将消费者分成健康食品用户、零食用户和高端餐饮用户等。

2. 层次聚类算法层次聚类算法也是一种常见的聚类算法，它将数据分成不同的类别，并使用树状结构来表示聚类过程。

层次聚类算法可以分为凝聚式和分裂式两种。

经典案例：在癌症治疗中，层次聚类算法可以用来识别患者是否属于某种分子亚型，以确定他们的最佳治疗方案。

3. DBSCAN算法DBSCAN算法是一种密度聚类算法，它将数据分成具有相似密度的群集。

该算法定义了两个核心参数：半径和密度。

接着，算法将密度高于某个阈值的点分配给一个聚类，并且任何不在聚类中的点都被视为噪声。

经典案例：在地理空间数据分析中，DBSCAN算法可以用来识别热点区域或者犯罪高发区，同时排除低密度的区域。

综上所述，聚类算法广泛用于分类、市场细分、癌症治疗、地理空间数据分析等领域。

不同的聚类算法可以应用于不同的问题，选择适当的算法可以帮助得出准确的结论。

聚类分析的案例分析

《应用多元统计分析》——报告班级：学号：姓名：聚类分析的案例分析摘要本文主要用SPSS软件对实验数据运用系统聚类法和K均值聚类法进行聚类分析，从而实现聚类分析及其运用。

利用聚类分析研究某化工厂周围的几个地区的气体浓度的情况，从而判断出这几个地区的污染程度。

经过聚类分析可以得到，样本6这一地区的气体浓度值最高，污染程度是最严重的，样本3和样本4气体浓度较高，污染程度也比较严重，因此要给予及时的控制和改善。

关键词：SPSS软件聚类分析学生成绩一、数学模型聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相似性。

可以根据这些相似性把相似程度较高的归为一类，从而对其总体进行分析和总结，判断其之间的差距。

系统聚类法的基本思想是在这几个样本之间定义其之间的距离，在多个变量之间定义其相似系数，距离或者相似系数代表着样本或者变量之间的相似程度。

根据相似程度的不同大小，将样本进行归类，将关系较为密切的归为一类，关系较为疏远的后归为一类，用不同的方法将所有的样本都聚到合适的类中，这里我们用的是最近距离法，形成一个聚类树形图，可据此清楚的看出样本的分类情况。

K均值法是将每个样品分配给最近中心的类中，只产生指定类数的聚类结果。

二、数据来源《应用多元统计分析》第一版164页第6题我国山区有一某大型化工厂，在该厂区的邻近地区中挑选其中最具有代表性的8个大气取样点，在固定的时间点每日4次抽取6种大气样本，测定其中包含的8个取样点中每种气体的平均浓度，数据如下表。

试用聚类分析方法对取样点及大气污染气体进行分类。

三、建立数学模型一、运行过程（一）系统聚类分析在SPSS界面对上述数据进行系统聚类分析如图1和图2所示，进行最近距离分类。

图1图2（二）K均值聚类分析对数据进行K均值聚类分析，如下图所示：图3图4图5 二、运行结果（一）聚类树形图图6由图可以看出，将数据进行聚类分析，根据设定的分为了二类到三类。

若分为两类则样本6为一类，其他为一类；若分为三类则将样本四分离出来，其他分为一类。

一篇文章透彻解读聚类分析及案例实操

一篇文章透彻解读聚类分析及案例实操【数盟致力于成为最卓越的数据科学社区，聚焦于大数据、分析挖掘、数据可视化领域，业务范围：线下活动、在线课程、猎头服务、项目对接】【限时优惠福利】数据定义未来，2016年5月12日-14日DTCC2016中国数据库技术大会登陆北京！大会云集了国内外数据行业顶尖专家，设定2个主会场，24个分会场，将吸引共3000多名IT 人士参会！马上领取数盟专属购票优惠88折上折，猛戳文末“阅读原文”抢先购票！摘要：本文主要是介绍一下SAS的聚类案例，希望大家都动手做一遍，很多问题只有在亲自动手的过程中才会有发现有收获有心得。

这里重点拿常见的工具SAS+R语言+Python介绍!1 聚类分析介绍1.1 基本概念聚类就是一种寻找数据之间一种内在结构的技术。

聚类把全体数据实例组织成一些相似组，而这些相似组被称作聚类。

处于相同聚类中的数据实例彼此相同，处于不同聚类中的实例彼此不同。

聚类技术通常又被称为无监督学习，因为与监督学习不同，在聚类中那些表示数据类别的分类或者分组信息是没有的。

通过上述表述，我们可以把聚类定义为将数据集中在某些方面具有相似性的数据成员进行分类组织的过程。

因此，聚类就是一些数据实例的集合，这个集合中的元素彼此相似，但是它们都与其他聚类中的元素不同。

在聚类的相关文献中，一个数据实例有时又被称为对象，因为现实世界中的一个对象可以用数据实例来描述。

同时，它有时也被称作数据点(Data Point)，因为我们可以用r 维空间的一个点来表示数据实例，其中r 表示数据的属性个数。

下图显示了一个二维数据集聚类过程，从该图中可以清楚地看到数据聚类过程。

虽然通过目测可以十分清晰地发现隐藏在二维或者三维的数据集中的聚类，但是随着数据集维数的不断增加，就很难通过目测来观察甚至是不可能。

1.2 算法概述目前在存在大量的聚类算法，算法的选择取决于数据的类型、聚类的目的和具体应用。

大体上，主要的聚类算法分为几大类。

聚类分析的应用案例

聚类分析的应用案例
聚类分析是一种常用的数据挖掘技术，可以将大量类似的数据（称为“元组”）组合在一起，并基于某种规则（称为聚类标准）把它们分为一些稳定的、有意义的类别。

它是一种用于实现数据探索性分析（EDA）和关联性分析（CA）的有效方法。

聚类分析强调在样本空间中发现和识别分组的模式。

目前，聚类分析在商业分析、市场营销、生物学和医学分析等领域中广泛应用。

它的目的是弄清楚如何把一组数据分成多个不同的类别，并给出类别之间的相似度。

聚类分析可以应用于不同领域和行业。

比如，在银行行业，可以使用聚类分析来分析客户价值，从而分析客户购买意向，帮助改善营销策略。

在零售行业中，可以利用聚类分析来预测消费者对特定商品的偏好，从而帮助改善产品营销策略。

还可以用聚类分析来分析一个组织的客户，以便更好地掌握客户的需求，从而提高客户满意度。

此外，聚类分析在生物学和医学研究中也被广泛应用。

比如，可以用聚类分析来进行基因分析，以发现不同细胞类型，从而帮助研究人员了解疾病发展的机理。

聚类分析还可以用于诊断和预测，帮助医疗团队识别有病的病人，并根据历史临床数据和患者特征，预测疾病的发展过程，从而更好地规划治疗的方案。

聚类分析有许多应用，可以极大地提高个体和团体的效率，同时提供更多洞见和信息，以帮助指导业务决策。

因此，聚类分析是一种重要的工具，如果能够更好地应用，可以显著提高个人和团体的工作效率，实现更好的成果。

聚类分析法经典案例

聚类分析法经典案例
聚类分析是一种常用的数据分析方法，它能够将相似的观察对象分为一组，并将不相似的对象分为不同的组。

下面将介绍一个经典的聚类分析案例。

在电信行业，客户流失是一个非常重要的问题。

为了降低客户流失率，一家电信公司希望通过聚类分析来识别客户流失的特征，以便进行有针对性的营销策略。

首先，该公司收集了一些客户数据，如客户的年龄、性别、月平均消费金额、通话时长等。

然后，利用聚类分析方法，将客户分为不同的组。

在这个案例中，我们可以采用k-means聚类算法。

通过聚类分析，该公司发现了三个客户群体。

第一组客户是高消费高通话客户，他们的平均消费金额和通话时长都很高。

第二组客户是低消费低通话客户，他们的平均消费金额和通话时长都很低。

第三组客户是高消费低通话客户，他们的平均消费金额很高，但通话时长很低。

利用聚类分析的结果，该公司能够采取有针对性的营销策略。

对于高消费高通话客户，他们可能是该公司的忠诚客户，可以通过提供一些优惠或奖励来保持他们的忠诚度。

对于低消费低通话客户，可以通过提供更具吸引力的套餐或增加服务内容来激发他们的消费需求。

对于高消费低通话客户，可以通过了解他们的通话行为，推出更适合他们的通话套餐，以增加他们的通话时长。

通过这个案例，我们可以看到聚类分析在客户流失预测和营销策略中的重要作用。

它可以帮助企业快速识别不同类型的客户，有针对性地制定相应的营销策略，提高客户满意度和忠诚度，降低客户流失率。

聚类分析还可以应用于其他领域，如金融、医疗等，具有广泛的应用前景。

实例解析关键词聚类的方法策略

实例解析关键词聚类的方法策略收藏到：1时间：2014-06-05 文章来源：马海祥博客访问次数：388最近，马海祥接手了一个大型的网站，首先要做的就的对这个网站的流量来源进行分析，这其中最繁琐的莫过于对来源关键词的聚类整合了。

所谓关键词聚类就是以领域特征明显的词和短语作为聚类对象，在分类系统的大规模层级分类语料库中，利用独创的文本分类的特征提取算法进行词语的领域聚类，通过控制词语频率的影响，分别获取领域通用词和领域专类词。

所以，要想做好这类做关键词的聚类，就一定要有一些基础信息，基础数据作为背景。

在此，我就借助马海祥博客的平台跟大家实例解析关键词聚类的方法策略：1、百度商业词聚类模型现在对于一些医疗SEO来说看行业新闻，大家经常讨论一个话题就是百度医疗行业的收入贡献比是多少？，其实，爆个大料给大家，在2005年甚至2006年之前，百度自己都不掌握这类数据。

当时百度有一个简单的客户分类，是客服提交的，然后我们看了一下消费的行业分布，结果显示超过50%属于其他分类，这个结果基本上就没法看了。

然后我就琢磨，用商业词能不能直接聚类为行业，当时我在产品部门，合作反欺诈点击的工程师是张怀亭，这是个算法高手，他当年的毕业论文就是关联规则和聚类算法，我就去请教他，他说了一堆，我大部分没听懂，但大概要点知道了一些，然后找他要了论文看了看，也没太看明白，凭借自己粗浅的理解我就动手了，然后这个还真做成了。

我的出发点就是假设客户本身具有行业属性(如果这个假设不存在，那就没辙了)，我认为每个客户提交的关键词，彼此是有关联的。

某两个关键词如果同时被不同的客户提交，其关联性就会随之增加，这个是最基本的一个定义，叫做共同推举数，也是最容易算的一个值。

但是仅仅依赖于共同推举数有一个问题，就是会导致很多词都和热门词关联，这是不合理的，我记得当时好像是某网上书城的推荐购买那一栏，明显都是热门书籍，似乎也是基于共同推举数做的关联。

问题1：A和B有50个共同推举，A和C有30个共同推举，但是B这个词是热门词，共有2000个客户提交；而C是冷门词，只有50个客户提交，请问A和B的关联度高还是A和C的关联度高？问题2：客户1提交了10000个词(类似阿里真的是这么提交的)；客户2提交了20个词，客户1所提交的10000个词的彼此关联度和客户2之间提交的是否一致？考虑这两个问题，就需要做权值调整了，然后再计算词与词的关联值。

聚类分析方法详细介绍和举例

聚类分析⽅法详细介绍和举例聚类分析例如：下表是1999年中国省、⾃治区的城市规模结构特征的⼀些数据，可通过聚类分析将这些省、⾃治区进⾏分类，具体过程如下：省、⾃治区⾸位城市规模（万⼈）城市⾸位度四城市指数基尼系数城市规模中位值（万⼈）京津冀699.70 1.4371 0.9364 0.7804 10.880 ⼭西179.46 1.8982 1.0006 0.5870 11.780 内蒙古111.13 1.4180 0.6772 0.5158 17.775 辽宁389.60 1.9182 0.8541 0.5762 26.320 吉林211.34 1.7880 1.0798 0.4569 19.705 ⿊龙江259.00 2.3059 0.3417 0.5076 23.480⼀、聚类分析的数据处理1、地理数据的对数变换：原始数据⾃然对数变换省、⾃治区⾸位城市规模（万⼈）城市⾸位度四城市指数基尼系数城市规模中位值（万⼈）⾸位城市规模（万⼈）城市⾸位度四城市指数基尼系数城市规模中位值（万⼈）京津冀699.7 1.4371 0.9364 0.7804 10.88 6.5507 0.3626 -0.0657 -0.2479 2.3869 ⼭西179.46 1.8982 1.0006 0.587 11.78 5.1900 0.6409 0.0006 -0.5327 2.4664 内蒙古111.13 1.418 0.6772 0.5158 17.775 4.7107 0.3492 -0.3898 -0.6620 2.8778 辽宁389.6 1.9182 0.8541 0.5762 26.32 5.9651 0.6514 -0.1577 -0.5513 3.2703 吉林211.34 1.788 1.0798 0.4569 19.705 5.3535 0.5811 0.0768 -0.7833 2.9809 ⿊龙江259 2.3059 0.3417 0.5076 23.48 5.5568 0.8355 -1.0738 -0.6781 3.1561 2、地理数据标准化：⾃然对数变换标准差标准化数据⾸位城市规模（万⼈）城市⾸位度四城市指数基尼系数城市规模中位值（万⼈）⾸位城市规模（万⼈）城市⾸位度四城市指数基尼系数城市规模中位值（万⼈）6.5507 0.3626 -0.0657 -0.2479 2.3869 1.5572 -1.1123 0.4753 1.7739 -1.30255.1900 0.6409 0.0006 -0.5327 2.4664 -0.5698 0.3795 0.6309 0.2335 -1.08204.7107 0.3492 -0.3898 -0.6620 2.8778 -1.3189 -1.1841 -0.2851 -0.4660 0.05935.9651 0.6514 -0.1577 -0.5513 3.2703 0.6419 0.4356 0.2594 0.1330 1.14835.3535 0.5811 0.0768 -0.7833 2.9809 -0.3142 0.0588 0.8096 -1.1218 0.34535.5568 0.8355 -1.0738 -0.6781 3.1561 0.0037 1.4225 -1.8900 -0.5526 0.8316⼆、采⽤欧⽒距离，求出欧式距离系数欧式距离系数表d1 d2 d3 d4 d5 d6 d1 0d2 1.3561 0d3 1.7735 1.0618 0d4 1.5479 1.1484 1.2891 0d5 1.7936 0.9027 0.9235 0.8460 0d6 2.2091 1.5525 1.5312 1.1464 1.4006 0三、最短距离法进⾏聚类分析如下：第⼀步：以欧式距离作为分类统计量，得出初始距离矩阵D（0）D(0)表G1 G2 G3 G4 G5 G2 1.3561G3 1.7735 1.0618G4 1.5479 1.1484 1.2891G5 1.7936 0.9027 0.9235 0.8460G6 2.2091 1.5525 1.5312 1.1464 1.4006第⼆步：在D（0）中，最⼩元素为D54=0.846，将G5与G4合并成⼀新类G7，G7={G5，G4},然后在计算新类G7与其它各类间的距离D7，1= min(d41,d51)=min(1.5479, 1.7936)= 1.5479D7，2= min(d42,d52) = min(1.1484,0.9027)= 0.9027D7，3= min(d43,d53) = min(1.2891, 0.9235)= 0.9235D7,6= min(d64,d65) = min(1.1464, 1.4006)= 1.1464第三步:作D （1）表，先从D(0)表中删除G4，G5类所在⾏列的所有元素，然后再把新计算出来的G7与其它类间的距离D71,D72,D73填到D （0）中，得D(I)表第四步：在D （1）中，最⼩元素为D72=0.9027，将G7与G2合并成⼀新类G8，G8={G2，G7}={G2，G4,G5},然后在计算新类G8与其它各类间的距离D8,1= min(d21,d71)= min(1.3561, 1.5479)= 1.3561 D8,3= min(d23,d73) = min(1.0618, 0.9235)= 0.9235 D8,6= min(d62,d76)= min(1.5525, 1.1464)= 1.1464第五步：作D （2）表，先从D(1)表中删除G2，G7类所在⾏列的所有元素，然后再把新计算出来的G8与其它类间的距离D81,D83,D86填到D （2）中，得D(2)表D （2）表G1 G3 G6 G3 1.7735 G6 2.2091 1.5312 G81.35610.92351.1464第六步：在D （2）中，最⼩元素为D38=0.9235，将G8与G3合并成⼀新类G9，G9={G3，G8},然后在计算新类G9与其它各类间的距离D9,1= min(d13,d18) = min(1.7735, 1.3561)= 1.3561 D9,6= min(d36,d86) = min(1.5312, 1.1464)= 1.1464第七步：作D （3）表，先从D(2)表中删除G3，G8类所在⾏列的所有元素，然后再把新计算出来的G9与其它类间的距离D91 ,D96填到D （3）中，得D(3)表第⼋步：在D （3）中，最⼩元素为D69= 1.1464，将G6与G9合并成⼀新类G10，G10={G6，G9},然后在计算新类G10与其它各类间的距离D10，1= min(d16,d69) = min(2.2091, 1.1464)= 1.1464第九步：作D （4）表，先从D(3)表中删除G6，G9类所在⾏列的所有元素，然后再把新计算出来的G10与其它类间的距离D10,1填到D （4）中，得D(4)表D （1）表G1 G2 G3G6G2 1.3561 G3 1.7735 1.0618 G6 2.2091 1.5525 1.5312 G71.54790.90270.9235 1.1464D （3）表G1 G6 G6 2.2091 G9 1.3561 1.1464D（4）表G1G10 1.1464G11={G10.G1}由此表可知，G10和G1类最后合成了⼀类，计算过程结束。

聚类算法的使用中常见问题分析及解决策略

聚类算法的使用中常见问题分析及解决策略1. 引言聚类算法是数据挖掘领域中一种常用的无监督学习方法，它可以将一个数据集划分为不同的组或簇，使得同一簇中的数据对象相似度较高，而不同簇之间的数据对象相似度较低。

不过，在使用聚类算法的过程中，我们常常会遇到一些问题，本文将针对这些问题进行分析，并提出解决策略。

2.问题一：选择合适的聚类算法在使用聚类算法之前，我们首先需要选择一个合适的聚类算法。

常见的聚类算法包括K均值聚类、层次聚类、密度聚类等。

选择合适的聚类算法取决于数据的特点和需求。

如何选择合适的聚类算法成为了我们面临的第一个问题。

解决策略：- 对数据进行归一化处理，通过计算数据的均值、方差、相关系数等指标来判断数据的分布情况，选择与数据分布特点相符的聚类算法。

- 根据数据的大小、维度、特征之间的相关性等因素来选择聚类算法。

例如，当数据具有明显的分层结构时，可以选择层次聚类算法；当数据具有非凸形状的簇时，可以选择密度聚类算法。

3.问题二：聚类算法的参数设置在使用聚类算法时，我们通常需要设置一些参数，例如K均值聚类算法中的簇数k、层次聚类算法中的合并准则、划分准则等。

参数的设置直接影响到聚类结果的质量。

解决策略：- 使用领域知识来指导参数的设置。

根据对数据的了解和领域专家的建议，设置合理的参数。

例如，根据业务需求和领域知识，将簇数k 设置为最佳的值。

- 进行参数敏感性分析。

通过改变参数的取值范围，观察聚类结果的变化，选择合适的参数取值范围从而获得较好的聚类效果。

4.问题三：聚类算法对异常值的敏感性聚类算法在聚类过程中对异常值较为敏感，这些异常值可能导致聚类结果的偏移或失效。

解决策略：- 检测和处理异常值。

可以通过统计学方法或离群点检测算法来识别和处理异常值，例如使用箱线图、Z-score等方法进行异常值检测，并进行相应的数据清洗或替换操作。

- 选择鲁棒性较好的聚类算法。

一些聚类算法在设计时对异常值具有较好的鲁棒性，例如K中心点聚类算法。

聚类算法的应用案例

聚类算法的应用案例**以《聚类算法的应用案例》为标题，写一篇3000字的中文文章**在当今的数据分析领域，算法的应用已经深入到了日常数据分析的各个方面。

其中聚类算法也是其中重要的一部分，大量的研究也都围绕聚类算法展开，并且取得了一定的成就。

聚类算法是指将相似对象集结在一起，建立不同的类簇，每个类簇包含有共性的成员，可以把它们分离出来，而忽略那些差异较大的对象。

本文将从聚类算法本身的概念出发，结合现有技术，来阐述聚类算法的应用案例，以及聚类算法的有效性。

聚类算法的原理是基于数据对象之间的相似性进行分类，用户可以自定义数据对象之间的相似度定义，从而使得数据对象可以被有效的分类。

在进行聚类时，需要首先对数据按照某种方法提取出特征，再将特征进行相似性比较，根据结果将数据分到每一类中，最后再对每一类进行建模，以实现最终的聚类目标。

聚类算法有很多应用方面，如市场细分，用户分群，文本分析，甚至是图像识别的应用。

例如，假设我们想要对某一类产品的用户进行分群，那么就可以使用聚类算法来对数据进行分析，提取出其中共性的数据，然后创建不同的用户群体，并根据不同群体对产品的需求进行优化。

此外，聚类算法还可以用于文本分析，将文本按照共性进行分类，方便进行统计分析和推荐自然语言处理算法。

例如，新闻推荐系统可以使用聚类算法，根据不同的新闻类别，将用户和新闻的关系划分到不同的类别中，从而方便对不同类别的新闻进行推荐。

此外，有些算法还可以用于图像识别，聚类算法可以帮助分析大量图像，将不同类别的图像快速归类，从而更快地进行识别。

例如，谷歌的AutoML系统就使用了聚类算法，可以帮助分析大量的图像，并自动分出不同的类别。

另外，聚类算法也是贝叶斯分类算法的一种变体，用于对数据进行分类，可以计算每个类别的概率，并有效的选择正确的类别。

例如，卫星图像分割就使用了聚类算法，可以更准确的识别不同的图像信号，并根据概率进行分类。

最后，聚类算法也可以用于关联规则分析，可以对大量数据进行分析，寻找出关联规则，从而挖掘出有用的信息。

淘宝产品关键词聚类分析

淘宝产品关键词聚类分析随着电商业务的蓬勃发展，淘宝作为国内最大的电商平台之一，在国内具备非常深远的影响力，为亿万消费者提供了丰富多彩的商品选择。

然而，为了更好地满足消费者的需求，卖家需要在淘宝平台上进行有效的产品推广，从而让潜在客户更容易找到他们的商品。

在淘宝上进行产品推广的一个关键因素就是选择合适的关键词。

在推广某个产品时，卖家可以输入一些关键词，使其在淘宝平台的搜索结果中更容易浮现出来。

因此，关键词的选择可以直接影响到产品在淘宝平台上的曝光率和销量。

如何选择合适的关键词已成为卖家在淘宝上推广产品的重要问题之一。

关键词聚类分析是一种流行的技术，用于推断一组关键词的相似性并将它们归类到不同的群组中。

通过这种方式，我们可以确定一些高频词和相关词，以及它们在某个群组中的占比，进而可以指导卖家选择适合他们产品的关键词。

那么，如何进行淘宝产品关键词聚类分析呢？以下是一些基本步骤：1. 收集关键词：首先，卖家需要收集有关他们产品的一系列关键词。

这些关键词可能来源于他们产品的名称、描述或者与其相关的话题词。

2. 文本预处理：对于收集到的关键词，我们需要对其进行预处理，例如去除停用词和标点符号，并使用相同的轻量级文本处理工具来对它们进行标准化。

3. 特征工程：接下来，我们需要将每个关键词表示为向量的形式。

在这里，我们可以使用常见的技术，如将其表示为词袋或TF-IDF向量。

4. 聚类算法：一旦我们得到了每个关键词的向量表示，我们可以使用各种聚类算法来将其聚类。

这些算法基于它们之间的相似性，将关键词分组到相似度较高的一组中。

5. 结果分析：最后，我们可以根据聚类的结果，确定关键词的相关性，并提取一些高频词和相关词，以指导我们的产品推广策略。

在进行淘宝产品关键词聚类分析时，还需要注意以下几点：1. 聚类的数量以及使用的算法应该根据数据量和分析目标来决定。

2. 高频词并不一定是最好的选择。

我们需要综合考虑关键词的相关性和搜索量。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实例解析关键词聚类的方法策略
收藏到：1时间：2014-06-05 文章来源：马海祥博客访问次数：388
最近，马海祥接手了一个大型的网站，首先要做的就的对这个网站的流量来源进行分析，这其中最繁琐的莫过于对来源关键词的聚类整合了。

所以，要想做好这类做关键词的聚类，就一定要有一些基础信息，基础数据作为背景。

在此，我就借助马海祥博客的平台跟大家实例解析关键词聚类的方法策略：
1、百度商业词聚类模型
现在对于一些医疗SEO来说看行业新闻，大家经常讨论一个话题就是百度医疗行业的收入贡献比是多少？，其实，爆个大料给大家，在2005年甚至2006年之前，百度自己都不掌握这类数据。

当时百度有一个简单的客户分类，是客服提交的，然后我们看了一下消费的行业分布，结果显示超过50%属于其他分类，这个结果基本上就没法看了。

我的出发点就是假设客户本身具有行业属性(如果这个假设不存在，那就没辙了)，我认为每个客户提交的关键词，彼此是有关联的。

某两个关键词如果同时被不同的客户提交，其关联性就会随之增加，这个是最基本的一个定义，叫做共同推举数，也是最容易算的一个值。

问题1：A和B有50个共同推举，A和C有30个共同推举，但是B这个词是热门词，共有2000个客户提交；而C是冷门词，只有50个客户提交，请问A和B的关联度高还是A和C的关联度高？
问题2：客户1提交了10000个词(类似阿里真的是这么提交的)；客户2提交了20个词，客户1所提交的10000个词的彼此关联度和客户2之间提交的是否一致？
考虑这两个问题，就需要做权值调整了，然后再计算词与词的关联值。

那么，权值该怎么定呢？
对于这个权值的设定做了一个程序，实现程序只用了不到一个下午，然后跑一遍程序大约1个小时到2个小时（那时候百度的商业词还没那么多，客户也没现在呢么多，我的程序其实效率不够好）。

然后我做了一个web展示界面，就是任意输入一个词，列出其关联词及关联值，目测坏案例，分析参数的问题，然后修改参数，再跑一遍。

跑了n多遍，大约两三天时间，觉得结果差不多了，词与词的关联建立起来了，考虑第二步，聚类。

（当时认识了很多奇葩的商业词，大开眼界，对互联网行业认识彻底改观，比如白小姐，黄大仙……，这个领域就不再说了）
马海祥觉得聚类的做法就极为简单了，把每个行业的代表词(与很多词关联的)抽取出来，当作核心词，然后基于词的关联，延展一级关联、二级关联、三级关联，比如A与B 关联，B月C关联，C与D关联，计算彼此权值衰减，得出A与D的关联。

尽可能把所有词聚合到核心词上，作成行业词表。

最开始核心词我从库里挑与其他词关联度较高的有20多个，然后多级权值衰减也是假设的，然后跑一遍，看两个指标，第一、覆盖率是多少？第二、准确率如何？选取每个行业关联度最低的词(坏案例的密度较高，有些词会同时被两个行业核心词关联，但权值计算会出问题，导致被并入错误的行业)去看，选择没有被关联上的词去看，分析权值的问题，然后修改衰减参数，增加核心词。

这个程序我也是写了一个下午，但是调试权值和增加核心词，做了一个礼拜。

然后，百度商业分析部终于可以推出，基于行业的收入报表。

我自豪的说一句，百度做收入行业分布，是基于我的关键词分类算法开始的，当然，今天他们鸟枪换炮了，我的算法效率不够（初期还行，到更大的词规模和更多客户就不行了），覆盖率和准确度并不十分
完美（坏案例还是一直存在的，不过尽可能控制在消费总额的10%内，对热门词比较准，但对一些长尾控制不住）。

不过、我是在产品部门干的这个活，呵呵。

后来，这个模型还用于智能起价，下面马海祥再说一下关于智能起价的一些事。

智能起价其实是百度一个失败的商业尝试，对业务的伤害非常大，但是初期的设计理念并没有大问题，百度当时基于关键词的竞价(当时的竞价模式非常简单，别跟我说现在百度的竞价模式不这样，我明白)，对商业价值的挖掘是有缺陷的，比如一些超级热门词，3毛一个点击也是卖不掉的(比如电影，小游戏)。

是不是可以便宜点卖呢？对一些非长尾关键词但是价值很高的词（具体可查看马海祥博客的《什么是长尾关键词》相关介绍），因为发现的客户少，所以起价很低，而其商业价值并不弱，比如“最新SEO技术的报价”这样的长尾词可能参与竞价的只有一两个客户，但是其商业价值不会低于“SEO技术”这样的高价词。

所以，智能起价真正的目的，是给热门非商业词降价，给冷门长尾商业词提价。

那么我就提出一个观点，关键词的起价应与他关联词的平均点击价格相关。

然后他们拿这个模型去跟领导讲，很快就通过了。

（牢骚一句，赵某童鞋去讲的，被领导问毛了，就说算法是技术部门的，他也不是很清楚，他去讲的时候明明是我提供的原型! 不过后来技术部门又做了一版，但那是后话了）
智能起价模型失败的原因，有两个原因：
（1）、他们上的时候为了提高对非商业词的覆盖率，硬把关键词包含规则加上去了。

导致了一些坏案例。

(比如平板，平板电脑，并不是一个行业)。

当时效果很不好，领导很不爽，批评我的坏案例太多，列了一堆，我挨个去查，所列的没有一个是我算法算出来的，都是词包含包进去的。

其实这个问题还不算严重，词包含固然有坏案例，但是影响面极为有限。

（2）、就是领导太急迫了，这个事情我的建议是，起价权值低一点（通过算法计算每个词关联平均价格，然后关联平均价格*起价参数=该词起价，这是基本公式，起价参数全凭个人判断），看效果慢慢调整，结果领导一上来设的相当高，所以，客户极大不爽，各种擦屁股持续了几个月，百度那个季度实在可怜。

凤巢之后，智能起价终于寿终正寝。

凤巢的方案更完美，更综合，这是必须承认的。

2、搜索词/指数词的聚类
当然，除了以上所述的，也可以基于搜索网民的提交来计算关联度，但是首先，网民的搜索行为，并不如客户提交商业词行为那样具有分类属性。

其次，我当时的处理能力也搞不定这样的数据规模的关联计算。

那么基于什么呢？基于关键词+搜索量。

这事又是怀亭帮忙，当时他帮我做所有搜索记录的整理，包括汇总和反刷处理，除了一些ip，客户端标记清理外，最重要的还有一个规则，是基于渠道分布和客户端分布规则。

正常的搜索词，来自于不同渠道的比例应该是遵循一个合理分布比例的，所谓渠道包括百度官网，hao123，其他联盟渠道等等，如果严重不遵守这个比例，基本就是刷指数了，但这个规则没有应用到百度指数上，至少当时没应用到，原因似乎是这样的，当时几乎所有
榜单上的热门女星，似乎都有经纪公司或粉丝团的刷榜行为。

所以当时我手里有百度所有搜索词的搜索数据(清理掉刷指数的数据)，而且每日更新。

那么怎么分类呢？如果做全分类，我真做不到，但是热门词是可以做的。

这里有一个要点，就是每个热门关键词，都不是孤立存在的。

而这些热门词的相关词(基于词包含)里，会携带一些表明其行业属性的词根，然后可以回溯这个热门词的行业属性。

举个例，比如某一个热门游戏，魔兽，会有大量诸如魔兽攻略，魔兽新服，魔兽道具，魔兽外挂等等相关词。

通过这些相关词的词根(可以对词根标记分类属性)回溯原词，以及原词所有相关词的分类。

比如电视剧，常见词根有“第**集，最新集”，一个小说，常见词根有“第**章”，“最新章节”等。

当然，还有一个情况，有些词是多含义的，比较典型如苹果(IT产品，电影，水果)。

武林外传(电视剧，游戏)等。

通过词根的分析，并基于不同词根下的搜索量加权，得到该词的搜索属性，偏向哪个领域，或各个领域的比例，是的，不是很精确，但是还是有一定价值的。

马海祥建议的实现方法就是，针对每个未分类的热门词，去遍历包含他的所有词，然后基于预先定义的分类词根去套，对包含每个分类词根的长尾词根据搜索量加权，汇总得到该热门词的分类属性，以及覆盖包含该热门词的所有长尾词的分类属性（具体可查看马海祥博客的《如何组合和挖掘长尾关键词》相关介绍）。

这个算法思路，不适合对长尾词挖掘（含有行业属性词根的长尾词可以覆盖，但是毕竟覆盖率不够），但是对百度热榜可以有很好的帮助，对热门词的挖掘和自动分类还是有一定把握的，当时不少人抱怨我说百度热榜更新不及时，一些新游戏都很火了也进不了热榜，我就拉着百度热榜的产品经理和技术分享过，还提供过原型代码，然后也没有然后了。

至少当时，我能不断看到网民搜索行为的分类比例（百度长尾词太多，我的模型覆盖搜索量只有50%左右），以及变化趋势，比如眼看着视频类的搜索比例快速增长。

马海祥博客点评：
通过关键词聚类分析，可将待选的关键词分成同质的几类小组，在同一组内选择实验单位和非实验单位，这样便保证了这两个单位之间具有了一定的可比性。

进而就可提高网站关键词的扩展及分类展示了。