基于Web用户兴趣的聚类模型挖掘与分析

合集下载

基于聚类分析策略的Web文本挖掘方法

关键词：ｂ挖掘；Ｗｅ文本挖掘；聚类分析；特征向量中图分类号：ｉ９Ｔｔ１３文献标识码：Ａ文章编号：０４６２２０）４０２－４１０－０Ｘ（０７０－０２０
随着计算机网络的迅速发展和应用的不断普及，ｔｔＩｅ已发展成为当今世界上最大的信息仓ｎｍｅ
１２Ｗｅ．ｂ文本挖掘过程
传统的数据挖掘所处理的数据是结构化的，如关系的、事务的、数据仓库的数据，其特征数目通常不超过几百个，Ｉｔｔ而ｎｍｅ上的信息是以网页形式ｅ
存放的，网页的内容又多以文本方式来表示，没有是结构的，换为特征矢量后特征数将达到几万甚至转几十万。同时由于用户感兴趣的文本集往往存在不同主题，果没有对训练文档进行类别区分，是将如而所有的特征词全部放到同一个向量中，可能会导有
Ｗｅ文本挖掘是指借鉴数据挖掘的基本思想ｂ和理论方法，大量非结构化、构的Ｗｅ档的从异ｂ文
集合Ｄ中发现有效的、颖的、在可用的及最终新潜
可理解的知识Ｋ包括概念、（模式、规则、规律、约束
及可视化等形式）的非平凡过程。如果将Ｄ看作输入，Ｋ看作输出的话，么Ｗｅ将那ｂ文本挖掘的过程就是从输入到输出的一个映射ｅＤＫ。：—
维普资讯
第４期
刘彦保，王文发，王文东：于聚类分析策略的Ｗｅ基ｂ文本挖掘方法

基于聚类算法的社交媒体用户行为分析

基于聚类算法的社交媒体用户行为分析社交媒体已经成为人们日常生活中不可或缺的一部分。

在社交媒体上，人们可以与朋友和家人交流、分享自己的生活，也可以关注新闻、娱乐和商业等事物。

对于企业来说，社交媒体也是一种重要的营销平台。

无论是想宣传品牌、推广产品还是与客户互动，都需要通过社交媒体来实现。

然而在如此海量的数据和信息中，如何发现和挖掘有效的用户信息，是企业和研究人员需要关注的一个重要问题。

本文将探讨基于聚类算法的社交媒体用户行为分析。

一、什么是聚类算法聚类算法是一种将数据集中相似的对象归为一类的方法。

在机器学习和数据挖掘领域，聚类算法是一种常用的数据分析方法。

通过聚类分析，可以将大量的数据分成若干个相似的簇，每个簇都包含一组具有相似特征的数据。

聚类算法可以用来发现数据集中的内在结构、分类和概要数据等。

二、社交媒体用户行为分析在聚类算法中，聚类对象是用户的行为数据。

社交媒体用户的行为数据包括用户发表的文本、评论、点赞、分享等信息。

通过聚类分析，可以将社交媒体用户分为若干个不同的簇，每个簇都具有一定的特征和行为习惯。

这些簇可以让我们更好地了解社交媒体用户的行为和兴趣，从而更有效地开展营销活动。

例如，针对社交媒体上的一个普通用户，可以通过聚类算法将他归到某个簇中，然后根据该簇的特征和行为习惯，推出相应的产品和营销策略。

这样一来，企业可以更好地满足用户的需求，提高销量和用户满意度。

对于研究人员来说，通过聚类算法，可以更好地了解社交媒体用户对事件、政治、品牌等领域的态度和看法，从而更好地进行市场分析和风险评估。

三、聚类算法在社交媒体中的应用1. K-means算法K-means算法是一种常用的聚类算法，主要是基于距离的空间分析。

在社交媒体用户行为分析中，可以采用K-means算法将用户分成若干个不同的群体。

例如，可以将用户分成观看时长、文章类型、内容类型等不同的簇。

这样一来，可以更好地挖掘用户的兴趣，从而更有效地制定营销策略。

一种基于Web用户访问模式的矩阵聚类算法研究

ｍｉｉｔｔｒｃｎｆｒｅｎｙｅａｄｓｄｈｅｕａａｔｒｆｗｂｌｇｒｃｒｓｔｍｐｏｅＷｅｉｅｆｒａｃｎｒａｉｔｎｎｓｒｏａｕｔｒａａｚｔｙｔｅｒｇｌｒｐｔｎｏｅｏｅｏｄｏｉｒｖｂｓｅｐｒｍｎｅａｄｏｇｎｚｉａａｈｌｎｕｅｔｏａｏｌｓｒｃｕｅＯａｏｐｏｉｅｐｒｏａｉｄｓｒｉｅｔｔｒ，Ｓｓｔｒｖｄｅｓｎｌｅｅｖｃ．ｕｚＫｅｒｓｗｂｍｉｉｇｕｔｍｅｃｅｓｐｔｒ；ｗｂｃｎｅｔｍｉｉｇｙｗｏｄ：ｅｎｎ；ｃｓｏｒａｃｓａｔｎｅｅｏｔｎｎｎ；ｍａｒｘｃｕｔｒｇｔｌｓｉｉｅｎ
形成发现用户群的访问行为。对用户会话进行聚类
以获取感兴趣的信息，同时浏览速度也难以保证，如何有效地分析用户需求，帮助用户从中发现感兴趣的信息资源，已经成为一项迫切而重要的课题。为此，根据用户在浏览站点时的行为进行分析，可挖掘
Ｂｉｎ，ＧＵＯＬ－ｈｎ，ＨＵＡＡＯＪａｉｕｃＮＧｉ— ｏＪｎｂ
（ｅａｔｅｔｆＣｍｕｅＳｉｃ＆ＴｃｎｌｙＬａｎｇＴｃｎｃｌｎｅｉ，Ｆｘ３０ｈｎ）Ｄｐｒｎｏｏｐｔｃｎｅｅｈｏｇ，ｉｏｉｅｈｉｉ￣ｔｕｉ１００ＣｉａｍｒｅｏｎａＵｖｙｎ２
一
种基于Ｗｅ户访问模式的矩阵聚类算法研究ｂ用

基于兴趣度的Web用户访问模式分析

一
户在不同的时间可能有不同的浏览模式，其长期趋势应该但是稳定的，句话说，是用户的兴趣体现在长期的访问行为换就中 … 因此，用户在一定时期内的访问信息应用数据挖掘算。对法，可以发现站点的相似客户群体等信息，些信息表明便这了用户群访问Ｗｅ为呈现出的访问规律，是对用户群访ｂ行它问行为的一种抽象，以看成是知识。可
—
ｄｇｅ．ＣｌｓｉａｚｙＣ－ａｌｓｅｉｇａｇｒｈｉａｐｉｄｔａｙｅｕｅｃｅｓｐｔｒｓＴｅｅｐｒｎｓｕｅａａａｓｔｅｒｅａｓｃｌｆｚｍｅｎｓｕｔｒｎｌｏｔｍｐｌａｌｚｓｒａｃｓａｅ．ｈｘｅｍｅｔｓｄｔｒｌｔｅｕｃｉｓｅｏｎｎｉｏｅｄｓｏｗｅｏｎｎｌｏｔｍｄｉｇｕｅｔｒｓｄｇｅｆｃｉｅａｄｆａｉｌ．ｈｗｂｌｇｍｉｉｇａｇｒｈａｄｎｓｒｉｅｅｔｅｒｅｉｅｅｔｎｅｓｂｅｉｎｓｖＫｅｒｓｗｅｇｕｅｔｒｓｅｒｅｕｅｃｅｓｐｔｒｓｆｚｙＣ－ａｓｃｕｔｒｇａａｙｉｙｗｏｄ：ｂｌ；ｓｒｉｅｅｔｇｅ；ｓａｃｓａｅ；ｕｚｍｅｎ；ｌｓｅｎｎｌｓｓｏｎｄｒｎｉ

基于Web挖掘的层次凝聚类算法研究

Ｄｔ一，ｉ… ，｝层次聚类的过程如下：＝ｄｄ，，
稿件编号：０２３７２１０１１
作者简介：杨金花（９２）女，南安阳人，１６一，河副教授。研究方向：件编程和算法。软
－
杨金花
特性。得Ｗｅ使ｂ上的信息查找比传统的信息查找表现出更大的挑战性。解决从Ｗｅｂ上查找信息的一个途径掘技术和Ｗｅ合起来，行Ｗｅ据挖掘【ｂ结进ｂ数ｌ１。
ｓ（ｃ南；ｉｃＪｍｉ），
Ⅱ
厂ｉ——一
其ｃ ∑脚，＝ ∑ｉ：Ｃｋ中句ｃＩ＼ｃ：ｃ／ｊ ∑ｊ；ｌＩ，ｃｋＣ￣
３选取具有最大相似度的２个聚类（ｌＩｘｓｃ，））ｃ。ｍａｉｉ『’ ，）ｍ（ｃ将合并成一个新的聚类Ｃ－ｊ同时合并Ｃ和ｃ的特征矢ｋ．ｕＣ￣－Ｃ，，量，而要构成了Ｄ的一个新的聚类集合Ｃ｛－，，，从＝Ｃ－ｃ …
兴趣的、含的、未被认识到的有用知识。于Ｗｅ身的隐尚由ｂ本
结构化的数据。半结构化是形成了Ｗｅｂ文本挖掘的特色。
Ｗｅｂ上的大量数据是非结构化的、次化的翻，其中层而
类算法，于传统的算法存在的问题，出了改进的算法，究了相似度值对整个算法过程的影响，计了一个动态对提研设改变相似度值的计算公式。关键词：据挖掘；ｂ文本挖掘；层次凝聚类算法；似度值；改进的层次凝聚类算法数Ｗｅ相中图分类号：ｌ３】，ｌ、Ｐ文献标识码：Ａ文章编号：１７ — ２６２１）２ｏ３ — ３６４６３（０２ｌ一０００

基于人工鱼群算法的Web用户聚类分析

（０１．４３）：２１．
ＡｂｔａｔＴｅｃｌｂｌｏｒｄｔｎｌ￣ｓｅｎａｇｒｔｍｉｏｓｏｇＩｓａａｉｏｒｃｓｉｇｓｌｔｄｏｎｓｓｌｏｓｒｃ：ｈｓａａｉｔｆｔｉｏａｉｙａｉｃｔｒｇｌｏｉｉｈｓｔｔｎ．ｃｐｃｔｆｐｏｅｓｎｉｏａｅｐｉｔｉａｓｎｒｔｙ
ｗｅｋｔｃｌＦｓｗａＡｇｒｈＡＦＡ）ｉａｌｏｔｍｏｌｂｌｏｔｚｔｎｂｓｄｏｎｍａｂｈｖｏＩｉｕｅｎａ．ｉｉｉＳｒｌｏｉｍ（ＳＡｒｆａｉｈｍｔＳｎａｇｒｈｆｒｇｏａｐｉａｏａｅｎａｉｌｅａｉｒＳｓｄｉｉｍｉｉｔ
Ｔｈｃｕｌｒｓｌｅｉａｅａｇｒｔｍｓｅｅｔｖ．ｅａｔａｅｕｔｖｒｆｔｔｔｌｏｈｉｆｃｉｅｓｙｈｈｉ
Ｋｅｒｓｒｆｉｉｗａｍｌｏｉｍ（ＦＡ）ｕｅｌｓｒｇｌｇｍｉｉｇｙｗｏｄ：ＡｔｃｌＦｓＳｒＡｇｒｈＡＳ；ｓｒｃｔｎ；ｎｎｉａｉｈｔｕｅｉｏ
关键词：工鱼群；人用户聚类；日志挖掘
Ｄ：０３７￣ｉｎ１０ —３１０１００４文章编号：０２８３（０１３．０２０文献标识码：中图分类号：Ｐ８ＯＩ１．８．ｓ．２８３．１．．０７ｓ０２３１０．３１２１）００１．３ＡＴ１３
由解决一维静态优化问题发展到解决多服务，Ｉｅｅ发展的一个重要趋势。用户聚类将具有相似外学者的广泛关注，是ｎｒｔｔｎ浏览行为的用户进行分组，Ｗｅ是ｂ日志挖掘中重要工作之一，维动态组合优化问题。人工鱼群算法的主要优点有：鲁棒性其主要任务是通过分析Ｗｅｂ日志数据，将用户按照一定规则分割成不同的簇，同一簇内的用户具有较高的相似性，同簇不

基于大数据分析的网站用户行为模式挖掘与优化

基于大数据分析的网站用户行为模式挖掘与优化在互联网时代，网站用户行为模式挖掘与优化已经成为企业建设和经营的重要组成部分。

借助大数据分析的技术手段，企业可以深入了解用户的行为习惯和需求，从而优化网站的设计、内容和运营，提升用户体验，增加用户黏性和转化率。

首先，大数据分析可以帮助企业挖掘用户的行为模式。

通过分析网站的访问日志、点击流数据等大量数据，可以了解用户在网站上的浏览、搜索和交互行为。

例如，可以分析用户的浏览路径和点击热点，了解用户在网站上的活动轨迹和关注点。

同时，还可以通过聚类分析等技术手段，将用户进行分类，挖掘出不同用户群体的行为模式和特点。

通过深入理解用户行为模式，企业可以有针对性地调整网站的布局、内容和功能，提供更符合用户需求的服务。

其次，大数据分析可以帮助企业优化网站的设计与内容。

通过分析用户的搜索关键词和点击偏好，可以了解用户对哪些内容感兴趣，哪些内容能够吸引他们的注意。

企业可以根据这些数据，调整网站的导航结构、页面设计和内容呈现方式，使得用户更容易找到自己感兴趣的内容。

此外，还可以根据用户的偏好推荐相关的产品或服务，提升用户的购买意愿和满意度。

通过不断优化网站的设计与内容，企业可以吸引更多用户的关注，提高网站的访问量和用户留存率。

第三，大数据分析还可以帮助企业优化网站的运营策略。

通过分析用户的行为数据，企业可以找出用户流失和转化的痛点，针对性地制定运营策略。

例如，可以通过分析用户的离开页面和跳出率，找出网站存在的问题和改进的空间。

同时，还可以结合用户的行为数据进行A/B测试，比较不同策略的效果并做出相应调整。

通过不断优化网站的运营策略，企业可以提升用户的满意度和忠诚度，增加网站的转化率和收益。

此外，大数据分析还可以帮助企业预测用户行为，提前做好准备。

通过对历史数据的分析，可以研究用户的消费习惯和行为模式，在特定时段或活动期间预测用户的需求和行为，从而有针对性地制定营销策略和推广方案。

[数据分析] 基于用户画像的聚类分析

聚类（Clustering），顾名思义就是“物以类聚，人以群分”，其主要思想是按照特定标准把数据集聚合成不同的簇，使同一簇内的数据对象的相似性尽可能大，同时，使不在同一簇内的数据对象的差异性尽可能大。

通俗地说，就是把相似的对象分到同一组。

聚类算法通常不使用训练数据，只要计算对象间的相似度即可应用算法。

这在机器学习领域中被称为无监督学习。

某大型保险企业拥有海量投保客户数据，由于大数据技术与相关人才的紧缺，企业尚未建立统一的数据仓库与运营平台，积累多年的数据无法发挥应有的价值。

企业期望搭建用户画像，对客户进行群体分析与个性化运营，以此激活老客户，挖掘百亿续费市场。

众安科技数据团队对该企业数据进行建模，输出用户画像并搭建智能营销平台。

再基于用户画像数据进行客户分群研究，制订个性化运营策略。

本文重点介绍聚类算法的实践。

对用户画像与个性化运营感兴趣的亲们，请参阅本公众号其他文章。

Step 1 数据预处理任何大数据项目中，前期数据准备都是一项繁琐无趣却又十分重要的工作。

首先，对数据进行标准化处理，处理异常值，补全缺失值，为了顺利应用聚类算法，还需要使用户画像中的所有标签以数值形式体现。

其次要对数值指标进行量纲缩放，使各指标具有相同的数量级，否则会使聚类结果产生偏差。

接下来要提取特征，即把最初的特征集降维，从中选择有效特征放进聚类算法里跑。

众安科技为该保险公司定制的用户画像中，存在超过200个标签，为不同的运营场景提供了丰富的多维度数据支持。

但这么多标签存在相关特征，假如存在两个高度相关的特征，相当于将同一个特征的权重放大两倍，会影响聚类结果。

我们可以通过关联规则分析（Association Rules）发现并排除高度相关的特征，也可以通过主成分分析（Principal Components Analysis，简称PCA）进行降维。

这里不详细展开，有兴趣的读者可以自行了解。

Step 2 确定聚类个数层次聚类是十分常用的聚类算法，是根据每两个对象之间的距离，将距离最近的对象两两合并，合并后产生的新对象再进行两两合并，以此类推，直到所有对象合为一类。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于Web用户兴趣的聚类模型挖掘与分析1陈健荣1，吕雪蕊21 中山大学信息科学与技术学院，广东广州（510275）2 广东省潮州市龙湖医院，广东潮州（521000）E-mail：jrcken@摘要：用户兴趣的评估因素有多方面，无论单独从哪个方面都无法得到完整的模型。

本文综合考虑了三个核心因素，首先对用户浏览过的页面进行内容分析，并根据主题信息对页面进行聚类；在聚类的过程中除了考虑页面内容的相近程度外还辅以页面路径进行归类判断。

在最后得到页面的兴趣簇时将用户的浏览行为对其兴趣的作用列入其中，从而得到综合的评估模型。

实践表明此种方式能更准确的反映用户的真实兴趣。

关键词：聚类模型，用户兴趣，Web数据挖掘，知识发现中图分类号：TP311 文献标识码：A1引言随着因特网越发深入人们的生活，准确的挖掘用户兴趣将变得非常有意义，它可以使得人们在浩瀚的网络中迅速的找到志同道合者进行交流，从而促进知识的传递。

对用户兴趣特征的刻画有加权矢量、类型层次结构、加权语义网、书签和目录结构等模型[1]，而根据用户是否参加可分为显示与隐式两种。

由于显示挖掘需要用户主动参与，这很大程度上降低了可用性，并同时带来系统噪音，为了保证挖掘结果的准确性以及提高用户接受度，一般采用隐式数据挖掘。

目前对用户兴趣的挖掘方式有多种，其中有基于浏览内容和行为相结合的方式，如文献[2]，也有单纯从用户行为的历史信息寻找隐藏规律的。

用户会话作为用户行为信息的基本单位，对其聚类是从行为历史中发现用户兴趣的基础工作，因而它自然而然成为重要的分析对象。

而对用户会话分析主要采用的是相似性测量方法，基于相同浏览权值的相似性测量方法主要包括文献[3-6]所提出的4种，即Usage-based，Frequency-based，Viewing-Time-based以及Visiting-Order-based。

其中VTB用的最广泛，同时这些方法均假设页面是不相关的而只比较不同会话在相同页面的浏览权值，不考虑页面之间的相似性。

事实上，文献[7]中提到，即使不考虑页面的内容，单纯考虑页面的路径也可以发现不同的页面之间存在相似性。

本文并不单纯从一个方面来分析用户的兴趣，而是综合多种方式、从多角度来建立用户的兴趣模型。

首先将用户所访问的页面进行内容挖掘从而得到用矢量方法表示的页面兴趣，在此基础上结合页面URL相似性对页面距离的贡献对页面进行聚类；接着，根据聚类结果考虑用户作用在页面上的行为提取出突出特征从而形成用户兴趣。

2用户兴趣挖掘方式2.1兴趣界定在分析用户兴趣之前，我们首先对用户兴趣进行界定，即用户由什么组成、影响因素有哪些。

一般地，用户对Web文档的访问是有目的的行为，这种行为的动机可以分为稳定兴趣和偶然兴趣。

稳定兴趣是指一个人具有持久的兴趣倾向，偶然兴趣是指一个人由于临时需要或其他原因对某事物产生的偶然兴趣，每个人的偶然兴趣可以认为是随机变化的。

但在日志陈健荣（1983-），男，硕士研究生，主要研究方向为数据库与知识库，工作流平台。

中用户的兴趣具有集中性，这说明用户由稳定兴趣驱动访问Web 的频率远远高于偶然兴趣的驱动，因此一定时间段的Web 访问日志中一定蕴含了用户的稳定兴趣。

可以这么认为，用户的兴趣由其浏览过的大量页面的兴趣综合而成。

其中“页面兴趣”定义如下：设有页面共有N 个主题，所有主题都用数字权值来表示其突出程度，越突出的主题其权值越大，其中第i 个主题的权值用i C 来表示。

设所有主题的权值之和为m ，权值Ci 按从大到小排列，即12i C C C ≥≥L ，若0()/80%k i i C m =≥∑，那么主题1～k 为突出主题，我们称这前k 个主题为该页面的兴趣。

我们可根据同样的原理来表示用户的兴趣，文献[8]便是采用此种方式。

2.2 兴趣挖掘流程Web 挖掘过程一般包括相关网页采集、文本预处理、文本模型表示、信息或文本特征性抽取、文本分类(聚类)或结果集的数据挖掘等步骤以得到结果从而极大程度的方便用户有效地浏览和获取信息[9]。

本文提出的用户兴趣挖掘中最核心的步骤是对页面兴趣的挖掘，其大致过程如下：首先捕获用户访问的URL 并对URL 进行预处理，主要是去除视频、音频以及无效链接，然后根据“干净”的URL 提取对应的页面文本，接着对文本中的关键主题进行分析得到页面的兴趣。

其流程图如图1所示：图1 页面兴趣挖掘流程用户的兴趣在页面兴趣挖掘的基础上综合其他信息进行分析，其中主要考虑了页面路径的相似性、用户在页面上的浏览时间以及点击次数，我们用图2的流程来表示：图2 用户兴趣挖掘流程3 用户兴趣模型分析3.1 Web 内容挖掘(一) 页面主题表示研究页面的主题表示方式目的在于能用形式化的方式来表示页面兴趣，进而计算页面间的距离并最终为挖掘用户兴趣服务。

但是Web 页面不像关系数据库那样具有严格的数据结构，同时具有数值的表示和计算能力。

Web 页面多半是半结构化甚至是无结构的文本，要对它进行计算首先必须将它的特征进行结构化并赋予数字表示的中间形式，目前比较流行的是矢量空间法。

在矢量空间法中，Web 页面被表示成由词组成的矢量，即形如L <技术，财经，，人文>的格式，但在做这个转化之前必须将Web 文本进行分词。

分词并非本文讨论的重点，我们暂且不做分析。

为了从文本矢量中体现出页面的主题并可进行计算，我们必须根据关键字的重要程度赋予数字的表示形式，因而最终的矢量形式实际是<技术（10），财经（8），…，人文（1）>，在矢量表示时我们按其权值从大到小进行排列。

在得到了特征向量的特征项之后，一般要运用词频统计方法来计算特征项的权重。

在计算权重上被广泛应用的公式是IF-IDF 公式[10]：()()log(/)i i i W d tf d N n =× （1）其中：()i tf d i tf 为词条i t ，在文档d 中的出现频率；N 为所有文档的数目，i n 为含有词条i t 的文档数目。

在计算得每个页面的矢量之后，我们往往并不保留所有的关键字，因为这样一个页面的矢量可能是冗长的，并且很多关键字出现的次数是很小的，他们对页面兴趣的影响可以忽略，因此在实际操作中我们一般保留权值和为80％的前N 个关键字来表示页面的兴趣，也即在“2.1兴趣界定”所提到的方法。

在获得某用户浏览过的大量页面矢量表示后，我们便可在此基础上通过再进一步的分析来得到此用户的兴趣，这个方法可大致表示如下（其中W i 表示对页面赋予的另一权值，它主要与用户对此页面的浏览行为相关）：12n W W W >×>×⇒×⎧⎫⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎩⎭L L L M L <体育(10)，文学(7)，，财经(3)<技术(15)，历史(12)，，人文(5)<技术(18)，财经(12)，，人文(10)><政治(13)，生活(10)，，校园(6)> （2） (二) 页面相似度评价在分析了页面的矢量表示方式之后我们开始研究页面之间的相似度，也称为页面距离。

计算页面之间距离的目的在于对页面继续聚类，因为聚类分析是基于相似性的。

下面我们介绍常用的两种相似性度量函数，它们分别是夹角余弦法和欧几里德距离：1) 夹角余弦法()(,)cos(,)nxk yk W W Sim X Y X Y ×==∑ （3）其中X 、Y 表示两个页面的矢量，Sim （X ，Y ）表示X 向量和Y 向量之间的夹角余弦，Wxk表示X 页面的第K 各分量的权值，Wyk 表示Y 页面的第K 各分量的权值。

2) 欧几里德距离(,)(,)Sim X Y d X Y == （4）其中d （X ，Y ）表示X 、Y 向量之间的欧几里德距离，W xk 以及W yk 的意义同公式（3）一致。

以上两个公式的计算都是针对长度相同并且关键字一一对应的向量，但在实际情况中页面的主题数往往是不一样的，项与项之间也不对应，例如页面X 的兴趣是<体育（5）>，而Y 页面的兴趣是<音乐（6），计算机（4）>,我们不能简单的认为Wx1为5，Wy1为6，Wy2为4，因为“体育”与“音乐”之间不具可比性，而“计算机”又找不到对应项。

这种情况我们必须对矢量进行扩展，其规则是：移项对齐、补全空缺项。

例子中X 页面的矢量扩展后变成<体育（5），补全（0），补全（0）>，Y 页面矢量扩展后变成<补全（0），音乐（6），计算机（4）>，扩展便可以利用公式（3）、（4）进行距离计算了。

(三) 兴趣聚类聚类就是将一组对象集合按照相似性归成若干类别，其目的是使属于同一类别的对象之间相似度最大，而不同类别的对象间的相似度最小，是一种典型的无监督的机器学习问题。

聚类分析的算法主要有[11]平面划分方法(Partitioning method)、层次聚类方法(hierarchical method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)和基于模型的方法(model-based method)。

层次聚类方法就是对给定的数据对象集合进行层次分解，他可分为凝聚的和分裂的。

凝聚的方法就是一开始将每个对象作为单独的一个组，然后相继合并相近的对象和组，直到所有的组合并为一个，或者达到一个终止条件为止。

而与之相反，分裂的方法一开始将所有对象置于一个簇中，在迭代的每一步中，一个簇分裂为更小的簇，直到最终每个对象在单独的一个簇中，或者达到了某个终止条件。

下面给出一个面向Web 文本的凝聚的层次聚类法的具体描述[12]，在描述算法之前我们首先对“聚类中心”进行定义，因为它在层次聚类法中是一个核心的概念和步骤。

定义一组Web 页面的矢量为Sp ，则聚类中心Z 表示如下：1||p P p S Z P S ∈=∑ （5）则对于给定的文档集合D={D1，D2，…，Dn)，凝聚的具体过程如下：1) 将D 中的每个文档看作是一个具有单个成员的簇：C i ={D i }，这些簇构成了D 的一个聚类C ＝{D 1，D 2，…，D n )。

2) 计算C 中每对簇(C i ，C j )之间的相似度Sim(C i ，C j )。

3) 选取具有最大相似度的簇max Sim(C i ，C j )，并将C i 、C j 合并为一个新的簇k i j C C C =U ，从而构成了D 的一个新的聚类C={C 1，C 2，…，C n-1}。

4) 计算C k 的聚类中心，并重复上述过程，直到C 中剩下一个簇，或满足了特定条件为止。

在进行页面聚类的过程可同时考虑用户聚类，因为两者存在着必然的关系。