Web文本挖掘中模糊聚类有效性评价论文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Web文本挖掘中模糊聚类的有效性评价研究摘要:本文研究了基于模糊聚类的web文本挖掘和模糊聚类有效性评价函数,并将其应用于web文本挖掘中模糊聚类有效性评价。

仿真实验表明该方法有一定的准确性和可行性。

abstract: this paper studies web documents mining based on fuzzy clustering and validity evaluation function, and puts forward to applying validity evaluation function into evaluation of web text mining. the experiments show that fkcm can effectively improve the precision of web text clustering;the method is feasible in web documents mining. the result of emulation examinations indicates that the method has certain feasibility and accuracy.
关键词:模糊聚类;web文本挖掘;相似度函数;有效性评价
函数
key words: fuzzy cluster;web text mining;similarity measure function;validity evaluation function
中图分类号:tp39 文献标识码:a 文章编号:1006-4311(2012)30-0207-02
0 引言
将模糊核聚类用于web文本挖掘,实现多web文本的聚类分析,已成为文本信息进行有效组织、摘要和导航的重要手段。

由于模糊
聚类是一种无监督的学习过程,如何用一种客观公正的质量评价方法来评判聚类结果的有效性是一个困难而复杂的问题。

广义上讲,聚类有效性评价包括聚类质量的度量、聚类算法适合某种特殊数据集的程度以及某种划分的最佳聚类数目[1]。

本文研究了模糊聚类算法,并对现有的模糊聚类算法进行了改进。

研究了评价聚类效果的两种有效性函数,并将其应用于web文本数据的模糊聚类效果的评价,讨论了模糊聚类最佳类别数的自动确定问题。

1 web文本预处理
web文本分类首先需对文本信息进行建模(预处理),文本中存在很多非结构化信息,意义的特征项(如词条)来代表文本。

在web 文本挖掘时只修对这些特征项进行处理,从而实现对非结构化文本的处理,这是一个非结构化向结构化转化的处理步骤。

1.1 web文本建模在信息处理领域,文本的表示通常采用gerard salton[2]提出的向量空间模型(设d(d1,d2,…,di,…,dn)为含有n个文本的文本集,该模型是将含有n个文本的文本空间看作是由一组规范化正交词条矢量组成的向量空间,每个文本di 表示为其中一个规范化特征矢量v(di)。

v(di)=(t1,w1(di);…tj,wj(di);…;tm,wm(di))(1)
其中,tj为文本di中的特征词;wj(di)为tj在di中权重,称v(di)为文本di的向量空间表示,wj(di)=ψ(tfj(di))。

其中ψ采用tf-idf函数,公式如下:
w■d■=■(2)
式中tf■为特征词tj在di中的词频,n是文本集中文本总数,nj是文本集中包含特征词tj的文本数,l为在文本di中特征词的个数。

1.2 文本信息特征集的缩减 vsm 文本表示成数学上可分析处理的形式,但是存在的问题是文本特征向量具有惊人的维数。

因此,在对文本进行分类处理之前,应对文本信息特征集进行降维处理。

降维的方法有特征选取和特征抽取。

通常的方法是将计算每个词出现的频率,然后删除一些频率很高或很低的词,同时还要考虑针对每个特征词条的权重排序,选取预定数目的最佳特征作为结果的特征子集。

2 基于dsim的web文本挖掘
2.1 相似度函数dsim 用vsm对web文本进行的结构化处理,使得文本特征向量的维数相当大,尽管前面对文本特征向量进行了降维处理,但大多数向量空间仍属于高维空间。

随着数据维数d的增加,数据的最大—最小距离差dmax-dmin以d1/k-1/2的速度增长[3][4][5]。

对l■范数距离度量来讲k越大,最大和最小距离之间的对比越不明显[3][4][5]。

赵恒[6]等人提出将hsim()函数作为相似度函数来进行模糊分类,相似性度量函数hsim()可以较好地克服l■范数等传统的距离函数在高维空间中的缺点,但它不具备平移不变性和不依赖幅值的特点。

基于此,对hsim()函数作了改进。

提出新的面向高维空间的相似度函数dsim()。

定义1:设x=x■,x■,…x■,y=y■,y■,…y■是n维空间中的两个点,相似度函数dsim()可定义[7]为:
dism(x,y)=■(3)
可以看到,与l■范数距离度量不同之处在于,函数中占主导地位的是那些取值差别较小(比较靠近)的维。

用dsim()函数计算的相对距离差不随维数的增加而减小,与传统的欧氏距离相比,对高维数据有较强的适应能力。

2.2 改进的模糊聚类算法在web文本挖掘中的应用
本文采用文本向量相似度dsim对web文本聚类,该方法的思想是首先使用vsm对web文本建模,接着对生成的web文本特征向量进行降维处理,使用近似中值(approximated median)算法为每类文本集生成一个代表该类的中心向量,然后在新文本来到时,确定新文本向量,使用dsim函数计算该向量与每类中心向量间的距离相似度,最后该文本划分到与相似度最小的那个类。

从而实现对web文本的挖掘。

给出改进的模糊聚类算法如下:
①用给出初始聚类数目c和初始聚类中心。

②给出迭代标准ε,用α■=arg■■确定模糊权指数α。

③用值在0,1间的随机数初始化隶属矩阵u■,并使其满足u=u ■,u■?叟0,■u■=1的约束条件。

利用初始聚类类心得到v■,令迭代次数j=1。

④计算聚类中心。

给定v■,根据公式,计算u■。

⑤使用dsim函数计算该向量与每类中心向量间的距离相似度,重新计算隶属度。

给定u■,根据公式,计算v■。

⑥若maxu■■-u■■?燮ε,则迭代过程结束,否则j←j+1,转至③。

3 模糊聚类评价
模糊聚类有效性评价问题的研究主要集中在模糊c -均值( fcm)算法的两类有效性函数上:
①基于模糊划分的模糊聚类有效性函数将隶属度作为有效性评价的主要因素,像bezdek提出的划分系数pc[7]和划分熵pe[8]都属于这一类;②基于几何结构的模糊聚类有效性函数不仅将隶属度考虑在内,还考虑到了数据集本身,xie-ben指标[8]就是这一类有效性函数的典型代表。

3.1 基于模糊划分的模糊聚类有效性函数基于模糊划分的模糊聚类有效性函数易于计算,适用于数据量小且分布比较好的数据集,但与数据集的几何特征缺乏直接联系,对于类与类之间的耦合数据不能很好地处理。

第一个度量模糊聚类有效性的泛函是bezdek 提出的划分系数(partition coefficient)[8]。

v■=■■u■■/n
这个泛函旨在度量各聚类间的“重叠”程度。

其中:uji代表簇j中矢量i的隶属度,c为聚类个数。

最大指标值对应最好的聚类结果。

shannon参照信息论的香农定理,提出了划分熵(classification entropy)[9]。

最小指标值对应最佳聚类数。

二者都与数据集的结构特征缺少直接关联。

v■=-■■u■■log■u■/n
3.2 基于几何结构的模糊聚类有效性函数基于数据集几何结构的模糊聚类有效性函数的理论基础是:每个子类应当是紧凑的,而且子类间是尽可能分离的。

xie和beni从数据集的几何结构出发,提出了xie-beni 有效性指标vxie[10]。

该方法是第一个结合了数据集几何特征的模糊聚类有效性评价方法:v■(u,v,c)=■其中,u是隶属矩阵,v是聚类中心矩阵,c是聚类数,m是模糊因子,uij是u矩阵中的元素,vxie是类内紧凑度和类间分离度的比例,在类内紧凑度和类间分离度之间找一个平衡点,使其达到最小,从而获得最好的聚类结果。

4 仿真实验
为了验证本文算法,我们从http://随机选取了包括交通,经济,娱乐,教育、历史等5个领域的502个web文本,进行web分类挖掘测试。

首先应用改进的模糊聚类算法对实验样本进行聚类分析,然后分别使用有效性函数vpe和——xie-beni 有效性指标对结果的有效性进行评价,最后将评价的结果与实际结果进行比较分析得出结论如表1所示。

从实验数据可以看出两种有效性评价函数对聚类的结果大致做出了准确评价,将这种评价方法应用于模糊聚类的有效性评价是基本可行的。

5 结束语
本文研究了模糊聚类和聚类的有效性评价指标,改进了模糊聚类算法,将基于相似度的模糊聚类用于web文本挖掘,并将将有效性评价函数应用于web文本挖掘的模糊聚类有效性评价,仿真实验结果表明,这种评价策略是可行的有效的,但在实际应用中还要考虑数据的不稳定性及聚类过程的不确定性。

参考文献:
[1]halkid i m, vazirgiannis m, batistakis y. quality scheme assessment in t he clustering process[c]//proc of t he 4th eur conf principles and practice of knowledge discovery in databases,2000:1652276.
[2]王永成.中文信息处理技术及其基础[m].上海:上海交通大学出版社,1990.
[3]alexander hinneburg,charu c. aggarwal,daniel a. kein,what is the nearest neighbor in high dimensional spaces?proceedings of the 26th international conference on very large databases. 2000:506-515.
[4]charu c. aggarwal,re-designing distance functions and distance-based application for high dimensional data,acm sigmod record,30(1),2001:13-18.
[5]c. c. aggarwal. on the effects of dimensonality reduction on high dimensional similarty search. procddings
of the 20th acm sigmod-sigact-sigart symposium on principles of database systems,new york,ny,usa:acm press,2001.5:256-266.
[6]赵恒,杨万海.数据挖掘中聚类若干问题的研究.西安电子科技大学博士学位论文,2005.
[7]bezdek j c. numerical taxonomy with fuzzy sets[j]. jmath biol, 1974,1 (1):57-71.
[8]bezdek j c. cluster validity with fuzzy sets[j]. journal of cybernetics,1973,3(3):58-73.
[9]shannon c e. a mat hematical theory of communication[j].bell syst tech,1948, xxvii(3):3792423.
[10]xie x l, beni g. a validity measure for fuzzy clustering[j].ieee trans on pattern analysis and machine intelligence,1991,8 (13):8412847.。

相关文档
最新文档