网页模糊归类算法的应用与实现(一)

合集下载

模糊算法的简介与应用领域

模糊算法的简介与应用领域

模糊算法的简介与应用领域模糊算法(Fuzzy Logic)是一种基于逻辑的数学方法,可用于计算机和控制工程中的问题。

Fuzzy Logic是指用于处理不确定性或模糊性问题的逻辑工具。

通过将问题的变量转换为可量化的值,并对变量进行分层,以确定如何进行推理,并进行决策。

模糊逻辑的核心是将不确定性转化为数字,然后使用公式进行操作,以确定结果。

例如,考虑一个简单的问题:如果一个人有160cm,那么这个人是否矮?根据模糊逻辑,这个问题不能被简单地回答“是”或“否”。

相反,问题需要考虑到不同的因素,例如人口统计数据,文化背景和其他因素,以确定是否可以说这个人是矮的。

模糊逻辑可以应用于各种各样的领域,包括工程控制,人工智能,自然语言处理,机器人技术等。

在这些领域中,模糊逻辑被用来处理复杂的系统和问题,并为决策提供精确而可靠的方法。

在工程控制中,模糊逻辑被广泛用于计算机和机器人系统的设计和开发。

例如,在机器人技术领域,模糊逻辑被用来控制机器人的运动和行为,以便机器人能够正确地执行任务。

此外,模糊逻辑也被用于控制汽车,飞机和其他机械设备等的操作。

在人工智能领域,模糊逻辑被用于自然语言处理和模式识别。

模糊逻辑可以帮助计算机系统理解模糊或不确定的语言和概念,并在模式识别方面提供更精确的方法。

在这个领域,模糊逻辑还被用于计算机视觉和图像处理。

在现代社会中,模糊逻辑广泛应用于人们的日常生活中。

例如,在车辆安全系统中,模糊逻辑用于判断车辆的速度和距离,以确定何时应该自动刹车。

此外,在消费电子产品中,模糊逻辑被用于改进电视机和音响系统等的品质。

总之,模糊逻辑是一种强大的工具,可以用于各种领域的问题和应用。

模糊逻辑不仅提供了一种新的方法来处理和解决问题,而且为我们提供了更精确的工具来做出决策。

模糊聚类的原理和应用

模糊聚类的原理和应用

模糊聚类的原理和应用1. 简介模糊聚类是一种聚类分析方法,它通过考虑数据点属于不同聚类的程度,使得数据点可以同时属于多个聚类。

与传统的硬聚类方法不同,模糊聚类能够更好地处理实际问题中的复杂性和不确定性。

本文将介绍模糊聚类的原理和应用。

2. 模糊聚类的原理在传统的硬聚类方法中,每个数据点只能隶属于一个聚类,而在模糊聚类中,每个数据点可以属于多个聚类,且属于不同聚类的程度可以从0到1之间的任意值。

这种程度被称为隶属度,用来表示数据点与聚类的关联程度。

模糊聚类的原理可以通过以下步骤来解释:1.初始化聚类中心:首先随机选择一些数据点作为聚类中心。

2.计算隶属度:计算每个数据点与每个聚类中心的隶属度,可以使用模糊C均值(FCM)算法来计算。

3.更新聚类中心:根据隶属度计算出每个聚类的中心点,更新聚类中心。

4.重复步骤2和3,直到聚类中心不再变化或达到预设的迭代次数。

模糊聚类的核心是通过计算隶属度来确定每个数据点对每个聚类的归属程度,从而实现多类别的聚类。

3. 模糊聚类的应用模糊聚类在许多领域中具有广泛的应用,包括数据挖掘、模式识别、图像处理和生物信息学等。

以下是几个常见的应用领域:3.1 数据挖掘在数据挖掘中,模糊聚类可以帮助找到数据集中的隐藏模式和关联规则。

通过将数据点划分到不同的聚类中,可以更好地理解数据的结构和特征。

模糊聚类还可以用作预测分析和聚类分析的基础。

3.2 模式识别在模式识别中,模糊聚类可以帮助将输入数据分类到模式类别中。

通过考虑隶属度,模糊聚类可以更好地处理模糊和不确定性的输入数据。

这在人脸识别、手写体识别等任务中非常有用。

3.3 图像处理在图像处理中,模糊聚类被广泛应用于图像分割和图像压缩等任务。

通过将图像像素划分到不同的聚类中,可以实现图像的分割和压缩。

模糊聚类还可以用于图像特征提取和图像检索等应用。

3.4 生物信息学在生物信息学中,模糊聚类被用于处理基因表达数据和蛋白质序列数据等。

基于模糊聚类的自动化数据分类

基于模糊聚类的自动化数据分类

基于模糊聚类的自动化数据分类在当今数字化时代,数据如同潮水般涌来,如何有效地对这些海量数据进行分类和管理,成为了摆在我们面前的一个重要课题。

模糊聚类作为一种强大的数据分析工具,为自动化数据分类提供了全新的思路和方法。

首先,让我们来理解一下什么是数据分类。

简单来说,数据分类就是根据数据的特征和属性,将其划分到不同的类别中。

比如,在一个电商平台上,根据用户的购买行为、浏览记录等数据,将用户分为不同的消费群体,以便进行精准营销。

在传统的数据分类方法中,往往采用的是明确的边界和严格的分类规则。

然而,现实中的数据往往并不那么清晰和明确,存在着很多模糊性和不确定性。

这时候,模糊聚类就派上了用场。

模糊聚类允许数据在不同的类别之间存在一定程度的重叠,更加符合实际情况。

它不像传统聚类方法那样将数据对象严格地划分到某一个类别中,而是为每个数据对象赋予一个属于不同类别的隶属度。

那么,模糊聚类是如何实现自动化数据分类的呢?它通常包括以下几个主要步骤。

第一步是数据预处理。

这就像是为一场比赛做好准备工作一样。

要对原始数据进行清洗、去噪和标准化处理,确保数据的质量和一致性。

比如说,如果数据中存在缺失值,就需要采用合适的方法进行填充;如果数据的量纲不同,就需要进行标准化,将它们统一到相同的尺度上。

第二步是特征选择。

这就好比在一堆物品中挑选出最有代表性的东西。

从众多的数据特征中选择出对分类最有帮助的那些特征,减少数据的维度,提高分类的效率和准确性。

第三步是确定聚类的数目。

这可不是一件容易的事情,需要根据具体的问题和数据特点来进行判断。

有时候可以通过一些经验法则或者先验知识来确定,有时候则需要通过多次试验和比较来找到最合适的聚类数目。

第四步就是真正的聚类过程了。

在这一步中,使用模糊聚类算法对数据进行分组。

常见的模糊聚类算法有模糊 C 均值算法(FCM)等。

这些算法会根据数据之间的相似性,计算每个数据对象对于不同类别的隶属度。

最后一步是对聚类结果进行评估和优化。

模糊聚类算法(FCM)

模糊聚类算法(FCM)

模糊聚类算法(FCM)伴随着模糊集理论的形成、发展和深化,RusPini率先提出模糊划分的概念。

以此为起点和基础,模糊聚类理论和⽅法迅速蓬勃发展起来。

针对不同的应⽤,⼈们提出了很多模糊聚类算法,⽐较典型的有基于相似性关系和模糊关系的⽅法、基于模糊等价关系的传递闭包⽅法、基于模糊图论的最⼤⽀撑树⽅法,以及基于数据集的凸分解、动态规划和难以辨别关系等⽅法。

然⽽,上述⽅法均不能适⽤于⼤数据量的情况,难以满⾜实时性要求较⾼的场合,因此实际应⽤并不⼴泛。

模糊聚类分析按照聚类过程的不同⼤致可以分为三⼤类:(1)基于模糊关系的分类法:其中包括谱系聚类算法(⼜称系统聚类法)、基于等价关系的聚类算法、基于相似关系的聚类算法和图论聚类算法等等。

它是研究⽐较早的⼀种⽅法,但是由于它不能适⽤于⼤数据量的情况,所以在实际中的应⽤并不⼴泛。

(2)基于⽬标函数的模糊聚类算法:该⽅法把聚类分析归结成⼀个带约束的⾮线性规划问题,通过优化求解获得数据集的最优模糊划分和聚类。

该⽅法设计简单、解决问题的范围⼴,还可以转化为优化问题⽽借助经典数学的⾮线性规划理论求解,并易于计算机实现。

因此,随着计算机的应⽤和发展,基于⽬标函数的模糊聚类算法成为新的研究热点。

(3)基于神经⽹络的模糊聚类算法:它是兴起⽐较晚的⼀种算法,主要是采⽤竞争学习算法来指导⽹络的聚类过程。

在介绍算法之前,先介绍下模糊集合的知识。

HCM聚类算法⾸先说明⾪属度函数的概念。

⾪属度函数是表⽰⼀个对象x ⾪属于集合A 的程度的函数,通常记做µA(x),其⾃变量范围是所有可能属于集合A 的对象(即集合A 所在空间中的所有点),取值范围是[0,1],即0<=µA(x),µA(x)<=1。

µA(x)=1 表⽰x 完全⾪属于集合A,相当于传统集合概念上的x∈A。

⼀个定义在空间X={x}上的⾪属度函数就定义了⼀个模糊集合A,或者叫定义在论域X={x}上的模糊⼦集A’。

模糊逻辑算法解析及其使用场景

模糊逻辑算法解析及其使用场景

模糊逻辑算法解析及其使用场景随着人工智能技术的不断发展,模糊逻辑成为了一种重要的算法模型。

模糊逻辑算法的特点是可以将模糊信息进行量化,从而更加准确地进行推理和决策。

本文从模糊逻辑算法的定义、原理和使用场景三个方面进行探讨。

一、模糊逻辑算法的定义模糊逻辑算法是一种处理模糊性信息的数学模型,其核心在于将模糊信息映射成数值,从而实现对该信息的处理。

与传统的布尔逻辑算法不同,模糊逻辑算法允许信息的值域在 0 到 1 之间取任意值,因此可以处理更加复杂的信息,具有更广泛的适用性。

二、模糊逻辑算法的原理模糊逻辑算法的核心在于“隶属度函数”的使用。

隶属度函数是一种将模糊信息映射到实数域的函数,通常用符号μ(x) 表示。

μ(x) 的值代表了某个元素 x 对于一个集合 A 的隶属程度,也就是 x 属于 A 的程度。

例如,在描述“温度”的情形下,我们可以定义一个温度集合 A,然后将任一温度值 x 映射到数值μ(x) ∈ [0,1] 上,表示该值对于集合 A 的隶属程度。

μ(x) 的值越大,x 就越符合集合A 的要求。

根据隶属度函数,我们可以定义出一种新的逻辑运算符号:模糊集合运算。

例如,假设我们有两个温度集合 A 和 B,同时我们有一个温度值 x。

我们可以用μA(x) 和μB(x) 两个值分别表示 x 对于 A 和 B 的隶属度,然后定义出一个“模糊 AND 运算符”:μA(x) ∧ μB(x)。

与传统的 AND 非常相似,当且仅当μA(x) ∧ μB(x) = min(μA(x), μB(x)) > 0 时,x 属于集合A ∩ B。

类似地,我们可以定义出模糊 OR、模糊 NOT 等运算符。

通过这些运算符的组合,我们可以处理模糊信息,实现对于不确定性的判断和决策。

三、模糊逻辑算法的使用场景1. 控制系统模糊逻辑算法在控制系统中应用广泛。

例如,在温度控制的场景下,我们可以根据隶属度函数将温度值映射到数值上,然后根据这个数值执行具体的控制策略。

模糊聚类方法

模糊聚类方法

模糊聚类方法模糊聚类是一种基于模糊集合理论的聚类算法,它在数据分析和模式识别中得到广泛应用。

与传统的硬聚类方法相比,模糊聚类能够更好地处理数据中的不确定性和模糊性,能够给出每个数据点属于不同聚类的概率,从而更全面地描述数据的特征。

一、模糊聚类的基本原理模糊聚类的基本原理是根据数据点之间的相似性将它们分成不同的聚类。

与传统的硬聚类方法不同,模糊聚类允许数据点属于多个聚类,且给出每个数据点属于不同聚类的权重。

通过引入隶属度函数,模糊聚类能够更好地处理数据的模糊性,给出更丰富的聚类结果。

二、模糊聚类的算法步骤模糊聚类的算法步骤一般包括以下几个方面:1. 初始化隶属度矩阵:隶属度矩阵用于描述每个数据点属于每个聚类的概率,一般通过随机初始化或者根据先验信息进行初始化。

2. 计算聚类中心:根据隶属度矩阵计算每个聚类的中心点,一般采用加权平均的方式计算。

3. 更新隶属度矩阵:根据当前的聚类中心,更新隶属度矩阵,使得每个数据点更准确地属于不同聚类。

4. 判断停止条件:根据一定的准则(如隶属度矩阵的变化程度或者目标函数的收敛性)判断是否达到停止条件,如果未达到,则返回第2步继续迭代。

5. 输出聚类结果:根据最终的隶属度矩阵,确定每个数据点最可能属于的聚类,输出聚类结果。

三、模糊聚类的优势相比传统的硬聚类方法,模糊聚类具有以下优势:1. 能够更好地处理数据的模糊性和不确定性。

在现实世界的数据中,往往存在一些边界模糊或者属于多个类别的情况,传统的硬聚类无法很好地处理这种情况,而模糊聚类能够给出每个数据点属于不同聚类的概率。

2. 能够更全面地描述数据的特征。

传统的硬聚类方法只能将数据点划分为一个聚类,而模糊聚类能够给出每个数据点属于不同聚类的权重,从而更全面地描述数据的特征。

3. 能够适应不同的聚类形状和大小。

传统的硬聚类方法通常假设聚类的形状是凸的,并且假设聚类的大小相等,但在实际应用中,聚类的形状和大小往往是不确定的,而模糊聚类能够更好地适应不同的聚类形状和大小。

模糊算法的基本原理与应用

模糊算法的基本原理与应用

模糊算法的基本原理与应用模糊算法是20世纪60年代提出的一种新的数学分析方法,具有广泛的应用领域,如控制理论、人工智能、模式识别、决策分析等。

本文将介绍模糊算法的基本原理以及在实际应用中的一些案例。

一、模糊算法的基本原理模糊算法的核心思想是将不确定性和模糊性考虑进来,将数据分为模糊集合,不再是传统意义上的精确集合。

模糊集合是指一个元素可能属于这个集合的程度,它用隶属度函数来表示。

举个例子,一个人的身高不可能绝对的是1米80,可能是1米78或者1米82,那么身高就可以看成一个模糊集合,每个身高值对应一个隶属度。

隶属度函数一般用μ(x)表示,μ(x)的取值范围是[0,1],它表示元素x属于该模糊集合的程度。

为了使模糊算法具有可操作性,需要建立一套模糊集合运算规则。

常用的包括交运算和并运算。

1. 交运算:模糊集合A和B的交集,定义为:A ∩B = { (x, min(μA(x), μB(x))) | x∈X }其中X是数据集合。

这个公式的意思是,对于集合A和B中都出现的元素x,它们的隶属度的最小值就是A∩B中x的隶属度。

2. 并运算:模糊集合A和B的并集,定义为:A ∪B = { (x, max(μA(x), μB(x))) | x∈X }其中X是数据集合。

这个公式的意思是,对于集合A和B中出现的元素x,它们的隶属度的最大值就是A∪B中x的隶属度。

二、模糊算法在实际应用中的案例1. 模糊控制系统模糊控制系统是模糊算法应用最广泛的领域之一。

传统的控制系统需要建立数学模型,对系统进行分析和设计。

而模糊控制系统则是基于经验的,采用模糊集合来描述系统状态,从而规划控制策略。

比如在家电产品中,智能洗衣机的控制系统就采用了模糊控制算法,根据衣物的不同湿度、污渍程度、质地等因素,自动调整洗涤方案,达到最佳的洗涤效果。

2. 模糊识别系统模糊识别系统是指通过对事物进行模糊描述和抽象,进行模式匹配和分类的一类智能系统。

它可以处理各种类型的信息,比如图像、声音、文本等等。

模糊查找排序规则-概述说明以及解释

模糊查找排序规则-概述说明以及解释

模糊查找排序规则-概述说明以及解释1.引言1.1 概述概述部分应该对模糊查找排序规则的主要内容进行简要介绍,概括性地说明本文的目标和重点。

下面是一个可能的示例:概述模糊查找排序规则是一种对信息进行模糊匹配和排序的方法。

在传统的查找和排序算法中,通常需要完全匹配目标信息或使用精确的匹配规则,而模糊查找排序规则则相对宽松,具有一定的容错性。

在现实生活中,我们经常需要处理大量的复杂、模糊的信息,如搜索引擎中的关键字匹配、推荐系统中的用户偏好排序等,这时模糊查找排序规则就能发挥重要的作用。

本文将深入探讨模糊查找排序规则的概念、原理和应用领域。

首先,我们将介绍模糊查找的基本概念和原理,包括其与传统查找排序算法的区别和联系。

然后,我们将探讨模糊查找在不同领域的应用,例如网络搜索、智能推荐等,以展示其广泛的适用性和价值。

同时,我们也会分析模糊查找的优缺点,以便更好地理解其在实践中的限制和挑战。

本文的目的是深入探讨模糊查找排序规则的重要性和意义,并展望其未来的发展趋势。

希望通过阅读本文,读者能够对模糊查找排序规则有一个全面的认识,了解它在信息处理和应用中的实际价值,以及未来可能的发展方向和挑战。

1.2 文章结构本文主要分为引言、正文和结论三个部分。

引言部分将对模糊查找排序规则的概述进行介绍,包括模糊查找的定义、目的以及本文的研究重点。

通过引言,读者可以了解到本文研究的背景和意义。

正文部分将详细讨论模糊查找的概念和原理、模糊查找的应用领域,以及模糊查找的优缺点。

其中,对模糊查找的概念和原理进行阐述,包括定义模糊查找和模糊度的概念、模糊查找的算法原理等。

接着,探讨模糊查找在现实生活和各个领域中的应用,如信息检索、数据挖掘等。

同时,还将深入讨论模糊查找的优点和局限性,以便读者全面了解其使用场景和限制。

结论部分将总结模糊查找的重要性和意义,以及模糊查找排序规则的发展趋势。

在本部分中,将强调模糊查找在大数据时代的重要性,指出其在实际应用中的潜在价值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网页模糊归类算法的应用与实现(一)
摘要:本文运用以模糊综合评判为核心的理论实现对网页的模糊自动归类,详细阐述了网页模糊归类算法(FWCA),并且通过一个实例阐明了实现过程。

作者利用此算法亲自设计实现了一个“网页模糊归类测试系统”,通过分析大量实验数据证明了利用此算法得归类效果非常稳定和准确。

关键词:FWCA模糊综合评判网页归类分类浏览搜索引擎
自有文字和书籍以来,人类就开始注意文章的分门别类和编撰目录。

那些目录事实上就将文章按照内容的类别进行了分类。

九十年代以来,Internet以惊人的速度发展起来,Web的容量增长迅速,平均每天增加100万个页面。

计算技术发展到今天,靠人来阅读互联网上信息和对网上信息做分门别类和总结已经不可能。

搜索引擎的分类浏览模式由此应运而生。

它的目录分类的质量较高,检索效果好;但是需要人工维护,因此存在成本高、信息更新慢、维护的工作量大的缺点。

而基于模糊技术的网页自动归类能依据网页中所包含的文本的语义将大量的网页自动分门别类,从而更好地帮助人们把握网络信息。

网页模糊归类步骤与算法
简单地说,网页自动归类所要完成的任务就是在给定的分类体系下,根据网页的内容自动地确定网页关联的类别。

如果从纯数学角度来看,网页分类的过程实际上就是一个多对多的映射过程。

依据“贝叶斯假设”的内容,可以假定组成网页的元素在确定网页类别的作用上相互独立。

这样,可以使用网页中出现的字或词的集合来代替网页,即用一个向量来表示文本:D(W1,W2,W3……Wn),其中Wi为第i个元素(以下均称为“特征项”)的数值。

当然,这将丢失大量关于网页内容的信息,但是这种假设可以使网页的表示和处理形式化,从而让计算机可以处理网页。

构成网页中的文本的词汇,数量是相当大的,因此,表示网页的向量空间的维数也相当大,可以达到几万维,所有几万个词汇对网页分类的意义是不同的。

首先,需要考虑词语的性质。

一些通用的、各个类别都普遍存在的词汇对分类的贡献是很小的,因此特征提取过程需要去掉对表达网页类别不太重要的词汇。

例如“的”、“地”、“得”、“着”、“了”等等。

其次,在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大,为了提高分类精度,可以利用词语的互信息量筛选出针对该类的特征项集合。

具体操作方法是算出每个词语的互信息量并排序,然后抽取前n个词语作为该类别的特征项,抽取的原则是反复试验使得网页归类效果最优。

互信息量(I)计算公式由下式给出:
为了让计算机为我们进行网页的自动归类,必须先对计算机进行训练。

只要训练网页足够多,那么由计算机进行的归类活动也将是准确的。

所有的训练样本都需表示为向量。

并使用每个词的相对词频(TF-IDF公式)对网页样本的特征项进行量化。

然后,将每个类别中的所有训练样本数据合成为一个平均参照样本,计算方法就是将每个特征项的值求算术平均。

相对词频计算公式由下式给出:
在归类过程中,采用三级模糊综合评判。

一级指标因素集(网页中出现位置)包括:网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记。

二级指标因素集(词性)包括:名词,动词,形容词,副词,介词,连词,助词,数字,符号。

三级指标因素集:待分类网页中所包含的全部词语的频数。

评价集确定为V={V1(不属于0),V2(不太可能属于0.25),V3(可能属于0.5),V4(很可能属于0.75),V5(属于1)}。

专家随机抽取了300篇网页,对这些网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析、研究,将一级指标因素权重集确定为A={0.128,0.128,0.128,0.104,0.104,0.104,0.06,0.06,0.06,0.06,0.05,0.05};根据语言学专家对各类
别中不同词性的词语对标志一个类别(以中图分类法为标准)重要性程度统计和评分,将二级指标因素权重集确定为An={0.28,0.18,0.24,0.06,0.05,0.04,0.04,0.06,0.05};根据词语的互信息量确定出三级指标因素权重为An m={Anm1,Anm2…Anmx}其中,Anmx即为对应词语的互信息量
隶属函数采用卡夫曼教授提出的隶属函数确定方法(正态分布模型)确定如下:
①词频针对“不属于”的隶属函数②词频针对“不太可能属于”的隶属函数③词频针对“不可能属于”的隶属函数④词频针对“很可能属于”的隶属函数⑤频针对“属于”的隶属函数其中,axyz是训练样本中词语的相对词频;x为样本网页中对应词的统计词频;系数是通过人工评判得到一些特殊点,由待定系数法求出的。

下面就要根据多级模糊综合评判的计算方法与步骤将待归类网页与所有类别的平均参照样本进行一遍计算,得出一组表示该网页与各个类别贴近度的数值。

然后按照“最大隶属原则”,将网页划到Vn值最大的对应的类别中;或者用“域值法”,事先确定一个不大于1的域值λ,若Vn>λ则认为网页属于此类别,因此,一个网页可能同时属于多个类别。

网页模糊归类实例
(1).前期工作
.简化的分类的标准:经济类,体育类,科教类
.训练样本数目:48篇(三类各16篇)
.待归类网页:
.一级指标因素及权重:U={U1=0.5,U2=0.5}
.二级指标因素及权重:U1={U11=1.0}
U2={U21=0.4},U22=0.26),U23=0.34}
.三级指标因素及权重:
U11={U111=0.86},U112=0.14)}
U21={U211=0.11,U212=0.35,U213=0.21,U214=0.06,U215=0.10,U216=0.17}
U22={U221=0.26,U222=0.38,U223=0.36}
U23={U231=0.46,U232=0.54}
.经济类训练网页样本相对词频:
a11={a111(经济1.2),a112(快讯1.2)}
a21={a211(我国1.1),a212(经济2.2),a213(水平1.8),a214(三年0.5),a215(人民0.9),a216(生活1.3)} a22={a221(实现1.3),a222(翻番1.8),a223(提高1.7)}
a23={a231(连续1.6),a232(日益1.7)}
(2).模糊综合评判
首先统计待分类网页的各个词语的绝对词频如下:
U11={U111(经济1),U112(快讯1)}
U21={U211(我国1),U212(经济2),U213(水平1),U214(三年1),U215(人民1),U216(生活1)}
U22={U221(实现1),U222(翻番1),U223(提高1)}
U23={U231(连续1),U232(日益1)}
总共可以得到4个一级模糊综合评判矩阵如下:构造二级模糊综合评判矩阵
①采用M(∧,∨)算子的运算结果
②采用M(.,)算子的运算结果构造三级模糊综合评判矩阵
①采用M(∧,∨)算子的运算结果②采用M(.,)算子的运算结果多因素综合评判
①采用M(∧,∨)算子的运算结果②采用M(.,)算子的运算结果网页归类决策
通过三轮计算得出下表:
样本与类别贴近度经济类体育类科教类
采用M(∧,∨)算子0.680.310.42
采用M(.,)算子
0.800.160.27
不管采用哪一种算子,如果用“最大隶属原则”判断,显然都应该属于“经济类”;如果用“域值法”(λ=0.6)判断,也应该都属于“经济类”。

结果分析
由上述算例可以看出,若用“最大隶属原则”判断,取λ=0.68,采用M(∧,∨)算子的算法就无法对此网页归类了,而采用M(.,)算子却可以对网页正确归类。

另外,采用M(.,)算子的结果区分效果比较明显,与人工归类的结果比较接近。

由此可见,采用M(.,)算子的算法明显优于采用M(∧,∨)算子的算法。

本文的实例网页最后得出的与“经济类”网页的贴近值仅0.8,比理想值(人工估计为0.9)偏低了了一些,与其他类别的贴近值也存在一些偏差。

这是因为本文中举的例子为了简单起见,训练文本才48篇,导致计算机训练不足;另外,待归类网页过于简单。

这些都导致了归类结果与理想值的偏差,在实际情况下,这些问题都可以避免。

作者在自行开发的“网页模糊归类测试系统”平台上作了大量对于网页的归类测试工作(详见附录),测试文档与训练网页都是取自“中国新闻网”新闻网页。

在训练网页达到1200篇的时候,归类准确率封闭测试为85.73%,开放测试为78.82%。

虽然这种以模糊综合评判为核心的算法实现的系统初始化工作比较繁重,但是归类的结果准确率很高,因此还是非常具有实际应用价值的。

相关文档
最新文档