用半监督聚类算法实现WEB文本挖掘
半监督学习中的半监督聚类算法详解(四)

半监督学习中的半监督聚类算法详解在机器学习领域中,半监督学习是一种介于监督学习和无监督学习之间的学习方式。
在实际问题中,我们往往会面临一些只有部分数据标记了标签的情况,这时候就需要使用半监督学习方法。
半监督聚类算法是半监督学习中的一种重要方法,它能够利用标记样本和未标记样本的信息来进行聚类,提高聚类的准确性。
本文将详细介绍半监督聚类算法的原理和应用。
半监督聚类算法的原理半监督聚类算法的原理是基于以下假设:在同一簇中的样本往往具有相似的特征,而不同簇之间的样本特征差异较大。
因此,我们可以利用标记样本的信息来引导聚类算法对未标记样本进行聚类。
常见的半监督聚类算法包括基于图的半监督聚类算法、基于生成模型的半监督聚类算法等。
这些算法都是在无监督聚类的基础上,利用标记样本的信息对聚类结果进行修正,提高聚类的准确性。
基于图的半监督聚类算法是一种常见的半监督聚类方法。
它通过构建样本之间的图结构,利用标记样本的信息对未标记样本进行聚类。
具体来说,该算法首先构建样本之间的相似度图,然后利用标记样本的信息对图进行标记传播,最终得到未标记样本的簇分配结果。
基于生成模型的半监督聚类算法则是通过建立生成模型来对标记样本的标签信息和未标记样本的簇分配结果进行联合建模,从而得到最优的聚类结果。
半监督聚类算法的应用半监督聚类算法在实际问题中有着广泛的应用。
首先,半监督聚类算法能够充分利用未标记样本的信息,提高聚类的准确性。
在许多实际问题中,未标记样本往往数量远远大于标记样本,这时候就需要使用半监督聚类算法来充分利用未标记样本的信息,提高聚类的性能。
其次,半监督聚类算法也能够应用在图像分割、文本聚类等领域。
在图像分割领域,半监督聚类算法能够利用标记样本的信息对图像进行像素级别的聚类,从而实现图像的分割和识别。
在文本聚类领域,半监督聚类算法能够利用标记样本的信息对文本进行语义级别的聚类,从而实现文本的自动分类和归类。
总结半监督聚类算法是半监督学习中的重要方法,它能够利用标记样本的信息对未标记样本进行聚类,提高聚类的准确性。
如何使用半监督学习进行文本分类(五)

在机器学习领域,文本分类是一个常见的任务,其目标是将文本数据分为不同的类别。
传统的文本分类方法通常需要大量有标签的数据来训练模型,然而获取大量标签数据是一个耗时耗力的过程。
因此,研究者们提出了半监督学习的方法来解决这个问题。
半监督学习是一种结合有标签数据和无标签数据的学习方法,通过利用无标签数据来提高模型的性能。
下面将介绍如何使用半监督学习进行文本分类。
首先,我们需要了解半监督学习的基本原理。
在传统的监督学习中,我们通常使用有标签的数据来训练模型,然后使用训练好的模型来预测新的样本。
而在半监督学习中,我们不仅使用有标签的数据,还利用无标签的数据来训练模型。
这样做的好处在于,无标签的数据往往更容易获取,通过利用这些数据,我们可以提高模型的泛化能力。
其次,我们需要选择合适的半监督学习算法。
在文本分类任务中,常用的半监督学习算法包括自训练(self-training)、协同训练(co-training)和标签传播(label propagation)等。
这些算法在处理文本数据时有各自的优势和适用场景。
自训练算法是最简单的半监督学习算法,它通过使用有标签数据训练模型,然后利用模型对无标签数据进行预测,将高置信度的预测结果作为伪标签加入训练数据。
协同训练算法适用于多视角的文本数据,它通过使用不同的特征集合来训练多个模型,然后利用这些模型对无标签数据进行预测。
标签传播算法则是一种基于图的半监督学习算法,它将文本数据构建成图结构,通过传播有标签数据的标签来对无标签数据进行标注。
接着,我们需要准备数据集并进行预处理。
在使用半监督学习进行文本分类时,我们需要准备有标签的训练数据和无标签的数据。
训练数据一般需要经过文本清洗和特征提取的过程,将文本数据转换成模型可以处理的形式。
同时,无标签数据也需要进行同样的预处理过程。
在文本分类任务中,常用的特征提取方法包括词袋模型、TF-IDF和词嵌入等。
然后,我们可以选择合适的文本分类模型。
半监督学习技术在文本分类中的应用研究

半监督学习技术在文本分类中的应用研究随着互联网信息的不断涌现,文本分类技术越来越成为一个重要的研究方向,它在社交媒体、新闻推荐、网络广告等领域都具有重要的应用价值。
但是传统的文本分类方法往往需要大量的标注数据进行训练,导致分类精度较低,模型效果差。
而半监督学习技术的出现,为解决这一问题提供了一种新思路。
本文将介绍半监督学习技术在文本分类中的应用研究。
一、半监督学习介绍半监督学习是介于监督学习和无监督学习之间的一种机器学习方法,其目的是利用少量已标注的样本和大量未标注的样本构建模型,并通过这些未标注的样本来提高模型的泛化能力。
在文本分类中,传统的监督学习方法要求训练数据必须是完全标注的,即每个文本数据都必须有一个正确的类别标签。
但这要求积累大量的标注数据,时间和人力成本很高。
而半监督学习则可以利用未标注的文本数据来扩充训练数据集,帮助提高文本分类性能。
二、半监督学习在文本分类中的应用半监督学习在文本分类中的应用可以分为以下几个方面。
1. 自训练法自训练法是半监督学习中最经典的方法之一,它通过出现频率较高(如前10%)的样本来重新训练分类器来提高模型的分类效果。
自训练法适用于类别分布比较均匀的情况。
2. 统计方法除了自训练法,还有一些基于统计方法的半监督学习算法,例如,EM算法、Co-Training 算法、Semi-Supervised Naive Bayes 等。
这些方法根据不同的数据分布情况,将标注数据和未标注数据进行组合,从而提高文本分类的准确率。
3. 协同方法协同方法是半监督学习中的另一种方法,它包括共享特征方法、共享参数方法、共享标签方法等方法。
这些方法依托于未标注数据和已标注数据之间的相关性,以提高模型的拟合能力。
三、半监督学习的研究发展与趋势在半监督学习领域,深度学习技术的不断发展已经给文本分类技术注入了新的动力。
可以预见,未来的研究方向主要集中在以下几个方面:1. 深度半监督学习技术深度半监督学习技术是目前研究者们比较关注的领域之一,它通过建立深度模型,并将未标注的数据和已标注的数据共同作为输入进行训练,来完成文本分类任务。
基于半监督学习的无监督分布式聚类算法研究

基于半监督学习的无监督分布式聚类算法研究随着数据量不断增加,聚类成为了一种重要且不可或缺的数据挖掘技术。
聚类可以将数据集中相似的数据分成若干个簇,从而帮助人们发现数据集中隐藏的关系和规律。
无监督分布式聚类算法可以将数据分散在不同节点上进行聚类,从而提高聚类效率。
本文将介绍基于半监督学习的无监督分布式聚类算法的研究进展。
第一部分:无监督分布式聚类算法简介无监督分布式聚类算法是指在分布式计算框架下,对无标签数据进行聚类的算法。
该算法大部分使用K-Means、层次聚类、DBSCAN等经典聚类算法,进行分布式并行计算,提高了聚类效率,同时也成功地解决了数据量过大、计算速度慢等问题,因此无监督分布式聚类算法被广泛应用于领域:生物医学、图像处理等等。
与单机聚类相比,无监督分布式聚类算法相比需要考虑更多的因素,例如通信开销、负载均衡和节点故障等。
第二部分:半监督学习的概念半监督学习指的是在标签数据不足或难以获得的情况下,从无标签数据中学习分类信息的机器学习方法。
与其他机器学习方法不同的是,半监督学习不仅可以利用标签数据进行学习,还可以利用无标签数据进行学习。
这种方法在无标签数据过多的情况下,学习效果更佳。
半监督学习主要可分为基于生成模型、基于二分类模型和基于聚类的半监督学习方法。
第三部分:基于半监督学习的无监督分布式聚类算法基于半监督学习的无监督分布式聚类算法是将无监督聚类算法与半监督学习结合起来的一种算法。
该算法通过在无标签数据的基础上引入少量标签数据,通过利用标签数据的先验知识,构造生成模型或者分类器进行聚类优化。
我们通常将数据分为两个集合:有标签集合和无标签集合。
添加标签数据后,可以通过对有标签集合中的数据的先验知识进行学习,将聚类效果显著提高。
第四部分:实验结果分析我们采用图像处理来进行实验验证。
首先,我们从图像中随机选择10000个像素作为样本数据,然后对样本数据进行预处理。
这里,我们采用ZCA白化算法来预处理数据。
基于层次聚类算法的WEB文本挖掘技术研究

脑
2 1 年第 3期 01
基 于层 次 聚 类算 法 的 WE B文本 挖 掘 技术 研 究
吕 岚
(陕西铁路 工程 职 业技 术学院 陕西 渭南 7 4 0 10 0)
【 摘 要 】 本文 分析 了 目前信 息检 索存在 的 问题 , 绍 了 WE : 介 B文 本挖 掘 的概 念及 处理 过 程 , 并提 出 了两种基 于层 次聚类 的 WE B文本挖 掘技 术 并给 予分析 。
aaQ 'cl ’( rx a ()( gPD rxIc 1 m( m- a  ̄ rl I k憩 )
2 1 年 第 3期 0 1
福 建 电
脑
4 1
层 次 聚类 中的 每一 步 是 基 于前 一步 的选择 进 行 局
在 计算 过程 中需 要 大量 的计算 形  ̄l [?的项 。 o n1 g 为
文本 挖掘 的过程 如 图所示 ,从 文本 信 息源 出发 , 最 生 的划分 方案具 有最 大的后验 概率P1 I1 ( D 。为了书 写 2。 终 结果 是用户 获得 的知识 模式 。文 本挖 掘一 般 经过文 方便 . 们省 去Q。 的星号 。采 用 最大后 验 估计 的 局 我 上 本 预 处理 、 特征 提 取及 约减 、 习与 知识 模 式 提取 、 学 知 部 目标 函数 为 : 识模 式 评价 四个 阶段 。 We b文本 的收集 和 预处 理 :程 序能 自动 利 用 网页
法 无法 把海量 的信 息转化 为知识 的形 态 。 文本 挖掘f We 即 b内容挖 掘1 以计算 语 言学 、 是 统计
将层 次聚 类算 法 与模 型选择 相 结合在 许 多领 域 都
一方 面层次 聚类 限制 了搜索 空 间 , 在速度 数 理分 析为 理论基 础 , 合机器 学 习 和信息 检 索技术 , 取 得 了成功 。 结 从 文本 数据 中发 现和提 取独 立于用 户 信息 需求 的文本 与准确 度之 间进 行 了一个 折衷 :另一 方面 在层 次聚类 集 中的隐含 知识 .文本挖 掘 是近几 年来 数 据挖 掘领 域 中通过使 用对数 似然 比. 去一些 项后 , 以大 幅度 降 消 可 的一个 新兴 分支 . 它是利 用文 本切 分技 术 , 抽取 文本 特 低后 验 概率 的计 算量 。本 文重点 讨论 两种层 次 聚类 算
如何使用半监督学习进行文本分类(Ⅲ)

在当今信息爆炸的时代,海量的文本数据给文本分类任务带来了巨大的挑战。
文本分类是指根据文本的内容将其划分到不同的类别中,它在信息检索、情感分析、垃圾邮件过滤等领域具有重要的应用价值。
然而,传统的监督学习方法需要大量的标注数据来训练模型,而标注数据的获取往往十分昂贵和耗时。
为了解决这一问题,半监督学习成为了一种重要的文本分类方法。
在半监督学习中,模型在少量标注数据和大量未标注数据的情况下进行学习,充分利用了未标注数据的信息,提高了分类性能。
本文将介绍如何使用半监督学习进行文本分类,并探讨其中的关键技术和方法。
首先,半监督学习中的标签传播算法是一种常用的文本分类方法。
该算法基于标签传播原理,利用已标注数据的标签信息来推断未标注数据的标签。
在文本分类任务中,标签传播算法可以构建文本数据的图模型,将已标注数据和未标注数据表示为图中的节点,然后通过节点之间的连接关系来传播标签信息。
这样一来,未标注数据的标签就可以通过与已标注数据的相似度来进行预测,从而实现文本分类任务。
标签传播算法能够充分利用未标注数据的信息,提高了分类性能,尤其适用于大规模文本数据的分类任务。
其次,半监督学习中的自训练算法也是一种常用的文本分类方法。
自训练算法通过利用已标注数据训练初始模型,然后利用该模型对未标注数据进行预测,将预测置信度较高的样本作为伪标签加入到训练数据中,再重新训练模型。
这样一来,未标注数据的信息可以充分利用,提高了分类性能。
自训练算法实现了标注数据和未标注数据之间的迭代学习,适用于文本数据量大、标注数据量少的情况下。
在实际应用中,半监督学习还面临一些挑战和问题。
首先,未标注数据的质量对分类性能有很大影响。
未标注数据中可能存在噪声、错误标注等问题,如何有效利用未标注数据、降低噪声对分类性能的影响是一个重要的研究方向。
其次,标签传播算法和自训练算法在处理大规模文本数据时可能会面临效率问题,如何提高算法的效率,降低计算复杂度也是一个重要的研究方向。
聚类与分类算法在文本挖掘中的应用研究
聚类与分类算法在文本挖掘中的应用研究文本挖掘是数据挖掘的一个重要分支,旨在通过对大规模文本数据的分析和理解,发现其中隐藏的模式、关系和知识。
在文本挖掘中,聚类与分类算法是两个常用的技术,它们能够帮助我们对文本数据进行有效的组织、分类和预测。
本文将探讨聚类与分类算法在文本挖掘中的应用研究。
聚类算法是一种将相似的对象归为一类的技术。
在文本挖掘中,聚类算法主要应用于无监督学习的任务,即在没有事先给定类别标签的情况下,对文本进行自动的聚类分析。
目前,常用的聚类算法有K-means算法、层次聚类算法和密度聚类算法等。
K-means算法是一种基于距离的聚类算法,其思想是通过迭代计算,将文本样本划分为K个不同的聚类。
算法首先需要选择K个聚类中心,然后根据文本样本与聚类中心之间的距离,将样本分配到最近的聚类中心中。
随后,根据新的聚类分配情况,重新计算聚类中心的位置,直到满足停止条件为止。
K-means算法适用于大规模数据集和高维特征向量,在文本挖掘中常用于对新闻、社交媒体等文本数据进行聚类分析。
层次聚类算法是一种基于层次结构的聚类算法,其通过构建一个聚类层次树来组织文本对象。
该算法将每个对象视为一个初始聚类簇,然后逐步合并具有最小相似度的聚类簇,直到形成一个全局聚类簇。
层次聚类算法能够提供更加详细的聚类结果,适用于对文本数据进行细粒度的聚类分析。
密度聚类算法是一种基于密度的聚类算法,其根据文本对象的局部密度来进行聚类划分。
该算法首先分析文本数据的密度分布,并通过定义密度阈值来标记核心对象和噪声点。
随后,通过相邻点的连接,将核心对象聚集在一起,形成不同的聚类簇。
密度聚类算法对于具有复杂的聚类结构和噪声数据的情况下,表现出较好的聚类性能。
分类算法是一种通过训练样本的类别信息,为新的文本对象分配类别标签的技术。
在文本挖掘中,分类算法通常用于监督学习的任务,即在已知类别标签的情况下,对文本数据进行预测和分类。
常见的分类算法有朴素贝叶斯算法、支持向量机算法和决策树算法等。
基于半监督学习的网页分类算法研究
基于半监督学习的网页分类算法研究引言随着互联网的迅速发展和信息爆炸的时代来临,准确地对网页进行分类和组织已经变得至关重要。
网页分类算法在信息检索、推荐系统、广告定向和网络安全等领域具有广泛的应用。
然而,由于互联网上海量的未标记数据以及人工标注数据的高成本,传统的监督学习方法存在困难。
因此,利用半监督学习的网页分类算法成为了研究的热点。
一. 半监督学习概述半监督学习是一种介于监督学习与无监督学习之间的学习方法。
与监督学习需要大量人工标注数据不同,半监督学习利用少量的标记数据和大量的未标记数据进行模型训练。
通过利用未标记数据的信息来提高分类器的准确性和性能。
二. 网页分类算法的挑战在网页分类中,传统的监督学习算法在数据标注方面存在困难,而且在高维稀疏数据处理、样本不平衡、类别漂移、噪声和特征表示等方面也存在挑战。
因此,利用半监督学习来解决这些问题成为了一个重要的研究方向。
三. 基于半监督学习的网页分类算法研究现状1. 图标签传播算法图标签传播算法是一种基于图结构的半监督学习方法。
该方法首先将网页数据构建成一个图结构,然后使用已标记节点的标签信息来推断未标记节点的分类标签。
通过迭代传播标签,最终将未标记节点划分到相应的类别中。
2. Co-training算法Co-training算法是利用多个弱分类器共同训练的一种半监督学习方法。
该方法基于两个视图假设,将网页样本分成两个部分,并使用不同的特征子集来训练分类器。
随后,利用已标记数据训练两个分类器,并使用未标记数据来增强分类器的泛化能力。
3. 自训练算法自训练算法是一种迭代的半监督学习方法。
开始时,利用少量的已标记数据训练分类器,然后将分类器应用于未标记数据。
根据分类器对未标记数据的预测结果,选择置信度高的样本加入已标记数据集中,不断迭代直到分类器收敛。
四. 基于半监督学习的网页分类算法的研究展望虽然目前基于半监督学习的网页分类算法已经取得了一些进展,但仍然存在一些挑战和待解决的问题。
如何使用半监督学习进行文本分类(Ⅱ)
在机器学习领域,文本分类是一个常见的任务,它涉及将文本数据划分到不同的类别中。
对于监督学习来说,文本分类通常需要大量的标记数据,这对于一些特定领域的文本数据来说可能会很困难。
因此,半监督学习成为了解决这一问题的一种有效方法。
半监督学习是指在训练过程中利用未标记数据的学习方法。
在文本分类任务中,未标记的文本数据往往是容易获取的,因此利用半监督学习进行文本分类是非常实用的。
下面将介绍如何利用半监督学习进行文本分类。
首先,利用无监督方法对未标记文本进行特征提取。
文本数据通常需要经过特征提取的过程,将文本转化为计算机能够处理的向量形式。
在无监督方法中,可以利用词袋模型或者词嵌入模型等技术对文本数据进行特征提取。
词袋模型将文本表示为词的集合,而词嵌入模型则是将文本表示为稠密的向量。
这些方法可以很好地捕捉文本的语义信息,为后续的文本分类任务提供有用的特征。
其次,利用少量的标记数据进行模型训练。
在半监督学习中,通常只需要少量的标记数据就可以进行模型训练。
这些标记数据可以用来指导模型学习文本数据的特征和类别信息。
通过利用监督学习算法,可以在标记数据上进行模型训练,使得模型能够根据标记数据学习到文本的类别信息。
接着,利用半监督学习算法对未标记数据进行分类。
在模型训练之后,可以利用训练好的模型对未标记数据进行分类。
半监督学习算法会利用未标记数据的特征信息和模型学习到的类别信息,对未标记数据进行分类。
这样就可以将大量的未标记数据划分到不同的类别中,从而扩大了训练数据的规模,提高了文本分类的准确性。
最后,利用半监督学习的结果对模型进行优化。
在对未标记数据进行分类之后,可以将分类结果与标记数据进行比对,从而对模型进行优化。
通过分析模型在未标记数据上的分类结果,可以找出模型的不足之处,并对模型进行调整和优化。
这样就可以不断提升模型在文本分类任务上的性能。
综上所述,利用半监督学习进行文本分类是一种非常有效的方法。
通过特征提取、少量标记数据的模型训练、未标记数据的分类和模型优化等步骤,可以实现对文本数据的高效分类。
半监督学习中的半监督聚类算法详解(七)
半监督学习中的半监督聚类算法详解半监督学习是指在训练过程中,使用了未标记数据的学习方式。
与监督学习只使用标记数据不同,半监督学习可以更好地利用未标记数据,从而提高模型的泛化能力。
在半监督学习中,半监督聚类算法是一种重要的技术,它可以帮助我们对未标记数据进行聚类,并且可以通过一小部分标记数据来指导聚类的过程。
一、半监督学习概述半监督学习是指在机器学习过程中,使用了部分标记数据和大量未标记数据的学习方式。
在实际应用中,标记数据通常很难获取和标记,而未标记数据则很容易获取,因此半监督学习具有很高的实用价值。
半监督学习的关键挑战在于如何有效地利用未标记数据来提高模型的性能。
二、半监督聚类算法原理半监督聚类算法是一种能够利用少量标记数据来指导未标记数据聚类的算法。
传统的聚类算法通常只能利用未标记数据进行聚类,而半监督聚类算法可以利用标记数据中的信息来优化聚类结果。
半监督聚类算法的核心思想是将标记数据的信息融入到聚类过程中,从而提高聚类的准确性。
三、基于图的半监督聚类算法基于图的半监督聚类算法是一种常用的半监督聚类算法。
该算法通过构建数据样本之间的图结构,利用图的连接信息来指导聚类过程。
在图的构建过程中,标记数据被用来初始化图中的节点,然后通过图的传播过程来逐步扩展聚类结果。
基于图的半监督聚类算法能够有效地利用标记数据的信息,从而提高聚类的准确性。
四、半监督聚类算法的应用半监督聚类算法在实际应用中具有广泛的应用价值。
例如,在社交网络分析中,往往只有少量节点被标记,而大部分节点是未标记的。
利用半监督聚类算法可以更好地挖掘社交网络中的群体结构和社区发现。
另外,在生物信息学中,半监督聚类算法也被广泛应用于基因表达数据的分析和挖掘,能够帮助科学家们更好地理解基因之间的关系和功能。
五、半监督聚类算法的挑战尽管半监督聚类算法在一些领域取得了成功,但是在实际应用中还存在一些挑战。
其中一个挑战是如何有效地利用标记数据指导未标记数据的聚类过程,特别是当标记数据的数量非常有限时,如何设计有效的算法仍然是一个挑战。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a d o f t g d t e n o a i a al b e n u e v s d la n n a g rt n a l t o a a a b i g n t e sl v i l i s p r ie e r i g l o i y a hm, t e e o a b n i g o h r fr t g i dn f s mis p r i d l a n n l o i m n e n d b s c i g k me n l se i g a g rt m l b o e -u e v s e r i g a g rt e h a d r f e ie tn - a scu t rn l o ih wi e c mb n d f rW e i l i e o b
文章编号:0 872 (0 00 .0 00 1 0 -8 62 1)40 5 .8
用半监督聚类算法实现 WE B文本挖掘
胡敏 杰
( 州师 范学 院 计算 中心, 漳 福建 漳州 330 ) 600 摘 要 :随着 lt nt ne e 网络的 高速 发展,海量 的未标签文档和相对 少量 的 已 r 标签 文档是 当前 We 文档的一 b 个普遍情形 , 如何 有效的利用少量的 已标签文档去 聚类 海量的未标签 文档 , 从而更好地荻取有价值 的信 息,即半 监督学 习问 ,已 为 当前研 究的热点. 题 成 本文针对 目前 We b文本挖掘领域的无监督 学习算法 的 测率不高, 监 检 而
o a a t a a e b e a g d t l s e i g ma s o o a a a t a s S mis p r ie e r i g q e to ,h s f d t h t h v e n t g e o c u t r n s f n tt g d t ,h t i e — u e v s d l a n n u s i n a
( o uigC ne, h n z o o ma U ies yZh n z o , uin3 3 0a gh u F j 6 00 Chn ) n t a
A bsr t t ac :W ih t e r t h api veopm e fl e ne e w o k,m ag d de l nto nt r tn t r nani ousdat ha e ng nott r ls a m a t t b i ag o e st g da a i t sa uni e s iua i n pr s ntW e v r alst ton i e e b doc um e sHo t tu e u nf m a i te i m ala oun nt. w oge s f li or ton be t rusng a s l m t
督学习算法需要大量的标签数据又不易获得的问题, 将半监督中的标签绑定技术与优化球形 k均值聚类算法相结 .
合进行 We b文本挖 掘 ,并使用真 实的测试数据 对 We b文本挖掘 系统进行 实验 .结果表 明本文方法对有价值文本
具有较 高 测率及较 低的误报 率 ,整体检 测性能优 于基 于监督和无监督 学 习的 We 检 b文本挖掘 算法. 关键词 :We b文本挖掘 ;聚类 ;半监督
be otp n n r s a c oda .i e o en a h oi ti e e r h t y n viw fl ow xa i i at n web t xtm i ng’ e m naton r e i e ni Snon-upe v s d e n ng s r ie lar i
中图 分 类 号 : T 3 11 P 1.3 文 献 标识 码 : A
S m is e - upe v s d Cl s e i e ho s d o e x i i g r ie u t rng M t d Ba e n W b Te tM n n
HU M i- e nj i
tx i n e tm ni g.Fi ly r a xa i to na l e le m na i n dat re a f xpe i en ho s t tt i a hod ha ghe x o rm ts w ha h sm t s hi r e am i ton r t na i a e a o e ii o nd lw rr snf rm a i n r t o e so h al .I’ e a lde e ton pe f rm an e i u a to a ef rt xt n t e v ue tSov r l t ci r o c Ss pero ot e e t i r t hew b t x m i ng a g ihm sbas d on nOn s ni l ort e - upe Vie la i r s d e rn ngand t upe vii n e ni hes r so lar ng.
21 00年第 4期 ( 第7 总 O期 )
漳州师范学院学报 ( 自然科 学版)
J u n l f a g h uNo ma ie st ( t S i o r a n z o r l o Zh Unv ri y Na . c. )
No 4 2 1 . . 0 0年
Ge e a . 0 nr l No 7