一种文本分类数据挖掘的技术

合集下载

基于数据挖掘的文本自动分类与归集

基于数据挖掘的文本自动分类与归集

基于数据挖掘的文本自动分类与归集文本数据在现代社会中扮演着重要的角色,每天人们产生大量的文本信息,如新闻报道、社交媒体帖子、商品评论等。

如何对这些文本进行快速、准确的分类和归集,以便更好地进行信息管理和分析,成为了一个挑战。

本文将介绍基于数据挖掘的文本自动分类与归集的方法和应用。

文本分类是将文本按照一定的标准划分到不同的类别中的过程。

传统方法通常依赖于特征工程,即手动选择和提取文本的特征来训练分类器。

然而,这种方法存在以下问题:特征选择困难、特征表达不充分、特征之间的关系未能很好地捕捉等。

而基于数据挖掘的文本分类方法可以通过机器学习模型从大量的文本数据中学习特征,并自动选择和优化特征,从而提高分类的准确性和效率。

数据挖掘的文本分类方法通常包括以下几个步骤:数据预处理、特征提取、特征选择、模型选择和训练、模型评估等。

首先,对原始文本数据进行清洗、分词和去除停用词等预处理操作,以减少文本数据的维度和噪声。

接下来,从清洗后的文本数据中提取特征。

常用的特征提取方法包括词袋模型、TF-IDF模型、Word2Vec模型等。

然后,根据特征的重要性和相关性,使用特征选择方法进一步筛选出有价值的特征。

常用的特征选择方法有信息增益、卡方检验、互信息等。

选择好特征后,选择适当的分类模型进行训练,如朴素贝叶斯分类器、支持向量机、逻辑回归等。

最后,通过评估指标如准确率、召回率、F1值等来评估分类模型的性能。

基于数据挖掘的文本分类方法已经被广泛应用于各个领域。

例如,在新闻领域中,可以将新闻报道按照不同的主题进行分类,以便读者可以更方便地获取自己感兴趣的新闻内容。

在社交媒体领域中,可以将用户的帖子按照情感极性进行分类,以便了解用户对某个话题的态度和情感倾向。

在商品评论分析领域中,可以将用户对商品的评论按照正面评价和负面评价进行分类,以便商家和消费者更好地了解用户对商品的评价和需求。

此外,文本分类还可以应用于舆情分析、情报分析、垃圾邮件过滤等领域。

文本挖掘技术在新闻媒体中的应用

文本挖掘技术在新闻媒体中的应用

文本挖掘技术在新闻媒体中的应用近年来,随着大数据时代的来临,文本挖掘技术越来越受到广泛的关注和应用。

在新闻媒体领域,文本挖掘技术的应用已经成为了一种趋势,对于新闻媒体的管理、分析和传播起到了至关重要的作用。

一、文本挖掘技术的概述文本挖掘技术,是指对于大量的文本数据进行预处理、文本特征提取、文本分类、文本聚类等数据挖掘技术的应用。

其核心思想是利用计算机自动分析文本数据中的关键信息和规律,通过对文本数据的各种操作和处理,从中提取出有用的信息和知识,以便更好地支持决策和研究工作。

文本挖掘技术的应用主要包括三个方面:信息提取、情感分析和关键词提取。

其中,信息提取是指通过自然语言处理技术对文本数据进行解析,提取出其中的实体和关系,并对这些实体和关系进行分类和统计分析;情感分析是通过对文本中表达情感的词汇和语句进行分析,判断文本作者在表达情感方面的意图和态度;关键词提取是通过算法和统计模型来寻找文本数据中最具代表性和概括性的词汇,以便更好地展示文本的主题和内容。

二、文本挖掘技术在新闻媒体中的应用在新闻报道和编辑工作中,文本挖掘技术的应用已经成为了一种趋势。

这主要体现在如下几个方面。

1. 新闻文本分类利用文本挖掘技术对新闻稿件进行分类和标注。

通过对不同的文本数据进行分类和标注,可以更好地实现新闻数据的归类和管理。

例如,可以将新闻稿件分为不同的主题(如政治、经济、娱乐等),以实现对不同类型新闻的分层管理和传播。

2. 新闻内容分析利用文本挖掘技术对新闻稿件的内容进行分析和统计。

通过对新闻稿件中的信息、事件、人物和主题等内容进行分析和统计,可以更好地了解新闻报道的趋势和引导方向,为新闻传播提供有力的支撑和服务。

3. 新闻事件关系挖掘利用文本挖掘技术对新闻报道中出现的事件和人物关系进行挖掘。

通过建立新闻事件之间的关系图,可以更好地掌握新闻事件的脉络和演变过程,既方便编辑和报道,也方便公众了解相关事件。

4. 新闻模板生成利用文本挖掘技术对新闻稿件和报道进行分析和挖掘,生成新闻稿件模板,通过对不同类型的新闻报道的统计和分析,得出新闻模板,并进行自动生成,以提高新闻报道的效率和质量。

文本数据挖掘的基本原理与技巧

文本数据挖掘的基本原理与技巧

文本数据挖掘的基本原理与技巧随着信息时代的到来,大量的文本数据被生成和积累,如何从这些海量的文本数据中挖掘出有用的信息成为一个重要的问题。

文本数据挖掘作为一种有效的数据分析方法,被广泛应用于舆情分析、情感分析、信息提取等领域。

本文将介绍文本数据挖掘的基本原理与技巧。

一、文本数据挖掘的基本原理文本数据挖掘是指通过自动化的方式从大规模文本数据中提取出有用的信息和知识。

其基本原理包括文本预处理、特征提取和模型构建三个步骤。

1. 文本预处理文本预处理是文本数据挖掘的第一步,其目的是将原始文本数据转化为可供分析的形式。

常见的文本预处理技术包括去除停用词、词干提取、词袋模型等。

去除停用词是指去除那些在文本中频繁出现但没有实际意义的词,如“的”、“是”等。

词干提取是指将单词的不同形态转化为其原始形式,如将“running”、“runs”等转化为“run”。

而词袋模型则将文本表示为一个词汇表中的单词频率向量。

2. 特征提取特征提取是文本数据挖掘的关键步骤,其目的是从文本中提取出能够代表文本内容的特征。

常用的特征提取方法包括词频-逆文档频率(TF-IDF)方法和词嵌入方法。

TF-IDF方法通过计算单词在文本中的频率和在整个文本集合中的逆文档频率来衡量单词的重要性。

而词嵌入方法则通过将单词映射到一个低维向量空间中来表示单词的语义信息。

3. 模型构建模型构建是文本数据挖掘的核心步骤,其目的是通过建立机器学习模型来实现文本分类、情感分析等任务。

常用的模型包括朴素贝叶斯、支持向量机(SVM)、深度学习模型等。

朴素贝叶斯模型基于贝叶斯定理,通过计算文本中每个单词的条件概率来进行分类。

SVM模型则通过构建一个超平面来实现文本分类。

而深度学习模型则通过多层神经网络来学习文本的表示和分类。

二、文本数据挖掘的技巧除了基本原理外,文本数据挖掘还涉及一些技巧和方法,以提高挖掘效果和准确性。

1. 文本分类文本分类是文本数据挖掘的一个重要任务,其目的是将文本分为不同的类别。

数据挖掘中的文本分类方法

数据挖掘中的文本分类方法

数据挖掘中的文本分类方法随着互联网时代的到来,大量的文本数据被产生和存储。

如何从这些海量的文本数据中提取有用的信息,成为了数据挖掘领域的一个重要研究方向。

文本分类作为数据挖掘的一个重要任务,旨在将文本数据自动分类到预定义的类别中。

本文将介绍数据挖掘中的文本分类方法,并探讨其应用和发展。

一、传统的文本分类方法在数据挖掘领域的早期,传统的文本分类方法主要基于统计和机器学习的技术。

其中,朴素贝叶斯分类器是一种常用的方法。

它基于贝叶斯定理,通过计算文本中每个词语出现的概率来进行分类。

此外,支持向量机、决策树等机器学习算法也被广泛应用于文本分类任务中。

这些方法在一定程度上能够实现文本分类的目标,但也存在一些问题。

例如,传统方法对于文本中的语义信息理解能力较弱,无法很好地处理词义的多样性和上下文的复杂关系。

二、基于深度学习的文本分类方法随着深度学习的兴起,基于深度学习的文本分类方法逐渐受到关注。

深度学习模型能够自动从大量的文本数据中学习特征表示,从而提高文本分类的准确性。

其中,卷积神经网络(CNN)和循环神经网络(RNN)是两种常用的深度学习模型。

卷积神经网络在图像处理领域取得了巨大成功,而在文本分类中也得到了广泛应用。

通过卷积操作,CNN能够捕捉文本中的局部特征,并通过池化操作对特征进行降维和组合。

这种方法能够有效地处理文本中的局部信息,并具有较好的分类性能。

循环神经网络是一种能够处理序列数据的神经网络模型。

在文本分类中,RNN 能够捕捉文本中的上下文信息,并通过长短期记忆(LSTM)或门控循环单元(GRU)等机制来解决长序列依赖的问题。

RNN在处理文本分类任务时能够更好地考虑词语之间的顺序关系,从而提高分类的准确性。

除了CNN和RNN,深度学习模型还有许多其他的变体和扩展,如注意力机制、Transformer等。

这些模型在文本分类中的应用不断推动着文本分类方法的发展。

三、文本分类方法的应用和发展文本分类方法在实际应用中具有广泛的应用前景。

数据挖掘技术在文本挖掘中的使用教程

数据挖掘技术在文本挖掘中的使用教程

数据挖掘技术在文本挖掘中的使用教程随着互联网的迅猛发展,大量的文本数据涌现在各个领域。

如何从这些海量的文本数据中提取有用的信息,成为了一项具有挑战性的任务。

为解决这个问题,数据挖掘技术在文本挖掘中逐渐得到了广泛应用。

本文将介绍数据挖掘技术在文本挖掘中的基本概念和常用方法,帮助读者了解如何利用数据挖掘技术进行文本挖掘。

一、文本挖掘概述文本挖掘是指从大量的文本数据中自动地提取出有用的知识和信息。

它结合了信息检索、自然语言处理和数据挖掘等多个技术领域。

对于文本挖掘任务,常见的包括文本分类、文本聚类、情感分析等。

二、数据预处理在进行文本挖掘之前,需要对文本数据进行预处理。

主要包括以下几个步骤。

1. 文本清洗:去除文本中的HTML标签、特殊符号、停用词等,只保留有意义的内容。

2. 分词:将文本切分成一个个独立的词语,便于后续处理。

3. 去除低频词:去除在整个文本数据中出现频率较低的词语,可以减少噪音带来的影响。

4. 词性标注:为每个词语标注词性,可以方便后续的特征提取和分析。

三、特征提取对于文本数据,需要将其转化为机器学习算法能够处理的特征向量。

常见的特征提取方法有以下几种。

1. 词袋模型:将文本表示为一个词语的集合,忽略了词语的顺序和语法,只关注词语的出现与否。

2. TF-IDF:考虑了词语的出现频率和在整个文本数据中的重要程度,能够更好地表示词语的信息。

3. Word2Vec:利用神经网络方法将词语映射到一个连续的向量空间中,能够更好地表示词语的语义信息。

4. 主题模型:通过对文本进行聚类分析,将文本数据归纳为若干个主题,可以更好地求解文本分类和聚类问题。

四、文本分类文本分类是将文本归类到不同的类别中的过程。

常见的文本分类算法有以下几种。

1. 朴素贝叶斯:基于贝叶斯定理和特征条件独立假设,能够快速进行文本分类,但对特征之间的关联性要求较低。

2. 支持向量机:通过在特征空间中找到一个超平面,将不同的类别分开,能够处理高维空间的文本分类问题。

文本挖掘技术的应用案例与效果分析

文本挖掘技术的应用案例与效果分析

文本挖掘技术的应用案例与效果分析摘要:文本挖掘技术是一种重要的数据挖掘技术,可以从大量的文本数据中提取有用的信息和知识。

本文将介绍文本挖掘技术的应用案例,并对其应用效果进行分析。

1. 引言在互联网时代,大量的文本数据在不断产生和累积,如何从这些海量的文本数据中提取有用的信息和知识成为了一个重要的挑战。

而文本挖掘技术的应用则是解决这一问题的重要手段之一。

文本挖掘技术是一种结合了机器学习、自然语言处理、统计学等多个领域的交叉学科,其主要目标是通过自动化的方式从大量的文本数据中提取有用的信息和知识。

2. 文本分类与情感分析文本分类是文本挖掘技术的一个重要应用方向。

通过对大量的文本数据进行分类,可以帮助人们更好地理解和归纳文本数据。

例如,在新闻报道中,可以通过文本分类技术将不同的新闻文章归类到不同的主题或类别中,以便读者能更方便地找到自己感兴趣的文章。

另外,情感分析是一种特殊的文本分类任务,其主要目标是判断文本中表达的情感是正面的、负面的还是中性的。

情感分析技术可以应用于社交媒体分析、舆情监测等领域,帮助我们更好地了解用户对某个产品或事件的态度和情感。

3. 文本聚类与主题建模除了文本分类,文本挖掘技术还可以进行文本聚类。

文本聚类是将相似的文本放在一起的任务,能够帮助人们更好地对大量的文本数据进行整理和归纳。

例如,在电商领域,可以通过对商品评论进行聚类分析,可以发现一些与某个商品相关的主题和问题,并有针对性地改进产品。

此外,主题建模是文本挖掘技术中一种重要的技术手段,主要目标是从大量的文本数据中挖掘出潜在的主题和话题。

主题建模技术可以用于新闻报道的自动摘要、知识发现等领域。

4. 文本挖掘与商业智能随着互联网的迅猛发展,数据已经成为企业决策和战略制定的重要依据。

文本挖掘技术作为一种重要的数据挖掘技术,可以帮助企业从大量的文本数据中挖掘有价值的商业信息。

例如,通过对用户评论和反馈进行情感分析,企业可以了解用户对产品的满意度和需求,以便改进产品和提供更好的服务。

大数据分析中的文本数据挖掘技术的使用教程

大数据分析中的文本数据挖掘技术的使用教程

大数据分析中的文本数据挖掘技术的使用教程在当今信息时代,人们每天都会产生大量的文本数据,包括社交媒体评论、新闻文章、电子邮件等等。

这些海量的文本数据中蕴含着宝贵的信息,通过文本数据挖掘技术,我们可以有效地从中提取出有用的知识。

本文将介绍在大数据分析中,如何使用文本数据挖掘技术来获取有价值的信息。

首先,我们需要明确文本数据挖掘的目标是什么。

文本数据挖掘旨在通过自动化的方法,从大规模的文本数据集合中发现有意义的模式、关联和知识。

它可以帮助我们理解用户行为、市场趋势、舆论动向等。

在大数据分析中,我们通常会使用文本数据挖掘来进行情感分析、主题建模、实体识别等任务。

情感分析是文本数据挖掘中的一个重要任务,它旨在判断文本中的情感倾向。

通过情感分析,我们可以了解用户对某个产品、事件或主题的态度是正面还是负面。

在实际应用中,情感分析可以帮助企业了解用户对产品的满意度,政府了解公众对政策的态度。

要进行情感分析,我们首先需要建立一个情感词典,其中包括正面词汇和负面词汇。

然后,通过计算文本中出现的情感词的数量来判断情感倾向。

主题建模是另一个重要的文本数据挖掘任务。

它旨在通过分析文本中的词语分布,发现隐藏在文本背后的主题。

主题建模可以帮助我们发现用户的兴趣爱好、舆论动向等。

在进行主题建模时,常用的方法是使用概率模型,如Latent Dirichlet Allocation(LDA)。

该模型假设每个文档包含多个主题,并且主题是通过关键词表示的。

通过迭代计算,我们可以得到每个文档的主题分布和每个主题的关键词分布。

实体识别是指从文本中识别出人名、地名、组织机构名等实体的任务。

通过实体识别,我们可以了解文本中提到的人物、地点或机构。

在大数据分析中,实体识别通常用于分析新闻报道、社交媒体评论等文本数据。

要进行实体识别,我们可以使用机器学习算法,如条件随机场(Conditional Random Fields,CRF)。

该算法通过学习实体的上下文信息,来判断某个词语是否属于一个实体。

文本分类流程

文本分类流程

文本分类流程随着互联网时代的到来,人们在日常生活中产生的大量文本数据,如新闻、微博、评论等,给信息处理和分析带来了巨大的挑战。

文本分类是一种将文本数据按照事先定义好的类别进行分类的技术。

它可以帮助人们从海量的文本数据中快速准确地获取所需要的信息。

本文将介绍文本分类的流程及其相关技术。

一、文本分类的流程文本分类的流程一般包括以下几个步骤:1. 收集数据文本分类的第一步是收集数据。

数据可以来自于网络、文件、数据库等多种渠道。

在收集数据的过程中,需要注意数据的来源和质量,保证数据的可靠性和完整性。

2. 数据预处理数据预处理是文本分类的关键步骤之一。

在预处理过程中,需要进行文本清洗、分词、去停用词、词干提取等操作。

文本清洗是指去除文本中的无用信息,如HTML标签、特殊字符等。

分词是将文本按照词语进行划分,去停用词是指去除无意义的常用词语,如“的”、“是”等。

词干提取则是将不同形态的单词转化为同一形态,如将“running”、“runs”、“ran”等转化为“run”。

3. 特征提取特征提取是将文本数据转化为数值型特征向量的过程。

常用的特征提取方法有词袋模型、TF-IDF模型、n-gram模型等。

词袋模型是将文本中出现的所有词语作为特征,用0/1表示该词语是否出现在文本中。

TF-IDF模型则是在词袋模型的基础上,引入词语的重要性权重。

n-gram模型则是将文本按照n个词语进行划分成不同的片段,将每个片段作为一个特征。

4. 模型训练模型训练是指利用已经标注好的训练数据,训练出一个文本分类模型。

常用的文本分类模型有朴素贝叶斯、支持向量机、决策树、神经网络等。

朴素贝叶斯模型是一种基于概率统计的分类方法,它假设特征之间相互独立。

支持向量机模型是一种基于最大间隔分类的方法,它通过寻找最优的超平面将不同类别的数据分开。

决策树模型则是将数据按照特征进行划分,生成一棵树形结构,通过树的节点来进行分类。

神经网络模型则是通过多层神经元的连接,将文本数据映射到一个高维空间中,进行分类。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一种文本分类数据挖掘的技术
来源:网店装修
摘要挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,本文介绍了一种文本数据挖掘方法。

并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性。

关键词文本挖掘;文本分类;数据挖掘;VSM
本文首先讨论了文本挖掘技术的定义、功能、分类等问题,接着重点研究了文本分类的关键理论问题,包括分词、特征提取、特征匹配等方面,并简述了我们开发的一个简单的文本分类系统的实验情况,最后是结束语。

1文本挖掘简介 1.1 文本挖掘的定义
文本挖掘作为数据挖掘的一个新主题,引起了人们的极大兴趣,同时,它也是一个富于争议的研究方向,目前其定义尚无统一的结论,需要国内外学者开展更多的研究以便进行精确地定义。

类似于我们熟知的数据挖掘定义,我们对文本挖掘作如下定义。

定义1:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程。

直观的说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘。

文[1]已对Web挖掘与信息检索进行了比较研究,在此,我们不再详细讨论文本挖掘与信息检索的关系,我们认为随着文本挖掘技术研究的发展,将之应用到信息检索领域,必将能进一步提高信息检索的精度和效率。

1.2 文本挖掘的分类
文本挖掘从功能上可以分为总结、分类、聚类、趋势预测等。

文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。

从而用户不需要浏览全文就可以了解文档或文档集合的总体内容。

文本总结在有些场合非常有用,例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。

目前,绝大部分搜索引擎采用的方法是简单地截取文档的前几行。

文本分类是指按照预先定义的分类体系,将文档集合的每个文档归入某个类别。

这样,用户不但能够方便浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。

目前,Yahoo仍然是通过人工对Web 文档进行分类,这大大限制了其索引页面的数目和覆盖范围。

可以说研究文本分类有着广泛的商业前景和应用价值。

文本聚类与分类的不同在于,聚类没有预先定义的主题类别,是一种典型的无教师的机器学习问题。

它的目标是将文档集合分成若干簇,且同一簇内的文档相似度尽可能大。

聚类的结果可以用来指导分类。

文[2,3]介绍了利用文档进行分布分析和趋势预测的情况。

以上功能的研究在国外研究得比较的多,但都是基于英文环境的。

在国内,数据挖掘研究者对中文文本的研究还刚刚开始,如何借鉴现有中文处理技术对文本进行挖掘仍有很多问题亟待解决。

2. 文本分类我们开发了一个简单的文本分类系统(STCS),下面分别介绍其中的各项关键技术。

2.1 文本信息的预处理在对文档进行特征提取前,需要先进行文本信息的预处理,对英文而言需进行Stemming处理,中文的情况则不同,因为中文词与词之间没有固有的间隔符,需要进行分词处理。

在中文信息处理领域,对中文自动分词研究已经得比较多了,提出了一些分词方法,如最大匹配法、逐词遍历匹配法、最小匹配法等。

文[4]中采用
了基于词典的正向逐词遍历匹配法,在我们设计的分类系统(STCS)中,我们在分析了最大匹配法的特点后,提出了一种改进的算法。

该算法在允许一定的分词错误率的情况下,能显著提高分词效率,其速度优于传统的最大匹配法。

但是我们忽略了通用词的处理,仅处理专用词典中的词条,从而较好地避免了通用分词的技术问题,此方法适合于专用领域文档的分类。

改进算法的主要思想是对词典建立索引,匹配时,将以第一个字开头的词条均读入内存,以后的回溯匹配均在内存中查找,避免了最大匹配法频繁查词典的缺陷。

该算法的详细描述以及效率比较,我们将另文给出。

我们将主词典、同义词词典合二为一,仅建立了一个词典,从而加快查词速度。

词典结构如下:
词条编号同义词文档频数
2.2 特征表示与特征提取
特征表示是指以一定特征项(如词条或描述)来代表文档,在文本挖掘时只需对这些特征项进行处理,从而实现对非结构化的文本的处理,这是一个非结构化向结构化转化的处理步骤。

特征表示的构造过程就是挖掘模型的构造过程,特征表示模型有多种,常用的有布尔逻辑型、概率型、向量空间型等。

我们采用了应用较多的向量空间模型(Vector Space Model ,VSM )。

在VSM中,我们将文本文档视为由一组词条( )构成,每一词条都赋以一定的权值 ,从而每一篇文档被映射为由一组词条矢量形成的向量空间中的一个向量。

文本的匹配问题便可转化为向量空间中的向量匹配问题处理。

对于词条权值的处理,在文本学习中最常用的是TF*IDF
表示法,它是一种文档的词集表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。

综合考虑词条对文
档的区分度、词频等因素,我们改进了传统的TF*IDF表示法,提出权值公式(1)。

再考虑到高频词、低频词的问题,对权值进行规范化,得到权值公式(2)。

表明公式(2)有较高的合理性和较好的分类效果。

(1)
(2) 式中, 表示词条在文档中的出现频数,N表示分类体系数目,表示词条的文档频数。

经过以上步骤,得到的特征向量的维数是非常高的,如此高维的特征对即将进行的分类学习未必全是重要、有益的,而且高维的特征会大大增加机器的学习时间而产生与小得多的特征子集相关的学习分类结果。

这便是特征提取所要完成的工作。

特征提取算法一般是构造一个评价函数,对每个特征进行评估,
选取评估分值高的、预定数目的最佳特征作为特征子集. 文[5]介绍了一些评估函数,我们在系统中简单地选取了权值前50位特征组成最终的特征向量。

2. 3 特征匹配与分类
文本转化为向量形式并经特征提取以后,便可以进行分类挖掘了,即特征匹配。

机器学习领域常用的分类算法有:朴素贝叶斯分类法、K-最近邻参照分类法。

我们在系统中采用了文献检索技术中的相似度方法。

假设样本文档为U,待学习文档为V,两者的相似程度可用向量的夹角来度量,夹角越小则相似度越高。

相似度的计算公式为(3)。

在大于给定阈值情况下,取相似度高的类别作为文档V的类别,若均低于阈值,则提交给用户请求人工分类。

(3) 2. 4 文本分类系统
我们采用Visual Basic6.0在Windows2000下开发了一个简单的文本分类系统(STCS),并以Access数据库的形式保存词典、特征向量等。

系统采用开放式的结构,分类体系能较容易地进行扩充,针对计算机专业技术文档有较高的分类精度,能满足特定专业领域的应用需求。

我们将从网上
()下载的500篇计算机类文档作为训练文档和测试文档实验,实验结果表明,当分类体系数目为5时,STCS完成一篇长度为10K的文本的分类大
约需要8秒(PC233/256M/windows2000环境下),分类的精度达到79%。

3 结束语
本文介绍了数据挖掘中的新的分支—文本挖掘,结合我们所设计的分类系统,重点分析了文本分类的若干关键技术。

现阶段我们的系统仅处理文本文档,如何将分类对象扩展到数量巨大的Web文本,这是我们下一阶段工作所要研究的内容。

相关文档
最新文档