基于VSM的文本分类系统的研究与设计

合集下载

利用SVM进行文本分类并研究特征选择对文本分类的影响

利用SVM进行文本分类并研究特征选择对文本分类的影响
一般来说,支持向量机是一个线性的学习系统,可以用于两类的分类问题。 令训练集合 D 为{(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)},其中 xi=(xi1,xi2,…,xin)是一个 r 维输入向量,如遇实数空间 X∈������������������������ ,yi 是 它的类别标记(输出值),并且 yi∈{1, -1}1 表示正类,-1 表示负类。为了构造一个分类器,支持向量机寻找一个线性函 数, f (x) =< w • x > +b 。如果 f(xi)>0 那么 xi 被赋予正类,否则赋予负类。即
线性支持向量机:可分的情况............................................................................................... 4 第三部分:实验 .............................................................................................................................. 6
刘禹 中科院自动化所 2009M8014629010 2010-8-14
[键入公司名称]
SVM 在文本分类中 的应用
[键入文档副标题]
目录
第一部分:统计学习基本框架....................................................................................................... 3 第二部分:SVM 原理与对数回归原理...........................................................................................3

基于SVM—KNN的文本分类算法及其分析

基于SVM—KNN的文本分类算法及其分析
机器翻译等方面都得到 了广泛 的应用 。
本的特 点 , 如果 K值 选择 过大 , 而 则一些 与待分类 文本实 际上
在 实际的文本分类试验 中 , 一般 都要 通过反复 的实验 , 测试 、 观
导致 噪声增加 分类效果 降低 。 经 进入到实 用性商业 应用 , 在信 息检索 、 电子会议 、 安全 、 并 不相 似的文本 也被包 含进 来 , 网络
Ana y i o Te t l ss n x Cl s i c ton Al o ihm Ba e on VM - a sf a i g r t i s d S KNN
KUA h nl NG C u —n,XI Qigqag i A n —i n
( . ∞ , N r a nv r t,L o a g e a 7 0 2 h n ;2 u y n d c t n B r u o m lU i s y u ? n ,H n n 4 1 2 ,C ia .L o a g E u ai ue ) ei o a
利用这些信息 带来困难 。为 了有效地 组织和管理 网页资源 , 必 K NN算法简单实用 , 分类准确率较高 , 由于 K 但 NN是一种
需 每 须对 网页进行合 理分类 。网 页分 类的 传统做 法是 由人 工判 断 懒惰学 习算 法 , 要将所 有训练样 本存入 计算机 中 , 次决策 都要计算并 比较 待识别样本 与全部训练样本之 间的距离 , 因此 类别 , 并加 以组织和 整理 , 这对 于现在 每天产 生数百 万新 网 页 存储量和 计算量都较大 。此 外 , K 在 NN分 类器 中, 一个 重要环 的互联 网而 言 , 人工分类 已经不再现实 。 节是参数 K 的选 择 , 值 K值选 择得过 小 , 不能充分体现待分类文 网页分类技 术建 立在文本 自动分 类技 术基础 之上 。国外 的文本 分类经历 了可行性 基础 研究和实验性 开创研究 , 目前 已

基于向量空间模型的文本分类研究

基于向量空间模型的文本分类研究

基于向量空间模型的文本分类研究
刘思杰;刘静超;郭冰洁;张程炳;刘一熳
【期刊名称】《电脑编程技巧与维护》
【年(卷),期】2024()6
【摘要】由于传统的文字数据分类处理方法通常要求投入高昂的人力和时间成本进行标注分类,所以这些传统文字数据分类方法不再适应当前信息时代的要求。

因此,急需一种高效快捷地实现对海量文本数据的主题选择和自主归类管理的新文本分类技术。

经过研究,提出了一个新文本分类方案,通过文本向量空间模型(VSM),把大量非结构化的文本数据转化成高度结构化的文本向量,然后采用K-means聚类方法对文本向量进行聚类分析,实验结果证实了这种方法的高可行性。

该方法提供了一种高效、快捷的文本处理和分类方式,能够快速实现主题选择和自主归类管理,值得进一步研究和探索。

【总页数】4页(P44-47)
【作者】刘思杰;刘静超;郭冰洁;张程炳;刘一熳
【作者单位】西京学院计算机学院
【正文语种】中文
【中图分类】G63
【相关文献】
1.基于向量空间模型的文本分类特征权重算法研究
2.基于句类向量空间模型的自动文本分类研究
3.基于向量空间模型的文本分类方法的研究与实现
4.基于自学习向
量空间模型文本分类算法的研究与应用5.基于向量空间模型的文本分类系统的研究与实现
因版权原因,仅展示原文概要,查看原文内容请购买。

vsm原理

vsm原理

vsm原理
VSM原理。

VSM(Vector Space Model)是一种用于信息检索和文本分类的数学模型,它
将文档表示为向量,通过计算向量之间的相似度来实现相关文档的检索和分类。

VSM原理是信息检索和文本分类领域的重要理论基础,下面将从VSM的基本原理、应用场景和优缺点三个方面来进行介绍。

首先,VSM的基本原理是将文档表示为向量。

在VSM中,每个文档都可以用
一个向量来表示,向量的每个维度对应一个特征或者词项,在文档中出现的词项对应的维度取非零值,未出现的词项对应的维度取零值。

通过这种方式,可以将文档表示为高维空间中的一个向量,从而方便进行相似度计算和文本分类。

其次,VSM的应用场景非常广泛。

在信息检索领域,VSM被广泛应用于搜索
引擎中,通过计算查询向量与文档向量之间的相似度,来实现相关文档的检索。

在文本分类领域,VSM可以用于将文档进行向量化表示,然后利用机器学习算法来
训练模型进行分类。

除此之外,VSM还可以应用于自然语言处理、推荐系统等领域。

最后,VSM也存在一些优缺点。

其优点在于简单、直观、易于实现,并且在
一些场景下取得了较好的效果。

然而,VSM也有一些缺点,比如无法处理词序信息、无法处理语义信息、维度灾难等问题,这些问题限制了VSM在一些复杂场景
下的应用。

综上所述,VSM作为一种用于信息检索和文本分类的数学模型,具有重要的
理论意义和实际应用价值。

通过对VSM的基本原理、应用场景和优缺点的了解,
可以更好地理解和应用VSM模型,为信息检索和文本分类领域的研究和实践提供
理论支持和技术指导。

基于机器学习的文本分类方法与系统设计

基于机器学习的文本分类方法与系统设计

基于机器学习的文本分类方法与系统设计

随着互联网的快速发展和信息爆炸的时代,人们面临着对大量文本信息进行分类和分析的需求。然而,传统的手动分类方式既费时又费力,难以应对海量信息的处理需求。因此,基于机器学习的文本分类方法应运而生,并成为了解决这一难题的有效工具。

一、机器学习在文本分类中的应用 机器学习是一种通过数据的经验归纳从而产生规律和模式的方法。在文本分类中,机器学习算法可以通过学习大量已经标注好的文本数据,从中学习特征和模式,并据此将未知文本进行分类。常见的机器学习算法包括朴素贝叶斯、支持向量机(Support Vector Machine, SVM)、决策树等。

1. 朴素贝叶斯分类算法 朴素贝叶斯分类算法是基于贝叶斯定理和特征条件独立性假设的算法。该算法通过统计文本中出现的词语频率,计算每个词对于不同类别的条件概率,并基于概率进行分类。朴素贝叶斯分类算法简单高效,尤其适合处理海量文本数据。

2. 支持向量机分类算法 支持向量机是一种常用的有监督学习算法,广泛应用于文本分类任务中。该算法通过在高维空间中构建一个超平面,将不同类别的文本样本尽可能地分开。支持向量机算法基于结构风险最小化原则,能够处理高维特征空间、非线性分类和噪声等问题。

3. 决策树分类算法 决策树是一种基于规则的分类方法,通过构建一棵树型模型,将文本数据进行分类。该算法可以根据特征的重要性进行特征选择,并生成一系列的判定规则。决策树算法易于理解和解释,适用于处理有噪声和缺失数据的情况。

二、基于机器学习的文本分类系统设计 基于机器学习的文本分类系统设计涉及到数据准备、特征提取、模型训练和分类结果评估等多个步骤。以下是一个基本的系统设计流程:

1. 数据准备 首先,需要准备一个大规模的已经标注好的文本数据集。该数据集应包含不同类别的文本样本,用于训练分类模型。可以利用现有的公开数据集,也可以通过爬取互联网上的文本数据进行构建。

向量空间模型在文本分类中的应用

向量空间模型在文本分类中的应用

向量空间模型在文本分类中的应用一、引言文本分类是信息检索中的常见任务,它的目标是将一组文本分配到一组预定义的类别中。

实现文本分类的最常用方法之一是向量空间模型(VSM),它是一种基于文本向量表示的技术。

在本文中,我们将探讨向量空间模型在文本分类中的应用,以及如何使用它来构建一个高效的文本分类器。

二、向量空间模型向量空间模型是一种常用的文本表示方法,它将文本表示为一个由特征权重构成的向量,其中每个特征表示一个单词或短语在文本中的出现次数(或词频)。

例如,假设我们的文本是一个句子“the quick brown fox jumps over the lazy dog”,我们可以将它表示为一个向量:the:1quick:1brown:1fox:1jumps:1over:1lazy:1dog:1在向量空间模型中,文本向量的维数通常是词汇表中不同单词的数量,每个向量元素的权重(通常是词频)表示单词出现的次数。

三、文本分类文本分类的主要目的是将文本分配到预定义的类别中。

这些类别可以是任何类型的,如电子邮件分类、新闻文章分类、博客分类等。

在文本分类中,向量空间模型可以通过以下步骤来构建一个分类器:1. 特征提取:将文本转换为向量表示形式。

2. 特征选择:选择最具有信息量的特征。

3. 分类器训练:使用训练集中的文本向量和它们的类别标签来训练一个分类器。

4. 分类:使用训练好的分类器对未标记文本进行分类。

四、向量空间模型的优缺点向量空间模型的主要优点包括:1. 简单直观:向量空间模型直观且容易理解。

2. 易于实现:构建向量空间模型并训练分类器并不需要太多的工程技术。

3. 适用范围广:向量空间模型适用于不同类型的文本分类任务。

向量空间模型的主要缺点包括:1. 维数灾难:通常需要大量的特征数量才能达到较高的分类准确率,这导致了向量维数的急剧增加。

2. 单词不同义性问题:同一个单词可能具有不同的含义,例如“bank”既可以表示河岸,也可以表示银行。

Web信息抽取中的文本分类毕业论文

关键字:机器学习文本分类 支持向量机(SVM)
ABSTRACT
Support Vector Machines (SVM) has an lmpoitant position in Machme leariung theory,whetlier it is to solve the classification problem or request for the reunification issue, SVM has a wide range of applications. In this papei; a short mtroduction into the basic principles of SVM, a detailed discussion of the SVM m the text classification, and a carefill analysis of how to make use of SVM to constnict classifier for a text classification. Heie's the text of the detailed classification process and mtioduced ui the course of these key technologies, such as: segmentation technology, vector space model (VSM), features selection technology、cross-venfication teclmologv of the SVM and so on. With the analysis and discussion also bfieflv described the process of making use of Microsoft Visual C十十6.0 to create the text classification system, introduced the realization and optimization of the key class and miportant fxinctioiis, and how to use of dynamic link libraiy to achieve the migration from C++ to Java・Finally, the expeiimental data and conclusions pioduced by this system are shown・

基于支持向量机的文本分类技术


( x i , y i ), i = 1,2, K , n, x ∈ R d , y ∈ {+1,−1} ,满足 y i (< x i , ω > +b ) − 1 ≥ 0
此 时 分 类 间 隔 γ = 2 ω ,为 使 间 隔 最 大 等 1)
ω
2
最小。满足条件
(3-2)
其中, α i > 0 ,称为拉格朗日乘子,将式(3-2)分别对 ω 和 b 求偏微分 并令其等于 0,可得到关系式 l l ∂L(ω, b, α ) = ω − ∑ y iα i x i = 0 ⇒ ω = ∑ y iα i x i ∂ω i =1 i =1
l ∂L(ω, b, α ) l = ∑ y iα i = 0 ⇒ 0 = ∑ y iα i ∂b i =1 i =1
maximize : W (α ) = ∑ α i −
i∈sv
1 ∑ ∑ α iα j y i y j < x i , x j > 2 i∈sv j∈sv
subject to
∑ α i yi = 0
i∈sv
(3-5)
该方法是在经验风险为零的前提下,保证了全体训练样本的正确率, 因此被称为硬间隔分类器。它通过最大化分类间隔获得最好的推广性能。 同时我们看到,通过把原问题转化为对偶问题,计算的复杂度不再取决于
二、 文本分类
文本分类的目的将文档归类到数目固定的且已预定义的类别中去。每个文档 可以被归为多类(multiple),归为单类(exactly one)和不属于任何类(no category at all)。我们的目标是通过机器学习从样本集学习出一个分类器,该 分类器能够自动地分类文本。这是一个监督学习问题。为了能进行快速有效的学 习,各类别的分类作为一个独立的二分类(binary classification)问题,这样 就解决了一个文档是否归类为特定类的类别。

SVM在文本分类中的应用研究

SVM在文本分类中的应用研究摘要:本文研究了支持向量机(SVM)在文本分类中的应用,阐述了支持向量机及核函数等理论,并就文本的性能进行了实验证明。

关键词:文本分类;支持向量机;核函数支持向量机(Support Vector Machine,简称SVM)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。

传统统计模式识别的方法都是在样本数目足够多的前提下进行研究,所提出的各种方法只有在样本数趋于无穷大时其性能才有理论上的保证,而在多数实际应用中,样本数目通常是有限的,很多传统方法都难以取得理想的效果。

Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题。

20世纪90年代,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了一个较完善的理论体系——统计学习理论(Statistical Learning Theory)。

1992年到1995年,在统计学习理论的基础上发展出了一种新的模式识别方法——支持向量机。

随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。

SVM是继k-近邻、神经网络、相素贝叶斯等方法之后被用于文本分类,并且是在Reuter语料(包括21450版本和Apte给出的集合)上能取得非常好的结果的文本分类算法之一。

本文重点研究SVM在两个不同的语料集上,选择不同的特征维数,采用四种不同的核函数的分类性能比较。

实验结果表明,这种方法削弱了训练样本分布的不均匀性对分类性能的影响,可以将微平均准确率提高大约1%~2%。

本文第1节将阐述支持向量机算法的基本思想;第2节介绍目前广泛应用的三种核函数;第3节给出了在著名的英文语料集Reuters-21578上的实验结果与分析;第4节是结论和进一步工作展望。

1统计学习理论与支持向量机统计学习理论就是研究小样本统计估计和预测的理论,具有很好的泛化能力,为解决有限样本学习问题提供了一个统一的框架。

基于支持向量机的文本分类器的实现与设计

矿产资源开发利用方案编写内容要求及审查大纲
矿产资源开发利用方案编写内容要求及《矿产资源开发利用方案》审查大纲一、概述
㈠矿区位置、隶属关系和企业性质。

如为改扩建矿山, 应说明矿山现状、
特点及存在的主要问题。

㈡编制依据
(1简述项目前期工作进展情况及与有关方面对项目的意向性协议情况。

(2 列出开发利用方案编制所依据的主要基础性资料的名称。

如经储量管理部门认定的矿区地质勘探报告、选矿试验报告、加工利用试验报告、工程地质初评资料、矿区水文资料和供水资料等。

对改、扩建矿山应有生产实际资料, 如矿山总平面现状图、矿床开拓系统图、采场现状图和主要采选设备清单等。

二、矿产品需求现状和预测
㈠该矿产在国内需求情况和市场供应情况
1、矿产品现状及加工利用趋向。

2、国内近、远期的需求量及主要销向预测。

㈡产品价格分析
1、国内矿产品价格现状。

2、矿产品价格稳定性及变化趋势。

三、矿产资源概况
㈠矿区总体概况
1、矿区总体规划情况。

2、矿区矿产资源概况。

3、该设计与矿区总体开发的关系。

㈡该设计项目的资源概况
1、矿床地质及构造特征。

2、矿床开采技术条件及水文地质条件。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

毕业设计(论文)任务书 系 部 电气信息系 指导教师 周雪芹 职 称 讲师 学生姓名 张伟 专业班级 10gz信工02 学 号 1025021214 论文题目 基于VSM文本系统的研究和设计

论 文 内 容 目 标 及 进 度 要 求

文本数据的半结构化甚至于无结构化的特点,使得表示文本数据的特征向量高达几万维甚至预计是几十万维。即使经过初始化筛选处理,还会有很多高维数的特征向量留下。高维的特征对分类机器学习未必全是至关重要的,有益的。高维的特性可能会大大增加机器学习的时间而仅产生于之小得多的特征子集一样的分类结果。因此,在进行文本分类中,特征选择显得至关重要。 本文将特征选取作为重点研究对象,主要对文本选取的各类方法进行对比和介绍。 首先从最基本的文本介绍开始,简介文本的含义;其次,对文本特征向量将两个文本之间的问题转化为两个向量之间的相似性问题的概况进行讲解;然后,对各种流行算法进行介绍和对比。 1.课题背景概述 2.分类关键技术 3.各种分类方法的综合评价 4.测试与分析 5.得出自己的结论 资料来源于图书、报刊、网络 2012年11月--12月:查阅资料 2012年12月8日--12月15日:根据任务书要求及查阅资料撰写开题报告并提交 2012年12月--2013年1月:论文撰写 2013年3月--5月31日:论文修改并提交

指导教师签名: 年 月 日

系 部 审 核 毕业设计(论文)学生开题报告 课题名称 基于VSM的文本分类系统的研究与设计 课题类型 A 指导教师 周雪芹 学生姓名 张伟 学号 1025021214 专业班级 10gz信工2班

九十年代以来,internet以惊人的速度发展,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等,人们在享受internet所提供的资源时,也对信息检索的效率提出了更高的要求,如何在浩若烟海而又纷繁芜杂的文本中查询所需要的信息始终是信息检索的一大目标,由于中文文本的无空格字符串形式、一词多义及多词同意等现象,使得相对英文来说,中文文本的检索更加困难,而今年来文本分类技术研究的深入及其信息的推送,信息过滤等信息处理技术的结合,使得信息检索效率得到逐步提高,与此同时基于VSM的文本分类系统研究和设计就变得更加具有意义和价值,这样会给信息检索带来极大地方便。

本课题研究基于VSM的文本分类系统,使得信息检索效率得到逐步提高,常见的信息检索模型大致可以分为布尔逻辑模型、模糊逻辑模型、向量空间模型、概率模型及他们的改进模型,主要从这些模型入手进行深入研究 本课题研究的实施方案、进度安排

1.课题背景概述 2.分类关键技术 3.各种分类方法的综合评价 4.测试与分析 5.得出自己的结论 资料来源于图书、报刊、网络 2012年11月--12月:查阅资料 2012年12月8日--12月15日:根据任务书要求及查阅资料撰写开题报告并提交 2012年12月--2013年1月:论文撰写 2013年3月--5月:论文修改并提交

参考文献 1王知津,蒋伟伟.十五年来我国网络信息检索研究述评 [J].情报科学,2004,(4):385—388. 2李苹.简论计算机信息检索的应用与发展[J].现代情 报,2004,(4):30—32. 3 Ri咖:do Bae龃一Y毗鹤,等著.现代信息检索[M].王知津,等 译.北京:机械工业出版社。20Q5.20一23. 4钟敏娟,等.基于分类和关键词抽取的信息检索算法[J]. 系统仿真学报,2004,(5):1009一1013. 5俞士汶.语法研究入门[M].商务印书馆,1999.240—251. 6刘群,俞士汶.1998中文信息处理国际会议论文集[c]. 清华大学出版社,1998.50r7—514. 7姚天顺,等.自然语言理解——种让机器懂得人类语言 的研究[M].北京:清华大学出版社,2002.272. 8 卜东波,等.文本聚类中权重计算的对偶性策略[J].软件 学报,2002,13(11):2083—2089. 9万小军,等.文档聚类中K一蝴算法的一种改进方法 [J].计算机工程,2003,(2):102—103. 10 Jia俐IIaII,MicI虻li∞K衄ber.d8ta珂iIliIlg c∞∞p协aIld tecll-Iliq嘲【M].砜~.盹唱叭硒血m曲PIl‟,2001.349— 指导教师意见

指导老师签名: 2013年3月25日 毕业设计(论文)指导教师评审表 序号 评分项目(理工类) 满分 评分 1 工作量 15

2 文献阅读与外文翻译 10

3 技术水平与实际能力 25

4 研究成果基础理论与专业知识 25

5 文字表达 10

6 学习态度与规范要求 15

总 分 100

评 语

(是否同意参加答辩)

指导教师签名: 年 月 日 毕业设计(论文)成绩评定总表 学生姓名:张伟 专业班级:10gz信工02 毕业设计(论文)题目:基于VSM文本系统的研究和设计

成绩类别 成绩评定

Ⅰ指导教师评定成绩 Ⅱ评阅人评定成绩 Ⅲ答辩组评定成绩 总评成绩 Ⅰ×40%+Ⅱ×20%+Ⅲ×40%

评定等级 i

毕 业 设 计(论 文) 基于VSM文本分类系统的设计与研究

学生姓名: 张伟 学 号: 1025021214 所在系部: 电气信息系 专业班级: 10gz信工(2)班 指导教师: 周雪芹 讲师 日 期: 二○一三年五月 ii

学位论文原创性声明 本人郑重声明:所呈交的学位论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。本人完全意识到本声明的法律后果由本人承担。 作者签名: 年 月 日

学位论文版权使用授权书 本学位论文作者完全了解学院有关保管、使用学位论文的规定,同意学院保留并向有关学位论文管理部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权省级优秀学士学位论文评选机构将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 1、保密 □,在 年解密后适用本授权书。 2、不保密 □。

(请在以上相应方框内打“√”) 作者签名: 年 月 日 导师签名: 年 月 日 iii

摘 要 文本分类的方法包括人工分类和自动分类。传统的文本分类是基于人工方式的,这种方式缺点很多,如周期长、费用高、效率低、需要大量专业人员以及分类结果的一致性低等。20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为主流。相比于人工方式,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但文本自动分类研究开展以来,准确率一直不能达到令人满意的效果。在Internet信息急剧膨胀的今天,为文本分类提供了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点。 向量空间模型(VSM)是文本自动分类应用最广泛的模型之一,以向量空间模型为基础,我们研究发现,对文本的合理向量表示是实现正确分类非常关键的前提,而传统分类方法中,特征选择算法各有优劣,选择出的特征不能很好地代表文本,这在很大程度上制约了文本分类的准确率。我们以此为出发点,分析特征项应当具备的条件,并提出了基于类别概念的特征选择方法。区别于传统的特征选择方法只考虑文本词语的外在形式的做法,它以分析词语的语义概念为主,并且考虑特征的类别信息,选取单类别指示意义强的特征项,建立特征空间。在实验中,我们对相同的数据集,在同一种分类算法上,对传统特征选择方法和我们提出的特征选择方法分别实验,实验数据表明我们的特征选择算法能够得到较高的准确率和召回率。

关键词:文本分类 向量空间模型 知网 类别概念 iv

Abstract Text classification include manual method and automatic method. Conventional text classification based on manual mode has a lot of shortcomings, such as long period, high charge, low efficiency, the requirement of large numbers of professional people and low consistency of the results et. The automatic method of text classification based on machine learning was becoming mainstream after 1990s stage by stage. Compared with manual, it has short period, high efficiency, and high consistency of the results. Though automatic text classification has so many merits, the accuracy of its results is not satisfied till now. Text classification gets a wide stage in the age of the information in Internet increasing rapidly. It is confronted with opportunities and challenges, and the study focuses how to improve the accuracy of the text classification result. Vector space model is one of the models that are used far and wide in text classification field. Based on vector space model, we discovered that the vector of texts is a key precondition for accuracy. But in many conventional text classification systems, each one of the feature selection methods has its strong point. The features can not primely express the texts, then restrict the improvement of accuracy. Our study got going from this point, proposed a new feature selection method based on category concept after analyzing the conditions that the features should have. Conventional feature selections take the extrinsic form of the words in texts into account only. Know from them, our feature selection method mainly analyzing the immanent conception of the words, and take the classificatory information of features into account synchronously. It selects the conceptions which has strong single class meaning as its feature space. In our experiment, we made compassion between conventional feature selection methods and our method in the same conditions that include the same corpus and the same class arithmetic. The result showed that the feature selection method based on category concept we proposed could get comparatively high accuracy and recall.

相关文档
最新文档