文本分类中一种特征选择方法研究

合集下载

一种改进的集中度和分散度文本特征选择算法

一种改进的集中度和分散度文本特征选择算法

时 T FL结合特征项长度信息 , FS 提高 了 短语和词语在分 类中的作 用。S M 分类实验 结果表 明: T F 相 比,F S 更高 的文本 V 与 FS T FL有
分 类性能和 剔除无关特征 项的能力。
关键词
中图分类号
互信息 特征选择 文本分 类 特征权重 支持 向量机
T 3 16 P0 . 文献标识码 A
MI T (,
_lg 0(

() 2
度 的概念 可以看出 : 若一个特征项在一 个类 中频度越高 , 而在其 它类 中的频度越低 , 则认 为这个 特征项更 能反 映 出现 该类 的特
征。 从表 1 中可以看 出: 出现 的类别次数为 6 其 中出现在 类 8 , 中的文档 数为 2 , 它5 类别出现的文档数非常小 ; 出现的 7其 个
们达到进一 步的完善 。
① 特征项 只出现在一个类中, 认为这个特征项非常有
价值 。
② 如果 出现在 两个 或多个 类 当中 , 在有些 类 中没 有 但 出现 , 那么此特征项也有价值 的。
③ 如果 在所有类 中都 出现 了 , 并且 出现 的频率 比较 均 匀, 那么这样 的特征项对分类就几乎没有价值 , 应当过滤掉。
综上所之 , 特征项 出现的类别 越少 , 重应越 大 , 以定 性 权 可期 :0 0—0 21 8—3 。浙江省 自然科学基金 ( 0 7 9 。沈友 0 X15 3 )
文, 硕士生 , 主研领域 : 计算机网络。
第 9期
沈友 文等 : 一种 改进 的 集 中度 和分散 度文本 特征 选择 算 法
的关 系可能会有 以下情况 :
软件分词后 的中文词条是非 常 巨大 的 , 用这些 词条代 表文档 若

基于文本语义联系的特征选取算法研究

基于文本语义联系的特征选取算法研究

1引言中文文本由两类元素组成:汉字和标点.但是词是构成带语义文本的主要构成,词的具体形式有单字词、双字词、三字词和四字成语,由它们构成短语,再组合成句、段、节章、篇等结构.一篇具有完整意义的文本,其主要由各种字词、标点符号通过不同频率的使用,以及不同顺序的组合来完成一个信息的表达.在特征项的选取上,如果要试图将顺序信息也表示出来,则特征项的选择中需要加入有向指针,则特征项之间构成多分枝的图形结构,而这种结构在文本聚类算法中由于不能够给出表示相似程度的距离函数,从而不能够造出向量模型,也就无从下手设计算法来实现.如何选择合适的结构表示特征文本之间的关系成为突破特征选择的局限的关键点.目前已有研究者设计了多种特征结构和算法试图解决这个问题.比如在“概念向量文本聚类算法”[1]中作者在特征向量的建立中增加了文本间语义关系的表达,在向量维度的降低上也有很好的表现.“使用概念基元特征进行自动文本分类”[2]在建立分类器采取了最大熵模型的思想,以HNC基元作为文本的特征,也取得了较好的聚类效果.但是纵观各类基于语义联系的特征选取算法,在具体实现时,要么依赖已有知识系统中的信息来获得自己的特征;要么就是算法的复杂度大增,而对后面文本聚类的质量提高,虽然有一定帮助,但是并无大的改善.当然,质量和效率是一对互斥的概念,如何取得一种平衡是算法设计中必须要考虑的.这里从文本与词组之间的相关性研究入手,尝试了一种简单且效果良好的文本特征选取算法,其既有对文本对象本身的表示,也有对文本之间语义联系的表达,并设计了相应的算法,在文本聚类的质量和算法效率上取得了较好的平衡.2文本与词组之间的相关性研究文本中词组是特征选取的主要对象,这个词应该是最能体现文本内容与主旨的词,但是如何确定这一点呢,一般的思路是从词频角度入手,把词频作为文本特征权值,在文本特征选取中,其具有简单易于实现的特点,VSM算法就是向量模型中通过统计文本频率表达文本语义的一个成功案例.但是这显然不能得到真正反映文本特征的词,也就不能得到有质量的聚类结果.在进行文本分类的计算过程中,特征(或者直接理解为“词”)从具象化的形式转换为数字化形式,经过了两步量化的过程:特征选择阶段的文本的重要程度量化和将具体文本向量化时的特征的权值量化.同时,这两个过程存在一个基本的对偶关系,或者叫做循环过程:权值的好坏决定了聚类结果的好坏,而要想通过算法评价,只有通过样本类内方差的值判断,而这个样本方差的计算只有在知道聚类结果之后.通过迭代算法的设计可以避开这种循环关系,用收敛的迭代计算,我们可以得到一个稳定在某个文本矩阵上的特征向量.显然,通过迭代的计算处理,可以获得更佳的特征项权值,可以更好地表示文本的语义信息,比基于文本语义联系的特征选取算法研究叶飞(1.合肥工业大学,安徽合肥230002;2.六安职业技术学院,安徽六安237005)摘要:特征选取的好坏在文本聚类算法中起着举足轻重的作用,为了在文本预处理阶段更好地获得文本特征,这篇论文从文本语义关系的角度入手,研究了文本语义关系的数学表达方式,研究设计了更好的特征选择的算法,以此提高文本聚类的质量.关键词:数据挖掘;文本聚类;特征选取;Apriori 中图分类号:TP391.1文献标识码:A文章编号:1673-260X (2012)06-0035-03Vol.28No.6Jun.2012赤峰学院学报(自然科学版)Journal of Chifeng University (Natural Science Edition )第28卷第6期(下)2012年6月35--起简单的随机选择特征项,这种方法选择的特征项能更好地表达文本的内在结构和文本的内在意义.为此,设计如下迭代算法:Qf是一个表示文本权值的单位向量,Qt表示次权值的单位向量,Qf与Qt初始为一组随机值,Qf=(Qf1,Qf2,…,Qfm)',Qt=(Qt1,Qt2,…,Qtn)'.算法1:输入:文本TEXT,支持度suport输出:最大权值的数据集:MSet预处理文本f,生成一个词集M={mi};使用随机值初始化Qf,Qt;(1)Do(2)for=1tondo(3)Wtj=mi=1ΣAij*Wfi(4)forj=1tomdo(5)Wfi=mj=1ΣAij*Wtj(6)计算Qf和Qt的值,并更新Qf和Qt.(7)While向量Qf和Qt稳定.(8)根据Qt,筛选M,删除Qt<suport的mi经过算法1计算生成的一组词组称为最高权值词组(MFP).为了避免出现词组前缀情况的出现,我们对MFP做了进一步优化,将短前缀词组删除,称为最长最高权值词组(MMFP).对于最长最高权值词组(MMFP)的计算,通过倒排索引技术生成,具体方法是:通过对聚类文本中的词位置的搜索,建立一个倒排索引来进行MMFP的提取.该方法的特点在于在于实现比较容易,查询结果得出的比较迅速.该算法的基本步骤是:对于输入的文本TEXT,用户设定一个最小支持度support,通过计算生成并输出MMFP的集合:MMFP-Set.对文本TEXT进行预处理,得到词集T={t};执行算法1得到精简后的T,建立T的位置倒排索引{Pt1,Pt2,…,Ptn};如果|Pt|<support;从T中删除词t,通过循环计算从每个位置倒排索引中搜索当前MMFP,查看每个词的位置索引的数目小于用户输入的最小支持度support,当前MSFP中就是最长最高权值词组,那么退出循环,继续寻找下一个MSFP;如果位置索引的数目超过support,则继续判断下一个词是否符合条件,符合则加入到MSFP当中去,否则就从中删除该词,直到找到最长最高权值词组.关于本算法的性能从理论上来说,其具有的优势在于增强了语义的表达,使得特征项的选择具有某种程度的可控性,相对于TF/IDF算法而言,其在算法设计思路上具有先进性,在特征项权值的计算上具有较强的实用性和可用性,严格来说,使用TFIDF来计算特征权值时,仅仅是一种对特征项权值的简单量化处理,不能再语义层面给出表示,从而使得特征向量的确定变得有些随意性.3性能评价TFIDF方法是特征值计算中比较常用的算法之一,虽然其基本算法有不足之处,但是作为一种有效且易于实现的计算方法,其有它的实用之处,因此,作为对比之用,拿来和用MMFP算法做个对比试验,可以通过它们在特征选取的计算结果,看到在文本的选择和表示上的不同深度.3.1数据集和评估标准在测试时我们使用oai_citeseer数据集,我们从citeseer测试集中,在其中,通过随机的收取,我们得到五个测试集,分别包括不同篇数的文章.然后用TF/IDF方法和前面设计的算法,进行特征选取和比较,通过不同参数的设定获得不同的选取结果.对于执行结果,此处使用Macro-F1度量,这其中评价质量时,我们定义F1各项的具体意义,对于precision和recall的定义分别为recall=nKE/nKprecision=nKE/nE(1.1)nE是被选出的关键词的数量,nK是关键词的计数值.nKE是从文本中选出并被确认的关键词的量,nKE计算方法是:key1为长度n的词组,key2为通过计算出来的长度m的词组,定义为KE1ΛKE2(m≤n).如果对坌i(i=1,2,…,m)满足KEi∈key1且m=n,那么nKE加1;如果对坌i(i=1,2,…,l)满足KEl∈key2,l<m或1=m,同时m<n,那么在nKE上加l/n.通过以上precision和recall的计算内容定义,第i篇文章的Fi-Measure如1.2所示,数据集D的Marco-F1如1.3:Fi-Measure=2×recall×precisionrecall+precision(1.2)Macro-F1=∑iFi-Mecasur坌坌e筑|D|(1.3)3.2实验结果的分析评价我们在对比数据中选择5个不同数量的数据集参与计算,数值分别为100-400个5个等级.此36--处计算中不对对标题进行参考,而要是考虑标题文本的话,可以将1、2作为标题中每个词的权值,这种情况下的Macro-F1的对比,通过图2可见.对测试集的Macro-F1比较结果,图1是使用TF/IDF方法情况所得出的结果.如图1我们看到,各种取值在测试集citeseer中,计算后似乎没有什么太多区别.但有一点是明确的,挑选词的数量与特征选择的质量成正比.并且我们可以看出,对标题中词的权值做了提高之后,明显的提高了特征选取的质量.通过前文论述的实验,我们可以判定,使用MMFP进行特征选取明显取得了最好的质量,通过设定不同的参数,TF/IDF方法获得了质量不同的结果,但是显然,MMFP算法其特征选取的质量,比TF/IDF计算的所有结果都要好很多.4总结上述内容中提出的MMFP提取算法,在设计过程中充分考虑了中文语义中的两个主要问题,词语间的顺序关系和词语的频率,尤其是通过词语间的顺序关系删选掉了一些重复的、无效的特征词,从而简化了特征向量的规模,为特征值的质量提高提供了原始数据的保证.但是,这种改进对于中文文本语义的表示仍然是不够的,尤其是中文文本蕴含信息的表示,其具体来说,有两个方面的不足:一是词间的语义上的逻辑关系无法清楚表达,比如“我把你打了”和”你被我打了”这两句话中的“我”和“你”,在逻辑上是平行的关系,两句中的平行关系是一样的,所以导致在文中的MMFP中不能通过词的顺序关系加以区分.二是词的区分只能依赖简单的位置关系进行,遇到一些语法复杂的句型难以有效的区分,这对最后的特征项的删选造成了一定的困难.基于以上的分析,文中算法今后改进的途径主要有以下方式:一是设计建立一种语义自动机,结合数据库把词的语义逻辑关系事先加以分析处理,将其变成一个公共平台,所有语义分析由语义自动机完成,使得词的选择更有逻辑性.二是考虑利用云计算技术进行大平台的词法分析,这样,我们可以在无法降低特征向量规模时,通过云计算解决计算的时间性能提高问题.———————————————————参考文献:〔1〕白秋产,金春霞,周海岩.概念向量文本聚类算法[J].计算机工程与应用,2011,47(35).〔2〕贾宁.使用概念基元特征进行自动文本分类[J].计算机工程与应用,2007,20(1).〔3〕Junjie Wu,Hui Xiong,Jian Chen,and Wenjun Zhou.A Generalization of ProximityFunctions for K-means.in Proceedings of the2007IEEE International Conference on DataMining(ICDM2007),361-370,2007.(EI,AN:20083511480723).〔4〕Baker L.D,McCallum A.K.Distributional clustering of words for text classification[J].InProc.ACM SIGIR rmationRetrieval,1998.〔5〕Beil F,Ester M,Xu X.Frequent term-based text clustering[J].In Proc.2002Int.Conf.Knowledge Discovery and Data Mining(KDD’02).Pages436-442,New York,2002.〔6〕秦进,陈笑蓉,等.文本分类中的特征抽取[J].计算机应用,2003,10(1).图1TF/IDF方法特征选取质量对比图2TF/IDF方法和MMFP方法对比37--。

一种基于类别信息的改进文本特征选择

一种基于类别信息的改进文本特征选择
c t g r ain e e tt a h o v n i n l no ain g i t o . a e o i t f c h n t e c n e t a fr t an meh d s o o i m o Ke wo d y rs T x ae o iain F a u e s lc in N  ̄e B y s F au e w ihi g e t tg r t e t r e e t a' a e e t r e g t c z o o v n
Li ie g L u S o s e W a g Ze a u Hafn i h u h ng n yn
(ntu c ne,L n e i Si c n ehooy N nn 10 7 J n s ,hn ) Is teo i csP A U i rt o c ne dTcnl , aj g2 0 0 ,i gu C ia i t fS e v syf e a g i a
ig t e c tg r a in eg n e t r W e p t o w r n i r v d mo e f e t e t r e g t g b s d o a e o iai n i t w s h n h ae o i t i e v co . u r a d a mp o e d lo x au e w ih i a e n c t g rs t .F r l e u et e i s o f t f n o s y, m・ p o e i e B y st ee t h ae o iain fa u e rc n t ci g t e c tg rs t n v co . e o dy, e u e w r e u n y t mp o e r v d Nav a e o s lc e c t g rs t e t r sf o s u t h a e o iai e t r S c n l w s o d f q e c i r v t o o r n o r o te ifr t n g i t o r e tfau es l cin, ih a l r tst e p o lm fis f c e t s f h f r ai n o d u f q e c h n omai a n meh d f x t r ee t o o t e o whc mei ae h r b e o u in eo e i o o n i u t n m t fme i m e u n y o r

中文文本分类中特征选择方法的比较

中文文本分类中特征选择方法的比较

中文文本分类中特征选择方法的比较
符发
【期刊名称】《现代计算机(专业版)》
【年(卷),期】2008(000)006
【摘要】在自动文本分类系统中,特征选择是有效的降维数方法.通过实验对中文文本分类中的特征选择方法逐一进行测试研究,力图确定较优的中文文本分类特征选择方法.根据实验得出:在所测试的所有特征选择方法中,统计方法的分类性能最好,其次为信息增益(IG),交叉熵(CE)和文本证据权(WE)也取得了较好的效果,互信息(MI)较差.
【总页数】3页(P43-45)
【作者】符发
【作者单位】海南大学信息科学技术学院计算机系,海口,570228
【正文语种】中文
【中图分类】TP3
【相关文献】
1.中文文本分类中基于和声搜索算法的特征选择方法 [J], 路永和;张宇楠
2.中文文本分类中特征选择方法的比较研究 [J], 刘洋
3.中文文本分类中特征选择方法的研究 [J], 宁慧;吕志龙
4.中文文本分类中特征选择方法的研究 [J], 宁慧;吕志龙
5.中文文本分类中特征选择方法的改进与比较 [J], 田野;南征;郑伟;王星
因版权原因,仅展示原文概要,查看原文内容请购买。

特征选择算法在层次分类中的比较研究

特征选择算法在层次分类中的比较研究


I.J臣, :f l 1, ]: :] 0 -=[ 『 ] :5, = =^ : . 三 『鞠 =, 2 0l , 4 . 01 3 。 [
加 权矩 阵 Q=

【】冯 俊 娥 , 兆 林 . 性 广 义 时 滞 系 统 的 H ∞ 状 态 反 馈 控 制 4 程 线 器【]控制 与决策 , 0 3 l ( )l 9 6 F n J J. 2 0 , 82 :5 -1 3. e g E, e g L. Ch n Z
方 统计 量( :进 行概 述 。这 些方 法 的基 本思 想都 是对 每 一个 特征 z) 即词 条 ,计算 它的 某 种 统计 的度 量 值 ,然后 设 定 一个 阈值 T,把 度量 值 小 于 T的 那 些 特 征 过 滤 掉 。 剩 下 的 即认 为是 有效 特 征 。 1 1 文档频 率 . 词 条 的 文 档 频 率 就 是 指 在 训 练 样 本 集 中 出 现 该 词 条 的 文 档 数 ,计 算训 练 集 中 每 个词 条 的 文档 频 率 ,滤 除 掉 低 于某 个 设 定 阈 值 的词 条 .其 理 论 假设 在 于 稀 有词 条 携 带 少量 有 用 信息 或 对 分类 影 响 不大 .文 档 频 率 是 最 简 单 的 一种 特 征 选 择 方 法 ,易于 实现 , 定程 度 上 起 到 了特 征 降 维 的 作 用 ,并 取 得 了一 定 的 分 类 效果 , 1 2 互信 息 Ml . 如 果用 A 来表 示 词条 t 属 于 类别 C的 文档 频 率 ,B表 示 为包 且 含词 条 t 是不 属 于 类别 C的 文 档频 率 ,C表 示 属于 类 别 C但 是不 但 含词 条 t的 文 档 频率 ,N 表 示 整个 训 练 语 料 库 中 的文 档 总教 ,词 条 t与 类 别 C之 间的 互 信 息 可 以 下 面公 式计 算 :

文本分类的关键技术

文本分类的关键技术

文本分类的关键技术文本分类是一种机器学习技术,能够将给定的文本分成多个类别。

在信息管理、情感分析等领域都有广泛的应用。

那么,文本分类的关键技术有哪些呢?下面让我们一起来看看。

1. 特征选择特征是指用来区分不同类别的文本属性,比如词汇、语法、语义等。

特征的选择直接影响到文本分类的准确性和效率。

传统的特征选择方法通常基于统计和信息论,比如互信息、卡方检验、信息增益等。

而当前更加流行的方法是基于深度学习的特征提取,比如卷积神经网络(CNN)、循环神经网络(RNN)等。

2. 分类算法分类算法是指用来建立文本分类模型的技术,主要包括以下几类:(1)朴素贝叶斯分类器:该方法基于贝叶斯定理,假设特征之间相互独立,适用于大规模分类问题。

(2)决策树:该方法采用树形结构进行分类,易于理解和解释,但容易出现过拟合。

(3)支持向量机:该方法采用间隔最大化的原则进行分类,适用于高维空间和非线性分类问题。

(4)深度学习:该方法基于神经网络,可以自动从原始数据中提取特征,并具有很强的泛化能力。

3. 语料库构建语料库是指用来训练文本分类模型的数据集,包括标注数据和非标注数据。

标注数据要求人工标注类别,通常需要大量的人工劳动力和时间成本。

非标注数据则可以通过大规模的网络爬虫收集,并通过聚类、主题模型等技术进行预处理和筛选。

4. 预处理技术预处理技术主要包括文本清洗、分词、停用词过滤、词干提取等。

文本清洗主要用于去除噪声和冗余信息,如HTML标签、URL链接等。

分词则是将文本按照一定的规则拆分成词汇或词组的过程。

停用词过滤则是去除高频无意义的词汇,如“的”、“是”等。

词干提取则是将不同形态的词汇还原为其原始形态,如将“running”还原为“run”。

5. 模型评估模型评估是指通过一些指标来评估文本分类模型的性能。

常见的评价指标包括准确率、精确率、召回率、F1值等。

其中准确率指分类器正确分类的文本数占总文本数的比例;精确率指分类器正样本分类正确的概率;召回率指正样本被分类器正确识别的概率;F1值则是精确率和召回率的调和平均值。

relief特征选择方法

relief特征选择方法Relief特征选择方法概述:在机器学习和数据挖掘领域中,特征选择是指从原始数据集中选择最具有代表性和有意义的特征子集的过程。

Relief特征选择方法是一种经典的特征选择算法,它通过计算特征之间的相关性以及样本之间的相似性来评估特征的重要性。

本文将介绍Relief特征选择方法的原理和应用,并探讨其优缺点及改进方法。

一、原理:Relief特征选择方法基于两个假设:1)一个特征对于预测目标的影响越大,其与其他特征之间的差异越大;2)在相同目标值的样本中,特征与目标之间的关系更紧密。

Relief方法通过计算特征之间的差异以及样本之间的相似性来评估特征的重要性。

具体算法步骤如下:1. 初始化特征权重向量W,以及近邻样本对之间的差异向量D;2. 对于每个样本,计算它与所有其他样本之间的差异,并更新D;3. 对于每个样本,找到它在不同类别下的最近邻样本,并更新W;4. 根据W的权重值对特征进行排序,选择前K个重要的特征。

二、应用:Relief特征选择方法在实际应用中具有广泛的应用。

例如,在文本分类中,可以利用Relief方法选择最具有代表性的特征词语,以提高分类的准确性。

在生物信息学中,可以利用Relief方法从基因表达数据中选择与肿瘤相关的基因,以研究肿瘤的发生机制。

此外,Relief方法还可以用于图像处理、信号处理等领域。

三、优缺点:Relief方法具有以下优点:1. 简单易于理解和实现;2. 在处理大规模数据集时具有较高的效率;3. 考虑了特征之间的相关性和样本之间的相似性。

然而,Relief方法也存在一些缺点:1. 由于Relief方法是基于邻近样本的,因此对噪声和不平衡数据敏感;2. 可能会选择出冗余或无关的特征;3. 在多类别分类问题中,Relief方法的效果可能不如其他特征选择方法。

四、改进方法:为了克服Relief方法的一些缺点,研究者们提出了一些改进方法。

例如,可以结合其他特征选择方法,如信息增益、卡方检验等,来提高特征选择的准确性。

文本分类的6类方法

文本分类的6类方法
文本分类在自然语言处理领域中是一个十分重要的任务,它可以用于垃圾邮件过滤、情感分析、话题分类等。

对于不同的文本分类任务,应该选择合适的方法。

本文将介绍文本分类的6类方法: 1. 基于规则的方法:这种方法是最简单的文本分类方法,通过人工设定一系列规则来进行文本分类,例如根据关键词出现次数、文本长度等特征来判断文本类别。

2. 朴素贝叶斯分类器:朴素贝叶斯是一种基于概率的分类方法,它利用贝叶斯公式计算文本属于某一类别的概率,并选择概率最大的类别作为文本的分类结果。

它的优点是训练速度快,适用于大规模文本分类。

3. 支持向量机分类器:支持向量机是一种基于最大间隔的分类方法,它通过将文本映射到高维空间来找到最优的分类超平面。

它的优点是分类效果好,适用于复杂的非线性分类问题。

4. 决策树分类器:决策树是一种基于特征选择的分类方法,它通过对文本特征进行分裂来构建树形结构,最终选择最优的分类结果。

它的优点是可解释性好,易于理解和调整。

5. 深度学习分类器:深度学习是一种基于神经网络的分类方法,它通过多层非线性变换来提取文本特征,并使用softmax函数将文本映射到类别空间。

它的优点是能够自动提取特征,适用于复杂的文本分类问题。

6. 集成学习方法:集成学习是一种将多个分类器组合起来进行
文本分类的方法,它通过投票、加权平均等方式来获得更好的分类性能。

它的优点是能够充分利用不同分类器之间的差异,提高分类准确率。

基于主题模型的中文文本分类研究

基于主题模型的中文文本分类研究近年来,随着互联网技术的飞速发展,越来越多的中文文本数据被产生和存储。

而如何对这些数据进行有效的分类和利用,已经成为一个热门的研究领域。

主题模型是一种在文本分类中被广泛应用的工具,本文将重点讨论基于主题模型的中文文本分类研究。

一、主题模型的原理和应用主题模型是一种从大量文本数据中自动抽取主题和特征的方法。

该模型通过统计学算法,将每个文本表示成一组主题含量的概率分布,从而实现文本的主题分类和相似度计算。

其中,主题是指隐含在文本背后的一些概念或话题,如“政治”、“经济”、“科技”等,它们通常是通过对文本中出现的关键词进行频率分析和聚类得到的。

主题模型的应用领域很广,比如文本分类、信息检索、文本挖掘、情感分析等。

二、中文文本分类的挑战中文文本分类相对于英文文本分类而言,具有一些独特的挑战。

首先,中文语言的词汇量很大,但是又存在很多同音异义词、多音字和词性不明确的词语,这给文本的特征提取带来了困难。

其次,中文文本中常常出现“虚词掩盖实义词”的现象,这种情况容易影响文本的语义理解和分类。

第三,中文文本中常常存在一些特殊的结构和表达方式,如配合句、短语、成语、俚语等,这些都需要进行相应的处理才能得到有效的文本特征。

三、基于主题模型的中文文本分类方法针对中文文本分类的挑战,研究者们提出了许多基于主题模型的分类方法,常见的有以下几种。

1. 文本表示将中文文本转化成结构化的数学向量,是文本分类的第一步。

在主题模型中,常用的表示方法有:词频向量、词袋模型、tf-idf模型、主题分布向量等。

其中,主题分布向量是通过对每个文本进行主题模型建模,统计每个主题在该文本中出现的概率得到的。

2. 特征选择为了避免文本表示向量维度过高和冗余,需要对其中的特征进行选择和降维。

目前常用的特征选择方法有:卡方检验、信息增益、互信息等。

3. 模型训练通过对训练集进行主题模型建模和模型参数的调整,可以得到最优的分类模型。

一种改进的文本特征选择方法的研究与设计

一种改进的文本特征选择方法的研究与设计
许高建;路遥;胡学钢;涂立静
【期刊名称】《苏州大学学报(工科版)》
【年(卷),期】2008(028)002
【摘要】特征选择是文本挖掘技术的一个重要环节.在中文分词的基础上,通过设计一个简单的应用程序,对文本进行预处理.然后,在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于信息增益和互信息相结合的特征选择方法.利用它对文本文档进行特征选择,抽取代表其特征的元数据或特征词条构成特征向量,降低噪音.最后通过实验来和其他几种特征选择方法作比较,分析这种方法获取文本特征的精度.
【总页数】5页(P18-22)
【作者】许高建;路遥;胡学钢;涂立静
【作者单位】安徽农业大学信息与计算机学院,安徽,合肥,230036;安徽农业大学信息与计算机学院,安徽,合肥,230036;合肥工业大学计算机与信息学院,安徽,合
肥,230009;安徽农业大学信息与计算机学院,安徽,合肥,230036
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种基于改进互信息和信息熵的文本特征选择方法 [J], 成卫青;唐旋
2.一种改进的文本特征选择方法的研究与设计 [J], 符会涛;卡米力·木衣丁
3.一种改进的文本特征选择方法的研究与设计 [J], 许高建;胡学钢;路遥;涂立静
4.一种改进的文本特征选择方法 [J], 孙凯;魏海平
5.一种改进的CHI文本特征选择方法 [J], 樊存佳;汪友生;王雨婷
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0 引言
文本挖掘技术作为组织和处理海量文本数据的有效技术, 近几年备受研究人员关注。文本分类作为文本挖掘中的关键 技术之一,其目的是在预定义的分类体系下,根据文本的特征 (内容或属性),将给定的文本与一个或多个类别相关联的过 程[1]。基于机器学习的文本自动分类的整体思路大致为文本 预处理、特征降维、建立文本表示模型、使用分类算法分类、分 类模型评估。
特征降维作为文本分类中的重要步骤,其目的在于提高分 类精度和分类 效 率 [2]。 文 本 通 过 预 处 理 后 变 成 由 词 项 表 示, 即为原始特征空间。该原始特征空间具有高维性和稀疏性的 特点,所存在的 问 题 是:a)分 类 时 间 开 销 大;b)过 多 的 特 征 可 能会导致维数 灾 难 [3]。 特 征 降 维,即 将 特 征 空 间 从 高 维 降 低 到低维层次,从而提高分类的准确率,降低分类的时间成本。
式[4]。其中,传统的特征选择方法有文档频率 (documentfre quency,DF)、互 信 息 (mutualinformation,MI)、信 息 增 益 (infor mationgain,IG)、卡方统计量(chisquaretest,CHI)等[5]。Yang 等人 [6]的研究结果 表 明,卡 方 统 计 量 和 信 息 增 益 的 分 类 效 果 相对较好,其结论对之后的研究具有重要的参考价值。本文主 要针对 CHI和 IG特征选择方法进行研究和分析,并提出了一 种综合考虑特征词的文档频、词频以及特征词的类间集中度、 类内分散度的特征选择方法和基于类内类间文档频和词频统 计(documentfrequencyofwithinclassandbetweenclassandterm frequencystatistics,DFCTFS)的特征选择方法。
Studyonfeatureselectionmethodintextclassification
ZhaoJing,ShaoXiongkai,LiuJianzhou,WangChunzhi
(SchoolofComputerScience,HubeiUniversityofTechnology,Wuhan430068,China)
Abstract:Thetraditionalfeatureselectionmethodofchisquaretestandinformationgainintextclassificationhasitsinherent defect.Thispaperanalyzedthekeyoffeatureselectionintextclassificationbeingtoselectfeaturewordsdistributedevenlyand frequentlyineachtypeofdocuments.Thisshouldconsidernotonlythedocumentfrequencyandterm frequencyoffeature words,butalsotheinterclassconcentrationdegreeandtheintraclassscatterdegreeoffeaturewords.Itproposedafeaturese lectionevaluationfunctionthatisbasedondocumentfrequencyofwithinclassandbetweenclassandtermfrequencystatistics. Thefeatureselectionevaluationfunctioncouldselectacertainproportionofthefeaturewordsineachcategoryofthetraining settoformthecorrespondingclassofthefeaturewordlibrary.Theentirefeaturewordlibraryofthetrainingsetcouldbecom posedbyeachofsuchclassesasaresult.ItcarriedouttheexperimentofChinesetextclassificationbasedonSVM.Theexper imentalresultsshowthattheproposedmethodimprovestheeffectivenessoftextclassificationtoacertainextent,compared withthetraditionalchisquaretestandinformationgain. Keywords:textclassification;featureselection;distribution;concentration;frequency
第 36卷第 8期 2019年 8月
计算机应用研究 ApplicationResearchofComputers
Vol36No8 Aug.2019
文本分类中一种特征选择方法研究
赵 婧,邵雄凯,刘建舟汉 430068)
摘 要:针对文本分类中传统特征选择方法卡方统计量和信息增益的不足进行了分析,得出文本分类中的特征 选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,综合考虑特征 词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计的特征选择 评估函数,并利用该特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而 训练集的特征词库则为各类别特征词库的并集。通过基于 SVM的中文文本分类实验表明,该方法与传统的卡 方统计量和信息增益相比,在一定程度上提高了文本分类的效果。 关键词:文本分类;特征选择;分散度;集中度;频度 中图分类号:TP391 文献标志码:A 文章编号:10013695(2019)08004226105 doi:10.19734/j.issn.10013695.2018.01.0078
特征降 维 包 括 特 征 选 择 (featureselection)和 特 征 抽 取 (featureextraction)[3]。特征选择,即从原始特征数据集中选择 出一部分具有代表性的特征。特征选择后得到的是原始特征 数据集的一个子集。特征抽取,即利用原始特征空间中包含的 所有信息来获得新的转换空间,从而将高维模式映射到低维模
相关文档
最新文档