基于类别区分度和关联性分析的综合特征选择

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DOI 1 .9 9 .s . 0 .4 82 1.90 6 : 03 6/i n1 03 2 .0 20 .5 js 0
l 概 述
文本 自动分类是指在预先给定的类别标记集合下 ,根据 待分类文本的内容对其类 别归属进行判定的过程。文 本特征 向量的高维性及数据 的稀疏性是文本分类的瓶颈 ,文 本特征 降维技术是文本 自动分类的核 心技术 。目前常用的特征降 维 方法有特征选择和特征抽 取。特征选择指的是在不同数据质
量要求下选取那些符合要求且彼此之 间相关联程度较 小的最
征 而 导致 的性 能 下 降 问题 。
本文提 出一种综合 的特征选择算法。首 先利用类别 区分
度提取出有强类别 区分能力的特征词 ,再通过特征 的关联性
分析、衡量特征词与类别之间 的相关性 ,即先保证 已选特征
与类别的关联性 最强 ,然后计算其他特征与已选特征之 间的 关联性 ,当某个特征与 已选特征有很高的相 关度,即使该特 征与类别具有很强的关联性 ,本文算法也不会将 其选 入特征
第3 8卷
Vo . 8 13

第9 期
No. 9






21 0 2年 5月
M a 01 y2 2
Compu e gi e i t rEn ne rng
人工智 能 及识别 技术 ・
文章编号: o _4802 争-16 文献标 10. 2( 10_ 8- 3 3 2 ) 0 . 识码:A
间的稀疏性 , 通过特征 的关联性分析衡量特征与类别的相 关性及特征之 问的冗余度 , 出具有类别代表性且相互之问不存在冗余 的特征词 。 选
实验结果表明 ,该算法能有效提 高分类器性能 。
关健诃 :文本分类 ;特征选择 ;关联性 分析 ;类 别区分度 ;相关独立度
S t x cFe t eSee to s d 0 yn a i a ur lc i n Ba e n
a de lisc reaina lsso aue om e s r eai t ewe n faue ndc tgoisa drd n a c mo gfau e, O ic na q i n mpo e or lto nay i ff tr st a uerlt yb t e e t rsa ae re n e u d n ya n e trs S t a c ur e vi e te fau e s b es h e tr u st wh c ae mo e rp ee tt e a d h v o rd n a c b t Baidu Nhomakorabea e c te.Ex ei e tlrs l h w h tte po o e ih r r e rs nai n a e n e u d n y ewe n a h oh r v p rm n a eut s o ta h r p s d s
a g rt m a mp o et e p r o a c ft e ca sfe fe t e y lo i h c n i r v e f r n eo h l s i re c i l . h m i v
[ yw r s e t aeoiao ;etr eet n c r lt naayi c t o i r nt ndge;ee a tn ee dn e e re Ke o d ]tx tg r t n faueslci ; o eai n ls ; ae r ds i ai ere rlvn dp n ec ge c zi o o s g y c mi o i d
中圈分类 T 31 号: P9
基 于 类别 区分 度和 关联 性 分 析 的综 合 特征 选择
陈建 华 ,王 治和 ,蒋 芸
( 北师范大学数学与信息科学学院 ,兰州 70 7 ) 西 30 0

要 : 出一种基于类别 区分度和关联性分析的综合特征选择 算法 。利用类别区分度提取具有较强类别 区分能力的特征词,降低特征空 提
ag rt m s sd s rmi a i n d g e o e t a tt e f au e h t e e l a g rd fe e c s a n a e o i st e u e t e s a st ff au e s a e , lo i h u e ic i n t e r e t x r c h e t r s t a v a r e i r n e mo g c t g re o r d c h p r i o e t r p c s o r l y
[ b t c]T i p p r rp ss y t i f tr sl t n a oi m b s n c eoyd ci i t nd ge ad cr l i n l i T e A s a t h a e p oe asn x a e e c o l rh a do a g r i r n i er n or a o a a s . h r s o a ce u ei g t e t s m ao e e tn ys
( olg f te t s n fr t nS i c , r wet r a U iesy L nh u70 7 , ia C l e hmai dI omai ce eNot sNo l nvri , azo 3 00 Chn ) e o Ma ca n o n h m t
Ca e o y Dic i n to g e n r ea i nAn l ss t g r s r mi a i n De r ea d Co r l to a y i
C H EN an. Ji hua W A NG . Zhihe J AN G . 。I Yun
相关文档
最新文档