判别大作业-一种基于向量空间模型和类别特征提取的Web新闻自动分类方法

合集下载

基于向量空间模型的分层网页分类方法

基于向量空间模型的分层网页分类方法
whc l s r o t e s ma t so b p g sa d ma e t e ln t ft o e v co ss o trt a e tr r s n e t r i h i c o e e n i fwe a e k gh o s e t r h r n f au e p e e tv co s s t h c n h e h e h
网页 自动 分类 系统 能够 在给 定 的分类模 型 下 ,根据 分类 方 法有 最近 邻分类 、贝叶斯 分类 、决策 树方 法
网页 内容 自动对 其分 类 , 而更 好地 帮助 人们 组织 以及 基 于支持 向量机 和 向量空 间模 型 ( etr p c 从 V c ae oS 及 挖掘 有 用信 息. 网页 自动分类 已成为 信 息处 理领 Mo e,简 称 V M) dl S 等方 法 l 中文 网 页分 类 研 究 主 1 1 .
随 着 互联 网技 术 的发 展 ,海 量 信 息 以 We b网
国 内外 的学 者 已 对 网 页 自动 分 类 做 了大 量 富
将 页格式 存 储 在 Itre 上 ,如何 从 数 以亿 计 的 网页 有成 就 的工作 , 众 多的统计 方 法和 机器 学习方 法 nen t 在英 文 网页 自动 分类 领 域 , 中发 现有 价值 的信 息 是信 息 处 理 领域 的重要 目标 . 应 用 于 自动 网页分 类 .
域 重要 的研究方 向之 一.
收 稿 日期 : 0 9 l - 1 20 一 o 2
要集 中在 朴素 贝叶斯[ ] 2 、向量 空 间模 型 和支持 向 - 3
i S .Ex rm e t e ulss w h tte hir r hca b p ge ca sfc ton m e o a d c e s a c ltng wor nV M e p i nalr s t ho t a h e a c i lwe a ls i a i t d c n e r a e c l u a i h i k

基于向量空间模型的分层网页分类方法

基于向量空间模型的分层网页分类方法

基于向量空间模型的分层网页分类方法鞠小林;陈继红;邵浩然【摘要】提出一种基于向量空间模型的多层网页分类方法.该方法用主题词、修正主题词和主题概念从3个层次构建网页表示向量,从而在概念层次上更贴近网页的语义,且向量维数低于传统的特征向量.实验结果表明,该方法降低了分类时的计算量.提高了网页分类速度和分类精度.【期刊名称】《南通大学学报(自然科学版)》【年(卷),期】2010(009)001【总页数】6页(P24-29)【关键词】向量空间模型;网页分类;特征提取;主题概念【作者】鞠小林;陈继红;邵浩然【作者单位】南通大学计算机科学与技术学院,江苏,南通,226019;南通大学计算机科学与技术学院,江苏,南通,226019;南通大学计算机科学与技术学院,江苏,南通,226019【正文语种】中文【中图分类】TP311随着互联网技术的发展,海量信息以Web网页格式存储在Internet上,如何从数以亿计的网页中发现有价值的信息是信息处理领域的重要目标.网页自动分类系统能够在给定的分类模型下,根据网页内容自动对其分类,从而更好地帮助人们组织及挖掘有用信息.网页自动分类已成为信息处理领域重要的研究方向之一.国内外的学者已对网页自动分类做了大量富有成就的工作,将众多的统计方法和机器学习方法应用于自动网页分类.在英文网页自动分类领域,分类方法有最近邻分类、贝叶斯分类、决策树方法以及基于支持向量机和向量空间模型(Vector Space Model,简称VSM)等方法[1].中文网页分类研究主要集中在朴素贝叶斯[2-3]、向量空间模型[4-5]和支持向量机等技术上.上述大多数方法采用了经典的向量空间模型,该模型是将文档的内容形式化为多维空间中的一个点,以向量的形式给出,然后通过计算向量间的距离决定文档的类属.把文档表示成VSM向量,维数很高,常达到上千甚至上万维.关键的问题就是如何降维,传统的方法是通过特征抽取和特征重构,但效果不佳.本文探讨了基于VSM用主题词向量、修正主题词向量和主题概念向量表示网页的方法,它有效地降低表示网页的向量的维数,并且在概念层次上更贴近网页的真实语义.在此基础上,提出了一种分层网页分类的方法:(1)网页训练时,按照给定的分类体系,通过网页训练,求得每类的中心主题词向量、中心修正主题词向量和中心主题概念向量,这3个中心向量分别是每个类别的所有训练网页的对应向量加权平均;(2)新网页分类时,先将新网页按VSM表示成主题词向量、修正主题词向量、主题概念的向量,然后分别计算这3个向量每个类别对应中心向量的相似度,将新网页分配给相似度高的类别.1 网页分类及其关键技术网页的自动分类是在对网页内容进行分析的基础上把网页分配给一个或多个预定的类别.网页自动分类过程如图1所示.首先对网页进行预处理,即去掉HTML中的无用标签,提取网页正文,去除禁用词、词根还原,对于正文是中文文本而言,还需要分词.接着将网页用模型表示,进行特征提取.然后通过大量训练网页构造并训练分类器.最后用分类器对新网页进行分类.图1 网页分类过程1.1 网页表示模型如何确定网页描述的内容和网页表达的主题,成为网页自动分类的一个重要问题.目前网页表示模型有向量空间模型[6]、隐性语义索引(LSI)模型[7]、概率模型[8].实际分类系统中使用得比较多的是向量空间模型,其基本思想是把文档简化为以特征项的权重为分量的向量表示:V={(t1,w1),(t2,w2),…,(tn,wn)},其中 wi为特征项 ti的权重.对于英文网页,可选取单词作为特征项;对于中文网页,可选主题词作为特征项.为处理方便,对权重作归一化处理,即特征项权重之和为1.一般情况下,利用特征项词频计算权重有TF-IDF公式其中,w(t,d)为词t在网页 d中的权重,而 tf(t, d)为词t在网页d中的词频,N为训练网页的总数,nt为训练网页集中出现词t的网页数,分母为归一化因子.网页经过预处理后进行词频统计,最终表示为式(1)表示的向量.根据TF-IDF公式,训练网页集中包含某一词条的文档越多,说明它区分网页类别属性的能力越低,其权值越小;另一方面,某一网页中某一词条出现的频率越高,说明它区分网页内容属性的能力越强,其权值越大.1.2 特征提取用上述向量空间模型表示网页,网页特征向量会达到上千维甚至上万维.因此需要通过特征提取来压缩网页特征向量维数.网页标题通常反映了网页的内容,所以应该把其中的特征项作为一类重要特征保留,仅仅这些特征信息是不够的,还需从正文内容中抽取特征信息.通常构造一个评估函数抽取正文内容的特征信息,对特征集中的每个特征进行独立的评估,每个特征项都将获得一个评估分,然后对所有的特征按照其评估分的大小排序,选取预定数目的最佳特征作为网页的特征集.最简单的评估函数是文档频率(DF),DF(ti)指的是在所有的训练网页中出现了项ti的网页数,设置2个阈值DFup、DFlower,将没有代表性以及没有区分度的(DF(ti)<DFlower或DF(ti)>DFup)特征项ti去掉.也可以利用信息增益、χ2统计量、互信息等方法进行特征提取.1.3 特征匹配与分类网页表示为向量形式并经特征提取以后,便可以进行分类了,即特征匹配.常用的分类算法有:朴素贝叶斯分类法、K-最近邻参照分类法、粗集分类法等.网页分类主要分为两个过程,首先是对一定量的网页进行特征(关键词)提取,并对初始文本进行分类,建立一个初始分类体系表.然后对新网页进行分类,根据新网页的特征来更新分类体系表.当网页分类体系一旦建立,就可以对网页进行识别归类和信息检索.2 基于VSM的多层网页分类方法传统的基于VSM表示的网页向量经特征提取后维数仍然偏高,需要进一步降维.为此,我们采用一种分层次降维的方法:首先,针对分类体系表中的每一类别建立相应的主题词表,将网页向量的特征项与相应的主题词表对比,保留主题词表中有的特征项,这样得到主题词向量表示,记为Vs;第二,考虑到网页是HTML描述的文档,其中有一些标签中的内容对网页分类有提示或指导作用,所以,应把这部分内容添加进主题词向量Vs,从而组成修正主题词向量表示,记为Vst.第三,将向量Vst中的一些主题词加以合并,形成主题概念向量表示,记为Vsc.可以基于主题词向量、修正主题词向量、主题概念向量3种网页表示实现网页分类.2.1 主题词向量表示网页经预处理、统计词频、特征提取后表示成特征项及其权重的向量,将这些特征项与预先设置的主题词表比较,把是主题词的特征项保留下来;另外,考虑到同义词和近义词,还要设置同义词表和近义词表,把不是主题词的特征项与同义词表和近义词表比较,将对应的主题词作为特征项,将原来特征项的权重乘以一个系数作为新的权重.为表达方便,定义运算符“≈”和“≡”.若a≈ b,表示a和b是近义词;若a≡ b,表示a和b是同义词.经过特征提取后的网页可以表示成向量V={(t1,w1),(t2, w2),… ,(tn, wn)},设网页要分为 M 类,每一类别人工或机器设置主题词表,每类N个主题词,记为SM×N=(sij),同时设置同义词表 ST(M*N)×K=(stij)和近义词表 SS(M*N)×L=(ssij),其中stij≡ si,ssij≈si. 主题词向量 Vs=((s1, w1),(s2, w2),… ,(sn,wn)),wi为主题词si的对应权重.算法1给出了通过遍历特征向量V,求主题词向量Vs的过程.本文中,为表达方便,我们定义插入运算符“→”,(s,w)→V表示将元素(s,w)插入到向量V中去.算法1 对网页特征向量V降维求主题词向量Vs.输入:表示网页的特征向量V=(ti,wi)同义词表 ST(M*N)×K=(stij)近义词表 SS(M*N)×L=(ssij)输出:表示网页的主题词向量Vs=((s1,w1),(s2, w2),… ,(sn,wn))(1)Vs=Ø.(2)对 V 中每一个项(ti, wi),依次按下列条件分别处理:(2.1)若ti∈SM×N∧sjk=ti,则(sjk, wi)→ Vs;(2.2)若ti∈ST(M*N)× K∧sjk∈SM×N∧sjk≡ti∧sjk∉Vs,则(sjk, wi)→ Vs;(2.3)若ti∈ST(M*N)×K∧sjk∈SM ×N∧sjk ≡ ti∧(sjk, wk)∈VS,则(sjk, wk+wi)→ Vs;(2.4)若ti∈SS(M*N)× L∧sjl∈SM×N∧sjl≈ti∧sjl∉Vs,则(sjl,ωwi)→ Vs,ω为系数;(2.5)若ti∈SS(M*N)× L∧sjl∈SM ×N∧sjl ≈ ti∧(sjl, wl)∈Vs,则(sjl,wl+ ωwi)→Vs,ω为系数.(3)输出向量Vs.算法1 得到主题词向量Vs=((s1,w1),(s2,w2),…,(sn,wn)),是对原有特征向量V进行删减操作后得到的,故Vs的维数要低于V的维数,能达到降维的目的.至此我们把网页表示由特征向量V表示转化为用维数较低的主题词向量Vs表示.2.2 修正主题词向量表示修正主题词向量是在主题词向量Vs的基础上,根据网页的结构特征,修改主题词的权重得到.网页多为HTML格式,文字、图像由各种不同的标签组织,是一种半结构化的文档.在按照网页内容进行分类的过程中,可以利用其结构特征来提取选择网页的特征描述.分析HTML网页的结构,发现有少部分标签的内容对网页分类有提示作用,如<Title>、<Meta>、<Caption>等,其余的标签则用于指示网页显示的,对网页分类无用,我们把对网页分类有提示作用的标签及对应权重集合,记为VTag=(Tagi, WTagi),其中 Tagi可以人工预先设定, WTagi可人工设定也可先人工设定再由机器学习加以调整.把Tagi标签中之间的内容用特征词表示,记为t,一个Tagi标签中之间的内容可以有多个特征词,这些特征词对应的权重等于WTagi,记为wti.这就产生了关于所有Tagi的标签特征向量,记为VT=(ti,wti).算法2遍历标签特征向量VT和前面求得的主题词向量Vs,通过判断同义词或近义词从而计算权重,对Vs的项进行调整,求得修正主题词向量Vst=((s1, wm1),(s2, wm2),…,(sn, wmn)).算法2 依据标签特征向量VT对主题词向量Vs进行调整,求修正后的主题词向量Vst.输入:标签特征向量VT=(ti,wti)同义词表 ST(M*N)×K=(stij)近义词表 SS(M*N)×L=(ssij)主题词向量Vs输出:表示网页的修正主题词向量Vst=((s1,wm1),(s2, wm2),…,(sn,wmn))(1)Vst=Ø.(2)对 VT 中每一个项(ti, wti),遍历主题词向量Vs:(2.1)若∃ti=sj∨ ti≡ sj,则 wmj=wti+wj,且(sj, wmj)→ Vst;(2.2)若∃ti ≈ sj,则 wmj=k*wti+wj,且(sj,wmj)→ Vst,k为修正系数;(2.3)若不满足 2.1, 2.2 的条件,则(tj,wtj)→Vst.(3)输出向量 Vst.2.3 主题概念向量表示修正主题词向量的特征项为主题词.研究发现,这些主题词之间存在着一定的联系,可据此将主题词适当组配,形成主题概念,可对主题词向量进一步降维,并且主题概念更为直接地反应网页的主题,从而可以提高网页分类的精度和正确率.提取形成主题概念有3种方法:(1)用2个词相加得到新词作为概念;(2)将词的上位直接作为概念;(3)通过若干意义相近词的聚类产生类中心,将类中心作为概念.每个主题概念代表一个子类,可以用主题词表示.我们在修正主题词向量Vst基础上,采用第一种方法,求得主题概念向量Vsc,过程如算法3所示,这样得到主题概念向量Vsc=((sc1,wc1),(sc2, wc2),…,(scn, wcn)),维数进一步降低,并能更直接反应网页主题,因而可以进一步提高网页分类的正确率. 算法3 扫描修正主题词向量Vst,按主题词相加的方法求主题概念向量Vsc.输入:修正主题词向量 Vst=((s1, wm1),(s2, wm2),…,(sn,wmn))输出:表示网页的主题概念向量Vsc=((sc1,wc1),(sc2, wc2),…,(scn, wcn))(1)Vsc=Ø.(2)对 Vst中每一个项(si, wmi),遍历修正主题词向量Vst中其它项目:(2.1)若存在 sj可以和 si组配形成主题概念,则sci=(si&sj) or(sj&si),wci=wmi + wmj,(sci, wci)→ Vsc;(2.2)否则将(si,wmi)→ Vsc.(3)输出向量Vsc.2.4 网页训练和分类过程基于向量空间模型的多层次网页分类过程如图2所示.具体步骤是:第1步,训练分类器,分别求得每个类别的主题词、修正主题词、主题概念的中心向量.将经过预处理后的训练网页表示成VSM的特征向量.依据主题词表、同义词表、近义词表,分别求得每一训练网页的向量Vs、Vst、Vsc,网页训练结束时,将每个网页的向量Vs、Vst、Vsc加权平均得到每个类别的主题词、修正主题词和主题概念的中心向量,分别记为 CoreVs、 CoreVst、 CoreVsc.第2步,新网页表示.将待分类网页表示成主题词、修正主题词和主题概念向量Vs、Vst、Vsc.第3步,新网页分类.从3个层次分别计算新网页向量Vs、Vst、Vsc与所有类别对应层次的中心向量的相似度,主题词层计算sim(Vs,CoreVs),修正主题词层计算sim(Vst,CoreVst),主题概念层计算 sim(Vsc,CoreVsc).可采用夹角余弦法计算相似度.求得相似度后,将新网页分配到与其相似度最高的类别.图2 多层次网页分类3 实验3.1 实验数据集说明自动分类系统的评价通常有2个重要指标:准确率和召回率[9-10],其计算公式分别为准确率和召回率反映了分类质量的两个不同侧面,两者应综合考虑.这里我们用分类精度K来衡量分类效果,其计算公式为:利用Heritrix从互联网上抓取了4 000张网页,将这些网页进行人工标注后分成以下6类:IT类、体育类、财经类、军事类、健康类和教育类.为了验证上面提取的文本特征对信任分类是否有效,在Windows 2003系统下采用Weka环境进行了实验.实验中,为提升分类器件的质量,将实际网页的70%用作训练网页,剩余的30%的网页用作测试数据.3.2 实验结果及分析实验分为4组:第一组是传统的基于特征向量的VSM分类法,用TF-IDF方法来形成类别中心向量和待分类网页的特征向量;第二组、第三组和第四组用本文提出的方法,即基于主题词向量、修正主题词向量和主题概念向量表示的分类法.实验结果如表1所示.从实验结果可以看出,本文提出的分层分类方法,随着网页表示由简单的主题词向量表示向更趋于网页语义的主题概念向量表示,网页的分类精度也得到相应的提高. 表1 网页分类的结果比较分类精度K/%类别特征向量表示法主题词向量表示法修正主题词向量表示法主题概念向量表示法IT类 72.6 80.3 82.4 87.9体育类 78.9 82.7 83.2 91.4财经类 85.3 88.9 90.2 91.1军事类 88.1 90.7 91.2 92.3健康类79.4 84.5 85.1 89.2教育类 78.5 83.4 84.6 88.74 结束语本文在分析基于向量空间模型的网页分类方法的基础上,提出用主题词向量、修正主题词向量和主题概念向量实现网页的多层表示,并给出了基于主题词向量、修正主题词向量和主题概念向量表示的多层网页分类方法.研究表明,采用多层次的网页表示方法,可有效地降低网页特征表示的维数,从而提高网页分类速度,并且使用基于主题概念向量的分类,可以明显提高网页分类的精度.下一步工作是深入研究网页中的标记对分类的提示作用,并引入超链分析技术,研究超链接对网页分类的指导作用.参考文献:[1]Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Information Retrieval and Language Processing, 1975, 18(11): 613-620.[2]Zhu Lanjuan.The theory and experiments on automatic chinese documents classification[J].Journal of the China Society for Scientific and Technical Information, 1987, 6(6):433-437.[3]魏晓宁,朱巧明.基于Na(i)ve Bayes模型的垃圾邮件过滤方法[J].南通大学学报:自然科学版, 2008, 7(1): 54-58.[4]Cao Suqing,Zeng Fuhu.A mathematical model for automatic chinese text categorization[J].Journal of the China Society for Scientific and Technical Information, 1999(1): 27-32.[5]朱华宇,孙正兴.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程, 2001, 27(2): 15-17.[6]Sahon G,McGill M J.Introduction to modern information retrieval [M].New York: McGraw-Hill, 1983.[7]Deerwestel S.Indexing by laent semantic analysis[J].Journal of the American Society for Information Science, 1990,41(6): 391-407.[8]Nicholas J B,Bruce W rmation filtering and information retrieval:two sides of the same coin[J].Communications of the ACM, 1992, 35(12): 29-38.[9]郭少友.一种基于词上下文向量的文本自动分类方法[J].情报科学, 2008,26(7): 1030-1034.[10]胡燕,吴虎子,钟珞,等.基于改进的kNN算法的中文网页自动分类方法研究[J].武汉大学学报:工学版, 2007, 40(4): 141-144.。

一种基于改进的支持向量机的多类文本分类方法

一种基于改进的支持向量机的多类文本分类方法

一种基于改进的支持向量机的多类文本分类方法
应伟;王正欧;安金龙
【期刊名称】《计算机工程》
【年(卷),期】2006(032)016
【摘要】提出了一种基于二叉树、预抽取支持向量机及循环迭代算法的改进的支持向量机(SVM)的多类文本分类方法,与现有的多类分类SVM算法相比,该方法具有较高的计算效率.给出了具体实现过程并将其用于文本分类中,实验表明该算法用于文本分类的有效性及其高效率.
【总页数】3页(P74-76)
【作者】应伟;王正欧;安金龙
【作者单位】天津大学系统工程研究所,天津,300072;天津大学系统工程研究所,天津,300072;河北工业大学,天津,300130
【正文语种】中文
【中图分类】TP183
【相关文献】
1.一种基于改进的支持向量机的两类文本分类方法的研究 [J], 应伟;王正欧;安金龙
2.基于支持向量机的多类文本自动分类方法研究 [J], 李琼;董燕燕;
3.一种改进的混合核函数支持向量机文本分类方法 [J], 刘志康
4.一种改进的支持向量机文本分类方法 [J], 李琼;陈利
5.一种基于主动学习支持向量机哈萨克文文本分类方法 [J], 古丽娜孜;孙铁利;伊力亚尔;吴迪
因版权原因,仅展示原文概要,查看原文内容请购买。

基于文本分类的新闻自动聚类技术

基于文本分类的新闻自动聚类技术

基于文本分类的新闻自动聚类技术随着互联网的不断发展,新闻信息量也越来越大,如何更好地解决信息过载的问题,让用户更快速地获取所需信息,是新闻聚类技术需要解决的一个重要问题。

而最近几年,基于文本分类的新闻自动聚类技术逐渐成为了主流的方法,有着较高的准确性和效率。

一、文本分类技术的应用文本分类技术是计算机自然语言处理领域中的一项重要技术,它的主要作用是将文本数据分为不同的类别。

将这项技术应用到新闻聚类中,可以自动将相同类别的新闻聚合在一起,提高新闻信息的管理效率。

二、文本分类技术的原理文本分类技术主要利用机器学习算法,通过分析文本中的特征,自动将文本分类。

机器学习是一种从数据中自动学习规律的方法,它可以根据输入的数据发掘特征,并自动分类。

文本分类技术中,常用的机器学习算法包括朴素贝叶斯分类、支持向量机、决策树等。

朴素贝叶斯分类是一种基于概率的算法,它假设不同特征之间是相互独立的,可以有效地处理多维文本数据,并在实践中具有较好的分类效果。

支持向量机则是一种基于几何空间的分类算法,它可以将数据映射到高维空间进行分类,能够处理更为复杂的数据结构。

三、基于文本分类的新闻自动聚类方法在将文本分类应用到新闻自动聚类中,需要先对新闻进行特征提取。

将每篇新闻转化为向量,可以方便地进行处理和计算。

目前常用的特征提取方法有TF-IDF、词袋模型等。

TF-IDF(Term Frequency-Inverse Document Frequency)表示词频–逆文档频率,是一种常用的权重算法。

它通过统计某一文档中某个词语出现的次数,以及在语料库中出现的文档数来计算一个词语在文档中的重要程度。

词袋模型则是建立在文本向量化的基础上,将所有的单词统计出现的次数并建立向量空间,将一篇文本表示为向量,每个维度代表一个单词的权重。

然后利用机器学习算法对这些向量进行分类。

这种方法简单易懂,容易实现,适合处理大规模的文本分类任务。

四、基于文本分类的新闻自动聚类的优势与传统的手动聚类相比,基于文本分类的新闻自动聚类技术具有以下几点优势。

向量检索技术

向量检索技术

向量检索技术向量检索技术是一种基于向量空间模型的文本检索方法,它通过将文本表示为向量,利用向量之间的相似度计算来衡量文本之间的相关性,从而实现高效的信息检索。

本文将从向量空间模型的基本原理、向量表示方法、相似度计算及应用领域等方面进行详细介绍。

一、向量空间模型的基本原理向量空间模型是一种用于表示文本的数学模型,它将每篇文本表示为一个向量,其中每个维度对应一个特征或词项,向量的取值表示该特征在文本中的重要程度。

基于向量空间模型,可以通过计算向量之间的相似度来度量文本之间的相关性。

二、向量表示方法在向量空间模型中,有多种方式来表示文本向量,常见的有词频表示法和TF-IDF表示法。

1. 词频表示法:将每个文本表示为一个向量,向量的每个维度对应一个词项,取值为该词项在文本中的出现频率。

2. TF-IDF表示法:TF-IDF是Term Frequency-Inverse Document Frequency的缩写,它综合考虑了词频和文档频率,能够更好地衡量词项的重要性。

TF-IDF表示法的向量取值为词项的TF-IDF值。

三、相似度计算相似度计算是向量检索技术的核心,常用的相似度计算方法有余弦相似度和欧氏距离。

1. 余弦相似度:余弦相似度是通过计算两个向量的夹角余弦值来衡量它们的相似程度,取值范围为[-1, 1],值越接近1表示两个向量越相似。

2. 欧氏距离:欧氏距离是通过计算两个向量之间的欧氏距离来衡量它们的相似程度,值越小表示两个向量越相似。

四、应用领域向量检索技术在信息检索领域有广泛应用,可以用于文本分类、文本聚类、推荐系统等任务。

1. 文本分类:通过将文本表示为向量,可以利用向量检索技术实现文本的自动分类。

例如,在垃圾邮件过滤中,可以将每封邮件表示为向量,然后计算与已知垃圾邮件向量的相似度,从而判断邮件是否为垃圾邮件。

2. 文本聚类:通过将文本表示为向量,并利用向量之间的相似度计算,可以将相似的文本聚集在一起。

基于深度学习的支持向量机特征提取方法

基于深度学习的支持向量机特征提取方法

基于深度学习的支持向量机特征提取方法深度学习和支持向量机(Support Vector Machine,SVM)是机器学习领域中两个重要的技术。

深度学习通过多层神经网络的学习和训练,能够自动地从原始数据中提取出高层次的特征表示。

而SVM则是一种用于分类和回归分析的监督学习模型,其通过寻找最优超平面来实现对数据的分类。

本文将探讨如何将深度学习与SVM相结合,以提取更有效的特征表示。

一、深度学习在特征提取中的优势深度学习通过多层神经网络的训练,能够学习到数据的非线性特征表示。

相比传统的特征提取方法,深度学习能够自动地从原始数据中提取出更具有判别性的特征。

这是因为深度学习模型具有较强的非线性拟合能力,能够通过多层次的变换将原始数据映射到更高维度的特征空间中。

这些特征能够更好地反映数据的内在结构,从而提高分类和回归任务的性能。

二、支持向量机的特征提取方法SVM在特征提取方面的优势主要体现在其对于特征选择的能力。

SVM通过寻找最优超平面,能够选择出最具有判别性的特征子集。

这是因为在SVM的优化目标中,只有支持向量才对分类决策起作用,而其他非支持向量的特征则不会对分类结果产生影响。

因此,SVM能够从原始特征中选择出最重要的特征,提高分类的准确性和泛化能力。

三、将深度学习与SVM相结合,可以充分发挥两者的优势,提取更有效的特征表示。

一种常见的方法是使用深度学习模型对原始数据进行预训练,然后将预训练得到的特征作为输入,训练SVM模型进行分类。

这种方法能够通过深度学习模型的非线性拟合能力,提取出更具有判别性的特征表示,从而提高SVM的分类性能。

另一种方法是使用深度学习模型作为特征提取器,将其最后一层隐藏层的输出作为特征输入到SVM模型中。

这种方法能够利用深度学习模型对数据的自动学习能力,提取出更具有判别性的特征表示。

同时,通过将深度学习模型的输出作为特征输入到SVM中,可以利用SVM的特征选择能力,选择出最重要的特征子集,进一步提高分类性能。

一种大规模Web文本的分类方法

一种大规模Web文本的分类方法
王海艳;曹攀
【期刊名称】《南京邮电大学学报(自然科学版)》
【年(卷),期】2016(036)004
【摘要】文中针对大规模Web文本信息的结构与内容特征提出一种高效的Web 文本分类方法.该方法主要包含3个模块:(1)针对Web长文本提出一种基于复杂网络的特征选择方法,网络中的节点对应于文本中的词条,通过节点的度与聚集系数来衡量对应词条的重要性从而选择特征词;(2)对于Web长文本,提出基于kNN的SVM决策树分类方法,将支持向量机与k最近邻相结合,并构建决策树实现层次化分类;(3)对于短文本,通过构建长文本各类别的主题词集合来引导短文本的分类,将短文本的归类问题转化为基于主题的检索问题.实验结果表明该方法在处理大规模Web文本时表现出了较好的性能.
【总页数】8页(P60-67)
【作者】王海艳;曹攀
【作者单位】南京邮电大学计算机学院,江苏南京210023;南京邮电大学计算机学院,江苏南京210023
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.一种循环卷积注意力模型的文本情感分类方法 [J], 陈千;车苗苗;郭鑫;王素格
2.一种基于词和事件主题的卷积网络的新闻文本分类方法 [J], 于游;付钰;吴晓平
3.一种基于主题模型与迁移学习的文本分类方法 [J], 包翔;汪满容;刘桂锋
4.一种基于文本特征的Android应用分类方法 [J], 王慕遥;贾鹏;刘嘉勇
5.一种基于图注意力网络的短文本分类方法 [J], 屈亮亮;侯霞
因版权原因,仅展示原文概要,查看原文内容请购买。

一种四维向量空间模型的Web新闻文本分类方法

一种四维向量空间模型的Web新闻文本分类方法
魏程;刘鲁;翟铭
【期刊名称】《网络新媒体技术》
【年(卷),期】2010(031)003
【摘要】文本分类研究逐渐成为网络文本挖掘的研究热点,针对中文文本进行自动分类的研究也在逐渐升温.针对新闻文本的特殊性,在文本分类中经典的向量空间模型的基础上,提出了一套改进的四维向量空间模型及自适应追踪策略,进而提高了新闻文本分类的效果.实验结果表明,算法可以使传统空间向量模型的分类性能由81.5%提高至92.49%,证明算法是有效的.
【总页数】5页(P58-62)
【作者】魏程;刘鲁;翟铭
【作者单位】北京航空航天大学,经济管理学院,北京,100191;北京航空航天大学,经济管理学院,北京,100191;北京航空航天大学,自动化及电气工程学院,北京,100191【正文语种】中文
【相关文献】
1.一种基于人工免疫的Web文本分类方法研究——以Web信息分类为例 [J], 何晓庆;贾钊
2.一种基于向量空间模型的文本分类方法 [J], 李雪蕾;张冬茉
3.基于向量空间模型的多主题Web文本分类方法 [J], 周炎涛;唐剑波;吴正国
4.一种基于向量空间模型的多层次文本分类方法 [J], 刘少辉;董明楷;张海俊;李蓉;
史忠植
5.一种基于向量空间模型的Web本体自动分类方法 [J], 王可
因版权原因,仅展示原文概要,查看原文内容请购买。

基于向量空间模型的科技文献自动分类研究

2 0 1 3年 1 2月
DEC.2 01 3
情 报 探 索
I n f o r ma t i o n Re s e a r c h
第1 2期 ( 总1 9 4期 )
N o . 1 2 ( S e i f a l N o . 1 9 4 )
基于 向量空 间模型 的科技文献 自动分类研究
的文献 数量 , 人 工分 类 已经 无法 满足 当前 的需 要 , 建 立 科技 文献 的 自动分 类方 法 已成为 必然趋 势 。 向量空 间模 型 ( V S M) 是 G e r a r d S a l t o n等 人 于 2 0世 纪 6 O年 代提 出的文本 表 示模 型 f 1 ] , 其 主要 思想 是 将 每 一 个 文 本 都 映 射 为 由一 组 规 范 化 正 交 词 条
Ab s t r a c t s : T h e p a p e r g i v e s a n a u t o ma t i c c l a s s i i f c a t i o n me t h o d o f s c i - t e c h d o c u me n t b a s i n g o n v e c t o r s p a c e mo d e 1 . F i r s l t y i t c o n - s t r u c t s c l a s s i i f c a t i o n r e p r e s e n t a t i v e t e x t a n d c o mp u t e s d e g r e e o f s i mi l a i r t y b e t we e n s i n g l e t e x t a n d c l a s s i i f c a t i o n r e p r e s e n t a t i v e t e x t ; t h e n i t U S e S t r a i n i n g s e t t o c a l c u l a t e me mb e r s h i p d e g r e e o f c l a s s i i f c a t i o n , S O a s t o e s t i ma t e p o s s i b i l i t y o f t e x t c l a s s i i f c a t i o n a n d r e a l i z e a u t o — ma t i c c l a s s i ic f a t i o n o f s c i - t e c h d o c u me n t . T h e p a p e r t a k e s d o c u me n t o f t h r e e d i s c i p l i n e s f o r e x a mp l e t o v e i r f y u s a b i l i t y o f t h i s me t h o d .

一种基于特征选择的入侵检测方法

一种基于特征选择的入侵检测方法崔亚芬;解男男【摘要】针对入侵检测中网络数据高维度、大规模所带来的问题,基于特征选择方法 Fisher 在网络安全数据集中的应用,提出一种基于特征选择的通用入侵检测框架。

该方法通过提取关键特征,降低安全数据的维度;采用 K 近邻方法作为分类器,验证特征选择后的检测效果。

实验结果表明,该方法能在较少特征的情况下达到较高的检测率,具有较好的可行性。

【期刊名称】《吉林大学学报(理学版)》【年(卷),期】2015(000)001【总页数】5页(P112-116)【关键词】入侵检测;Fisher 特征选择;K 近邻算法【作者】崔亚芬;解男男【作者单位】吉林省招生委员会办公室,长春 130033;吉林大学计算机科学与技术学院,长春 130012【正文语种】中文【中图分类】基础科学第 53 卷第 1 期吉林大学学报�理学版� Vol. 53No. 12015 年 1 月Journal of Jilin University � Science Edition�Jan 2015 doi�10. 13413/j. cnki. jdxblxb. 2015. 01. 24一种基于特征选择的入侵检测方法崔亚芬1 ,解男男 2� 1.吉林省招生委员会办公室,长春 130033� 2.吉林大学计算机科学与技术学院,长春 130012�摘要�针对入侵检测中网络数据高维度、大规模所带来的问题,基于特征选择方法 Fisher 在网络安全数据集中的应用,提出一种基于特征选择的通用入侵检测框架.该方法通过提取关键特征,降低安全数据的维度�采用 K 近邻方法作为分类器,验证特征选择后的检测效果.实验结果表明,该方法能在较少特征的情况下达到较高的检测率,具有较好的可行性.关键词�入侵检测�Fisher 特征选择� K 近邻算法中图分类号� TP309. 2文献标志码� A文章编号� 1671- 5489� 2015� 01- 0112- 05AnIntrusion Detection Method Based on Feature SelectionCUI Yafen 1 , XIE Nannan2� 1. Jilin Admission and Examinations Committee Office,Changchun 130033, China�2.College of Computer Science and Technology, Jilin University, Changchun 130012,China�Abstract�Thispaper concerns about the problems about processing large- scale and high dimension networkdatasets in intrusion detection. The typical feature selection algorithm Fisher was used in network security datasets, in order to reduce the dimension of features. K- nearest neighbor algorithm was used as the classify algorithm, to evaluate the detection rate. A general intrusion detection framework based on feature selection waspresented andrealized. Experiments show it has a satisfying detection accuracy with less features and agood feasibility. Key words� intrusion detection� Fisher feature selection� K- nearest neighbor algorithm收稿日期� 2014- 11- 17.作者简介�崔亚芬� 1965—�,女,汉族,副研究员,从事计算机网络信息管理的研究,E- mail� cuiyafen@ 163. com.通信作者�解男男�1987—�,女,汉族,博士研究生,从事网络信息安全的研究,E- mail�xienn1113@ 163. com.基金项目�国家自然科学基金�批准号�61103197�和吉林省重大科技专项基金�批准号� 2011ZDGG007�.入侵是指违背访问目标安全策略的行为[1].入侵检测是指通过收集操作系统、系统程序、应用程序、网络包等信息,发现系统中违背安全策略或危及系统安全的行为[2].入侵检测系统� intrusiondetection systems, IDS�基于入侵检测技术保护系统和应用的安全,通过系统检测和日志分析,检测入侵者和入侵行为,为对抗入侵提供重要信息,是保护系统和网络安全的重要措施.入侵检测技术通常分为异常入侵检测和误用入侵检测[3].异常入侵检测是指建立系统正常状态的模式,若检测出的系统状态与正常状态模式相差较大,超过了预定义的阈值,则认为系统出现了异常或被入侵�误用入侵检测是建立已知攻击的特征,根据攻击特征匹配入侵行为,能直接检测入侵.异常入侵检测适合发现未知的攻击,但定义系统的正常状态及异常阈值都较困难,且误报率较高.误用入侵检测能有效检测出已知的攻击,但对未知攻击的处理能力较差.如何在复杂的报警中区分出真正的攻击,达到较高检测率,并降低计算消耗,是本领域目前亟待解决的问题.本文研究特征选择和分类方法在网络安全数据集中的应用,并分析将 Fisher 特征选择与第53卷1期吉林大学报�理版Vol. 53Jan2015doi�,解男男1.吉林省招生委员会办公室,长春 130033� 2.吉林大学计算机科学与技术学院,长春 130012�针对入侵检测中网络数据高维度、大规模所带来的问题,基于特征选择方法 Fisher 在网络安全数据集中的应用,提出一种基于特征选择的通用入侵检测框架.该方法通过提取关键特征,降低安全数据的维度�采用 K 近邻方法作为分类器,验证特征选择后的检测效果.实验结果表明,该方法能在较少特征的情况下达到较高的检测率,具有较好的可行性.关键词�CUIYafen,XIE NannanJilinAdmission and Examinations Committee Office,Changchun 130033, China�datasets in intrusion detection. The typicalfeature selection algorithm Fisher was used in network securitydatasets,in order to reduce the dimension of features. K- nearest neighbor algorithm was used as the classifyalgorithm, to evaluate the detection rate. A general intrusion detection framework based on feature selectionwasgoodfeasibility.Keywords�intrusion detection� Fisher feature selection� K- nearest neighbor algorithm收稿日期� 2014- 11- 17.作者简介�崔亚芬� 1965—�,女,汉族,副研究员,从事计算机网络信息管理的研究,E- mail� cuiyafen@ 163. com.通信作者�如何在复杂的报警中区分出真正的攻击,达到较高检测率,并降低计算消耗,是本领域目前亟待解决的问题.本文研究特征选择和分类方法在网络安全数据集中的应用,并分析将 Fisher 特征选择与K 近邻� K- nearest neighbor, KNN�分类用于安全数据集的可行性和有效性.在 KDD 99 数据集上的实验表明,本文算法能有效减少特征维度,并且具有较高的检测率.特征选择和 KNN 算法1. 1 特征选择的概念和分类对于数据样本,采用训练数据进行分类器设计,并用分类器对待识别样本进行分类.但高维特征的数据处理较难,因此需用特征选择降低特征维度.特征选择[4]是指将一组原始特征进行筛选,挑选出最有效的特征,形成特征子集,达到降低特征空间,并具有较好区分度的目的.原始数据中并非每个特征都同等重要,关键是找到其中对分类更重要的特征,去掉不重要的特征.这一过程描述为�原始数据为 N 维特征 X = � x1, x2,…, xN�T ,从中选择出 M 个特征构成新的特征矢量 Y = � x1, x2,…, xM�T ,其中 M<N,要求选出的特征子集能达到一定的分类效果.根据评价特征子集的准则,可将特征选择分为基于距离度量、基于一致性度量、基于依赖度量、基于信息度量和基于分类误差度量 5 种[5].按照搜索策略,将特征选择方法分为基于全局最优搜索策略、基于随机搜素策略和启发式搜索策略 3 种[6].常用的分类方法是根据特征选择与分类算法的关系,分为过滤式� filter�、包裹式� wrapper�和嵌入式�embedded� 3 类.过滤式特征选择使用合适的评价准则评价特征的好坏,选择特征的过程独立完成.这种方法不能保证选出一个合适的最优特征子集,在实现中通常是给出全部特征的排序,用于分类之前的数据预处理,能快速排除非关键特征及噪声特征,从而有效缩小特征范围.包裹式特征选择的特征子集由分类器进行评价,通过特定分类器结果确定特征的优劣.包裹式特征选择的结果与对应的分类器契合度较好,能达到较高的精度.但由于需要多次分类器的迭代,计算量较大且算法复杂度较高.嵌入式特征选择将特征选择算法作为分类过程的一部分,在整个分类过程中,特征子集的评价是结合学习器进行的,因此特征子集的选择和评价完全不需人为参与,具有过滤式模型的效率和包裹式模型的精度[7].由于特征选择的优势较明显,因此其广泛应用于文本识别、入侵检测和图像识别等诸多领域[8- 10].1. 2 Fisher 特征选择Fisher 线性判别是一种可用于特征降维的方法,基本思想是通过对样本的变换,将样本投影到一条直线上,使样本的投影能很好地分类. Fisher 准则的基本理论可应用于特征选择和特征提取,即变换后的样本类间离散度达到最高,而类内的样本离散度达到最低,从而提高各类别间的区分能力[11].设训练集中类别为 c1, c2,…, cL,类别总数为 L,类内散布矩阵为 Sa,类间散布矩阵为 Sb,定义目标函数为J� w� =w T Sbw w T Saw,�1�寻找变换矩阵w = � w1, w2,…, wm� T ,使得函数 J� w�取得极大值.Fisher 特征选择通过欧式距离,定义特征在同一类别和不同类别间的类内和类间区分度.在同一特征下,类间相似度越小,类内的相似度越大,说明该特征对于分类的有效性更高,该特征也越重要.由于Fisher 特征选择在计算时需要考虑类标签,因此是有监督的方法.1. 3 K 近邻KNN 算法是一种简单有效的非参数分类方法,基本思想是在训练样本中找到测试样本的 k 个最近邻,根据这 k 个最近邻的类别决定测试样本的类别.假设样本全集对应于 n 维空间瓗n中的点,样本的最近邻根据标准欧式距离定义,将任意样本 x 表示为特征向量 x = � x1 , x 2 ,…, x m �, x i 表示样本 x 的第i个特征值,则两个样本间的距离定义为d� xi, yi� = ∑ m l = 1 � x l i - x l j �槡2 .�2�3 1 1 第1 期崔亚芬,等�一种基于特征选择的入侵检测方法K近邻�K- nearest neighbor, KNN�分类用于安全数据集的可行性和有效性.在KDD 99 数据集上的实验特征选择的概念和分类出最有效的特征,形成特征子集,达到降低特征空间,并具有较好区分度的目的.原始数据中并非每个特征都同等重要,关键是找到其中对分类更重要的特征,去掉不重要的特征.这一过程描述为�原始数据为 N 维特征 X = � x1, x2,…, xN�T,从中选择出 M 个特征构成新的特征矢量 Y = � x1, x2,…, xM�其中M过滤式特征选择使用合适的评价准则评价特征的好坏,选择特征的过程独立完成.这种方法不能保证选出一个合适的最优特征子集,在实现中通常是给出全部特征的排序,用于分类之前的数据预处理,能快速排除非关键特征及噪声特征,从而有效缩小特征范围.包裹式特征选择的特征子集由分类器进行评价,通过特定分类器结果确定特征的优劣.包裹式特征选择的结果与对应的分类器契合度较好,能达到较高的精度.但由于需要多次分类器的迭代,计算量较大且算法复杂度较高.嵌入式特征选择将特征选择算法作为分类过程的一部分,在整个分类过程中,特征子集的评价是结合学习器进行的,因此特征子集的选择和评价完全不需人为参与,具有过滤式模型的效率和包裹式模型的精度[7].Fisher 特征选择Fisher 线性判别是一种可用于特征降维的方法,基本思想是通过对样本的变换,将样本投影到一条直线上,使样本的投影能很好地分类. Fisher 准则的基本理论可应用于特征选择和特征提取,即变换后的样本类间离散度达到最高,而类内的样本离散度达到最低,从而提高各类别间的区分能力[11].J�w�=wSbwSaw,w1,w2,…,wm�使得函数 J� w�取得极大值.Fisher 特征选择通过欧式距离,定义特征在同一类别和不同类别间的类内和类间区分度.在同一特征下,类间相似度越小,类内的相似度越大,说明该特征对于分类的有效性更高,该特征也越重要.由于 Fisher 特征选择在计算时需要考虑类标签,因此是有监督的方法.3近邻KNN 算法是一种简单有效的非参数分类方法,基本思想是在训练样本中找到测试样本的 k 个最近xm, x表示样本 x 的第d�xi,yi�∑l-j槡.崔亚芬,等�一种基于特征选择的入侵检测方法基于特征选择的入侵检测方法2. 1 原理和框架将特征选择方法应用于入侵检测,解决了网络安全数据维度过高的问题,同时采用分类算法进行图 1 基于特征选择的入侵检测框架Fig. 1Intrusion detection framework based on feature selection检测,以检测率的形式给出方法性能的评价.本文提出一种基于特征选择的入侵检测框架,如图 1 所示.主要分为数据处理、特征选择和分类三部分,在数据集角度的扩展,可使方法适应于不同领域�在特征选择算法和分类算法的角度扩展,可根据实际需求,采用不同的方法,达到较高的检测率. 2.1. 1 数据处理主要包括原始数据的获取和预处理,网络安全数据集通常包含网络入侵检测系统、网络流量信息及网络与主机的交互日志等.数据格式包括特定 NIDS 定义的结构、 Pcap 和 NetFlow 等多种格式.由于数据来源复杂,格式多样,因此需要进行如数据清洗、降噪、数值化和归一化等预处理,最终形成符合一定标准的数据集.2. 1. 2 特征选择对网络安全数据维度进行处理,可采用不同的特征选择方法.过滤式方法先制定对特征的评价准则,如特征与类别的相关性,给出特征的排序,最后采用多少特征纳入分类训练,需要人工参与.包裹式模型先初始化特征子集,在与分类器的多次迭代交互中确定最终的特征子集有哪些.嵌入式模型不明显区分特征选择过程和评价过程,将特征选择作为分类的一部分. 3 种方法最终都构建出用于分类的特征子集.2. 1. 3 分类通常采用机器学习或数据挖掘中的分类算法,对安全数据集进行分类.典型的分类过程包含训练和分类两部分,先以有监督的方式训练分类器,再对测试数据进行分类.2. 2 算法实现算法 1 Fisher 特征选择.输入�样本数据集.输出�特征重要程度排序.输入数据集,计算矩阵行列数,初始化零矩阵 out. W 用于存放排序结果,计算特征数 n,类别数 m� 2�特征值从 1 到 n计算每个特征的所有数据算数平均值�类别数从 1 到 mtemp1 计算每类数据在该特征下的平均值和样本总平均值的方差,将所有类别加和,表示类间方差�temp2 计算所有类别下该特征的方差之和,表示类内方差�3�若 temp1 = 0,表示该类数据中类间特征无区分度,则 out. W� i� = 0�若 temp2 = 0,表示类内的相似度高,类间相似度不高,则该特征区分度较好, out. W� i� = 100�否则,out. W� i� = temp1 /temp2�4�将特征按重要程序降序排列�5�结束.算法 2 KNN 分类.输入�训练样本 S[ n],近邻数 k.输出�样本 x 所属的类别.1�选择 k 个样本 S[ 1]~ S[ k]作为 x 的初始近邻,计算与测试样本 x 间的距离 d � x, S[ i]�, i = 1, 2,…, k�4 1 1 吉林大学学报�理学版�第53 卷原理和框架将特征选择方法应用于入侵检测,解决了网络安全数据维度过高的问题,同时采用分类算法进行图基于特征选择的入侵检测框架Intrusion detection frameworkbased on feature selection检测,以检测率的形式给出方法性能的评价.本文提出一种基于特征选择的入侵检测框架,如图1 所示.主要分为数据处理、特征选择和分类三部分,在数据集角度的扩展,可使方法适应于不同领域�在特征选择算法和分类算法的角度扩展,可根据实际需求,采用不同的方法,达到较高的检测率.数据处理主要包括原始数据的获取和预处理,网络安全数据集通常包含网络入侵检测系统、网络流量信息及网络与主机的交互日志等.数据格式包括特定 NIDS 定义的结构、 Pcap 和 NetFlow等多种格式.由于数据来源复杂,格式多样,因此需要进行如数据清洗、降噪、数值化和归一化等预处理,最终形成符合一定标准的数据集.特征选择对网络安全数据维度进行处理,可采用不同的特征选择方法.过滤式方法先制定对特征的评价准则,如特征与类别的相关性,给出特征的排序,最后采用多少特征纳入分类训练,需要人工参与.包裹式模型先初始化特征子集,在与分类器的多次迭代交互中确定最终的特征子集有哪些.分类通常采用机器学习或数据挖掘中的分类算法,对安全数据集进行分类.典型的分类算法实现算法 1Fisher 特征选择.样本数据集.特征重要程度排序.数m�特征值从 1 到 n3�若temp1 = 0,表示该类数据中类间特征无区分度,则 out. W� i� = 0�若 temp2 = 0,表示类内的5�结束.算法 2KNN 分类.选择k个样本 S[ 1]~ S[ k]作为 x 的初始近邻,计算与测试样本 x 间的距离 d � x, S[i], i = 1, 2,…, k�4版�2�按照 d� x,A [ i]�升序排列,计算最远样本与 x 间的距离 D =max� d� x, A[ j]��, j = 1, 2,…, k�3� for � i = k + 1�i≤n� i + + �计算 A[ i]与 x 间的距离 d� x, A[ i]��if � d� x, A [ i]��< D then 用 A[ i]代替最远样本�4�按照 d� x,A [ i]�升序排序,计算最远样本与 x 间的距离 D = max� d� x, A[ j]��, j = 1,2,…, n,计算前 k 个样本 A[ i]� i = 1, 2,…, k�所属类别的概率,具有最大概率的类别即为样本 x 的类�5�结束.实验及分析3. 1 数据集 KDD CUP99 数据集是网络入侵检测的标准测试集,提供了带标记的训练数据和测试数据,用于入侵检测方法的测试及不同方法的比较.数据集的每行是由 tcpdump 采集并处理的一条记录,包含41 个特征值和 1 个攻击类型标签,特征中包含 9 种 TCP 连接基本特征, 13 种 TCP 连接的内容特征, 9 种基于时间的网络流量统计特征, 10 种基于主机的网络流量统计特征. KDD 数据集包含一个 10% 的测试集,有 494 021 条记录,本文实验采用该数据集.3. 2 实验结果分析将数据集随机分成两份,分别交叉作为训练集和测试集, 5 组特征选择结果列于表1,其中列表示加入分类模型的特征数,按 Fisher 特征选择的排序结果,逐渐加入特征,如特征 1 表示加入排序为第一的特征,特征 2 表示加入前两个特征,特征 5 表示加入前 5 个特征.各组实验结果检测率的平均值如图 2 所示.表 1 5 组特征选择结果Table 1Results of five feature selection tests实验序号特征 1特征 2特征 3特征 4特征 50. 198 77 0.767 85 0.960 04 0.984 28 0.987 90 20. 200 02 0.765 74 0.957 92 0.984 08 0.987 53 平均值0. 199 40 0.766 79 0.958 98 0.984 18 0.987 72图 2 5 组特征选择结果Fig. 2由表 1 和图 2 可见,算法在相同特征的条件下,由于样本数据量大及KNN 算法的初始化随机性,因此两次实验的检测率精度略有差别.图 2 以平均值为纵坐标,横坐标是加入算法的特征数,只参考整数的情况.算法在前 5 个特征的情况下,检测率呈持续上升趋势,说明特征选择算法能有效选择出有助于分类的特征.实验在 4 个特征和 5 个特征时,检测率变化趋势较平稳,增长较小,且此时已达到了较高的检测率 0. 987 72.因此可认为在 Fisher 的排序情况下,前 5 个特征能达到可接受的分类,相比于原始数据的 41 维特征,能有效减少计算资源.实验结果表明,将 Fisher 特征选择和 KNN分类相结合应用于入侵检测中,能达到较好的检测率,本文方法具有可行性.综上所述,本文将 Fisher 特征选择和 KNN 分类方法相结合应用于入侵检测中,提出一种通用的基于特征选择的入侵检测框架,并通过 Fisher 特征选择降低数据维度,采用 KNN 方法对数据集进行了分类.在选择 5 个特征的情况下,能达到较高的检测率.5 1 1 第按照 d�x,A升序排列,计算最远样本与 x 间的距离 D = max� d� x, A[ j]��, j = 1, 2,…, k�for+i≤n�计算 A[ i]与 x 间的距离 d� x, A[ i]��ifDthen 用 A[ i]代替最远样本�升序排序,计算最远样本与 x 间的距离D = max� d� x, A[ j]��, j = 1, 2,…, n,3.数据集KDDCUP99 数据集是网络入侵检测的标准测试集,提供了带标记的训练数据和测试数据,用于入侵检测方法的测试及不同方法的比较.数据集的每行是由 tcpdump采集并处理的一条记录,包含41 个特征值和 1 个攻击类型标签,特征中包含 9 种 TCP 连接基本特征, 13 种 TCP 连接的内容特征, 9 种基于时间的网络流量统计特征, 10 种基于主机的网络流量统计特征. KDD 数据集包含一个 10% 的测试集,有 494 021 条记录,本文实验采用该数据集.实验结果分析将数据集随机分成两份,分别交叉作为训练集和测试集, 5 组特征选择结果列于表 1,其中列表示加入分类模型的特征数,按 Fisher 特征选择的排序结果,逐渐加入特征,如特征 1 表示加入排序为第一的特征,特征 2 表示加入前两个特征,特征 5 表示加入前 5 个特征.各组实验结果检测率的平均值如图 2 所示.表5组特征选择结果0.198777678596004984289879020002765749579208平均值1994076679958981872由表 1 和图 2 可见,算法在相同特征的条件下,由于样本数据量大及 KNN 算法的初始化随机性,因此两次实验的检测率精度略有差别.图 2 以平均值为纵坐标,横坐标是加入算法的特征数,只参考整数的情况.算法在前 5 个特征的情况下,检测率呈持续上升趋势,说明特征选择算法能有效选择出有助于分类的特征.实验在 4 个特征和 5 个特征时,检测率变化趋势较平稳,增长较小,且此时已达到了较高的检测率 0. 987 72.因此可认为在Fisher 的排序情况下,前 5 个特征能达到可接受的分类,相比于原始数据的 41 维特征,能有效减少计算资源.实验结果表明,将 Fisher 特征选择和 KNN综上所述,本文将 Fisher 特征选择和 KNN 分类方法相结合应用于入侵检测中,提出一种通用的基于特征选择的入侵检测框架,并通过 Fisher 特征选择降低数据维度,采用 KNN 方法对数据集进行了分类.参考文献[1]Anderson JP. Computer Security Threat Monitoring and Surveillance[ EB/OL]. 1980- 02- 06. http� //csrc. nist. gov/publications/history/ande80. pdf.[2]卿斯汉,蒋建春,马恒太,等.入侵检测技术研究综述[ J].通信学报,2004,25� 7�� 19- 29.� QING Sihan, JIANG Jianchun,MA Hengtai,etal. Research on Intrusion Detection Techniques� A Survey[ J]. Journal of China Institute of Communications, 2004, 25� 7�� 19- 29.�[3]Kumar S. Classification and Detection of Computer Intrusions [ D ]. West Lafayette� Purdue University, 1995.[4]王娟,慈林琳,姚康泽.特征选择方法综述[ J].计算机工程与科学,2005,27� 12�� 68- 71.� WANG Juan,CILinlin, YAO Kangze. A Survey of Feature Selection [J]. Computer Engineering & Science,2005,27 � 12��68- 71.�[5] LIU Huan,YU Lei. Toward Integrating Feature Selection Algorithms for Classification and Clustering[J]. IEEETransactions on Knowledge and Data Engineering, 2005,17� 4�� 491- 502.[6]毛勇,周晓波,夏铮,等.特征选择算法研究综述[ J].模式识别与人工智能,2007,20� 2�� 211- 218.MAO Yong, ZHOU Xiaobo,XIA Zheng,et al. A Survey for Study of Feature Selection Algorithms [ J]. PR & AI,2007, 20� 2��211- 218.�[7]Guyon I, Elisseeff A. An Introduction to Variable and Feature Selection [ J]. Journal of Machine Learning Research,2003,3�1157- 1182.[8]徐燕,李锦涛,王斌,等.基于区分类别能力的高性能特征选择方法[ J].软件学报,2008,19� 1�� 82- 89.� XU Yan, LI Jintao,WANG Bin,et al. A Category Resolve Power- Based Feature Selection Method [ J]. Journal ofSoftware, 2008, 19� 1�� 82- 89.�[9]宋国杰,唐世渭,杨冬青,等.基于最大熵原理的空间特征选择方法[ J].软件学报, 2003, 14� 9�� 1544- 1550.SONG Guojie,TANG Shiwei, YANG Dongqing, et al. A Spatial Feature SelectionMethod Based on Maximum EntropyTheory [ J]. Journal of Software,2003, 14� 9�� 1544- 1550.�[ 10]何径舟,王厚峰.基于特征选择和最大熵模型的汉语词义消歧[ J].软件学报,2010,21� 6�� 1287- 1295.� HE Jingzhou, WANG Houfeng. Chinese Word Sense Disambiguation Based on Maximum Entropy Model with FeatureSelection [ J]. Journal of Software, 2010, 21� 6�� 1287- 1295.�[ 11]程正东,章毓晋,樊祥,等.常用 Fisher 判别函数的判别矩阵研究[ J].自动化学报, 2010, 36� 10�� 1361- 1370.CHENG Zhengdong,ZHANG Yujin,FAN Xiang,et al. Study on Discriminant Matrices of Commonly- Used FisherDiscriminant Functions [ J]. Scta Automatica Sinica, 2010, 36� 10�� 1361- 1370.��责任编辑�韩啸�6 1 1 吉参考文献卿斯汉,蒋建春,马恒太,等.入侵检测技术研究综述[ J].通信学报,2004,25� 7�� 19- 29.� QING Sihan,JIANG Jianchun,MA Hengtai,et al. Research on Intrusion Detection Techniques� A Survey [ J]. Journal of ChinaInstitute of Communications, 2004, 25� 7�� 19- 29.�68- 71.�[5]LIUHuan,YU Lei. Toward Integrating Feature Selection Algorithms for Classification and Clustering [J]. IEEEXUYan, LI Jintao,WANG Bin,et al. A Category Resolve Power- Based Feature Selection Method[ J]. Journal of10]何径舟,王厚峰.基于特征选择和最大熵模型的汉语词义消歧[ J].软件学报,2010,21� 6�� 1287- 1295.HEJingzhou,WANG Houfeng. Chinese Word Sense Disambiguation Based on Maximum Entropy Model with Feature11]程正东,章毓晋,樊祥,等.常用 Fisher 判别函数的判别矩阵研究[ J].自动化学报, 2010, 36� 10��1361- 1370.责任编辑�韩6【文献来源】https:///academic-journal-cn_journal-jilin-university-science-edition_thesis/0201249906893.html【相关文献】1.基于特征选择的入侵检测方法 [J], 刘永芬2.基于特征选择的无监督入侵检测方法 [J], 吴剑3.基于特征选择的网络入侵检测方法 [J], 戴远飞,陈星,陈宏,叶靓,林俊鑫,郭文忠4.基于特征选择和支持向量机的入侵检测方法 [J], 彭小金,武小年5.一种快速特征选择方法及其在入侵检测中的应用 [J], 陈铁明,马继霞,蔡家楣。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

其中,������_idf������ 表示某类中关键词������������ 的idf值, ������_������������表示每个类中关键词������������ 的tf值之和。 相比传统的tf − idf值,这里的������_tf������ 的定义没有太大变化,只不过把词数之比换成了词 权重之和的比,加入了词权重的影响。 而tf − idf值相比传统计算公式有较大改动。试想这样一种情况:A 词和 B 词在文章 1 中出现的频率相同且较大;A 词在其它文章中出现的频率很大,B 词在其他文章中都只出现 1 次。按照原有的方法,在文章 1 中,A 词和 B 词的tf − idf值将会是一样的,而显然 A 词 表达文章 1 的重要程度不及 B 词。而通过我们重新定义的方法,这种问题则可以得到有效 改善。部分关键词在所有一级类目中的tf − idf值如下:
表 3 样本标题分词结果示例
2 设置词权重并合并关键词
对于新闻来讲,能够表达新闻内容的关键词来自新闻标题和正文,但是来自标题和正 文的词的重要程度是不同的。 标题是一篇新闻的眼睛, 是决定读者是否阅读一条新闻的重要 依据, 很明显标题中的词语更为重要, 因此需要对标题中的词语和正文中的词语设置不同的 权重。本次研究将标题中词语的权重设为 1.0,将正文中词语的权重设为 0.1,这样的设置方 法或许不一定合理, 但是可以通过多次更改权值, 对比每次更改权值后的测试结果确定一个 较优的分配方式。 在对词语设置不同的权值后,需要合并来自标题和来自正文的关键词,合并的方法就 是将同一关键词的各个权值相加, 例如关键词 “手机” 在标题出现 2 次, 在正文出现 10 次, 那么手机的最终权重就是 2*1.0+10*0.1=3.0。
一种基于向量空间模型和类别特征提取的 Web 新闻自动分类方法
王某某
(北京航空航天大学计算机学院北京 100191)1
摘要:互联网时代,网络信息呈几何级数激增,对 Web 新闻的分类提出了更高的要求,即要求能够快 速、准确地对 Web 新闻进行分类。本文通过改进tf − idf算法,提出了一种基于向量空间模型和类别特征提 取的文本分类方法, 并对 Web 新闻进行了两级类目 (5 个一级类目, 36 个二级类目) 分类; 通过多次测试, 确定了类别特征提取的最佳维度,通过降低新闻关键词向量的维度,一定程度上改善了交叉类别的分类效 果,从而实现 Web 新闻的高效自动分类;最后,通过交叉验证法对分类的效果进行了评价,结果表明本方 法在一级类目的分类上有较高的准确率(平均准确率为 86.92%) , 而在二级类目的分类上效果不够理想 (平 均准确率为 58.58%) 。 关键词:文本分类向量空间模型特征提取中文分词余弦相似度
3 / 13
1 中文分词
本次研究采用国内最好的中文分词系统 ICTCLAS,ICTCLAS 是中国科学院计算技术 研究所经过多年探索研究后所开发的一个汉语词法分析系统, 分词精度达到 98.45%[2]; 该系 统还允许用户导入外部词典,以进一步提高分词的准确性。 我们在 java 程序中导入官方的 ICTCLAS 包,并导入自己建立的词典、同义词表和停 用词表,对新闻的标题和正文进行了分词,部分标题最终分词结果如表 3 所示:
二、数据集 1 数据来源
本次研究选定了中新网[5]IT、财经、教育、军事、娱乐等 5 个一级类目以及这 5 个一级 类目下总计 36 个二级类目(各个一级类目以及二级类目的信息见表 1) ,通过编写 java 网页 爬虫抓取新闻,在每个二级类目下最多各抓取 500 条,抓取新闻的数据项包括新闻标题、新 闻内容、新闻发布时间、一级类目、二级类目、编辑、网址,最终共抓取到新闻 15951 条。 (抓取部分结果见表 2,每类新闻数量统计见表 1) 。
3 选择关键词,构成文本向量
有关研究表明,30%的关键词就足以有效地代表文本[6],在文本关键词很多的情况下, 可以采用这样的方法有效地降低向量的维度数。在新闻文本中,关键词的数量不是很多,为 此我们保留所有关键词, 按照关键词权重进行降序排序, 最终每篇新闻可以用如下形式表示: ITem������ = { ������1 , ������1 , ������2 , ������2 , … , ������������ , ������������ , … , (������������ , ������������ )} 其中,ITem������ 表示第 i 篇新闻, ������������ , ������������ 中������������ 表示该新闻的第j 个关键词,������������ 表示第j 个关 键词的权重,部分新闻向量化结果如下(对于关键词较多的样本,只列举出了比重前九位的 部分) :
1 改进������������ − ������������������算法
传统的tf − idf算法用于表示词汇对于某特定文本的重要程度,我们可以将这样的概念
5 / 13
借鉴到词汇对特定类别的重要程度中, 改进的tf − idf算法就是用来选出那些对于特定类别比 较重要的关键词。在词汇对特定类别重要程度中,tf值我们用c_tf表示,idf值我们用 c_idf表 示。 对于c_tf值,我们定义如下计算公式: ������_tf������ = ������������ ������
2 / 13
表 1 中新网一、二级类目下样本抓取数量表
表 2IT 类样本抓取部分结果示例
2 训练集和测试集的选取
本研究通过交叉验证法来评价分类结果, 为此现将数据集分为训练集和测试集。 训练集 是用来训练(构建)模型的数据集,测试集则是在模型构建结束后用来测试模型性能的数据 集。 训练集和测试集共同构成了数据集。 本次研究在每个二级类目下随机选取 80%的新闻作 为测试集,剩余 20%的新闻作为测试集。在完成新闻自动分类之后,通过交叉验证方法对分 类效果进行评价。
三、新闻文本向量化
文本额分类不同于简单的数字分类,需要先对文本进行预处理,将文本转化为数字向 量。 为了能够完成类别特征提取以及后期的新闻自动分类, 首要的工作就是将新闻文本转化 为由带有权重的关键词构成的向量, 也就是文本处理领域常用的向量空间模型。 文本向量化 一般包含如下三个步骤: 1、中文分词(包括文本分词、去除停用词、替换同义词等) ; 2、设置词权重,合并关键词; 3、选择带权重的关键词,构成文本向量。
1
作者简介:王某某,北京航空航天大学研究生邮箱:bnuwjx@。 1 / 13
疏、数据噪音等问题,致使文本分类效果较差。因此,在文本分类前,有必要对文本的原始 特征进行降维处理[4]。关于向量降维的方法,潘正高等人[4]在他们的论文中运行了一些常用 的算法,并在此基础上提出了基于命名实体的降维方法。 下文由如下几部分构成: 第二部分介绍了本次研究的数据集,包括新闻来源、新闻特征项以及训练集和测试集 的选取方法; 第三部分介绍了新闻文本向量化的过程,主要包括中文分词、设置词权重、选择关键 词构成新闻关键词向量; 第四部分详细介绍了类别特征提取的方法:在改进的tf − idf算法的基础上,不断修改 类别特征的维度,结合测试结果确定最佳维度; 第五部分介绍了一级类目和二级类目的分类方法及测试结果,并通过降低文本关键词 的维度改善了交叉类别的分类效果; 第六部分介绍了本次研究的创新及不足之处; 最后在第七部分对未来的研究加以展望。
一、研究背景
随着国际互联网的高速发展,网络信息呈几何级数激增,CNNIC 在其 2015 年 1 月发布 的《第 35 次中国互联网络发展状况统计报告》中显示:截至 2014 年 12 月,中国网站数量已 达到 335 万个,年增长率为 4.6%;中国网页已达到 1899 亿个,年增长率为 26.6%[1]。如何 将海量的网页信息进行合理的组织, 从而帮助网络用户更好的利用互联网资源, 是一个亟待 解决的问题。 在网页信息中,有一类非常重要的信息,那就是 Web 新闻。随着信息存储技术和网络 通信技术的飞速发展,互联网已经成为人们获取新闻信息的重要渠道[2],同时也已成为最为 方便的渠道。 当今社会的每时每刻都会出现大量的新闻, 这对用户选择自己喜欢的或有价值 的新闻造成了困难,因此必须对新闻进行合理的分类。但基于网络新闻信息量大,杂乱无章 的特点[2],传统的人工分类方式,不仅耗费大量的人力和金钱,同时也需要大量的时间。因 此有必要借助技术手段来解决新闻分类的问题, 以提高工作效率[3], 文本分类技术应运而生。 所谓文本分类技术, 就是机器学习人工事先制定的规则, 再根据规则对给定的文本进行自动 的归类。 目前已有的文本分类方法基本都是采用基于词语为特征项的向量空间模型[4]。 向量空间 模型就是通过选择若干带有权重的关键词构成的向量来表示一篇文章的主要内容, 但是它有 一个最大的缺陷,就是向量的维度难以控制,有的文章可能需要用成百上千的关键词表示, 有的文章可能只需要几十个甚至几个关键词就能被概括。 文本向量的高维度容易导致数据稀
其中, ������_tf������ 表示某类中关键词������������ 的tf值, ������������ 表示该类中每篇文章中关键词������������ 的权重������������ 之 和, ������表示该类中所有关键词的权重之和。 对于c_tf值,我们定义如下计算公式: ������_idf������ = ������_������������������ ������ _������������
表 5 部分关键词在五个一级类目中的tf − idf值
对于某个一级类目下的关键词在每个二级类目中tf − idf的值可以用同样的方法算出, 这里不 再赘述。
2 选择类别特征关键词
由于每个类别下都有几千个关键词,类别特征向量维度较高,容易造成数据噪音等问 题,因此降低关键词向量的维度迫在眉睫。一个最直接的方法就是根据前面计算的 tf-idf 值 进行筛选。在实际操作中,我们分别测试了下列几种情况得到的类别特征的分类效果,以此 确定了类别特征提取的最佳维度:
相关文档
最新文档