国内外文本分类研究计量分析与综述
文本分类中特征选择方法的研究与比较

( J = 1 2
2 2
() 6
其他抽取特征项的算法 , 除判断函数上有所差 别, 主要 过 程类似 。
1 3 分 类算 法 .
M(c一∑P i g I,) t () CI o
( 2 )
其 中 , t C ) 特 征 项 t出 现 在 类 C 中 的 概 P( l i为 i 率 , t定 义 为 t出现 的概 率 , C) 义 为 类 别 C P() P( i定 i 的 概率 。 +可 以用 下 面 的 式子 来 近 似 表 示特 征 项 t 和类 C之 间 的互 信 息 :
x(,) 。tc = NX ( D-C A B 2 )
训练方法和分类算法是分类系统 的核心部分 , 目前存在多种基于向量空间模型的训练算法和分类 算 法 , 如 , 持 向 量 机 ( VM ) 法 、 例 支 S 算 K一 邻 近 ( KNN) 贝 叶斯 方 法 等 现 有 的 分 类 技 术 主 要 是 基 和 于 统计 理 论 和 机 器 学 习方 法 的 , 比如 Nav a e ieB ys 是基 于两 项 假设 之 上 的 一种 概 率 分类 模 型 , 要 求 其 所有 词在 文 本 中 出现 的 概率 是 相 互独 立 的 , 文 档 且 的类别 同 长度无 关 , 在实 际应用 中的效 果也不 稳 定 。 KNN 方 法是 一 种 基 于 要 求 的 或 懒 惰 的学 习 方 法 , 虽然分类效果较好, 但分类时间是非线性的 , 而且当 训 练文 档 数增 加 时 ,其分 类 时 间将急 剧增 加 。支 持 向 量 机 (VM) 据 统 计 学 习理 论 提 出 的一 种 新 的 S 根 机器 学 习方 法 , 它是 对 结 构 风 险最 小 化 归纳 原 则 的 近 似 。其特 点是 具有 出色 的学 习性 能 , 只需较 少 的 样本就 可 以迅速 训 练 出具 有 相对较 高性 能指 标 的分 类器 , 被公 认为 一种 较理 想的 方法 。 1 3 1 支 持 向量机 算法 ..
政策文本量化研究的综述与展望

2020-09-28中国科学院文献情报能力建设专项"科技知识服务大数据基础”(项目编号:Y9290002}。
郑新曼(1996-),女,硕士研究生,研究方向:情报理论与方法 董瑜(1971-),女,研究馆员,硕十生导师,研究方向:科技政策战略情报研究2021年2月第41卷第2期现代情板Journal of Modern InformationFeb., 2021Vol.41 No. 2研究综达与前沿进展政策文本量化研究的综述与展望郑新曼h 2董瑜(1•中国科学院文献情报中心,北京100190;2.中国科学院大学经济与管理学院图书情报与档案管理系,北京100049)摘要:[目的/意义]政策文本量化是一种新兴的跨学科研究方向,本文从文本数据与分析方法融合的角度,系统梳理了政策文本量化研究的最新进展,以指导政策文本量化分析实践:[方法/过程]基于文本量化的 不同方式,将现有研究方法归纳为政策计量分析、内容分析法和效词分析法,分别总结了这些方法的特点、流程 及典型应用。
[结果/结论]政策文本量化研究近年来发展迅速,集中体现在文本数据类型拓展、多领域方法迁 移与应用,其中效词分析法应用逐渐广泛;未来应关注政策文本数据源和语料库建设以及方法的误差研究。
关键词:政策文本;定量分析;文本量化;文本分析D 0I : 10.3969/j .issn .1008-0821.2021.02.018〔中图分类号〕G 203〔文献标识码〕A〔文章编号〕1008-0821 (2021) 02-0168-10Review on Quantitative Analysis of Political TextsZheng Xinman 12 Dong Yu 1,2*(1. National Science Library , Chinese Academy of Sciences , Beijing 100190,China ;2. Department of Library , Inform ation and Archives Management , School of Economics and Management ,University of Chinese Academy of Sciences , Beijing 100190,China )Abstract : [ P u rp o s e /S ig n ific a n c e ] T h e q u a n tita tiv e an aly sis of p o litic a l te x ts is a n e m e rg in g in te rd is c ip lin a ry r e se a rc hd ire c tio n . F ro m th e p e r s p e c tiv e of th e in teg ra tio n o f tex t d a ta a n d a n a ly s is m e th o d s , th is p a p e r sy s te m a tic a lly su m m a riz e s th e la te s t d e v e lo p m e n ts in th e q u a n tita tiv e r e s e a rc h of p o litic a l t e x t s , a im in g to su p p o rt p r a c tic a l g u id a n c e fo r fu tu re re s e a r c h .[M e th o d /P r o c e s s ] T h re e m a in q u a n tita tiv e m eth o d s w ere su m m a riz e d in th e d iffe re n t w ay s of how p o litic a l tex tsw ere co n v erted in to d a t a ,th e n c o n c lu d e d th e ir p r o c e s s , c h a ra c te ristic s a n d re s e a rc h ta s k s .[ R e s u lt/C o n c lu s io n ] T h e q u a n ti ta tiv e r e se a rc h o f p o litic a l te x ts h a s d e v e lo p e d ra p id ly in re c e n t y e a r s , w h ic h m a in ly s tu d ie d th e e x p a n sio n o f d a ta r e so u rc e s ,a p p lic a tio n o f m u lti-d o m a in m e th o d s , a n d th e to k en izatio n m e th o d b e c a m e in c re a sin g ly p o p u la r . In th e f u tu r e , re s e a rc h e r s c a n p a y m o re a tte n tio n to a d o p tin g m o re d a ta so u rc e s for p o licy r e s e a r c h , th e c o n s tru c tio n o f p o litic a l te x ts c o r p u s a n d v a lid a tio n o f m e th o d s .Key words : p o litic a l t e x t s ; q u a n tita tiv e a n a ly s is ; text a s d a t a ; te x t a n a ly s is政策文本是政策存在的物理载体,是政府政策 行为的反映,也是记述政策意图和政策过程的客观 凭证[1],因此政策文本研究是追溯和观察政策过 程的一个重要途径。
文本分类概述

文本分类概述第一章绪论1.1研究背景当今的时代,是一个信息技术飞速发展的时代。
随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。
据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。
80年代每年全世界发表的科学论文大约500万篇,平均每天发表包含新知识的论文为1.3万-1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。
近二十年来,每年形成的文献资料的页数,美国约1,750亿页。
另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。
据说,一位化学家每周阅读40小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。
而2005年的资料显示[2],进入20世纪后全世界图书品种平均20年增加一倍,册数增加两倍。
期刊出版物,平均10年增加一倍。
科技文献年均增长率估计为13%,其中某些学科的文献量每10年左右翻一番,尖端科技文献的增长则更快,约2-3年翻一番。
同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。
据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。
在我国,中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的159,460,056个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。
从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋里!然而信息的极大丰富并没有提高人们对知识的吸收能力,面对如此浩瀚的信息,人们越来越感觉无法快速找到需要的知识。
这就是所谓的“信息是丰富的,知识是贫乏的”。
如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务,一直是当前信息科学和技术领域面临的一大挑战。
基于文献计量的中国图书馆法研究综述

的研 究 。
文章数量 4 4
6
笔 者 对 表 3论 文 主题 方 向进 行 统 计后 发 现 , 大
量 学者 的研 究方 向为 中 国图 书 馆 法 的立 法 文 本 , 即 图书馆 法 的主要 概 念 、 法 的基 本 原 则及 立 法 的 主 立 要 内容 等 。此外 , 有 大 量 文 章 研 究 图 书馆 法 的发 也
中 图分类 号 : 2 9 2 G 5 .0 文献 标识码 : A 文章 编号 :0 4— 6 0 2 1 )4— 0 2— 3 10 18 (02 0 0 1 0
近 年来 , 国学者 研 究 图 书 馆法 领 域 的论 文数 我
行二 次检 索 , 有关 中 国图 书 馆法 方 面 的文 章 进行 对 分类 统计 , 除无关 项 和 讨 论 外 国图 书 馆法 的论 文 去 后共 检 出相 关 文 献 6 7篇 ( 能有 漏 检 的情 况 ) 时 可 , 间分布 为 19 9 5年 至 2 1 0 1年期 间 。
论文 研究 的主要 载体 。通 过对 表 2主要 期 刊载 体进 行数 据统 计 后 , 出的结 果是 《 书情 报工 作 》 《 得 图 、 晋
图学刊》 《 、江西 图书馆学 刊》 《 、 图书馆 》 《 、 农业 图 书情报学刊》 《 、 图书与情报》 《 、河南图书馆学刊》 刊
载 的主题 论文 数量 在 3篇 及 以上 。
载体类型 图书情 报类 期刊
大 学 学 报 类 期 刊
增长, 与此 同时还会 有 大 量 学 者 从 立法 的各 个 方 面 为“ 中国图书馆 法 ” 的早 日出台奉献 自己 的力 量 。 12 中国图 书馆 法 主题论 文载 体分 布 .
政策文本量化研究综述

政策文本量化研究综述
汪大锟;化柏林
【期刊名称】《科技情报研究》
【年(卷),期】2023(5)1
【摘要】[目的/意义]借助信息技术手段,对政策文本进行量化分析是一个新兴的跨学科研究方向。
[方法/过程]本文从数据源、方法和应用3个维度,系统梳理了政策文本量化研究的当前进展。
总结了政策文本的元数据与数据源分布,在方法层面分为内容分析法、文献计量方法和文本挖掘方法 3类,在政策文本挖掘应用方面主要有政策主题挖掘、政策目标工具挖掘、政治立场分析、发布机构分布与政策扩散研究。
[结果/结论]未来应更加注重对于政策内容的挖掘,并与计量分析研究相结合。
【总页数】14页(P92-105)
【作者】汪大锟;化柏林
【作者单位】北京大学信息管理系
【正文语种】中文
【中图分类】G322.0
【相关文献】
1.政策文本量化研究的综述与展望
2.政策工具视角下我国青少年体质健康政策文本量化研究——以2000年以后37部国家级政策文本为例
3.政策工具视角下我国研究生教育政策文本分析——基于220份研究生政策文本的量化研究
4.政策工具视角下我国养老服务政策文本量化研究--基于2008-2021年的国家政策文本
5.我国
疫苗管理政策文本的量化研究——基于政策工具、政策主体、政策落点的文本分析
因版权原因,仅展示原文概要,查看原文内容请购买。
总结归纳文献

总结归纳文献近年来,随着社会的发展和科技的进步,文献资源的数量和种类不断增加。
对于研究者而言,如何有效地总结和归纳这些文献成为一项重要的任务。
本文将讨论几种常见的总结归纳文献的方法,并探讨它们的优劣和适用场景。
一、文献综述法文献综述法是最常见和传统的一种总结归纳文献的方法。
它主要通过查阅、筛选和整理大量相关文献,然后进行专题或主题的总结和综合。
文献综述法主要适用于对某一领域或问题进行全面、系统地梳理和分析的情况。
该方法的优点在于能够提供较全面的研究背景和研究现状,有助于发现已有研究的不足和重点研究方向。
然而,由于综述过程中需要进行大量的文献筛选和整理,所以耗时耗力,容易遗漏或造成个人主观偏向。
二、引用网络法引用网络法是一种基于文献引用关系进行总结归纳的方法。
它主要通过分析和挖掘文献中的引用关系,找到文献之间的联系和相关性。
引用网络法主要适用于对某一特定研究领域或研究问题进行深入、精确地了解和分析的情况。
该方法的优点在于能够发现文献之间的研究路径和思想演进,有助于找到优秀论文和研究方向。
然而,由于仅仅依靠文献的引用关系进行总结归纳,容易忽略其他重要的研究内容和文献。
三、主题模型法主题模型法是一种基于机器学习和文本挖掘的方法。
它主要通过对文献进行计算和分析,提取文献中的主题信息和关键词,然后进行聚类和分类。
主题模型法主要适用于对大规模文献进行主题发现和知识发现的情况。
该方法的优点在于能够自动化地进行文献分析和总结归纳,提高工作效率。
然而,由于主题模型法依赖于文献中的关键词和主题提取,对于某些领域或问题可能存在一定的局限性。
四、计量分析法计量分析法是一种基于统计和数学的方法。
它主要通过量化和分析文献中的数据和指标,找到规律和趋势。
计量分析法主要适用于对科研发展趋势和研究热点进行分析和预测的情况。
该方法的优点在于能够客观地进行文献分析和总结归纳,提供定量化的证据和结论。
然而,由于计量分析法依赖于数据和统计方法,对于某些不易量化的研究领域可能存在一定的限制。
计量文体学在文本分析中的应用

计量文体学在文本分析中的应用作者:郭丽萍来源:《教育教学论坛》2014年第19期摘要:区别于传统文体分析的主观性,计量文体学基于语料库的研究,以计量的方式定量地分析文本。
本文通过展示计量文体学在判定作家文体风格、确定作品的作者身份、了解小说主题及情节发展和翻译研究中的应用,以突显计量文体学在文体分析中不可替代的作用。
由于研究方法不够系统、研究体裁过于单一、计量软件有待升级等等原因,计量文体学还未受到广泛关注,但是作为与前沿科技相结合的一种新的文体研究方法,计量文体学必然会在文体研究中发挥巨大作用。
关键词:传统文体分析;计量文体学;定量;文体研究中图分类号:G642.4 文献标志码:A 文章编号:1674-9324(2014)19-0179-02文体学与计算机相结合产生了计量文体学,Leech和Short早就认为文体学需要统计这种定量分析来获得客观的分析结果,以支撑对文学语篇文体特征的主观判断(McEnery & Wilson,2006:117)。
对文学语言特征的定量研究其实早在20世纪40年代就开始了。
Enkvist也曾认定文体特征具有统计学原理。
他认为文体标记在不同文本内出现的密度显著不同,这就是语言文体学被称为定量科学的原因(桂诗春,2005:133)。
语料库是由从具有代表性的语言材料中随机抽样输入计算机的大量文本组成的。
(杨惠中,2004)。
Word Smith是一款计量文体学必备的、功能非常强大的语料库软件,由利物浦大学的Dr. Mike Scott开发,在计量文体学研究中发挥着重要作用。
计量文体学在文本分析中的应用及局限性如下:1.判定作家文体风格。
计量文体学基于语料库这方面的研究,量化出作品的词频、语序等,进而评定该作家的文体风格。
例如,在研究Swift的散文时,就以Swift文章中联接词出现的频率与Addison、Johnson和Macaulay文章中联接词出现的频率加以比较:Swift的文章使用联接词的频率最高,说明他的文章的逻辑性最强。
文献计量学方法

03
文献计量学在科学研究中 的应用
学科发展评估
学科发展趋势分析
通过分析特定学科领域内的文献 发表情况、引用频次、关键词等 数据,评估学科的发展趋势和未 来发展方向。
学科交叉融合研究
利用文献计量学方法分析不同学 科领域之间的交叉融合情况,揭 示学科交叉对创新发展的影响。
学科结构优化建议
基于文献计量学分析结果,为学 科结构的优化提供建议,促进学 科的均衡发展。
总结词
通过共词网络分析,探究某领域内关键词之 间的关联和结构。
详细描述
利用文献计量学方法,对某领域的大量文献 进行关键词提取和共词分析,构建共词网络 ,探究关键词之间的关联和结构,从而揭示
该领域的研究重点和主题分布。
案例三:某期刊的质量评价与影响因子预测
总结词
通过文献计量学方法,评价某期刊的质量和预测其影响 因子。
共词分析法
总结词
通过分析同一篇文献中词汇或短语共同 出现的情况,揭示学科领域内主题间的 关系。
VS
详细描述
共词分析法是文献计量学中的一种重要方 法,通过分析同一篇文献中词汇或短语共 同出现的情况,可以揭示学科领域内主题 间的关系。这种方法可以帮助研究人员了 解学科领域内的主题分布、主题交叉和主 题演化,进而为学科领域的知识组织和知 识服务提供支持。
学术期刊评价
期刊质量评估
通过分析期刊发表的论文质量、影响因子、被引频次 等指标,对学术期刊的质量进行评估。
期刊影响力排名
根据学术期刊的质量、学术影响力和学术声誉等指标, 对学术期刊进行排名,为学术交流提供参考。
期刊发展建议
基于文献计量学分析结果,为学术期刊的发展提供建 议,促进期刊质量的提升和学术交流的繁荣。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国内外文本分类研究计量分析与综述一发表于《图书情报工作》2011年第55卷第6期:78-142,欢迎大家下载、参考和交流胡泽文王效岳白如江山东理工大学科技信息研究所淄博255049
[摘要]运用文献计量分析方法、计算机统计分析技术、社会网络分析软件对文本分类领域的历史文献进行计量分析及可视化,通过绘制文献数量分布图、核心关键词的共现网络,挖掘文本分类领域的发展趋势、目前研究概况、热点及未来研究趋势等信息,并对文本分类领域研究热点和未来研究趋势进行综述。[关键词]文本分类计量分析社会网络分析可视化图谱[分类号]G250TP391
QuantitativeAnalysisandReviewofTextClassificationResearchatHomeandAbroadHuZewenWangXiaoyueBaiRujiangInstituteofScientificandTechnicalInformation,ShandongUniversityofTechnology,Zibo255049,China
[Abstract]Thispapercarriesoutthequantitativeanalysisandvisualizationtothehistoricalliteraturesoftextclassificationdomainbyusingthebibliometricanalysismethod,thecomputerstatisticanalysistechnologyandthesocialnetworkanalysissoftware.Bydrawingtheliteraturequantitydistributionmapandco-occurrencenetworkofthecorekeywords,excavatesthedevelopmenttrends,thecurrentresearchsituations,hotspotsandthefutureresearchtrendsetcintextclassificationdomain,andmakesareviewontheresearchhotspotsandfutureresearchtrends.[Keywords]textclassificationquantitativeanalysissocialnetworkanalysisvisualizingmap
1引言
随着数字化文档信息总量的快速增长,大规模文本处理已经成为一个挑战。传统向量空间模型表征文本的方法逐渐呈现出一些问题,比如忽视词间语义关系,不能解决同义词、多义词、词间上下位关系等问题,为解决这些问题,国内外学者开始从概念或语义层次上对文本自动分类方法展开广泛的研究,出现一些新的文本分类方法,如基于词典或概念的文本分类、基于本体或语义的文本分类等。随着文本分类领域的快速发展,文本分类领域的总体发展趋势、研究概况、热点及未来发展趋势如何,将是我们关注的焦点。因此关于文本分类领域文献信息的计量分析与综述具有重要的理论、现实和指导意义。2样本与方法
样本数据检索情况如表1所示,共检索到1851篇国内外相关文献。在方法运用上,利用文献数量分析方法对国内外文本分类领域的发展趋势进行对比分析;利用Excel2007、SQL语句的数据处理与统计分析功能、社会网络分析软件Ucinet和NetDraw[1]的数据分析及可视化功能等,对文本分类文献中的关键词进行词频统计与分析、共现频次统计与分析,绘制国内外文本分类领域研究概况和热点的可视化图谱。据此可以解读国内外文本分类领域的发展趋势、研究概况、热点等信息。表1样本数据的检索情况数据库检索入口检索词时间范围文献数量
一本文系国家社科基金项目“海量网络学术文献自动分类研究”(项目编号:10BTQ047)和教育部人文社
会科学研究项目“基于本体集成的文本分类关键技术研究”(项目编号:09YJA870019)的研究成果之一。CompendexTitle"textclassification"OR"textcategorization"1969-2009954ScienceDirect1969-Present去重:60中国期刊全文数据库(CNKI)篇名文本分类(精确匹配)1999-2009615中国硕博学位论文数据库(CNKI)题名文本分类(精确匹配)1999-20092223分析与结果
3.1文献数量分析
对表1中1980-2009年30年间的国内外文本分类文献数量进行分析(5年一个区间,30年共计6个区间),具体如图1所示。从图1可以看出,国外在文本分类方面的研究存在如下特点:①起步较早。德国学者Giere,W.和Dettmer,H.在1986年就提出基于词典的文本分类与检索[2]。国内在1999年才出现文本分类方面的研究文献,比国外晚了13年;②实际应用成果多,不过理论落后于实践。国外自动分类技术早在1975年就进入实用化阶段,而理论研究从1986才开始,落后于实践11年;③发展速度快。国外从1995年开始进入快速增长期,而国内从2000年才开始进入快速增长期,比国外晚了5年。国内在文本分类方面的研究虽然起步较晚,应用成果少,但是发表的文献数量较多。国外在快速增长期(1995-2009)内共发表文献510篇,而国内在快速增长期(2000-2009)内发表文献1338篇,比国外多出828篇。
图11980-2009年国内外文本分类文献数量分布图3.2词频分析
利用作者提出的词频统计分析方法[3]对检索到的文献关键词进行统计分析,获得文本分类领域高频关键词86个。对86个高频关键词进行词频分析,发现国内外对文本分类领域的研究主要集中在以下几个部分(词汇后括号中的数字为词频):⑴文本分类过程。主要对分词(18)、词汇处理(27)、文本表示(27)、向量空间模型(200)等进行研究。最常用的文本表示方法是向量空间模型,到目前为止,国内外学者重点研究的向量空间模型主要有词向量空间模型、语义向量空间模型。词向量空间模型存在向量空间维度过高、词项之间缺乏语义关系等问题,针对这些问题,国内外学者提出语义向量空间模型,尝试利用潜在语义索引(32)技术或本体(28)的概念语义关系挖掘词项之间的语义关系,构建低维的语义向量空间模型。⑵文本分类算法。目前国内外学者重点研究的文本分类算法有支持向量机算法(257)、K-近邻(102)算法、神经网络算法(90)、朴素贝叶斯(56)算法、决策树算法(28)和遗传算法(24)。未来研究趋势将是各类算法的融合、改进和提高。⑶文本分类降维技术。文本分类的一个核心难题就是特征空间的高维性,因此文本分类降维技术是国内外学者研究的重中之重。降维技术主要分为两大类:特征选择(475)和特征重构(85)。特征选择是去除文档中信息量少的项以提高分类的效率,目前流行的特征选择方法有TF×IDF方法(11)、主分量分析(6)、互信息(27)、信息增益(20)和信息熵(6)。特征重构是将原有特征集T加以联系和转化以构建新特征集T’的过程,从而使得降维的效果最大化。目前主要有两种特征重构方法:项聚类(25)、潜在语义索引(32)。
⑷文本分类应用领域。主要对文本分类在信息检索(216)、学习系统(205)、数据挖掘(115)、文本挖掘(39)、模式识别(35)、数字图书馆(13)等领域的应用方法、原理和模型进行研究。3.3共现频次分析
利用程序统计“文本分类”与3.2节中获得的86个高频关键词在文本分类文献标题中共现的频次,根据词汇之间的共现频次,利用Ucinet6的矩阵编辑功能构建文本分类与其领域关键词汇的共现矩阵,再利用NetDraw绘制文本分类与其领域关键词汇的共现网络如图2所示。从图2可以看出,文本分类领域的研究热点主要有文本分类特征选择方法、文本分类方法如传统的支持向量机分类算法、K-近邻分类算法和目前基于语义的文本分类方法。
图2文本分类与其领域关键词汇的共现网络4文本分类研究热点综述4.1文本分类特征选择方法目前常用特征选择方法有TFIDF方法、互信息、信息增益等,其主要利用特征权重统计方法统计文档集中特征项的权重,然后设定阈值,选择特征权重大于等于阈值的特征项构建文档特征空间进行文本分类模型的训练。不过在特征选择过程中,由于没有考虑词间语义关系如同义关系、多义关系、上下位关系等造成特征空间维度较高,文本分类性能无法提高到一个更高水平。针对此问题,国内外学者对传统特征选择方法进行改进和提高,将特征选择方法与特征重构方法如聚类、潜在语义索引等进行融合。如国内学者刘海峰等人将TFIDF和互信息特征选择方法分别进行改进,并重新组合,形成一种新的特征选择方法[4]。季铎、郑伟、蔡东风等人提出融合文档频率和潜在语义索引的文档特征优化方法,首先利用文档频率对文档集合进行特征选择,然后利用潜在语义索引技术挖掘特征之间语义关联,形成低维语义向量空间[5]。4.2文本分类方法4.2.1支持向量机分类算法
支持向量机算法是以结构风险最小化原则为基础,通过构造分类超平面进行无序文本的分类,具有很强的学习能力和较好的泛化性能,只需较少的样本就可以迅速训练出具有较高性能指标的分类器,在解决小样本、非线形及高维模式识别问题中表现出许多特有优势[6]。不过,其对于大规模数据集,训练速度异常缓慢,并且需要占用很多内存。针对此问题,一些学者提出相应的解决方案如利用数据集分解算法如Bagging算法[7]、Google的Map/Reduce算法[8]等将大数据集分解成小的数据集分别进行支持向量机的训练,然后通过合并算法将各支持向量机进行两两合并,形成最终的支持向量机分类模型[9]。4.2.2K-近邻分类算法KNN算法的基本思想是在训练样本中找到测试样本的K个最近邻,然后根据这K个最近邻的类别来决定测试样本的类别,具有很好的鲁棒性,简单易用,对于大规模数据非常有效。但是,它存在如下缺点:①计算量巨大,要求计算未知文本与所有训练样本间的相似度进而得到K个最近邻样本。针对此问题,吴春颖和王士同提出融合Rocchio和KNN的文本分类方法,其先通过Rocchio分类算法快速得到k0个最有可能的候选类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法[10]。②在决定测试样本的类别时,把测试样本的K个最近邻等同对待,没有考虑这K个最近邻在所属类别中的重要程度。针对此问题,江涛、陈小莉等学者提出利用聚类算法,求出训练样本集合中每个训练样本的隶属度,利用隶属度来区别对待测试样本的K个最近邻[11]。4.2.3基于语义的文本分类方法该方法主要借助本体、项聚类、潜在语义索引等挖掘词间语义关系,将原文档词项之间相互独立的高维特征空间转换为低维的语义特征空间或概念特征空间进行文本分类模型的训练。本体具有丰富的概念语义关系如同义关系、多义关系、上下位关系等和清晰的层次结构,利用本体可以将原文档高维特征向量中词性不同而语义相同的特征映射成相同的特征即本体同义词集,将具体的特征映射成通用特征即本体通用概念,从而建立低维的概念或语义向量空间模型[12]。项聚类就是试图将在语义方面具有高关联性的项分组,以该分组的表示代替这些项成为向量空间中的维度[13]。潜在语义索引是一个通过词共现产生语义向量模型的文本分类和文档索引技术,主要通过词—文本矩阵的奇异值分解技术解决文档向量维度过高的问题[14]。