一种新的基于软集合理论的文本分类方法
基于领域知识的文本分类

基于领域知识的文本分类
朱靖波;陈文亮
【期刊名称】《东北大学学报(自然科学版)》
【年(卷),期】2005(026)008
【摘要】提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能.
【总页数】3页(P733-735)
【作者】朱靖波;陈文亮
【作者单位】东北大学,信息科学与工程学院,辽宁,沈阳,110004;东北大学,信息科学与工程学院,辽宁,沈阳,110004
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于文本分类领域中文本分类和主题分析 [J], 郭艳芳;郑金芳;赵连荣
2.领域知识在文本分类中的应用 [J], 吴国祥
3.IT职业培训机构学员领域知识不足的原因探析——基于北大青鸟和安卓越的案
例分析 [J], 董志霞
4.基于CiteSpace的中国客家文化领域知识图谱研究 [J], 曹小琴;陈嘉鸿;许芳婷
5.基于领域知识图谱的短文本实体链接 [J], 黄金杰;赵轩伟;张昕尧;马敬评;史宇奇因版权原因,仅展示原文概要,查看原文内容请购买。
知识增益_文本分类中一种新的特征选择方法_徐燕

第22卷 第1期2008年1月中文信息学报JOU RNAL OF CH INESE INFORM AT ION PROCESSIN GV ol.22,No.1Jan.,2008文章编号:1003-0077(2008)01-0044-07知识增益:文本分类中一种新的特征选择方法徐燕,王斌,李锦涛,孙春明(中国科学院计算技术研究所,北京100080)摘 要:特征选择在文本分类中起重要的作用。
文档频率(DF )、信息增益(IG )和互信息(M I )等特征选择方法在文本分类中广泛应用。
已有的实验结果表明,IG 是最有效的特征选择算法之一,该方法基于申农提出的信息论。
本文基于粗糙集理论,提出了一种新的特征选择方法(K G 算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。
在两个通用的语料集OH SU M ED 和New sGro up 上进行分类实验发现:K G 算法均超过IG 的性能,特别是在特征空间的维数降到低维时尤其明显,可见K G 算法有较好的性能;关键词:计算机应用;中文信息处理;文本分类;特征选择;粗糙集;信息检索中图分类号:T P391 文献标识码:AKnowledge Gain:An New Feature Selection Method in Text CategorizationXU Y an,WAN G Bin,LI Jin -t ao,SU N Chun -ming(Institute of Computing T echnolog y,Chinese Academ y of Sciences,Beijing 100080,China)Abstract:Feature selection(F S)plays an impor tant r ole in text categ or izat ion (T C).A utomatic featur e selection met ho ds such as do cument frequency thresholding (DF ),informat ion ga in (IG),mutual info rmation (M I),and so on ar e co mmonly applied in text categ o rizatio n [J].Exist ing ex per iments sho w I G is o ne o f the most effectiv e met ho ds.I n this paper ,a feature selectio n method is pr oposed based on Roug h Set theory.A ccording to Rough set theo ry ,know ledg e about a univer se of objects may be defined as classificat ions based on cer tain pr operties of the objects,i.e.r ough set theo ry assume that kno wledg e is an ability to part itio n objects.We quantify the ability o f classify objects,and call the amount of this ability as kno wledg e quantity and then fo llow ing this quantificat ion,w e put for wa rd a no tio n /kno wledg e Ga in 0and put forw ar d a kno wledg e g ain -based feature select ion method (KG met ho d).Ex per iments o n New sG ro up collectio n and O HSU M ED co llection sho w that K G perfor ms better than the IG method,specially,on extr emely ag g ressive r eduction.Key words:computer applicatio n;Chinese info rmation pr ocessing ;feature selectio n;t ex t catego rization;ro ug h set;informat ion retr ieval收稿日期:2007-05-29 定稿日期:2007-12-02基金项目:国家973资助项目(2004CB318109);国家自然科学基金资金项目(60473002,60603094);北京市自然科学基金资助项目(4051004)作者简介:徐燕(1968)),女,博士,主要研究方向包括数据挖掘和信息检索;王斌(1972)),男,博士,副研究员,主要研究方向为信息检索和自然语言处理;李锦涛(1962)),男,博士,研究员,博导,主要研究方向为跨媒体检索和数字化技术。
知识增益:文本分类中一种新的特征选择方法

知识增益:文本分类中一种新的特征选择方法
徐燕;王斌;李锦涛;孙春明
【期刊名称】《中文信息学报》
【年(卷),期】2008(22)1
【摘要】特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,该方法基于申农提出的信息论.本文基于粗糙集理论,提出了一种新的特征选择方法(KG算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法.在两个通用的语料集OHSUMED和NewsGroup上进行分类实验发现:KG算法均超过IG的性能,特别是在特征空间的维数降到低维时尤其明显,可见KG算法有较好的性能;
【总页数】7页(P44-50)
【作者】徐燕;王斌;李锦涛;孙春明
【作者单位】中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080
【正文语种】中文
【中图分类】TP391
【相关文献】
1.文本分类中一种特征选择方法的改进 [J], 胡改蝶;马建芬
2.文本分类中一种新的特征选择方法 [J], 王秀娟;郭军;郑康锋
3.文本分类中一种基于互信息改进的特征选择方法 [J], 田野;郑伟
4.文本分类中一种特征选择方法研究 [J], 赵婧;邵雄凯;刘建舟;王春枝
5.文本分类中一种改进的特征选择方法 [J], 刘海峰;王元元;张学仁
因版权原因,仅展示原文概要,查看原文内容请购买。
一种新型文本分类方法的研究

手工 定义 一些规则来对文本进行分类 ,这种方法费时费力 , 且必须对某一领域有足够的 了解 ,才能写 出合适的规则 。
到上世纪九十年代 , 随着 网上在线文本 的大量涌现和机 器学 习的兴起 ,大规模的文本 ( 括网页)分类和检索重新 包
体 遗 传 进 化 机 制 的 搜 索 算 法 ,它 是 由美 国 密西 根 大 学
H ln ol d教授 于 17 a 9 5年提 出来 。 它与一般 的搜索算 法不 同,它模拟 自然界生物进 化过
程,采用人工进化 的方式对 目标空 间进行随机搜索 。 它将 问 题域 中的可能解看作是群体的一个个体或染色体, 并将每一 个体 编码 成符号串形式 , 模拟孟德尔的遗传学说和达尔文 自
微型 电脑 应 甩
20 第 2 第 8 08年 4卷 期
种 新 型 文本 分 类 方 法 的研 究
吴降龙 周一 民
摘
要 :主要介绍 了一种新 型文本分类方法。 文本分类 中应 用遗传算法优化各种参数 , 在 显著提 高 了文本分 类的查全率 , 差
准率 ,并节省 了大的搜 索时间。 关键 词:文本分类;遗传算 法;参数优化 ;机 器学习 中图分类号 :T 1 P8 文献标识码 :A
的鲁棒性 ,所以被广 泛地 应用 于很多学科。其中就包括机器 学 习领域 ,特别是文本分类器系统 。
文本分类 中应用遗传算法,对各种参数进行优化 , 使得分类
的效 果 达 到 最 佳 。
而如何评价评价分类器好坏 主要有 以下的指标 : 查全率 (ea ) rcl :正确判别为正例的测试样本个数 占正 1 例样本个数的 比例 ,即: 查 全 率 = 分 类 的 正确 文 本 数 /应 有 文 本 数 。 差准率 (rc i :正确 判别为正例 的测试样本 个数 peio s n)
基于PU学习算法的文本分类研究与实现

基于PU学习算法的文本分类研究与实现
郭亚玲;徐振明;王亚强
【期刊名称】《信息通信》
【年(卷),期】2016(000)003
【摘要】PU学习文本分类指的是从只包含一类的正例文档(P)和包含很多类别的未标记文档(U)建立文本分类器最终进行文本分类的问题,U包含正例和反例文档.两步策略是解决PU学习问题的一种最常用的方法.实际问题中,当正例P数量太少的时候,这种方法分类的效果并不好.为了解决P代表性不足的问题,文章提出了一种改进方法旨在解决PU学习问题中正例P数量较少的情况,在两步方法中的第二步不断扩大P的数量来提高分类器的效果,实验结果表明与以往方法结果对比,改进的方法F值有将近30%的提高.
【总页数】2页(P27-28)
【作者】郭亚玲;徐振明;王亚强
【作者单位】成都信息工程大学计算机学院,四川成都610225;成都信息工程大学计算机学院,四川成都610225;成都信息工程大学计算机学院,四川成都610225【正文语种】中文
【中图分类】TP311.1
【相关文献】
1.基于SVM主动学习技术的 PU 文本分类 [J], 富震
2.基于特征词匹配的政策文本分类算法研究与实现 [J], 王丽鹏;张鹏云;和志强
3.基于脉冲神经网络与移动GPU计算的图像分类算法研究与实现 [J], 徐频捷; 王诲喆; 李策; 唐丹; 赵地
4.基于多元线性回归算法的精准ARPU客户价值提升的研究与实现 [J], 袁鸢;付文豪;李成奇
5.GCN-PU:基于图卷积网络的PU文本分类算法 [J], 姚佳奇;徐正国;燕继坤;王科人
因版权原因,仅展示原文概要,查看原文内容请购买。
基于模糊软集合理论的文本分类方法

定义 1设 是给定的论 域, 是一个参数集 , 一个集合
对 (,) F E 被称为域 【上的一个软集合( f st , s t e) o 当且仅 当 F是 E到所有的 u子集 中某集合的映射 , F: P U , 中, 如 E () 其
i ma p d o t u z o tst h ae oy oft en w e tc n b c iv d tr u h te rd cin o o e a l nd c n tu to fte s p e no a fz y s f e,te c tg r h e tx a e a h e e h o g h e u to fs f s ttbe a o srcin o t h
[ y r s e t l sf ain sfstfzysfstfa r e cin muu lnomain Ke d ]tx a ict ;o ;uz o e;et e l t ; ta ifr t wo csi o te t u se o o
一种基于聚类的PU主动文本分类方法_刘露

E-mail: jos@ Tel/Fax: +86-10-62562563
Clustering-Based PU Active Text Classification Method
LIU Lu1,2,
1 2 3
PENG Tao1,2,3,
ZUO Wan-Li1,3,
DAI YaΒιβλιοθήκη -Kang1(College of Computer Science and Technology, Jilin University, Changchun 130012, China) (Department of Computer Science, University of Illinois at Urbana-Champaign, Urbana, USA) (Key Laboratory of Symbol Computation and Knowledge Engineering (Jilin University), Ministry of Education, Changchun 130012, China)
通讯作者 : 彭涛 , E-mail: tpeng@, taopeng@
摘
要:
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是 PU(positive and
unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建 的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取 方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地 移除正例 , 从而可以获得更多的可信反例 . 结合 SVM 主动学习和改进的 Rocchio 构建分类器 , 并采用改进的 TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在 3 个不同的数 据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较 低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度. 关键词: PU(positive and unlabeled)文本分类 ; 聚类 ;TFIPNDF(term frequency inverse positive-negative document frequency);主动学习;可信反例;改进的 Rocchio 中图法分类号: TP391 文献标识码: A
TCBLSA:一种中文文本聚类新方法

TCBLSA:一种中文文本聚类新方法
王国勇;徐建锁
【期刊名称】《计算机工程》
【年(卷),期】2004(030)005
【摘要】根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法.该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度.【总页数】3页(P21-22,37)
【作者】王国勇;徐建锁
【作者单位】天津大学系统工程研究所,天津,300072;天津大学系统工程研究所,天津,300072
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.一种基于自组织神经网络的中文文本聚类新方法 [J], 徐建锁;王正欧;王莉
2.一种基于小生境遗传算法的中文文本聚类新方法 [J], 赵亚琴;周献中
3.一种高效中文文本聚类算法 [J], 马甲林;刘金岭;于长辉
4.一种应用于中文文本聚类的适应值函数 [J], 朱征宇;李力沛;罗颖;周智;朱庆生
5.一种新的Web中文文本聚类方法研究 [J], 叶宇飞;安世全;代劲
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 1 期
广西 师范 大学 学报 : 自然科 学 版
Ju n l f a g i r l ies y Naua S i c dt n o ra o n x Noma Unv ri : trl c n eE io Gu t e i
V o .2 N o.1 1 9
表 l J 个 n项 式 实 验 的 m ×n列 联 表 , 1
Ta b.1 J × n ab e , l t l
1Oi 示 第 J个 试验 的 第 i 观 察 值 ; i 示 第 个 随 机 变 量 在 所 有 m 次 试 验 中 的 观察 值 之 和 ; 表 示 第 J 试 验 中 所 有 一个 观 察 值 之 .) 表 个 O表 D 次 和 ; . 示所有试验中的所有观察值之和 。 o 表
软 集合 理 论是 1 9 9 9年提 出的 处理 模糊 对 象 的数 学工 具 , 年 来许 多 学 者对 其 理 论 和应 用 进行 研 究 。 近
如 文献 [ ] 出一种 基 于软 集合 文本 分类 方 法 。 7提 本文 在 文本 特征 选 择 阶段 采 用一 种新 的基于 独 立度 和齐性 C i 假 设 检验 的特 征选 择 方法 , 所 获取 h2 将
零假设 H。 : 为 随机 变 量 t与试 验 无关 , 0 =D 。 . =Oi。它 的检验 统计 量 表示 为 : 有 = . = _ ・
收 稿 日期 :0 01 —0 2 1—22
基金项 目: 国家 自然科学基金重 大研究计划培育项 目( 0 1 00 ; 9 7 8 2 )澳大利亚 A RC项 目( 0 6 0 0 DP 6 7 6 )
第2 8卷
。
㈩
当 日。 真时 , 为 第 个 多项式 实验 的第 个 观察值 的期 望可 表示 为 :
E = = = , () 2
因此 式 ( ) 似服 从 自由度 为 ( 1近 一1 ( 一1 的 C i ) ) h2分布 。式 ( ) 1 的值 越 大 , 相关 性 越高 。
文本 分类 技术 是文 本 信 息处 理的 核心 技 术之一 , 主要 包含 文本 的 向量 模 型 、 征选 择和 分 类器训 练 等 特 3个 过程 , 任务 是 指依 据文 本 的 内容 , 文 本判 分 预先 定 义好 的类 别 。 其 将 虽然 , 已经建 立 了许 多可用 的文
本 分类 系 统 , 并取得 了一定 的成 果 , 仍需 继续 完善 。 比如 : 本特 征 的选 择和 抽取 技 术不 完善 , 但 文 导致 文 本
分 类结 果 不理 想 。
特 征选 择 是 从确 定 的特 征 空 间 中选取 能 够 充分 代表 文 档 内容 的 特征 子 集 的过 程 , 文 本 分类 中的关 是 键, 目前 已经 存 在许 多 相关 工作 , : 献 [ ] 于独 立性 理论 、 如 文 1基 文献 [ — ] 24 基于 贝叶斯 粗 糙集 方 法 、 文献 [ ] 5 基 于粗糙 集 和 灰色关 联 度 的综 合 、 文献 [ ] 合优 化 的 文档频 和 P 方 法进 行 文档 特 征选 择 。 6结 A
1 2 随 机事 件 的独立 度 .
我 们定 义随 机事 件独立 度如 下 : 样本 空 间中的 2个 事件 A 和 B, 们称 I , 一P( P( I 设 我 P( B) A) B) 的 值 为 随机变 量 和 B之 间的独 立程度 ( 依赖度 ) 。
摘
要 : 本 分 类 技 术 是 文 本 信 息 处 理 的核 心 技 术 之 一 , 要 包 括 文 本 的 向量 模 型 表 示 、 本 特 征 选 择 和 分 类 文 主 文
器 训 练 三 大过 程 。本 文 提 出 了 一 种 混 合 ( I A+D h2 特 征 选 择 算 法 , 将 所 获 取 的 特 征 作 为 软 集 合 理 论 EB HC i) 并 中的 参 数 集进 行 文 本 分 类 , 而 建 立 了一 种 新 的 基 于 软 集 合 理 论 的 文 本 分 类 技 术 。实 验 表 明 查 准 率 与 查 全 率 从 比原 有 算 法 都 有 所 提 高 , 明 新 的 基 于 软 集 合理 论 的 文 本 分 类 算 法 是 有 效 的 。 说 关 键 词 : 本 分 类 ; 征 选 择 ; h2假 设 检 验 ; 立 度 ; 糊 软 集 合 文 特 Ci 独 模 中 图 分 类 号 : P 9 T 31 文献标识码 : A 文 章 编 号 :0 16 0 (0 10 — 1 90 1 0 :6 0 2 1 ) 10 2 —4
的特 征作 为 软集 合理 论 中的参 数 集进 行文 本 分类 , 而建 立一 种 新 的文本 分类 技 术 。 从
1 相 关 理 论 基 础
1 1 齐性 C i . h2假设 检 验
齐性 C i h2假设 检验 的 目的 是检 验 随机变 量 在 m 次试 验 中的 独立性 假 设 。对 于 个 m 项式 试验 可 以 用 ×m 的联表 表示 ( 1 。其 中 : 表 ) , 示试 验次 数 , ”表 ”表示 每次 试 验 中随机 变 量 的个数 。
通 讯 联 系 人 : 鼎 荣 (9 7 ) 男 , 袁 16 一 , 广西 全 州 人 , 广西 师 范 大 学 副 教 授 , 士 。E mal ru n 硕 — i: y a @malo . x u eu c d i x g n . d .n b
1O 3
广西师范大学学报 : 自然 科学 版
M a 201 r 1
21 0 1年 3月
一
种 新 的 基 于 软 集 合 理 论 的文 本 分 类 方 法
袁 鼎 荣 , 扬才 。陆 广 泉 刘 。谢 , , 星。
(.北 京工 业大 学 计 算 机 学 院 , 京 1 0 2 ;.广西 师 范 大 学 计 算 机 科 学 与 信 息工 程 学 院 , 1 北 0142 广西 桂 林 5 1 0 ) 4 0 4