一种改进的文本分类算法

合集下载

一种改进的集中度和分散度文本特征选择算法

一种改进的集中度和分散度文本特征选择算法

时 T FL结合特征项长度信息 , FS 提高 了 短语和词语在分 类中的作 用。S M 分类实验 结果表 明: T F 相 比,F S 更高 的文本 V 与 FS T FL有
分 类性能和 剔除无关特征 项的能力。
关键词
中图分类号
互信息 特征选择 文本分 类 特征权重 支持 向量机
T 3 16 P0 . 文献标识码 A
MI T (,
_lg 0(

() 2
度 的概念 可以看出 : 若一个特征项在一 个类 中频度越高 , 而在其 它类 中的频度越低 , 则认 为这个 特征项更 能反 映 出现 该类 的特
征。 从表 1 中可以看 出: 出现 的类别次数为 6 其 中出现在 类 8 , 中的文档 数为 2 , 它5 类别出现的文档数非常小 ; 出现的 7其 个
们达到进一 步的完善 。
① 特征项 只出现在一个类中, 认为这个特征项非常有
价值 。
② 如果 出现在 两个 或多个 类 当中 , 在有些 类 中没 有 但 出现 , 那么此特征项也有价值 的。
③ 如果 在所有类 中都 出现 了 , 并且 出现 的频率 比较 均 匀, 那么这样 的特征项对分类就几乎没有价值 , 应当过滤掉。
综上所之 , 特征项 出现的类别 越少 , 重应越 大 , 以定 性 权 可期 :0 0—0 21 8—3 。浙江省 自然科学基金 ( 0 7 9 。沈友 0 X15 3 )
文, 硕士生 , 主研领域 : 计算机网络。
第 9期
沈友 文等 : 一种 改进 的 集 中度 和分散 度文本 特征 选择 算 法
的关 系可能会有 以下情况 :
软件分词后 的中文词条是非 常 巨大 的 , 用这些 词条代 表文档 若

一种基于粗糙集的改进KNN文本分类算法

一种基于粗糙集的改进KNN文本分类算法
表示 为 向量 空 间中 的特 征 向量 ;
目前 文本 分类 方 法 主 要包 括 决 策 树 、 K最 近邻 ( N 、 联规 则 、 持 向量 机 ( V 、 叶斯算 法 K N)关 支 S M) 贝 ( ae) Bys 、神 经 网络 、粗糙 集 等 。其 中基 于 向量 空
() 2 将待 分类 文本 t表示 为 和训 练文 本 一 致 的 i
1 KN N算法的基本 思想及存在 问题
K N作为一 种基 于实 例 的文 本分 类 算 法 , N 被认
为是 向量 空 间模 型 (V M) 最 好 的 分 类 算 法 之 S 下

5 ) s) ( 一o = (
向量 长度 。

( 1 )
式 ( ) 0 两个 向量 d 和 d 的夹 角 ,l 1中 是 1 l l表示 d () 4 选择 与 d 相似度 最 大的 k 文本 作 为 向量 个
2 ]

该算法分为训练和分类两个 阶段 4。其思 l J
想是 : 文本训 练 阶段 , 在 主要 是 一 般 特 征 的提 取 、 特
21 0 2年 4月 1 3日收到 教育部科学技术研究重点项 目(0 1 8 、 2 8 4 )
d 的 k 最 近邻 ; 个 () 5 根据 d 的 k 最 近 邻 , 算 文本 类 别 相 应 个 计
^ 纛 , k
() 6 比较 各 类 的权 重 , 待 分 类 文 本 t归 人 权 将 重 最大 的类别 。 作 为一种 有监 督 机 器 学 习 的非 参 数 方 法 , N KN 集
R = { ∈ U l[ n X ≠ } X ] 。
它 们分别 为 的 下近似 集 和 上近 似集 。 定 义 3 给 定一 个知 识库 K = (,R) 对 于 每个子 【, , 和一个 等价 关 系 R ∈ id K) 全集 可 n( ,

一种改进的SVM决策树文本分类算法

一种改进的SVM决策树文本分类算法

近年来 , 随着网络和信息技术的发展 , 文本信息量
增长迅速 , 作为信息检索及信 息智能处 理领域 的关 键
技术之一 的文本分类 , 其主要任 务就是 在预先 给定 的
类别标记集合下 , 根据文本 的 内容判 定其类别 。分类
的精确程度取决于特征提取 以及分类 方法 的科 学性 , 目前 主 要 的 文 本 分 类 方 法 有 贝 叶 斯 分 类 器 ( a e Ni ' v
关键 词 S M 决策 树 文 本 分 类 支持 向量 数 据 描 述 V T 31 P 9 文 献标 识 码 A 文章编号 10 — 95 2 1 )8 04 — 3 0 2 16 (0 0 0 — 11 0 中图 分 类 号
0 引 言
SaeM d , S 。其基本思想是将文本表示 为向 pc oe V M) 量空间中的一个 向量 , 由文本 的词条作 为向量的维数。 假设所有文本 的特征总数是 I 则构成一个 n t , 维的向量 空间 , 这样每一个文 本被表示成 为一个 维 的特征 向 量 : ( ) t, ( ) £, 2d ; ∞ ( ) 其 中, V d =(l d ; ∞ ( ) …t, d ),
第2 9卷 第 8期
21 0 0年 8月


杂 志
J OURNAL OF I ELL GE NT I NCE
Vo . 9 No 8 12 . Au . 2 1 g 00

种 改 的 S M 决 笨树 支本 分 垂 法 V
Te tCl s i e s d o n I pr v d x a sf r Ba e n a m i o e SVM cso e De ii n Tr e
I G和 C I H 表现较好 。

一种改进的文本聚类方法

一种改进的文本聚类方法
, ,
, , ,
重 参数 的设 定方 法 即权 重 参数 由遗 传 算 法 确定 从 而 使 权 重 参数 的 设 定 更 具 有科学 性 和 可 操作 性 通 过 仿 真 实 验验 证 了 算 法
关 键 词 粗 集 ;遗传 算法 ; 向量 空 间 模 型
中 图 文分 类 号 :T P 3 12
文 献 标识 码 :A
性质 4: 如果一个对 象不属于 任何一 个类的下 近似 , 则 它必 然属 于 两个 以上 的类 的上 近似 。
, ,
了 基 于 粗 糙 集 的 文 本 分 类 方 法 该 算法 缺 少 足 够 的 灵 活
, ,


5 和 文 献 【 】 文 献 (6 j 将 粗 集 和 遗 传 算 法 相 结 合 分 别 对
, ,
研 究 如 何 从海 量 数 据 中挖 掘有 用 的 信 息

直 是学 术 界 研
高 速 公 路 和 网 站 访 问者 进 行 了 聚 类 其 缺 点 是 人 工 设 定
f pa
r a m e
te r s in th e c lu s te r in
g pro g

la t io
re s u
lts
a
ls
o
g iv
e n
K
e
y
w o r
ds
:r o u
gh
s e t
;g e
n e r
ic
a
lg
o r i t h m ;v e c t o r
m o
de l
1
引言
面 对 当今浩 如烟 海 的 数据 人 们往往 手 足 无 措 所 以

基于DBSCAN聚类的改进KNN文本分类算法

基于DBSCAN聚类的改进KNN文本分类算法

在类 的类别权重 , 把 归人 到相似度最大 的类 别 中。K N N算法的具体步骤如下 : ( 1 ) 根据训练文本最终特征集 合 , 将训练文本
表示 为 向量空 间 中的特 征 向量 ;







1 3卷
( 2 ) 将待分类文本 表示为和训练文本一致的
特征 向量 d ;
中图法分类号
T P 3 9 1 . 1 1 ;
文献标志码

文 本 自动 分 类 技 术 是 实 现 文 本 数 据 组 织 与 检 索 的有 效 手段 , 在 提 高文 本 数 据 利 用 的有 效 性 和 准 确 性方 面具 有 重要 的现 实 意 义 和广 泛 的应 用 前 景 ,
I >Mi n p t s , 则称 为 核 心对 象 。 只包 含 核 心 对 象
的集合称为核心样本集 , 记作 k e r ( D ) 。
定 义 3 直接 密度 可达 。给定 邻 域半 径 和 最 少样 本数 Mi n p t s ( Mi n p t s>0 ) , 当:
选 择对 聚类 结果 有较 大 的影 响 , 它对 于噪 声数 据 比
较敏感 , 少量 的该类数据将会对平均值产生 比较大 的影响。本文主要是针对利用 k - m e a n s 聚类算法实 现样本裁剪的不足 , 提出了一种基于 D B S C A N算法
的K N N文本分文 本 分 类 方 法 主 要 包 括 决 策 树、 K 最 近 邻 ( K N N ) 、 关联规则 、 支持向量机( S V M) 、 贝叶斯算法 ( B a y e s ) 、 神经网络 、 粗糙集 等。其 中基 于向量空间

一种改进的KNN文本分类

一种改进的KNN文本分类

Ke r s faue e ut n l ete ni aayi K Ne etNe h o ( N ;et a g r a o ywod :etr d ci ;a n sma t ls ; - a s r o t c n s r i b rK N)tx ct oi t n g e zi
Co lg f mp trS i n e Ch n q n i e s y Ch n q n 0 0 4 C i a l eo e Co u e c e c , o g i g Un v r i , o g i g4 0 4 , h n t
Z HONGJa g L UR n h i mp o e K in , I o g u. I r v d NNtx ae o iai . o u e E gn eiga dA pi t n , 0 2 4 ( ) 1 2 1 4 e t tg r t n C mp tr n ie rn c z o n p l ai s 2 1 , 8 2 : 4 -4 . c o
t a ep o o e t o al fe t e yi r v et x a e o ia in p e i o . h t h r p s dme d c l e f ci l t h v mp o et t t g rz t r cs n h e c o i
方法性能上不足的改进也 日益成为人们关注的热点 】 。
则最后 的分类决策函数为
f ag x jpd ) = r ma c((, ) () 3
K N方法作 为一种无参数 的简单有效 的文 本文类方 法 , N
在基于统 计的模式 识别 中性 能突 出 , 以取得较 高的分类 准 可 确率和召 回率 n 是 K N也存在一 定的不足 :1文本特征 。但 N () 向量的高维性 , 使得算法的时间复杂度和空 间复 杂度 较高 , 计 算开销很大 , 且对于巨大维数的文本特征 向量 , 对分类起作 用 的维数往 往小于文本 本身 的维数 , 那些对 文本分类 意义不 大 的维数有 可能会 成为噪声 , 影响分类 的准确度 。2 当训 从而 () 练样本数 据分布不均衡甚 至严重倾斜 时 ,N K N分类器的效果 会受到 严重影 响 。而且在 实际应 用中 , 数据分布 不均衡 的 现象是很 常见 的 , 类别样本在 密度上 占有优势从 而影响分 大

一种改进的基于VSM的文本分类算法

一种改进的基于VSM的文本分类算法

要: 在文本 分类 中 , 向量 空间模 型( S  ̄ V M)
用 ; 其它部 分 采用基 本的 向量 空间模型 方 法进行计 算 。 这 两部 分的计 算结 果进 行加权 求和 , 对 对 来综合 判行 了测试 , 实验结 果表 明改进 的方 法提 高 了分 类的精 确率 、 召回率和 F 测试值 。 1
到类 别 的 映射 。 目前 ,基 于 机 器 学 习 的英 文 文 本 分 类 已经 取
揭示其 内容 的独立属性 , 而每个属性都可 以看成是概念空间的

个 维数, 些独立属性称 为文本特 征项 , 这 文本就可 以表示 为
这 些 特 征 项 的 集 合 。 因 此 文 本 就 可 以表 示 成 形 如 d(w; ; -t w -,

种改进的基于 VS 的文本分类算法 M
张 彰 , 樊孝 忠
( 北京理工大学 计算机科 学系,北京 108) 001

的文 本表 示形式 , 是 它把 文 本看作 词袋 , 但 忽略 了文本 的结构信 息 通 过 区别对待 文本 的不 同部分 来改进基 本 的向量 空 间方 法 : 于标题 和段 落 首尾 句采用核 心词共 现 的方法 来计算其对 分 类 的作 对
0 引 言
随着互联 网在全球范 围内的快速发展 ,人们面临 的信息 呈指数增 加。在人们所面 临的信 息 中 7 0%以上 是文本信息 , 因此对 文本信 息的处理技术尤为重要 。分类 是组织和管理信 息 的一个 有效 的手段,将信 息进 行分类可 以方 便人们对信息 的浏 览、 查找 、 使用。文本分类是指根据 文本的 内容 , 和 由计 算机根据某种 算法, 把文本判 别到预先定义好的类别 , 即文本
维普资讯

一种改进的kNN方法及其在文本分类中的应用

一种改进的kNN方法及其在文本分类中的应用

r 之外的类别。 词汇 ” 和 c 的共现情况就有 4 种,
( . ) ( . ) ( , ) ( . ) 用 1 . , c . " c , C . c , , :
征进行处理 , 依此得到文本分类结果 特征提取 的好坏直 接 关 系到 文 本 分类 结 果 的优 劣 。 目前 , 特征提取的方法 主要有 7种 . 互信息 、 期望交叉 熵 、 息 增 益 、 本 证据 权 、 率 比 、 频 法 以 及 信 文 儿 词
p tfr r n i r v d me h d wh c s b s d o e ta t i u e a s ca i n a d c n e t c ~ o c ri g u o wa d a mp o e t o , ih i a e n tx tr t so it n o c p b o o cur . n
改进方 法。改进方法是基于文本属性关 联和概念 共现等 基础上提 出来的。它实质上 是强 化了文本 中语义链属 性 因子 的作用 , 修正了次要 因素的 噪声影 响 . 文本分类结果更加理想 , 有 的测 试结果证 明了这 ~点 . 使 已 l 尤其在
测试文本与训练文本集 中的某 文本直观 上较相似时 , 结果更佳。 ①
关 键 词 :_N; 胜关 联 ; 进 k ; 布分 类 k N 属 改 文 中 图分 类 号 : P 9 : 文 献 标 识 码 : 37 r A
An I p o e —Ne r s i hb r S s e nd I s m r v d k— a e t Neg o y t m a t Ap lc to o Te tCl s ii a i n p i a i n t x a s fc to
SUN Li u ,IANG i o g LI igme a ZK h J n , n — i d J
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2 i R I P P E R噪来自特征项产生的根本原因有 3 点:
[ ] 8 ) 增长规则的过程中只考虑特征项的 F ( 1 O I L 值的大小。
在生成规则的开始, F O I L最大的特征项首先被 选进规则, 如果此时 n ) , 根据算法要求, 需要 r ≠0 C( 个特征项的规则 继续加入特征项, 使得加入后含 2 的F 最大, 以此类推, 直到 n ) 。假定 集r O I L r = 0 C( 真特征项集合 t 如果 n ) , 需 r ≠0 s 已被选入规则, C( 中使得 n ) , 作为候选 要加入一个特征项到 r r =0 C( , 伪特征项 f 和稀疏特 的特征项可能是真特征项 t 征项 s , 如果 F ( , ) 或者 F ( , ) 比较大, 那 O I L t f O I L t s s s 么就会把伪特征项 f 或者稀疏特征项 s 选入规则。 例如在类 c 中, 首先把特征项 c 选入规则, o f f e e o f f e e 此时 n ) , 伪特征项 e 就被选入规则, 结 r x p e c t ≠0 C( , } 等这样的规则。 果就出现了{ c o f f e e e x p e c t ( ) 训练过程停止太慢。 2 根据 R 一条规则 r 生成并且剪枝 I P P E R算法, 后, 将删除目前训练集中覆盖该规则的所有文档, 训 练过程的停止条件是本类文档都被删除。到了生成 规则的后期, 所有的真特征项都被选入规则并且随 着文档的删除而删除, 剩下的都是噪音特征项, 此时 如果本类中还有没有被删除的文档, 则需要继续选 择剩下这些特征项, 那么这些噪音特征项有可能单 独作为规则出现, 例如在类 i 中, 出现了{ r o n s t e e l r e } 这样的伪特征项和{ } 这样的稀疏特征项作 d u c e u s s 为规则。 ( ) 剪枝条件太严格。 3 剪枝的依据是使度量公式 p ( )-n ) ) r r ? C( C( ( ) ) ) 最小。对上述公式进行变换, 可以 p r +n r C( C( ( ( ) ) )+1 ) , 剪枝公式只与 得到: 1-2 ? p r ? n r C( C( ) ) 有关, 这是不够全面的。 p r ? n r C( C(
年1 月 2 0 0 7 1 N o v . 2 0 0 7
— — —一种改进的基于规则学习的 i R I P P E R 文本分类算法
袁晓航, 杜小勇
( 中国人民大学 信息学院,北京 ) 1 0 0 8 7 2
摘要: 基于规则学习的文本分类算法 R 易优化、 高效率等特点, 但是当规则所涉及的特征项很 I P P E R具有易理解、 多的时候, 上述优点不复存在。基于层次的规则学习算法 h 但其 R I P P E R采用了层次架构对 R I P P E R进行了改进, 对特征项的过滤仍然有限。针对 R , 对规则学习的分类算法进行改 I P P E R h R I P P E R在规则学习过程中出现的问题, 进, 提出了一种改进的基于规则学习的文本分类算法 i , 在规则学习的同时进一步过滤噪音特征项。实验 R I P P E R 证明, 该方法不但有效地提取了特征项, 生成较少的规则, 提高了算法的准确率和召回率, 而且缩短了生成规则的 时间, 从而改进了规则学习分类算法的性能。 关键词:文本分类; ; ; 层次特征选择; 噪音特征项; 过滤 R I P P E R h R I P P E R 中图分类号:T P 3 0 1 . 6 文献标志码: A
第4 卷 第1 期 2 1 V o l . 4 2 N o . 1 1
文章编号: ( ) 1 6 7 1 9 3 5 2 2 0 0 7 1 1 0 0 6 6 0 3






( 理

版)
( ) J o u r n a l o f S h a n d o n g U n i v e r s i t y N a t u r a l S c i e n c e
很复杂( 也就是规则所涉及的特征项很多) 的时候, 其优点就不复存在, 而且算法本身的效果也大大下
] 2 降[ 。针对上述问题, 文献[ ] 提出当数据资源规模 3
很大, 并且存在着一定数量噪音数据的时候, 在调用 R I P P E R分类算法之前首先进行特征选择可以改善 算法效果。 特征选择有很多方法, 文献[ ] 对常用的特征选 4 和C 最有效的结论。 对 择方法进行 比 较 , 得出I G H I
收稿日期: 2 0 0 7 0 6 0 8 基金项目: 国家自然科学基金资助项目( , ) 6 0 4 9 6 3 2 5 6 0 5 7 3 0 9 2 , 女, 硕士研究生, 主要研究方向为智能信息检索、 数字图书馆个性化推荐系统 . :x 作者简介: 袁晓航( 1 9 8 1 ) E m a i l i a o h a n g u a n @r u c . e d u . c n . -y
数字图书馆中获得较多应用。但是当规则本身变得
0 引言
互联网上论文资源数量庞大, 专业性强, 传统的 手工分类已经无法适应数字图书馆发展的需要。自 动分类算法, 利用机器学习的方法对散布于网上的 学术资源分类, 是一个非常现实的技术。自动文本
[] 分类已经有了很多研究, 基于规则的 R I P P E R1 分类 算法具有易理解、 易优化、 高效率等特点, 使得其在
根据数字图书馆通常采用层次分类的特点, 文 献[ ] 提出了一个新的算法 h 7 R I P P E R以改进规则学 习算法 R , 该算法运用特征选择方法为不同层 I P P E R 次上的类别选出具有代表性的特征集, 过滤掉了部 分噪音特征项, 在一定程度上改善了 R 。 I P P E R , 但是, i R I P P E R h R I P P E R对特征项的过滤还很 有限。通过实验发现, 运用传统的特征选择算法过 滤掉一部分特征项, 使得调和均值 F达到最大时, 生成的规则中还有一些噪音特征项没被过滤掉。例 如在数据集 R 中, 有关类 c 训练出规 e u t e r s 2 1 5 7 8 o f f e e } , 明显 s 特征项是噪音特征项, 还 则{ s t a t i s t i c s t a t i s t i c s 需要进一步过滤。同样, 在人民大学数字图书馆经 济类的数据中, 经验” 、 F 8 1货币类中也生成了如“ “ 德国” 噪音规则。这些噪音特征项在生成的规则中 占有的比例多达 1 。 ? 3 , 通过 本文在 R I P P E R h R I P P E R算法的基础上, 改进生成规则和剪枝规则的条件来对噪音特征项进 行进一步过滤, 提出了一种改进的基于规则学习的 文本分类算法 i 。 R I P P E R







( 理

版)
第4 卷 2
于基于规则的分类方法, 特征集的大小对结果的影
] 5 响非常大。当特征集较大, 会造成过渡拟合[ , 使得
[ ] 8 最 大 化, 直到 特征 项, 使 r的 信 息 增 益 F O I L ) ; ( ) 剪枝规则阶段: 从规则的末尾特征项 n r = 0 2 C(
反之, 当特征集较小, 又会造成分类错误 效果下降 . 过高。因此, 如何选择一个合适的特征集成为算法
] 6 。 设计的一个关键问题[
开始, 重复删除直到度量公式( )- n ) ) p r r ? C( C( ( ) ) ) 达到最大。 p r +n r C( C( 当特征项含有较多噪音 传统的 R I P P E R算法, ] 1 。文献[ ] 虽然提出对 数据的时候, 效果大大下降[ 7 数据集做特征选择, 但生成的规则中仍然有很多噪 音特 征 项, 例如类 c 中出现了规则{ , o f f e e c o f f e e e x } 等, 为了进一步过滤特征项, 提出了一种改进 p e c t 的基于规则学习的分类算法— i 。 R I P P E R
:a i R I P P E R ni m p r o v e dr u l e b a s e dt e x t c a t e g o r i z a t i o na l g o r i t h m
,D Y U A NX i a o h a n g UX i a o y o n g
( ,R ,B ,C ) S c h o o l o f I n f o r m a t i o n e n m i nU n i v e r s i t y o f C h i n a e i j i n g 1 0 0 8 7 2 h i n a :T ,q ,a A b s t r a c t h e r u l e b a s e d t e x t c a t e g o r i z a t i o n a l g o r i t h mR I P P E Rw a s s p e c i a l i z e d w i t h e a s y u n d e r s t a n d i n g u i c k o p t i m i z a t i o n n d ,w ,n , h e nt h e r u l e r e f e r s t o t o o m a n y f e a t u r e s o t o n l yw e r et h ea b o v ea d v a n t a g e s a p p a r e n t l yw e a k e n e d h i g he f f i c i e n c y . H o w e v e r b u t a l s o t h e p e r f o r m a n c e o f t h e a l g o r i t h md e c r e a s e s . T h e h i e r a r c h y b a s e d h R I P P E Rt h o u g h u s e s h i e r a r c h i c a l f e a t u r e s e l e c t i o n a n d c a ns t i l l n o t f i l t e r f e a t u r e s f u l l y . T h e na ni m p r o v e dt e x t c a t e g o r i z a t i o na l g o r i t h mi R I P P E Rw a s p r o p o s e dt os o l v et h ep r o b l e m s i n ,w t h el e a r n i n g p r o c e s s o f R I P P E Ra n d h R I P P E R h i c h f i l t e r s f e a t u r e s m o r e t h o r o u g h l y d u r i n g t h e l e a r n i n g p r o c e s s . T h e e x p e r i m e n t ,g ,a e n e r a t e s f e w e r r u l e s n dr e d u c e s t h et i m ei nt h eg r o w i n gp r o c e s s . T h e r e f o r ei t i m p r o v e s t h a t i t s e l e c t s f e a t u r e s e f f e c t i v e l y p r o v e s t h e p e r f o r m a n c e o f t h e r u l e b a s e dt e x t c a t e g o r i z a t i o n . :t ;R ;h ;h ;n ;f K e yw o r d s e x t c a t e g o r i z a t i o n I P P E R R I P P E R i e r a r c h i c a l f e a t u r e s e l e c t i o n o i s y f e a t u r e s e t i l t e r
相关文档
最新文档