基于FVSM和自组织映射网络的Web文本自动分类方法

合集下载

基于vsm的网页文本分类技术研究

基于vsm的网页文本分类技术研究

硕士学位论文 基于VSM 的网页文本分类技术研究 王鹏学 科 门 类: 工 学 学 科 名 称: 计算机应用技术 指 导 教师: 周红芳 副教授申 请 日 期:西安理工大学硕士学位论文II Finally, a classifier is constructed using the improved WCA algorithm based on thesemi-supervised machine learning theory. SougouCS, the Internet corpus of Sogou lab, and the data sets obtained by the Web crawler are used in the experiment. The experimental results show that the improved algorithm has a higher accuracy compared with the traditional.Key words:Chinese webpage classification; feature extraction; weight calculation; vector space model ( VSM )目录目录1 前言 (1)1.1 选题背景和意义 (1)1.2 课题相关的国内外研究现状 (2)1.2.1 国外文本分类的研究现状 (2)1.2.2 国内文本分类的研究现状 (3)1.2.3 基于网页分类技术的研究现状 (4)1.3 论文研究内容及结构组织 (4)1.3.1 论文研究内容 (5)1.3.2 论文的组织结构 (5)2 Web挖掘研究概述 (7)2.1 Web挖掘概述 (7)2.1.1 Web挖掘定义 (7)2.1.2 Web挖掘过程 (8)2.2Web挖掘的分类 (8)2.3 Web页面内容提取方法 (11)2.3.1基于模板的网页内容提取法 (11)2.3.2基于统计的网页内容提取法 (12)2.3.3基于视觉的网页正文提取法 (12)2.4 Web挖掘的特点及面临的挑战 (13)2.5 本章小结 (14)3 网页文本分类关键技术 (15)3.1 文本自动分类 (15)3.1.1 文本自动分类概念 (15)3.1.2 文本自动分类算法 (15)3.2中文网页自动分类过程 (16)3.3 中文网页预处理 (17)3.3.1 HTML 解析 (17)3.3.2 中文分词 (18)3.3.3删除停用词 (19)3.3.4 词条选择 (19)3.4 网页文本表示 (20)3.4.1 布尔模型 (20)3.4.2 概率模型 (20)3.4.3向量空间模型 (21)3.5 特征提取 (21)3.6网页文本分类算法 (23)3.7 网页分类效果的评价指标 (25)I西安理工大学硕士学位论文II 3.8 本章小结 (26)4 基于特征选择的网页分类算法 (27)4.1 网页内容抽取及预处理 (27)4.1.1 中文网页简介及特征 (27)4.1.2 文本采集 (27)4.1.3 特征词的复合权重 (28)4.2 TFIDF算法的改进 (29)4.2.1 TFIDF算法概述 (29)4.2.2 TFIDF的改进算法 (30)4.3相似度判定及权重均衡 (32)4.3.1 相似度判定 (32)4.3.2 权重均衡 (33)4.4实验与分析 (33)4.4.1 实验数据 (34)4.4.2 分类器选择 (35)4.4.3 实验流程 (36)4.4.4 实验结果 (38)4.5本章小结 (42)5 总结和展望 (43)5.1 工作总结 (43)5.2 工作展望 (43)致谢 (45)参考文献 (45)在校期间发表的学术论文 (51)前言1 前言1.1 选题背景和意义随着计算机与通讯技术的快速发展、互联网迅速普及应用,网络上的网页正以几何级数的速度增长。

一种基于VSM的中文网页分类方法

一种基于VSM的中文网页分类方法

一种基于VSM的中文网页分类方法
孔令成;郑诚;吴永俊
【期刊名称】《微型机与应用》
【年(卷),期】2009(028)017
【摘要】本文应用有指导机器学习方法实现了一个分类器.运用改进型的MI进行特征提取,并对传统的TFIDF加权公式进行了改进.实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求.
【总页数】3页(P56-58)
【作者】孔令成;郑诚;吴永俊
【作者单位】安徽大学,计算智能与信号处理重点实验室,安徽,合肥,230039;安徽大学,计算智能与信号处理重点实验室,安徽,合肥,230039;安徽大学,计算智能与信号处理重点实验室,安徽,合肥,230039
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.一种基于预分类的高效SVM中文网页分类器 [J], 许世明;武波;马翠;邸思;徐洪奎;杜如虚
2.一种基于支持向量机的专业中文网页分类器 [J], 李亮;刘万春;徐泉清;朱玉文
3.一种抗噪音的中文网页分类方法 [J], 王小冷;王斌
4.一种基于传统VSM和词共现概念的中文文本聚类的研究 [J], 耿焕同;陈少军
5.基于KNC算法的中文网页分类方法研究 [J], 李旻;杜海顺;王琪
因版权原因,仅展示原文概要,查看原文内容请购买。

基于VSM的中文网页自动分类模型

基于VSM的中文网页自动分类模型
74. 40
30. 13 18. 38 28. 29
25. 60
表 2 封闭性测试评测结果 (单位 :/ %) 类别 查全率 查准率 遗漏率 正确率 错误率
经济 政治 体育 广义平 均结果
75. 33 95. 06 86. 60
85. 66
98. 12 78. 45 81. 85
86. 14
0. 96 15. 86 5. 49
要对 Internet 上出现的文本数据进行方便有效的查询检 索 , 首先应根据文档中所含的文本特征按特定的主题范围对 其进行分类 。常用的文本分类方法几乎都是基于内容的 , 即 利用文本内容的相似度对文本进行分类 。诸如基于概念的文 档分类算法 [1 ] 、K- 最近邻接参照分类算法 ( K- NN) [2 ] 、贝叶 斯分类算法 (Nalve Bayesian Classifier) [3 ] 、以及基于语义网络的 概念推理网分类算法[4 ]等 。 2. 1 基于概念的文献分类法
7. 44
89. 56 88. 27 92. 76
90. 19
10. 44 11. 73 7. 24
9. 81
实验表明 , 这种基于向量空间模型的中文网页自动分类 方法 , 不仅理论上易于建立和更新 , 而且分类的精确度也得 到了提高 。从以上表格中所示的数据可以看出 , 采用语言信 息和统计信息相结合的方法抽取特征词取得了较好的效
(7)
(7) 这里 c , c′, c1 , c2 是内部节点 C0 的孩子 , f ( t , d ,
c) 是将 c 类中的文章 d 的长度标准化为 1 之后词项 t 在
d 中出现的总次数 ,
∑ μ(c ,t) =
1 c
d ∈cf ( t ,d ,c) 。。

一种改进的VSM及其在文本自动分类中的应用

一种改进的VSM及其在文本自动分类中的应用

一种改进的VSM及其在文本自动分类中的应用
张婷慧;耿焕同;蔡庆生
【期刊名称】《微电子学与计算机》
【年(卷),期】2005(22)12
【摘要】目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档。

针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进。

在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档。

实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高。

【总页数】4页(P24-27)
【关键词】文本自动分类;向量空间模型;Apfiori算法;词共现
【作者】张婷慧;耿焕同;蔡庆生
【作者单位】中国科学技术大学计算机科学技术系
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种改进的谱聚类方法及其在文本分析中的应用 [J], 王春腾;符传谊;邢洁清
2.一种改进的文本相似度算法在政务系统中的应用 [J], 贾惠娟
3.一种改进的朴素贝叶斯分类器在文本分类中的应用研究 [J], 张璇;左敏
4.一种改进的免疫算法及其在文本分类中的应用 [J], 张启蕊;谭景华
5.一种改进的谱聚类方法及其在文本分析中的应用 [J], 王春腾; 符传谊; 邢洁清因版权原因,仅展示原文概要,查看原文内容请购买。

基于FVSM和自组织映射网络的Web文本自动分类方法

基于FVSM和自组织映射网络的Web文本自动分类方法

基于FVSM和自组织映射网络的Web文本自动分类方法许增福;梁静国;田晓宇
【期刊名称】《哈尔滨工业大学学报》
【年(卷),期】2004(36)9
【摘要】针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊特征向量(FVSM)和自组织特征映射网络的分类方法.网络由输入层和竞争层组成.输入层节点与竞争层节点实行全互连接.输入层完成分类样本的输入,竞争层提取输入样本所隐含的模式特征,并对其进行自组织,在竞争层将分类结果表现出来.分无监督和有监督两个阶段完成对网络的分类训练.该方法在特征提取时充分考虑了特征项在文档中的Web位置信息,构造出模糊特征向量,使自动分类原则更接近手工分类方法.以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性.
【总页数】5页(P1168-1172)
【作者】许增福;梁静国;田晓宇
【作者单位】哈尔滨工程大学,经济管理学院,黑龙江,哈尔滨,150001;哈尔滨工程大学,经济管理学院,黑龙江,哈尔滨,150001;哈尔滨工程大学,经济管理学院,黑龙江,哈尔滨,150001
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种基于粗糙-神经网络的文本自动分类方法 [J], 王效岳;白如江
2.基于粗糙集和RBF神经网络的文本自动分类方法 [J], 白如江
3.一种基于自组织映射神经网络的Deep Web聚类方法 [J], 吴凌云
4.基于模糊向量和BP网络的Web文本自动分类方法 [J], 李小红;许少华
5.一种基于自组织映射神经网络的Web页面个性化推荐模型 [J], 宋庆伟;向阳因版权原因,仅展示原文概要,查看原文内容请购买。

基于VSM的文本分类挖掘算法综述

基于VSM的文本分类挖掘算法综述

基于VSM的文本分类挖掘算法综述
夏火松;刘建
【期刊名称】《情报探索》
【年(卷),期】2010(000)009
【摘要】简要介绍了VSM和文本分类挖掘的流程,分析了基于统计方法和基于机器学习的6种常用构造文本分类挖掘分类器的算法,指出了利用各种算法构造的分类器的特点,同时给出了这些算法的优化方向,为使用者选择、学习、改进算法提供依据.
【总页数】4页(P18-21)
【作者】夏火松;刘建
【作者单位】武汉科技学院经济管理学院,湖北,430073;武汉科技学院经济管理学院,湖北,430073
【正文语种】中文
【中图分类】G350
【相关文献】
1.基于改进VSM的Web文本分类方法 [J], 胡晓;王理;潘守慧
2.基于隶属度限幅特征VSM的文本分类模型 [J], 周菁;戴冠中;周婷婷
3.基于HowNet的VSM模型扩展在文本分类中的应用研究 [J], 孙宏纲;陆余良;刘金红;龚笔宏
4.基于VSM和LDA模型相结合的新闻文本分类研究 [J], 彭雨龙
5.一种基于模糊VSM和神经网络的文本分类方法 [J], 潘俊辉;王辉
因版权原因,仅展示原文概要,查看原文内容请购买。

一种改进的基于VSM的文本分类算法


要: 在文本 分类 中 , 向量 空间模 型( S  ̄ V M)
用 ; 其它部 分 采用基 本的 向量 空间模型 方 法进行计 算 。 这 两部 分的计 算结 果进 行加权 求和 , 对 对 来综合 判行 了测试 , 实验结 果表 明改进 的方 法提 高 了分 类的精 确率 、 召回率和 F 测试值 。 1
到类 别 的 映射 。 目前 ,基 于 机 器 学 习 的英 文 文 本 分 类 已经 取
揭示其 内容 的独立属性 , 而每个属性都可 以看成是概念空间的

个 维数, 些独立属性称 为文本特 征项 , 这 文本就可 以表示 为
这 些 特 征 项 的 集 合 。 因 此 文 本 就 可 以表 示 成 形 如 d(w; ; -t w -,

种改进的基于 VS 的文本分类算法 M
张 彰 , 樊孝 忠
( 北京理工大学 计算机科 学系,北京 108) 001

的文 本表 示形式 , 是 它把 文 本看作 词袋 , 但 忽略 了文本 的结构信 息 通 过 区别对待 文本 的不 同部分 来改进基 本 的向量 空 间方 法 : 于标题 和段 落 首尾 句采用核 心词共 现 的方法 来计算其对 分 类 的作 对
0 引 言
随着互联 网在全球范 围内的快速发展 ,人们面临 的信息 呈指数增 加。在人们所面 临的信 息 中 7 0%以上 是文本信息 , 因此对 文本信 息的处理技术尤为重要 。分类 是组织和管理信 息 的一个 有效 的手段,将信 息进 行分类可 以方 便人们对信息 的浏 览、 查找 、 使用。文本分类是指根据 文本的 内容 , 和 由计 算机根据某种 算法, 把文本判 别到预先定义好的类别 , 即文本
维普资讯

基于自组织特征映射的网页分类研究

基于自组织特征映射的网页分类研究
张义忠;赵明生;梁久祯
【期刊名称】《测试技术学报》
【年(卷),期】2002(016)0z2
【摘要】本文提出了一种SOFM(自组织特征映射)与LVQ(学习矢量量化)相结合的分类算法,利用一种新的网页表示方法,形成特征向量并应用于网页分类中.该方法充分利用了SOFM自组织的特点,同时又利用LVQ解决聚类中测试样本的交迭问题.实验表明它不仅具有较高的训练效率,同时有比较好的查全率和查准率.
【总页数】6页(P1433-1438)
【作者】张义忠;赵明生;梁久祯
【作者单位】清华大学电子工程系,北京,100084;清华大学电子工程系,北
京,100084;清华大学电子工程系,北京,100084
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于网页分类的Web应用软件测试研究 [J], 刘小园
2.基于深度学习的网页分类算法研究 [J], 陈芊希;范磊
3.基于结构和文本特征的网页分类技术研究 [J], 顾敏;郭庆;曹野;朱峰;顾彦慧;周俊生;曲维光
4.基于分词和基于N-Gram的网页分类系统比较研究 [J], 高伟锋;刘连芳
5.基于眼动实验的网页分类信息优化设计研究 [J], 刘玮琳;孙立英;刘金波;万鹏
因版权原因,仅展示原文概要,查看原文内容请购买。

一种改进的基于VSM的文本分类算法

一种改进的基于VSM的文本分类算法
张彰;樊孝忠
【期刊名称】《计算机工程与设计》
【年(卷),期】2006(027)021
【摘要】在文本分类中,向量空间模型(VSM)是常用的文本表示形式,但是它把文本看作词袋,忽略了文本的结构信息.通过区别对待文本的不同部分来改进基本的向量空间方法:对于标题和段落首尾句采用核心词共现的方法来计算其对分类的作用;对其它部分采用基本的向量空间模型方法进行计算.对这两部分的计算结果进行加权求和,来综合判定文本的类别.对改进的文本分类方法进行了测试,实验结果表明改进的方法提高了分类的精确率、召回率和F1测试值.
【总页数】3页(P4078-4080)
【作者】张彰;樊孝忠
【作者单位】北京理工大学,计算机科学系,北京,100081;北京理工大学,计算机科学系,北京,100081
【正文语种】中文
【中图分类】TP391.12
【相关文献】
1.一种改进的基于质心的文本分类算法 [J], 陈震;吴斌;沈崇玮;张忠辉;王柏
2.一种扩展的基于VSM的Web文本分类算法 [J], 饶文碧;柯慧燕;张丽
3.一种基于多特征因子改进的中文文本分类算法 [J], 叶敏;汤世平;牛振东
4.一种基于密度的改进KNN文本分类算法 [J], 茅剑;刘晋明;曹勇
5.一种基于粗糙集的改进KNN文本分类算法 [J], 苟和平;景永霞;冯百明;李勇因版权原因,仅展示原文概要,查看原文内容请购买。

基于改进VSM的Web文本分类方法

基于改进VSM的Web文本分类方法
胡晓;王理;潘守慧
【期刊名称】《情报杂志》
【年(卷),期】2010(029)005
【摘要】Web文本自动分类技术是Web文本挖掘的关键技术之一.针对Web文档中不同标签中的文本具有不同的表达文档内容的能力,提出了改进的特征项加权计算方法.根据特征项在文档中的位置和出现频率计算其权值,并给出了具体的Web 文本分类算法和评测方法.经实验验证,改进后系统的微平均查准率均大于0.8,分类性能明显好于改进前.
【总页数】4页(P144-147)
【作者】胡晓;王理;潘守慧
【作者单位】北京航空航天大学图书馆,北京,100191;北京航空航天大学图书馆,北京,100191;北京航空航天大学图书馆,北京,100191
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种改进的基于VSM的文档快速分类方法 [J], 范灵
2.基于FVSM和自组织映射网络的Web文本自动分类方法 [J], 许增福;梁静国;田晓宇
3.基于模糊VSM和RBF网络的文本分类方法 [J], 许少华;李小红;潘俊辉
4.一种基于改进贝叶斯算法的Web文本分类方法 [J], 徐小伟;成亚谊
5.一种基于模糊VSM和神经网络的文本分类方法 [J], 潘俊辉;王辉
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中的一些 “关键句” , 即那些包含诸如 “关键在于 …… ” “ 、旨在 …… ” 、 “主要目的 ( 标 ) 是 …… ” 等的 句子 . 在关键句中的词有相当大的可能性被选 中 ,而且给予较大的隶属度 . ( 5) 在引言和结论段中的词有较大的可能性 被选中 ,并给予一定的隶属度 . ( 6) 在段首或段尾出现的词有较大的可能性 被选中 ,并给予一定的隶属度 . ( 7) 要重视选择出现频度高的词 ,并随着频度 的增加逐次增加其隶属度 . ( 8) 隶属度叠加原则 ,即若一个特征项同时处 于上述多种地位 ,则其隶属度以某种方式迭加 . ( 9 ) 同义词 、 近义词或转义词出现时 , 根据其 间的语义关联度大小作为某关键词的一次或部分 出现统计在出现频数中 . ( 10) 对上述方法获得的 “模糊关键词集” 的隶 λ - 滤波操作” 属度进行归一化处理 ; 并进行 “ ,把 该模糊关键词集中的隶属度小于λ( 0 <λ < 1 ) 的 关键词滤掉 . 这样就可把不够重要的关键词忽略 掉 ,而最终得到一个可以近似描述原文语义的 “模 糊关键词集” . 假设有 P 篇待分类文档 , 根据上述原则 , 模 糊特征项集的构造可描述如下 : step 1 : 分别对 P 篇文档按原则 ( 1 ) - ( 10 ) 构 造模糊特征项集 : C 1 , C 2 , …, C p ;
© 1995-2006 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
第9期
许增福 , 等 : 基于 FVSM 和自组织映射网络的 Web 文本自动分类方法
・1169 ・
VSM) 中 ,文本被简单地表示成向量 , 作为向量空
© 1995-2006 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
・1170 ・
C 1 = { T 1 , T 2 , …, T N 1 } ; C 2 = { T 1 , T 2 , …,
p p p T2 ; Cp = { T1 , T2 , …, T N N 2} ; … p}
1
1
1
22Leabharlann step 2 : 在以上模糊集中 ,将特征项的同义词 、
转义词 、 近义词看作同一特征项 , 计算 P 个模糊 集的并集 : C 1 ∪ C 2 ∪ … ∪ C p = { T 13 / T 1 ,
许增福 , 梁静国 , 田晓宇
( 哈尔滨工程大学 经济管理学院 , 黑龙江 哈尔滨 150001)
摘 要 : 针对 Web 信息挖掘中的文本自动分类问题 ,提出了一种基于模糊特征向量 ( FVSM) 和自组织特征 映射网络的分类方法 . 网络由输入层和竞争层组成 . 输入层节点与竞争层节点实行全互连接 . 输入层完成 分类样本的输入 ,竞争层提取输入样本所隐含的模式特征 ,并对其进行自组织 ,在竞争层将分类结果表现出 来 . 分无监督和有监督两个阶段完成对网络的分类训练 . 该方法在特征提取时充分考虑了特征项在文档中 的 Web 位置信息 ,构造出模糊特征向量 , 使自动分类原则更接近手工分类方法 . 以中国期刊网全文数据库 部分文档数据为例验证了该方法的有效性 . 关键词 : 数据挖掘 ; 文本分类 ; 神经网络 ; 学习算法 中图分类号 : TP391 文献标识码 : A 文章编号 : 0367 - 6234 ( 2004) 09 - 1168 - 05
随着文本信息的快速增长 , 特别是 Internet 上在线信息的增加 , 文本 ( 网页 ) 分类显得越来越 重要 . 由于分类可以在较大程度上解决目前网上 信息杂乱现象 , 方便用户准确地定位所需的信息 和分流信息 , 因此 , Web 文本自动分类已成为一 项具有较大实用价值的关键技术 , 是组织和管理 信息数据的有力手段 . 文本分类的目标是在分析
( School of Economics and Management , Harbin Engineering University , Harbin 150001 , China)
Abstract : Aimed at problems of document s classification in data mining , a classification met hod is presented based on f uzzy eigenvector and self2organization characters mapping network. The network is constit uted of input layer and competition layer whose nodes link wit h each ot her totally. The input layer performs classi2 fication samples provision , competition layer ext ract s t he implicit pattern characters of input samples and takes self2organization to t hem , t hen represent s t he classification result at competition layer. The network t raining includes two p hases of non2supervisal and supervisal. The feat ure Web information of it s locality in t he document is considered while t he feat ures are ext racted and t he f uzzy Eigenvector is const ructed , as a result , t he automatic classification principle is close to t he manual classification met hod. Finally t he avail2 ability of t he model and algorit hms is proved by part document s of china periodical document database. Key words : data mining ;document classification ;neural network ;learning algorit hm
Document automatic classif ication method base on f uzzy eigenvector and self2organization characters mapping net work
XU Zeng2f u , L IAN G Jing2guo , TIAN Xiao2yu
T 2 / T 2 , …, T N / T N } , 得到模糊特征项集 { T 1 , T 2 , …, T N }
3 3
112 模糊特征向量的构造
在模糊集{ T 1 , T 2 , …, T N } 中 , 特征项在某一 文档中出现的频数可按以下原则计算 : ( 1) 若特征项在原文中已被作者选为关键词 ( 如果有的话) ,应给予隶属度 1 ; ( 2) 若特征项在标题和摘要 ( 如果有的话 ) 中 出现 ,应给予较高的隶属度 ; ( 3) 若特征项出现在正文中的一些 “关键句” , 即那些包含诸如 “关键在于 …… ” 、 “旨在 …… ” 、 “主要目的 ( 标) 是 …… ” 等的句子 , 应给予较大的 隶属度 ; ( 4) 若特征项出现在引言和结论段中 ,应给予 一定的隶属度 ; ( 5) 若特征项出现在段首或段尾 ,应给予一定
第 36 卷 第9期 2 0 0 4年9月
哈 尔 滨 工 业 大 学 学 报 J OU RNAL OF HARB IN INSTITU TE OF TECHNOLO GY
Vol136
No 19
Sep . , 2004
基于 FV SM 和自组织映射网络的 W eb 文本自动分类方法
1 文档模糊特征提取
特征提取是文本分类系统中十分关键的问 题 ,文本分类特征选取恰当与否对文本分类的正 确性和分类效率有重要影响 . 传统 VSM 的特征 提取方法一般是基于统计的 , 首先根据某一准则 对特征项进行评分 , 然后选出分值较高的作为特 征构成特征向量空间 . 常用的特征提取方法有文 档频率 、 信息增益 、 互信息等 . 由于特征提取一般 不考虑特征项在文档中的位置信息 , 例如同一特 征项出现在标题 、 关键词 、 摘要 、 正文中被等同看 待 ,因此会影响分类精度 . 本文对上述方法进行 了改进 ,应用模糊数学思想 ,把特征项在文档中的 位置作为反映文档主题的重要程度 ( 隶属度 ) , 并 根据特征项的隶属度计算特征项的频数 . 111 模糊特征项集的构造 构造模糊特征向量首先要构造一个模糊特征 项集 . 一个有效的特征项集 , 必须具备以下两个 特征 : ( 1) 完全性 ,特征项能够体现全部文档内容 ; (2) 可区分性 , 根据特征项集 , 能将目标文本同其 它文档相区分 . 如何根据正文的语义提取可近似 表示正文语义的特征项集是一个复杂问题 , 严格 讲除了要求理解正文的含义之外 , 尚需有总结概 括的能力乃至有较深的领域知识才能较好地解决 这个问题 ,这是难以用现有计算机技术来实现的 . 因此必须与语言学家们结合把人类在抽取正文特 征项时所遵循的原则总结出来 . 可能的原则可以 包括 : ( 1 ) 正文中的诸如前置词 、 冠词 、 代词等词类 一般不在被选择之列 . 形容词与副词若被选中 , 必须与其修饰的词结合在一起 ,作为一个特征项 . ( 2) 若在原文中已被作者选为关键词 ( 如果有 的话) 则也选中它 ,并给予隶属度 1. ( 3) 在标题和摘要 ( 如果有的话 ) 中的名词有 最大的可能性被选中 ,并给予较高的隶属度 .
相关文档
最新文档