一种基于向量空间模型的Web本体自动分类方法

合集下载

中文网页自动分类研究及分类算法的设计与实现

中文网页自动分类研究及分类算法的设计与实现

中文网页自动分类研究及分类算法的设计与实现刘超北京邮电大学信息处理与智能技术重点实验室,北京 (100876)E-mail:liuchaorichard@摘要:本文回顾了中文网页自动分类的发展过程和研究现状,说明了本文中网页自动分类是采用文本自动分类的方法;指出了网页分类的难点及突出问题;关于分类算法,本文集成了向量空间模型架构下分类准确度最好的KNN算法和分类速度最快的Rocchio算法,设计了一种Rocchio-KNN分类算法,该算法采用Rocchio方法进行类别过滤,再采用KNN方法进行细分。

实验表明,这种方法在确保一定分类准确率的基础上,大大地提高了分类效率,能够满足对大规模样本集进行实时处理的需求;最后介绍了中文网页自动分类的前期工作及系统构架。

关键词:网页内容提取,文本自动分类,自动分类算法中图分类号:TP3911.引言目前,因特网上的中文网站数量庞大,增长迅猛,需对这些网站进行分类,以便于更好更快速的查询信息;尽管也存在如Google目录,Yahoo,搜狐等分类目录式的中文网站分类,但由于采用人工的方法进行分类,效率低下,更新速度慢,无法完成对目前庞大的中文网站的大范围覆盖,因此中文网页自动分类技术已经成为组织和管理在线文本数据的关键技术。

就目前的研究来看,虽然网页自动分类的准确率不怎么高,但网页自动分类的研究对基于内容的信息检索,Web数据挖掘等应用还是具有深远的意义。

2.文本自动分类的研究现状本文所研究的中文网页自动分类,其核心技术为文本自动分类技术,下面介绍一下文本自动分类技术的发展情况。

文本自动分类起源于上个世纪50年代,H.P.Luhn在这方面作了开创性的研究,提出了词频统计的思想,60年代G.Salton等人提出的向量空间模型成为后来进行文本表示的主要方法,70年代以后,M.E.Stevens、S.Keenan、L.B.Doyle等人也在这个领域进行了卓有成效的研究。

自动分类在国外经历了三个发展阶段:第一阶段(1958~1964)主要进行自动分类的可行性研究,第二阶段(1965~1974)进行自动分类的实验研究,第三阶段(1975~至今)进入实用化阶段。

基于向量空间模型的文本分类研究

基于向量空间模型的文本分类研究

目录1 绪论 (1)1.1 研究意义 (1)1.2 文本分类的研究现状 (2)1.3 论文的研究内容及组织结构 (5)2 文本分类相关技术 (6)2.1 文本分类过程 (6)2.2 文本预处理 (7)2.3 特征降维 (8)2.4 文本表示 (9)2.5 分类算法 (11)2.6 分类性能的评价 (11)2.6.1 文本分类语料库与测试方法 (11)2.6.2 评价指标 (12)2.7 本章小结 (13)3 特征选择方法研究 (14)3.1 几种常用的特征选择方法 (14)3.1.1 文档频率 (14)3.1.2 互信息 (14)3.1.3 信息增益 (15)3.1.4 统计量CHI (16)2χ3.2 改进的互信息特征选择方法 (16)3.3 特征选择方法的实验分析 (17)3.4 本章小结 (21)4 基于蚁群聚类的文本分类算法 (23)4.1 几种常用文本分类算法 (23)4.1.1 类中心向量算法 (23)4.1.2 朴素贝叶斯算法 (24)4.1.3 支持向量机 (25)4.1.4 KNN 算法 (29)4.2 蚁群聚类 (31)4.2.1 聚类 (31)4.2.2蚁群聚类 (32)4.3 基于蚁群聚类的KNN分类算法 (35)4.4 分类算法的实验分析 (37)4.5 本章小结 (42)5 文本分类系统的设计与实现 (43)5.1 文本分类系统总体设计 (43)5.2 系统实现 (43)5.2.1训练模块 (44)5.2.2分类模块 (47)5.3 本章小结 (49)6 全文总结及未来工作展望 (50)6.1 全文总结 (50)6.2 工作展望 (50)参考文献 (52)致谢 (55)1 绪论1.1 研究意义随着计算机技术和网络技术的飞速发展,包括文本信息在内的各种信息资源呈现爆炸式增长。

面对如此庞大而且急剧膨胀的信息海洋,如何高效地组织和管理这些信息,并快速、准确、全面地从中搜索到用户所需要的信息是当前信息科学与技术领域面临的一大挑战[1]。

基于向量空间模型的分层网页分类方法

基于向量空间模型的分层网页分类方法
whc l s r o t e s ma t so b p g sa d ma e t e ln t ft o e v co ss o trt a e tr r s n e t r i h i c o e e n i fwe a e k gh o s e t r h r n f au e p e e tv co s s t h c n h e h e h
网页 自动 分类 系统 能够 在给 定 的分类模 型 下 ,根据 分类 方 法有 最近 邻分类 、贝叶斯 分类 、决策 树方 法
网页 内容 自动对 其分 类 , 而更 好地 帮助 人们 组织 以及 基 于支持 向量机 和 向量空 间模 型 ( etr p c 从 V c ae oS 及 挖掘 有 用信 息. 网页 自动分类 已成为 信 息处 理领 Mo e,简 称 V M) dl S 等方 法 l 中文 网 页分 类 研 究 主 1 1 .
随 着 互联 网技 术 的发 展 ,海 量 信 息 以 We b网
国 内外 的学 者 已 对 网 页 自动 分 类 做 了大 量 富
将 页格式 存 储 在 Itre 上 ,如何 从 数 以亿 计 的 网页 有成 就 的工作 , 众 多的统计 方 法和 机器 学习方 法 nen t 在英 文 网页 自动 分类 领 域 , 中发 现有 价值 的信 息 是信 息 处 理 领域 的重要 目标 . 应 用 于 自动 网页分 类 .
域 重要 的研究方 向之 一.
收 稿 日期 : 0 9 l - 1 20 一 o 2
要集 中在 朴素 贝叶斯[ ] 2 、向量 空 间模 型 和支持 向 - 3
i S .Ex rm e t e ulss w h tte hir r hca b p ge ca sfc ton m e o a d c e s a c ltng wor nV M e p i nalr s t ho t a h e a c i lwe a ls i a i t d c n e r a e c l u a i h i k

一个基于概念的中文文本分类模型

一个基于概念的中文文本分类模型

一个基于概念的中文文本分类模型苏伟峰李绍滋厦门大学计算机科学系厦门361005摘要本文提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排岐,进而得到关键词的概念,再对关键词的概念进行综合而得到该文本的所属的类别,实验证明该模型有较好的效果。

关键词文本分类概念《知网》全信息一、引言在过去几年中随着科学技术的迅猛发展,特别是随着因特网的快速发展,各种信息情报激增,特别是网上信息浩如烟海,人们可能通过因特网能很快地得到大量的资料,因此如何对所获得资料进行科学有效地管理是摆在人们面前一个不可回避而又很有意义的问题。

对资料进行管理一个很常见的方法就是对它们系统地进行分类。

显然,用人工对文本材料进行分类的过程是通读所有文章,然后再对它们进行归类保存。

当然这需要许多具有丰富经验和专门知识的分类人员做大量的工作,显然这个过程具有周期长、费用高、效率低的特点,在信息爆炸的今天很难满足实际需要,如何运用计算机进行自动分类成了许多人的研究方向。

一般而言,文本分类方法可分为两个类型:基于外延方法的分类方法:这种类型的分类方法不关心文本的语义,根据文本的外在特征进行分类。

最常见的方法是基于向量空间模型(V ector Space Module)的方法,该方法的思想是:把文本表征成由特征项构成的向量空间中的一个点,通过计算向量之间的距离,来判定文本之间的相似程度。

采用该模型的文本分类方法一般步骤是:先通过对训练语料的学习对每个类建立特征向量作为该类的表征,然后依次计算该向量和各个类的特性向量的距离,选取距离大小符合域值的类别作为该文本所属的最终类别。

这种方法有了很多的应用,但是其不足之处也是显而易见的:1.正确率一般只能达到80%,且很难进一步向上发展2.对于不同体材的文本,则其归类正确率更是大打折扣。

基于语义的分类方法:这种类型的分类方法采用全部或部份理解文本的语义而进行归类。

主要可以分为以下三类:1.基于词的归类技术文本的语义是基于概念之上的,而词是概念的基本构成单位,从文本抽取出能反映出该文本的关键词,通过对关键词归类而进行归类,显然这种方法产生的归类其实并不是真正通过语义来进行归类,属于较早采用的技术。

一种基于关键向量的文本分类模型

一种基于关键向量的文本分类模型

A e tc a sfc to o e a e n k Y v c o t x l s i a i n m d lb s d o e e t r i
Z HA0 o. DI B NG af Hu —u
(c ol f o ue cec n eh o g , ab nvr t o i c n eh o g , ab 500 C ia Sh o o mp t Si ead T cnl y H ri U iesyf S e eadT cn l y H ri 108 , hn ) C r n o n i c n o n
Ke r s d t n n ;tx ls i c t n;v c rs a e mo e y wo d : aa mii g e t a s ai c i f o et p c d l o
0 引言
上世纪 9 0年代 以来 , 联 网技 术得 到了快 速 的 互
向量的形式投影到该空 间中, 搜 索 引 擎 、 息 推 文 信
重) 向量在每一维上的分量对应该特征在这篇文本
中 的权 重 。
16 年 ,o r和 H r提出 了基于 向量空 间模 98 Cv e t a t
型的 ( —ersN i br KN a t e ho, e g ) 法 , 种 算 法 首 先 算 这
维普资讯
20 年g 2 07 1期
中图分类号 :P 8 T 11 文献标识码 : A 文章编号 :09 52 20 )2— 12— 3 10 —25 (07 1 02 0

种 基 于关 键 向量 的文本 分 类 模 型
赵 博 ,丁华福
( 哈尔滨理工大学计算机科学与技术学院,哈尔滨 108 ) 500
3 ~5 , % %)然后 用支持 向量集 学 习得 到新 知识 。同

哈特曼算法-概述说明以及解释

哈特曼算法-概述说明以及解释

哈特曼算法-概述说明以及解释1.引言1.1 概述哈特曼算法是一种常用的文本分类算法,它经常被应用于信息检索、自然语言处理以及机器学习等领域。

该算法的核心思想是通过计算文本中每个单词的权重,来判断该文本属于哪个类别。

相比于传统的基于规则的文本分类方法,哈特曼算法具有更高的准确性和可靠性。

该算法的原理基于向量空间模型和向量相似度计算。

首先,将待分类的文本表示为一个向量,其中每个维度代表一个单词的权重。

然后,通过计算待分类文本与已知类别文本之间的相似度,来确定待分类文本属于哪个类别。

哈特曼算法的优点之一是能够处理大规模的文本数据。

由于它使用了文本的向量表示,可以很好地处理高维稀疏的数据。

此外,该算法还可以自动学习文本中的关键特征,无需人工干预。

这使得哈特曼算法在大数据时代具有广泛的适用性。

除了在文本分类领域应用广泛外,哈特曼算法还可以用于其他领域的问题。

例如,在情感分析中,可以利用哈特曼算法对文本进行情感极性的分类;在垃圾邮件过滤中,可以使用该算法将垃圾邮件与正常邮件进行区分;在推荐系统中,可以通过该算法将用户的兴趣进行分类,从而为用户提供个性化的推荐。

综上所述,哈特曼算法是一种强大而灵活的文本分类算法,通过计算文本中单词的权重和相似度,可以准确地将文本分配到不同的类别中。

它的优点在于能够处理大规模的文本数据,并且具有广泛的应用领域。

在未来的研究中,可以进一步改进该算法的性能,使其在各个领域都能发挥更大的作用。

文章结构:文章主要包含三个部分,即引言、正文和结论。

1. 引言部分介绍了本文的概述、文章结构和目的。

- 1.1 概述:对哈特曼算法进行简要介绍,说明该算法在信息检索领域中的重要性和应用背景。

同时,概述该算法的基本原理和特点。

- 1.2 文章结构:本部分具体说明文章的整体结构和各个章节的内容。

- 1.3 目的:明确本文的写作目的,即通过对哈特曼算法的介绍和分析,探讨其优点和应用,进一步推广和应用该算法。

【信息检索技术习题答案(2016版)】

答案******************************* 一 ********************************************填空1.数值型文字型(字符)语音型图像型2.原料成品3.信息4.自然人为5.数据文本声音图像6.语义差异传递载体7.外表整体内容8.收集传输加工储存(存储)9.信息形式信息内容10.内在的信息需要外在刺激11.标题词单元词叙词关键词12.线性结构非线性结构树形结构网状结构13.数据预处理索引生成查询处理检索14.信息需求信息集合15.出发点依据16.人工赋予自动生成名词解释1.数据:是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。

2.信息加工:是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。

3.信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。

4.检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。

5.信息检索:可以从广义和狭义两个角度理解。

广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。

狭义的信息检索仅指信息查找过程。

6.信息检索系统:是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。

7.检索效果:是指利用检索系统(或工具)开展检索服务时所产生的有效结果。

简答题1.简述了解用户信息需求的作用答:用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。

了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。

一种基于Ontology的中文Web文本聚类算法的研究


稀疏性 : 另外 . 文本 表 现 出 的 复 杂语 义 远 远 不 是各 个独 立词 集 向 量 所 能 描 述 . 且 这种 词 集 独 立 性 的 假 设 也 不符 合 语 言 事 实 。 而 近
I D (

qq J tO : , :

荟宕, ( ) ( ) ( 吼
年来 . 少 学 者 基 于此 展 开 研 究 。 不 文献 f1 出 了一 种 基 于 用 户反 1提 V e c V0 0 c . 馈 的 聚类 技 术 来 解 决词 的 误 匹 配 问 题 .但 由 于 引 入 用 户 反 馈 使 23利 用 粗 糙 集 对 概念 聚类 进 行 二次 反馈 学 习 我 们 把 H w e 本 体 引 入 到 文本 聚类 。 现 概念 映射 , 算 ont 实 该 得 聚类 过 程 变 得 漫 长 .同 时如 何 准 确 的 选 取 正 、反 例 也 是 个 难
维普资讯
2 0 年 第 6期 08

建 电

17 0

种基于 O t oy的中文 We no g l b文本聚类算法的研究
庄世芳
(泉 州 师 范 学 院 福 建 泉 州 3 20 6 0 0) 【 摘 要 】 本 文 引入 H w e 本 体 , 构 t# : oNt 重 -We b文 档 集 特 征 向 量 , 实现 特 征 降 维 , 高聚 类 分 析 的 效 率 ; 提 引入 粗 糙 集 属性 约 简对 文 档 未 登 陆 词 集 进 行 二 次反 馈 学 习 。 正 H w e 的不 完备 性 。最后 , 过 两 个 实验 , 测 了该 聚 类分 析 算 法 优 缺 修 oNt 通 评
1 引 言 .
当前 . 文本 聚 类 面 临 多 方 面 的挑 战 。例 如 。 多 已有 的 文本 征 矩 阵 的 凸 集 外 形 的 聚类 结 果 。 大 设 q q ∈p。 于 概 念集 的文 档 之 间 的相 似 度 公式 转 化 为 : z2 , 基 聚类 分 析都 是 基 于 词 集模 型 . 因此 文 档集 的特 征 矩 阵 具 有 高维

语言数据处理考核试卷

B.循环神经网络(RNN)
C.对抗性神经网络(GAN)
D.支持向量机(SVM)
13.在文本生成任务中,以下哪个模型主要用于生成对话?()
A. GPT
B. Seq2Seq
C. TextCNN
D. BERT
14.以下哪个不是信息抽取的主要任务?()
A.命名实体识别
B.关系抽取
C.事件抽取
D.语音合成
15.在知识图谱中,以下哪个表示实体之间的关系?()
()
2.在自然语言处理中,词袋模型(Bag of Words)是一种忽略______的文本表示方法。
()
3. ______是指计算机程序通过理解和解释人类语言来响应实际语言输入的能力。
()
4.语义分析主要关注的是理解句子中词语的______和句子结构的含义。
()
5. ______是自然语言处理中的一项基本任务,旨在识别文本中的词语并将其分类为不同的词性。
A.分词
B.词性标注
C.停用词过滤
D.语音合成
19.在自然语言处理中,以下哪个方法主要用于识别文本中的潜在主题?()
A. LDA
B. SVM
C. CNN
D. BERT
20.以下哪个不是自然语言处理中常用的语料库?()
A.维基百科
B.腾题,每小题1.5分,共30分,在每小题给出的四个选项中,至少有一项是符合题目要求的)
语言数据处理考核试卷
考生姓名:__________答题日期:_______年__月__日得分:_________判卷人:_________
一、单项选择题(本题共20小题,每小题1分,共20分,在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下列哪种语言不是自然语言处理的研究对象?()

基于网页结构与链接关系的中文文本分类方法

基于网页结构与链接关系的中文文本分类方法郭晓;蒋宗礼【摘要】提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法.考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果.考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果.经过实验证明这一方法提高了分类结果的F1值.【期刊名称】《现代电子技术》【年(卷),期】2010(033)022【总页数】4页(P54-56,63)【关键词】中文文本分类;HTML结构;链接关系;向量空间模型【作者】郭晓;蒋宗礼【作者单位】北京工业大学,计算机学院,北京,100124;北京工业大学,计算机学院,北京,100124【正文语种】中文【中图分类】TN911-34;TP391随着计算机技术、通信技术等信息技术的高速发展,以及互联网基础设施建设与网络信息工具的大量推广应用,网络上的信息正在以几何级数进行着增长。

如何使用户能够方便地从网络上海量的信息资源中获得其期望的部分,成为了当前信息领域重要的研究课题。

网络搜索引擎,是用来进行网络文本索引的一种重要手段,是针对网络中大量网页文本信息进行信息挖掘的有效手段。

在网络搜索引擎的构建中,网页文本分类问题是一个关键性的核心问题。

高质量高效率的网页文本自动分类,对构建高效、实用的搜索引擎起着重要的作用。

同时在解决主题搜索、个性化信息检索、搜索引擎的目录导航等相关问题时,网页文本分类技术也是十分重要的。

因此研究如何提升网页文本分类性能,对研究新一代搜索引擎有着重要意义。

1 网页文本分类技术简析网页文本分类是指按照预先定义的主题类别,根据海量网页文档的内容,确定相应网页的类别。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第35卷 增刊Ⅱ2007年 10月 华 中 科 技 大 学 学 报(自然科学版)J.Huazhong Univ.of Sci.&Tech.(Nature Science Edition )Vol.35Sup.Ⅱ Oct. 2007收稿日期:2007207201.作者简介:王 可(19742),女,硕士研究生;南京,东南大学计算机科学与工程学院(210096).E 2m ail :Keren214@一种基于向量空间模型的Web本体自动分类方法王 可(东南大学计算机科学与工程学院,江苏南京210096)摘要:在分析了Web 本体的结构特征和语言学特征基础上,引入虚拟文档的概念,定义整个本体的虚拟文档为与主题相关的vocabularies 的虚拟文档的组合.以虚拟文档中的词条作为Web 本体分类的特征项.基于RDF 图不容忽视的图状特性,在构造自RDF 图本体的词汇依赖图(vocabulary dependency graph )之上采用相关基于图的排序算法,得到与构造本体虚拟文档相关的vocabularies 对于该本体的重要性权值,进而计算特征项的权值.关 键 词:本体分类;本体重用;向量空间模型中图分类号:TP393 文献标识码:A 文章编号:167124512(2007)S220157203A vector space model based automatic Webontology classif ication methodW ang Ke(School of Computer Science and Engineering ,Southeast University ,Nanjing 210096,China )Abstract :This paper p ropose a vector space model based automatic Web ontology classification met hod ,which takes Web ontology ′s st ruct ure and linguistic feat ures into account at t he same time.It t reat s t he words of t he virt ual document of t he whole Web ontology as t he feat ures for classification.As a collection of weighted words ,t he virt ual document of t he whole Web ontology is const ructed by com 2bining all t he virt ual document s of t he vocabularies t hat occur in t he RDF grap h and are not belonged to t he built 2ins p rovided by ontology language.The way of term weighting is based on vocabulary de 2pendency grap h by applying grap h 2based ranking algorit hm on it to get t he importance score of t he re 2lated vocabularies firstly and t hen to calculate t he weight of each term.VD G is co nstructed f rom RDF grap h which model t he dependencies among vocabularies wit hin an ontology.K ey w ords :o ntology classification ;ontology reuse ;vector space model 近年来,越来越多的研究人员投入到本体的理论和应用研究中,本体的构建是重要的研究方向之一.基于本体开发的专业性和难度,对分布在Web 上的现有本体,如何进行有效的检索、管理和重用以降低本体的创建和应用成本成为研究的热点.分类是信息组织和管理的有效方式,有助于更快速、准确地找到目标Web 本体.作为未来本体服务器基础的本体库系统(on 2tology library system )[1],为本体的重用提供了重要支持.DAML library ,SHO E ,IEEE SUO 和ON IONS 等著名的本体库系统从不同角度对收集到的本体进行了分类存储和显示,但都没有实现自动分类.U niversity of missouri 2kansas city 开发的语义Web 门户———ontokhoj [2],能对采集到的本体进行了自动分类.然而ontokhoj 采用的分类方法完全忽略了Web 本体的语言学特征以及明显的图状结构特征.本文提出了一种基于向量空间模型的Web本体分类方法,该方法有针对性地考虑了Web本体的结构特征和语言学特征.Guarino依据领域依赖程度将本体细分为顶级本体、领域本体、任务本体、应用本体等四类[3].目前,绝大多数Web本体是用RDF/XML和OWL来编码的领域本体,本文所研究的Web本体特指这部分本体文档,以下不再特别指明.1 构建Web本体的特征向量向量空间模型[4]是用于文本分类经典模型.基于向量空间模型的文本分类的研究集中在以什么语义单元作为特征项以及计算项的权重上. 1.1 Web本体的表示本体代表了一种概念的框架,包括对概念的表述以及对概念之间关系的表述.目前,绝大多数的Web本体采用RDF或者OWL编码,RDF编码和OWL编码的本体都可以映射为RDF图[5].RDF图是RDF statement s的集合[6].一个RDF statement用三元组〈subject,predict,ob2 ject〉描述.一个本体的RDF图由来自本体语言(如OWL或者RDFS)的构造词连接组成[5]. RDF图中的一个节点可以是一个U RI reference (U RIref),一个字符串,或者一个空白节点.词汇(vocabularies)是出现在RDF图中所有三元组中的U RIref s.显然,一个本体内部的vo2 cabularies具有不同的重要性,可以认为越重要的vocabularies对该本体文档的内容具有越高的代表性.1.2 确定特征项Web本体是一类特殊文档,vocabularies是构成Web本体的主体.很多研究涉及到vocabu2 lary之间的语义比较,目的主要在于解决本体匹配和本体评估等问题.文献[7]引入虚拟文档的概念,给出了本体中声明的vocabulary间语义相似的比较模型,并通过实验证明了其优越性.据文献[7]定义,每个U RI reference的虚拟文档是一个加权的经过停用词过滤,词根还原等规范化处理的词条集合,包含一个U RI reference的局部描述和邻近的反映这个U RI reference的潜在语义的语言学信息.U RI reference之间语义的相似性由其相应虚拟文档的相似性来表示.而U RI refer2 ence的虚拟文档之间的相似性则通过采用TF/ IDF技术将虚拟文档表示为向量空间中的一个向量,进而计算向量间的余弦值而得.Web本体分类过程实际上是比较待分类本体文档与分类本体文档之间语义的相似性.在一个本体中与主题表达相关的vocabulary主要是在该本体内部声明的vocabularies,即U RIref s.且这样的U RIref s不是本体描述语言所内嵌的,在该本体内部声明的vocabularies在文献[8]中定义为domain vocabularies.为了表示整个Web 本体的语义,定义整个本体的虚拟文档为组合所有domain vocabularies虚拟文档构成的一个加权的词条集合.为避免语义信息重复,每个do2 main vocabulary的虚拟文档不再考虑相邻的语言学信息,只考虑其局部描述.Web本体间语义相似性可通过给虚拟文档中词赋权值,进一步将本体的虚拟文档表示为向量空间的一个向量,进而计算向量间的距离而得.本体的虚拟文档中的词条是反映Web本体语义的基本语言单位,本研究确定其作为构建Web本体特征向量的特征项.1.3 权值计算特征项的权值是指特征项代表文档的能力大小,即特征项在文档中的重要性.根据Web本体的虚拟文档的定义,虚拟文档中词的重要性首先由其相应的vocabulary对于Web本体的重要性决定.一个“重要的”vocabulary可能是一个有很多子类的类,一个被详细定义的类,或者是一个经常被用来描述约束的属性.有时一个vocabulary的重要性可以通过观察它在语言学上的信息来判断.例如,一个类,它的local name出现在ontolo2 gy header的注释中,可能预示着这个类和ontol2 ogy的主题非常相关,可以被看作“重要”.RDF图是Web本体表示的基础,它具有明显的图状特性,在对本体的相关研究中,无法忽视这一特性.考虑本体的分类时也不例外.作为RDF图中的节点,从图的角度来分析,一个vo2 cabulary的重要性可以通过它作为图中节点的“权威性”来体现和量化.RDF图由于允许空白节点的存在,不能明确地揭示vocabularies之间所有的依赖关系.在一个RDF图中,仅当两个vocabularies出现在同一三元组中,它们才是关联的.但是,一般两个vo2 cabularies可能会通过一个或多个中间空白节点而产生关联.所以,需要找到能够明确揭示vo2 cabularies之间所有的依赖关系的图模型.文献[8]定义了VD G(vocabulary dependen2 cy grap h).一个本体的VD G构造自它的RDF 图,通过析取出该RDF图中的所有RDF语句,并加以分析,进而就每一个语句的贡献求和得w(i,・851・ 华 中 科 技 大 学 学 报(自然科学版) 第35卷j )和w (j ,i ),其中:i 是RDF 语句中的主语;j 代表出现在该语句中的其他vocabulary ;w (i ,j )则表示j 对i 的依赖程度.VD G 通过引入RDF 语句的概念,明确揭示了本体文档中与本体语义相关的vocabularies 之间的所有依赖关系,并对这样的依赖关系进行了量化,因此选择它作为分析特征项权重的基础.基于图的排序算法可用以计算图中节点的重要性值.Double focused pageRank 算法[9]是一种不仅考虑节点的链接结构同时考虑文本内容的排序算法.本文采用这种算法计算VD G 中每个节点即Web 本体中每个domain vocabulary 的重要性值,记为V .根据Web 本体虚拟文档的定义,本文定义特征项即本体虚拟文档中的词条的权重,W k =∑Mj =1V j w jk ,其中:W k 指本体的虚拟文档中词条k 的权值;V j 指虚拟文档中含词条k 的本体第j 个domain vocabulary 在本体内部的重要性值;M 是其虚拟文档中含词条k 的所有domain vo 2cabulary 的个数;w jk 指本体中第j 个domain vo 2cabulary 的虚拟文档中词条k 在该虚拟文档中的局部权值.V j 和w jk 都经过了范化处理.2 基于VSM 的Web 本体的分类系统模型 同文本自动分类一般过程一致,本研究采用的分类模型也包括预处理过程、训练过程和分类过程三个部分.2.1 预处理过程基本步骤步骤1 去除Web 本体文档中的噪音数据;步骤2 构造Web 本体文档的vocabulary dependency grap h ;步骤3 计算Web 本体文档中domain vo 2cabulary 的重要性分值;步骤4 构造Web 本体文档的虚拟文档;步骤5 计算虚拟文档中词条的权值.2.2 训练过程基本步骤步骤1 生成训练集中各类本体文档集的向量空间;步骤2 通过训练算法得到训练集中各类本体文档集的类别特征向量,作为待分类文档分类的依据.2.3 分类过程基本步骤步骤1 生成待分类本体文档的特征向量;步骤2 计算训练集中每一类本体文档的相似度阈值;步骤3 计算待分类本体文档的特征向量与每个类特征向量的相似度;步骤4 根据步骤2得到的相似度与相应阈值的比较将待分类文档分配到一个或多个类别.Web 本体是一类特殊文档.长期以来对于文档自动分类的研究已经取得很多成果,形成了一套相对成熟的方法论.因此,本研究的立足点落在Web 本体文档不同于普通文档的特殊性上.有关问题有待进一步研究.参考文献[1]Ding Y ,Fensel D.Ontology library systems :the keyto successf ul ontology re 2use[C]∥Proceedings of 1st Semantic Web Working Symposium (SWWS’01).Califonia :Stanford University ,2001:932112.[2]Patel C ,Supekar K ,Lee Y ,et al.Onto Khoj :a se 2mantic web portal for ontology searching ,ranking and classification [C ]∥Proceedings of the 5th ACM in Ternational Workshop on Web Information and Da 2ta Management (WIDM 2003).New Orleans :ACM ,2003:58261.[3]Guarino N.Semantic matching :formal ontologicaldistinctions for information organization ,extraction ,and integration[C]∥Information Extraction :A Mul 2tidisciplinary Approach to an Emerging Information Technology.Frascati :Springer 2Verlag ,1997:1392170.[4]Salton G ,Wong A ,Yang C S.On the specification ofterm values in automatic indexing[J ].Journal of Doc 2umentation ,1973,29(4):3512372.[5]Patel 2Schneider P F ,Hayes P.OWL Web ontologylanguage semantics and abstract syntax [EB/OL ].[2004202210].http :∥/TR/owl 2seman 2tics/[6]Klyne G ,Carroll J J.Resource description f rame 2work (RDF ):concepts and abstract syntax[EB/OL ].[2004202210].http :∥/TR/rdf 2con 2cepts/[7]Qu Y ,Hu W ,Cheng G.Constructing virtual docu 2ments for ontology matching[C]∥Proceedings of the 15th International Conference on World Wide Web Conference.Scotland :ACM ,2006:23231.[8]Zhang X ,Li H ,Qu Y.Finding important vocabularywithin ontology [C ]∥Proceedings of the 1st Asian Semantic Web Conference.Beijing :Springer ,2006:1062112.[9]Diligenti M ,G ori M ,Maggini M.A unified probabi 2listic f ramework for Web page scoring systems [J ].IEEE Trans Knowl Data Eng ,2004,16(1):4216.・951・增刊Ⅱ 王 可:一种基于向量空间模型的Web 本体自动分类方法 。

相关文档
最新文档