本体理论与领域本体的构建

本体理论与领域本体的构建
本体理论与领域本体的构建

第二章本体理论与领域本体的构建

2.1 本体理论

2.1.1 本体的基本概念

本体论(Ontology)的概念最初起源于哲学领域,是形而上学理论研究的一个分支,与认识论相对。认识论研究人类知识的本质和来源,即研究主观认知,而本体论研究的则是客观存在。Ontology一方面研究存在的本质,另一方面研究客体对象的理论定义,即整个现实世界的基本特征。现在哲学领域较多翻译为“本体论”。经过多年的演进,到今天,经过人们对“本体”这一概念的重新理解和定位,本体的理论与方法早已被信息领域采用,用于知识的组织、表示、共享和重用。

本体在计算机学科的使用可以追溯到上个世纪80年代,Alxenader在1986年发表的文章被视为本体在计算机领域获得不同于哲学领域的新的研究的起点。随后Ontolgoy在人工智能领域界获得稳步的发展,并被逐渐赋予了新的含义[8-9]。1991年,在人工智能领域,Neches等人最早给出Ontology定义,Neches认为[10]“An ontology defines the basic terms and relations comprising the vocabulary of a topic area,as well as the rules for combining termsand relations to define extensions to the vocabulary.”即“一个本体给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规则定义这些词汇的外延规则。”本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则[11]。1993年美国斯坦福大学知识系统实验室(Knowledge System Laborary,简称KSL)的Gruber给出了本体在信息科学领域被广泛接受的定义:“An ontology is an explicit specification of a conceptualization”[12]。即“本体是概念化的明确的规范化说明”。这也是最著名并被引用最为广泛的定义。1995年Guarino和Giaretta 将本体定义为[13]“本体是概念化的明确部分的说明一种逻辑语言的模型。”这个定义与Gruber的理解有异曲同工之妙。随后在1997年W.N.Borst对Gruber的定义进行了引申,提出了“本体是共享概念模型的形式化规范说明”,以及1998年J.Studer的“本体是共享概念模型的明确的形式化的规范说明”。

本体的定义随着时间的推移也在进行着不断的变化发展,为明确起见,现将本体发展史中较有代表性的定义列表如下:

表2.1 本体发展史中的定义列表时间/提出人定义

1991/Neches 一个本体给出构成相关领域词汇的基本术语

和关系,以及利用这些术语和关系构成的规

则定义这些词汇的外延规则

1993/Gruber 本体是概念化的明确的规范化说明1995/Guarino和Giaretta 本体是概念化的明确部分的说明一种逻辑语

言的模型

1996/ Bernaras等本体提供了一种用来显式地描述概念化的方

1997/W.N.Borst 本体是共享概念模型的形式化规范说明

1997/ Swartout 本体是一个为描述某个领域而按继承关系组

织起来作为一个知识库骨架的一系列术语1998/J.Studer 本体是共享概念模型的明确的形式化的规范

说明

2000/ Fensel 本体是对一个特定领域中重要概念的共享形

式化的描述

2001/ Noy F.N. 本体是对某个领域中的概念形式化的明确表

示,每个概念的特性描述了这个概念的各个

方面及其约束的特征和属性

2002/ Fonseca 本体是以某一观点用详细明确的词汇表描述

实体,概念,特性和相关功能的理论2003/Starlab 本体必需包括所使用术语的规范说明,决定

这些术语含义的协议,以及术语之间的联系,

来表达概念由上述列表可见,人们对本体的定义和理解是有一个逐步认识的过程的。尽管本体的定义有很多不同的方式和不同的侧重点,但从内涵上来讲,本体的概念有下面四层含义:

(1)概念化(conceputalization):通过抽象出客观世界中一些现象(phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态。

(2) 明确(explicit):概念与概念之间的联系及使用这些概念的约束都被明确定义。

(3) 形式化(formal):有精确的数学描述,是计算机可读的。

(4)共享(Share):本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体[14]。

可见这些不同的研究者虽然各执己见,但对本体的内涵却认识一致,都把本体当作某个领域内不同主体(人、代理、机器等)之间进行交流(对话、互操作、共享等)的语义基础。其实,本体就是通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识和描述语言,是一个已经得到公认的形式化的知识表示体系,包含词表(或名称表/术语表),词表中的术语全是与某一专业领

域相关的,而逻辑声明全部用来描述术语的含义及关系。

2.1.2 本体的分类

1、按照领域依赖程度:

(1)顶层(top-level)本体:描述的是最普通的概念及概念之间的关系,如空间、时间、事件、行为等,完全独立于特定的问题和领域,其他本体都是该类本体的特例。

(2)领域(domain)本体:描述的是特定领域(医学、地理等)中的概念及概念之间的关系。

(3)任务 (task)本体:描述的是特定任务或行为中的概念及概念之间的关系。

(4)应用(application)本体:描述的是依赖于特定领域和任务的概念及概念之间的关系。

在这个分类当中,领域本体和任务本体是处于同一个研发层次的,它们都能应用顶层本体中定义的词汇来描述自己的词汇。应用本体既能应用领域本体中的概念,也能引用任务本体中的词汇。

2、按照细化程度

Guarino从两种不同的维度对本体进行划分。除了依据对领域的依赖程度分类,还提出了以详细程度分类。详细程度是相对的、模糊的一个概念,是描述或刻画建模对象的程度。

参考(reference)本体:详细程度高。

共享(shareable)本体:详细程度低。

3、按照形式化程度

(1)高度非形式化:用自然语言松散表示。

(2)结构非形式化:用限制的结构化的自然语言表示。

(3)半形式记:用半形式化(人工定义的)语言表示。

(4)严格形式化:所有术语都具有形式化的语义,能在某种程度上证明完全性和合理性。

4、按照是否具备推理功能

(1)轻量级本体(Lightweight ontology):轻量级本体不具备逻辑推理功能,例如叙词表和WordNet。

(2)中级本体(Middle ontology):中级本体具有简单的逻辑推理功能,系统可以识别一阶谓词逻辑的表达式。

(3)重量级本体(Heavyweight ontology):重量级本体具有复杂的逻辑推理功能,系统可以识别更加复杂的二阶谓词逻辑的表达式,并为更加复杂的推理功能的实现预留了接口,如Cyc本体系统[9]。

5、按本体描述对象的不同,Uschold把本体分为特殊领域本体(如医药、地理、金融等)、一般世界知识本体、问题求解本体和知识表示语言本体等。

6、按不同的研究主题[15]:

(1)知识表示本体(Knowledge Representation ontologies),如Frame Ontology 和斯坦福大学知识系统实验室提出的知识描述语言KIF(Knowledge Interchange Format)。

(2)通用或常识本体(General/Common ontologies),如Cyc本体系统。到2000年为止,Cyc的常识库已有了1,600,000条知识和几百个微理论

(micro-theory)。

(3)领域本体(Domain ontologies),如基因本体GO(Gene ontologies)、爱丁堡大学企业本体。

(4)语言学本体(linguistic ontologies),关于语言、词汇等的本体,典型实例有GUM(Generalized Upper Model),WordNet和MindNet等。

(5)任务本体(Task ontologies),主要研究如Chandrasekaran等人的关于任务和问题求解方法本体的研究。

除了上述几种分类方法外,1999年,Perez和Benjamins在分析和研究了各种本体分类法的基础上,归纳出10种本体:知识表示本体、常识本体、顶级本体、元(核心)本体、领域本体、语一言本体、任务本体、领域一任务本体、方法本体和应用本体。这种分类法是对Guarino提出的分类方法的扩充和细化,但是这10种本体之间存在交叉,层次不够清晰。

2.1.3 本体的功能与作用

1、本体为人和主体之间的沟通和交流提供了共享的基础,也方便了不同领域的系统开发人员和研究人员之间的沟通,它是人机在语义上交互的最好的基础。而开发领域本体的主要目的之一就是在人们和软件智能之间对信息结构的理解提供一种可共享的、共同的理解机制。

2、本体支持对于知识的重用。本体提供了独立于应用的描述方法使之可在不同系统间重用。例如在基于构件的软件开发过程中,开发知识系统时知识工程师可以将本体论概念引入知识工程,详细说明模型中的概念、实例、关系和公理等实体,并以此建立领域本体。然后针对属性提出本体建模概念化分析的形式化方法,解决知识共享中的问题。此举有效的提高了工作效率,促进了来自不同领域的研究人员和组织间的交流。

3、本体提供了一种结构化的表示领域知识的形式化方法。在本体中,明确说明了领域概念及概念之间的关系,并且支持对领域规则的描述,是领域知识的形式化表示。

4、知识本体可以明确领域假设,使领域公理得到明确描述从而达成共知。

5、本体有助于知识的标准化。本体为人们描述目标世界提供了一组通用词汇,而这种通用的词汇正是实现知识系统化的基础。通用词汇和知识的系统化有利于实现知识的标准化。

2.1.4 本体的应用

目前本体已经广泛应用于人工智能、知识工程及其相关领域。本体的功能及其应用领域大致可以概括为三类:作为知识表示方法,应用于知识工程和知识管理;作为系统分析方法,应用于信息建模、面向对象分析和数据库设计;作为信息语义的形式化表示方法,应用于异构信息集成、多智能体系统、语义Web等。具体来说可以分为以下几个方面:

1、信息检索

本体具有的良好的概念层次结构和对逻辑推理的支持,因而在信息检索,特别是在基于知识的检索中得到了广泛的应用。基于本体的信息检索的基本设计思想可以总结如下:

(1)在领域专家的帮助下,建立相关领域的本体;

(2)收集信息源中的数据,并参照已建立的本体把收集来的数据按规定格式存储在元数据库(RDB(关系数据库),KDB(知识数据库)等)中;

(3)对用户检索界面获取的查询请求,查询转换器按照本体把查询请求转换成规定的格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合,检索的结果经过定制处理返回给用户。

表2.2 本体应用于信息检索的项目项目说明

(Onto)2Agent 帮助用户检索所要的www上已有的Ontology,主要采用参照Ontology,即以www上已有的Ontology为对象建立起来的Ontology,保存各类

Ontology的元数据。

Ontobroker 面向www上的网页资源,目的是帮助用户检索所需的网页,这些网页含

有用户关心的内容。

SKC 解决信息系统语义异构问题,实现异构自治系统间的互操作,通过在Ontology上的一个代数系统来实现Ontology之间的互操作,实现异构系

统之间的互操作。

2、电子商务

电子商务的出现,为来自不同领域、不同地区甚至不同国家的商业伙伴之间进行交易提供了更为方便快捷的商务平台,因此受到了企业和商家越来越多的重视。但由此而来的电子商务交易方的大量产品描述、目录和文档,以及亟待解决的异构问题成为B2B电子商务发展的瓶颈所在。

本体在B2B的通信中可以起到信息集成的作用,它将信息的表示分为三个层次:语法层、数据模型层和本体层,其中语法层与使用XML序列化表示的文档实例相对应;数据模型层将语法层中的差异抽取出来进行统一表示,并用对象--属性--值的形式对产品进行描述;而本体层则定义不同产品和文档标准提供的各种信息的术语,有效地帮助其完成Web数据的语义处理和管理。

3、数字图书馆

数字图书馆是社会信息基础结构中信息资源管理、存储和传输的基本组织形式,拥有丰富的超容量多媒体介质的数字化信息资源,依托网络为信息需求者提供快捷高效的数字化图书馆信息服务。但各类信息常在具体系统条件限制下用专门语言定义组织为内部结构和格式,难以有效进行机器支持的检索、解析、处理和交换,更不要说进行跨文献单元、数据类型、数据层次和系统范围的信息挖掘、抽取、综合分析描述、转换了。本体的出现就极大的解决了语义知识缺乏的问题,为XML与RDF等技术提供语义支持。在进行信息资源整合时,本体可以灵活处理各类信息资源,有效识别信息资源的类型,提供资源库领域知识的规范描述,提供元数据映射方案,为智能代理与信息环境之间提供基于语义的理解机制,此外还可作为跨平台、跨系统之间的通信中介存在,为揭示知识间的语义关系提供了清晰的描述,为数字图书馆提供了一个统一框架、规范模型,利用概念、属性、属性与属性之间的映射关系等对语义进行描述,为语义理解与交流的可行性大大加分。

4、知识服务

知识服务,即以信息知识的搜寻、组织、分析的知识和能力为基础,根据用户的问题和环境,融入用户解决问题的过程之中,提供能有效支持知识应用和知识创新的服务。目前,数字图书馆知识服务需要一个新型的技术基础,支持数据挖掘、知识发现、知识析取、知识应用和智能化服务(智能Web服务)。无疑,本体技术仰仗其丰富的语义和广泛的关系,是实现以上目标的最佳手段,将本体建设和相应的代理引擎设计相结合即可解决问题。用DAML-S在服务模型基础上定义流程模型本体,综合人工智能规划和工作流程研究成果,定义Web服务中的流程类型和流程控制等信息,可以较好的表示Web服务自动集成中的流程分类、合成、控制和时间约束等细节。

5、自然语言理解

本体是对世界知识概念化描述,它作为系统中的知识库,是由概念集合以及概念之间的关系所组成的计算实体。我们可以利用本体中所蕴涵的世界知识中的约束,结合语言知识可以进行消歧和推理。

在系统中,歧义的产生主要源于两方面:①句法分析产生多种可能的句法分析树,即结构歧义;②词汇对应多个语义概念,即由多义词产生的词汇歧义。消

歧就是在多个可能的意义中选择最适合的意义,利用本体中的概念以及概念之间的约束关系进行语义分歧的消除。一般来说消歧可以有以下几种手段:第一,利用句法信息,在分析及生成句法树的同时检查结构是否符合词汇的句法限制。第二,利用语义片断组合过程来检查语义限制。第三,利用本体的结构定义权重,用语义描述的权值来消歧。由此可知,本体在自然语言理解领域中的作用:首先,领域知识在释疑中往往起到极为重要的作用,而领域本体则为领域知识的表示提供了基础;其次,领域本体有助于识别不明确的语义分类,在此处本体又担当起了概念词典的作用。

2.1.5 本体的集成

本体集成的问题由欧洲委员会于2001年启动的SWAP(Semantic Web and Peer-to-peer)项目[16]发现。该项目需要一种能够在每个终端构建各自的本体之后生成一个大本体的工具,因而发现了将多个不同团队构建的多个小本体集成为一个大本体时的本体映射和本体合并的问题[17]。另外,由欧洲委员会资助的另外一个项目SEKT(Semantically Enabled Knowledge technologies)[18]也发现了本质上相同的问题,他们需要为使用多个不同本体的应用找出这些本体之间的关系,实现本体之间的交互,以达成基于这些本体的数据间的重用和互操作[19],称其为“本体调解”(ontology mediation)。在本体集成的研究过程中,美国斯坦福大学、德国卡尔斯鲁厄大学等一批顶尖本体研究机构与“知识网”(KnowledgeWeb, KW)[20]等项目取得了大量的研究成果,处于国际领先水平。而在国内,本体集成还是一个相对较新的研究领域,相关研究刚刚起步。其中,对于本体构建工程的研究集中于本体的自动构建,也就是本体学习(ontology learning),孔敬[21]、杜小勇等人[22]进行了较为全面的综述。本体维护工程,也就是本体生成之后使用过程中对本体进行修改使其进化的工程,由于这一方面的研究在国际上也还没有展开,所以马文峰等人[23]只是简单的介绍了本体进化的概念和研究前景。而对于本体集成工程,目前还未见有研究综述出现。

1、本体集成的基本原则

通过国内外本体集成方法和过程的研究,本体集成应该遵循以下四条基本原则:

(1)完备性原则。主要指语义完备性和约束完备性,待集成本体中如果有语义或约束应用需求,则该语义或约束一定要在目标本体中有所体现。

(2)进化原则。本体集成同本体构建一样,是一个动态过程,集成后的本体一定要具有可复用性及二次开发的空间和能力。

(3)广度与深度兼顾原则。即覆盖程度和细化程度要求两者兼顾。

(4)实用性原则。所谓实用性原则就是一方面要尽量减少人的工作量,另一方面要考虑集成的复杂程度,当将多个本体进行集成所花费的工作量及耗费比

重新构建一个新本体还要大的时候,就已经无所谓集成了[24]。

2、本体集成的分类

广义上所说的本体集成,即本体融合(Ontology Reconciliation),指的是把多个本体汇聚到一起使用,此时所涉及到的情况很多,本体集成也可广义的分为如下两类:本体串联(Ontology Aligning)和本体集成(Ontology Integrating)。本体串联是把两个本体串在一起,建立相互之间的映射,但各自本体仍然独立并且没有被改变。本体集成则是把两个本体O1和O2有机地结合在一起,产生新的一个本体O和从实体O1和O2到实体O的映射A*。

狭义来讲,按照集成程度的不同,本体集成可以分为本体映射(ontology mapping)、本体结盟(ontology alignment)和本体合并(ontology merging)。上述3种形式的集成程度依次增强,体现了从松散集成、封装集成到紧密集成的过渡关系[25]。

按照本体语言的不同,本体集成可以分为本体概念层集成和本体语言层集成。当有两个或多个本体库描述的领域有交集时,要对这些本体库进行集成,就必须解决概念层描述的差异。而当语法存在差异以及表达能力上存在差异时,即需进行本体语言层的集成[26]。

2.2 领域本体构建研究

根据前文所述,本体作为一种通用的知识共享模式,为特定领域的人和应用系统的交流提供极大的便利,也因为如此,本体的研究和应用迅速延伸到知识工程、自然语言处理、信息检索系统、智能信息集成和知识管理、信息交换和软件工程等领域,而如何对这些不同领域内的知识进行抽取和描述并构建出合适的领域本体已成为目前的研究热点之一。

所谓的领域本体(domain-specific ontology)就是对学科概念的一种描述,包括学科中的概念、概念的属性、概念间的关系以及属性和关系的约束[27]。由于知识具有显著的领域特性,所以领域本体能够更为合理而有效的进行知识的表示。

领域本体可以表示某一特定领域范围内的特定知识。这里的“领域”是根据本体构建者的需求来确立的,它可以是一个学科领域,可以是某几个领域的一种结合,也可以是一个领域中的一个小范围。

2.2.1 领域本体的模型及建模原语

下面是一个用于领域知识表示的本体模型:领域本体是一个四元组O=〈C,I,R,A x〉。其中:C是本体中的类集,I是类集C中的实例集,R是类集C上的关系集合,类的继承关系(is a)是最常见的类间关系,而A x是类间公理集合,给出类集C的类之间属性和关系的严格约束。

如果再把关系R详细划分为关系和函数,就有了Perez等人用分类法组织的五元组本体:O=(C,R,F,A,I),其中C、R、F、A和I分别是本体中概念、关系、函数、公理和实例的集合,这五点也可以被称为五个基本的建模原语。

1、类(classes)或概念(concepts)

概念(Concept)是一类对象的集合的抽象描述:C={O1,O2…O n},其中O i 是领域中的对象。

概念的含义很广,可以表示任务、功能、行为、策略和推理过程等等。

在实践中,本体中的概念往往可以和类(Class)、类别(Category)、种类(Type)通用。但是本体中的类与面向对象编程中的类是有区别的,两者的重心不同,前者关心类的结构特征,而后者则关心类的操作特征。

2、关系(Relation)

描述n个概念所含对象之间的联系:C1,C2…C n间的n元关系Rn:C1×C2×…×C n是n个概念的笛卡儿乘积的任意子集。

关系描述领域概念间的相互作用,基本的二元关系有4种:part-of,表示概念之间部分与整体的关系;kind-of,表示概念之间的继承关系;instance-of表示概念的实例与概念之间的关系;attribute-of示某个概念是另一个概念的属性。在实际建模中,概念之间的关系不限于这4种,可以根据领域的具体情况定义相应的关系,例如connect-to。

在实践中,本体中的关系往往可以和性质(Property)、属性(Attribute)、角色(Role),槽(Slot)通用,例如在描述逻辑中称为Role,而在基于框架的表示中称为Slot。

3、函数(Function)

F:C1×C2×…×C n-1→C n,函数是一类特殊的关系,其前n-1个元素可以唯一的确定第n个元素,如Mother-of就是一个函数,mother-of(x,y)表示y是x的母亲。

4、公理(Axiom)

公理是无需证明的永真断言。公理在本体中有两个作用:严格定义概念和在本体所表达的知识范围内回答问题。

5、实例(Instance或Individual)

实例表示元素,即概念对应的对象。

一般认为,类C是具有类似性质的所有个体的抽象。在领域本体中,实例I 和类C紧密相关,是本体中最基本最具体的对象,个体从属于某个类就成为这个类的一个实例。类有外延和内涵两个侧面。外延指类所代表的个体的范围,可以认为是类的所有实例构成的集合;内涵则是类的实例共同具有的所有性质。某个个体是类的实例,当且仅当它具有内涵中规定的所有性质;某种性质在类的内

涵中,当且仅当类的所有实例都具有这种性质。本体中所有类和实例构成本体的论域。另外,在基于描述逻辑的本体中,公理A可以分为两类:术语公理和实例公理,实例公理对一个本体而言并非必需的,而术语公理则可以看成一类关系,在实践中往往定义为本体表示语言的描述符。函数F和实例I不是必需的,可视本体建模的详尽程度而进行取舍。

2.2.2 本体建模语言

目前有很多种本体语言,但归结起来大体可以分为两大类型:基于AI的本体实现语言和基于Web的本体标记语言,以下我们将分别简要介绍。

一、基于 AI 的本体描述语言

1、KIF

KIF(Knowledge Interchange Format)是由斯坦福大学开发的。斯坦福(Stanford)大学知识系统实验室进行了关于知识本体的研究,包括研究知识的本质特征和基本属性。在这项研究中,D. Bobrow, R. Brachman和 V. Lifschitz

等AI专家提出了这种称为知识交换格式(knowledge interchange format,简称KIF)的知识描述语言,它的研究重点是语言的表达能力。它不同于KR系统间交换知识的格式,是一种基于一阶逻辑的语言,特点是:它有公开的语义,不再需要专门的解释器;在逻辑上是全面的,可以对任意的逻辑语句进行表达;可以提供对元知识的表现。

KIF 和其它知识表示语言之间的区别在于它必须是和应用完全无关的,另外必须具有足够的表达能力使得所有其它的知识表示语言都有转换成 KIF 标

准格式的可能。

2、Ontolingua

Ontolingua是一种基于KIF(Knowledge interchange format),提供统一的规范格式来构建本体的语言。它可以用来定义对象、函数和关系。KIF拥有明确的语义,它是基于一阶谓词逻辑运算的,并带有注释性的前缀。KIF还可以提供元知识的表示和非单调性的推理规则。KIF作为一种交互格式,从本质上对本体进行了规定。但这种用KIF写出来的有关本体的规范说明相当乏味难懂。在Ontolingua 中,定义本体是一种形式化和描述性的表示。它包含一个主体领域中涉及到的词汇(术语)以及描述这些词汇是什么,之间如何相关和能否彼此相互关联的逻辑化的断言。该语言支持 3 种本体定义方式:(1)采用 KIF 表示;(2)仅仅使用 frame ontology的词汇库定义本体;(3)同时使用上述两种表示方式。

Ontolingua 包含 KIF 分析器、本体分析工具和一组 Ontolingua 转换器,且独立于特定表示系统的本体定义机制。其特点是:为构造和维护本体,提供了统一的、计算机可读的方式;由其构造的本体可以方便的转换到各种知识表示和

推理系统(Prolog、CORBA的IDL、CLIPS、LOOM、Epikit、Algernon和KIF),从而将本体的维护与使用它的目标系统分离;主要用于本体服务器(ontology server)。

3、CycL

CycL是Cyc系统的描述语言,本质上是一阶谓词逻辑(FOPC)的一种扩展。它可以处理等词、缺省推理、skolem化和其它一些二阶特性,具有多种推理机制(通用推理机制和特殊推理机制),命名唯一,且使用谓词来表达概念之间的关系,目前最多处理五元关系。

CycL的特点是:在一阶谓词演算的基础上扩充了等价推理、缺省推理等功能;具备二阶谓词演算的能力;其语言环境中配有功能很强的可进行推理的推理机。

4、Loom

Loom是一种基于一阶谓词逻辑的知识表示语言,由美国南加洲大学信息科学学院设计并实现。特点是:提供表达能力强、声明性的规范说明语言;提供强大的演绎推理能力,能供多种编程风格和知识库服务。该语言后来发展成为PowerLoom语言。PowerLoom是KIF的变体,它是基于逻辑的,可以提供表达能力强、声明性的规范说明语言,也可以提供强大的演绎推理能力,采用前规则(backward and forward chainer)作为推理机制。

5、Flogic

Flogic(Frame Logic)由卡尔斯鲁厄大学开发,可以表示概念、概念分类、二元关系、函数、实例、公理和规则。与上述几种语言相比,它是唯一没有采用 LISP 语法的语言。其推理引擎 OntoBr可以用来进行约束检查和演绎新知识。Flogic 拥有一套模式理论的语义(A Model-theoretic Semantics)和一套完备的基于问题解决方案的证明理论(Proof Theory)。FLogic软件平台从面向对象的演绎型数据库(Deductive Databases)发展成为本体,它可以融合其他的专门逻辑(如高阶逻辑HiLog、事务逻辑Transaction Logic。),并以此来改善本体中利用信息进行推理的功能。

6、描述逻辑

描述逻辑(Description Logic)是基于对象的形式化知识表示方式,它吸取了KL-ONE的主要思想,是一阶谓词逻辑的一个可判定子集。描述逻辑中的“描述”是指对一个领域知识采用描述的方式表达,即利用概念和规则构造符将原子概念(一元谓词)和原子规则(二元谓词)构建出描述表达式;“逻辑”是指DL采用了正规的基于逻辑的语义,这与语义网络及框架等知识表示机制是不同的[28]。与一阶谓词逻辑所不同的是,描述逻辑系统能提供可判定的推理服务。在众多知识表示的形式化方法中,描述逻辑在近年来颇受人们的关注,主要原因也在于强大的表

达能力和清晰的模型理论机制,另外描述逻辑提供了很多推理服务,成为众多流行化本体描述语言的基础。

描述逻辑的知识库K=由Tbox(术语)和Abox(断言(Assertoin))两个部分组成,其中Tbox是一个关于包含断言的有限集合,有如下形式:C D,这里C和D为概念。通常我们用C≡D作为C D和D C的缩写。ABox是实例断言的有限集合,形式为c(a),其中c是一个概念,a是一个个体,或者形为P(a,b),其中P为一个原始关系,a和b为两个个体。一般地,描述逻辑依据提供的构造符,在简单的概念和关系上构造出复杂的概念和关系。通常描述逻辑至少包含以下构造符:交(∩)、并(∪)、非(┐)、存在量词(□)和全称量词(□),这种最基本的描述的基础上再添加不同的构造符,则构成不同的表达能力更强的描述逻辑。(1)描述逻辑的语法和语义

表2.3 中列出了描述逻辑的一般的语法和语义[29]:

表2.3 描述逻辑的一般语法及语义

(2)描述逻辑的推理功能

描述逻辑的推理功能主要集中在以下两个方面:

·包含(subsumption):即判断一个概念是否为另一个概念的子集,主要用于概念的自动分类;

·可满足性(satisfiability):即判断一个概念与己有的概念集(本体)是否相容,主要用于概念集合的一致性检测。

(3)描述逻辑的特征

描述逻辑具有有很强的表达能力和可判定性,能够保证算法在合适的地方准确的停止,且返回结果正确无误,并可提供有效的推理服务。

(4)描述逻辑的优点

·定义良好的语义和表达能力,清晰的模型一理论机制;

·具有很强的表达能力和可判定性;

·基于逻辑的推理能力,且提供了有效的推理算法,如著名的Tableaux的算法;·推理工具的支持,如优化的推理工具FaCT、RACER等[30]。

二、基于Web的本体描述语言

1、 RDF和RDF(S)

RDF(资源描述框架,Resource Description Framework)、RDF-S(RDF Schema),是W3C在XML的基础上推荐的一种标准,用于表示任何的资源信息。RDF 模型的基础要素是三种类型的对象:(1)资源(resources),标识实际的以网络为基础的资源,比如网页和网络应用程序。统一资源标识符(URI)可用来标识资源,每一个 URI 指向一个特定的网页或网络应用程序。(2)属性(properties),指定特定资源的属性或特性。(3)声明(statements)是资源和属性的下一级延伸,其作用是在一项特定的资源中为属性分配属性值。每个RDF 声明都用 XML 来表述。RDF的数据模型实质上是一种二元关系的表达,由于任何复杂的关系都可以分解为多个简单的二元关系,因此RDF的数据模型可以作为其它任何复杂关系模型的基础模型。RDF具有通用性,并不限定于某个领域的网络资源定义,而它所描述的网络资源也可以是任意格式的,既可以是XML格式的,也可以不是。总之,RDF是W3C提出的一种知识表示模型,它希望支持网络上的知识共享(sharing)与知识交换(Exchange)。

RDF Schema则为RDF资源的属性和类型提供定义良好的词汇表。RDFS是一种用于定义RDF schemas的声明语言(Declarative Language)。RDFS的数据模型(DM——Data Model)是基于框架的(Frames-based),它为定义属性与资源之间的关系提供了机制,核心的概念/类(Core classes)是类、资源和属性。RDF Schema 定义了一个类型系统(Type System),它与其他类型系统的区别在于对“类”的定义,其他系统通过类的属性来定义类,而RDF Schema通过从属于哪些类的资源来定义属性。

2、OIL

OIL是一种针对ontology的基于互联网的表现和推理层。OIL以RDF Schema 为起点,用更为丰富的本体建模原语对RDF Schema进行扩充,把基于框架表示的方法应用于建模基元,实现了由描述逻辑来刻画形式化的语义并以此为系统提供有效的推理支持。OIL将框架系统、描述逻辑和Web标准(XML和RDF)这三个不同领域的优点结合起来,这三个领域的工作分别是:(1)基于框架的系统:基于框架的语言的中心建模原语是类(称作框架)和属性(称为槽)。(2)描述逻辑(DL):描述逻辑通过概念(对应于类或者框架)和角色(对应于槽)描述知识。DL的一个重要特征是它们具有良好的理解理论性质,并且在DL中

任何表达的含义都可以通过数学的精确的方式描述,而OIL就是从DL中继承了形式化语义和有效的推理支持。(3)互联网标准:这里指的是XML和RDF,OIL标记语言的语法均源自W3C的这些标准。

一个 OIL 本体用关键字 begin-ontology 和 end-ontology 来描述,其中包括 ontology container 和实际的本体定义两大部分构成。

::=

begin-ontology

end-ontology

3、SHOE

SHOE(简单HTML本体扩展)是一种可以内嵌入web页面的基于本体的知识表示语言。SHOE语言的简单性是它的长处,SHOE本体可以让大众在web 页面上定位它们,可以建立/扩展本体,而本体交互所能达到的程度是:可共享同一祖先本体。如前所述,SHOE是基于HTML的Web上的知识表示语言,具有XML兼容性。SHOE实际上是HTML的扩展集。它的开发首要是为了扩展HTML,然后是在HTML或者其它Web文档中合并机器可读的语义知识。最近,研究人员又对SHOE进行了调整,使之更适应于XML。SHOE的目的在于使代理可以收集网页上、文档中的有用信息,改进搜索机制和知识收集。

SHOE有三种类型的推理子从句:分类、关系和比较。它通过建立逻辑,将数据和本体分离开来,允许本体在数据层面上提供不同视图。通过映射SHOE 到这个逻辑可展示一个本体修订的不同类型是怎样影响已存在的数据源的。另外要注意的是增加分类或关系的修订不会产生什么影响,而修改规则的修订会改变查询结果以及删除分类或关系的修订可能消除确定的答案。

4、XOL

XOL(Ontology Exchange Language)是SRI International的人工智能中心(AIC)开发的。它是一种简单通用的定义本体的方法,以Ontolingua和XML(本体标记语言)为基础,融合了OKBC的高层表达方式和OML语法。其目的是在不同的数据库、本体开发工具、或者其它应用程序之间交换本体。XOL设计之初是为生物信息学领域本体的交换,但是它可以应用于各种领域。目前没有支持XOL本体开发的工具,但由于它采用XML语法,所以可以采用XML编辑器创建XOL文件。XOL基本上不用于本体开发,但是可以在不同的数据库系统间、不同的本体开发工具间或应用程序间作为本体传递的中介语言。

5、OWL

OWL(Web Ontology Language)位于W3C绘制的ontology语言栈的栈顶,应用中不仅仅需要提供给用户可读的文档内容,而且希望处理文档内容信息。OWL能够被用于清晰地表达词汇表中的词条(term)的含义以及这些词条之间的关系。由于OWL拥有更多的机制来表达语义,从而超越了XML、RDF和RDF Schema仅能表达网上机器可读的文档内容的能力。

图2.1 ontology语言栈

(1)OWL子语言

OWL提供了三种表达能力递增的子语言OWL Lite、OWL DL和OWL Full,分别用于特定的用户群体。

OWL Lite用于提供给那些只需要一个分类层次和简单约束的用户。例如,虽然OWL Lite支持基数限制,但只允许基数为0或1。提供支持OWL Lite的工具应该比支持其他表达能力更强的OWL子语言更简单,并且从辞典(thesuari)和分类系统(taxonomy)转换到OWLLite更为迅速。相比OWL DL,OWL Lite还具有更低的形式复杂度。

OWL DL用于支持强表达能力的同时需要保持计算的完备性(computatinoal completeness),即所有的结论都能够确保被计算出来)和可判定性(decidbaility,即所有的计算都能在有限的时间内完成)的知识表示。OWL DL包括了OWL语言的所有语言成分,但使用时必须符合一定的约束,例如,一个类可以是多个类的子类,但它不能同时是另外一个类的实例。OWL DL的命名起因于它对应于描述逻辑,这是一个研究作为OWL形式基础的逻辑的研究领域。

OWL Full支持最强的表达能力和完全自由的RDF语法的用户,但是OWLFull没有可计算性保证。例如,在OWL Full中,一个类可以被同时看为许多个体的一个集合以及本身作为一个个体。它允许在一个本体增加预定义的(RDF、OWL)词汇的含义。这样看来,不太可能有推理软件能支持对OWL Full 的所有成分的完全推理。

OWL Full可以看成是对RDF的扩展,而OWL Lite和OWL DL可以看成是

对一个受限的RDF版本的扩展。所有的OWL文档(Lite,DL,Full)都是一个RDF 文档;所有的RDF文档都是一个OWL Full文档,但只有一些RDF文档是一个合法的OWL Lite和OWL DL文档。在表达能力和推理能力上,每个子语言都是前面的子语言的扩展。这三种子语言之间有如下关系成立,但这些关系反过来并不成立。

每个合法的OWL Lite本体都是一个合法的OWL DL本体;

每个合法的OWL DL本体都是一个合法的OWL Full本体;

每个有效的OWL Lite结论都是一个有效的OWL DL结论;

每个有效的OWL DL结论都是一个有效的OWL Full结论。

实际应用中进行OWL子语言的选择时,选择OWL Lite还是OWL DL主要取决于用户在多大程度上需要OWL DL提供的表达能力更强的成分。选择OWL DL还是OWL Full则主要取决于用户在多大程度上需要RDFSchema的元建模机制(如定义关于类的类和为类赋予属性等);相对于OWL DL,OWL Full对推理的支持是更难预测的。

(2)OWL对知识结构及关系的描述

表2.4 OWL Lite的构成要素分类词条

RDF Schema特性 Class(Thing,Nothing)

rdfs:SubClassOf

rdf:Property

rdfs:SubPropertyOf

rdfs:domain

rdfs:range

Individual

等价/不等价特性equivalentClass

equivalentProperty

sameIndividualAs

differentFrom

allDifferent

distinctMembers

属性特征ObjectProperty

DatatypeProperty

inverseOf

TransitiveProperty

SymmetricProperty

FunctionalProperty

InverseFunctionalProperty

属性类型约束Restriction

onProperty

allValuesFrom

someValuesFrom 受限基数 minCardinality(only 0 or 1)

maxCardinality(only 0 or 1)

cardinality(only 0 or 1)类的交集intersectionOf

头信息Ontology

Imports

版本信息versionInfo

priorVersion

backwardCompatibleWith

incompatibleWith

DeprecatedClass

DeprecatedProperty 注解属性rdfs:label

rdfs:comment

rdfs:seeAlso

rdfs:isDefinedBy

AnnotationProperty

OntologyProperty 数据类型xsd datatypes

表2.5 OWL DL和OWL Full增加的语言要素分类词条

类的公理one of

disjointWith

拥有属性值hasValue

类的布尔操作unionOf

intersectionOf

complementOf 任意基数minCardinality

maxCardinality

cardinality

2.2.3 领域本体的设计原则

在基于领域知识的智能信息检索系统中,领域本体是信息资源组织与管理以及信息交换的基础,其本质是对所有入库的领域信息资源进行分类与描述的概念体系依据。

领域本体的开发是一项复杂的系统工程,需要众多领域专家的参与和大量时间的投入,在[31-32]中提出了多种本体开发方法。在开发过程中,Onotlogy的设计遵循以下几点基本原则:

·可扩展性:领域本体的概念层次树应该可以根据应用需求方便地进行扩充、进一步细化或者修改。若采用由底向上的开发方式,可扩展性是领域本体必须具备的特性;

·智能性:领域本体应该能够充分体现出领域知识,具有比较强的描述能力。利用领域本体描述的数据所具备的相应概念的语义,能够为应用程序处理数据提供一种结合了领域知识的智能帮助;

·开放性:领域本体应该是一个开放的框架,可以采用开放源码方式进行开发,从而可以让更多专家参与到领域本体的开发和建设中来;

·易用性:领域本体不仅仅是计算机可读、可理解的领域知识,而且应该具备良好的人可阅读性;

·持久性:领域本体刻画了领域知识,这些知识相对稳定。因此,领域本体需要采用一种可以持久保存的数据格式存储。数据格式应该具有开放、公开、非专有、平台中立的特性。

2.2.4 领域本体建模的生命周期

众所周知,本体的存在是为了人类更好的对知识进行共享与重用,因此就必然要求开发出来的本体相对稳定且独立于具体的应用。在领域本体建模的起点就必须详细说明模型中涵盖的概念、实例、关系和公理等实体,至少是初步认定描述这些实体的绝大部分词汇[33]。

综合现有系统的开发过程,可以用领域本体建模的生命周期对领域本体建模的方法、概念、步骤和设计标准进行有机的集成。领域本体建模的生命周期从总体上可以划分为规划、概念化和实现三个主要的阶段,知识获取主要集中在规划与概念化这两个阶段,而评价、集成和技术文档应当贯穿于开发的整个过程,详情可见下图。所谓规划就是以文档的形式详细说明开发该领域本体的目的,明确

开发目标和本体的用途,并预期最终用户。概念化则是统一开发人员对领域概念化模型的认识,并以一种明确的方式详细记录概念化模型。而实现则比较容易理解,是指用形式化的语言对概念化阶段产生的领域概念化模型进行编码。当然以上只是在宏观上对一般的领域本体建模进行分析,不排除某些特定领域本体的生命周期模型可能还更为复杂。

图2.2 领域本体建模的生命周期

第三章知识模型构建的基本理论及方法研究

3.1 知识模型概述

3.1.1 知识的定义

对于知识的本意人们或许都有一个较为良好的直觉理解,但是却很难用有效的言语来定义它。尽管目前已有不少有关知识的定义,但多数还停留在近似表示的基础上。通过整理分析,我将近年来的有关知识的相关定义列举如下:

表3.1 知识的相关定义提出人定义

Fischler 知识是称为模型的存储信息,被人们用于解

释、预测。并对外部世界做出适当响应Pasaye和Chignell 知识是允许人们进行决策的有关外部的信息Feigenbaum 知识是经过削减、塑造、解释、选择和转换

的信息

Bernstein 知识是由特定领域的描述、关系和过程组成

Heyes—Roth 知识=事实+信念+启发式国际经济合作与发展组织[34]Know-what

Know-how

Know-why

Know-who

(新增)Know-when

(新增)Know-where

(新增)Know-how many

综合来说,其实所谓知识,从哲学上来讲,就是人们在改造客观世界的实践中所获得的基本概念、认识、经验和规律,是人类进行智能活动的基础,是人类智慧的传承与发展。而从现代计算机科学的角度来看,知识是信息综合处理的结果,在这种综合处理的过程中,信息通过互相的比较而结合成为有意义的链接。

3.1.2 知识的分类

知识的分类可简要列举如下表:

表3.2 知识的分类体系分类者及分类角度分类

美国学者麦克尔j.厄尔科学知识:它是已经为人们所接受的知识,

主要包括定律、理论和程序等;判断知识:

综述:本体的概念、方法和应用

综述:本体的概念、方法和应用 王昕 摘要:近十年来,本体(ontologies)和本体工程(ontological engineering)在知识工程及其相关的应用领域获得广泛的关注。本文作者在研究产品设计知识重用的过程中,阅读了大量有关本体的文献资料。作者认为,本体工程在信息共享、系统集成、基于知识的软件开发等方面具有重要的作用和广阔的应用前景,而在国内,这方面的研究刚刚起步。本文扼要介绍了这一新兴学科分支的概念、方法及研究和应用现状。 关键词:本体,本体工程,知识共享和重用 本体论(Ontology:o大写)原是哲学的分支,研究客观事物存在的本质。它与认识论(Epistemology)相对,认识论研究人类知识的本质和来源。也就是说,本体论研究客观存在,认识论研究主观认知。而本体(ontology:o小写)的含义是形成现象的根本实体(常与“现象”相对)。 在人工智能领域,知识建模必须在知识库和两个子系统之间建立联系:agent行为(问题求解技能)和环境(问题存在的领域)。而长期以来,AI的研究者较为注重前一个子系统,而领域知识的表达依赖于特定的任务,这样做的好处是只需要考虑相关的领域知识。但是,大规模的模型共享、系统集成、知识获取和重用依赖于领域的知识结构分析。因此,进入九十年代以来,任务独立(task-independent)的知识库(本体)的价值被发现,并受到广泛关注。本文作者在研究产品设计知识重用的过程中,阅读了大量有关本体的文献资料。作者认为,本体工程在信息共享、系统集成、基于知识的软件开发等方面具有重要的作用和广阔的应用前景,而在国内,这方面的研究刚刚起步。本文将扼要介绍这一新兴学科分支的概念、方法及研究和应用现状。 1 本体的基本概念 1.1 本体的定义 近十年来,本体的研究日趋成熟。在各种文献中,尽管与本体相关的概念和术语的用法并不完全一致,但是事实的使用约定已经出现。在参考文献[2]、[3]中,作者根据已有文献中相关概念和术语的使用情况,提出了推荐的使用约定。我们首先列出本体的几种比较有代表性的定义,然后对相关的概念做简要的描述。 本体(ontology)的几个代表性定义: (1) 本体是对于“概念化”的某一部分的明确的总结或表达。 (2) 本体在不同的场合分别指“概念化”或“本体理论”。 (3) 本体是对于“概念化”的明确表达。 (4) 本体是用于描述或表达某一领域知识的一组概念或术语。它可以用来组织知识库较高层次的知识抽象,也可以用来描述特定领域的知识。

本体构建方法

本文通过借鉴其他领域本体的构建方法,尤其是苏格兰爱丁堡大学的企业本体的建立过程,首先尝试着一步步建立起自己的本体模型,并且经过反复迭代的过程,不断的进行排错和修改,直至本体模型初具雏形。 然后在遵循本体建立准则的基础上,通过抽象总结出一套领域本体的知识工程构建方法。 领域本体构建过程 3.1确定本体的领域与范围 本体是否包含了足够的信息来回答这些问题?问题的答案是否需要特定的细化程度或需要一个特定领域的表示。 3.2列举领域中重要的术语、概念。 在领域本体创建的初始阶段,尽可能列举出系统想要陈述的或要向用户解释的所有概念。这上面的概念和术语是需要声明或解释的。而不必在意所要表达的概念之间的意思是否重叠,也不要考虑这些概念到底用何种方式(类、属性还是实例)来表达。 3.3建立本体框架。 上一步骤中已经产生了领域中大量的概念,但却是一张毫无组织结构的词汇表,这时需要按照一定的逻辑规则把它们进行分组,形成不同的工作领域,在同一工作领域的概念,其相关性应该比较强。另外,对其中的每一个概念的重要性要进行评估,选出关键性术语,摒弃那些不必要或者超出领域范围的概念,尽可能准确而精简的表达出领域的知识。从而形成一个领域知识的框架体系,得到领域本体的框架结构。 上述Step 2和Step 3并非是绝对的顺序,这两个步骤往往也可以颠倒过来进行,有时会先列举出领域中的术语和概念,然后从概念中抽象出本体框架;也可以先产生本体框架,再按照框架列举出领域的术语。至于如何具体进行,应该根据开发人员对领域的认识程度,如果领域内已经存在非常清晰的框架或

者认识已经很深刻,则可以直接产生框架。当然,这两个步骤也可以交叉进行。 3. 4设计元本体,重用已有的本体,定义领域中概念及概念之间的关系。 为了描述各个概念,利用术语对概念进行标识,并对其含义进行定义,在这一步定义时先采用自然语言进行定义。为了定义一个概念,设计了元本体。一个概念可以采用元本体中定义的元概念进行定义,或采用在本体中已经被定义的概念进行定义,或重用已有的本体。 元本体是指本体的本体,其术语用于定义本体中的概念,如实体、关系、角色等。它可以说是更高层次的本体,是领域内概念的抽象。在设计元本体时,尽量做到领域无关性,并且包含的元概念数目尽可能的少。 UNSPS C、DMOZ、Ontolingua 的本体文库和DAML 的本体文库等,可以导入倒本体开发系统中。本体被表达的形式通常并不重要,因为许多知识表示系统能够导入和导出本体。即使某个知识表示系统不能直接使用某种形式的本体,将本体从一种形式到另一种形式通常也不难实现。 除了概念,还要定义概念之间的关系。这些关系不仅仅涉及同工作领域的概念,不同工作领域的概念也可以相关,只是这些关系总是属于某一个工作领域。 定义类(class)及类的层次体系。创建的概念中,很大一部分属于类,而对类的层次的定义有以下3种方法: (1)自上向下法(top-down): 先定义领域中综合的、概括性的概念,然后逐步细化、说明。 (2)自下向上法(bottom-up): 先定义具体的、特殊的概念,最底层、最细小的类的定义开始,然后对这些概念泛化成综合性的概念。

基于Jena的本体构建方法研究-计算机工程

—59— 基于Jena 的本体构建方法研究 向 阳,王 敏,马 强 (同济大学电子信息与工程学院,上海 200092 ) 摘 要:针对本体构建中构造方法不清晰、本体描述语言不统一、可用工具较少的难题,在Jena 的基础上提出了基于Jena 的本体构建方法。该方法由描述类、描述属性、将属性关联到类、定义实例和加入本体维护元数据5个步骤组成,有效地解决了本体构建中的难题。最后以一个实例验证了该方法的有效性。 关键词:本体;本体构建;Jena Research on Jena-based Ontology Building XIANG Yang, WANG Min, MA Qiang (School of Electronic Information and Engineering, Tongji University, Shanghai 200092) 【Abstract 】There are a lot of difficulties in the ontology building such as the unclear building methods, ununified ontology languages, lack of tools.To solve these problems, this paper presents an ontology building method with Jena. The method is composed of 5 parts: class description, property description, link of property and class, individual creation, ontology metadata adding. The validity of the method is proved with an instance. 【Key words 】ontology; ontology building; Jena 计 算 机 工 程Computer Engineering 第33卷 第14期 Vol.33 No.14 2007年7月 July 2007 ·软件技术与数据库· 文章编号:1000—3428(2007)14—0059—03 文献标识码:A 中图分类号:TP311 本体是对领域中的概念及概念之间联系的显式描述。具 体地说,就是要描述一个领域需要哪些概念,概念由哪些属性标识,属性又具有什么约束,概念对应于哪些实例。 在本体的构建中也存在一些问题:本体构造方法定义不清晰;本体构造语言繁多,不同语言构造出来的本体交互性弱;本体构建工具少,目前可供使用的有斯坦福大学的Protégé和HP 公司的Jena 等。本文在Jena 基础上,提出了OWL 本体构建方法。 1 Jena 体系结构 1.1 Jena 的接口功能 Jena 是HP 公司开发的一个基于Java 的开放源代码语义网工具包,为解析RDF 、RDFS 和OWL 本体提供了一个编程环境及一个基于规则的推理引擎[1]。语义网标准的核心是作为通用数据结构的RDF 图[1]。Jena 将RDF 图作为其核心的接口。Jena 有以下几个主要功能[2]: (1)RDF API(主要是com.hp.hpl.jena.rdf.model 包)。可将RDF 模型视为一组RDFstatements 集合。 (2)RDQL 查询语言(主要是com.hp.hpl.jena.rdql 包)。对RDF 数据的查询语言,可以伴随关系数据库存储一起使用以实现查询优化。 (3)推理子系统(主要是com.hp.hpl.jena.reasoner 包)。包括基于RDFS 、OWL 等规则集的推理,也可自己建立规则。 (4)内存存储和永久性存储 (主要是com.hp.hpl.jena.db)。 Jena 提供了基于内存暂时存储的RDF 模型方法, 目前仅支持MySQL 、Oracle 和PostgreSQL 的数据存储。 (5)本体子系统(主要是com.hp.hpl.jena.ontology 包)。 Jena 对OWL 、DAML+OIL 和RDFS 提供不同的接口支持。 1.2 Jena 的接口结构 Jena 主要由API ,SPI 组成。用户编程只需使用API 。SPI 为Jena 提供核心数据结构。Jena 库由包来管理,Jena API 以 接口方式定义。经常用到包的有: (1)com.hp.hpl.jena.rdf.model 包,可创建和操纵RDF 图,是本体API 的基础。结构如图1所示[3]。 图1 rdf.model 包主要接口函数 (2)com.hp.hpl.jena.ontology 包。为操纵基于RDF 的本体提供了抽象接口和实现,结构如图2所示。 图2 ontology 包的主要接口函数 基金项目:国家自然科学基金资助项目(70371054) 作者简介:向 阳(1962-),男,教授、博士生导师,主研方向:语义网,本体,Web 挖掘;王 敏、马 强,硕士研究生 收稿日期:2006-07-25 E-mail :drxigyang@https://www.360docs.net/doc/701744659.html,

中医药领域本体研究概述

中医药领域本体研究概述 【关键词】本体构建;中医药;综述 本体(Ontology)自20世纪90年代引入计算机人工智能领域后,在计算机及相关领域迅速形成一个研究热点。作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,将在人工智能、知识工程、图书情报等领域具有重要的作用和广阔的应用前景。笔者从中医药领域本体构建、基于本体的中医药语言系统和应用系统三方面对中医药本体研究进行概述,并结合发展现状对其进行展望。 1 本体与本体构建 1.1 本体的概念 本体是源于哲学的一个概念,原指对世界上客观存在物的系统描述,即存在论,后衍生到语言、信息、知识系统等领域,被定义为“概念化的明确的规范说明”。目前,关于本体的定义有很多种说法,但不外有两层含义:一是哲学领域的存在,是本体论的研究对象;二是延伸到特定领域之中,指某套概念及其相互之间关系的形式化表达,包括概念化、规范化、形式化和共享4个特征[1]。 从本体的内涵上看,综合不同学者的认识,本体大都被认为是信息、知识的底层构架工具,用于组织较高层次的知识抽象,是领域知识概念化、形式化的说明,也可以是特定领域内“人机交流”的语义基础,即提供概念与概念之间关系的共识。按照领域依赖程度,本体可以分为顶层、领域、任务和应用本体4类;按照主题可分为知识表示本体、通用本体、领域本体、术语本体和任务本体。中医药本体主要用于描述中医领域知识的专门本体,是专业性本体,一般属于领域本体和知识表示本体。 1.2 本体构建工具与描述语言 在本体构建方面,一是利用已有的叙词表或术语词典进行改造;二是利用现有信息和领域专家从头做起,而以后者较常用。目前已经得到公认的方法包括Bemeras法(KACTUS法)、SENSUS法、“骨架”法、企业建模法(TOVE法)、Methontology法等。Gruber[2]于1995年提出了本体构建的五条规则(明确性和客观性、完全性、一致性、最大单调可扩展性、最小承诺),但本体工程构建方法尚处于相对不成熟阶段。本体的构建工具也有很多,包括protégé、WebOnto、Ontolingua、OntoEdit、Ontosaurus、OntoEdit、IBM Ontology Management System等,其中,protégé 是斯坦福大学开发的使用较为广泛的构建工具之一,目前已有4.0版本。

本体理论与领域本体的构建

第二章本体理论与领域本体的构建 2.1 本体理论 2.1.1 本体的基本概念 本体论(Ontology)的概念最初起源于哲学领域,是形而上学理论研究的一个分支,与认识论相对。认识论研究人类知识的本质和来源,即研究主观认知,而本体论研究的则是客观存在。Ontology一方面研究存在的本质,另一方面研究客体对象的理论定义,即整个现实世界的基本特征。现在哲学领域较多翻译为“本体论”。经过多年的演进,到今天,经过人们对“本体”这一概念的重新理解和定位,本体的理论与方法早已被信息领域采用,用于知识的组织、表示、共享和重用。 本体在计算机学科的使用可以追溯到上个世纪80年代,Alxenader在1986年发表的文章被视为本体在计算机领域获得不同于哲学领域的新的研究的起点。随后Ontolgoy在人工智能领域界获得稳步的发展,并被逐渐赋予了新的含义[8-9]。1991年,在人工智能领域,Neches等人最早给出Ontology定义,Neches认为[10]“An ontology defines the basic terms and relations comprising the vocabulary of a topic area,as well as the rules for combining termsand relations to define extensions to the vocabulary.”即“一个本体给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规则定义这些词汇的外延规则。”本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则[11]。1993年美国斯坦福大学知识系统实验室(Knowledge System Laborary,简称KSL)的Gruber给出了本体在信息科学领域被广泛接受的定义:“An ontology is an explicit specification of a conceptualization”[12]。即“本体是概念化的明确的规范化说明”。这也是最著名并被引用最为广泛的定义。1995年Guarino和Giaretta 将本体定义为[13]“本体是概念化的明确部分的说明一种逻辑语言的模型。”这个定义与Gruber的理解有异曲同工之妙。随后在1997年W.N.Borst对Gruber的定义进行了引申,提出了“本体是共享概念模型的形式化规范说明”,以及1998年J.Studer的“本体是共享概念模型的明确的形式化的规范说明”。 本体的定义随着时间的推移也在进行着不断的变化发展,为明确起见,现将本体发展史中较有代表性的定义列表如下: 表2.1 本体发展史中的定义列表时间/提出人定义 1991/Neches 一个本体给出构成相关领域词汇的基本术语 和关系,以及利用这些术语和关系构成的规

医学文献领域本体的构建及其关键技术分析

医学文献领域本体的构建及其关键技术分析 本文以构建医学文献领域本体模型为例,阐述了构建医学情报领域本体的基本方法、流程框架和使用工具,并对本体构建过程存在的几个关键问题进行了分析,为医学情报领域本体的建设进行了可借鉴的尝试。 本体(ontology)源于哲学范畴,指的是客观存在的一个系统的解释和说明。1993 年Gruber 为本体下了这样的定义,即“本体是概念模型的明确的规范说明”,后来Studer 等对前人的定义进行深入研究后给出了另一个定义:“本体是共享概念模型的明确形式化规范说明”[ ]。虽然诸多学者对本体概念的定义描述到目前为止还没有达成共识,但是这些概念都包涵了本体的四个共性特征,即:概念化、明确、形式化和共享。“概念化”指的是通过抽象出客观世界中一些现象的相关概念而得到概述模型;“明确”指所使用的概念及使用这些概念的约束都有明确的定义;“形式化”指本体是计算机可读的(即能被计算机处理的);“共享”指本体中体现的是共同的认可和知识,反映的是相关领域中公认的概念集,即本体针对的是社会范畴而非个体之间的共识[ ]。 同时,N.Guarino 提出将本体划分为顶级本体(top-level ontology)、领域本体(domain ontology )、任务本体(task ontology)和应用本体(application ontology )[ ]。领域本体是指描述特定领域中的概念以及概念之间的关系,是用于描述指定领域知识的一种专门本体。它给出了领域实体概念及其相互关系,是领域话动以及该领域所具有特 性和规律的一种形式化描述[ ]。一个领域本体包括一套关于某一领域概念的规范而清晰的描述,称为类(classes)或概念(Concepts);描述了有关概念的各种特征的属性(properties)和属性插件(slots),还包括属性插件的限制条件(restrictions)和分面(facets),以及一系列与某个类相关的实例(这些实例组成了一个知识库)。类是本体的核心,它描述了某一领域的概念。属性插件描述了类的属性和实例[ ]。目前,本体模型的研究已经进入了一个新阶段,许多研究领域都在建立自己标准的本体。 1 学科领域常用本体构建方法和建设工具 1.1 学科领域常用本体的构建方法由于本体工程到目前为止仍处于探索阶段,领域本体的建设还处于探索期,构建过程中存在着很多问题。中科院的李景博士在《本体理论及在农业文献检索系统中的应用研究-以花卉学本体建模为例》中对目前常见的7种本体构建方法的成熟性进行了排序,即七步法、METHONTOLOGY 法> IDEFS 法>TOVE 法> 骨架法> SENSUS 法、KACTUS 法。本文大部分过程借鉴了七步法的思路和流程。 1.2 学科领域本体常用建设工具到目前为止,已经出现了许多本体建设工具。根据这些工具所支持的本体描述语言,大致可以分为2类。第1类包括Ontolingua,OntoSaurus,WebOnto 等。这3个工具的共同点是,都基于某种特定的语言,并在一定程度上支持多种基于AI的本体描述语。第2类包括Protégé系列、Web0DE、OntoEdit、Oi1Ed等。这些工具最大的特点是独立于特定的语言,可以导入/导出多种基于Web的本体描述语言格式(如XML、RDF(S)、DAML+OIL等)。它们都是基于组件的结构,很容易通过添加新的模块来提供更多的功能,具有良好的可扩展性[ ]。 本文之所以选择Protégé作为构建工具,是因为Protégé与其他本体创建工具相比,有很多其独特的优势:①Protégé作为开源工具,目前拥有最多注册用户;②不断有新的版本推出; ③可扩展性好;④以多种方式存储本体、互操作性强;⑤图形化的用户界面,简单友好;⑥支持DAML+OIL,OWL,RDF,RDFS等本体表示语言。正是这些优点,使得Protégé成为各种领域本体构建的首选工具。

基于Wiki的本体构建方法

第30卷第8期通化师范学院学报Vol.30№8 2009年8月JOURNAL OF T ONGHUA TEACHERS COLLEGE Aug.2009 基于W iki的本体构建方法 于江涛,毛慧珍 (通化师范学院计算机科学系,吉林通化134002) 摘 要:该文提出一种本体构造环境方案,在W iki pedia的基础上加入本体构造用户接口,降低用户构造本体的门槛,使用户在建立概念的同时创建本体.系统以OWL本体形式存储、管理和共享知识,还可以以系统已有概念为字典,对相关本体领域相关文本进行本体学习,自动建立本体. 关键词:本体构建;W iki;用户驱动;本体学习 中图分类号:TP311 文献标志码:A 文章编号:1008-7974(2009)08-0019-02 收稿日期:2009-06-01 作者简介:于江涛(1969-),男,硕士,通化师范学院计算机科学系副教授. 1 引言 本体(Ont ol ogy)是当前人工智能研究领域的热点,是解决知识工程中一些问题的有效方法.它的优势体现在可以用于不同领域内的人之间的交流和知识共享,可用于语义网进行语义判断,还可对知识进行管理.本体的构建是本体应用的前提,一直是个烦琐的过程.传统上为了保证本体的正确性,领域本体的构建都需要领域专家的参与.然而仅靠少数领域专家的参与难以实现领域本体构建的繁重任务[1],更不用说实现本体工程. 仅有少部分人来构建本体,主要存在两个问题:①本体的创建过程不在其用户的完全控制之内,一旦被发现有错误,发现者往往不能自已修改,而要求助于少部分人的本体建造者;②本体使用者不能抓住本体的重要性质,本体不能更好的满足用户的需要.因此,在允许少量误差前提下,我们需要更快捷的方法得到大范围的领域本体.这便需要降低本体产生和维护工具的使用门槛,使更多人的参与进来. 本文提出了基于W iki技术的本体构建方法,用户可以通过模仿自然语言中词汇的出现过程来完成本体的建立,就像任何人都能发明一个自然语言中的词汇,任何人都可以依靠W iki技术建立自己的本体.经过一次次的修改最终成为最完善和满足用户需要的本体.该方法以OWL本体来存储概念,在W iki pedia的基础上加入本体构件的用户接口,用户在建立概念的同时就建立了本体. 2 基于W iki的本体构造方法 设计界面类似于Platypus W iki(Platypus W iki 是一个Sem antic W iki W iki W eb工程[2]),但提供更丰富的OWL Full抽象语法,需要用自然语言的名称,以期不需要高的应用门槛.当使用W iki 建立一个新的概念(C lass)时,会提示记录父类(subC lass O f),当然也可以新建父类.如果其父类已经存在就取其父类的属性(Property)来指导该类属性的建立.继而对属性建立dom ain,range等等.同时对概念给出解释性自然语言描述,最终产生OWL交换语法描述和解析树.OWL本体可供修改和共享. 虽然任何人都可以对概念或者本体进行修改甚至删除,但W iki引入版本控制概念,所以任何版本的信息都会被保存下来.引入用户投票机制,让相关概念的使用者以自己的评价权重对已有本体进行评价,得到评价最高的本体作为相关概念的系统推荐本体.本体的评价高低又反过来决定其作者的评价权重. 当系统的本体规模足够大时,可以依托这些本体作为基本概念的字典,对欲建立的某新概念,指定相关领域网站,利用网络爬虫抽取与之链接网站中的文本,从相关文本中抽取对概念的描述语句,不断进行本体学习,自动建立相关概念的本体.该本体的准确性虽然略低,但可以作为用户建立相关本体时的参考,有指导作用,至少可以减少欲建立该本体的用户的工作量.当前在本体自动构建方面做的比较好的是Ont o W are Pr oject的text2ont o,它以WordNet 为字典,利用text m ining从大量文本资源中得到相关概念的描述信息,自动建立出该领域的本体[3,4]. ? 9 1 ?

本体的概念和应用总结

一、Ontology 的定义: Ontology 是一种能在语义和知识层次上描述信息系统的概念模型建模工具。Ontology 是对概念模型的明确的、形式化的、可共享的规范。 这包含4层含义:概念模型( conceptualization)、明确(explicit)、形式化( formal)和共享(share)。 概念模型:指通过抽象出客观世界中一些现象( Phenomenon)的相关概念而得到的模型。概念模型所表现的含义独立于具体的环境状态。 明确:指所使用的概念及使用这些概念的约束都有明确的定义。 形式化:指Ontology 是计算机可读的(即能被计算机处理)。 共享:指Ontology 中体现的是共同认可的知识, 反映的是相关领域中公认的概念集,即Ontology 针对的是团体而非个体的共识。 Ontology 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。 补充1:在与领域的本体概念 计算机科学信息科学在与领域,理论上,本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”。本体提供的是一种共享词表,也就是特定领域之中那些存在着的或概念及其属性和;或者说,本体就是一种特殊类型的,具有结构化的特点,且更加适合于在之中使用;或者说,本体实际上就是对特定之中某套及其相互之间的形式化表达(formal representation)。 计算机科学信息科学对象类型相互关系术语集计算机系统领域概念关系二、Ontology 的建模元语 Perez 等人认为Ontology 可以按分类法来组织,他归纳出Ontology 包含5个基本的建模元语(Modeling Primitive)。这些元语分别为:类(classes),关系(relations),函数(functions),公理(axioms)和实例(instances)。通常也把classes 写成concepts 。 概念的含义很广泛,可以指任何事物,如工作描述、功能、行为、策略和推理过程等等。 类:集合(sets )、概念、对象类型或者说事物的种类。 关系代表了在领域中概念之间的交互作用。形式上定义为n 维笛卡儿乘积的

本体构建方法

本体构建方法 本文通过借鉴其他领域本体的构建方法,尤其是苏格兰爱丁堡大学的企业本体的建立过程,首先尝试着一步步建立起自己的本体模型,并且经过反复迭代的过程,不断的进行排错和修改,直至本体模型初具雏形。然后在遵循本体建立准则的基础上,通过抽象总结出一套领域本体的知识工程构建方法。 领域本体构建过程 3.1 确定本体的领域与范围 首先要明确构建的本体将覆盖的专业领域、应将本体的目的、作用以及它的系统开发,维护和应用对象,这些对于领域本体的建立过程中有着很大的关系,所以应当在开发本体前注意。对于特定的专业领域的一些特殊的表达法和特定的详细内容等的注释,应当明确。另外能力问(competency questions)是由一系列基于该本体的知识库系统应该能回答出的问题组成(Gruninger和Fox,1995),能力问题被用来检验该本体是否合适:本体是否包含了足够的信息来回答这些问题?问题的答案是否需要特定的细化程度或需要一个特定领域的表示。 3.2 列举领域中重要的术语、概念。 在领域本体创建的初始阶段,尽可能列举出系统想要陈述的或要向用户解释的所有概念。这上面的概念和术语是需要声明或解释的。而不必在意所要表达的概念之间的意思是否重叠,也不要考虑这些概念到底用何种方式(类、属性还是实例)来表达。 3.3 建立本体框架。 上一步骤中已经产生了领域中大量的概念,但却是一张毫无组织结构的词汇表,这时需要按照一定的逻辑规则把它们进行分组,形成不同的工作领域,在同一工作领域的概念,其相关性应该比较强。另外,对其中的每一个概念的重要性要进行评估,选出关键性术语,摒弃那些不必要或者超出领域范围的概念,尽可能准确而精简的表达出领域的知识。从而形成一个领域知识的框架体系,得到领域本体的框架结构。 上述Step 2和Step 3并非是绝对的顺序,这两个步骤往往也可以颠倒过来进行,有时会先列举出领域中的术语和概念,然后从概念中抽象出本体框架;也可以先产生本体框架,再按照框架列举出领域的术语。至于如何具体进行,应该根据开发人员对领域的认识程度,如果领域内已经存在非常清晰的框架或者认识已经很深刻,则可以直接产生框架。当然,这两个步骤也可以交叉进行。 3. 4 设计元本体,重用已有的本体,定义领域中概念及概念之间的关系。 为了描述各个概念,利用术语对概念进行标识,并对其含义进行定义,在这一步定义时先采用自然语言进行定义。为了定义一个概念,设计了元本体。一个概念可以采用元本体中定义的元概念进行定义,或采用在本体中已经被定义的概念进行定义,或重用已有的本体。 元本体是指本体的本体,其术语用于定义本体中的概念,如实体、关系、角色等。它可以说是更高层次的本体,是领域内概念的抽象。在设计元本体时,尽量做到领域无关性,并且包含的元概念数目尽可能的少。目前,web上有许多可重用的本体资源库。重用已有的本体,既可以减少开发的工作量,又能增强与其它使用该本体的系统的交互能力。目前有许多本体可以通过internet获得,许多现成的本体,例如:UNSPSC、DMOZ、Ontolingua 的本体文库和DAML 的本体文库等,可以导入倒本体开发系统中。本体被表达的形式通常并不重要,因为许多知识表示系统能够导入和导出本体。即使某个知识表示系统不能直接使用某种形式的本体,将本体从一种形式到另一种形式通常也不难实现。 除了概念,还要定义概念之间的关系。这些关系不仅仅涉及同工作领域的概念,不同工作领域的概念也可以相关,只是这些关系总是属于某一个工作领域。 定义类(class)及类的层次体系。创建的概念中,很大一部分属于类,而对类的层次的定义有以下3种方法: (1) 自上向下法(top-down):先定义领域中综合的、概括性的概念,然后逐步细化、说明。 (2) 自下向上法(bottom-up):先定义具体的、特殊的概念,最底层、最细小的类的定义开始,然后对这些概念泛化成综合性的概念。

本体的类型

本体的类型 某些学者将本体看作是构造知识库的一种途径,另一些学者认为本体是知识库的重要组成部分,此外还有专家将本体视为在不同平台间进行互操作处理的关键技术,注重应用和效益的专业人士则将本体的研究应用于企业业务流程的重组等实际工作之中。 由于应用领域的不同,对本体研究的侧重点也有所不同:涉及特定学科领域的本体,被称为领域本体(Domain ontology),涉及具有普遍意义的客观世界的常识的本体,被称为顶级本体、上层本体或通用本体(Upper ontology)。涉及问题求解的本体,被称为问题、方法或问题求解本体或应用本体(Problem-solved ontology/Application ontology),涉及知识表示语言的本体,被称为表示本体(或称元本体)、宏本体(Representation ontology或Meta-ontology) 。在基于Web的智能信息检索应用中,本体通常作为用户感兴趣领域的领域模型,同时还可以用作进行文档统一注释的知识表示语言体系和标准。具体来讲: (1)表示本体(元本体,Representation ontology或Meta-ontology ),是指在一个特定的知识表示体系中,用来获取对知识进行形式化的表达元词(即词根)的本体。例如,框架本体(Frame ontology),定义了用来获取普遍规律的术语,这些普遍规律常用在以对象为中心的知识表示系统(如框架、描述逻辑 (DL-Description Logics,以下简称DL)等)中。这类本体定义了概念,例如类、关系(Relation)、函数、数量(Arity )、精确的学科领域(Exact-domain)、精确的范围(Exact-range)、一元关系(Unary-relation ),二元关系 (Binary-relation)等。在这样的本体中,“关系”是元组(数组)集〔Sets of Tuples)由谓语命名,函数是关系的特殊实例,类是一元关系(在“类”里没有针对类型的特定语法),而且作为集合(而不是表示方式),类得到了广义的定义。 (2)上层本体或通用本体、顶级本体(General or Upper-ontology),划分了存在于客观世界的实体的不同种类。具有普遍意义的观念在这类本体中得到了表示,这些观念不依赖于特定的问题或学科领域。在这类本体中,被定义的知识可以跨学科应用,这些知识还包括与事物、事件、时间、空间和地区等相关的词

领域本体构建方法的研究

龙源期刊网 https://www.360docs.net/doc/701744659.html, 领域本体构建方法的研究 作者:殷美 来源:《电脑知识与技术》2012年第24期 摘要:介绍了国外一些著名的领域本体构建方法及本体构建中存在的问题;介绍了软件工程中螺旋开发模型。通过借鉴其它领域本体的构建方法及螺旋开发模型,提出了一种新的工程化的领域本体构建方法并通过构建高校教务管理领域本体检验其有效性。 关键词:本体;构建方法;螺旋模型 中图分类号:TP391文献标识码:A文章编号:1009-3044(2012)24-5913-04 Research on Domain Ontology Building Method YIN Mei ( Institute of Information Engineering, Lianyungang Technical College, Lianyungang 222000, China) Abstract: This paper introduces the basic concept of the domain ontology, domain ontology construction method and some problems in Constructing Ontology; introduced the software engineering spiral development model. Through drawing lessons from the other domain ontology construction method and a spiral development model, put forward a kind of new project of domain ontology construction meth od. Key words: ontology; construction method; spiral model 1本体构建方法 本体原本是哲学上的一个概念,主要探讨现实世界的基本特征。近年来,人工智能、语义web相关领域的学者也开始将本体论的观念用在知识表达上,使其成为一种能在语义和知识层次上描述信息系统的概念模型的建模工具。目前Ontology已经被广泛应用到包括计算机科 学、电子商务、数据挖掘、智能检索等在内的诸多领域。特别是做为语义Web的关键技术之一,本体及其相关技术已成为研究热点。领域本体描述的是特定领域(医学、地理、生物等)中的概念及概念之间的关系。 本体的构建主要有三种模式:一是人工模式,由领域专家借助工具完成本体构建;二是半自动模式,基于大量领域数据,在领域专家的协助下完成本体构建;三是自动模式,运用数据挖掘、人工智能等方法,基于大量的领域数据完成本体构建。上述三种模式各有优劣,人工模式代价较大,所构建的本体灵活性不足;自动模式构建的本体实施难度较大、准确性不高;而

领域本体知识库总结

领域本体知识库 目录 1、数据、信息和知识的层次关系 (2) 2、本体定义 (2) 3、领域本体定义 (2) 4、构建领域本体的准则 (3) 5、构建本体的技术方法 (3) 6、领域本体的构建 (4) 6.1、领域本体的构建步骤 (4) 6.2、领域本体的知识工程构建方法 (4) 6.3、领域本体开发流程 (4) 6.4、本体开发流程 (5) 7、本体开发工具 (6) 8、领域本体的查询推理 (7) 9、领域本体的存储 (7)

1、数据、信息和知识的层次关系 图1 数据、信息和知识的层次关系2、本体定义 3、领域本体定义

4、构建领域本体的准则 5、构建本体的技术方法 (1)本体形式化描述语言的选择(2)本体开发工具的选择 (3)确立本体构建方法 (4)领域知识的搜集

6、领域本体的构建 6.1、领域本体的构建步骤 (1)确定本体的专业领域和范畴(2)列出本体中的重要术语(3)建立目标本体的概念结构(4)定义属性 (5)创建类的实例 6.2、领域本体的知识工程构建方法(1)确定本体的领域与范围 (2)列举领域中重要的术语、概念(3)建立本体框架 (4)对领域本体编码、形式化 6.3、领域本体开发流程

6.4、本体开发流程(1)定义类和类层次

(2)定义类的属性及属性约束 类的属性定义主要包括对象属性和数据属性。 对象属性用于描述类的个体实例之间的关系。 数据属性用于描述类的个体数值特征,不同属性有不同取值类型,一般包括文本、数值、日期等多种类型。 定义属性时还须定义其属性约束,包括定义域、值域、属性类型等。 (3)创建实例 7、本体开发工具 本体开发工具采用开源的Protégé软件,用W3C推荐的OWL(ontology web language)语言作为本体描述语言。

本体的概念

1 关于Ontology 1.1 Ontology的定义 Ontology最早是一个哲学的范畴,后来随着人工智能的发展,被人工智能界给予了新的定义。然后最初人们对Ontology的理解并不完善,这些定义也出在不断的发展变化中,比较有代表性的定义列表如下: 关于最后一个定义的说明体现了Ontology的四层含义: l 概念模型(cerptualization) 通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型,其表示的含义独立于具 体的环境状态 l 明确(explicit) 所使用的概念及使用这些概念的约束都有明确的定义 l 形式化(formal) Ontology是计算机可读的。 l 共享(share) Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不 是个体。 Ontology的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。 1.2 Ontology的建模元语 Perez等人用分类法组织了Ontology,归纳出5个基本的建模元语(Modeling Primitives):

l 类(classes)或概念(concepts) 指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它表示的是对象的集合,其定义一般采用框架(frame)结构,包括概念的名称,与其他概念之间的关系的集合,以及用自然语言对 概念的描述。 l 关系(relations) 在领域中概念之间的交互作用,形式上定义为n维笛卡儿积的子集:R:C1×C2×…×Cn。如子类关系(subclass-of)。在语义上关系对应于对象元组的集合。 l 函数(functions) 一类特殊的关系。该关系的前n-1个元素可以唯一决定第n个元素。形式化的定义为F:C1×C2×…×Cn-1→Cn。如Mother-of就是一个函数,mother-of(x,y)表示y是x的母亲。 l 公理(axioms) 代表永真断言,如概念乙属于概念甲的范围。 l 实例(instances) 代表元素。从语义上讲实例表示的就是对象。 另外,从语义上讲,基本的关系共有4种: 在实际建模过程中,概念之间的关系不限于上面列出的4种基本关系,可以根据领域的具体情况定 义相应的关系。 本体论是信息科学与计算机科学领域之中的一个致力于本体之设计、构建、存储、更新、维护、发布、共享、应用和评价以及不同层次和不同领域本体之间相互关系(如映射关系)的研究和应用领域。

本体概念、描述语言和方法论方面的综述

本体概念、描述语言和方法论方面的综述。 一、本体的概念 Ontology 的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚里士多德(384-322 b.c.)。它在哲学中的定义为“对世界上客观存在物的系统地描述,即存在论”,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质[1]。 在人工智能界,最早给出Ontology定义的是Neches等人,他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”[1]。Neches认为:“本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则。”(“An ontology defines the basic terms and relations comprising the vocabulary of a topic area, as well as the rules for combining terms and relations to define extensions to the vocabulary.”)[6]。 后来在信息系统、知识系统等领域,越来越多的人研究Ontology,并给出了许多不同的定义。 其中最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念化的明确的规范说明”,原文参见: "An ontology is an explicit specification of a conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what "exists" is that which can be represented. When the knowledge of a domain is represented in a declarative formalism, the set of objects that can be represented is called the universe of discourse. This set of objects, and the describable relationships among them, are reflected in the representational vocabulary with which a knowledge-based program represents knowledge. Thus, in the context of AI, we can describe the ontology of a program by defining a set of representational terms. In such an ontology, definitions associate the names of entities in the universe of discourse (e.g., classes, relations, functions, or other objects) with human-readable text describing what the names mean, and formal axioms that constrain the interpretation and well-formed use of these terms. Formally, an ontology is the statement of a logical theory."[2, 3]。 和这个定义类似的有N. Guarino and P. Giaretta (1995)“本体是概念化的明确的部分的说明/一种逻辑语言的模型”(“an ontology is an explicit, partial account of a conceptualization/ the intended models of a logical language.”)。 W. N. Borst对该定义也进行了引申“本体是共享的概念模型的形式化的规范说明”(“An ontology is a formal specification of a shared conceptualization”)[11] Fensel对这个定义进行分析后认为Ontology的概念包括四个主要方面[4]: 1. 概念化(conceptualization):客观世界的现象的抽象模型; 2. 明确(explicit):概念及它们之间联系都被精确定义; 3. 形式化(formal):精确的数学描述; 4. 共享(share):本体中反映的知识是其使用者共同认可的。 原文:“an abstract model of a phenomenon termed ‘conceptualization’,a precise mathematical description hints the word ‘formal’, the precision of concepts and their relationships clearly defined are expressed by the term ’explicit’and the existence of an agreement between ontology users is hinted by the term ‘shared’.” Swartout将本体定义为:“本体是一个为描述某个领域而按继承关系组织起来作为一个知识库的骨架的一系列术语”。(“An ontology is a hierarchically structured set of terms for describing a domain that can be used as a skeletal foundation for a knowledge base.”)[5]。他的

相关文档
最新文档