本体相似度计算方法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2012.12

52 本体相似度计算方法研究

张路

长江大学工程技术学院湖北 434020

摘要：MD3模型是一种系统的跨本体概念间相似度的计算方法，这种方法无需建立一个集成的共享本体。本文在MD3 模型的基础上，充分利用本体对概念的描述信息，重点讨论了跨本体概念间非层次关系相似度的计算，把MD3 模型扩展到

EMD3 模型，使得概念间相似度的计算理论上更全面、更精确。

关键词：本体；元数据模型；语义相似度；MD3模型

0 引言

本体映射算法以两个本体作为输入，然后为这两个本体的各个元素(概念、属性或者关系) 建立相应的语义关系。相似性提取是本体映射的一个重要步骤，它主要是进行概念相似度的计算，提高语义相似度计算精度成为提高语义信息检索质量的关键之一。语义相似度一般是指计算本体概念间的相似度，多数方法所考虑的概念是基于一个本体的，跨本体

概念间的方法比较少。MD3模型是一种典型的计算跨本体概念间相似度的方法。

1 MD3模型

Triple Matching-Distance Model(MD3)模型是一种跨本体概念间相似度计算框架。计算实体类a 和b 之间的相似度通过计算同义词集、特征属性和语义邻居之间的加权和，公式如下：

Sim(a,b)=wS synsets (a,b)+uS features (a, b)+vS neighborhoods (a,b) 其中w, u, v 表示了各组成部分的重要性。特征属性细化为组成部分、功能以及其他属性。概念a 和b 的语义邻居及其特征属性(即概念的部分、功能及其他属性)也通过同义词集合描述，每一个相似度的计算都通过Tversky 公式：

(,)(,)(1(,))A B

S a b A B a b A B a b B A

αα=+-+--

其中A, B 分别表示概念a 和b 的描述集合，A-B 表示属于A 但不属于B 的术语集(B-A 相反)。参数(,)a b α由概念a 和b 和在各自层次结构中的深度确定。

2 EMD3模型

MD3模型的不足在于没有考虑对象实例对概念的影响，同

时其语义邻居只考虑语义关系中层次之间的相似度，没有考虑非层次之间的相似度。本文在MD3模型的基础上，参考了其概念名称相似度、特征属性，对本体的结构以及概念描述两方面做了扩充，重点讨论了跨本体概念间非层次关系的相似度的比较和实例对概念相似度的影响，把MD3模型扩展到Extension of Triple

Mapping Distance model (EMD3)模型。

2.1 概念属性的相似度

属性有属性名称、属性数据类型、属性实例数据等要素，因此判断两个属性是否相似主要从这三个要素来考虑。属性名称、属性类型本身是文本类型，是字符串，因此可以采用字符串相似度计算方法进行判定。例如用Humming distance 来比较两字符串。设两字符串s 和t ，则它们之间的相似度可由下式给出：

min(,)

(,)1[(

())]/max(,)s t i Sim s t f i s t s t ==-+-∑

其中：若s[i]=t[i],则f(i)=0;否则f(i)=1。由于每个概念的实例对该概念的每个属性都分配了一个相应的值，对于其他类型的数据，可以采用下面介绍的方法进行计算。

设概念A 的属性为a i ，概念B 的属性为b j ，两个属性之间的相似度的计算公式为：

Sim(a i ，b j )= w 1s 1(a i ，b j )+ w 2s 2(a i ，b j )+ w 3s 3(a i ，b j ) 其中w i 是权重，代表属性名称、数据类型、属性实例数据对属性相似度计算的重要程度，且和为1。设概念A,B 之间总共计算出m 个sim(a i ，b j )，并设置相应的权值k l ，则概念之间基于属性的相似度为：

(,)/(,)m m

l i j l

l l k Sim a b k Sim A B ==∑∑

2012.12

2.2 概念名称相似度

知网中概念的语义用义原来描述，义原是描述概念语义的最小单位，一共有1500多个义原。由于所有义原根据上下位关系构成了一个树状的层次体系，所有可以用语义距离计算相似度。假设两个义原在该层次体系中的路径为d ，可以得到两个义原之间的语义相似度如下：12(,)/()Sim p p d αα=+，式中α是一个可以调节大小的因子。在知网中一个概念由多个义原描述，所以我们只要计算每个义原的相似度来考虑其重要性，就可以得到概念之间的名称相似度。计算方法如下：

121(,)(,)1m

name i i j i S c c w Max Sim p p j n ==∑≤≤，其中m, n 为概念c 1, c 2

的义原数，w i 为第i 个义原所占的权重。

2.3 语义关系的相似度

语义关系包括层次语义关系和非层次语义关系，层次语义关系具有有向传递性，非层次关系不具有传递性(如关联关系)。

(1) 层次语义关系的计算

本文借鉴参考文献[1]中的方法来计算层次语义关系，利用语义邻居的概念，以实体为中心向周围辐射，设定一个语义半径，半径取值的大小反映与实体之间的亲疏关系。划定语义邻居的范围集合进行匹配，取集合中的最大值作为语义邻居之间的相似度。语义邻居计算公式如下：

N(a 0, r)={c i 0}∀i, d(a 0，c i 0)≤r

层次语义关系相似度计算：(,)/h S a b A B A B = ，其中A ，B 分别代表实体a ，b 的语义邻居集合。

(2) 非层次语义关系的计算

上位词：定义概念的上位词为概念所有父类的集合，公式如下：UC(C i , H)={C j ∈C|H(C i , C j )}

基于概念上位词的定义，定义概念的匹配公式：

11221122/(,;,)(,)(,)CM C O C O UC C H UC C H =

(,)(,)UC C H UC C H

与概念相关的非层次关系：如果关系的定义域或值域是概念c ，

则称这些关系为与概念c 相关的非层次关系，公式如下： (){()()|,}c x x x R P dom R c range R c R P c C ===∈∈ 还可以进一步把非层次关系细化为概念的In 关系和Out 关系(可以认为非层次关系的方向是从定义域到值域，凭此来定义In 和Out 的关系)，In 关系指概念c 是非层次关系的值域，公式如下：{()|,}c I x x R range R c R P c C -==∈∈。而Out 关系指的是概念c 是非层次关系的定义域，公式如下：

(){()|,}c o x x R P dom R c R P c C -==∈∈

比较概念的非层次关系，首先应该找出两个本体中与这

两个概念相关的同类非层次关系(无需考虑不同类的非层次关系)，进而比较这些同类非层次关系的另外一项之间的相似度(如果要比较的概念是非层次关系的定义域，分别找出这个关系的值域，通过概念匹配公式对其进行比较，反之亦然)。

下面以In 关系为例描述比较的过程：P q I a I b I R R R --= 其中P a I R -表示本体p 中与概念a 相关的In 关系，而q b I R -表示本体q

中与概念b 相关的In 关系，所以其交集I R 表示本体p, q 中与概念a, b 相关的公共In 关系集合。如果概念a, b 没有公共的

In 关系，则I R 为空，无需下面的计算。对于公共In 关系集合，公式如下：1

1(,)((),;(),)I

non h I I I i i i I R S a b CM dom R p dom R q R --==

∑；对In 关系和Out 关系进行加权综合，得到非层次关系相似度

的公式如下：

(,)(,)(,)non h non h I non h O S a b iS a b oS a b -----=+ 其中i ，o 为权值，反映的是非层次关系的值域与定义域对概念相似度的影响程度。对层次关系和非层次关系计算结果进行综合，得到概念语义环境的相似度计算公式如下：

(,)(,)(,)neighborhoods h non h S a b tS a b uS a b -=+

其中t ，u 分别是层次关系和非层次关系的权重，因为在本体中层次关系要比非层次关系的重要性高，所以在计算中应该赋以较大的值，即t>0.5>u ，且t+u=1。

2.4 概念实例特征的相似度

基于实例特征计算相似度的理论依据是，如果概念所具有的实例全部都相同，那么这两个概念是相同的；如果两个概念具有相同实例的比重是相同的，那么这两个概念是相似的。对于概念A,B 的具体实例，

可以用Jaccard 系数来计算相似度：()(,)

(,)()(,)(,)(,)

inst B A P A B P A B S A B P A B P A B P A P B ==++ 。

其中P(A,B)表示一个实例既属于概念A 又属于概念

B 的概率, (,)B P A 表示一个实例属于概念A 但不属于B 的概率。

2.5 结论

由上面的分析，综合了各个部分相似度的值，得到跨本体概念间相似度的综合公式如下：

(,)(,)(,)(,)(,)im name attr neighborhoods inst S a b mS a b nS a b rS a b tS a b =+++

其中m, n, r, t 为各个部分所占的权重，根据各个部分重要性的不同m, n, r, t 分别被赋以不同的值，并且m+n+r+t =1。

3 结语

本文扩展的模型充分继承了MD3模型的优点，并对

MD3模型进行了优化。在选择了适当权重的前提下，EMD3