一种综合的概念语义相似度计算方法_丁建

合集下载

语义相似度的计算方法研究概述

语义相似度的计算方法研究信息与计算科学余牛指导教师：冉延平摘要语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等很多领域中都有广泛的应用．特别是近几十年来随着Internet技术的高速发展,语义相似度计算成为自然语言处理和信息检索研究的重要组成部分．本文介绍了几种典型的语义相似度的计算方法，总结了语义相似度计算的两类策略,其中重点介绍了一种基于树状结构中语义词典Hownet的语义相似度计算方法，最后对两类主要策略进行了简单的比较．关键词语义相似度;语义距离;知网;语料库The Reseach of Computing Methods about Semantic SimilarityYU Niu(Department of Mathematics and Statistics,Tianshui Normal University , 741000) Abstract Semantic similarity is broadly used in many applications such as information retrieval, information extraction, text classification, word sense disambiguation, example-based machine translation and so on．Especially with the rapid development of Internet technology in recent decades, Calculation of semantic similarity has always been an important part of natural language processing and information retrieval research .This paper introduces several main methods of calculating semantic similarity , then two strategies of semantic similarity measurement are summarized, and we focuse on the Hownet based on the stucture of tree and use them to calculate the semantic similarity ,and finally the two strategies are easily compared .Key words Semantic similarity, Semantic distance,Hownet, Corpus1引言语义相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性．自然语言的词语之间有着非常复杂的关系，在实际应用中，有时需要把这种复杂的关系用一种简单的数量来度量，而语义相似度就是其中的一种．词语的语义相似度计算主要有两种方法:一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;另一类主要是通过词语上下文的信息（本文只介绍了主要的理论方法）,运用统计的方法进行求解．对于前一类基于树状层次结构的计算语义相似度方法的研究已经比较成熟,国外的Dekang Lin ]1[, Rudi L .Cilibrasi ]2[等都给出了自己的比较合理的语义相似度计算公式和方法;国内这方面起步较晚,但发展很快,董振东]3[,刘群,李素建]4[等在这方面的研究做了很多开创性的工作,李峰]5[,杨哲]6[,李熙]7[,夏天]8[等后来者做了很多补充性和改进性的工作．针对以上研究现状,笔者对当前的语义相似度研究成果进行了简单的归纳和总结,然后对相关方法进行了简单比较，并提出了研究的应用方向，以供相关研究人员参考和应用． 2语义相似度什么是语义相似度?语义相似度是一个主观性相当强的概念，没有明确的客观标准可以衡量．脱离具体的应用去谈论语义相似度，很难得到一个统一的定义．由于词语在语言结构中的一般性,我们着重研究词语的相似度,进而推广到句子,以致整个文本的相似度．Dekang Lin ]1[认为任何两个词语的相似度取决于它们的共性(Commonality )和个性(Differentces ),然后从信息论的角度给出了定义公式: )),((log )),((log ),(B A n descriptio p B A Common p B A Sim (1) 其中，分子表示描述B A ,共性所需要的信息量；分母表示完整地描述B A ,所需要的信息量．刘群,李素建]4[以基于实例的机器翻译为背景，认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度．两个词语，如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大，二者的相似度就越高，否则相似度就越低．对于两个词语 21W W 、，如果我们记其相似度为 ),(21W W Sim ，其词语距离为),(21W W Dis ，根据刘群,李素建]4[的公式： ),(),(2121W W Dis W W Sim +=αα（2）其中α是一个可调节的参数．α的含义是：当相似度为 0．5 时的词语距离值．笔者尝试从树论的角度给出一个定义,假设任意两个词语21W W 、可以表示为一个树形结构中(如同义词词典Wordnet 即为这种树形结构)的两个结点,由于语义距离(),(21W W Dis )与语义相似度(),(21W W Sim )成反比例关系。

语义相似度计算

语义相似度计算目前，语义相似度计算已经成为了自然语言处理领域中的一个研究热点，各种模型和算法不断涌现。

在本文中，我们将对语义相似度计算的基本概念和常用方法进行介绍，并且讨论一些当前研究中的热点问题和挑战。

## 语义相似度的定义和挑战语义相似度衡量的是两个句子或短语之间的语义相似程度。

在计算语义相似度时，我们通常会考虑到两个句子或短语之间的含义、单词的语义以及语法结构等因素。

然而，要准确地计算出两个句子之间的语义相似度并不是一件容易的事情，因为自然语言的含义通常是多样化、模糊不清的，而且受到语言表达方式的限制。

在计算语义相似度时，我们需要克服一些挑战和困难。

首先，要考虑到句子或短语之间的多样性。

同一句话可以有多种表达方式，而这些表达方式的语义可能是相似的，但又不尽相同。

其次，要考虑到语言的歧义性。

自然语言中存在着很多的歧义现象，一个词汇可以有多种不同的含义，这就增加了语义相似度计算的难度。

此外，要考虑到语言的多义性。

一个句子中的一些词汇可能具有多个含义，这就增加了语义相似度计算的复杂性。

## 语义相似度计算的常用方法为了克服这些挑战和困难，研究人员提出了许多语义相似度计算的方法和模型。

这些方法和模型大致可以分为基于知识的方法和基于数据的方法两种。

基于知识的方法通常利用词汇语义资源（如WordNet）来计算语义相似度。

其中，常用的算法包括基于路径的方法、基于信息内容的方法和基于语义子空间的方法等。

基于路径的方法通过计算两个词之间在WordNet中的最短路径来计算它们的语义相似度。

基于信息内容的方法则是利用词汇在语料库中的分布信息来计算它们的语义相似度。

而基于语义子空间的方法则是利用词汇在一个高维语义空间中的向量表示来计算它们的语义相似度。

这些方法在一定程度上可以解决语义相似度计算中的多样性、歧义性和多义性问题。

另一方面，基于数据的方法则是利用机器学习和深度学习技术来计算语义相似度。

其中，常用的方法包括基于词向量的方法、基于神经网络的方法和基于迁移学习的方法等。

一种新的本体的概念语义相似度计算方法

第１０卷第１４期２０１５年７月
中国科技论文ＣＨＩＮＡＳＣＩＥＮＣＥＰＡＰＥＲ
Ｖｏｌ．１０Ｎｏ．１４Ｊｕｌ．２０１５
一种新的本体的概念语义相似度计算方法
２３２２孙铁利１，，邢元元１，，关煜１，，陈斯娅１，，杨凤芹１，孙红光１
犖狅狏犲犾狅狀狋狅犾狅犫犪狊犲犱犮狅狀犮犲狋狊犲犿犪狀狋犻犮狊犻犿犻犾犪狉犻狋犲犪狊狌狉犲犵狔狆狔犿
１２，１３，１２，１２，１，１ＳｕｎＴｉｅｌｉＸｉｎｕａｎｕａｎＧｕａｎＹｕＣｈｅｎＳｉａＹａｎｅｎｉｎＳｕｎＨｏｎｕａｎｇＹｙｙｇＦｇｑｇｇｇ，，，，
（，１．犛犮犺狅狅犾狅狅犿狌狋犲狉犛犮犻犲狀犮犲犪狀犱犐狀狅狉犿犪狋犻狅狀犜犲犮犺狀狅犾狅犖狅狉狋犺犲犪狊狋犖狅狉犿犪犾犝狀犻狏犲狉狊犻狋犆犺犪狀犮犺狌狀１３０１１７犆犺犻狀犪；犳犆狆犳犵狔，狔，犵，２．犛犮犺狅狅犾狅犲狅狉犪犺犻犮犪犾犛犮犻犲狀犮犲，犖狅狉狋犺犲犪狊狋犖狅狉犿犪犾犝狀犻狏犲狉狊犻狋犆犺犪狀犮犺狌狀１３００２４犆犺犻狀犪；犳犌犵狆狔，犵 ’ ，，３．犛狋狌犱犲狀狋狊犃犪犻狉狊犇犻狏犻狊犻狅狀，犙犻狀犱犪狅犜犲犮犺狀狅犾狅犻犮犪犾犝狀犻狏犲狉狊犻狋犙犻狀犱犪狅犛犺犪狀犱狅狀６６０３３犆犺犻狀犪）犳犳犵犵狔，犵犵２：，，犃犫狊狋狉犪犮狋Ａｎｅｗｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｅａｓｕｒｅｍｅｎｔｉｓｐｒｏｏｓｅｄｔｏｅｖａｌｕａｔｅｈｕｍａｎｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｃｏｍｂｉｎｉｎｔｈｅｈｅｉｈｔａｔｈｙｍｐｙｇｇｐ，ｌｅｎｔｈａｎｄｃｏｍｍｏｎｓｅｃｉｆｉｃｉｔ．Ｉｍｒｏｖｅｄｔｈｅｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｌｏｒｉｔｈｍｂａｓｅｄｏｎｐａｔｈｔｏｕｓｅｏｎｔｏｌｏｔｒｕｃｔｕｒｅｉｎｔｒｏｄｕｃｉｎｇｐｙｐｙａｇｇｙｓｇ，，ｔｈｅｉｄｅａｏｆｂａｓｅｄｏｎｉｎｆｏｒｍａｔｉｏｎａｌｏｒｉｔｈｍｍａｋｅｓｔｈｅｎｅｗａｌｏｒｉｔｈｍｃａｎｏｂｔａｉｎｍｏｒｅｓｅｍａｎｔｉｃｉｎｆｏｒｍａｔｉｏｎｗｉｔｈｏｕｔｔｅｘｔｄａｔａｇｇ；，ｒｅｒｏｃｅｓｓｉｎｏｎｓｉｄｅｒｉｎｔｈｅｇｒａｎｕｌａｒｉｔｆｏｎｔｏｌｏｌｕｓｔｅｒｈａｓｃｅｒｔａｉｎｉｎｆｌｕｅｎｃｅｔｏｓｉｍｉｌａｒｉｔａｌｃｕｌａｔｉｏｎｔｈｅｈｅｉｈｔｐａｒａｍｅｐｐｇｃｇｙｏｇｙｃｙｃｇ，ｔｅｒｓｏｆｃｏｎｃｅｔｓｉｎｔｈｅｏｎｔｏｌｏａｒｅａｄｄｅｄｉｎｔｈｅｆｏｒｍｕｌａａｃｈｉｅｖｅｓｈａｒｉｎｏｆｉｎｆｏｒｍａｔｉｏｎｂｅｔｗｅｅｎｔｈｅｃｏｎｃｅｔｓｏｆｌｏｗｌｅｖｅｌｔｏｍｏｒｅｐｇｙｇｐｔｈａｎｔｈｅｓｈａｒｉｎｆｉｎｆｏｒｍａｔｉｏｎｂｅｔｗｅｅｎｔｈｅｃｏｎｃｅｔｓｏｆｈｉｈｌｅｖｅｌ．ＴｈｅｐｒｏｏｓｅｄｍｅａｓｕｒｅｉｓｃｏｍａｒｅｄｔｏｏｔｈｅｒｅｘｉｓｔｉｎｅａｓｕｒｅｓｇｏｐｇｐｐｇｍｕｓｉｎｓｔａｎｄａｒｄｂｉｏｍｅｄｉｃａｌｏｎｔｏｌｏＮＯＭＥＤＣＴａｓｔｈｅｉｎｕｔｏｎｔｏｌｏ．ＴｈｅｅｘｅｒｉｍｅｎｔｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｏｓｅｄｍｅａｓｇａｇｙＳｐｇｙｐｐｕｒｅｒｅｔａｉｎｓｔｈｅｓｉｍｌｉｃｉｔｏｆｔｈｅａｔｈｂａｓｅｄａｒｏａｃｈｅｓａｎｄｏｕｔｅｒｆｏｒｍｓｔｈｅｅｘｉｓｔｉｎｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔａｌｏｒｉｔｈｍｓａｎｄｃｏｎｆｉｒｍｔｈｅｐｙｐｐｐｐｇｙｇｓｉｎｉｆｉｃａｎｃｅｏｆｔｈｅｐｒｏｏｓｅｄｍｅａｓｕｒｅ．ｇｐ：；；犓犲狅狉犱狊ｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｂｉｏｍｅｄｉｃａｌｏｎｔｏｌｏｉｅｓｃｏｎｃｅｔｈｅｉｈｔｙｇｐｇ狔狑

汉语词语相似度计算方法分析

汉语词语相似度计算方法分析【摘要】词语相似度计算在自动问答、智能检索、文本聚类、机器翻译等领域，词语相似度计算等领域有着广泛的应用，本文对词语相似度计算方法进行了介绍，并侧重介绍了基于《知网》的词语相似度计算方法。

最后对常用的两类计算方法进行了对比。

【关键词】词语相似度计算；知网1.什么是词语相似度汉语最基本的语义和语法单位就是词语，词语相似度计算用来研究用什么样的方法来计算或比较两个词语的相似性。

本文认为，词语相似度就是词语在语义上的匹配程度，取值范围为[0，1]。

词语相似度的值越大，说明两个词语的语义越相近；反之，则说明两个词语的语义差别越大。

特殊的，当值为1时，表明两个词语的语义完全相同；当值为0时，表明两个词语的语义完全不同。

2.词语相似度计算方法词语相似度计算方法大体上可以分为以下两类：2.1基于语料库统计的方法这种方法综合体现了词语在句法、语义还有语用等方面的异同。

该方法属于基于统计的定量分析方法，其应用前提是：两个词语语义相似，当且仅当它们处于相似的上下文环境中。

思想是统计大规模的语料，利用词汇上下文信息的概率分布进行词语之间的语义相似度的计算。

该方法能够相对精确、有效的度量词语的语义相似度。

比如计算词语相似度也可以利用词语的相关性来进行。

方法是事先选择一组特征词，接着计算这一组特征词与每一个词语的相关性，一般基于大规模语料选择这组词在某个词语的上下文中出现的频率作为度量词语相似度的相关数据，对于每一个词都可以得到一个特征词向量。

两个词的相似度就可以通过这些向量之间的相似度来衡量。

而向量之间的相似度，一般通过计算向量之间的夹角余弦值得出。

2.2基于某种世界知识（ontology）的计算方法该方法一般利用语义词典来进行词语相似度计算。

基于语义词典的词语相似度计算方法，以语言学和人工智能两方面为基础。

它基于语义词典，根据概念之间的上下位关系、同义关系进行计算。

这种方法建立在这样的前提下：当且仅当两个词语在概念间的结构层次网络图中存在一条通路（上下位关系）时，这两个词语具有语义相关性。

一种综合加权的本体概念语义相似度计算方法_甘明鑫

学者所关注。分析现有基于本体的概念语义相似度计算方法的工作原理和优缺点，提出一种对概念共享路径的重合度和概念最低共同祖先节点的深度进行综合加权的概念语义相似度算法。该算法灵活简便、可扩展性强，能够应用于不同类型的本体。使用基因本体和植物本体的部分数据进行了实验并与两种现有算法进行了比较，实验结果证明了提出的计算方法的正确性和有效性。关键词：语义相似度；本体；有向无环图文章编号： 1002-8331 （2012） 17-0148-06 文献标识码： A 中图分类号： TP391 息。然而，传统的语义相似度计算方法一般从概念的外在特征入手，偏向于自然语言描述，其计算结果往往偏离了概念原本的语义。为克服这一缺点，基于本体（Ontology）计算语义相似度的方法最近在人工智能、软件工程、情报学、语义网、生物信息学等信
甘明鑫，窦雪，王道平，等：一种综合加权的本体概念语义相似度计算方法
2012，究和应用。本体是对特定领域知识的抽象化和形式化描述，通过为领域中的概念提供标准化的词汇表来实现对概念及其相互关系的结构化描述 [1]。它能够对概念及概念间的联系形成准确的表达，将概念分类层面上的词汇语境、语义等信息综合考虑进来，形成概念的语义网络。由于本体具有相对稳定的结构关系和强大的知识表述能力，因而具有比基于自然语言处理的方法更容易进行计算和分析等优势。基于本体的概念语义相似度是指本体中两个概念在语义上的相似程度，计算时除了概念的表面特征，还需考虑分类学角度的概念语境信息。本文首先对目前基于本体计算概念语义相似度的方法进行综述，分析现有方法的原理和不足，然后提出一种综合考虑在本体结构中概念共享路径的重合程度和最低共同祖先节点的深度的概念语义相似度算法，最后通过基因本体和植物本体验证了算法的有效性和可扩展性。

一种新的语义相似度计算方法

关键词本体，语义相似度，分词技术，语义扩展技术中图分类号ＴＰ３０１文献标识码Ａ文章编号１６７２ — ６６３４（２０１５）０２ — ００８８ — ０５
大数据给人们的生活带来许多方便，但也带来很多问题，例如在浩瀚的信息中查找到的信息不能满足
前主要形成以下几种方式．基于本体距离的语义相似度计算方法］：其基本思想是通过计算两个概念词在本体中的路径长度表
示它们之间的语义距离。语义距离越大，其语义相似度越低；反之，语义距离越小，其语义相似度越大．典型的代表算法有ＳｈｏｒｔｅｄＰａｔｈ算法、ＷｅｉｇｈｔｅｄＬｉｎｋｓ算法、ｗｕａｎｄＰａｌｍｅｒ算法、ＬｅａｃｏｃｋａｎｄＣｈｏｄｏｒｏｗ算法等．虽然此算法计算复杂性最小，但是其主要不足之处是在计算的过程中假设本体分类体系中的每条边处于同等重要地位，显然不现实．针对复杂本体结构的语义相似度的汁算．Ｊ．Ｍ．Ｋｉｍ等人提出一个ＣＰ／
的语义相似度越大．反之，则越小．如：Ｌｏｒｄ等人提出通过计算共享父日期：２０１５－０３ — ０９基金项目：中法徐光启项目（３４４２５ＰＢ），山东省自然科学基金项目（ＺＲ２０１ＩＦＬ０２３），山东省高校智能信息处理与网络安全重点实验室（聊城大学）资助

自然语言处理中常见的语义相似度计算方法(Ⅲ)

自然语言处理（NLP）是人工智能领域中一项重要的技术，其目的是帮助计算机理解和处理人类语言。

在NLP中，语义相似度计算是一个重要的问题，因为它能够帮助计算机更好地理解语言，从而更准确地进行自然语言处理。

一、词嵌入模型词嵌入模型是一种常见的语义相似度计算方法，它通过将词语映射到一个高维实数向量空间中，使得语义相似的词语在向量空间中的距离更近。

其中最著名的词嵌入模型是Word2Vec和GloVe。

Word2Vec通过神经网络模型学习词语的分布式表示，而GloVe则使用了全局词语共现矩阵来学习词嵌入。

这些词嵌入模型可以用来计算两个词语之间的语义相似度，例如通过计算它们在词嵌入向量空间中的余弦相似度。

二、基于知识图谱的语义相似度计算知识图谱是一种结构化的知识表示方法，它将实体和概念之间的关系以图的形式表示出来。

在NLP中，可以利用知识图谱来计算语义相似度。

一种常见的方法是使用实体之间的关系路径来计算它们之间的语义相似度，例如通过计算两个实体在知识图谱中的最短路径的长度。

另外，还可以利用知识图谱中实体之间的关系来计算它们之间的语义相似度，例如通过计算它们在知识图谱中的共同邻居数。

三、基于神经网络的语义相似度计算近年来，随着深度学习技术的发展，基于神经网络的语义相似度计算方法也得到了广泛应用。

其中有一种常见的方法是使用Siamese神经网络来计算两个句子之间的语义相似度。

Siamese神经网络可以通过学习将两个句子映射到同一个向量空间中，然后计算它们之间的相似度。

此外，还可以使用注意力机制来计算两个句子之间的语义相似度，例如通过计算它们在注意力机制中的权重。

四、基于词语对齐的语义相似度计算在跨语言NLP中，词语对齐是一个重要的问题，它可以帮助计算机识别不同语言中的相似词语。

一种常见的方法是使用双语词嵌入模型来进行词语对齐，然后计算词语在两种语言中的相似度。

此外，还可以使用基于翻译模型的方法来计算跨语言词语之间的语义相似度，例如通过计算它们在翻译模型中的对齐概率。

信息检索中的语义相似度计算

信息检索中的语义相似度计算在信息检索过程中，一个重要的环节是文本检索，而文本检索的核心任务是匹配用户输入的查询词与文本库中的记录进行匹配。

但是由于人类语言的复杂性和灵活性，查询词和文本记录之间的匹配不仅仅是表面上的文本匹配，更多的是深层次的语义匹配。

如果我们把每个词看作是一个节点，节点之间的边表示它们之间的语义关系，那么在查询词和文本记录之间建立起准确的语义关系模型，便可以实现更加精确有效的文本匹配。

语义相似度计算指的是计算两个词汇之间的语义相似程度，其应用非常广泛，主要应用于自然语言处理、文本分类、信息检索、机器翻译、自动问答等领域。

目前常用的语义相似度计算方法主要有基于词典、基于语料库、基于知识图谱等。

基于词典的语义相似度计算方法是将词典中的同义词、近义词等相似词汇归纳为语义相似词群，在搜索中进行匹配。

该方法的优缺点显而易见，优点是计算速度快、精度高，缺点是对于一些新词或专业词汇无法完全匹配，而且可能存在歧义词。

基于语料库的语义相似度计算方法是建立在维基百科、百度百科等大规模语料库上，对两个词在语料库中的重合度进行计算来衡量它们之间的相似度，该方法采用的又称为基于文本相似性匹配算法，目前常用的算法是词向量模型，如Word2vec、GloVe等。

该方法的优势是能够利用大规模语料库建立更为真实的语义关系，解决同义词歧义问题，然而缺点是对语料库的依赖较强，在小规模语料库中效果不佳。

基于知识图谱的语义相似度计算方法是通过构建知识图谱来描述事物的语义关系，关系类型如扩展、层级、部分-整体等，并对节点关系进行分析。

目前，知识图谱中广泛运用的是RDF （Resource Description Framework），用三元组来表示各种概念之间的关系。

该方法的优点是可以充分利用统计数据，能够在多个层面考虑语义关系，然而缺点是知识图谱的建立需要耗费大量的人力和物力成本，在多数情况下难以建成。

总的来说，不同的语义相似度计算方法各有利弊，我们可以根据实际应用场景选择适合的方法，以达到更好的效果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Computer Knowledge and Technology 电脑知识与技术第7卷第3期(2011年1月)一种综合的概念语义相似度计算方法丁建，范太华（西南科技大学计算机科学与技术学院，四川绵阳621010）摘要：针对概念语义相似度计算的片面性和不完善性问题，该文提出了一种综合的概念语义相似度计算方法。

首先，基于传统的语义距离模型，综合考虑了有向边的类型、深度、密度、方向等因素,计算概念相似度；然后，根据本体的五元组组成元素，分别计算概念相似度；最后，使用sigmoid 阈值函数求得各个相似度对应的调节因子值，并进行综合，实现了调节因子与各个相似度的自适应。

实验证明，该方法有效且精确。

关键词：本体；语义相似度；语义距离；本体五元组；调节因子中图分类号：TP311文献标识码：A 文章编号：1009-3044(2011)03-0619-04A Compositive Approach for Semantic Similarity Computation of ConceptsDING Jian,FAN Tai-hua(School of Computer Science and Technology,Southwest University of Science and Technology,Mianyang 621010,China)Abstract:To aim at the one-sided and incomplete issues of the computation of concept similarity ,this paper puts forward a compositive approach.Firstly,based on the traditional semantic distance,considering the type of directed edges-"IS-A"category relations,density,di -rection and other factors,it can compute a similarity.Then,according to the elements of the ontology five-tuple,it can calculate the simi -larity of concepts.Finally,in order to realize the adaptability of each similarity with the regulatory factor,it use the sigmoid threshold func -tion to calculate the value of the regulatory factor corresponding to each similarity,and then calculate comprehensively.Experiments show that the method is effective and accurate.Key words:ontology;semantic similarity;semantic distance;ontology five-tuple;regulatory factor概念语义相似度计算是词义消歧、文本分类、模式匹配、本体映射、机器翻译、信息检索等应用中普遍存在的问题。

尤其在信息检索中[1]，查询扩展技术已经成为新的研究热点,大多数专家均采用本体技术来解决查询扩展的问题，其核心是通过计算本体概念之间的语义相似度大小找出用户查询关键词的同义、近义词,扩展形成新的查询,然后提交检索,从而提高检索的查全率；使用本体知识库中的概念来表达用户的查询需求,分析概念之间的语义相似度,从语义上判断网页和用户查询需求的匹配程度，从而提高检索的精确度。

因此，提高概念语义相似度计算精度就成了提高信息检索质量的关键技术之一。

文献[2]利用概念间的距离来衡量语义相似度；文献[3]给出了关于层次网络中量化每一个概念节点信息量的计算公式，从而得到层次网络中任意两个概念之间的语义相似度计算模型；文献[4]提出了一种基于属性的计算概念语义相似度的方法；文献[5]讨论了两个实例集合中，一个集合中的多个实例和另一集合中的一个实例相似时相似度的计算方法。

虽然现在的研究在实验验证上取得了很好的结果，但在实际应用上却存在很多问题：1）大多数应用，只利用了概念之间的上下位关系（IS-A 关系）而没有考虑其他关系类型（相关关系）的影响；2）综合了传统的距离、内容、属性等因素，但对本体的结构特点应用太少；3）进行实验验证时，对模型调节因子的取值大多都是手工选取，缺乏科学合理性。

针对以上问题，在考虑有向边类型的时候，不仅使用了“IS-A ”上下位关系（相似关系），还使用了其他的相关关系；综合考虑本体的五元组组成对相似度计算的影响；在计算语义距离的时候，综合考虑有向边的类型、深度、密度、方向等因素；对于计算模型中的调节因子（参数）的取值，我们使用阈值函数sigmoid 自动生成[12]。

1综合的概念语义相似度计算1.1语义相似度的定义当两个概念元素在语义上具有某些共同特征时,则定义它们是相似的,用sim(x,y)(0≤sim(x,y)≤1)表示概念x,y 之间的相似度[2]。

1.2语义相似度的计算国内外学者一般将概念语义相似度的计算方法划分为两类：1）基于语义距离；2）基于信息量。

相比之下，基于语义距离的方法更直观，计算量更小，效率更高。

因此，在整个计算模型中，我们主要使用基于语义距离的计算犯方法。

以改进的语义距离模型为基础，综合考虑本体五元组组成对概念语义相似度的影响，从这五个方面来计算概念的相似度，然后依据相应的调节因子值将他们综合起来，生成最终的概念语义相似度。

1.2.1基于语义距离的语义相似度计算传统的语义距离只考虑了概念间的上下位关系（IS-A 关系），忽略了其他关系（比如，等同关系、矛盾关系、互补关系、动作关系、空间关系等等）的影响，显然导致不能完整反映出概念的语义距离[2]。

因此，在该模型中，我们综合考虑有边的类型、方向、深度、密度收稿日期：2010-12-27E-mail:eduf@ Tel:+86-551-56909635690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.7,No.3,January 2011,pp.619-622Computer Knowledge and Technology电脑知识与技术第7卷第3期(2011年1月)等因素对有向边权重的影响。

1)有向边类型本体中概念之间的关系对相似度计算非常重要，它们主要分为以下两大类12种[6]，①相似关系：上下位（IS-A）关系或分类关系；②相关关系：等同关系、与关系和交叉关系、或关系、非关系、矛盾关系、因果关系、互补关系、动作关系、时间关系、能愿关系、空间关系。

本体中概念间的关系，即为连接本体概念结点的有向边，它们和概念结点一起构成了一个有向图。

有向边类型因子，是由专家结合领域本体给相关的关系赋值的[3]，有向边的类型不同，则权值不同。

一般情况下可以作如下计算：（1）2)深度和密度领域本体的结构层次树中，自顶向下,概念的分类是由大到小,大类间的概念相似度一般要小于小类间的。

所以,在同等语义距离的情况下,处于层次树中离根较远的概念间的相似度要比离根近的概念间相似度大。

如果层次树中某一个局部的节点密度大，说明此处概念的细化也就越大，那么对应有向边的权重就越大[7]。

因此，可以得到有向边的权重计算公式为：（2）其中，depth(p)表示概念p的深度。

（3）其中，indeg(c)表示c的入度，outdeg(p)表示p的出度，deg(O)表示本体O整个的入度和出度之和。

3)方向因子在信息检索中，概念的匹配是有方向的[1]，例如：如果检索“酒”，那么其子概念“白酒”会获得较高的权值，而检索“白酒”，其父概念“酒”由于还包含“红酒”，“黄酒”等，获得的权值相对来说会稍低一些。

（4）其中，X的值不定，需要领域专家的参与才能得出精确值，但是为了便于计算，在这里可以取值X=0.4（经过实验验证得出的一个较好的值）。

4)改进的基于语义距离的相似度计算模型有向边的权重越大，相似度就越大，语义距离就越小[2]。

将上述的四个有向边权重合并为：weight(c,p)=λ1weight_deep+λ2weight_den+λ1weight_type+λ2weight_direc（5）其中λ1+λ2+λ3+λ4=1(0≤λ1,λ2,λ3,λ4≤1)语义距离为：（6）传统的距离模型为[2]：（7）其中MaxLen为层次树的最大深度，Min(W1,W2)表示概念w1和w2之间的最短路径。

基于传统距离模型，改进的相似度模型为：（8）其中，Anc(w1,w2)表示概念w1和w2的最近共同父节点，（9）P(n)表示概念n的父节点，path(a,b)表示节点a和b间最短路径上的节点集。

1.2.2本体五元组组成对语义相似度计算的影响本体的五元组组成[8]：概念（定义）、属性（主要是指数据属性，对象属性用在关系计算中）、关系、层次结构、实例。

这里从概念的定义（包括五元组中的定义和属性），关系、概念结构、实例四个方面分别计算概念的语义相似度，然后使用sigmoid函数[12]来合并。

1)基于定义的相似度计算概念的定义相似度的计算方法参考了M.Andrea Rodriguez和Max J.Egenhofer提出的计算方法[9]。

在该方法中，作者提出概念的定义信息包括两个方面：表示概念的同义词集和刻画概念的特征集（数据属性）。

因此，概念间的定义相似度计算模型为：（10）其中，|w1∩w2|表示概念w1和w2的描述集合（同义词集、数据属性集）的交集的元素个数，|w1/w2|表示属于概念w1的描述集合而不属于w2的元素个数，第7卷第3期(2011年1月)Computer Knowledge and Technology电脑知识与技术（11）2)基于概念实例的相似度计算当两个概念具有相同的实例时[5]，这两个概念很可能相似。

因此，概念的实例在一定程度上也影响了概念的语义相似度计算。

根据Jaccard系数，得到基于实例的概念相似度计算为：（12）其中N(w1,w2)表示本体实例集合中，既属于概念w1又属于概念w2的实例个数，O(w1,w2)表示实例集合中属于概念w1或者w2的实例个数。