基于《知网》的词汇语义相似度计算

合集下载

一种改进的基于知网的句子相似度计算方法

字符串编辑距离，考虑了不同词性词汇对句子的影还响程度不同而赋以不同的权重。该方法从两个方面有效地提高了句子相似度计算的准确性。
主观题自动批改是在线考试系统中的关键技术。
由于主观题的答题特点呈现出复杂性，目前还没有一种考试系统能较好地完成自动批改。主观题的自动批
结合的方法等Ｊ。该方法仅从句子的表层结构信息
进行匹配而忽略了语句语义分析，在局限性，响了存影自动批改的准确度。因此文中提出了一种新的基于知
ＡｎＩｐｏｅｎｅｅＳｍｉａｉｙＣａｃｌｔｏＭｅｈｏｓｄｏｏｎｎｔｄＢａｅｎＨｗ－ｔ
ＬｎｋｉＸＵａｌａｇＩＹｉｇａ，Ｘｉｏｉｎ
（ｃｏｌｆｏｐｔｃｎｅａｇｈｕＤａｚＵｉｒｔ，Ｈｎｚｏ１０８ｈａＳｈｏｏｍｕｅＳｉｃ，ＨｎｚｏｉｉｎｅｉＣｒｅｎｖｓｙａｇｈｕ３０１，Ｃｉ）ｎ
ＡｂｔａｔＩｒｅｏｏｅｃｍｅｔｅｅｔｆｉｆｒａｉｎｒｄｎｄｎｙｉｔｒｅｅｃｄｌｃｌｏｔｍｕｏｅ — ｓｒｃｎｏｄｒｔｖｒｏｈｅｄｆｃｓｏｎｏｍｔｅｕａｃｎｅｆｒｎｅａｏａｐｉｍｆｓｎｏｎｔｎｅｓｍｉａｔａｃｌｔｏａｅｎｌｘｃｌｉｍ，ｔｉｐｐｒｐｏｏｅｅｓｎｅｃｉｌｒｔａｃｌｔｏｔｏｅｃｉｌｒｙｃｕａｉｎｂｓｄｏｅｉａｔｉｌｅｈｓａｅｒｐｓｓａｎｗｅｔｎｅｓｍｉｉｃｌｕａｉｎｍｅｈｄａｙ

汉语词语语义相似度计算研究

文识码：Ａ献标
中圈分类号：Ｐ９Ｔ３１
汉语词语语义相似度计算研究
夏天
（国人民大学信息资源管理学院，北京１０７）中８２０
摘要：汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方
［ｅｏｄｉＷｏｄｍｌｉ；ｏｎ；ｏｃｐ；ｅｅｅＫｙｒｓｒｓｉｉｒｙＨｗ￣ＣｎｅｔＳｍｍｗｓａｔ
汉语词汇相似度计算在自动问答、情报检索、文本聚类等应用中都是一个非常关键的问题” Ｊ。针对这一问题，人们
ｓｍｉａｉｙｃｍｐｕａｉｎｗｈｃｓｂｓｄｏｗｎｔｅｒｄｔｅｎｉｎｏｌｅｅｐｎｅ．ＴｅｎｗｔｏｅｎｓａｓｍｉｒｔｏｍｐｔｔｏｉｌｒｔｏｔｔｏｉｈｉａｅｎＨｏｅ，ｇａｅｏｓｍａｔａｄｃｕｄｂｘａｄｄｈｅｍｅｄｄｆｅｉｌｉｃｃｈｉａｙｕａｉｎｆｒｕａａｎｇＨｏｅ ’ ｅｅｓａｃｒｉｇｔｎｏａｉｎｔｅｒ，ｎｓａｗａｕｆｉｕｔｈｔＯＯＶｒｓｃｎｏａｔｉａｅｉｅｎｉｏｍｌｍｏｗｎｔＳｓｍｍｅｃｏｄｎｏｉｆｒｔｏｏｙｆｄｙｏｔｔｄｉｃｌｔａｍｈｉｏｆｈｅｙｗｏｄａｎｔｐｒｉｐｔｎｓｍａｔｃｃ
ｔｅｓｍａｔｅｅｍｏｇａｂｔａｙｗｏｄｎｌ．ｐｒｅｔｌｒｓｌｏＬＩｉｄｃｔｓｔａｃｕａｙｒｔｆｔｅｎｗｅｈｄｓｎｅｒｙ１％ｈｅｎｉｌｖｌａｎｉｒｒｒｓｎｉａｅｈｔｔａｃｒｃａｅｏｈｅｍｔｏｉａｌｃｒｉｙｍｈｅ５ｈｇｅａｅｅｔｏｅ．ｉｈｒｔｎｐｒｓｎｎｓｈ

基于马尔科夫模型的词汇语义相似度计算

ＤＦ＝｛ａｔｌ件：ａｔｏｉｏＥｐｒ部ＰｒＰｓｉｔｎ＝｛ｅｒＩｈａｔ
机变量Ｘ（）已知条件：ｔ）ｌＸ（２＝ｔ在Ｘ（１＝，ｔ）
收稿日期：２０ —０ —２０９９１作者简介：皮慧娟（９１，，１７一）女湖北鄂州人，华侨大学实验师，硕士．
网》系统中义原除了上下位关系还有很多其他关系，文只讨论上下位关系．本２２利用马尔科夫模型计算树状结构的义原体．
系相似度
２２１关系义原的计算．．
词语的ＤＦ的义原分为两大类：Ｅ基本义原和关系义原．笔者认为只有在关系义原相同的条件下才去计算关系义原下的子义原之间的相似度，如果
心｝ｗｏ＝｛ｔｙ实体｝，ｈｌｅｉｆｅｎｔ｝
６
沈
阳
大
学
学
报
第２２卷
其中，ＮＯ．是概念编号， — Ｇ— Ｅ— ｗＣ、Ｃ、Ｃ分别是汉语词语、词性和例子． — Ｇ— ｗＥ、Ｅ和Ｅ— Ｅ分别表示英语的词语、词性和例子．ＥＤＦ表示的是概念的定义，达了主要的信息．Ｅ表ＤＦ可看成一个树状的结构，图１所示．中包含义原：件、如其部
ｔ，１２ｔ）：Ｆ（ｔｌ，ｘ，ｔ）．
（）１
则称此过程为马尔科夫过程［．
１２知．网
义距离的一种度量．王斌采用这种方法利用《同义词词林》计算汉语词语之间的相似度ｎ．些来］有

中文词语语义相似度计算_基于_知网_2000

首先, 用来描述词语的义原之间存在多种关系。我们认为在《知网》2000 中, 义原之间的主要关系有: 上下位关系; 属性关系, 指/ 实体0 类义原( 置于 [ ] 中, 见图 1) 和/ 事件类义原0的共性( 置于{ } 中) ; 对义关系和反义关系。其中最基本的仍然是树状层次体系中的上下位关系( 见图 1)
《知网》的基本形式是对中文词语的释义和描述。与一般的语义词典如 Wordnet 不同的地方有两点:
第一, 词语( 概念) 的意义不是通过一些其他的常用词语来解释、说明, 而是通过 / 义原0来描述、定义。比如/ 打0 ( 打篮球, 打太极) , 这个词有一项描述是:
DEF = exer cise| 锻炼, spo rt| 体育
DEF = human | 人, # occu-
医生 pation| 职位, * cure | 医治, *
medica l| 医
患者
DEF= human| 人, * SufferFr om| 罹患, $ cur e| 医治
$
obtain | 得到, po ssession = 得利 pros| 益( 注: 等号左边为/ 动 =
%
颜色
DEF= attr ibute| 属性, color | 颜色, & physical| 物质
&
布
DEF= mater ial| 材料, ? clo thing | 衣物
?
DEF= Inst itutePlace | 场所,
医院 @ cure | 医治, # disease| 疾 @
病, medical| 医
见表1从表1的例子中可以看出知网义原加标识符来定义词语的方式不但给出了词语的语义信息比如医院0是医疗场所也显式地给出了概念之间的联系比如医治0的实施者是医生0受事者是患者0而地点是医院0

一种基于《知网》的文本语义相似度的计算方法

究，取得了不少成果，但是文本聚类也面临着各方
造成了文本向量的表示空间难以有效地降维。２）由于不同的文本可能采用不同的词汇来表示相同
概念， “ 一对一” 的匹配方法在处理时就显得无能为力了¨ ６］。特别是同义词和近义词不能识别，造成了聚类的误差。例如：文本１：土豆盛产于中国。文
总第２９２期２０１４年第２期
计算机与数字工程
Ｃｏｍｐｕｔｅｒ＆．ＤｉｇｉｔａｌＥｎｇｉｎｅｅｒｉｎｇ
Ｖｏ１．４２Ｎｏ．２
１８７
一ห้องสมุดไป่ตู้
种基于知网的文本语义相似度的计算方法
孙滨刘林
４５１１００）（郑州华信学院信息工程系郑州
摘
要
论文提出一个基于语义的文本问的相似度算法，以文本的特征词相似度为基础，来计算文本间的相似度，利用
聚类算法对文本簇进行聚类。实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面，能有效提高聚类的效果。关键词文本聚类；义原相似度；语义相似度
ＡｂｓｔｒａｃｔＡｓｉｍｉｌａｒｉｔｙａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｙｉｓｐｒｏｐｏｓｅｄ，ｗｈｉｃｈｃａｌｃｕｌａｔｅｓｔｈｅｓｉｍｉｌａｒｉｔｙｏｆｔｅｘｔｓａｃ — ｃｏｒｄｉｎｇｔＯｆｅａｔｕｒｅｗｏｒｄｓｏｆｔｈｅｔｅｘｔａｎｄｍａｋｅｓｔｅｘｔｃｌｕｓｔｅｒｓｂｙｅｍｐｌｏｙｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｐｒｏｖｅｔｈａｔｔｈｅｍｅｔｈｏｄｏｆｔｅｘｔｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｙｂａｓｅｄｏｎＣＮＫＩｉＳｖｅｒｙｅｆｆｉｃｉｅｎｔｉｎｔｅｘｔｓｉｍｉｌａｒｉｔｙｃａｌｃｕｌａｔｉｏｎａｎｄｔｅｘｔｃｌｕｓｔｅ — ｒｉｎｇ，ｗｈｉｃｈｃａｎｅｆｆｅｃｔｉｖｅｌｙｉｍｐｒｏｖｅｔｈｅｅｆｆｅｃｔｏｆｃｌｕｓｔｅｒｉｎｇ．ＫｅｙＷｏｒｄｓｔｅｘｔｃｌｕｓｔｅｒｉｎｇ，ｐｒｉｍｉｔｉｖｅｓｉｍｉｌａｒｉｔｙ，ｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｙＣｌａｓｓＮｕｍｂｅｒＴＰ３９】

使用网络搜索引擎计算汉语词汇的语义相似度

使用网络搜索引擎计算汉语词汇的语义相似度高国强;黄吕威;陈丰钰【摘要】Similarity computation of Chinese words is a key problem in Chinese information processing. It measures semantic similarity between Chinese words using the information returned by web search engines. First,implement a model named WebPMI which computes similarity using page counts,and then,describe another model named CODC which analyzes semantic similarity using text snippets. Final-ly,present the algorithm based on the two models. Experimental results show that this algorithm outperforms all the existing web-based semantic similarity measures for Chinese,and is close to the traditional semantic similarity measures using lexicon.%汉字词语的语义相似度计算是中文信息处理中的一个关键问题。

文中利用网络搜索引擎提供的信息来计算汉语词对的语义相似性。

首先通过程序访问搜索引擎，获取汉字词汇的搜索结果数，并依此实现了相似度计算模型WebPMI；然后描述了根据查询返回的文本片段进行语义相关性分析的模型CODC；最后，结合这个两个模型，给出了文中算法的伪代码。

矿产

矿产资源开发利用方案编写内容要求及审查大纲
矿产资源开发利用方案编写内容要求及《矿产资源开发利用方案》审查大纲一、概述
㈠矿区位置、隶属关系和企业性质。

如为改扩建矿山, 应说明矿山现状、
特点及存在的主要问题。

㈡编制依据
(1简述项目前期工作进展情况及与有关方面对项目的意向性协议情况。

(2 列出开发利用方案编制所依据的主要基础性资料的名称。

如经储量管理部门认定的矿区地质勘探报告、选矿试验报告、加工利用试验报告、工程地质初评资料、矿区水文资料和供水资料等。

对改、扩建矿山应有生产实际资料, 如矿山总平面现状图、矿床开拓系统图、采场现状图和主要采选设备清单等。

二、矿产品需求现状和预测
㈠该矿产在国内需求情况和市场供应情况
1、矿产品现状及加工利用趋向。

2、国内近、远期的需求量及主要销向预测。

㈡产品价格分析
1、国内矿产品价格现状。

2、矿产品价格稳定性及变化趋势。

三、矿产资源概况
㈠矿区总体概况
1、矿区总体规划情况。

2、矿区矿产资源概况。

3、该设计与矿区总体开发的关系。

㈡该设计项目的资源概况
1、矿床地质及构造特征。

2、矿床开采技术条件及水文地质条件。

基于知网和同义词词林的词汇语义倾向计算

基于知网和同义词词林的词汇语义倾向计算黄硕;周延泉【摘要】在互联网飞速发展的今天,海量的数据在网络上共享传输,文本中的情感倾向获取对于文本的处理有着重要作用.而词汇的褒贬倾向研究是文本情感倾向研究的基础.本文基于知网(HowNet)和同义词词林信息融合的方法,为词林的词集添加知网def与情感倾向,进行词汇的语义倾向计算.实验结果表明,该方法更趋于合理,结果更符合人们的日常体验.【期刊名称】《软件》【年(卷),期】2013(034)002【总页数】3页(P73-74,94)【关键词】情感计算;知网;同义词词林;语义倾向【作者】黄硕;周延泉【作者单位】北京邮电大学计算机科学与技术系,北京100876【正文语种】中文【中图分类】TP3910 引言随着互联网的发展，海量的网络资源也随之而来,如何从中高效准确的获取我们所需的信息,是目前计算机领域研究的热点。

语义倾向性研究正是在这一背景下应运而生的。

文本倾向性识别就是通过对文本格式的信息资料中提取具有一定感情色彩的词汇、短语、常用结构等, 来判定文本的情感态度倾向，而词汇的褒贬倾向性判别是文本倾向性识别的基础。

词汇的语义倾向,即对于词汇的褒贬程度计算出一个度量值。

比较常用的做法是将度量值规定为位于±1之间的实数。

当度量值高于某阈值时,判别为褒义倾向;反之,则判为贬义倾向。

篇章中词汇的语义倾向值极大影响着篇章的语义倾向，对词汇的语义倾向计算是此类研究中的关键工作。

Hatzivassiloglou和McKeown[1]尝试使用监督学习的方法对英文的词语进行情感语义倾向性判别,准确率达到90%左右。

2003年,Turney [2]从大规模语料中利用统计信息对单词进行语义倾向判断。

其准确率达到82.18%。

目前已有的中文词语语义倾向性分析方法主要有以下两类：基于语义的倾向性分析法，例如复旦大学的朱嫣岚等通过手工选定少量的基准词[3]，然后利用知网HowNet[4]的语义相似度和语义相关场功能来计算新词与基准词之间的相似度，从而得到新词的语义倾向性。

基于关系运算的汉语词汇语义相关度计算

。（ＤｅｐａｒｔｍｅｎｔｏｆＭａｔｈｅｍａｔｉｃｓ，ＺｅｎｈｇｚｈｏｕＴｅａｃｅｒｈ ’ ｓＣｏｌｌｅｇｅ，Ｚｅｎｈｇｚｈｏｕ４５００４４，Ｈｅｎａｎ，Ｃｈｉｎａ）
ｃｏｒｒｅｌａｔｉｏｎｕｎｄｅｒｄｉｆｆｅｒｅｎｔｃｉｒｃｕｍｓｔａｎｃｅｓ；Ｆｉｎｌｌａｙｉｔｐｒｅｓｅｎｔｓｔｈｅｃｏｍｐｕｔａｔｉｏｎｍｅｔｈｏｄｏｆｖｏｃａｂｕｌａｒｙ’ ＳｓｅｍａｎｔｉｃｃｏｒｒｅｌａｔｉｏｎｕｎｄｅｒｄｉｆｅｒｅｎｔｓｉｔｕａｔｉｏｎｓａｃｃｏｒｄｉｎｇｔｏｔｈｅｄｉｃｔｉｏｎａｒｙｉｎＨｏｗＮｅｔ．ＴｈｉｓａｐｐｒｏａｃｈＣｎａｍａｋｅｆｕｌｌｕｓｅｏｆｔｈｅｓｅｍａｎｔｉｃｉｎｆｏｒｍａｔｉｏｎｉｎＨｏｗＮｅｔｉｎｃｏｍｐｕｔａｔｉｏｎｐｒｏｃｅｓｓ，ｍｏｒｅｏｖｅｒ，ｉｔａｌｓｏｔａｋｅｓｉｎｔｏａｃｃｏｕｎｔｔｈｅｕｌｒｅｓｉｍｐｌｉｃａｔｅｄｂｅｔｗｅｅｎｔｈｅｓｅｍａｎｔｉｃｓ．Ｅｘｐｅｒｉｍｅｎｔｐｒｏｖｅｓｉｔｔｏｂｅｅｆｅｃｔｉｖｅ．ＫｅｙｗｏｒｄｓＨｏｗＮｅｔＣｏｎｃｅｐｔｕａｌｇｒａｐｈｓＳｅｍａｎｔｉｃｃｏｒｒｅｌａｔｉｏｎＳｅｍａｎｔｉｃｒｅｌａｔｉｏｎＲｅｌａｔｉｏｎａｌｏｐｅｒａｔｉｏｎｓ

改进的基于《知网》的词汇语义相似度计算

Ａｂｓｔｒａｃｔ：ＴｈｅｐｒｅｓｅｎｔＨｏｗＮｅｔ — ｂａｓｅｄｖｏｃａｂｕｌａｒｙｓｅｍａｎｔｉｃｓｉｍｉｌａｉｒｔｙｃａｌｃｕｌａｔｉｏｎｍｅｔｈｏｄｆａｉｌｓｔｏｇｉｖｅｄｕｅａｔｔｅｎｔｉｏｎｔｏｔｈｅｌｉｎｅａｒｆｅａｔｕｒｅｏｆｃｏｎｃｅｐｔｕｌａｄｅｓｃｉｒｐｔｉｏｎｉｎｋｎｏｗｌｅｄｇｅｄａｔａｂａｓｅｍａｒｋ — ｕｐｌａｎｇｕａｇｅ．Ｔｏｒｅｓｏｌｖｅｔｈｉｓｓｈｏｒｔｃｏｍｉｎｇ，ａｎｉｍｐｒｏｖｅｄｖｏｃａｂｕｌａｒｙｓｅｍａｎｔｉｃｓｉｍｉｌａｉｒｔｙｃａｌｃｕｌａｔｉｏｎｍｅｔｈｏｄｗａｓｐｒｏｐｏｓｅｄ．Ｆｉｒｓｔｌｙ，ｆｕｌｌｙｃｏｎｓｉｄｅｒｉｎｇｔｈｅｌｉｎｅａｒｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｔｈｅ
摘
要：针对当前基于《知网》的词；ｒ－语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征
的情况，提出一种改进的词ｊｒ－语义相似度计算方法。首先，充分考虑概念描述式中各义原之间的线性关系，提出一种位置相关的权重分配策略；然后，将所提出的策略结合二部图最大权匹配进行概念相似度计算。实验结果表明，采用改进方法得到的聚类结果Ｆ值较对比方法平均提高了５％，从而验证了改进方法的合理性和有效性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于《知网》的词汇语义相似度计算1刘群†‡李素建†{liuqun,lisujian}@†中国科学院计算技术研究所‡北京大学计算语言学研究所摘要：《知网》是一部比较详尽的语义知识词典。

在基于实例的机器翻译中，词语相似度计算是一个重要的环节。

不过，由于《知网》中对于一个词的语义采用的是一种多维的知识表示形式，这给词语相似度的计算带来了麻烦。

这一点与WordNet和《同义词词林》不同。

在WordNet和《同义词词林》中，所有同类的语义项（WordNet的synset或《同义词词林》的词群）构成一个树状结构，要计算语义项之间的距离，只要计算树状结构中相应结点的距离即可。

我们的工作主要包括：1．研究《知网》中知识描述语言的语法，了解其描述一个词义所用的多个义原之间的关系，区分其在词语相似度计算中所起的作用；2．提出利用《知网》进行词语相似度计算的算法；3．通过实验验证该算法的有效性，并与其他算法进行比较。

关键词：《知网》词汇语义相似度计算自然语言处理1 引言在基于实例的机器翻译中，词语相似度的计算有着重要的作用。

例如要翻译“张三写的小说”这个短语，通过语料库检索得到译例：1）李四写的小说／the novel written by Li Si2）去年写的小说／the novel written last year通过相似度计算我们发现，“张三”和“李四”都是具体的人，语义上非常相似，而“去年”的语义是时间，和“张三”相似度较低，因此我们选用“李四写的小说”这个实例进行类比翻译，就可以得到正确的译文：the novel written by Zhang San1本项研究受国家重点基础研究计划（973）支持，项目编号是G1998030507-4和G1998030510。

如果选用后者作为实例，那么得到的错误译文将是：* the novel written Zhang San通过这个例子可以看出相似度计算在基于实例的机器翻译中所起的作用。

在基于实例的翻译中另一个重要的工作是双语对齐。

在双语对齐过程中要用到两种语言词语的相似度计算，这不在本文所考虑的范围之内。

除了基于实例的机器翻译之外，词语相似度计算在信息检索、信息抽取、词义排歧等领域都有着广泛的应用。

2 词语相似度及其计算的方法2.1什么是词语相似度什么是词语相似度？我们认为，词语相似度是一个主观性相当强的概念。

脱离具体的应用去谈论词语相似度，很难得到一个统一的定义。

因为词语之间的关系非常复杂，其相似或差异之处很难用一个简单的数值来进行度量。

从某一角度看非常相似的词语，从另一个角度看，很可能差异非常大。

不过，在具体的应用中，词语相似度的含义可能就比较明确了。

例如，在基于实例的机器翻译中，词语相似度主要用于衡量文本中词语的可替换程度；而在信息检索中，相似度更多的要反映文本或者用户查询在意义上的符合程度。

本文的研究主要以基于实例的机器翻译为背景，因此在本文中我们所理解的词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。

两个词语，如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大，二者的相似度就越高，否则相似度就越低。

相似度是一个数值，一般取值范围在[0,1]之间。

一个词语与其本身的语义相似度为1。

如果两个词语在任何上下文中都不可替换，那么其相似度为0。

相似度这个概念，涉及到词语的词法、句法、语义甚至语用等方方面面的特点。

其中，对词语相似度影响最大的应该是词的语义。

2.2词语相似度与词语距离度量两个词语关系的另一个重要指标是词语的距离。

一般而言，词语距离是一个[0,∞)之间的实数。

一个词语与其本身的距离为0。

词语距离与词语相似度之间有着密切的关系。

两个词语的距离越大，其相似度越低；反之，两个词语的距离越小，其相似度越大。

二者之间可以建立一种简单的对应关系。

这种对应关系需要满足以下几个条件：1) 两个词语距离为0时，其相似度为1；2) 两个词语距离为无穷大时，其相似度为0；3) 两个词语的距离越大，其相似度越小（单调下降）。

对于两个词语W1和W2，我们记其相似度为Sim(W1,W2)，其词语距离为Dis(W 1,W 2)，那么我们可以定义一个满足以上条件的简单的转换关系：αα+=),(),(121W W Dis W W Sim (1)其中α是一个可调节的参数。

α的含义是：当相似度为0.5时的词语距离值。

这种转换关系并不是唯一的，我们这里只是给出了其中的一种可能。

在很多情况下，直接计算词语的相似度比较困难，通常可以先计算词语的距离，然后再转换成词语的相似度。

所以在本文后面的有些章节，我们只谈论词语的距离，而没有提及词语的相似度，读者应该知道这二者是可以互相转换的。

2.3 词语相似度与词语相关性度量两个词语关系的另一个重要指标是词语的相关性。

词语相关性反映的是两个词语互相关联的程度。

可以用这两个词语在同一个语境中共现的可能性来衡量。

词语相关性也是一个[0,1]之间的实数。

词语相关性和词语相似性是两个不同的概念。

例如“医生”和“疾病”两个词语，其相似性非常低，而相关性却很高。

可以这么认为，词语相似性反映的是词语之间的聚合特点，而词语相关性反映的是词语之间的组合特点。

同时，词语相关性和词语相似性又有着密切的联系。

如果两个词语非常相似，那么这两个词语与其他词语的相关性也会非常接近。

反之，如果两个词语与其他词语的相关性特点很接近，那么这两个词一般相似程度也很高。

2.4 词语相似度的计算方法词语距离有两类常见的计算方法，一种是根据某种世界知识（Ontology ）来计算，一种利用大规模的语料库进行统计。

根据世界知识（Ontology ）计算词语语义距离的方法，一般是利用一部同义词词典（Thesaurus ）。

一般同义词词典都是将所有的词组织在一棵或几棵树状的层次结构中。

我们知道，在一棵树形图中，任何两个结点之间有且只有一条路径。

于是，这条路径的长度就可以作为这两个概念的语义距离的一种度量。

图1 《同义词词林》语义分类树形图O L B A a l …… a b 01 02... 01… 01… …… 01 01 02... 01 ... 01 … 01 …… … 01 01 … 01 …… ... 虚线用于标识某上层节点到下层节点的路径王斌(1999)采用这种方法利用《同义词词林》来计算汉语词语之间的相似度（如图1所示）。

有些研究者考虑的情况更复杂。

Agirre & Rigau (1995)在利用Wordnet计算词语的语义相似度时，除了结点间的路径长度外，还考虑到了其他一些因素。

例如：1) 概念层次树的深度：路径长度相同的两个结点，如果位于概念层次的越底层，其语义距离较大；比如说：“动物”和“植物”、“哺乳动物”和“爬行动物”，这两对概念间的路径长度都是2，但前一对词处于语义树的较高层，因此认为其语义距离较大，后一对词处于语义树的较低层，其语义距离更小；2) 概念层次树的区域密度：路径长度相同的两个结点，如果位于概念层次树中高密度区域，其语义距离应大于位于低密度区域。

由于Wordnet中概念描述的粗细程度不均，例如动植物分类的描述及其详尽，而有些区域的概念描述又比较粗疏，所以加入了概念层次树区域密度对语义距离的影响。

另一种词语相似度的计算方法是大规模的语料来统计。

例如，利用词语的相关性来计算词语的相似度。

事先选择一组特征词，然后计算这一组特征词与每一个词的相关性（一般用这组词在实际的大规模语料中在该词的上下文中出现的频率来度量），于是，对于每一个词都可以得到一个相关性的特征词向量，然后利用这些向量之间的相似度（一般用向量的夹角余弦来计算）作为这两个词的相似度。

这种做法的假设是，凡是语义相近的词，他们的上下文也应该相似。

李涓子(1999)利用这种思想来实现语义的自动排歧；鲁松(2001)研究了如何如何利用词语的相关性来计算词语的相似度。

Dagan(1999)使用了更为复杂的概率模型来计算词语的距离。

这两种方法各有特点。

基于世界知识的方法简单有效，也比较直观、易于理解，但这种方法得到的结果受人的主观意识影响较大，有时并不能准确反映客观事实。

另外，这种方法比较准确地反映了词语之间语义方面的相似性和差异，而对于词语之间的句法和语用特点考虑得比较少。

基于语料库的方法比较客观，综合反映了词语在句法、语义、语用等方面的相似性和差异。

但是，这种方法比较依赖于训练所用的语料库，计算量大，计算方法复杂，另外，受数据稀疏和数据噪声的干扰较大，有时会出现明显的错误。

本文主要研究基于《知网（Hownet）》的词语相似度计算方法，这是一种基于世界知识的方法。

3 《知网（Hownet）》简介按照《知网》的创造者――董振东先生自己的说法（杜飞龙，1999）：《知网》是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

《知网》中含有丰富的词汇语义知识和世界知识，为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。

不过，在我们真正试图利用《知网》来进行计算机处理时，发现还是会遇到不少困难。

我们的感觉是，《知网》确实是一座宝库，但另一方面，《知网》的内容又非常庞杂。

尽管《知网》的提供了详细的文档，但由于这些文档不是以一种形式化的方式说明的，很多地方多少显得有些混乱。

当我们阅读这些文档时，很容易一下子陷入大量的细节之中，而很难对《知网》有一个总体的把握。

这使得我们在进行计算的时候觉得很不方便。

因此，我们在试图利用《知网》进行计算的过程中，也在逐渐加深我们对于《知网》的认识，并试图整理出一个关于《知网》的比较清晰的图象。

本节中，我们对于《知网》的描述是按照我们自己的语言来组织的，很多地方加入了我们的理解，并不一定都是《知网》文档中描述。

我们希望通过这种方法，使读者更快地了解《知网》，对《知网》有一个比较清晰而全面的印象。

当然，我们的理解也难免有错误和遗漏之处，欢迎《知网》的作者和其他读者批评指正。

3.1《知网》的结构董振东先生反复强调，《知网》并不是一个在线的词汇数据库，《知网》不是一部语义词典。

在介绍《知网》的结构之前，我们首先要理解《知网》中两个主要的概念：“概念”与“义原”。