基于《知网》的词汇语义相似度计算
一种改进的基于知网的句子相似度计算方法

主观题 自动 批 改 是 在线 考 试 系 统 中 的关 键 技术 。
由于 主观题 的答 题 特 点呈 现 出复 杂性 , 目前 还 没 有 一 种考试 系统 能较好 地完 成 自动批改 。主观题 的 自动 批
结合 的方 法等 J 。该方 法仅 从 句子 的表 层 结构 信 息
进行 匹 配而忽 略 了语句 语义分 析 , 在局 限 性 , 响 了 存 影 自动批改 的准 确度 。因此文 中提 出 了一 种新 的基 于 知
An I p o e n e e S m ia iy Ca c l to M eho s d o o nn t d Ba e n H w- t
L n k i XU a la g IYi g a , Xio in
( col f o p t c n e aghuD az U i rt,H nzo 10 8 h a Sho o m ue Si c ,H nzo i i n e i C r e n v sy aghu30 1 ,C i ) n
Ab ta t I r e o o ec me t ee t fifr ain r d nd n y i tree c d lcl o tmu o e — sr c n o d rt v r o he d fcs o nom t e u a c nefr n e a o a p i m fs n o n tn e smia t ac lto a e n lxc li m , t i p p rp o o e e s n e c i lrt ac lto t o e c i lr y c uain b sd o e ia t i l e hs a e rp s sa n w e tn e smi i c luain meh d a y
汉语词语语义相似度计算研究

文 识码:A 献标
中圈 分类号: P9 T 31
汉语 词语 语 义相似 度 计 算研 究
夏 天
( 国人民大学信息资源 管理 学院,北京 10 7 ) 中 82 0
摘 要 :汉语词语 的语义相似度计算是 中文信 息处理 中的一个关键问题 。该文 提出了一种基于知 网、面向语义、可扩展的相似度计算新方
[ e od iWod m l i ; o n ; o cp; e e e K y r s rs i i r y H w  ̄ C n etS m m w s at
汉语词汇相似度计 算在 自动问答、情 报检 索、文本聚类 等应用 中都是一个非常关键的问题” J 。针对这一问题 ,人们
smia iy c mpu a i n wh c s b s d o wn t e r d t e n i n o l e e p n e .T e n w t o e n s a s mi rt omp tto i lrt o tto ih i a e n Ho e ,g a e o s ma t a d c u d b x a d d h e me d d f e i l i c c h i a y uain f r u a a ng Ho e ’ e e sa c r i g t n o ai n t e r , n s awa u fi u t h tOOV r sc n o a t i a e i e n i o m l mo wn tSs m me c o d n o i f r to o y f d y o t t di c l t a m h i of he y wo d a n tp ri p t n s ma t c c
t e s m a t e e mo g a b ta y wo d n l . p r e t lr s l o LI i d c t s t a c u a y r t f t e n w e h d sne ry 1 % h e n i l v la n ir r r s n ia e h tt a c r c a e o h e m t o i a l c r i y m he 5 h g e a e e to e . i h rt npr s n n s h
基于HowNet的词汇语义相关度计算方法研究

基于HowNet的词汇语义相关度计算方法研究摘要:本文在充分挖掘词汇间隐含语义关系的基础上,基于语义关系对语义关联度的影响,将语义相似度以及语义关联度相结合提出了语义相关度算法,并通过实验证明,使用该计算方法得出的语义相关度,能够更精确地区分词汇间的细微语义差别,计算结果更趋于合理化。
关键词:HowNet 语义相似度语义相关度语义关系1、引言词汇相似度反映了两个词汇相互关联的程度,即词汇间的组合特点,可以利用两个词汇在同一语言环境中的可替换程度来衡量。
目前,词汇相似度的计算方法主要有基于统计的方法和基于语义词典的方法两种,但这两种方法在实现中都存在不足。
本文充分挖掘出HowNet中丰富的语义关系,在计算了词汇的语义相关度以及语义关联度的基础上,提出一种基于HowNet的词汇语义相关度计算方法,使计算结果更趋于合理化。
2、基础知识2.1 HowNet简介HowNet是一个以中英文词汇所代表的概念为描述对象,以揭示概念之间以及概念的属性之间的关系为基本内容的常识知识库。
它采用知识词典的描述语言(Knowledge Dictionary Mark-up Language,KDML),将词语表示为几个“概念”,即利用“概念”对词汇的语义进行描述。
组成“概念”的最小意义单位称为义原语义描述式,由义原以及某些表达概念语义的符号组成,有基本义原描述式和关系义原描述式两种形式。
2.2 概念之间的隐含语义关系概念的基本义原描述式展示了概念的基本信息,而关系义原描述式则表达了概念与其它义原间的复杂关系,我们可以根据这些关系挖掘出隐含在两个概念之间的复杂语义关系。
笔者对HowNet关系以及关系义原描述式进行了仔细研究比较,概括出了概念之间的八个语义关系,如表1所示。
3、语义相关度计算两个词汇语义相似度高,它们的语义相关度必定较高,如“医生”与“患者”;反之两个语义相关度高的词语,却不一定有很高的相似度,如“医生”与“医治”。
基于知网的词汇语义相似度计算1

我们的工作主要包括: 1. 研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义 原之间的关系,区分其在词语相似度计算中所起的作用;我们采用一种更
1 *
+
本项研究受国家重点基础研究计划(973)支持,项目编号是 G1998030507-4 和 G1998030510。 北京大学计算语言学研究所 & 中国科学院计算技术研究所 E-mail: liuqun@ Institute of Computational Linguistics, Peking University & Institute of Computing Technology, Chinese Academy of Science 中国科学院计算技术研究所 E-mail: lisujian@ Institute of Computing Technology, Chinese Academy of Sciences
基于《知网》的词汇语义相似度计算1 Word Similarity Computing Based on How-net
刘群* ﹑李素建+
Qun LIU , Sujian LI
摘要
词义相似度计算在很多领域中都有广泛的应用,例如信息检索、信息抽取、文 本分类、词义排歧、基于实例的机器翻译等等。词义相似度计算的两种基本方 法是基于世界知识(Ontology)或某种分类体系(Taxonomy)的方法和基于统 计的上下文向量空间模型方法。这两种方法各有优缺点。 《知网》是一部比较详尽的语义知识词典,受到了人们普遍的重视。不过,由 于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语 相似度的计算带来了麻烦。这一点与 WordNet 和《同义词词林》不同。在 WordNet 和《同义词词林》中,所有同类的语义项(WordNet 的 synset 或《同 义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算 树状结构中相应结点的距离即可。而在《知网》中词汇语义相似度的计算存在 以下问题: 1. 2. 每一个词的语义描述由多个义原组成; 词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通 过一种专门的知识描述的词汇语义相似度计算
一种跨本体的语义相似度计算方法_黄宏斌

计算机科学2008V ol.35№.7 一种跨本体的语义相似度计算方法黄宏斌 董发花 邓 苏 张维明(国防科技大学信息系统与管理学院 长沙410073)摘 要 针对在广域分布环境下进行信息共享与服务的需要,本文设计了基于本体的元数据模型,并在M D3模型的基础上给出了一种基于该元数据模型的跨本体的语义相似度计算方法。
M D3模型是一种系统的跨本体概念间相似度的计算方法,这种方法无需建立一个集成的共享本体。
在M D3模型的基础上,充分利用本体对概念的描述信息,重点讨论了跨本体概念间非层次关系相似度的计算,把M D3模型扩展到M D4模型,使得概念间相似度的计算理论上更全面、更精确。
关键词 元数据模型,本体,语义相似度,M D4模型Approach of Determining Semantic Similarity among Concepts between Different OntologiesH U AN G Ho ng-bin DO N G F a-hua DEN G Su Z H AN G Wei-ming(C ollege of Information S ystem and M an agemen t,National University of Defens e and T echnology,Changsha410073,C hina)A bstract T o meet the demand o f sharing infoma tion and se rvice in the distribute netwo rk,the paper desig ns the meta-data mo del based on o nto lo gy.The M D3model sy stematicly ev aluates semantic similarity acro ss diffe rent o nto lo gies dis-pense w ith integ rating diffe rent ontolog ies into a shar ed ontology.Ba sed o n the M D3model,the no t-hierar chical rala-tions eva luating of concepts from different ontologies is focused o n,ex tended the M D3mo del to M D4model to make the semantic similarity o f concepts fro m different ontologies more co mpr ehensive and precise in theo ry.Keywords M etadata model,Ontolog y,Semantic similarity,M D4model1 引言随着网络的发展,在一些大型企事业团体和虚拟组织环境中,存在着大量的业务信息系统。
基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算
《知网》是一个中文语料库,可以用来进行文本语义相似度计算。
常
见的基于《知网》的词汇语义相似度计算方法有:
1.基于《知网》的同义词词林:《知网》中的同义词词林收录了大量
的同义词、近义词和相关词,可以通过比较两个词在同义词词林中的位置,来衡量它们的语义相似度。
比如,可以通过比较两个词在同一类和同一级
别下的位置,来判断它们的相似度。
2.基于《知网》的词语标注:《知网》中的词语标注包括词义分类和
关系标注等信息,可以通过比较两个词的词义分类和关系标注信息,来衡
量它们的语义相似度。
3.基于《知网》的词语关联度计算:可以通过计算两个词在《知网》
中的关联度来判断它们的语义相似度。
常用的方法有基于路径的关联度计
算和基于信息内容的关联度计算。
这些方法都是基于《知网》的语料库信息进行计算的,可以根据具体
需求选择适合的方法进行词汇语义相似度计算。
一种基于《知网》的文本语义相似度的计算方法

造成 了文本 向量 的表 示 空 间难 以有 效 地 降维 。2 ) 由于不 同的文 本 可 能采 用 不 同 的词 汇 来 表 示 相 同
概念 , “ 一对 一” 的匹 配方法 在处 理 时就 显得 无 能 为 力 了¨ 6 ] 。特别 是 同义词 和 近义 词不 能 识别 , 造 成 了 聚类 的误 差 。例 如 : 文本 1 : 土 豆 盛 产 于 中 国 。文
总第 2 9 2期 2 0 1 4年第 2期
计算 机与数字工程
Co mp u t e r&. Di g i t a l En g i n e e r i n g
Vo 1 . 4 2 No . 2
1 87
一ห้องสมุดไป่ตู้
种 基 于 知 网 的 文本 语 义 相 似 度 的计 算 方 法
孙 滨 刘 林
4 5 1 1 0 0 ) ( 郑州华信学 院信息工程 系 郑州
摘
要
论文提 出一个基于语义 的文本 问的相似度算法 , 以文本 的特征词 相似度为基础 , 来计算文本 间的相似度 , 利用
聚类算法对文本簇进行 聚类 。实验结果证 明基于知 网的文本语义相似度方法在对文本相似度计算 以及文本 聚类方面 , 能有 效提 高聚类 的效果 。 关键 词 文本 聚类 ; 义原相似度 ; 语义相似度
Ab s t r a c t A s i mi l a r i t y a l g o r i t h m b a s e d o n s e ma n t i c s i mi l a r i t y i s p r o p o s e d ,wh i c h c a l c u l a t e s t h e s i mi l a r i t y o f t e x t s a c — c o r d i n g t O f e a t u r e wo r d s o f t h e t e x t a n d ma k e s t e x t c l u s t e r s b y e mp l o y i n g c l u s t e r i n g a l g o r i t h m. Th e e x p e r i me n t a l r e s u l t s p r o v e t h a t t h e me t h o d o f t e x t s e ma n t i c s i mi l a r i t y b a s e d o n CNKI i S v e r y e f f i c i e n t i n t e x t s i mi l a r i t y c a l c u l a t i o n a n d t e x t c l u s t e — r i n g ,wh i c h c a n e f f e c t i v e l y i mp r o v e t h e e f f e c t o f c l u s t e r i n g . K e y Wo r d s t e x t c l u s t e r i n g ,p r i mi t i v e s i mi l a r i t y,s e ma n t i c s i mi l a r i t y Cl a s s Nu mb e r TP 3 9 】
使用网络搜索引擎计算汉语词汇的语义相似度

使用网络搜索引擎计算汉语词汇的语义相似度高国强;黄吕威;陈丰钰【摘要】Similarity computation of Chinese words is a key problem in Chinese information processing. It measures semantic similarity between Chinese words using the information returned by web search engines. First,implement a model named WebPMI which computes similarity using page counts,and then,describe another model named CODC which analyzes semantic similarity using text snippets. Final-ly,present the algorithm based on the two models. Experimental results show that this algorithm outperforms all the existing web-based semantic similarity measures for Chinese,and is close to the traditional semantic similarity measures using lexicon.%汉字词语的语义相似度计算是中文信息处理中的一个关键问题。
文中利用网络搜索引擎提供的信息来计算汉语词对的语义相似性。
首先通过程序访问搜索引擎,获取汉字词汇的搜索结果数,并依此实现了相似度计算模型WebPMI;然后描述了根据查询返回的文本片段进行语义相关性分析的模型CODC;最后,结合这个两个模型,给出了文中算法的伪代码。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于《知网》的词汇语义相似度计算1刘群†‡李素建†{liuqun,lisujian}@†中国科学院计算技术研究所‡北京大学计算语言学研究所摘要:《知网》是一部比较详尽的语义知识词典。
在基于实例的机器翻译中,词语相似度计算是一个重要的环节。
不过,由于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语相似度的计算带来了麻烦。
这一点与WordNet和《同义词词林》不同。
在WordNet和《同义词词林》中,所有同类的语义项(WordNet的synset或《同义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算树状结构中相应结点的距离即可。
而在《知网》中词语相似度的计算存在以下问题:1.每一个词的语义描述由多个义原组成,例如“暗箱”一词的语义描述为:part|部件,%tool|用具,body|身,“写信”一词的语义描述为:#TakePicture|拍摄write|写,ContentProduct=letter|信件;2.词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通过一种专门的知识描述语言来表示。
我们的工作主要包括:1.研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义原之间的关系,区分其在词语相似度计算中所起的作用;2.提出利用《知网》进行词语相似度计算的算法;3.通过实验验证该算法的有效性,并与其他算法进行比较。
关键词:《知网》词汇语义相似度计算自然语言处理1 引言在基于实例的机器翻译中,词语相似度的计算有着重要的作用。
例如要翻译“张三写的小说”这个短语,通过语料库检索得到译例:1)李四写的小说/the novel written by Li Si2)去年写的小说/the novel written last year通过相似度计算我们发现,“张三”和“李四”都是具体的人,语义上非常相似,而“去年”的语义是时间,和“张三”相似度较低,因此我们选用“李四写的小说”这个实例进行类比翻译,就可以得到正确的译文:the novel written by Zhang San1本项研究受国家重点基础研究计划(973)支持,项目编号是G1998030507-4和G1998030510。
如果选用后者作为实例,那么得到的错误译文将是:* the novel written Zhang San通过这个例子可以看出相似度计算在基于实例的机器翻译中所起的作用。
在基于实例的翻译中另一个重要的工作是双语对齐。
在双语对齐过程中要用到两种语言词语的相似度计算,这不在本文所考虑的范围之内。
除了基于实例的机器翻译之外,词语相似度计算在信息检索、信息抽取、词义排歧等领域都有着广泛的应用。
2 词语相似度及其计算的方法2.1什么是词语相似度什么是词语相似度?我们认为,词语相似度是一个主观性相当强的概念。
脱离具体的应用去谈论词语相似度,很难得到一个统一的定义。
因为词语之间的关系非常复杂,其相似或差异之处很难用一个简单的数值来进行度量。
从某一角度看非常相似的词语,从另一个角度看,很可能差异非常大。
不过,在具体的应用中,词语相似度的含义可能就比较明确了。
例如,在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度;而在信息检索中,相似度更多的要反映文本或者用户查询在意义上的符合程度。
本文的研究主要以基于实例的机器翻译为背景,因此在本文中我们所理解的词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。
两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。
相似度是一个数值,一般取值范围在[0,1]之间。
一个词语与其本身的语义相似度为1。
如果两个词语在任何上下文中都不可替换,那么其相似度为0。
相似度这个概念,涉及到词语的词法、句法、语义甚至语用等方方面面的特点。
其中,对词语相似度影响最大的应该是词的语义。
2.2词语相似度与词语距离度量两个词语关系的另一个重要指标是词语的距离。
一般而言,词语距离是一个[0,∞)之间的实数。
一个词语与其本身的距离为0。
词语距离与词语相似度之间有着密切的关系。
两个词语的距离越大,其相似度越低;反之,两个词语的距离越小,其相似度越大。
二者之间可以建立一种简单的对应关系。
这种对应关系需要满足以下几个条件:1) 两个词语距离为0时,其相似度为1;2) 两个词语距离为无穷大时,其相似度为0;3) 两个词语的距离越大,其相似度越小(单调下降)。
对于两个词语W1和W2,我们记其相似度为Sim(W1,W2),其词语距离为Dis(W 1,W 2),那么我们可以定义一个满足以上条件的简单的转换关系:αα+=),(),(121W W Dis W W Sim (1)其中α是一个可调节的参数。
α的含义是:当相似度为0.5时的词语距离值。
这种转换关系并不是唯一的,我们这里只是给出了其中的一种可能。
在很多情况下,直接计算词语的相似度比较困难,通常可以先计算词语的距离,然后再转换成词语的相似度。
所以在本文后面的有些章节,我们只谈论词语的距离,而没有提及词语的相似度,读者应该知道这二者是可以互相转换的。
2.3 词语相似度与词语相关性度量两个词语关系的另一个重要指标是词语的相关性。
词语相关性反映的是两个词语互相关联的程度。
可以用这两个词语在同一个语境中共现的可能性来衡量。
词语相关性也是一个[0,1]之间的实数。
词语相关性和词语相似性是两个不同的概念。
例如“医生”和“疾病”两个词语,其相似性非常低,而相关性却很高。
可以这么认为,词语相似性反映的是词语之间的聚合特点,而词语相关性反映的是词语之间的组合特点。
同时,词语相关性和词语相似性又有着密切的联系。
如果两个词语非常相似,那么这两个词语与其他词语的相关性也会非常接近。
反之,如果两个词语与其他词语的相关性特点很接近,那么这两个词一般相似程度也很高。
2.4 词语相似度的计算方法词语距离有两类常见的计算方法,一种是根据某种世界知识(Ontology )来计算,一种利用大规模的语料库进行统计。
根据世界知识(Ontology )计算词语语义距离的方法,一般是利用一部同义词词典(Thesaurus )。
一般同义词词典都是将所有的词组织在一棵或几棵树状的层次结构中。
我们知道,在一棵树形图中,任何两个结点之间有且只有一条路径。
于是,这条路径的长度就可以作为这两个概念的语义距离的一种度量。
图1 《同义词词林》语义分类树形图O L B A a l …… a b 01 02... 01… 01… …… 01 01 02... 01 ... 01 … 01 …… … 01 01 … 01 …… ... 虚线用于标识某上层节点到下层节点的路径王斌(1999)采用这种方法利用《同义词词林》来计算汉语词语之间的相似度(如图1所示)。
有些研究者考虑的情况更复杂。
Agirre & Rigau (1995)在利用Wordnet计算词语的语义相似度时,除了结点间的路径长度外,还考虑到了其他一些因素。
例如:1) 概念层次树的深度:路径长度相同的两个结点,如果位于概念层次的越底层,其语义距离较大;比如说:“动物”和“植物”、“哺乳动物”和“爬行动物”,这两对概念间的路径长度都是2,但前一对词处于语义树的较高层,因此认为其语义距离较大,后一对词处于语义树的较低层,其语义距离更小;2) 概念层次树的区域密度:路径长度相同的两个结点,如果位于概念层次树中高密度区域,其语义距离应大于位于低密度区域。
由于Wordnet中概念描述的粗细程度不均,例如动植物分类的描述及其详尽,而有些区域的概念描述又比较粗疏,所以加入了概念层次树区域密度对语义距离的影响。
另一种词语相似度的计算方法是大规模的语料来统计。
例如,利用词语的相关性来计算词语的相似度。
事先选择一组特征词,然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中在该词的上下文中出现的频率来度量),于是,对于每一个词都可以得到一个相关性的特征词向量,然后利用这些向量之间的相似度(一般用向量的夹角余弦来计算)作为这两个词的相似度。
这种做法的假设是,凡是语义相近的词,他们的上下文也应该相似。
李涓子(1999)利用这种思想来实现语义的自动排歧;鲁松(2001)研究了如何如何利用词语的相关性来计算词语的相似度。
Dagan(1999)使用了更为复杂的概率模型来计算词语的距离。
这两种方法各有特点。
基于世界知识的方法简单有效,也比较直观、易于理解,但这种方法得到的结果受人的主观意识影响较大,有时并不能准确反映客观事实。
另外,这种方法比较准确地反映了词语之间语义方面的相似性和差异,而对于词语之间的句法和语用特点考虑得比较少。
基于语料库的方法比较客观,综合反映了词语在句法、语义、语用等方面的相似性和差异。
但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声的干扰较大,有时会出现明显的错误。
本文主要研究基于《知网(Hownet)》的词语相似度计算方法,这是一种基于世界知识的方法。
3 《知网(Hownet)》简介按照《知网》的创造者――董振东先生自己的说法(杜飞龙,1999):《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
《知网》中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。
不过,在我们真正试图利用《知网》来进行计算机处理时,发现还是会遇到不少困难。
我们的感觉是,《知网》确实是一座宝库,但另一方面,《知网》的内容又非常庞杂。
尽管《知网》的提供了详细的文档,但由于这些文档不是以一种形式化的方式说明的,很多地方多少显得有些混乱。
当我们阅读这些文档时,很容易一下子陷入大量的细节之中,而很难对《知网》有一个总体的把握。
这使得我们在进行计算的时候觉得很不方便。
因此,我们在试图利用《知网》进行计算的过程中,也在逐渐加深我们对于《知网》的认识,并试图整理出一个关于《知网》的比较清晰的图象。
本节中,我们对于《知网》的描述是按照我们自己的语言来组织的,很多地方加入了我们的理解,并不一定都是《知网》文档中描述。
我们希望通过这种方法,使读者更快地了解《知网》,对《知网》有一个比较清晰而全面的印象。
当然,我们的理解也难免有错误和遗漏之处,欢迎《知网》的作者和其他读者批评指正。
3.1《知网》的结构董振东先生反复强调,《知网》并不是一个在线的词汇数据库,《知网》不是一部语义词典。
在介绍《知网》的结构之前,我们首先要理解《知网》中两个主要的概念:“概念”与“义原”。