中文词语语义相似度计算_基于_知网_2000
基于知网的词语语义相关度计算

摘 要 :现有的词语语义相关度算法大多单纯依赖于语义相似度算 法,没有充分利用词语 间的
语义 关 系,导致其存 在局 限。在充 分挖 掘 词语 间 的隐含 语 义关 系基 础 上 ,将 语 义关 系应 用 于语 义关联 度的计 算 ,最终将语 义相 似度 以及语 义关 联度 结合 起 来 ,提 出 了语 义相 关度 算 法。 实验 结果表 明 ,使 用该计 算方法得 出的语义相 关度更加 合理 ,符合人 的 直观感 觉 。 关键词 :知 网 ;语义 相关度 ;语义关 系
(do lf o ue , h n q gU i r t,Ql gig4O4 , hn ) S lo o mptr c og i n esy C n v i 0 q 04 C i n n 0 a
Ab t a t T e u rn loi ms f s ma t r lv n y a e amo t ae o te lo i ms o e n i sr c : h c re t ag rt o e n i ee a c r l s b s d n h ag r h f s ma t h c t c
词语相 关度 反 映 了两个 词语 互相 关 联 的程 度 , 即词语之 间 的组 合特 点 , 可 以用 这 两个 词语 在 同 它
一
网义原纵向与横向关系及实例信息来计算不同词性 的词语 之间 的语 义相关 度 。但是 知 网中只有部 分义 原具有解释义原 , 并且标注的实例信息十分有限, 因 此算法存在 很大 的局限 性 。 J 值得注意的是 由于语义相关度包含了语义相似 度的概念 , 以语 义相 似 度算 法 对语 义 相关 度算 法 所
s l i i l .A d te o ’ a e t e mo to e sma t eain ew e od .S t rs h n i ats mi r y mp y n h y d n tm k s f t e n i rlt s b t e n w r s o I eu s i h h c o l i t n o e e ag r h .T i p p rmie e i l d s ma t eain ew e od ,a p ist ee i t i ft s loi ms hs a e n s t m ao h t h mp i e n c r lt s b t e n w r s p l s e i o e h rlt n e c mp tt n o e n i so it i ,a d p p ss a n w ag r h o ma t ee a c n ea o s t t o uai f ma t a sca i t i oh o s c v y n r o e loi m f o e t e s ni r v nyo c l h ai f i a t adasc i t te b sso m l i n so it i .T ee p r na s l h w t a te ms h r o es t f tr d s i ry a vy h x ei t r u t s o t h u sae m r a s coy a me l e s h ia n
汉语词语语义相似度计算研究

文 识码:A 献标
中圈 分类号: P9 T 31
汉语 词语 语 义相似 度 计 算研 究
夏 天
( 国人民大学信息资源 管理 学院,北京 10 7 ) 中 82 0
摘 要 :汉语词语 的语义相似度计算是 中文信 息处理 中的一个关键问题 。该文 提出了一种基于知 网、面向语义、可扩展的相似度计算新方
[ e od iWod m l i ; o n ; o cp; e e e K y r s rs i i r y H w  ̄ C n etS m m w s at
汉语词汇相似度计 算在 自动问答、情 报检 索、文本聚类 等应用 中都是一个非常关键的问题” J 。针对这一问题 ,人们
smia iy c mpu a i n wh c s b s d o wn t e r d t e n i n o l e e p n e .T e n w t o e n s a s mi rt omp tto i lrt o tto ih i a e n Ho e ,g a e o s ma t a d c u d b x a d d h e me d d f e i l i c c h i a y uain f r u a a ng Ho e ’ e e sa c r i g t n o ai n t e r , n s awa u fi u t h tOOV r sc n o a t i a e i e n i o m l mo wn tSs m me c o d n o i f r to o y f d y o t t di c l t a m h i of he y wo d a n tp ri p t n s ma t c c
t e s m a t e e mo g a b ta y wo d n l . p r e t lr s l o LI i d c t s t a c u a y r t f t e n w e h d sne ry 1 % h e n i l v la n ir r r s n ia e h tt a c r c a e o h e m t o i a l c r i y m he 5 h g e a e e to e . i h rt npr s n n s h
基于知网的词汇语义相似度计算1

我们的工作主要包括: 1. 研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义 原之间的关系,区分其在词语相似度计算中所起的作用;我们采用一种更
1 *
+
本项研究受国家重点基础研究计划(973)支持,项目编号是 G1998030507-4 和 G1998030510。 北京大学计算语言学研究所 & 中国科学院计算技术研究所 E-mail: liuqun@ Institute of Computational Linguistics, Peking University & Institute of Computing Technology, Chinese Academy of Science 中国科学院计算技术研究所 E-mail: lisujian@ Institute of Computing Technology, Chinese Academy of Sciences
基于《知网》的词汇语义相似度计算1 Word Similarity Computing Based on How-net
刘群* ﹑李素建+
Qun LIU , Sujian LI
摘要
词义相似度计算在很多领域中都有广泛的应用,例如信息检索、信息抽取、文 本分类、词义排歧、基于实例的机器翻译等等。词义相似度计算的两种基本方 法是基于世界知识(Ontology)或某种分类体系(Taxonomy)的方法和基于统 计的上下文向量空间模型方法。这两种方法各有优缺点。 《知网》是一部比较详尽的语义知识词典,受到了人们普遍的重视。不过,由 于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语 相似度的计算带来了麻烦。这一点与 WordNet 和《同义词词林》不同。在 WordNet 和《同义词词林》中,所有同类的语义项(WordNet 的 synset 或《同 义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算 树状结构中相应结点的距离即可。而在《知网》中词汇语义相似度的计算存在 以下问题: 1. 2. 每一个词的语义描述由多个义原组成; 词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通 过一种专门的知识描述的词汇语义相似度计算
基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算
《知网》是一个中文语料库,可以用来进行文本语义相似度计算。
常
见的基于《知网》的词汇语义相似度计算方法有:
1.基于《知网》的同义词词林:《知网》中的同义词词林收录了大量
的同义词、近义词和相关词,可以通过比较两个词在同义词词林中的位置,来衡量它们的语义相似度。
比如,可以通过比较两个词在同一类和同一级
别下的位置,来判断它们的相似度。
2.基于《知网》的词语标注:《知网》中的词语标注包括词义分类和
关系标注等信息,可以通过比较两个词的词义分类和关系标注信息,来衡
量它们的语义相似度。
3.基于《知网》的词语关联度计算:可以通过计算两个词在《知网》
中的关联度来判断它们的语义相似度。
常用的方法有基于路径的关联度计
算和基于信息内容的关联度计算。
这些方法都是基于《知网》的语料库信息进行计算的,可以根据具体
需求选择适合的方法进行词汇语义相似度计算。
语义相似度计算

语义相似度计算目前,语义相似度计算已经成为了自然语言处理领域中的一个研究热点,各种模型和算法不断涌现。
在本文中,我们将对语义相似度计算的基本概念和常用方法进行介绍,并且讨论一些当前研究中的热点问题和挑战。
## 语义相似度的定义和挑战语义相似度衡量的是两个句子或短语之间的语义相似程度。
在计算语义相似度时,我们通常会考虑到两个句子或短语之间的含义、单词的语义以及语法结构等因素。
然而,要准确地计算出两个句子之间的语义相似度并不是一件容易的事情,因为自然语言的含义通常是多样化、模糊不清的,而且受到语言表达方式的限制。
在计算语义相似度时,我们需要克服一些挑战和困难。
首先,要考虑到句子或短语之间的多样性。
同一句话可以有多种表达方式,而这些表达方式的语义可能是相似的,但又不尽相同。
其次,要考虑到语言的歧义性。
自然语言中存在着很多的歧义现象,一个词汇可以有多种不同的含义,这就增加了语义相似度计算的难度。
此外,要考虑到语言的多义性。
一个句子中的一些词汇可能具有多个含义,这就增加了语义相似度计算的复杂性。
## 语义相似度计算的常用方法为了克服这些挑战和困难,研究人员提出了许多语义相似度计算的方法和模型。
这些方法和模型大致可以分为基于知识的方法和基于数据的方法两种。
基于知识的方法通常利用词汇语义资源(如WordNet)来计算语义相似度。
其中,常用的算法包括基于路径的方法、基于信息内容的方法和基于语义子空间的方法等。
基于路径的方法通过计算两个词之间在WordNet中的最短路径来计算它们的语义相似度。
基于信息内容的方法则是利用词汇在语料库中的分布信息来计算它们的语义相似度。
而基于语义子空间的方法则是利用词汇在一个高维语义空间中的向量表示来计算它们的语义相似度。
这些方法在一定程度上可以解决语义相似度计算中的多样性、歧义性和多义性问题。
另一方面,基于数据的方法则是利用机器学习和深度学习技术来计算语义相似度。
其中,常用的方法包括基于词向量的方法、基于神经网络的方法和基于迁移学习的方法等。
使用网络搜索引擎计算汉语词汇的语义相似度

使用网络搜索引擎计算汉语词汇的语义相似度高国强;黄吕威;陈丰钰【摘要】Similarity computation of Chinese words is a key problem in Chinese information processing. It measures semantic similarity between Chinese words using the information returned by web search engines. First,implement a model named WebPMI which computes similarity using page counts,and then,describe another model named CODC which analyzes semantic similarity using text snippets. Final-ly,present the algorithm based on the two models. Experimental results show that this algorithm outperforms all the existing web-based semantic similarity measures for Chinese,and is close to the traditional semantic similarity measures using lexicon.%汉字词语的语义相似度计算是中文信息处理中的一个关键问题。
文中利用网络搜索引擎提供的信息来计算汉语词对的语义相似性。
首先通过程序访问搜索引擎,获取汉字词汇的搜索结果数,并依此实现了相似度计算模型WebPMI;然后描述了根据查询返回的文本片段进行语义相关性分析的模型CODC;最后,结合这个两个模型,给出了文中算法的伪代码。
基于《知网》的汉语词语词义消歧方法

基于《知网》的汉语词语词义消歧方法摘要本文提出了一种简单有效的词义消歧方法,该模型充分利用依存文法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的词语。
借助《知网》系统的实体关系,并结合与该岐义词相关联词语的义项,计算歧义词的义项权重,从而根据义项权重大小来判断歧义词的词义。
关键词词义消歧;知网;自然语言处理;依存句法分析1 引言自然语言中存在着大量的多义词,如何在给定的上下文中,确定其中各个词语在多个词义中选取正确的词义,是词义消歧所应解决的问题。
如果多义词的多个词义之间具有不同的词性,则通过词性标注就可以确定该词词义。
所以本文所说的词义消歧,是指如何在词性相同的情况下选择多义词正确词义的问题。
汉语词语的词义消歧开始于上世纪90年代后期,主要是利用词典提供的信息。
出现了利用《现代汉语词典》释义文本、《同义词词林》、《知网》中的语义类,对实词多义进行消歧的方法,但是平均正确率并不是很高[1][2]。
近年来,随着计算机存储容量和运算速度的提高,通过对大规模语料库的利用,出现了许多基于语料库统计的词义消歧方法。
使消歧的准确率有了一定程度的提高,但是有些低频词,在语料中出现次数不多,很难搜集到它们的上下文环境,存在着知识获取中数据稀疏以及自动学习算法的参数空间过大问题。
到目前,无论那种方法都没有很好地解决词义消歧问题[3]。
其中一个重要的原因就是词义知识获取中的瓶颈问题,词义消歧知识库的质量已成为词义消歧成败的关键。
本文提出了一种基于《知网》的汉语词语词义消歧方法,该方法只考虑词汇句法之间的内在关联对特定环境中词义的贡献,借助依存文法分析来找出这种词义关联。
假设不存在词义关联的上下文对于歧义词语的特定词义贡献为0,存在语法关联的上下文对词义的贡献相互独立。
选择与歧义词汇存在语法关联的上下文作为模型中的特征值,这样做既可以减少无关上下文对词义消歧产生的噪音,又可以大幅度减少计算次数,在提高词义消歧准确率的同时,能够明显提高词义消歧的工作效率。
词语相似度计算方法

词语相似度计算方法分析崔韬世麦范金桂林理工大学广西 541004摘要:词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。
词语相似度计算在理论研究和实际应用中具有重要意义。
本文对词语相似度进行总结,分别阐述了基于大规模语料库的词语相似度计算方法和基于本体的词语相似度计算方法,重点对后者进行详细分析。
最后对两类方法进行简单对比,指出各自优缺点。
关键词:词语相似度;语料库;本体0 引言词语相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性。
词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用,它是一个基础研究课题,正在为越来越多的研究人员所关注。
笔者对词语相似度计算的应用背景、研究成果进行了归纳和总结,包括每种策略的基本思想、依赖的工具和主要的方法等,以供自然语言处理、智能检索、文本聚类、文本分类、数据挖掘、信息提取、自动应答、词义排歧和机器翻译等领域的研究人员参考和应用。
词语相似度计算的应用主要有以下几点:(1) 在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度。
(2) 在信息检索中,相似度更多的是反映文本与用户查询在意义上的符合程度。
(3) 在多文档文摘系统中,相似度可以反映出局部主题信息的拟合程度。
(4) 在自动应答系统领域,相似度的计算主要体现在计算用户问句和领域文本内容的相似度上。
(5) 在文本分类研究中,相似度可以反映文本与给定的分类体系中某类别的相关程度。
(6) 相似度计算是文本聚类的基础,通过相似度计算,把文档集合按照文档间的相似度大小分成更小的文本簇。
1 基于语料库的词语相似度计算方法基于统计方法计算词语相似度通常是利用词语的相关性来计算词语的相似度。
其理论假设凡是语义相近的词,它们的上下文也应该相似。
因此统计的方法对于两个词的相似度算建立在计算它们的相关词向量相似度基础上。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中图分类号: T P391
文献标识码 : A
An New Approach Measuring Semantic Similarity in Hownet 2000
LI Fen g , LI Fan g
( Department of Co mputer Science and T echno log y, Shang hai Jiao T o ng universit y, Shanghai 200240, China)
《知网》作者认为义原是比词语更小一级的语义
2 《知网》2000 介绍
单位, 但我们更倾向于这样的理解: 这 1 600 多个义 原是中文语言的一个核心词语集合, 和词语是同一
《知网》[ 3] 是我国著名机器翻译专家董振东先生 逾十年功夫创建的一个知识系统。它含有丰富的词 汇语义知识和世界知识, 内部结构复杂。我们主要 从语义词典和世界知识库两个角度对《知网》进行理 解分析。
文通 过引入事物信息量的思想, 提出了自己的观点: 认为知网中的/ 义原0 对/ 概念0 描述的 作用大小 取决于其本 身
所含 的语义信息量;/ 义原0 对/ 概念0 的描述划分为直接描述和间接描述两类 , 并据 此计算中文 词语语义 相似度, 在
一定程度上得到了和人的直观更加符合的结果。
关键词: 计算机应用; 中文信息处理; 词语语义相似度; 知网;/ 义原0; 语义信息量
态角色和属性0 类义原)
%
颜色
DEF= attr ibute| 属性, color | 颜色, & physical| 物质
&
布
DEF= mater ial| 材料, ? clo thing | 衣物
?
DEF= Inst itutePlace | 场所,
医院 @ cure | 医 治, # disease| 疾 @源自病, medical| 医
/ 锻炼0和/ 体育0就是两个义原。《知网》作者总 共定义了 1 600 多个这样 的义原 ) 汉语中/ 最基本 的、不易于再分割的意义的最小单位0, 然后用它们 来对 3 万多个中文词语进行解释描述。义原的具体
-entity| 实体 @ thing| 万物 [ # time| 时间, # sp ace| 空间] , @ phys ical| 物质 [ ! appearance| 外观]
李 峰, 李 芳
( 上海交通大学 计算机科学 与工程系, 上海 200240)
摘 要: 词语语义相似度的计算, 一种比较常用的方法是 使用分类 体系的语 义词典 ( 如 Wo rdnet) 。本文 首先利 用
Ho wnet 中/ 义原0 的树状层次结构, 得到/ 义原0 的相似度, 再通过/ 义原0的相似度得 到词语(/ 概 念0) 的相似 度。本
a Event| 事件 813 b entity| 实体 142 c attr ibute| 属性 / aV alue| 属性 值 433 d quant ity| 数量 / qVa lue| 数量值 13 e Seco ndar yFeatur e| 次要特征 100 f syntax | 语法 41 g Ev entR ole & Features| 动态角色和属性 74
不含有直 接语义 信息或 含较 少语 义信 息的词 类。 / 次要特征0 义原, 专门规 定, 用来描述 事物类概念 ( 名词类) 的次要特征。/ 动态角色和属性0义原, 专 门规定, 描述事件类概念( 动词类) 的内容和特征。
第二, 词语不是组织在一个树状的层次体系中, 而是存在一种网状关系[ 4] 。
首先, 用来描述词语的义原之间存在多种关系。 我们认为在《知网》2000 中, 义原之间的 主要关系 有: 上下位关系; 属性关系, 指/ 实体0 类义原( 置于 [ ] 中, 见图 1) 和/ 事件类义原0的共性( 置于{ } 中) ; 对义关系和反义关系。其中最基本的仍然是树状层 次体系中的上下位关系( 见图 1)
Abstract: A basic approach for measur ing semant ic simila rity / distance betw een w or ds and concept s is to use lex ical taxo no my, such as Wo rdnet. H ow net is a Chinese semant ic dictio nar y, co ntaining abundant semantic info rmation and ontolog y know ledge, but has quite different co nstr uct ion and architecture. In t his paper, we present a new a ppro ach using H ow net by dr awing in the idea o f infor mation theor y. We pr opose that the mo re semantic info rmation a / sememe0 take, the mo re po wer ful it in describing co ncepts. T hen w e divide / sememe0 which describes a co ncept into tw o set: dir ect ly descr ibing part and indir ectly descr ibing part. In the ex per iment s, w e demonstrate our method hav e improv ed perfo rmance in measuring semantic similar ity betw een Chinese w or ds. Key words: co mputer applicatio n; Chinese infor mation pr ocessing ; semantic similarity; H ow net ; / sememe0 ; semantic info rmat ion
但中文词语的相 似度计算并不 能直接借用国 外研究人员在 Wordnet 中的 方法。原因在于知网
并没有像 Wordnet 一样将所 有的词组织在 一个分 类的层次体系中 ( 树 状结 构中) , 而 是精 心选取 了 一个/ 语义 单位0 ) ) ) / 义原0 的集 合, 然后 用这 个 集合中的 元素来 描述 中文 词语/ 概 念。/ 义原0 被 组织在几颗 层次 树中, 可 以借用 在 Wordnet 的 分 类体系中计 算词语 相似度 的思想。如 何通 过/ 义 原0的相 似度来 得到词 语/ 概念 的相 似度, 成为 利 用知网计算中文词语相似度的关键 所在。我们在
3期
李峰等: 中文词语语义相似 度计算- 基于《知网》2000
101
界知 识0 。
表 1 知网的主要标识符及其代表关系
词语
定义
标识符 代表关系
鼾声
DEF = sound | 声, # sleep |睡
#
踝骨
DEF = part | 部 件, % A n-i malH uman| 动物, bone| 骨
100
中文信息学报
2007 年
接描述和间接描述两个部分。
分类如下( 数字标号为义原个数) :
接下来的第 2 部分, 我们将首先从两个角度来 简要地介绍《知网》; 第 3 部分给出《知网》中词语相 似度的计算归结为/ 概念0相似度的计算; 第 4 部分 讨论/ 概念0的相似度如何由描述它的/ 义原0的相似 度得到; 第 5 部分给出我们计算/ 义原0之间相似度 所采用的公式。第 6 部分为我 们的实验结果 和分 析。最后第 7 部分是我们的结论。
2. 1 《知网》是一部语义词典
级的语义层次。《知网》用这个核心集合构成的语义 内涵( 语义特征) 去描述所有中文词语。因此, 我们 认为义原分类隐含 着如下的语法 结构: / 实体0 义 原, 描述万物, 名词的核心集合; / 事件0义原, 描述动 作, 动词的核心集合; / 属性0/ / 属 性值0 义原和/ 数 量0/ / 数量值0义原, 描述属性( 属性程度) , 形容词副 词的核心集合; / 语法0义原, 对应助词、代词、介词等
, , @ animate| 生物 [ * alive| 活着, ! age| 年龄, * die| 死, * metaboliz e| 代谢] , , , @ AnimalH uman| 动物 [! sex| 性别, * AlterLocation| 变空间位置, * StateM en tal| 精神状态] , , , , @ hum an| 人 [ ! name| 姓名, ! w isdom| 智慧, ! ability| 能力, ! occupation | 职位, * act| 行动] , , , , , 8 humaniz ed| 拟人 [ fake| 伪]
《知网》的 基本形式是对中 文词语的释义 和描 述。与一般的语义词典如 Wordnet 不同的地 方有 两点:
第一, 词语( 概念) 的意义不是通过一些其他的 常用词语来解释、说明, 而是通过 / 义原0来描述、定 义。比如/ 打0 ( 打篮球, 打太极) , 这个词有一 项描 述是:
DEF = exer cise| 锻炼, spo rt| 体 育
这篇论文里提出/ 义原0本身所含 信息量具有大小 之分, 而它所含有的语义信息量决定着它对概念 的描述作用( 区分此概念和其他概念) 。另外, 在 / 义原0对概念 的描述 方式 上, 我们 也提 出了自 己 的观点: 认为描述/ 定义一个概念的/ 义原0分为直
收稿日期: 2006- 06- 03 定稿日期: 2006- 12- 13 作者简介: 李峰( 1983 ) ) , 男, 硕士, 主要研究方向为自然语言处理。