基于知识图的汉语词汇语义相似度计算

合集下载

基于知网的词语语义相关度计算

基于知网的词语语义相关度计算

摘 要 :现有的词语语义相关度算法大多单纯依赖于语义相似度算 法,没有充分利用词语 间的
语义 关 系,导致其存 在局 限。在充 分挖 掘 词语 间 的隐含 语 义关 系基 础 上 ,将 语 义关 系应 用 于语 义关联 度的计 算 ,最终将语 义相 似度 以及语 义关 联度 结合 起 来 ,提 出 了语 义相 关度 算 法。 实验 结果表 明 ,使 用该计 算方法得 出的语义相 关度更加 合理 ,符合人 的 直观感 觉 。 关键词 :知 网 ;语义 相关度 ;语义关 系
(do lf o ue , h n q gU i r t,Ql gig4O4 , hn ) S lo o mptr c og i n esy C n v i 0 q 04 C i n n 0 a
Ab t a t T e u rn loi ms f s ma t r lv n y a e amo t ae o te lo i ms o e n i sr c : h c re t ag rt o e n i ee a c r l s b s d n h ag r h f s ma t h c t c
词语相 关度 反 映 了两个 词语 互相 关 联 的程 度 , 即词语之 间 的组 合特 点 , 可 以用 这 两个 词语 在 同 它

网义原纵向与横向关系及实例信息来计算不同词性 的词语 之间 的语 义相关 度 。但是 知 网中只有部 分义 原具有解释义原 , 并且标注的实例信息十分有限, 因 此算法存在 很大 的局限 性 。 J 值得注意的是 由于语义相关度包含了语义相似 度的概念 , 以语 义相 似 度算 法 对语 义 相关 度算 法 所
s l i i l .A d te o ’ a e t e mo to e sma t eain ew e od .S t rs h n i ats mi r y mp y n h y d n tm k s f t e n i rlt s b t e n w r s o I eu s i h h c o l i t n o e e ag r h .T i p p rmie e i l d s ma t eain ew e od ,a p ist ee i t i ft s loi ms hs a e n s t m ao h t h mp i e n c r lt s b t e n w r s p l s e i o e h rlt n e c mp tt n o e n i so it i ,a d p p ss a n w ag r h o ma t ee a c n ea o s t t o uai f ma t a sca i t i oh o s c v y n r o e loi m f o e t e s ni r v nyo c l h ai f i a t adasc i t te b sso m l i n so it i .T ee p r na s l h w t a te ms h r o es t f tr d s i ry a vy h x ei t r u t s o t h u sae m r a s coy a me l e s h ia n

基于语义构词的汉语词语语义相似度计算

基于语义构词的汉语词语语义相似度计算

基于语义构词的汉语词语语义相似度计算语义相似度计算是自然语言处理领域的重要研究方向之一。

为了准确刻画词语之间的语义关系,研究学者提出了各种方法和模型。

其中,基于语义构词的方法是一种常见而有效的计算词语语义相似度的方式。

语义构词是指通过词语的构词规则和组合方式来推断其意义,并计算其与其他词语之间的相似度。

在汉语中,语义构词主要包括义原、同义词与反义词、上下位关系、关联关系等方面的因素。

通过对这些因素的分析和比较,可以得到词语之间的语义相似度。

首先,义原是词语的最小语义单位,它可以用来表示词语的基本概念和语义特征。

在计算语义相似度时,可以通过比较两个词语的义原路径,来判断它们之间的语义距离。

如果两个词语的义原路径越短,说明它们的语义相似度越高。

其次,同义词和反义词是常见的词语关系类型。

同义词在语义上具有相似的意义,而反义词则表示相反的意义。

在计算语义相似度时,可以通过比较两个词语的同义词和反义词集合,来确定它们之间的语义关系。

如果两个词语的同义词集合越大,反义词集合越小,说明它们的语义相似度越高。

此外,上下位关系也是汉语词语之间常见的语义关系。

上下位关系表示一个词语是另一个词语的具体概念或者泛化概念。

在计算语义相似度时,可以通过比较两个词语的上位词和下位词集合,来确定它们之间的语义关系。

如果两个词语的上位词集合越相似,下位词集合越相似,说明它们的语义相似度越高。

最后,关联关系也是影响词语语义相似度的重要因素。

关联关系表示词语之间的联系和关联,例如因果关系、同类关系、反义关系等。

在计算语义相似度时,可以通过比较两个词语的关联关系,来判断它们之间的语义关系。

如果两个词语的关联关系越紧密,说明它们的语义相似度越高。

综上所述,基于语义构词的汉语词语语义相似度计算是一种有效的方法。

通过分析词语的义原、同义词与反义词、上下位关系和关联关系,可以准确计算词语之间的语义相似度。

这种方法不仅可以用于词语的语义推测和语义匹配,还可以应用于文本的语义理解和信息检索等相关任务。

基于知网的中文词语相似度计算

基于知网的中文词语相似度计算

基于知网的中文词语相似度计算作者:李国佳来源:《智能计算机与应用》2015年第03期摘要:针对中文词语相似度计算的问题,根据信息论中两个事物相似度计算的思想,提出一种基于知网义原信息量和义原及其角色关系的中文词语相似度计算方法,利用知网分类体系计算出词语义原信息量,根据义原信息量计算出词语概念间主类义原的相似度,结合词语概念中义原及其角色关系相似度及义原结点相似度来综合计算词语的相似度,与刘群、知网在线的方法及人工判断的相似度值进行了比较,实验结果显示该方法与人的判断更接近。

关键词:义原信息量;义原及其角色关系;词语相似度;知网中图分类号: TP391 文献标志码: A 文章编号:2095-2163(2015)03-Chinese Words Similarity Computation based on HowNetLI Guojia(Department of Software,North China University of Water Resources and Electric Power,Zhengzhou 450045,China)Abstract:In view of the problems of Chinese words similarity computation, according to the ideology of information theory on the similarity of two objects, this paper presents a new computing Chinese words similarity method based on information content of HowNet sememe and sememe and event role. The method uses HowNet lexical taxonomy to calculate the sememe information content,and uses the similarity of main sememe, the similarity of sememe and event role, similarity of the sememe node to compute Chinese word similarity. The experimental results that have been compared with Liu-qun and HowNet’s conclusion demonstrate that the method is similar to human judgment.Keywords: Sememe Information Content; Sememe and Event Role; Word Similarity;HowNet0 引言词语相似度计算在信息检索、文本分类、信息抽取、机器翻译等领域有广泛的应用[1]。

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算1刘群†‡李素建†{liuqun,lisujian}@†中国科学院计算技术研究所‡北京大学计算语言学研究所摘要:《知网》是一部比较详尽的语义知识词典。

在基于实例的机器翻译中,词语相似度计算是一个重要的环节。

不过,由于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语相似度的计算带来了麻烦。

这一点与WordNet和《同义词词林》不同。

在WordNet和《同义词词林》中,所有同类的语义项(WordNet的synset或《同义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算树状结构中相应结点的距离即可。

而在《知网》中词语相似度的计算存在以下问题:1.每一个词的语义描述由多个义原组成,例如“暗箱”一词的语义描述为:part|部件,%tool|用具,body|身,“写信”一词的语义描述为:#TakePicture|拍摄write|写,ContentProduct=letter|信件;2.词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通过一种专门的知识描述语言来表示。

我们的工作主要包括:1.研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义原之间的关系,区分其在词语相似度计算中所起的作用;2.提出利用《知网》进行词语相似度计算的算法;3.通过实验验证该算法的有效性,并与其他算法进行比较。

关键词:《知网》词汇语义相似度计算自然语言处理1 引言在基于实例的机器翻译中,词语相似度的计算有着重要的作用。

例如要翻译“张三写的小说”这个短语,通过语料库检索得到译例:1)李四写的小说/the novel written by Li Si2)去年写的小说/the novel written last year通过相似度计算我们发现,“张三”和“李四”都是具体的人,语义上非常相似,而“去年”的语义是时间,和“张三”相似度较低,因此我们选用“李四写的小说”这个实例进行类比翻译,就可以得到正确的译文:the novel written by Zhang San1本项研究受国家重点基础研究计划(973)支持,项目编号是G1998030507-4和G1998030510。

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算
《知网》是一个中文语料库,可以用来进行文本语义相似度计算。


见的基于《知网》的词汇语义相似度计算方法有:
1.基于《知网》的同义词词林:《知网》中的同义词词林收录了大量
的同义词、近义词和相关词,可以通过比较两个词在同义词词林中的位置,来衡量它们的语义相似度。

比如,可以通过比较两个词在同一类和同一级
别下的位置,来判断它们的相似度。

2.基于《知网》的词语标注:《知网》中的词语标注包括词义分类和
关系标注等信息,可以通过比较两个词的词义分类和关系标注信息,来衡
量它们的语义相似度。

3.基于《知网》的词语关联度计算:可以通过计算两个词在《知网》
中的关联度来判断它们的语义相似度。

常用的方法有基于路径的关联度计
算和基于信息内容的关联度计算。

这些方法都是基于《知网》的语料库信息进行计算的,可以根据具体
需求选择适合的方法进行词汇语义相似度计算。

自然语言处理中常见的语义相似度计算方法(Ⅰ)

自然语言处理中常见的语义相似度计算方法(Ⅰ)

自然语言处理中常见的语义相似度计算方法自然语言处理(NLP)是人工智能领域中一项重要的技术,其最终目标是实现计算机对自然语言的理解和处理。

在NLP中,语义相似度计算是一个重要的问题,其目的是判断两个句子或词语的语义之间的相似程度。

本文将介绍一些常见的语义相似度计算方法,包括基于词向量的方法、基于知识图谱的方法和基于深度学习的方法。

基于词向量的方法词向量是一种将词语表示为实数向量的方法,在NLP中被广泛应用。

基于词向量的语义相似度计算方法主要包括余弦相似度和欧氏距离。

余弦相似度是衡量两个向量方向的相似程度,其计算公式为:\[ \text{similarity} = \frac{A \cdot B}{\|A\|\|B\|} \]其中A和B分别为两个词的词向量,$\|A\|$表示A的范数。

欧氏距离则是衡量两个向量之间的距离,其计算公式为:\[ \text{distance} = \sqrt{\sum_{i=1}^{n}(A_i - B_i)^2} \]其中A和B分别为两个词的词向量,n为向量的维度。

这两种方法都可以用来计算两个词语之间的语义相似度,但是需要注意的是,这种方法忽略了上下文的信息,因此在处理一词多义和歧义问题时效果不佳。

基于知识图谱的方法知识图谱是一种用于表示实体之间关系的图结构,其中的节点表示实体,边表示实体之间的关系。

基于知识图谱的语义相似度计算方法主要包括基于图的方法和基于路径的方法。

基于图的方法通过计算两个实体之间的路径长度来判断它们之间的语义相似度,路径越短则相似度越高。

基于路径的方法则通过计算两个实体之间的最短路径来衡量它们之间的语义相似度,最短路径越短则相似度越高。

这种方法能够较好地处理一词多义和歧义问题,但是需要大量的知识图谱数据来支持。

基于深度学习的方法随着深度学习技术的发展,基于深度学习的语义相似度计算方法也得到了广泛的应用。

其中,基于神经网络的方法是一种常见的方法。

这种方法通过将文本表示为向量,然后利用神经网络模型来计算文本之间的相似度。

中文词语语义相似度计算_基于_知网_2000

中文词语语义相似度计算_基于_知网_2000
首先, 用来描述词语的义原之间存在多种关系。 我们认为在《知网》2000 中, 义原之间的 主要关系 有: 上下位关系; 属性关系, 指/ 实体0 类义原( 置于 [ ] 中, 见图 1) 和/ 事件类义原0的共性( 置于{ } 中) ; 对义关系和反义关系。其中最基本的仍然是树状层 次体系中的上下位关系( 见图 1)
《知网》的 基本形式是对中 文词语的释义 和描 述。与一般的语义词典如 Wordnet 不同的地 方有 两点:
第一, 词语( 概念) 的意义不是通过一些其他的 常用词语来解释、说明, 而是通过 / 义原0来描述、定 义。比如/ 打0 ( 打篮球, 打太极) , 这个词有一 项描 述是:
DEF = exer cise| 锻炼, spo rt| 体 育
DEF = human | 人, # occu-
医生 pation| 职位, * cure | 医治, *
medica l| 医
患者
DEF= human| 人, * SufferFr om| 罹患, $ cur e| 医治
$
obtain | 得 到, po ssession = 得利 pros| 益( 注: 等号左边为/ 动 =
%
颜色
DEF= attr ibute| 属性, color | 颜色, & physical| 物质
&

DEF= mater ial| 材料, ? clo thing | 衣物
?
DEF= Inst itutePlace | 场所,
医院 @ cure | 医 治, # disease| 疾 @
病, medical| 医
见表1从表1的例子中可以看出知网义原加标识符来定义词语的方式不但给出了词语的语义信息比如医院0是医疗场所也显式地给出了概念之间的联系比如医治0的实施者是医生0受事者是患者0而地点是医院0

基于知识整合的词汇语义相似度计算方法研究

基于知识整合的词汇语义相似度计算方法研究

基于知识整合的词汇语义相似度计算方法研究基于知识整合的词汇语义相似度计算方法研究随着大数据时代的到来,海量的文本数据在提供高价值信息的同时,也给文本语义理解带来了严峻的挑战。

单词是文本的最小组成单元,其语义相似度是挖掘词汇关联的重要依据,有助于计算机准确理解语句和文档的内容。

根据词汇语义资源,典型的语义相似度计算方法包含两类:基于知识库(Knowledge Base)和基于语料库(Corpus)。

知识库能够提供词汇的语义描述和结构化信息,但是严重依赖于领域专家的构建和维护,词汇覆盖率较低,缺乏可扩展性。

而语料库虽然包含丰富的词汇,但是其非结构性导致难以从中提取词汇的有效语义特征。

为了克服单类语义资源的不足,本文基于WordNet的图结构和词汇的低维向量表示,分别从概念信息含量的量化模型、语义增强的词向量、度量方法的优化组合三方面,研究了知识库和语料库中语义知识的整合。

本文的主要研究成果如下:(1)提出了一种基于IC加权最短路径的概念语义相似度计算方法CSSM-ICSP(Concept Semantic Similarity Measurement Based on IC-weighted Short-est Path)。

该方法利用WordNet中概念的边长、深度、密度等结构属性以及信息含量(Information Content, ⅠC),计算概念之间的路径距离并非线性地转化为概念语义相似度。

首先,用概念深度的相关函数对概念密度进行平滑,构造基于WordNet的固有IC混合(Intrinsic ⅠC Hybrid, ⅡH)计算模型,该模型改进了传统IC计算模型未考虑概念深度的不足;其次,将概念的IC差值作为边长的权重,衡量处于不同深度的概念语义关系的强度差异。

利用IC加权的路径距离、深度差异率和归一化路径距离,建立概念距离计算模型。

此外,为了实现WordNet与语料的语义知识整合,该方法将基于语料的统计IC模型引入固有IC模型。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3期
张瑞霞等: 基于知识图的汉语词汇语义相似度计算
117
识图的汉语词汇相似度计算方法。该方法在构造词 图的基础上, 以知网中的语义关系为依据对词汇概 念中的义原进行分类, 通过计算不同类型义原的相 似度得到概念的相似度; 设计了词汇相似度计算方 法的评价模型, 该模型通过量化人的直观评价得到 计算方法的有效度, 从而为词汇相似度的计算提供 了较为客观的评价途径; 采用此模型对所提出的计 算方法进行评价, 试验结果证明它对于汉语词汇相 似度计算是有效的。
张瑞霞1 , 朱贵良1 , 杨国增2
( 1. 华北水利水电学院 信息工程学院 河南 郑州 450011; 2. 郑州师范高等专科学校 数学系 河南 郑州 450044)
摘 要: 提出了一种基于知识图的汉语词汇相似度计 算方法, 该方 法以5 知网6 2005 版为语 义知识 资源, 以知识 图
为知 识表示方法, 在构造词图的基础上, 以知网中的语义关系为依据对词汇概念中 的义原进行 分类, 通过计算不 同
鉴于上述原因, 以知识图为知 识表示方 法, 以 5知网62005 版为语义知识资源, 提出了一种基于知
收稿日期: 2008- 08- 05 定稿日期: 2008- 11- 05 基金项目: 2008 河南省基础研究资助 项目( 082300410140) 作者简介: 张瑞霞( 1979 ) ) , 女, 硕士, 助教 , 主要研究方向为自然语言处理、人工智能; 朱 贵良( 1950) ) , 男, 教 授, 主要 研 究方向为操作系统、密码算法、人工智能; 杨国增( 1980 ) ) , 男, 硕士生, 助教, 主要研究方向为计算数学 。
2 知网与知识图
5知网6是一个以英汉双语所代表的概念以及概 念的特征为基础的常识知识库, 它主要描述了概念 与概念之间以及概念所具有的特性之间的关系[ 5] 。 5知网62005 版是讨论基于知识图的汉语词汇相似 度计算的基本依据。
知网的研发者强调/ 关系是知识的核心, 关系是 知网的灵魂0[ 6] 。为使词汇相似度计算更有效, 采用 知识图表示词语的概念, 在计算中利用了/ 关系0。
规定其相似度是一个较小值 B。
3. 2 词汇相似度的计算
由于词汇的语义是通过词图表示的, 所以词汇 相似度的计算可转化为词图相似度的计算。在词图 中, 语义主要是由义原节点及其相互联系表示的, 所 以规定计算词图的相似度, 仅涉及到义原节点, 即词 图相似度的计算与词语节点、子图节点无关。
知网的研发者强调/ 关系是知识的核心, 关系是 知网的灵魂0, 而知识图这种知识表示方法能恰当表 示出/ 知识0中的/ 关系0。本文提出的基于知识图的 词汇相似度的计算目的是依据知识图的优点充分利 用/ 关系0从而使得词汇相似度计算更客观、准确, 基 本思想是: 根据弧的关系类型, 对义原节点进行等 价划分; 然后对同一等价类中的义原节点计算其相 似度; 最 后通过 整合义 原的 相似度 得到 词图 的相 似度。
原 s1 与义原 s2 的语义距离为节点 s1 到节点 s2 在义 原层次树中的最短路径, 记为 d is ( s1, s2 ) 。此外两 个义原的相似度还与它们在义原层次树上的深度有
关。一般情况下, 深度越深的义原所描述的信息越 丰富; 所以在语义距离相同的情况下, 义原之间的相 似度与它们的深度呈现单调上升的关系。因此规定
3 基于知识图的词汇相似度计算方法
词汇的语义在知网中是通过/ 概念0 来描述的, / 概念0是通过/ 义原0来描述的, 所以计算词汇的相 似度即计算/ 概念0的相似度, 而/ 概念0的相似度必 须通过/ 义原0的相似度来计算。
3. 1 义原相似度的计算
两个义原的相似度与它们之间的语义距离密切 相关, 即它们的语义距离越近其相似度越大; 规定义
118
中文信息学报
2009 年
当 e1 与 e2 的关系类型相同。
定义 3 节点 v1 与节点 v2 是同构节点对: v1
与 v2 是同构节点对只有当 v1 和 v2 满足下 列所有 条件时, 才称 v1 与 v2 为同构节点对, 记为3v1 , v 24:
( a) e1 和 e2 为同型弧;
( b) v1 与 v2 均为子图节点或 v1 与 v2 均为非 子图节点;
类型义原的相似度得到概念的相似度; 为了对词 汇相似度计 算方法 进行客观 评价, 设计 了词汇相 似度计 算方法 的
量化评价模型; 采用该模型对所提出的计算方法 进行评价, 试验结果证明此方法的有效度为 89. 1% 。
关键词: 计算机应用; 中文信息处理; 知识图; 知网; 语义相似度
中图分类号: T P391
系数方法来计算词汇相似度; 文献[ 4] 通过引入事物 信息量的思想来计算词语相似度。文献[ 2- 3] 采用 统计的方法, 文献[ 1, 4] 根据世界知识( 5知网62000) 进行计算, 两类方法各有异同[ 1] 。根据世界知识计 算词汇相似度, 为使其计算精确, 在计算过程中必须 能够最大限度的合理的应用世界知识。另外, 目前 对词汇相似度计算方法尚未出现定量评价, 这样不 利于方法的比较、改进以及应用。
1 引言
在自然语言信息处理领域中, 词汇相似度的计 算广泛应用于基于实例的机器翻译、信息检索、信息 抽取和词义消歧等领域, 并取得了丰富成果。文献 [ 1] 提出了利用5知网6进行词汇相似度计算的方法; 文献[ 2] 以5同义词词林6的词汇分类体系为基础提 出了基于相关熵的汉语词汇相似度的计算方法; 文 献[ 3] 提 出了利用语 义格实现 的一种改 进 Jaccard
知识图是一种属于语义网络范畴的知识表示方 法, 它用节点表示概念, 用有向弧表示概念与概念之 间的关系, 定义如下:
定义 1 设 C 为概念的集合, T 为关系类型的 集合, G = 3V , E, l n, l a4是知识图, 其中: V 表示节 点的集合; E 表示弧的集合; l n 表示节点集 到概念 集的映射, 即 l n: V y C; l a 表示弧集到关系类型集 的映射, 即 l a: E yT 。
2. Department of M athematics Zheng zho u teacher. s Co llege, Z hengzhou, H enan 450044, China)
Abstract: A new measur e of semantic similarit y betw een Chinese w or ds is put for war d on the basis of K no wledg e Gra phs. W ith H ow N et ( 2005) as the semantic kno wledg e r esource and the K no w ledg e Gr aphs as know ledg e representation method, this method classifies / sememes0 based on their semantic ro les in H ow N et, and then measures semantics sim ilar ity amo ng the co- co nst ructed w or d g raphs by the similarit y o f differ ent kinds o f / sememe0 . In or der to evaluate the pro po sed measur es of semantic similar ity , a new mo del is designed fo r quant itativ e eva luation reuslt. With the help of this evaluation mo del, the ex per iment r esult pro ves that the effective deg ree of the our semant ic measure is 89. 1% . Key words: computer applicatio n; Chinese info rmatio n pro cessing; know ledg e g raphs; Ho wN et; semant ic sim ilar ity
设知识图 G1 、G2 , 其中 G1 = 3V 1 , E1 4, V 1 = { vi | 0< i [ G1 中节点的个 数} , E1 = { ej | 0< j [ G1 中弧的条数} G2 = 3V 2 , E2 4, V 2 = { vi | 0< i [ G2 中节点的个 数} , E2 = { ej | 0< j [ G2 中弧的条数} 令 v 1 I V 1 , e1 I E1 且 e1 与 v 1 相关联, v 2 I V 2 , e2 I E2 且 e2 与 v 2 相关联。 定义 2 同型弧: 弧 e1 与弧 e2 为同型弧当且仅
文献标识码: A
A New Measure of Semantic Similarity between Chinese Words Based on Knowledge Graphs
ZHAN G Ruixia1 , ZH U Guiliang1, YAN G Guozen g2
( 1. Department of Infor matio n Engineer ing, No rth China U niversity of W ater Conserv ancy and Elect ric Po wer , Zhengzhou, H enan 450011, China;
第 23 ቤተ መጻሕፍቲ ባይዱ 第 3 期 2009 年 5 月
中文信息学报 JOU RNAL OF CH INESE INFORM AT ION PROCESSIN G
相关文档
最新文档