词语相似度计算研究

合集下载

《基于语义理解的文本相似度计算研究与实现》

《基于语义理解的文本相似度计算研究与实现》

《基于语义理解的文本相似度计算研究与实现》一、引言随着互联网的快速发展,海量的文本信息充斥着我们的日常生活。

如何有效地处理这些文本信息,特别是在大量的文本数据中寻找出具有相似语义的内容,已成为自然语言处理领域的研究热点。

本文着重探讨基于语义理解的文本相似度计算方法,并对其实施效果进行详细分析。

二、文本相似度计算的重要性文本相似度计算是自然语言处理领域的一项重要任务,它可以帮助我们快速地从海量的文本数据中筛选出有价值的、与用户需求相关的信息。

在搜索引擎、智能问答系统、信息推荐系统等领域,文本相似度计算都有着广泛的应用。

三、传统文本相似度计算方法的局限性传统的文本相似度计算方法主要基于关键词的匹配、字符串的相似度计算等方法。

然而,这些方法往往忽略了文本的语义信息,导致在处理具有复杂语义的文本时,计算结果往往不尽人意。

因此,基于语义理解的文本相似度计算方法成为了研究的重点。

四、基于语义理解的文本相似度计算方法基于语义理解的文本相似度计算方法主要依赖于自然语言处理技术,包括词法分析、句法分析、语义理解等。

具体实现步骤如下:1. 词法分析:对文本进行分词、词性标注等处理,提取出文本中的关键词。

2. 句法分析:通过句法分析技术,理解文本的语法结构,提取出文本中的主谓宾等句子成分。

3. 语义理解:利用语义理解技术,对文本进行深层次的理解,提取出文本的语义信息。

4. 计算相似度:根据提取出的关键词、句子成分和语义信息,计算两段文本的相似度。

五、实现方法与实验结果本文采用了一种基于深度学习的语义理解模型——BERT (Bidirectional Encoder Representations from Transformers)来实现文本相似度计算。

BERT模型能够理解文本的上下文信息,提取出更加准确的语义信息。

我们利用BERT模型对文本进行预训练,然后利用预训练模型进行文本相似度计算。

实验结果表明,基于BERT模型的文本相似度计算方法在处理具有复杂语义的文本时,具有较高的准确性和可靠性。

基于语义构词的汉语词语语义相似度计算

基于语义构词的汉语词语语义相似度计算

基于语义构词的汉语词语语义相似度计算语义相似度计算是自然语言处理领域的重要研究方向之一。

为了准确刻画词语之间的语义关系,研究学者提出了各种方法和模型。

其中,基于语义构词的方法是一种常见而有效的计算词语语义相似度的方式。

语义构词是指通过词语的构词规则和组合方式来推断其意义,并计算其与其他词语之间的相似度。

在汉语中,语义构词主要包括义原、同义词与反义词、上下位关系、关联关系等方面的因素。

通过对这些因素的分析和比较,可以得到词语之间的语义相似度。

首先,义原是词语的最小语义单位,它可以用来表示词语的基本概念和语义特征。

在计算语义相似度时,可以通过比较两个词语的义原路径,来判断它们之间的语义距离。

如果两个词语的义原路径越短,说明它们的语义相似度越高。

其次,同义词和反义词是常见的词语关系类型。

同义词在语义上具有相似的意义,而反义词则表示相反的意义。

在计算语义相似度时,可以通过比较两个词语的同义词和反义词集合,来确定它们之间的语义关系。

如果两个词语的同义词集合越大,反义词集合越小,说明它们的语义相似度越高。

此外,上下位关系也是汉语词语之间常见的语义关系。

上下位关系表示一个词语是另一个词语的具体概念或者泛化概念。

在计算语义相似度时,可以通过比较两个词语的上位词和下位词集合,来确定它们之间的语义关系。

如果两个词语的上位词集合越相似,下位词集合越相似,说明它们的语义相似度越高。

最后,关联关系也是影响词语语义相似度的重要因素。

关联关系表示词语之间的联系和关联,例如因果关系、同类关系、反义关系等。

在计算语义相似度时,可以通过比较两个词语的关联关系,来判断它们之间的语义关系。

如果两个词语的关联关系越紧密,说明它们的语义相似度越高。

综上所述,基于语义构词的汉语词语语义相似度计算是一种有效的方法。

通过分析词语的义原、同义词与反义词、上下位关系和关联关系,可以准确计算词语之间的语义相似度。

这种方法不仅可以用于词语的语义推测和语义匹配,还可以应用于文本的语义理解和信息检索等相关任务。

语义检索中的词语相似度计算研究

语义检索中的词语相似度计算研究

Ab ta t W o d smiaiy c mp t g i r c a u s o n i f r t n p o e sn e h o o y I man y r s a c e a i d o t o sr c : r i lr t o u i sac u i l e t n i n o mai r c s i g tc n l g . t n q i o i l e e r h swh t n fme d k h t ac lt rc mp et e smi rt ewe n t r s Th r i lr ̄ c mp t gc nb o sd rdfo b o dap c n aT W o c l u ae o o r h a i l i b t e wo wo d a y ewod smi i o ui a ec n iee r m ra s eta dn lO a n
h g f ce c . i he i i n y
Ke r :  ̄ h me;s ma tcr t e a ;s l t y wo ds mo e e n i e r v l i  ̄ y;On o o y i i m tlg
0 引 言
词语相似度计算是研究用什么样 的方法来计算或
Re e r h o o d S m ia iy Co p i g i e a i tiv l s a c fW r i lrt m utn n S m ntc Re re a
RA N i S Je, UN Yu
( ntueo fr t n Yu n n N r l n e i , n n 5 0 2 C i ) Is tt f n oma o , n a oma U i r t Ku mig6 0 9 , hn i I i v sy a

gensim计算词语相似度原理

gensim计算词语相似度原理

gensim计算词语相似度原理
gensim的词语相似度计算,是基于潜在语义分析(Latent Semantic Analysis, LSA)的原理来实现的。

基本原理是,将词语映射到多维空间中,然后计算每个词语之间的相似度。

gensim的LSA算法,采用TF-IDF模型,将文档中出现的单词映射到潜在的多维空间中。

TF-IDF模型是一种用来评价某一语料库中某一文档对该语料库中其他文档的重要程度的指标。

它由两部分组成:
1、Term Frequency(TF): 即词频,是指某一个词在文档中出现的频率。

2、Inverse Document Frequency(IDF): 即逆文档频率,是指在语料库中,一个词在一个或多个文档中出现的概率,也就是该词在文档中出现的频率越高,就越不重要;而文档中出现的频率越低,就越重要。

使用TF-IDF模型将单词映射到一个n维空间后,每个单词都可以看做是一个n维矢量,那么两个单词的相似度,就可以用他们之间空间距离来衡量,比如余弦相似度:
cos(vectorA, vectorB) = vectorA · vectorB / (||vectorA|| * ||vectorB||)
即两个词语的相似度为他们的空间向量相乘再除以他们的向量
长度的乘积。

通过以上方法,gensim可以计算出文档中不同单词之间的相似
度,从而推断出文档等同语句的内容。

词语相似度计算方法

词语相似度计算方法

词语相似度计算方法分析崔韬世麦范金桂林理工大学广西 541004摘要:词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。

词语相似度计算在理论研究和实际应用中具有重要意义。

本文对词语相似度进行总结,分别阐述了基于大规模语料库的词语相似度计算方法和基于本体的词语相似度计算方法,重点对后者进行详细分析。

最后对两类方法进行简单对比,指出各自优缺点。

关键词:词语相似度;语料库;本体0 引言词语相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性。

词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用,它是一个基础研究课题,正在为越来越多的研究人员所关注。

笔者对词语相似度计算的应用背景、研究成果进行了归纳和总结,包括每种策略的基本思想、依赖的工具和主要的方法等,以供自然语言处理、智能检索、文本聚类、文本分类、数据挖掘、信息提取、自动应答、词义排歧和机器翻译等领域的研究人员参考和应用。

词语相似度计算的应用主要有以下几点:(1) 在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度。

(2) 在信息检索中,相似度更多的是反映文本与用户查询在意义上的符合程度。

(3) 在多文档文摘系统中,相似度可以反映出局部主题信息的拟合程度。

(4) 在自动应答系统领域,相似度的计算主要体现在计算用户问句和领域文本内容的相似度上。

(5) 在文本分类研究中,相似度可以反映文本与给定的分类体系中某类别的相关程度。

(6) 相似度计算是文本聚类的基础,通过相似度计算,把文档集合按照文档间的相似度大小分成更小的文本簇。

1 基于语料库的词语相似度计算方法基于统计方法计算词语相似度通常是利用词语的相关性来计算词语的相似度。

其理论假设凡是语义相近的词,它们的上下文也应该相似。

因此统计的方法对于两个词的相似度算建立在计算它们的相关词向量相似度基础上。

词汇语义相似度算法研究及应用

词汇语义相似度算法研究及应用

词汇语义相似度算法研究及应用摘要:介绍了当前国内外有关词汇语义相似度算法的研究现状,分析并对比了几种具有代表性的计算方法,并将几种常用的词汇语义相似度算法应用于FAQ中,分别采用准确率、召回率、F值以及MRR、MAP5个指标进行评价,根据相似问句的检索效果判断各词语相似度算法的优劣。

关键词:语义相似度;FAQ;VSM;HowNet0 引言词汇的语义相似度在自然语言处理领域有着不可替代的意义和作用。

然而词汇之间的语义关系是非常复杂的,使用一个简单的数值很难来度量词汇之间含义的相似程度。

同样的一对词语,在一方面看可能非常相似,但是换个角度就可能相差甚远。

所以,研究词语语义相似度离不开具体的应用背景,例如,在机器翻译应用中,词汇语义相似度用来衡量中文和英文文本中,中文单词与中文词语之间是否可替换;而在信息检索中,词汇语义相似度要体现用户查询所使用的关键词与用户实际查询目的在语义上是否一致。

1 词语相似度研究现状词语相似度主要分为基于语义本体资源、基于统计算法和将前两者融合的混合技术3种方法:利用语义资源计算词语相似度也可称为基于本体(或知识库)的词语相似度算法,主要根据专家人工建立的语义网络计算相似度。

利用统计技术计算词语间语义相似度采用的是无监督的机器学习算法,分为基于大规模语料库和基于普通词典等方法。

混合技术则结合统计技术和语义资源,取长补短,提高相似度计算的正确率。

1.1 基于语义资源的词语相似度算法近年来,一些诸如同义词词林、WordNet、知网这种大规模可量化的语言本体的诞生与发展,为进行真实文本的语义分析和理解提供了强有力的资源支持。

特别是最近几年“知网”等语义资源不断丰富发展,中文语义研究方向逐渐增多。

知网作为一个知识系统,是一个网而不是树,它主要反映概念的共性和个性,同时知网还着力反映概念之间和概念属性之间的各种关系。

而词语DEF之间的路径距离则代表了词汇语义的聚合程度。

1.2 基于统计的语义相似度算法基于统计的语义相似度方法建立在如果两个词语的含义相同或相近,则伴随它们同时出现的上下文也相同或相近。

词语相似度计算方法

词语相似度计算方法

词语相似度计算方法分析崔韬世麦范金桂林理工大学广西 541004摘要:词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。

词语相似度计算在理论研究和实际应用中具有重要意义。

本文对词语相似度进行总结,分别阐述了基于大规模语料库的词语相似度计算方法和基于本体的词语相似度计算方法,重点对后者进行详细分析。

最后对两类方法进行简单对比,指出各自优缺点。

关键词:词语相似度;语料库;本体0 引言词语相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性。

词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用,它是一个基础研究课题,正在为越来越多的研究人员所关注。

笔者对词语相似度计算的应用背景、研究成果进行了归纳和总结,包括每种策略的基本思想、依赖的工具和主要的方法等,以供自然语言处理、智能检索、文本聚类、文本分类、数据挖掘、信息提取、自动应答、词义排歧和机器翻译等领域的研究人员参考和应用。

词语相似度计算的应用主要有以下几点:(1) 在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度。

(2) 在信息检索中,相似度更多的是反映文本与用户查询在意义上的符合程度。

(3) 在多文档文摘系统中,相似度可以反映出局部主题信息的拟合程度。

(4) 在自动应答系统领域,相似度的计算主要体现在计算用户问句和领域文本内容的相似度上。

(5) 在文本分类研究中,相似度可以反映文本与给定的分类体系中某类别的相关程度。

(6) 相似度计算是文本聚类的基础,通过相似度计算,把文档集合按照文档间的相似度大小分成更小的文本簇。

1 基于语料库的词语相似度计算方法基于统计方法计算词语相似度通常是利用词语的相关性来计算词语的相似度。

其理论假设凡是语义相近的词,它们的上下文也应该相似。

因此统计的方法对于两个词的相似度算建立在计算它们的相关词向量相似度基础上。

汉语词语相似度计算方法分析

汉语词语相似度计算方法分析

汉语词语相似度计算方法分析汉语词语相似度计算方法分析随着人工智能的发展,自然语言处理技术的应用越来越广泛。

在自然语言处理中,汉语词语相似度计算是一个非常重要的技术。

汉语词语相似度计算可以用于文本相似度计算、信息检索等方面。

本文将介绍汉语词语相似度计算的常用方法及其优缺点,并对未来研究方向进行探讨。

一、基于词语相似度计算的方法1. 基于语义关联度的方法这种方法是根据单词的语义,计算两个词的相似度。

最常用的方法是基于词向量模型,如Word2Vec和GloVe。

Word2Vec是由Google开发的一种词汇嵌入模型,通过训练神经网络,实现将汉语中的词映射到一个高维空间中的低维空间中。

这个低维空间中有许多相似的词语靠的很近,而不相关的词语则距离较远。

GloVe也是一种词向量模型,可以通过计算共现矩阵,获取单词的向量表示。

2. 基于字形编码的方法这种方法是将汉字进行编码,然后计算两个词之间的相似度。

最常用的方法是基于编辑距离或汉明距离的方法。

编辑距离是指两个字符串从一个变为另一个所需的最少单字符编辑,包括插入、删除和替换。

汉明距离是指两个二进制序列在相同位置上不同的比特数。

这种方法优点是计算速度快,但缺点是不考虑语义关系。

3. 基于本体的方法这种方法是基于语义网络来计算两个词的相似度。

本体是一种广泛使用的语义标记方法,它描述了一组实体以及它们之间的关系。

通过将词汇与本体联系起来,可以获取词汇之间的语义关系。

本体可基于WordNet,共享本体或其他本体。

4. 基于语言模型的方法这种方法是基于词序列的概率模型计算两个单词之间的相似度。

最常用的是n-gram模型,其中n指模型中单词序列的长度。

n-gram模型可以通过计算两个单词序列的Jaccard相似度来计算单词相似度。

Jaccard相似度是通过计算词汇重叠度来度量两个集合的相似度。

二、各种方法的优劣分析1. 基于语义关联度的方法:优点:可以准确地计算语义相关性,并且对同义词、词形变化、多义词等有很好的处理能力,这是其他方法无法匹敌的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
— 105 —
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
! 信息系统 #
ITA
语方面 , 有 《知网 》 ( HowNet) [12 ] 、《同义词词林 》[13 ] 、 《中文概念词典 》 (CCD ) [5 ]等 。
FrameNet[10, 1提 出的框架语义学 ( Frame Semantics) 理论 。该理论的核心 思想是人们对词义的理解需要建立在对认知域 , 也就是框 架 ( Frame) 的理解的基础上 。因此 , 框架是组织词汇语 义知识的基 本 手 段 , 一 个 框 架 中 包 含 了 若 干 框 架 元 素 ( Frame Element) 。
Keywords: word sim ilarity; semantic lexicon; corpus
词语相似度计算研究的是用什么样的方法来计算或比 较两个词语的相似性 。词语相似度计算在自然语言处理 、 智能检索 、文本聚类 、文本分类 、自动应答 、词义排歧和 机器翻译等领域都有广泛的应用 , 它是一个基础研究课 题 , 正在为越来越多的研究人员所关注 [124 ] 。笔者对词语 相似度计算的应用背景 、研究成果进行了归纳和总结 , 包 括每种策略的基本思想 、依赖的工具和主要的方法等 , 以 供自然语言处理 、智能检索 、文本聚类 、文本分类 、数据 挖掘 、信息提取 、自动应答 、词义排歧和机器翻译等领域 的研究人员参考和应用 。
2) 利用大规模的语料库进行统计 , 这种基于统计的 方法主要将上下文信息的概率分布作为词汇语义相似度的 参照依据 [728 ] 。 211 基于语义词典的词语相似度计算 21111 基于语义词典的词语相似度计算的基本思想 基于 语义词典的词语相似度计算方法是一种基于语言学和人工 智能的理性主义方法 , 它利用语义词典 , 依据概念之间的 上下位关系和同义关系 , 通过计算两个概念在树状概念层 次体系中的距离来得到词语间的相似度 。基于概念词典的 方法建立在两个词汇具有一定的语义相关性 , 当且仅当它 们在概念间的结构层次网络图中存在一条通路这样的假设 的基础上 。这种方法直观 、简单有效且易于理解 , 但是它 依赖于比较完备的按照概念间结构层次关系组织的大型语 义词典 , 受人的主观影响比较大 , 有时不能反映客观现实 。 21112 常用的语义词典 大规模的语义计算资源是基于 词典的词语相似度计算方法的基础 , 在英文方面 , 具有代 表性的有 W ordN et[9 ] , Fram eN et[10 ] , M indN et[11 ]等 ; 在汉
WordNet是一个联机英语词汇检索系统 [14 ] , 由 Prince2 ton大学研制 。它作为语言学本体库 , 同时又是一部语义词 典 , 在自然语言处理研究方面应用很广 。它采用语义网络 作为其词汇本体的基本表示形式 。在 WordNet中 , 网络节 点由字形 ( Wordform ) 标识 , 分为名词 、动词 、形容词 、 副词和 功 能 词 等 5 种 。节 点 之 间 的 关 系 分 为 同 义 关 系 ( Synonymy) 、反义关系 (Antonymy) 、继承关系 ( Hypony2 my) 、部分 /整体关系 (Meronymy) 、形态关系 (Morpholog2 ical relation) 等 。WordNet提供了很好的概念层次结构 。
关键词 : 词语相似度 ; 语义词典 ; 语料库
Abstract: Word sim ilarity measurement is a basic research top ic in the fields of nature language p rocessing, intelligent retrieval, document clustering, document classification, automatic question answer, word sense disam2 biguation, machine translation, etc. This paper firstly discusses the background of the app lication of word sim ilari2 ty measurement, then two strategies of word sim ilarity measurement are summarized, including their ideas, tools and main methods. Finally, the two strategies are compared.
·情报理论与实践 ·
2 词语相似度计算方法
国内外对 词 语 相 似 度 计 算 的 研 究 策 略 大 体 可 分 为 两类 :
1) 根据某种世界知识 (如 Ontology) 来计算 [526 ] , 主 要是基于按照概念间结构层次关系组织的语义词典的方 法 , 根据在这类语言学资源中概念之间的上下位关系和同 位关系来计算词语的相似度 。
M indNet[11, 16 ]与其他语义知识工程最大的不同在于它 的构建方式 。M indNet是利用微软功能强大的句法分析器 ( Parser) 自 动 分 析 词 典 释 义 (Definition) 文 本 得 到 的 。 M indNet中预设了 24 种关系 , 句法分析器对词典中的释义 文本 进 行 分 析 , 即 可 得 到 词 语 之 间 的 各 种 语 义 关 系 , M indNet的自动抽取的词语语义关系效果比较好 。
在汉语词语相似度计算研究方面 , 王斌采用树形图中 节点之间路径的方法 [23 ] , 利用 《同义词词林 》来计算汉语 词语之间的相似度 。刘群等人提出一种基于 《知网 》的词 汇语义相似度计算方法 [6 ] 。该方法在计算两个概念的语义 表达式之间的相似度时 , 采用了 “整体的相似度等于部分 相似度加权平均 ”的做法 。对于两个义原的相似度 , 采用 根据上下位关系得到语义距离并进行转换的方法 。L. Su2 jian等人提出了一种综合利用了 《知网 》和 《同义词词 林 》来计算汉语词语语义相似度的方法 [24 ] 。在义原相似度 的计算过程中 , 不仅考虑了义原之间的上下文关系 , 还考 虑了义原之间的其他关系 。在计算词语相似度时 , 加权合 并了 《同义词词林 》的词义相似度 、《知网 》语义表达式 的义原相似度和义原关联度 。在这种算法中 , 《同义词词 林 》和 《知网 》采用了完全不同的语义体系和表达方式 , 词表也相差较大 , 把它们合并计算的合理性值得怀疑 。
Agirre和 R igau在利用 WordNet计算英文词语的语义 相似度时 , 除了节点间的路径长度外 , 还考虑到了其他一 些因素 , 例如 , 概念层次树的深度 , 概念层次树的区域密 度等 [22 ] 。由于 WordNet中概念描述的粗细程度不均匀 , 有些区域概念的描述极其详尽 , 而有些区域的概念描述又 比较粗疏 , 所以加入了概念层次树区域密度对语义距离的 影响 。
《同义词词林 》[13 ]收录词语近 7万 , 全部按意义进行 编排 , 是一部义类词典 。它分类采用层级体系 , 把词语分 为 12个大类 , 大类下有中类 , 中类下有小类 , 共 94个中 类 , 1 428个小类 , 小类下再划分词群 。《知网 》是在 因 特网上发布的一个汉英双语资源 , 它着力描述了概念与概 念之间以及概念所有的特性之间的关系 , 这些关系都隐含 在 《知网 》知识词典和义原的特征文件中 [17218 ] 。义原在 《知网 》中是个重要的概念 , 它是从所有汉语词中提炼出 可以用来描述其他词汇的不可再分的基本元素 。 21113 基于语义词典的词语相似度计算方法 大规模语 义词典一般都是将所有的词组织在一棵或几棵树状的层次 结构中 。在一棵树形图中 , 任何两个节点之间有且只有一 条路径 。在计算词语的相似度的时候 , 这条路径的长度就 可以作为这两个概念的语义距离的一种度量 。
ITA
! 信息系统 #
●秦春秀 , 赵捧未 , 刘怀亮 (西安电子科技大学 经济管理学院 , 陕西 西安 710071)
词语相似度计算研究
摘 要 : 词语相似度计算是自然语言处理 、智能检索 、文档聚类 、文档分类 、自动应答 、词义排歧和 机器翻译等很多领域的基础研究课题 。本文首先讨论了词语相似度计算的应用背景 , 然后总结了词语相似 度计算的两类策略 , 包括每类策略的思想 、依赖的工具和主要的方法 , 并对这两类策略进行了简单的 比较 。
另外 , 有的研究者采用向量空间理论基于语义词典对 词语的相似度进行定量研究 。最近 , 荀恩东等人提出一种 基于 WordNet的计算英文词语相似度的实现方法 [25 ] , 从 W o rdN e t中提取同义词并采取向量空间方法计算英语词语 的相似度 , 他们构建的向量包括 WordNet的同义词词集 ( Synset) , 类属信息 (Class) 和意义解释 ( Sense Exp lana2 tion) 三方面 , 该方法是一个可行的方法 , 但其性能尚待 进一步验证 。 212 基于统计的词语相似度计算 21211 基于统计的词语相似度计算的基本思想 基于统 计的词语语义相似度计算方法是一种经验主义方法 , 它把 词语相似度的研究建立在可观察的语言事实上 , 而不仅仅 依赖于语言学家的直觉 。它是建立在两个词语语义相似当 且仅当它们处于相似的上下文环境中这一假设的基础上 。 它利用大规模语料库 , 将词语的上下文信息作为语义相似 度计算的参照依据 [9 ] 。基于统计的定量分析方法能够对 词汇间的语义相似性进行比较精确和有效的度量 , 但这种
— 106 —
R. Rada和 J. H. Lee等人就是通过计算在 WordNet 中词节点之间上下位关系构成的最短路径来计算英文词语 之间的相似 度 的 [19220 ] 。有 些 研 究 者 考 虑 的 情 况 更 复 杂 。 P. Resnik 根据两个词的公共祖先节点的最大信息量来衡 量两个英文词语的语义相似度 [21 ] 。
相关文档
最新文档