一种基于知网语义相似度计算的应用研究
一种改进的基于知网的句子相似度计算方法

主观题 自动 批 改 是 在线 考 试 系 统 中 的关 键 技术 。
由于 主观题 的答 题 特 点呈 现 出复 杂性 , 目前 还 没 有 一 种考试 系统 能较好 地完 成 自动批改 。主观题 的 自动 批
结合 的方 法等 J 。该方 法仅 从 句子 的表 层 结构 信 息
进行 匹 配而忽 略 了语句 语义分 析 , 在局 限 性 , 响 了 存 影 自动批改 的准 确度 。因此文 中提 出 了一 种新 的基 于 知
An I p o e n e e S m ia iy Ca c l to M eho s d o o nn t d Ba e n H w- t
L n k i XU a la g IYi g a , Xio in
( col f o p t c n e aghuD az U i rt,H nzo 10 8 h a Sho o m ue Si c ,H nzo i i n e i C r e n v sy aghu30 1 ,C i ) n
Ab ta t I r e o o ec me t ee t fifr ain r d nd n y i tree c d lcl o tmu o e — sr c n o d rt v r o he d fcs o nom t e u a c nefr n e a o a p i m fs n o n tn e smia t ac lto a e n lxc li m , t i p p rp o o e e s n e c i lrt ac lto t o e c i lr y c uain b sd o e ia t i l e hs a e rp s sa n w e tn e smi i c luain meh d a y
基于知网的词语语义相关度计算

摘 要 :现有的词语语义相关度算法大多单纯依赖于语义相似度算 法,没有充分利用词语 间的
语义 关 系,导致其存 在局 限。在充 分挖 掘 词语 间 的隐含 语 义关 系基 础 上 ,将 语 义关 系应 用 于语 义关联 度的计 算 ,最终将语 义相 似度 以及语 义关 联度 结合 起 来 ,提 出 了语 义相 关度 算 法。 实验 结果表 明 ,使 用该计 算方法得 出的语义相 关度更加 合理 ,符合人 的 直观感 觉 。 关键词 :知 网 ;语义 相关度 ;语义关 系
(do lf o ue , h n q gU i r t,Ql gig4O4 , hn ) S lo o mptr c og i n esy C n v i 0 q 04 C i n n 0 a
Ab t a t T e u rn loi ms f s ma t r lv n y a e amo t ae o te lo i ms o e n i sr c : h c re t ag rt o e n i ee a c r l s b s d n h ag r h f s ma t h c t c
词语相 关度 反 映 了两个 词语 互相 关 联 的程 度 , 即词语之 间 的组 合特 点 , 可 以用 这 两个 词语 在 同 它
一
网义原纵向与横向关系及实例信息来计算不同词性 的词语 之间 的语 义相关 度 。但是 知 网中只有部 分义 原具有解释义原 , 并且标注的实例信息十分有限, 因 此算法存在 很大 的局限 性 。 J 值得注意的是 由于语义相关度包含了语义相似 度的概念 , 以语 义相 似 度算 法 对语 义 相关 度算 法 所
s l i i l .A d te o ’ a e t e mo to e sma t eain ew e od .S t rs h n i ats mi r y mp y n h y d n tm k s f t e n i rlt s b t e n w r s o I eu s i h h c o l i t n o e e ag r h .T i p p rmie e i l d s ma t eain ew e od ,a p ist ee i t i ft s loi ms hs a e n s t m ao h t h mp i e n c r lt s b t e n w r s p l s e i o e h rlt n e c mp tt n o e n i so it i ,a d p p ss a n w ag r h o ma t ee a c n ea o s t t o uai f ma t a sca i t i oh o s c v y n r o e loi m f o e t e s ni r v nyo c l h ai f i a t adasc i t te b sso m l i n so it i .T ee p r na s l h w t a te ms h r o es t f tr d s i ry a vy h x ei t r u t s o t h u sae m r a s coy a me l e s h ia n
汉语词语语义相似度计算研究

文 识码:A 献标
中圈 分类号: P9 T 31
汉语 词语 语 义相似 度 计 算研 究
夏 天
( 国人民大学信息资源 管理 学院,北京 10 7 ) 中 82 0
摘 要 :汉语词语 的语义相似度计算是 中文信 息处理 中的一个关键问题 。该文 提出了一种基于知 网、面向语义、可扩展的相似度计算新方
[ e od iWod m l i ; o n ; o cp; e e e K y r s rs i i r y H w  ̄ C n etS m m w s at
汉语词汇相似度计 算在 自动问答、情 报检 索、文本聚类 等应用 中都是一个非常关键的问题” J 。针对这一问题 ,人们
smia iy c mpu a i n wh c s b s d o wn t e r d t e n i n o l e e p n e .T e n w t o e n s a s mi rt omp tto i lrt o tto ih i a e n Ho e ,g a e o s ma t a d c u d b x a d d h e me d d f e i l i c c h i a y uain f r u a a ng Ho e ’ e e sa c r i g t n o ai n t e r , n s awa u fi u t h tOOV r sc n o a t i a e i e n i o m l mo wn tSs m me c o d n o i f r to o y f d y o t t di c l t a m h i of he y wo d a n tp ri p t n s ma t c c
t e s m a t e e mo g a b ta y wo d n l . p r e t lr s l o LI i d c t s t a c u a y r t f t e n w e h d sne ry 1 % h e n i l v la n ir r r s n ia e h tt a c r c a e o h e m t o i a l c r i y m he 5 h g e a e e to e . i h rt npr s n n s h
基于知网的词汇语义相似度计算1

我们的工作主要包括: 1. 研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义 原之间的关系,区分其在词语相似度计算中所起的作用;我们采用一种更
1 *
+
本项研究受国家重点基础研究计划(973)支持,项目编号是 G1998030507-4 和 G1998030510。 北京大学计算语言学研究所 & 中国科学院计算技术研究所 E-mail: liuqun@ Institute of Computational Linguistics, Peking University & Institute of Computing Technology, Chinese Academy of Science 中国科学院计算技术研究所 E-mail: lisujian@ Institute of Computing Technology, Chinese Academy of Sciences
基于《知网》的词汇语义相似度计算1 Word Similarity Computing Based on How-net
刘群* ﹑李素建+
Qun LIU , Sujian LI
摘要
词义相似度计算在很多领域中都有广泛的应用,例如信息检索、信息抽取、文 本分类、词义排歧、基于实例的机器翻译等等。词义相似度计算的两种基本方 法是基于世界知识(Ontology)或某种分类体系(Taxonomy)的方法和基于统 计的上下文向量空间模型方法。这两种方法各有优缺点。 《知网》是一部比较详尽的语义知识词典,受到了人们普遍的重视。不过,由 于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语 相似度的计算带来了麻烦。这一点与 WordNet 和《同义词词林》不同。在 WordNet 和《同义词词林》中,所有同类的语义项(WordNet 的 synset 或《同 义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算 树状结构中相应结点的距离即可。而在《知网》中词汇语义相似度的计算存在 以下问题: 1. 2. 每一个词的语义描述由多个义原组成; 词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通 过一种专门的知识描述的词汇语义相似度计算
基于《知网》的词语语义相似度改进及应用

方 法 。 中词 语 间 相似 度 的计 算 , 要 是 基 于按 照 词 语 问结 构 层 点 的最 短 路 径 的 长度 一 言 学 研究 认 为 . 个 义 原 的语 义距 离 越 文 主 语 两 次 关 系组 织 的 语 义词 典 的方 法 .根 据 在 这类 语言 学 资 源 中词 语 大 , 相 似 度越 低 : 之 , 其 反 两个 词 语 的 语 义 距 离越 小 , 其相 似 度 越
描 述 词 语 的最 基本 单 位 .另一 方 面 .义 原 之 间 又存 在 复 杂 的关 系 。 《 网》 , 在 知 中 一共 描 述 了义 原 之 间 的 8 关 系 : 下 位 关 系 、 种 上 同义 关 系 、 义 关 系 、 义关 系 、 性 一 主 关 系 、 件 一 体 关 反 对 属 宿 部 整 系 、 料一 品 关 系 、 材 成 事件 一 色关 系 。 以看 出 , 原之 问组 成 的 角 可 义 是 一个 复 杂 的 网状 结 构 。 而不 是 一 个 单 纯 的 树状 结 构 。不 过 , 义
1 词语 语 义 相似 度 的 计算 、 设 L 为义 原 P在 词 语 树 中 的深 度 , 距 离 初 始 阈 值 , l Y为 x为 与传 统 的 语义 词 典不 同 ,知 网》 采 用 了 l0 《 5 0多 个 义 原 , 通 满 足 不 等 式 ia ( ) y n x L < / 立 的 一 个 正 实 数 , p 与 其 父 结 点 x成 则 i 过 一 种 知识 描 述 语 言来 对 每个 词 语 进 行 描 述 义原 一方 面作 为 的 距离 定 义 为 :
目前 , 于 语 义相 似 度 的 计 算 主要 分 为两 种 : ) 语 信 息 量 对 1词
从 语 距 离法 . 计 算 两 词 语 的 语 义 距 离 . 后 转 化为 语 义相 似 度 。 转 换 为 相似 度值 , 而 计 算 词语 词 语 的 相 似度 。 先 然 本 文在 研 究 了大 量 文 献后 .提 出 了综 合 利 用 现 代 汉 语 语义 分类 12 1义 原 距 离 .. 词典 的类 层次 关 系 中 的多 种影 响 因素 来 计 算 词 语 问 的相 似 度 的 两 个 义 原之 间的 语 义距 离 .是 指 在义 原树 中连 接这 两个 节
基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算
《知网》是一个中文语料库,可以用来进行文本语义相似度计算。
常
见的基于《知网》的词汇语义相似度计算方法有:
1.基于《知网》的同义词词林:《知网》中的同义词词林收录了大量
的同义词、近义词和相关词,可以通过比较两个词在同义词词林中的位置,来衡量它们的语义相似度。
比如,可以通过比较两个词在同一类和同一级
别下的位置,来判断它们的相似度。
2.基于《知网》的词语标注:《知网》中的词语标注包括词义分类和
关系标注等信息,可以通过比较两个词的词义分类和关系标注信息,来衡
量它们的语义相似度。
3.基于《知网》的词语关联度计算:可以通过计算两个词在《知网》
中的关联度来判断它们的语义相似度。
常用的方法有基于路径的关联度计
算和基于信息内容的关联度计算。
这些方法都是基于《知网》的语料库信息进行计算的,可以根据具体
需求选择适合的方法进行词汇语义相似度计算。
一种基于《知网》的文本语义相似度的计算方法
造成 了文本 向量 的表 示 空 间难 以有 效 地 降维 。2 ) 由于不 同的文 本 可 能采 用 不 同 的词 汇 来 表 示 相 同
概念 , “ 一对 一” 的匹 配方法 在处 理 时就 显得 无 能 为 力 了¨ 6 ] 。特别 是 同义词 和 近义 词不 能 识别 , 造 成 了 聚类 的误 差 。例 如 : 文本 1 : 土 豆 盛 产 于 中 国 。文
总第 2 9 2期 2 0 1 4年第 2期
计算 机与数字工程
Co mp u t e r&. Di g i t a l En g i n e e r i n g
Vo 1 . 4 2 No . 2
1 87
一ห้องสมุดไป่ตู้
种 基 于 知 网 的 文本 语 义 相 似 度 的计 算 方 法
孙 滨 刘 林
4 5 1 1 0 0 ) ( 郑州华信学 院信息工程 系 郑州
摘
要
论文提 出一个基于语义 的文本 问的相似度算法 , 以文本 的特征词 相似度为基础 , 来计算文本 间的相似度 , 利用
聚类算法对文本簇进行 聚类 。实验结果证 明基于知 网的文本语义相似度方法在对文本相似度计算 以及文本 聚类方面 , 能有 效提 高聚类 的效果 。 关键 词 文本 聚类 ; 义原相似度 ; 语义相似度
Ab s t r a c t A s i mi l a r i t y a l g o r i t h m b a s e d o n s e ma n t i c s i mi l a r i t y i s p r o p o s e d ,wh i c h c a l c u l a t e s t h e s i mi l a r i t y o f t e x t s a c — c o r d i n g t O f e a t u r e wo r d s o f t h e t e x t a n d ma k e s t e x t c l u s t e r s b y e mp l o y i n g c l u s t e r i n g a l g o r i t h m. Th e e x p e r i me n t a l r e s u l t s p r o v e t h a t t h e me t h o d o f t e x t s e ma n t i c s i mi l a r i t y b a s e d o n CNKI i S v e r y e f f i c i e n t i n t e x t s i mi l a r i t y c a l c u l a t i o n a n d t e x t c l u s t e — r i n g ,wh i c h c a n e f f e c t i v e l y i mp r o v e t h e e f f e c t o f c l u s t e r i n g . K e y Wo r d s t e x t c l u s t e r i n g ,p r i mi t i v e s i mi l a r i t y,s e ma n t i c s i mi l a r i t y Cl a s s Nu mb e r TP 3 9 】
使用网络搜索引擎计算汉语词汇的语义相似度
使用网络搜索引擎计算汉语词汇的语义相似度高国强;黄吕威;陈丰钰【摘要】Similarity computation of Chinese words is a key problem in Chinese information processing. It measures semantic similarity between Chinese words using the information returned by web search engines. First,implement a model named WebPMI which computes similarity using page counts,and then,describe another model named CODC which analyzes semantic similarity using text snippets. Final-ly,present the algorithm based on the two models. Experimental results show that this algorithm outperforms all the existing web-based semantic similarity measures for Chinese,and is close to the traditional semantic similarity measures using lexicon.%汉字词语的语义相似度计算是中文信息处理中的一个关键问题。
文中利用网络搜索引擎提供的信息来计算汉语词对的语义相似性。
首先通过程序访问搜索引擎,获取汉字词汇的搜索结果数,并依此实现了相似度计算模型WebPMI;然后描述了根据查询返回的文本片段进行语义相关性分析的模型CODC;最后,结合这个两个模型,给出了文中算法的伪代码。
一种改进的本体语义相似度计算及其应用
一种改进的本体语义相似度计算及其应用随着信息技术的发展和应用场景的增加,语义相似度计算变得越来越重要。
语义相似度计算可以用于自然语言处理、信息检索、机器翻译和智能问答等领域。
本文介绍一种改进的本体语义相似度计算方法,并阐述其在应用中的重要性和优势。
本体语义相似度计算方法是基于本体领域知识的语义相似度计算方法。
本体是一种用于描述和组织领域知识的形式化表示。
本体中定义了概念、属性、关系等元素,可以用于知识管理、语义分析和本体推理等应用。
本体语义相似度计算方法利用本体中定义的概念和关系来计算两个概念之间的相似度。
传统的本体语义相似度计算方法主要是基于本体结构以及语义相似度算法(如路径相似度、信息内容量等)来计算相似度。
但是,这些方法忽略了概念在不同语境下的语义变化和词语嵌入(词向量)的信息。
为了解决这些问题,我们提出了一种改进的本体语义相似度计算方法。
该方法的核心思想是综合考虑结构、语境和词向量等多种信息。
具体来说,该方法将词语嵌入与本体结构和语境信息相结合,构建了一个基于词向量的本体语义相似度计算模型。
该模型分为三个部分:(1)本体结构特征提取;(2)语境信息特征提取;(3)词向量相似度计算。
在本体结构特征提取中,我们利用从知网获取的概念之间的ISA关系和Part-Whole关系,构建了一个树形结构表示本体。
通过遍历该树形结构,提取出每个概念的特征向量。
在语境信息特征提取中,我们利用WordNet中的同义词和反义词关系,以及概念在本体中的上下文信息,对每个概念进行特征提取。
在词向量相似度计算中,我们使用了word2vec算法生成的词向量,并使用余弦相似度计算两个概念之间的词向量相似度。
该方法有以下优势:首先,它综合考虑了多种信息,包括本体结构、语境和词向量等,可以更加准确地计算两个概念之间的相似度;其次,该方法能够自动学习概念的语义特征,更加符合人类的语义感知;最后,该方法扩展性好,能够应用于不同领域的本体语义相似度计算。
基于《知网》义原空间文本相似度计算研究与实现
基于《知网》义原空间的文本相似度计算研究与实现重庆大学硕士学位论文(学术学位)学生姓名:张*指导老师:罗军副教授专业:计算机系统结构学科门类:工学重庆大学计算机学院二〇一三年四月Research and Implementation of Text Similarity Computing Based on HowNetSememe SpaceA Thesis Submitted to Chongqing Universityin Partial Fulfillment of the Requirement for theMaster‟s Degree of EngineeringByZhang KeSupervised by Associate Prof. Luo JunSpecialty: Computer System ArchitectureCollege of Computer Science ofChongqing University, Chongqing, ChinaApril 2013重庆大学硕士学位论文中文摘要摘要文本相似度计算是知识产权保护、文本分类、机器翻译、自然语言处理、复制检测、自动问答和信息检索等领域的核心技术。
现有的文本相似度计算方法大致可以归纳为两类,第一类是基于文本特征统计的方法,第二类则是基于文本语义理解的方法。
基于文本特征统计的方法在长文本等大粒度实体的相似度计算方面取得了较好的效果,其中最具代表性的就是向量空间模型(Vector Space Model,简称VSM)和广义向量空间模型(General Vector Space Model,简称GVSM)。
G V S M在VSM的基础上利用文本特征项的共现信息,对VSM模型中特征项正交的假设进行了改进。
基于语义理解的方法,通常以某种知识库作为依据实现词语之间或者句子之间相似度的计算。
基于统计的方法简单高效,但是缺乏语义,无法处理自然语言中“一词多义”和“一义多词”的情况。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 系统框架及其分析
本文设计了以 FAQ 为核心部分的问答系统 QuickFaq。系统框架结构图如下:
输入问句 输出答案
问句分词模块 问句分词 词性标注 FAQ
候选问题集 相似问题检索 相似度计算 FAQ 库更新
关键词抽取 与扩展
图 1 QuickFaq 系统框架
基问句分词模块主要对汉语问句进行分词处理并进行词性标注,本文采用中科院的 ICTCLAS 词法分析方法,分词系统,并在其开源代码版本基础上根据本系统的实际需要进 行改进和扩充。关键词扩展主要是进行同义词扩展(如内存与主存),以提高检索质量。
关键词: Hownet;问句相似度;常见问题集;语义相似度
中图分类号:TP393
文献标识码:A
An application research based on computing of semantic similarities of HowNet
Xu Meng1+ ,Liu Zong-tian1,Zhou Wen1
在 QuickFaq 系统运行过程中不断地把新问题及其解决方案添加入 FAQ 库中 ,随着问题
的不断加入 ,必然会使 FAQ 库越来越大,从而降低问题检索和推理的效率 ,因此还需要把 FAQ 库中访问次数特别少的问题从库中删除,只有这样才能使 FAQ 库的内容更加丰富。
3 基于知网的语义相似度计算
1+ (School of Computer Engineering and Science, Shanghai University, Shanghai, 200072)
Abstract: Following the accumulation of FAQ, the number of question sentence increased quickly. The FAQ system hardly satisfied the actual demands of users and wasted a lot of time. The automatic QA system based on FAQ can solve this problem efficiently. We propose QuickFaq automatic QA system based on computing of semantic similarities of HowNet. The system which is proposed can find similar sentence and return answers. Experimental results show that this method improves the recall rate and mismatching rate in QA system.
作者简介: 徐 猛(1983-),男,汉族,硕士,研究方向为信息处理。刘宗田(1946-),男,汉族,博士生导 师,教授,主要研究领域为人工智能和软件工程等。周文(1979-),女,汉族,博士研究生,研究方向为人 工智能,自动文摘等。
息检索、答案抽取等许多复杂的处理过程。在网站答疑,领域问答等应用系统中有较好的应 用。
概念词整体相似度的计算公式如下:
4
∑ Sim(C1, C2 ) = β1Sim1(C1, C2 ) + β1Sim1(C1, C2 ) × βiSimi (C1, C2 ) i=2
其中,βi(1≤i≤4)是可调节的参数,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4。后 者反映了 Sim1 到 Sim4 对于总体相似度所起到的作用依次递减。
基金颁发部门:上海市教委;项目名称:高可信计算与智能信息处理
编号:J50103
基金申请人:刘宗田
基金颁发部门:上海市教委;项目名称:事件本体及其自动文摘技术
编号:shu-07027 基金申请人:周文
一种基于知网语义相似度计算的应用研究∗
徐猛 1+, 刘宗田 1, 周文 1
1+ (上海大学计算机工程与科学学院,上海,200072)
步骤三:
词语相似度计算: 两个汉语词语 W1 和 W2 ,如果 W1 有 m 个概念(义项):c11,c12,…, c1m,W2 有 n 个概念 (义项):c21,c22,…, c2m。取 W1 和 W2 的相似度为各义项的相似度的最大值,公式如下:
Sim(W1,W2 ) = max(sim(c1i , c2 j ))
∗ Supported by two projects of Shanghai Scientific Special Funds for Cultivation and Selection of Excellent Young Teachers (shu-07027), and Shanghai Leading Academic Discipline Project (J50103).本文受上海高校 选拔培养优秀青年教师科研专项基金(shu-07027)和上海市重点学科建设项目(J50103)资助.
候选问题集是从大规模问句集中取出的模糊相关、范围相对较小的子集合,本系统设定 比例为 40%。相似问句检索的目的是使后续的相似度计算等较复杂的过程在候选问题集相 对较小的范围内进行,以提高系统的效率。
相似度计算模块是本文重点设计和优化的部分,就是计算候选问题集中每个问句与输入 问句之间的相似度 ,对应的相似度最大的问句在大于系统指定的阈值 M 时 ,即为要查找的 句子。然后根据该句子对应的答案,从数据库中自动抽取出有关答案作为输出结果返回给用 户。
Key words: Hownet; sentence similarity; FAQ; semantic similarity;
1 引言
常见问题库(FAQ)是很多自动问答系统中的重要组成部分。它把用户常问的问题和相关 答案保存起来。这样,对于用户输入的问题,可以首先在常问问题库中查找答案。如果能够 找到相应的问题,就可以直接将问题所对应的答案返回给用户,而不需要经过问题理解、信
i=1...m,i=1...n
步骤四: 句子相似度计算: 两个句子 A 和 B,句子 A 有 m 个词语分别为:A1,A2…Am,句子 B 有 n 个词语分别为: B1,B2…Bn。它们的相似度等于其组成词汇对的相似度的和,然后将其值除以句子的计算长 度得到两个句子的相似度。公式如下:
m
∑ Sim(A, B) =
得了不错的 FAQ 应用效果。 该系统改进的下一步研究工作: 1) 需要提高系统的不匹配率,加深对问句的语义理解程度。 2) 进一步考虑问句的语义信息,提供的问句再扩展功能,使该系统性能更加完善。
以本文提出的 QuickFaq 系统结构为基础,在环境保护知识问答领域进行了实验验证。
共测试了 378 个有关全球变暖和温室效应方面的问句,其中 252 个问句是包含答案的,余下
的 156 个问句没有作答(用来测试系统的不匹配率)。此外还构造了二百多个与 FAQ 库中问
句语义相似的问句,来测试系统的召回率。根据上述评价方法,且选取了两个不同的相似度
阈值 M 以进行对比,实验结果如下:
表 1 实验结果
相似度阈值 M
召回率
不匹配率
M=0.5
87.3%
77.6%
M=0.6
82.1%
80.1%
实验结果表明,本文的方法取得了不错的效果,提高问句相似度阈值 M 后,不匹配率有 所上升,但召回率的下降幅度有点大。
5 结束语
实验证明本文设计的 QuickFaq 系统框架,在改进并组合了相似度计算模块的方法后,取
本文 QuickFaq 系统中的相似度计算模块分为四个步骤:
义
概
词
句
原
念
语
子
相
相
相
相
似
似
似
似
度
度
度
度
计
计
计
计
算
算
算
算
步骤一: 义原相似度计算:
图 2 相似度计算流程
刘群[7]的公式为: Sim( p1, p2 ) =
α d +α
,其中
p1和p2来自表示两个义原(primitive),d
是
p1
和
p2
在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数。参考刘群等的公式
max(Sim( Ai , B1),..., Sim( Ai , Bn ))
i =1
,L = L(A) +
L(B) − L(A)
L
2
其中 m、n 分别表示句子 A 和 B 的词汇个数,L(A)表示句子 A 的长度,L(B)表示句子 B 的长度。
4 实验与结果分析
为了衡量发系统的检索质量,使用的是文献[8]中给出的评价方法,文献[8]中指出,相