基于《知网》的词语相似度计算

合集下载

一种改进的基于知网的句子相似度计算方法

一种改进的基于知网的句子相似度计算方法
字 符 串编辑距 离 , 考 虑 了 不 同词 性 词 汇对 句 子 的 影 还 响程度 不 同而 赋 以不 同的权 重 。该 方法从 两 个方 面 有 效地 提 高 了句 子相 似度计 算 的准确 性 。
主观题 自动 批 改 是 在线 考 试 系 统 中 的关 键 技术 。
由于 主观题 的答 题 特 点呈 现 出复 杂性 , 目前 还 没 有 一 种考试 系统 能较好 地完 成 自动批改 。主观题 的 自动 批
结合 的方 法等 J 。该方 法仅 从 句子 的表 层 结构 信 息
进行 匹 配而忽 略 了语句 语义分 析 , 在局 限 性 , 响 了 存 影 自动批改 的准 确度 。因此文 中提 出 了一 种新 的基 于 知
An I p o e n e e S m ia iy Ca c l to M eho s d o o nn t d Ba e n H w- t
L n k i XU a la g IYi g a , Xio in
( col f o p t c n e aghuD az U i rt,H nzo 10 8 h a Sho o m ue Si c ,H nzo i i n e i C r e n v sy aghu30 1 ,C i ) n
Ab ta t I r e o o ec me t ee t fifr ain r d nd n y i tree c d lcl o tmu o e — sr c n o d rt v r o he d fcs o nom t e u a c nefr n e a o a p i m fs n o n tn e smia t ac lto a e n lxc li m , t i p p rp o o e e s n e c i lrt ac lto t o e c i lr y c uain b sd o e ia t i l e hs a e rp s sa n w e tn e smi i c luain meh d a y

汉语词语语义相似度计算研究

汉语词语语义相似度计算研究

文 识码:A 献标
中圈 分类号: P9 T 31
汉语 词语 语 义相似 度 计 算研 究
夏 天
( 国人民大学信息资源 管理 学院,北京 10 7 ) 中 82 0
摘 要 :汉语词语 的语义相似度计算是 中文信 息处理 中的一个关键问题 。该文 提出了一种基于知 网、面向语义、可扩展的相似度计算新方
[ e od iWod m l i ; o n ; o cp; e e e K y r s rs i i r y H w  ̄ C n etS m m w s at
汉语词汇相似度计 算在 自动问答、情 报检 索、文本聚类 等应用 中都是一个非常关键的问题” J 。针对这一问题 ,人们
smia iy c mpu a i n wh c s b s d o wn t e r d t e n i n o l e e p n e .T e n w t o e n s a s mi rt omp tto i lrt o tto ih i a e n Ho e ,g a e o s ma t a d c u d b x a d d h e me d d f e i l i c c h i a y uain f r u a a ng Ho e ’ e e sa c r i g t n o ai n t e r , n s awa u fi u t h tOOV r sc n o a t i a e i e n i o m l mo wn tSs m me c o d n o i f r to o y f d y o t t di c l t a m h i of he y wo d a n tp ri p t n s ma t c c
t e s m a t e e mo g a b ta y wo d n l . p r e t lr s l o LI i d c t s t a c u a y r t f t e n w e h d sne ry 1 % h e n i l v la n ir r r s n ia e h tt a c r c a e o h e m t o i a l c r i y m he 5 h g e a e e to e . i h rt npr s n n s h

基于《知网》的词语语义相似度改进及应用

基于《知网》的词语语义相似度改进及应用

方 法 。 中词 语 间 相似 度 的计 算 , 要 是 基 于按 照 词 语 问结 构 层 点 的最 短 路 径 的 长度 一 言 学 研究 认 为 . 个 义 原 的语 义距 离 越 文 主 语 两 次 关 系组 织 的 语 义词 典 的方 法 .根 据 在 这类 语言 学 资 源 中词 语 大 , 相 似 度越 低 : 之 , 其 反 两个 词 语 的 语 义 距 离越 小 , 其相 似 度 越
描 述 词 语 的最 基本 单 位 .另一 方 面 .义 原 之 间 又存 在 复 杂 的关 系 。 《 网》 , 在 知 中 一共 描 述 了义 原 之 间 的 8 关 系 : 下 位 关 系 、 种 上 同义 关 系 、 义 关 系 、 义关 系 、 性 一 主 关 系 、 件 一 体 关 反 对 属 宿 部 整 系 、 料一 品 关 系 、 材 成 事件 一 色关 系 。 以看 出 , 原之 问组 成 的 角 可 义 是 一个 复 杂 的 网状 结 构 。 而不 是 一 个 单 纯 的 树状 结 构 。不 过 , 义
1 词语 语 义 相似 度 的 计算 、 设 L 为义 原 P在 词 语 树 中 的深 度 , 距 离 初 始 阈 值 , l Y为 x为 与传 统 的 语义 词 典不 同 ,知 网》 采 用 了 l0 《 5 0多 个 义 原 , 通 满 足 不 等 式 ia ( ) y n x L < / 立 的 一 个 正 实 数 , p 与 其 父 结 点 x成 则 i 过 一 种 知识 描 述 语 言来 对 每个 词 语 进 行 描 述 义原 一方 面作 为 的 距离 定 义 为 :
目前 , 于 语 义相 似 度 的 计 算 主要 分 为两 种 : ) 语 信 息 量 对 1词
从 语 距 离法 . 计 算 两 词 语 的 语 义 距 离 . 后 转 化为 语 义相 似 度 。 转 换 为 相似 度值 , 而 计 算 词语 词 语 的 相 似度 。 先 然 本 文在 研 究 了大 量 文 献后 .提 出 了综 合 利 用 现 代 汉 语 语义 分类 12 1义 原 距 离 .. 词典 的类 层次 关 系 中 的多 种影 响 因素 来 计 算 词 语 问 的相 似 度 的 两 个 义 原之 间的 语 义距 离 .是 指 在义 原树 中连 接这 两个 节

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算
《知网》是一个中文语料库,可以用来进行文本语义相似度计算。


见的基于《知网》的词汇语义相似度计算方法有:
1.基于《知网》的同义词词林:《知网》中的同义词词林收录了大量
的同义词、近义词和相关词,可以通过比较两个词在同义词词林中的位置,来衡量它们的语义相似度。

比如,可以通过比较两个词在同一类和同一级
别下的位置,来判断它们的相似度。

2.基于《知网》的词语标注:《知网》中的词语标注包括词义分类和
关系标注等信息,可以通过比较两个词的词义分类和关系标注信息,来衡
量它们的语义相似度。

3.基于《知网》的词语关联度计算:可以通过计算两个词在《知网》
中的关联度来判断它们的语义相似度。

常用的方法有基于路径的关联度计
算和基于信息内容的关联度计算。

这些方法都是基于《知网》的语料库信息进行计算的,可以根据具体
需求选择适合的方法进行词汇语义相似度计算。

基于马尔科夫模型的词汇语义相似度计算

基于马尔科夫模型的词汇语义相似度计算

D F= {atl 件 : atoio E pr 部 PrP si tn= {er I hat
机变量 X( ) 已知条件 : t) lX(2 = t在 X( 1 = , t)
收 稿 日期 :2 0 —0 —2 09 9 1 作者简介 :皮慧娟(9 1 , , 17 一) 女 湖北鄂州人 , 华侨大学实验师 , 硕士 .
网》 系统 中义原除 了上下位关 系还有很多其他关 系 , 文只讨 论上 下位关 系 . 本 2 2 利 用马 尔科 夫 模型 计 算树 状 结构 的义 原体 .
系相似 度
2 2 1 关 系义 原 的计算 ..
词语 的 D F的义原分 为两 大类 : E 基本 义原 和 关 系义 原 . 笔者认为只有在关系义原相 同的条件下 才去计算 关系义原下的子义原之间 的相 似度 , 如果
心 }w o ={ ty实体 } , hl e i f e nt }







第2 2卷
其中, NO. 是概 念 编号 , — G— E— w C、 C、 C分 别 是 汉 语词语 、 词性 和 例子 . — G— w E、 E和 E— E分 别 表 示 英 语 的词 语 、 词性 和 例 子 . E D F表 示 的是 概 念 的 定 义 , 达 了 主要 的信 息 . E 表 D F可 看 成 一个 树 状 的结 构 , 图 1所 示 . 中包 含 义原 : 件 、 如 其 部
t,1 2 t): F( tl , x, t).
() 1
则称 此过 程为 马尔科 夫过 程[ .
12 知 . 网
义距离的一种度量 . 王斌采用这种方法利用《 同义 词词 林》 计 算 汉 语 词 语 之 间 的相 似 度n . 些 来 ]有

一种基于《知网》的文本语义相似度的计算方法

一种基于《知网》的文本语义相似度的计算方法
究, 取得 了不少 成 果 , 但 是 文 本 聚 类 也 面 临 着各 方
造成 了文本 向量 的表 示 空 间难 以有 效 地 降维 。2 ) 由于不 同的文 本 可 能采 用 不 同 的词 汇 来 表 示 相 同
概念 , “ 一对 一” 的匹 配方法 在处 理 时就 显得 无 能 为 力 了¨ 6 ] 。特别 是 同义词 和 近义 词不 能 识别 , 造 成 了 聚类 的误 差 。例 如 : 文本 1 : 土 豆 盛 产 于 中 国 。文
总第 2 9 2期 2 0 1 4年第 2期
计算 机与数字工程
Co mp u t e r&. Di g i t a l En g i n e e r i n g
Vo 1 . 4 2 No . 2
1 87
一ห้องสมุดไป่ตู้
种 基 于 知 网 的 文本 语 义 相 似 度 的计 算 方 法
孙 滨 刘 林
4 5 1 1 0 0 ) ( 郑州华信学 院信息工程 系 郑州


论文提 出一个基于语义 的文本 问的相似度算法 , 以文本 的特征词 相似度为基础 , 来计算文本 间的相似度 , 利用
聚类算法对文本簇进行 聚类 。实验结果证 明基于知 网的文本语义相似度方法在对文本相似度计算 以及文本 聚类方面 , 能有 效提 高聚类 的效果 。 关键 词 文本 聚类 ; 义原相似度 ; 语义相似度
Ab s t r a c t A s i mi l a r i t y a l g o r i t h m b a s e d o n s e ma n t i c s i mi l a r i t y i s p r o p o s e d ,wh i c h c a l c u l a t e s t h e s i mi l a r i t y o f t e x t s a c — c o r d i n g t O f e a t u r e wo r d s o f t h e t e x t a n d ma k e s t e x t c l u s t e r s b y e mp l o y i n g c l u s t e r i n g a l g o r i t h m. Th e e x p e r i me n t a l r e s u l t s p r o v e t h a t t h e me t h o d o f t e x t s e ma n t i c s i mi l a r i t y b a s e d o n CNKI i S v e r y e f f i c i e n t i n t e x t s i mi l a r i t y c a l c u l a t i o n a n d t e x t c l u s t e — r i n g ,wh i c h c a n e f f e c t i v e l y i mp r o v e t h e e f f e c t o f c l u s t e r i n g . K e y Wo r d s t e x t c l u s t e r i n g ,p r i mi t i v e s i mi l a r i t y,s e ma n t i c s i mi l a r i t y Cl a s s Nu mb e r TP 3 9 】

文献信息检索文献信息检索实践操作试卷(二)

文献信息检索文献信息检索实践操作试卷(二)

文献信息检索实践操作试卷(二)目的:查考学生文献信息检索的实践操作掌握情况,主要考察检索基础知识、问题分析、工具选择以及针对具体问题、综合课题的检索等,只要考察学生检索实践操作能力。

试题类型:填空、简答、综合一、填空题(每空1分,共20分)1.利用cnki查找机械模具专业2015-2017年以来清华大学授予的学位论文,结果为55 篇。

2. 在CNKI中,通过主题字段或关键词字段查找有关“互联网+”方面的期刊论文,其中主题字段字段获得的论文篇数比较多。

3.利用独立搜索引擎---“百度”和元搜索引擎---“360搜索”检索有关“信息素养”方面的期刊论文,其检索结果否(是、否)相同。

4.检索“关于大学生大学生与学术规范问题研究”的相关文献,课题分析形成的主题(关键)词为大学生、学术规范。

5.利用《维普中文科技期刊数据库》“期刊导航”功能,查找刊名为“机械工程学报”的期刊的国内统一刊号6.检索式“学术道德and学术规范”表示的含义是逻辑“与”,检索结果中同时包含学术道德和学术规范,使用这个检索式在中国知网上检索,获得的检索结果为 186 条。

7.某同学参加了导师关于“互联网+高职课程教学模式”研究的一个课题,他需要一本有关“互联网+”方面的图书,本馆有无此方面的图书,列出其中一本的索号TP393.4/239 ,馆藏地新区自科一。

(以河南工业职业技术学院为例)8.利用国家知识产权局专利数据库检索2015年至今由华为科技有限公司申请的专利,其中发明专利 95694项、实用新型专利 164 项和外观设计专利 7513 项。

9.利用cnki查找本院系高级职称某某教授发表的论文,其中被引频次最高论文的题目为超声波加工技术的应用研究,该篇文章的参考文献格为:[1]杨雪玲,于兴芝,张成光.超声波加工技术的应用研究[J].现代机械,2009,(02):88-90。

(略)10.检索近五年英国发布的有关“太阳能集热器”方面的标准,共 4 种。

使用网络搜索引擎计算汉语词汇的语义相似度

使用网络搜索引擎计算汉语词汇的语义相似度

使用网络搜索引擎计算汉语词汇的语义相似度高国强;黄吕威;陈丰钰【摘要】Similarity computation of Chinese words is a key problem in Chinese information processing. It measures semantic similarity between Chinese words using the information returned by web search engines. First,implement a model named WebPMI which computes similarity using page counts,and then,describe another model named CODC which analyzes semantic similarity using text snippets. Final-ly,present the algorithm based on the two models. Experimental results show that this algorithm outperforms all the existing web-based semantic similarity measures for Chinese,and is close to the traditional semantic similarity measures using lexicon.%汉字词语的语义相似度计算是中文信息处理中的一个关键问题。

文中利用网络搜索引擎提供的信息来计算汉语词对的语义相似性。

首先通过程序访问搜索引擎,获取汉字词汇的搜索结果数,并依此实现了相似度计算模型WebPMI;然后描述了根据查询返回的文本片段进行语义相关性分析的模型CODC;最后,结合这个两个模型,给出了文中算法的伪代码。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于《知网》的词语相似度计算
[摘要]词语相似度计算是计算机中文处理中的基础和重要环节,目前基于《知网》的词语相似度计算是一种常见的方法,本文将对该方法做系统介绍。

[关键词]《知网》词语相似度计算
一、《知网》的结构
《知网》(HowNet)是我国著名机器翻译专家董振东先生和董强先生创建的,是一个常识知识库,它含有丰富的词汇语义知识以及世界知识,内部结构复杂。

《知网》中两个最基础的概念是“概念”和“义原”。

“概念”是用来描述词语语义。

因为一个词可以含有多个语义,所以一个词需要多个概念来描述。

使用“知识表示语言”对概念进行描述,“知识表示语言”使用的“词汇”便是义原。

《知网》中的不可再分的、最小的意义单位是“义原”,义原用来描述“概念”。

《知网》采用的义原有1500个,它们一共可以分为十类,具体见图1。

知网反映了概念之间、概念属性之间各种各样的关系,总体来说知网描述了16种关系:
上下位关系;同义关系、反义关系、对义关系;部件-整体关系;属性-宿主关系;材料-成品关系;施事/经验者/关系;主体-事件关系;受事/内容/领属物等事件关系;工具-事件关系;场所-事件关系;时间-事件关系;值-属性关系;实体-值关系;事件-角色关系;相关关系。

由《知网》的结构得知义原之间组成的不是一个树状结构,而是一个复杂的网状结构。

然而义原关系中最重要的是上下位关系。

所有的“基本义原”以这种上下位关系为基础构成了义原层次体系,叫做义原分类树。

在义原分类树中,父节点义原和子节点义原之间具有上下位关系。

可以通过义原分类树来计算词语和词语之间的语义距离。

二、知网的知识词典
知识词典是知网中最基本的数据库。

在知识词典中,每一个概念(概念又称为义项)可以用一条记录来描述。

一条记录含有八项信息,每一项由用“=”连接的两个部分组成,等号左边表示数据的域名,右边是数据的值。

比如下面就是一条描述概念的记录:
NO=017114
W_C=打
G_C=V
E_C= ~乒乓球,~篮球
W_E=play
G_E=V
E_E=
DEF=exercise|锻炼,sport|体育
其中,NO表示概念的编号,W_C表示汉语词语,G_C表示汉语词语的词性,E_C表示汉语词语例子,W_E表示英语词语,G_E则表示英语词语词性,E_E表示英语词语例子,DEF表示概念的定义,通过一个语义表达式来描述。

需要强调的是,DEF项包含若干个相应的义原以及这些义原与主干词之间的语义关系。

DEF项是知网的核心,不可以为空,必须填写内容。

DEF项的起始位置,必须用来描述知网中规定的主要义原。

鉴于知网的组织关系,本文的相似度计算按照以下步骤完成:先计算义原的相似度;在此基础上计算词语的相似度。

三、基于《知网》的义原相似度计算
在《知网》中,依据上下位关系,所有的义原构成了一个树状层次结构,可以根据两个义原之间的路径长度来计算其相似度。

即根据上述树形图中,两个结点之间的路径长度来表示这两个义原的语义距离。

本文将两个义原分别记为pl、p2,将它们的语义距离记为d,p1和p2两个义原的相似度记为Sim(p1,p2),相应的公式如下:
Sim(p1,p2)=ad+a
其中,d表示两个义原p1和p2的路径长度,a是一个调节参数,本文取相似度为0.5时的路径长度(d)的值。

Sim(pl,p2)取值在[0,1]之间。

在这里,本文只利用了义原的上下位关系来计算义原相似度。

四、基于《知网》的词语相似度计算
基于《知网》的词语相似度研究已经比较成熟。

刘群等提出了一种基于《知网》的词语相似度计算方法,下面对此进行介绍。

汉语词语可以分为实词和虚词,本文做如下约定:在文本中实词和虚词不能互相代替,即实词和虚词的相似度是零。

计算虚词的相似度就比较简单,计算用来描述虚词的关系义原之间、或者句法义原之间的相似度就可以了。

实词则不同,它需要使用语义表达式进行描述,所以实词的相似度计算难度就比较大。

本文使用实词定义项中义原和义原之间的相似度,来描述实词与实词之间的相似度。

本文选择描述这两个实词的概念之间的最大相似度作为这两个实词之间的相似度。

概念通过义原进行描述,实词概念的语义表达式由四部分组成,它们分别是第一独立义原描述式,其他独立义原描述式,关系义原描述式和符号义原描述式。

本文把这些义原描述式的相似度分别记为:Sim1(S 1 ,S 2 )、Sim2(S 1 ,S 2 )、Sim3(S 1 ,S 2 )、Sim4(S 1 ,S 2 )。

由此,两个概念S 1 ,S 2 之间的相似度计算公式如下:
Sim(S 1 ,S 2 )=
其中,βi(1≤i≤4)是可以调节的参数,代表每一部分的权重,且有β1+β2+β3+β4=1,β1≥β2≥β3≥β4。

由于第一独立义原描述式Sim1可以反映一个概念的最主要特征,所以本文将它的权值定义得比较大,一般应大于0.5。

Sim1到Sim4各部分相似度的计算方法如下:
1)对于第一独立义原描述式:利用公式1计算两个义原的相似度即可,方法比较简单;
2)对于其他独立义原描述式:计算相对复杂,需要对相应义原进行分组,步骤如下:(1)两个概念各自有一个其他独立义原集合,对这两组义原相互之间进行任意配对,并且计算出每一对义原的相似度;(2)将当前相似度最大的一对义原从各自的集合中取出(不再属于原集合),归入一个集合;(3)重复第(2)步,直到所有的其他独立义原完成归类。

(4)根据开始时两个概念各自的独立义原集合的大小,以及后来得到的新集合,来计算Sim2;
3)对于关系义原描述式:这一部分仍然是一个集合运算问题,需要将关系义原相同的描述式进行统一归组,再计算其相似度;
4)对于符号义原描述式:这一部分的计算与关系义原描述式有些相似,只有在符号相同的前提下,再计算配对义原的相似度。

最后,把上述四个相似度计算结果进行加权求和,便可以得到两个概念之间的相似度。

假如有两个词语分别为W 1 和W 2 ,其中W 1 含有n个概念,分别为:S 11 ,S 12 ,……,S 1n ,W 2 则含有m个概念,分别为S 21 ,S 22 ,……,S 2m 。

那么计算词语W 1 和W 2 相似度的公式如下。

Sim(W 1 ,W 2 )=Sim(S 1i ,S 2j )
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

相关文档
最新文档