基于知网的语义相似度计算

合集下载

一种改进的基于知网的句子相似度计算方法

一种改进的基于知网的句子相似度计算方法
字 符 串编辑距 离 , 考 虑 了 不 同词 性 词 汇对 句 子 的 影 还 响程度 不 同而 赋 以不 同的权 重 。该 方法从 两 个方 面 有 效地 提 高 了句 子相 似度计 算 的准确 性 。
主观题 自动 批 改 是 在线 考 试 系 统 中 的关 键 技术 。
由于 主观题 的答 题 特 点呈 现 出复 杂性 , 目前 还 没 有 一 种考试 系统 能较好 地完 成 自动批改 。主观题 的 自动 批
结合 的方 法等 J 。该方 法仅 从 句子 的表 层 结构 信 息
进行 匹 配而忽 略 了语句 语义分 析 , 在局 限 性 , 响 了 存 影 自动批改 的准 确度 。因此文 中提 出 了一 种新 的基 于 知
An I p o e n e e S m ia iy Ca c l to M eho s d o o nn t d Ba e n H w- t
L n k i XU a la g IYi g a , Xio in
( col f o p t c n e aghuD az U i rt,H nzo 10 8 h a Sho o m ue Si c ,H nzo i i n e i C r e n v sy aghu30 1 ,C i ) n
Ab ta t I r e o o ec me t ee t fifr ain r d nd n y i tree c d lcl o tmu o e — sr c n o d rt v r o he d fcs o nom t e u a c nefr n e a o a p i m fs n o n tn e smia t ac lto a e n lxc li m , t i p p rp o o e e s n e c i lrt ac lto t o e c i lr y c uain b sd o e ia t i l e hs a e rp s sa n w e tn e smi i c luain meh d a y

基于知网的词语语义相关度计算

基于知网的词语语义相关度计算

摘 要 :现有的词语语义相关度算法大多单纯依赖于语义相似度算 法,没有充分利用词语 间的
语义 关 系,导致其存 在局 限。在充 分挖 掘 词语 间 的隐含 语 义关 系基 础 上 ,将 语 义关 系应 用 于语 义关联 度的计 算 ,最终将语 义相 似度 以及语 义关 联度 结合 起 来 ,提 出 了语 义相 关度 算 法。 实验 结果表 明 ,使 用该计 算方法得 出的语义相 关度更加 合理 ,符合人 的 直观感 觉 。 关键词 :知 网 ;语义 相关度 ;语义关 系
(do lf o ue , h n q gU i r t,Ql gig4O4 , hn ) S lo o mptr c og i n esy C n v i 0 q 04 C i n n 0 a
Ab t a t T e u rn loi ms f s ma t r lv n y a e amo t ae o te lo i ms o e n i sr c : h c re t ag rt o e n i ee a c r l s b s d n h ag r h f s ma t h c t c
词语相 关度 反 映 了两个 词语 互相 关 联 的程 度 , 即词语之 间 的组 合特 点 , 可 以用 这 两个 词语 在 同 它

网义原纵向与横向关系及实例信息来计算不同词性 的词语 之间 的语 义相关 度 。但是 知 网中只有部 分义 原具有解释义原 , 并且标注的实例信息十分有限, 因 此算法存在 很大 的局限 性 。 J 值得注意的是 由于语义相关度包含了语义相似 度的概念 , 以语 义相 似 度算 法 对语 义 相关 度算 法 所
s l i i l .A d te o ’ a e t e mo to e sma t eain ew e od .S t rs h n i ats mi r y mp y n h y d n tm k s f t e n i rlt s b t e n w r s o I eu s i h h c o l i t n o e e ag r h .T i p p rmie e i l d s ma t eain ew e od ,a p ist ee i t i ft s loi ms hs a e n s t m ao h t h mp i e n c r lt s b t e n w r s p l s e i o e h rlt n e c mp tt n o e n i so it i ,a d p p ss a n w ag r h o ma t ee a c n ea o s t t o uai f ma t a sca i t i oh o s c v y n r o e loi m f o e t e s ni r v nyo c l h ai f i a t adasc i t te b sso m l i n so it i .T ee p r na s l h w t a te ms h r o es t f tr d s i ry a vy h x ei t r u t s o t h u sae m r a s coy a me l e s h ia n

基于《知网》的词语语义相似度改进及应用

基于《知网》的词语语义相似度改进及应用

方 法 。 中词 语 间 相似 度 的计 算 , 要 是 基 于按 照 词 语 问结 构 层 点 的最 短 路 径 的 长度 一 言 学 研究 认 为 . 个 义 原 的语 义距 离 越 文 主 语 两 次 关 系组 织 的 语 义词 典 的方 法 .根 据 在 这类 语言 学 资 源 中词 语 大 , 相 似 度越 低 : 之 , 其 反 两个 词 语 的 语 义 距 离越 小 , 其相 似 度 越
描 述 词 语 的最 基本 单 位 .另一 方 面 .义 原 之 间 又存 在 复 杂 的关 系 。 《 网》 , 在 知 中 一共 描 述 了义 原 之 间 的 8 关 系 : 下 位 关 系 、 种 上 同义 关 系 、 义 关 系 、 义关 系 、 性 一 主 关 系 、 件 一 体 关 反 对 属 宿 部 整 系 、 料一 品 关 系 、 材 成 事件 一 色关 系 。 以看 出 , 原之 问组 成 的 角 可 义 是 一个 复 杂 的 网状 结 构 。 而不 是 一 个 单 纯 的 树状 结 构 。不 过 , 义
1 词语 语 义 相似 度 的 计算 、 设 L 为义 原 P在 词 语 树 中 的深 度 , 距 离 初 始 阈 值 , l Y为 x为 与传 统 的 语义 词 典不 同 ,知 网》 采 用 了 l0 《 5 0多 个 义 原 , 通 满 足 不 等 式 ia ( ) y n x L < / 立 的 一 个 正 实 数 , p 与 其 父 结 点 x成 则 i 过 一 种 知识 描 述 语 言来 对 每个 词 语 进 行 描 述 义原 一方 面作 为 的 距离 定 义 为 :
目前 , 于 语 义相 似 度 的 计 算 主要 分 为两 种 : ) 语 信 息 量 对 1词
从 语 距 离法 . 计 算 两 词 语 的 语 义 距 离 . 后 转 化为 语 义相 似 度 。 转 换 为 相似 度值 , 而 计 算 词语 词 语 的 相 似度 。 先 然 本 文在 研 究 了大 量 文 献后 .提 出 了综 合 利 用 现 代 汉 语 语义 分类 12 1义 原 距 离 .. 词典 的类 层次 关 系 中 的多 种影 响 因素 来 计 算 词 语 问 的相 似 度 的 两 个 义 原之 间的 语 义距 离 .是 指 在义 原树 中连 接这 两个 节

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算
《知网》是一个中文语料库,可以用来进行文本语义相似度计算。


见的基于《知网》的词汇语义相似度计算方法有:
1.基于《知网》的同义词词林:《知网》中的同义词词林收录了大量
的同义词、近义词和相关词,可以通过比较两个词在同义词词林中的位置,来衡量它们的语义相似度。

比如,可以通过比较两个词在同一类和同一级
别下的位置,来判断它们的相似度。

2.基于《知网》的词语标注:《知网》中的词语标注包括词义分类和
关系标注等信息,可以通过比较两个词的词义分类和关系标注信息,来衡
量它们的语义相似度。

3.基于《知网》的词语关联度计算:可以通过计算两个词在《知网》
中的关联度来判断它们的语义相似度。

常用的方法有基于路径的关联度计
算和基于信息内容的关联度计算。

这些方法都是基于《知网》的语料库信息进行计算的,可以根据具体
需求选择适合的方法进行词汇语义相似度计算。

一种基于《知网》的文本语义相似度的计算方法

一种基于《知网》的文本语义相似度的计算方法
究, 取得 了不少 成 果 , 但 是 文 本 聚 类 也 面 临 着各 方
造成 了文本 向量 的表 示 空 间难 以有 效 地 降维 。2 ) 由于不 同的文 本 可 能采 用 不 同 的词 汇 来 表 示 相 同
概念 , “ 一对 一” 的匹 配方法 在处 理 时就 显得 无 能 为 力 了¨ 6 ] 。特别 是 同义词 和 近义 词不 能 识别 , 造 成 了 聚类 的误 差 。例 如 : 文本 1 : 土 豆 盛 产 于 中 国 。文
总第 2 9 2期 2 0 1 4年第 2期
计算 机与数字工程
Co mp u t e r&. Di g i t a l En g i n e e r i n g
Vo 1 . 4 2 No . 2
1 87
一ห้องสมุดไป่ตู้
种 基 于 知 网 的 文本 语 义 相 似 度 的计 算 方 法
孙 滨 刘 林
4 5 1 1 0 0 ) ( 郑州华信学 院信息工程 系 郑州


论文提 出一个基于语义 的文本 问的相似度算法 , 以文本 的特征词 相似度为基础 , 来计算文本 间的相似度 , 利用
聚类算法对文本簇进行 聚类 。实验结果证 明基于知 网的文本语义相似度方法在对文本相似度计算 以及文本 聚类方面 , 能有 效提 高聚类 的效果 。 关键 词 文本 聚类 ; 义原相似度 ; 语义相似度
Ab s t r a c t A s i mi l a r i t y a l g o r i t h m b a s e d o n s e ma n t i c s i mi l a r i t y i s p r o p o s e d ,wh i c h c a l c u l a t e s t h e s i mi l a r i t y o f t e x t s a c — c o r d i n g t O f e a t u r e wo r d s o f t h e t e x t a n d ma k e s t e x t c l u s t e r s b y e mp l o y i n g c l u s t e r i n g a l g o r i t h m. Th e e x p e r i me n t a l r e s u l t s p r o v e t h a t t h e me t h o d o f t e x t s e ma n t i c s i mi l a r i t y b a s e d o n CNKI i S v e r y e f f i c i e n t i n t e x t s i mi l a r i t y c a l c u l a t i o n a n d t e x t c l u s t e — r i n g ,wh i c h c a n e f f e c t i v e l y i mp r o v e t h e e f f e c t o f c l u s t e r i n g . K e y Wo r d s t e x t c l u s t e r i n g ,p r i mi t i v e s i mi l a r i t y,s e ma n t i c s i mi l a r i t y Cl a s s Nu mb e r TP 3 9 】

使用网络搜索引擎计算汉语词汇的语义相似度

使用网络搜索引擎计算汉语词汇的语义相似度

使用网络搜索引擎计算汉语词汇的语义相似度高国强;黄吕威;陈丰钰【摘要】Similarity computation of Chinese words is a key problem in Chinese information processing. It measures semantic similarity between Chinese words using the information returned by web search engines. First,implement a model named WebPMI which computes similarity using page counts,and then,describe another model named CODC which analyzes semantic similarity using text snippets. Final-ly,present the algorithm based on the two models. Experimental results show that this algorithm outperforms all the existing web-based semantic similarity measures for Chinese,and is close to the traditional semantic similarity measures using lexicon.%汉字词语的语义相似度计算是中文信息处理中的一个关键问题。

文中利用网络搜索引擎提供的信息来计算汉语词对的语义相似性。

首先通过程序访问搜索引擎,获取汉字词汇的搜索结果数,并依此实现了相似度计算模型WebPMI;然后描述了根据查询返回的文本片段进行语义相关性分析的模型CODC;最后,结合这个两个模型,给出了文中算法的伪代码。

基于《知网》义原空间文本相似度计算研究与实现

基于《知网》义原空间文本相似度计算研究与实现

基于《知网》义原空间的文本相似度计算研究与实现重庆大学硕士学位论文(学术学位)学生姓名:张*指导老师:罗军副教授专业:计算机系统结构学科门类:工学重庆大学计算机学院二〇一三年四月Research and Implementation of Text Similarity Computing Based on HowNetSememe SpaceA Thesis Submitted to Chongqing Universityin Partial Fulfillment of the Requirement for theMaster‟s Degree of EngineeringByZhang KeSupervised by Associate Prof. Luo JunSpecialty: Computer System ArchitectureCollege of Computer Science ofChongqing University, Chongqing, ChinaApril 2013重庆大学硕士学位论文中文摘要摘要文本相似度计算是知识产权保护、文本分类、机器翻译、自然语言处理、复制检测、自动问答和信息检索等领域的核心技术。

现有的文本相似度计算方法大致可以归纳为两类,第一类是基于文本特征统计的方法,第二类则是基于文本语义理解的方法。

基于文本特征统计的方法在长文本等大粒度实体的相似度计算方面取得了较好的效果,其中最具代表性的就是向量空间模型(Vector Space Model,简称VSM)和广义向量空间模型(General Vector Space Model,简称GVSM)。

G V S M在VSM的基础上利用文本特征项的共现信息,对VSM模型中特征项正交的假设进行了改进。

基于语义理解的方法,通常以某种知识库作为依据实现词语之间或者句子之间相似度的计算。

基于统计的方法简单高效,但是缺乏语义,无法处理自然语言中“一词多义”和“一义多词”的情况。

改进的基于《知网》的词汇语义相似度计算

改进的基于《知网》的词汇语义相似度计算
Ab s t r a c t :T h e p r e s e n t Ho wNe t — b a s e d v o c a b u l a r y s e ma n t i c s i mi l a i r t y c a l c u l a t i o n me t h o d f a i l s t o g i v e d u e a t t e n t i o n t o t h e l i n e a r f e a t u r e o f c o n c e p t u l a d e s c i r p t i o n i n k n o wl e d g e d a t a b a s e ma r k — u p l a n g u a g e .T o r e s o l v e t h i s s h o r t c o mi n g ,a n i mp r o v e d v o c a b u l a r y s e ma n t i c s i mi l a i r t y c a l c u l a t i o n me t h o d wa s p r o p o s e d .F i r s t l y ,f u l l y c o n s i d e r i n g t h e l i n e a r r e l a t i o n s h i p b e t we e n t h e

要: 针对 当前基 于《 知 网》 的词; r - 语义相似度计算方 法没有充分考虑知识库描述语 言对概 念描述 的线性特征
的情 况, 提 出一种改进 的词j r - 语 义相 似度 计算方法。首先, 充分考虑概念描 述式 中各 义原之 间的线性关 系, 提 出一种 位 置相 关的权 重分配策略 ; 然后 , 将所提 出的策略 结合二部 图最 大权 匹配进行概 念相似度计 算。实验结果表 明 , 采用 改进 方法得 到的聚类结果 F值较对比方法平均提 高 了5 %, 从 而验 证 了改进 方法的合理性 和有 效性 。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于《知网》的语义相似度计算
软件使用手册
1 功能简介
本软件是根据[刘群2002]一文中的原理编写的词汇语义相似度计算程序。

主要实现了以下功能:
1.1基于交互输入的义原查询、义原距离计算、义原相似度计算
1.2基于交互输入的词语义项查询、义项相似度计算、词语相似度计算;
1.3基于文件输入的词语义项查询、词语相似度计算;
1.4相似度计算中的参数调整。

2 安装说明
本软件包一共有四个文件:
《基于<知网>的词汇语义相似度计算》软件使用手册.doc:本使用手册
《基于<知网>的词汇语义相似度计算》论文.pdf:本软件所依据的论文,采用pdf
格式,用Acrobat Reader阅读时需要安装简体中文支持包。

自然语言处理开放资源许可证.doc:本软件包的授权许可证
WordSimilarity.zip:程序文件
软件安装时,将文件WordSimilarity.zip文件解压缩一个目录下即可,解压缩后有以下几个文件:
WordSimilarity.exe:可执行程序;
Glossary.dat:《知网》数据文件
Semdict.dat:《知网》数据文件
Whole.dat:《知网》数据文件
必须确保《知网》数据文件在程序执行时的当前目录下。

3 界面说明
软件使用简单的对话框界面,如下所示:
4 功能说明
4.1义原操作
4.1.1 义原查询
1.首先在“输入1”框中输入义原名称;
2.点击“察看义原1”按钮;
3.在“义项1”框中将依次显示出该义原及其所有上位义原的编号、中文、英文;类似的方法可以查询“输入2”框中的义原;
4.1.2 义原距离计算
1.首先在“输入1”和“输入2”框中输入两个义原;
2.点击“计算义原距离”按钮;
3.在“输出”框中显示两个义原的距离;
4.1.3 义原相似度计算
1.首先在“输入1”和“输入2”框中输入两个义原;
2.点击“计算义原相似度”按钮;
3.在“输出”框中显示两个义原的相似度;
4.2基于交互输入的词语操作
4.2.1 词语义项查询
1.首先在“输入1”框中输入要查询的词语;
2.点击“察看义项1”按钮;
3.在“义项1”框中将依次显示出该词语的所有义项;
类似的方法可以查询“输入2”框中的词语义项;
4.2.2 义项相似度计算
1.首先分别在“输入1”和“输入2”框中输入要计算相似度的两个词语;
2.点击“察看义项1”按钮和“察看义项2”按钮;
3.在“义项1”框和“义项2”框中将分别显示出这两个词语的所有义项;
4.分别在“义项1”框和“义项2”框中点击需要计算相似度的两个词语义项;
5.点击“计算义项相似度”按钮;
6.在“输出”框中将显示选中的两个义项的相似度;
4.2.3 词语相似度计算
1.首先分别在“输入1”和“输入2”框中输入要计算相似度的两个词语;
2.点击“计算词语相似度”按钮;
3.在“输出”框中将显示两个词语的相似度;
说明:词语相似度定义为两个词语的所有义项相似度中的最大值。

4.3基于文件输入的词语操作
4.3.1 文件输入
1.点击“文件:输入”按钮,系统将使用缺省的文本编辑器打开输入文件TestWords.Txt;
2.编辑输入文件,其格式如下
a)每行一个词;
b)若干个词构成一组,组与组之间用空行分隔;
例如:
男人
女人
孩子
老人
少女
工人
3.保存文件;
4.3.2 按文件查询词语义项
1.首先点击“文件:输入”按钮,按照上面的说明在文件中输入要查询的词语;
2.点击“文件:查询词语义项”按钮,系统将使用缺省的文本编辑器词语义项文件
TestMeanings.Txt;
3.词语义项文件中将显示所有的词语义项,
格式为:
:男人
N human|人,family|家,male|男
N human|人,male|男
:女人
N human|人,family|家,female|女
N human|人,female|女
:孩子
N human|人,family|家,young|幼
N human|人,young|幼
:老人
N human|人,aged|老
N human|人,family|家,aged|老
:少女
N human|人,female|女,young|幼
:工人
N human|人,#occupation|职位,industrial|工
4.3.3 按文件计算词语相似度
1.首先点击“文件:输入”按钮,按照上面的说明在文件中输入要查询的词语;
2.其次点击“文件:查询词语义项”按钮,按照上面的说明得到词语义项文件
TestMeanings.Txt;
3.编辑打开的词语义项文件TestMeanings.Txt,删除无关的义项(整行删除即可),但每个
词语至少应保留一个义项;
假设上述例子中删除“男人”和“女人”的各一个义项,得到文件为:
:男人
N human|人,male|男
:女人
N human|人,family|家,female|女
:孩子
N human|人,family|家,young|幼
N human|人,young|幼
:老人
N human|人,aged|老
N human|人,family|家,aged|老
:少女
N human|人,female|女,young|幼
:工人
N human|人,#occupation|职位,industrial|工
4.点击“文件:计算词语相似度”按钮,系统将根据上述词语义项文件TestMeanings.Txt
中每个词语的义项,计算以空行分隔的同一组词语中两两之间的词语相似度,并显示在文件TestSimilarities.Txt中;
还是按照上面的例子,结果文件为:
:男人
N human|人,male|男
:女人
N human|人,family|家,female|女
------------------------------------------
男人,女人:0.661111
===================================================
:孩子
N human|人,family|家,young|幼
N human|人,young|幼
:老人
N human|人,aged|老
N human|人,family|家,aged|老
:少女
N human|人,female|女,young|幼
:工人
N human|人,#occupation|职位,industrial|工
------------------------------------------
工人,孩子:0.661111
工人,老人:0.661111
工人,少女:0.568519
孩子,老人:0.861111
孩子,少女:0.8
老人,少女:0.661111
===================================================
4.4参数修改
可以直接在对话框中修改以下参数:α,β1,β2,β3,β4,γ,δ。

参数的含义见参考文献[刘群2002]。

每次修改后参数不保存,下次允许程序需重新修改参数。

5 版权说明
本软件由中国科学院计算技术研究所刘群编制,全部版权(不含《知网》版权)属于中国科学院计算技术研究所所有。

使用者可以自由的拷贝、发布或者修改本资源,但是必须完全遵守“自然语言处理开放资源许可证”(许可证版本编号1.0)中所列各项条款之规定。

资源提供者不承诺提供任何技术支持,也不会对使用者由于使用本资源而造成的任何后果(不论是直接的还是间接的)承担责任。

详细信息请参阅“自然语言处理开放资源许可证”中的具体条款。

一份“自然语言处理开放资源许可证”的文本拷贝会随同本资源一起发布。

如果没有,请访问“中文自然语言处理开放平台()”以获得一份完整的许可证文本感兴趣者请与刘群联系,邮件地址是:liuqun@,
也可访问中国科学院计算技术研究所自然语言处理课题组网站: 或者访问中文自然语言处理开放平台:。

本软件使用了《知网》2000版。

《知网》的全部版权由董振东、董强先生所有,感兴趣者请访问《知网》主页:。

6 参考文献
[刘群2002] 刘群,李素建,基于《知网》的词汇语义相似度计算,第三届汉语词汇语义学研讨会,台北,2002年5月
[知网] 。

相关文档
最新文档