概念树在短文本语义相似度上的应用_赵小谦

合集下载

概念相似度在文本模糊聚类中的应用

Ｏ引言
文本挖掘是指在大量文本集合或语料库上发现隐含的、有趣的、用的模式和知识。文本聚类是文本挖掘的重要手有段，文本聚类是一种无指导的文档分类，把一个文本集分成它若干称为集簇（ｌｓｒ的子集，个集簇的成员之间具有较大Ｃｕｔ）ｅ每的相似性，集簇之间的文本具有较小的相似性。而文本聚类的方法大致可分为层次凝聚法和平面划分法两种类型“。统的文本聚类算法主要采用基于关键词集的向创传量空间模型（Ｓ，模型是一种统计的文本表示模型，没ＶＭ）此它
ｉｔｃｏｎｄｔｅｆｚｉｌｉｔｉｅｉｅｏｎｎｄｓａｃｏｕｉｇｉｉｍｅｏ．Ｔｅｃｒｅｐｎｉｇｃｕｔｒｇｒｓｌｎｏａｃｕｔｚｓｍｉｒｔｍａｒｘｉｄｒｖｄｆｍｏ —ｉｔｎｅｃｍｐｔｔｓｔｄｈｏｒｓｏｄｎｌｓｅｉｕｔｎａｈｕｙａｙｓｒｎｎｈｈｎｅｓ
维普资讯
第２卷第３９期
ＶＯ．９１２
Ｎｏ．３
计算机工程与设计
ＣｏｍｐｔｒＥｎｉｅｒｎｎｓｇｕｅｇｎｅｉｇａｄＤｅｉｎ
２０年２０８月
Ｆｅ．２０８ｂ０
概念相似度在文本模糊聚类中的应用
唐明珠，张远平，杨佳
（兰州理工大学计算机与通信学院，甘肃兰州７０５）３００

基于How-net的词语语义相似度算法

基于How-net的词语语义相似度算法
马永起;韩德培;蒙立荣;余杰;程铮
【期刊名称】《计算机工程》
【年(卷),期】2018(044)006
【摘要】对词语相似度、义原相似度和概念相似度进行研究,结合How-net义原树,提出一种计算义原相似度的算法.考虑义原节点所处的深度、义原节点间的距离以及义原节点兄弟数目,在义原相似度基础上,给出词语语义相似度算法.实验结果表明,与评论的倾向性算法和语义相似度算法相比,该算法在不增加算法复杂度的情况下,提高了词语语义相似度准确性.
【总页数】5页(P151-155)
【作者】马永起;韩德培;蒙立荣;余杰;程铮
【作者单位】中国工程物理研究院计算机应用研究所,四川绵阳621999;东方通信股份有限公司,杭州310000;中国工程物理研究院计算机应用研究所,四川绵阳621999;国防科技大学计算机学院,长沙410073;中国工程物理研究院计算机应用研究所,四川绵阳621999
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于《知网》的词语语义相似度算法 [J], 王小林;王东;杨思春;邰伟鹏;郑啸
2.基于知网和知识图的汉语词语语义相似度算法 [J], 张晓孪;王西锋
3.基于不同语义资源的词语相似度算法综述 [J], 蔡辉虎
4.一种改进的基于知网的词语语义相似度算法 [J], 张小川;于旭庭;张宜浩
5.一种基于词义向量模型的词语语义相似度算法 [J], 李小涛;游树娟;陈维
因版权原因，仅展示原文概要，查看原文内容请购买。

语义树的概念

语义树的概念
得嘞，咱今儿就聊聊这语义树的概念。

您瞧啊，这语义树，说白了，就是跟咱们平时说的树差不多，但它不是长在地上的那种，而是存在于咱们计算机世界里头的一种数据结构。

这语义树啊，它就像是一棵大树，有根儿、有枝儿、有叶儿，每一部分都承载着不同的含义和信息。

咱们先说说这“根儿”。

在语义树里头，根儿就是最基础、最核心的那个部分，它就好像是树干一样，承载着整棵树的最重要信息。

在语义分析中，这“根儿”通常就是咱们要分析的那个句子或者短语，是咱们整个分析的起点。

再说说这“枝儿”。

枝儿就是从根儿上延伸出来的那些部分，它们连接着根儿和叶儿，传递着信息。

在语义树里头，这些“枝儿”就是句子或者短语中的各个成分，比如主语、谓语、宾语、定语、状语等等。

它们之间有着各种各样的关系，就像是树枝之间错综复杂的联系一样。

最后说说这“叶儿”。

叶儿就是树枝上那些最小、最具体的部分，它们直接承载了具体的信息。

在语义树里头，这些“叶儿”就是句子或者短语中的各个词汇，它们是最基本的语义单位，承载着最具体的意义。

这语义树啊，通过把句子或者短语中的各个成分组织成一棵树状结构，就能让咱们更加清晰地看到这些成分之间的关系和它们所承载的意义。

这对于咱们进行自然语言处理、信息抽取、机器翻译等等工作都是非常有帮助的。

总之啊，这语义树就是一种非常实用的数据结构，它能够让咱们更加深入
地理解句子或者短语的结构和意义，是咱们在进行自然语言处理工作时不可或缺的工具。

概念树在短文本语义相似度上的应用

第２２卷

第６期
计算机技术与发展
ＣＯＭＰＵＴＥＲＴＥＣＨＮＯＬＯＧＹＡＮＤＶＥＬＭＥＮＤＥＯＰＴ
Ｖ０．２Ｎｏ６１２．
２１０２年６月
Ｊｎ２２ｕｅ０１
概念树在短文本语义相似度上的应用
赵小谦，郑彦，海庆储
ＡｐｌａｉｎｏｎｅｔＴｒｅｉｅｎｉｉｌｒｔｆＳｏｔＴｅｔｐｉｔｏｆＣｏｃｐｅｎＳｍａｔｃＳｍｉｉｏｈｒｘｓｃａｙ
ＺＨＡＯａＸｉｏ—ｑａＺＨＥＮＧｎ，ｉｎ，ＹａＣＨＵｌｉｇＨａ —ｑｎ
（南京邮电大学计算机学院，江苏南京２００）１３０
摘要：网络的发展，文本语言计算的研究方兴未艾，语义相似度在人工智能、知学、义学、随着短且认语心理学和生物学
等领域里占有重要位置。在已有的传统的相似度研究算法上，为了能更快更准确地计算出相似度，文中通过构建概念树，
ＳｓｔｅｃｎｅｔｉｔｎｒＯｎｔｅｂｓｓｏｅｓｍｉｒｔａｃｌｔｎｍａｅｅｒｔｅａｓｌｒｃｕａｅ，Ｏｉ’ ｒｏｖｎｅｔＯａｏｃｐｓｄｃｏａｙ．ａｉｆｔｉｌｉｃｕａｉｋｓｔｅｒｖｌｒｕｔｍｏａｃｒｔＳｔＳｍｏｃｎｅｉｎｈｉｈｈａｙｌｏｈｉｅｓｅｅｔｔｄｅｓｍｉｒｔｎｅｕｉｕｎｓｎｓｏｔｔｘｓａｄｔｅｌｔｎｎ．ｏｓｕｙｔｉｌｉａｄｔｎｑｅｅｓｉｈｒｅｔｎａｍｉｉｇｈａｙｈｈｅＫｅｒｓｓｏｔｔｘ；ｏｄｔｃｎｅｔｔｅｓｍａｔｃｓｍｉｒｔｙｗｏｄ：ｈｒｔＷｒＮｅ；ｏｃｐｒｅ；ｅｓｅｎｉｉｌｉａｙ

基于概念语义树的语义相似度计算方法研究

基于概念语义树的语义相似度计算方法研究作者：韩欣,秦帆来源：《电脑知识与技术》2011年第16期摘要：现在信息检索的应用已经越来越广泛，但要在具体领域中做到准确搜索，仍然是一件比较难的事情。

该文提出一种基于概念语义树的语义相似度计算方法，综合考虑了概念的语义关系、层次结构和继承关系等因素，尽可能的地提高在特定领域中的信息检索效率，并最后通过实验，验证了该方法的可行性。

关键词：语义检索；概念语义树；语义相似度中图分类号：TP391 文献标识码：A 文章编号：1009-3044(2011)16-3809-02Research on Method of Semantic Similarity Based on Concept Semantic TreeHAN Xin, QIN Fan(School of Electronics and Computer Science and Technology, North University of China, Taiyuan 030051, China)Abstract: At present, the application of information retrieval has been widely used, but it is still a difficult thing to be accurate in the specific field of searching. This paper provides a semantic similarity calculation method based on the concept semantic tree, considering the concept of the semantic relations, hierarchies, and inheritance and other factors, as much as possible to improve retrieval efficiency in specific areas of information, and at final, demonstrate the feasibility of the method by experiment.Key words: semantic retrieval; concept semantic tree; semantic similarity传统的信息检索都是基于关键词查询的，因此在检索时可能会出现一堆用户并不真正需要的信息，导致查询结果的准确率很低，查全率也不令人满意，会出现“表达差异”，“词汇孤岛”等问题。

基于树结构的本体概念相似度计算方法

基于树结构的本体概念相似度计算方法
徐英卓;贾欢
【期刊名称】《计算机系统应用》
【年(卷),期】2017(026)003
【摘要】随着本体在数据集成方面的广泛应用,面向本体的概念相似度计算成为人们关注的热点问题.针对当前领域本体概念相似度的计算过程都比较复杂的问题,提出一种基于树结构的本体概念相似度的计算方法.该方法通过添加和重组虚拟节点重构本体树,再通过属性比较映射对象,最后通过计算,得到本体概念的语义相似度结果.实验结果表明,该方法有效利用了本体概念的语义信息,得到了合理的计算结果,并简化了计算过程.
【总页数】5页(P275-279)
【作者】徐英卓;贾欢
【作者单位】西安石油大学计算机学院,西安790065;西安石油大学计算机学院,西安790065
【正文语种】中文
【相关文献】
1.基于概念格的跨本体映射中概念相似度计算方法 [J], 滕广青;毕强
2.一种改进的基于本体概念相似度计算方法研究 [J], 刘影;陈立;宋自林;董庆超;陈兴华;朱卫星;何继贤
3.一种基于语义的本体概念相似度的计算方法 [J], 吴开贵;万红波;朱郑州
4.基于本体的概念相似度计算方法研究 [J], 李荣;杨冬;刘磊
5.基于OWL的本体映射中概念相似度计算方法的研究 [J], 肖潇;杨贯中;陈春磊;段瑞安
因版权原因，仅展示原文概要，查看原文内容请购买。

一种改进的本体语义相似度计算及其应用

一种改进的本体语义相似度计算及其应用摘要：本文提出了一种改进的本体语义相似度计算方法，该方法基于本体的结构和语义信息，通过计算本体中概念之间的相似度，实现了本体语义相似度的计算。

该方法不仅可以应用于本体的构建和维护，还可以应用于自然语言处理、信息检索、知识管理等领域。

关键词：本体；语义相似度；计算方法；应用一、引言随着信息技术的不断发展，人们对于信息的需求越来越高。

为了满足这种需求，本体技术应运而生。

本体是一种用于表示某个领域中概念和它们之间关系的形式化知识表示工具。

本体可以用于知识管理、语义网、自然语言处理等领域。

其中，本体语义相似度计算是本体技术中的一个重要问题。

本文提出了一种改进的本体语义相似度计算方法，并探讨了它的应用。

二、相关工作本体语义相似度计算是本体技术中的一个重要问题，也是自然语言处理、信息检索等领域的研究热点。

目前，已经有很多学者对本体语义相似度计算进行了研究。

其中，基于路径长度和信息内容的计算方法是比较常见的方法。

这种方法的基本思想是通过计算本体中概念之间的路径长度和信息内容的相似度，来计算本体语义相似度。

但是，这种方法存在一些问题。

例如，路径长度的计算方法忽略了本体中概念之间的语义信息，而信息内容的计算方法又存在信息不完备、信息不准确等问题。

因此，需要提出一种新的本体语义相似度计算方法。

三、改进的本体语义相似度计算方法本文提出了一种改进的本体语义相似度计算方法，该方法基于本体的结构和语义信息，通过计算本体中概念之间的相似度，实现了本体语义相似度的计算。

该方法的具体步骤如下：1、概念相似度计算对于本体中的每个概念，首先计算它和其他概念之间的相似度。

具体而言，可以采用基于信息内容的相似度计算方法，例如余弦相似度、欧几里得距离等。

这种方法可以避免路径长度计算方法的缺陷，同时也可以考虑到概念之间的语义信息。

2、概念路径相似度计算对于本体中的每个概念，计算它和其他概念之间的路径相似度。

基于维基百科的短文本相关度计算

基于维基百科的短文本相关度计算荆琪;段利国;李爱萍;赵谦【摘要】为提高短文本语义相关度的计算准确率,将维基百科作为外部语义知识库,利用维基百科的结构特征,如维基百科的分类体系结构、摘要中的链接结构、正文中的链接结构以及重定向消歧页等,提出类别相关度与链接相关度相结合的词语相关度计算方法.在此基础上,提出基于词形结构、词序结构以及主题词权重的句子相关度计算方法.实验结果表明,在词语相关度计算方面,该方法的Spearman参数比文本相关度计算方法提高2.8％,句子相关度准确率达到73.3％.【期刊名称】《计算机工程》【年(卷),期】2018(044)002【总页数】6页(P197-202)【关键词】维基百科;相关性;语义相似度;语义相关度;短文本【作者】荆琪;段利国;李爱萍;赵谦【作者单位】太原理工大学计算机科学与技术学院,太原030600;太原理工大学计算机科学与技术学院,太原030600;太原理工大学计算机科学与技术学院,太原030600;武汉大学软件工程国家重点实验室,武汉430072;太原理工大学计算机科学与技术学院,太原030600【正文语种】中文【中图分类】TP391.10 概述语义相关度计算作为自然语言处理领域一项基本性的研究工作,广泛地应用于查询扩展、词义消歧、机器翻译、知识抽取、自动纠错等领域[1]。

随着社交媒体的出现,例如BBS、贴吧、聊天工具等,文本已成为重要的信息载体,其规模呈现出爆炸式的增长趋势,尤其是短文本,作为一种新兴的文本信息源,已成为了人们交流以及表达的重要形式。

目前,对于中文语义相关度的计算方法大多以相似度计算为基础,然而相似度并不能完全替代相关度,相似度指的是“相像、相类”,具有可替代性;相关度反映的是“互相涉及、彼此关联”,通常高频出现在同一语境中的共现词相关度较高,即相关性具有不可替换性。

可以把相似性当作相关性计算的一个特征因子,作为最终结果的一部分。

由于短文本所表达的信息有限,因此需要大量的背景知识来对样本特征进行扩展,获取背景知识的方法可以分为2类:一类是基于语义词典,如WordNet、Hownet等;另一类是对大规模语料库进行统计分析来获取背景知识。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（ 1）手动给出概念树的层次框架，而框架的优化和完善则可以交给程序半自动来完成；
（ 2）父概念是子概念的总结，子概念是父概念的细分；
（ 3）不同的子概念代表父概念中的不同领域；（ 4）子女可能不只有一个父母，即有向无环图可能成为概念树的层次结构。 2． 3 构建概念树由于概念关系很复杂，可以放在网络拓扑结构中研究，但是这无疑增加了难度和复杂度，为此，把上 / 下位关系作为树节点中‘父 / 子关系’，而其他的关系以关系指针的方式进行关联。因为研究树的特点往往要比网络容易的多。对于词典而言，最基本的操作就是检索，一部好的词典必须拥有相当高的查找效率，所以为此构造了索引表，来提高搜索效率，其原型为单链表结构，对应到概念节点的编码值［6］。编码这个概念应该算是很常见的，商场物品有条形码，每个人有身份证号码等等。现在，从概念的词性、类别以及在词典中的结构三个角度对概念设计编码规则［7］。将编码分为两个部分：第一部分体现概念的含义，称之为“语义码”；第二部分体现概念之间上 / 下位关系和在树中的位置，称之为“方位码”。接下来介绍语义码的的
2． 4 概念树构建算法 InPut： DataSource． OutPut： Tree． Tree（ DataSouce）｛ Enter = SourceParse （ DataSource）； / / 对源数据
究概念之间的相互关系，要把这些关系尽可能地在词典中体现出来。从而构建一个简单实用，且能方便地表示出概念与概念之间的联系关系，成了短文本相似度研究的关键。
1 概念间的相互关系
WordNet 是最流行的英文语义词典，它也可以被看做是一个关于自然语言词条的一个本体［2，3］。它包含了约 10 万个词条，每个词条与一个或多个意思（一词多义）相对应。词条自顶而下被组织成分层的树状结构，靠近顶端的词条表示较广泛的概念，较低层次的词条表示较细致的概念。WordNet 主要包含了名词、动词、形容词和副词这 4 大类词，词与词之间通过不同的关系相联系。其中最常用的关系是“是什么 ”关系和“整体—部分”关系，因为轮胎是汽车的一部分。通过这样的一些关系，词与词被联系了起来，不再是孤立的。HowNet［4］是一个在线的应用广泛的中文词语词典。HowNet 不仅包含了词与词之间的关系，还将各个中文词与它们对应的英文词或解释联系起来。 HowNet 中包含的关系主要有上下位词关系、同义词关系、
收稿日期：2011 －11 －14 ；修回日期：2012 －02 －20 基金项目：国家重点基础研究发展规划（ 973）课题（ 2006AA01Z201）作者简介：赵小谦（ 1986－），女，硕士研究生，研究方向为数据仓库与决策支持系统；郑彦，教授，研究方向为数据仓库与决策支持系统。
词性，用不同的符号进行标记，如表 1 所示：表 1 词性编码映射表
词性名词动词形容词副词介词数量词助词连词时间词方位词
标记 n v
a
dp q
uc
t
f
其次，需对不同的类别进行进一步标记，使得概念之间区分得更加细致。以动词的 15 种类别为例进行标记，以 char s［5］存储其语义码，第 1 位确定它的基本词性，以‘v’开头，后 4 位用以区别类别。例如身体动作动词（ Verbs of Bodily Functions and Care），语义码为 vbody；通信动词（ Verbs of Communication），语义码为 vcomm；变化动词（ Verbs of Change ），语义码为 vchng；竞争动词（ Competition Verbs），语义码为 vcomp；消费动词（ Consumption Verbs），语义码为 vcons 等等。
·161·
其中 Description 为对此概念进行描述。表 2 上下位关系记录表
Code 1 11 12 13 131 132
1321
Name A B C D E F G
Parent Null l（ A） l（ A） l（ A） l3（ D） l3（ D） l32（ F）
Description Null Nul Nul Nul Nul Nul Nul
图 2 概念节点编码示意图定义一张表格（如表 2），结合数据结构概念。当 Parent 为空时，则对应树的根节点。Parent 可以用来表示节点之间的上下位关系，例如 Parent = l（ A）则表示 B，C，D 的上位节点是 A，而 B，C，D 则为兄弟节点。
第6 期
赵小谦等：概念树在短文本语义相似度上的应用
等领域里占有重要位置。在已有的传统的相似度研究算法上，为了能更快更准确地计算出相似度，文中通过构建概念树，
设法把短文本集中到某个特定的领域。因概念树、概念词典既能表现概念之间的语义关系，又能表现概念层次结构，故而
更能大大提高检索效率。在此基础上的相似度计算也使得检索结果更加准确，进而方便研究短文本之间的相似性与唯一
上下位词关系如图 1 所示。
图 1 上下位词关系
2 概念树
2． 1 概念树的结构用语义网络描述概念之间的相互关系。根据数据
结构知识可知，可以用概念树［5］方便的表示出语义网路。其中，领域概念的总集合可以用根节点来表示，最（较）小的概念用叶子节点表示。上层概念为子概念的概括，相反，子概念则为父概念的细分。 2． 2 概念树的构建原则：
·160·
计算机技术与发展
第 22 卷
部分—整体关系、相反关系、材料—产品关系、动态角色等等。最新的 HowNet 版本涵盖了约 11 万个概念。
在这里，以 WordNet 为例，由于所有的词都被自顶向下组织成了一个树状的结构，所以任意一个词都可以通过它们之间的路径长度和它们各自的深度信息反映出来。
性，大大增加了后期对挖掘的正确性。
关键词：短文本； WordNet；概念树；语义相似度
中图分类号：TP39
文献标识码：A
文章编号：1673－629X（ 2012） 06－0159－04
Application of Concept Tree in Semantic Similarity of Short Texts
现在使用的通用词典不能做到面面俱到，只在有的应用上显得非常成熟。如今的词汇量日益剧增，这就要求不能单单使用关键词匹配原则［1］进行匹配检索。与传统的词典不同，现如今的词典并不是仅仅要求把概念中的简单词汇按照某种序列编排起来。自然界中的事务之间都相互存在着联系，同样，概念也是如此。所以不仅要研究概念的含义，更多的时候，需要研
0引言
信息时代的到来，我国互联网事业和通讯事业发生了翻天覆地的变化，导致以电子形式存储和处理的数据爆炸性增长。这些数据中有很大一部分是长度很短的文本数据，且涉及的领域之广，深刻改变了亿万中国人的沟通方式和生活习惯。正因如此，对短文本的相似度计算，必须要分领域考虑。
ZHAO Xiao －qian，ZHENG Yan，CHU Hai－qing
（ College of Computer，Nanjing University of Posts and Telecommunications，Nanjing 210003，China）
Abstract： With the development of the netw ork，short texts have attracted numerous researchers＇ attention，semantic similarity occupies an important positions in artificial intelligence，cognitive linguistics，semantics，psychology and biology． It is different from traditional essays on the research of semantic similarity，w hich tries to put the short text focus on some special area by building the concept tree． It’s concept tree that show s the relationship and hierarchical structure betw een concepts，w hich more greatly improve the efficiency of searching， so as the concepts dictionary． On the basis of the similarity calculation makes the retrieval results more accurate，so it’s more convenient to study the similarity and the uniqueness in short texts and the late mining． Key words： short texts； WordNet； concept tree； semantic similarity
（ b）方位码。顾名思义它能表现出概念在概念树中的具体位置，以及同其他概念之间的关系。由于根据概念间的相互关系进行词典的构建，所以，要在编码中能够体现出某些关系，比如上 / 下位关系。已经确立了建立概念树的方法，得知概念的上 / 下位关系通过树的‘父子’关系来反映出来。