社交媒体知识图谱构建和知识推理的关键技术研究

合集下载

大数据时代的知识图谱构建与推理机制研究

大数据时代的知识图谱构建与推理机制研究

大数据时代的知识图谱构建与推理机制研究随着大数据时代的到来,知识图谱成为了构建和推理信息的重要工具。

知识图谱是一种以图形的形式呈现的结构化知识库,它通过链接实体之间的关系和属性,提供了丰富的语义信息。

知识图谱的构建与推理机制研究是在大数据时代背景下,实现智能识别、数据挖掘和推理的关键问题。

一、知识图谱构建的基本步骤1. 数据收集与清洗:在构建知识图谱的过程中,首先需要收集和整理大量的数据。

这些数据可以来自结构化的数据库、半结构化的网页和文本、以及非结构化的多媒体内容。

然后将收集到的数据进行清洗,去除噪音和冗余信息。

2. 实体识别与链接:在知识图谱中,实体是指具体的人、地点、产品、组织等,它们通过关系链接构成了知识图谱的节点。

实体识别是将文本中的实体识别出来并进行分类,然后通过链接标识实体间的关系。

3. 关系提取与抽取:关系是知识图谱中不同实体之间的链接。

在构建知识图谱时,需要通过自然语言处理和文本挖掘技术从文本中提取出实体之间的关系,并将这些关系转化为可操作的数据。

4. 知识表示与存储:知识图谱的构建过程中,需要对实体、关系和属性进行统一的知识表示和存储。

常用的方法有基于图数据库的存储、RDF三元组表示和OWL本体表示等。

二、知识图谱的推理机制研究1. 知识推理:知识推理是基于已有实体、关系和属性之间的逻辑和语义推理,从而发现新的实体、关系和属性,并丰富知识图谱的内容。

常见的推理方法包括逻辑推理、网络推理、统计推理和机器学习等。

2. 问题回答与推荐系统:利用知识图谱的推理机制,可以搭建智能问答系统和个性化推荐系统。

通过对用户的提问或者需求进行语义理解和推理,系统能够根据知识图谱中的知识和信息,高效地回答问题或者推荐个性化的内容。

3. 关联分析与知识发现:知识图谱推理机制可以通过分析知识图谱中的实体、关系和属性之间的关联关系,发现隐藏在数据中的模式和规律。

基于这些关联,可以进行知识发现、数据挖掘和预测等任务。

知识图谱的关键技术与应用

知识图谱的关键技术与应用

知识图谱的关键技术与应用随着人工智能技术的不断发展,知识图谱逐渐成为人工智能领域中的重要技术之一。

知识图谱不仅可以帮助机器理解语言,还可以通过知识链接和推理等功能实现类人的思维能力。

本文将介绍知识图谱的关键技术和应用。

一、知识图谱的定义知识图谱是一种人工智能技术,是一种用于描述事物之间关系的图形化表示方法。

它是一种基于实体、属性和关系的知识组织结构,可以将各种信息进行结构化、标准化和统一化处理,从而达到知识互通的目的。

二、知识图谱的关键技术1. 知识获取知识图谱的基础是知识获取,该过程涉及到信息抽取、实体识别、关系提取、实体链接等技术。

在知识获取过程中,对于不同的数据源,需要设计不同的算法模型和规则库,并通过自然语言处理、机器学习等技术在大规模语料库中自动化地提取实体和关系,并将其转化为结构化和标准化的知识形式。

2. 知识表示知识表示是指将从不同数据源中获取的知识进行统一标准的表示和存储,以实现知识的互通和可推理。

在知识表示过程中,需要考虑知识表示的粒度、表示形式和知识本体等方面。

当前最常用的知识表示技术包括RDF、OWL、RDFS等。

3. 知识推理知识推理是实现知识智能处理的核心技术之一。

知识推理通过基于本体、规则和语义等方式,进行知识关联、归纳、演绎等推理,并通过推理产生新的知识。

知识推理涉及到推理引擎、推理规则、查询语言等技术。

4. 知识查询知识查询是指在知识图谱中进行复杂的查询操作,以实现知识检索、推理以及问题解答。

知识查询技术包括SPARQL、SQL、RQL等。

三、知识图谱的应用1. 搜索引擎知识图谱可以帮助搜索引擎提供更准确的搜索结果。

例如,谷歌通过使用知识图谱,可以为用户提供更多的相关搜索结果,提高搜索精度。

2. 智能客服知识图谱可以帮助智能客服更准确地理解用户意图和问题,并给出更准确的回答。

例如,使用知识图谱可以建立机器人对话模型,实现智能对话,并提供更加便捷的客户服务。

3. 金融领域知识图谱在金融领域中也有广泛的应用。

知识图谱应用于传媒新闻领域研究

知识图谱应用于传媒新闻领域研究

知识图谱应用于传媒新闻领域研究随着互联网的飞速发展,人们获取信息的途径也越来越多样化,传媒行业面临着巨大的挑战。

如何更好地理解、呈现和传播信息,成为了传媒新闻领域研究的重要问题。

在这个背景下,知识图谱作为一种新兴的数据结构和语义技术,逐渐引起了人们的关注,并得到了广泛的应用。

本文就对知识图谱在传媒新闻领域的应用进行了探讨和研究。

一、什么是知识图谱知识图谱(Knowledge Graph)是一种将信息按照语义组织的结构化知识库。

它是一种人工智能技术,通过对实体、属性和关系的描述,构建出一个语义网络图,使得机器能够理解和处理人类语言的含义,并可以通过推理、搜索等方式自主获取信息。

知识图谱与传统的数据库和搜索引擎不同,传统的数据库主要存储结构化数据,便于快速的存取和查询;而搜索引擎则是以关键词为中心,结合算法进行内容的匹配和展示。

而知识图谱则更加注重语义的描述和抽象,通过利用自然语言处理和机器学习等技术,将实体的语义信息抽象出来,使得系统可以自动理解实体之间的关系,从而实现更加精准的信息检索和知识推理。

二、知识图谱在传媒新闻领域的应用1、信息抽取和实体建模在传媒新闻领域,人们的核心任务是理解和呈现信息。

为此,大量的信息需要被抽取和整理成结构化的数据,方便后续的处理和查询。

知识图谱可以通过自然语言处理技术和机器学习算法,将文本信息中的实体、属性和关系等信息抽取出来,并进行有效的整合与建模。

这为传媒新闻行业提供了更加高效和准确的信息处理手段。

2、新闻推荐和个性化服务知识图谱可以利用用户的兴趣和行为特征,进行个性化推荐服务。

以知乎为例,知乎的“推荐”栏目就是运用AI技术和知识图谱算法实现的。

当用户对知乎上关注的话题越来越多,知照的推荐也越来越准确,越能满足用户个性化需求。

同样,对于传媒新闻行业,知识图谱可以根据不同用户的搜索历史、阅读记录和行为习惯,进行个性化新闻推荐服务。

这样可以更好地满足用户的需求,提升媒体的用户粘度。

知识图谱构建的关键技术研究

知识图谱构建的关键技术研究

知识图谱构建的关键技术研究知识图谱是一种基于人工智能与万物互联的语义数据处理技术,它是将人类语言和知识变成机器可以理解和处理的形式,实现了从数据到知识的演替。

知识图谱的构建涉及多个学科领域和技术方向,其中包括自然语言处理、图数据库、数据挖掘、机器学习等一系列的方法和技术,这些技术是知识图谱能够实现语义查询、智能推荐、智能问答等应用的关键。

本文将就知识图谱构建的关键技术进行一些探讨。

1.语义分析技术语义分析是指通过自然语言处理将人类语言转化为机器可理解和操作的形式,并从中提取出有意义的信息。

在知识图谱构建过程中,语义分析是非常重要的一步。

自然语言处理技术被广泛应用于对文本的解析,包括词汇分析、语法分析、句法分析、命名实体识别等。

其中,命名实体识别是非常关键的技术,它可以从文本中识别出人名、地名、组织机构名等实体,并通过实体链接技术将这些实体与知识库中的实体进行关联。

这样可以将分散的数据块联系起来,构建起更为完整的知识图谱。

2.本体构建技术本体是指仅仅定义了实体类型、属性和关系的概念体系。

在知识图谱构建中,本体是知识库的核心部分,它是把真实世界中的样本数据映射到机器可理解的形式的重要方法。

本体构建涉及的技术包括本体设计、本体维护、本体推理、本体评估等。

本体设计是指确定实体类型、类之间的关系和类内属性等。

本体维护是指根据数据的变化随时调整本体的结构和内容。

本体推理是指在本体的基础上,通过推理算法,增加新的实体、属性和关系。

本体评估是指检查本体中实体、属性和关系是否正确和完整。

3.实体链接技术实体链接指的是将文本或图像中的实体与知识库中的实体进行对应。

该技术是知识图谱构建中非常重要的步骤。

它可以通过实体链接技术将文本和图像中的实体与知识库中的实体进行对应,从而使得数据在不同的领域之间实现关系的联系和跨领域的知识应用。

该技术包括实体抽取、实体对齐、实体分析和实体排名等。

其中实体抽取是指从文本或者图像中抽取出实体,实体对齐是指将抽取出的实体与知识库中的实体进行对应,实体分析是指从实体和关系的结构信息中提取知识。

自然语言处理中的知识图谱构建与推理技术研究

自然语言处理中的知识图谱构建与推理技术研究

自然语言处理中的知识图谱构建与推理技术研究自然语言处理(Natural Language Processing,NLP)是人工智能领域的重要分支,致力于让计算机能够理解和处理人类语言。

而知识图谱(Knowledge Graph)则是NLP中的一个重要概念,它是一种结构化的、语义化的知识表示方式,通过将实体、属性和关系组织成图的形式,实现对知识的有效存储和推理。

知识图谱的构建与推理技术是NLP研究的热点之一,本文将对该领域的研究进展进行探讨。

一、知识图谱构建技术知识图谱的构建过程可以分为三个主要步骤:实体识别、关系抽取和图谱构建。

实体识别是指从文本中识别出具有特定语义的实体,例如人名、地名、机构名等。

关系抽取则是从文本中提取出实体之间的关系,例如“A是B的创始人”、“C位于D的东部”等。

最后,将实体和关系组织成图的形式,构建知识图谱。

在实体识别方面,传统的方法主要依赖于规则和词典,通过匹配关键词来识别实体。

然而,这种方法往往需要大量的人工标注和手动规则的设计,且无法适应不同领域和语境的变化。

近年来,随着深度学习技术的发展,基于神经网络的实体识别方法取得了较好的效果。

通过训练神经网络模型,可以自动学习实体的语义特征,提高实体识别的准确率和泛化能力。

关系抽取是知识图谱构建的核心环节之一。

传统的关系抽取方法主要基于规则和模板匹配,但这种方法往往需要大量的人工标注和手动规则的设计,且无法适应不同语境和领域的变化。

近年来,基于深度学习的关系抽取方法取得了显著的进展。

通过使用神经网络模型,可以自动学习关系的语义特征和上下文信息,提高关系抽取的准确率和泛化能力。

图谱构建是将实体和关系组织成图的过程。

传统的图谱构建方法主要基于规则和人工标注,但这种方法需要大量的人力和时间成本。

近年来,基于半监督学习和迁移学习的图谱构建方法取得了较好的效果。

通过利用已有的知识图谱和大规模的文本语料,可以自动构建新的知识图谱,降低构建成本和提高图谱的覆盖范围。

基于跨域问题的知识图谱构建和推理方法研究

基于跨域问题的知识图谱构建和推理方法研究

基于跨域问题的知识图谱构建和推理方法研究一、引言知识图谱作为当前人工智能领域中广受关注和研究的重要技术之一,已经广泛应用于许多领域,如自然语言处理、搜索引擎、推荐系统等。

但是,在知识图谱构建和推理过程中,常常会遇到跨域问题。

跨域问题指的是不同领域、不同语言以及不同数据源之间的数据共享和交互困难问题。

为了解决跨域问题,在本文中,我们将结合知识图谱构建和推理方法,探讨基于跨域问题的知识图谱构建和推理方法研究。

二、知识图谱构建方法知识图谱构建通常包括三个步骤:数据预处理、实体识别和关系抽取。

1. 数据预处理:数据预处理是指对原始数据进行清理和格式化处理,以获得符合知识图谱构建要求的数据。

数据预处理包括以下步骤:(1)数据清理:去除噪声和重复数据,并进行规范化处理。

(2)数据标注:对数据进行标注,如对文本数据进行词性标注和句法分析等。

(3)数据格式化:将数据转换为知识图谱所支持的数据格式,如RDF、OWL等。

2. 实体识别:实体识别是指从数据中识别出实体,如人物、地点、组织机构等。

实体识别通常包括以下步骤:(1)命名实体识别:对数据中的命名实体进行识别和抽取。

(2)分类器训练:将抽取到的实体通过分类器进行分类和标注。

(3)实体链接:将同一实体在不同数据源中的标识链接起来。

3. 关系抽取:关系抽取是指从数据中识别出实体之间的关系。

关系抽取通常包括以下步骤:(1)文本分析:对数据进行自然语言处理,抽取出实体之间的联结词和关系性质。

(2)分类器训练:将抽取出的关系通过分类器进行分类和标注。

(3)关系链接:将同一关系在不同数据源中的标识链接起来。

以上三个步骤是知识图谱构建的基本过程。

但是,在面对跨域问题时,我们需要采用特殊的技术和方法来实现数据源之间的共享和交互。

三、跨域知识图谱构建方法跨域知识图谱构建指的是将不同领域、不同语言以及不同数据源中的数据进行共享和交互,从而构建出跨域知识图谱。

跨域知识图谱构建通常包括以下步骤:1. 领域识别:首先需要对不同领域的数据进行识别和分类。

技术领域中的知识图谱构建方法与应用研究

技术领域中的知识图谱构建方法与应用研究

技术领域中的知识图谱构建方法与应用研究引言:在信息时代快速发展的背景下,海量的数据成为了技术领域的重要资源。

然而,如何利用这些数据中的知识,以及如何将这些知识应用于实际领域中,一直是科学家们关注的重点。

知识图谱的出现为解决这个难题提供了一种有效的方法。

本文将重点介绍技术领域中的知识图谱构建方法及其应用研究。

一、知识图谱构建方法:1. 数据收集与整理知识图谱的构建首先需要收集相应的数据。

这些数据可以来自于互联网、开放数据库或者企业内部的数据。

为了确保数据的质量和准确性,可以采用自动化的数据收集工具或者人工逐条整理的方式。

整理数据时需要注意去除重复数据、修正错误信息,并进行数据去噪处理。

2. 实体识别与关系提取在知识图谱中,实体是指具有特定意义的事物或者对象,关系则描述了实体之间的联系。

实体识别是指从文本或者数据中自动识别出具有实体特征的词汇或短语,而关系提取则是从文本中提取出实体之间的关系。

常用的实体识别和关系提取方法包括基于规则的方法、基于机器学习的方法和基于深度学习的方法。

3. 知识表示与存储知识图谱的构建需要将收集到的数据进行表示和存储。

常用的知识表示方法包括图结构、三元组和矩阵表示等。

图结构是将实体和关系表示为节点和边的连接方式,三元组则是以主语、谓语和宾语的形式表示实体和关系,矩阵表示则是将实体和关系表示为矩阵的形式。

在存储方面,可以选择使用关系型数据库(如MySQL),图数据库(如Neo4j)或者面向列的数据库(如HBase)等。

4. 知识推理与补充知识图谱的构建并不仅仅是将数据进行表示和存储,还需要进行推理和补充。

推理是指根据已有的知识,通过逻辑推理或统计方法,形成新的知识。

补充则是指根据已有的知识,从其他数据源中找到相关的数据,并将其添加到知识图谱中。

推理和补充可以进一步丰富和完善知识图谱的内容。

二、知识图谱的应用研究:1. 语义搜索与问答系统知识图谱可以为搜索引擎和问答系统提供大量的知识支持。

知识图谱技术的研究与应用

知识图谱技术的研究与应用

知识图谱技术的研究与应用一、知识图谱技术的概念知识图谱技术是一种人工智能技术,它可以将不同领域的信息进行整合和语义解析,实现“万物皆可链接”的概念。

通过将各类信息以实体、属性、关系进行描述,形成一个大规模的图谱,不仅能帮助人们快速地了解某个领域的知识,而且可以实现知识的智能推理和应用的扩展。

知识图谱技术的出现,正在推动互联网向“智能互联网”转型。

二、知识图谱技术的发展历程知识图谱技术的源头可以追溯到上世纪六七十年代的人工智能领域,但当时受限于计算能力和数据量的限制,知识图谱技术没有得到广泛应用。

直到二十一世纪初,随着互联网和大数据的爆发,知识图谱技术开始得到发展。

2012年,谷歌推出知识图谱(Google Knowledge Graph)功能,开启了知识图谱技术的商业化应用。

2016年,中文经典图书知识图谱首次亮相,标志着中文知识图谱的建立进入商业化时代。

三、知识图谱技术的核心技术知识图谱技术包含多个子技术,其中最核心的技术包括:1.实体抽取:将文本数据中的实体名称(人、地、物等)进行识别和分类。

2.关系抽取:在实体之间识别和分类他们之间的关系,例如“张三是李四的朋友”。

3.知识表示:将实体和关系抽象为结构化的表示形式。

4.知识融合:将不同来源和不同领域中的知识进行融合。

5.知识推理:基于知识图谱中的信息,实现知识的自动推理和推断。

四、知识图谱技术的应用1.智能搜索:利用知识图谱技术,搜索引擎可以提供更准确、个性化和丰富的搜索结果。

2.自然语言处理:知识图谱技术可以将人类言语转化为结构化的表示形式,从而实现智能问答和语义分析。

3.智能客服:基于知识图谱技术,智能客服可以更准确地理解用户提问,提供更快捷、精准的解答和帮助。

4.推荐系统:基于知识图谱技术,推荐系统可以对用户行为和兴趣模式进行分析和识别,提供更加个性化、精准的推荐服务。

5.智能物联网:知识图谱技术可以将物联网中的各类设备、传感器和人类活动进行链接,并实现智能化管理和调度。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

社交媒体知识图谱构建和知识推理的关键技术研究作者:陈学楷谭策刘湉吴正己来源:《科学导报·学术》2020年第18期摘 ;要:随着社交媒体的发展,网络平台的言论逐渐趋于个体化,因此准确识别一个人对某话题的言论是否有夸大或偏激的成分便显得尤为重要。

传统的社交媒体情感分析依靠词袋模型来表现言论积极或消极的态度,这样的方法往往会因每个人的用词习惯的不同而变得有失偏颇。

对某人话语是否偏激的推理主要依靠对每个个体长期以来的用词习惯来进行判断。

因此,本文提出了基于知识图谱和PageRank联合的偏颇性预测模型,为每个词定义了偏颇性分数,对判断言论是否存在一定的水分提供了重要依据。

实验结果表明,文本的偏颇性得分在一定程度上确实可以判断用户的语言表达偏颇情况。

关键词:知识图谱PageRank偏颇性分析情感推理1.引言:相对于电视广播、纸质报刊这类传统媒体来说,互联网无论从影响力还是舆论动员力方面都比传统媒体更加有力,然而社交媒体上的言论往往因为其庞大的信息量以及用户言论的片面性使得信息的水分过高,因此需要良好的识别系统来加以判定和筛选。

而知识图谱在自然语言处理方面的角色更像是一个数据库,提供着记忆信息、提供信息的功能。

构建完善的知识图谱有利于发现词与词之间人们有时意识不到的数值关系,从而在自然语言处理中发挥重要作用。

本次实验就是围绕知识图谱的构建方法开始的。

2.相关研究从技术层面来看,知识图谱构建技术在本质上要解决的问题是数据之间潜在关系的预测和知识之间关系推理。

学术组织很早就关注了知识图谱相关技术的研究。

1989年,第一届国际知识表示和推理国际会议(The First International Conference on Principles of Knowledge Representation and Reasoning)的召开,推动了知识表示和推理理论和技术的研究。

2012年,谷歌公司发布了基于语义搜索的项目Knowledge Graph,使得万维网由基于数据链接的网络逐步进化为链接知识的网络。

知识图谱推理是根据已知的实体之间关系推测实体之间的潜在关系,从而给知识图谱增加新的事实。

PageRank是一种基于图模型的结点重要性排序方法,通常在搜索引擎中对网页链接的重要性权衡中发挥着很大的作用。

本文将使用PageRank算法的变形对生成的知识图谱进行知识推理,并尝试用推理后构建出的图谱来预测文本的情感特征,检验推理图谱的可靠性。

情感分析的方法主要可分为基于情感词典的情感分析方法和基于机器学习的情感分析方法。

基于情感词典的情感分析是从待测文本中提取特征词后,在情感词典中查找该特征词的情感值,根据累加的情感值进行情感分类的方法[2]。

在情感词典的选择上,一般有两种方式:一种是引用已有的情感词典,如HowNet词典、SentiWordNet、Inquirers等;另一种是通过研究数据自行构建词典,如R.Feldman等学者在已有的情感词典基础上,利用部分人工标注和Bootstrapping的方式提取情感词[1]。

由于美国最早的社交媒体情感分析就是基于Twitter的社交媒体数据开展的,因此本文将采用针对Twitter平台已有的且准确率较高的情感分析词典SentiWordNet进行知识推理和话语的偏颇性判别。

3.正文3.1实验准备3.1.1实验数据集本实验采用情感词典SentiWordNet_3.0.0来进行文本中词语积极性和消极性的匹配和提取,应用于Twitter用户名为METGALA、archie、best dressed三人的推文中来生成用户主体依赖的知识图谱。

下载链接:推文:https:///download/zzhaier/6640081情感词典:https:///download/zzhaier/66400813.1.2评价标准由于句子的情感表述无法通过准确率召回率等指标进行定量衡量,因此我们对最终的结果进行了人工评价,具体例子可以在3.2.3的部分看到。

3.2实验过程本篇文章大体步骤可分为三个部分,首先依据情感词典和Twitter中用戶的话语来构建词与词之间的情感关系,生成一个两种极性词语全连接的庞大的双向图网络。

其次改进PageRank算法利用词之间的双向关系计算每个词正向和逆向的偏颇值,给每个结点重新赋值。

最后用新的推理图谱,以词语偏颇性代数和的结果判断话语是否偏颇或过激。

3.2.1知识图谱构建现代知识图谱通常使用W3C Resource Description Framework(RDF)[Cyganiak et al.,2014]这一用于存储实体及其关系的基于图的数据模型,标准RDF以三元组(subject,predicate,object)(SPO)来表示事实。

在本篇论文中,我们将predicate视作一种相关性的表示,这种相关性用权重值Weight来表示,Weight的值越大,subject与object的情感对立性越强,反之则越弱,最终用三元组(subject,Weight,object)来表示。

假设我们用符号L表示某一篇推文,li表示隶属于L的每一个句子,对于句中任意的两个词Si和Ti,他们之间的Weight计算公式可如下表示:其中,若Si与Ti同为积极性词或同为消极性词,则二者之间的Weight将较小,即对立性弱,反之若Si和Ti为不同类情感,则二者Weight较大,对立性强。

依照用户话语生成用三元组表示的图模型,用所有Weight的平均值为界限,将值较大的表示为红色,较小的表示为绿色,线条越粗表示距均值越远,用可视化图片表示出来如下:以使用频率较高的love一词举例,该用户使用的与love对立性最强的词是never,最弱的词(也是情感较为相近的词)是honored。

3.2.2知识推理目前,我们已经生成了一个词汇网络,下一步就是给每个节点的词重新赋值。

首先我们以Weight的均值为中心点对Weight进行了数据规约。

而后,根据PageRank的图理论原理,我们对每个结点的值采用如下计算方法:其中,Bu表示所有结点的集合,w+(i,j)和w-(i,j)分别表示连接到结点i的所有正Weight值和负Weight值,W+(j)和W-(j)分别表示与结点i相连的每个结点j的正Weight 值之和及负Weight值之和。

PR+(u)和PR-(u)分别代表与结点i相连的每个结点j的正Weight加权出度值之和与负加权出度值之和。

为了更方便描述,以下图为例,假设图结构中只有四个结点A,B,C,D,则PR(A)、PR(B)、PR(C)、PR(D)计算方法如下:PR(A)=0–[W2/(W2+W3)+W1/W1]PR(B)=[W4/W4+W5/W5]-W1/(W1+W2)PR(C)=W4/(W4+W5)-[W2/(W1+W2)+W3/W3]PR(D)=W3/(W2+W3)-W5/(W4+W5)这里如果假设W2的值较高,即A点和C点在情感得分方面有着很强的关联性,则PR (A)和PR(C)的值将会变小,同时,与C存在对立关系的B点的PR(B)将会变大,也就是说,两个同为积极情感的词若总是同时出现,则该用户平时的推文表现应为平和正面的,而语句中一旦出现与其相反的消极词汇,该模型将会指出这条语句的偏颇性较大,且偏颇值会随着消极词汇的增多而增大;但等到该用户频繁使用消极词汇时,偏颇性又会减小。

这与我们预想的效果基本一致。

3.2.3话语偏颇性判定由于知识图谱是根据某个人长期以来的话语文本和用词习惯创建而来的,因此,在运用时,可作为这个特定的Twitter用户话语偏颇性的重要评判依据,为了检验此知识推理的效果,在生成的知识图谱中查找句中每个特征词的偏颇性分值,根据累加进行有无偏颇的判断,公式如下:由于句子的偏颇性都是相对而言的,单独计算出的Bia值在判断是否过激的层面上没有意义,因此待每句话都算出各自的Bia之后,对所有的值进行向0-1之间的归一化映射,便于我们查看和评判。

实验效果如下表所示:可以看出,第一句话为积极话语,第二句话为消极话语,情感值反差较大,但偏颇值相似,第三句话由于all单词的情感词积极性值过高,其他词语全部中立,因此情感值较高,但经过偏颇性评价,偏颇值大于0.5,发现此话语异常于平时的表达方式,在此判别为过激语句,经过仔细的人工分析其情感,发现也基本符合判断。

但同时与人工评价相比对,该模型评价偏颇话语的错误率也达到了48%,仅仅比随机预测效果好一点有限。

4.结论本篇文章中设计了一个针对Twitter用户的知识图谱,该图是一个带权无向图,其权重是根据用户话语的情感词的值之差计算得到的。

而后将此无向图视做一个双向图,我们设计了一个由PageRank改进来的结点值的静态计算方法来定义结点词语的偏颇性。

最后为了检验我们的设想是否合理,运用数据集中未加入训练的10%的数据挑选进行测试,证明了我们的研究是有一定意义的。

5.思考和展望知识图谱的构建技术是人工智能研究领域的一个前沿课题,此课题以知识工程、社交网络、机器学习等领域的关键技术为支撑,这些领域涌现出的最新研究成果为知识图谱的研究提供了新的研究思路和方法。

本篇文章用于构建知识图谱的数据量相对而言也非常小,实体关系刻画也較为简单,还尚不足以发挥知识图谱的强大作用。

情感分析中评价言论是否过激这一方面由于实际上因人而异。

很难统一用一套标准来衡量所有人的过激言论,因此这一方面仍存在着可研究的地方,不排除需要培养机器“终身学习”的可能性,这将是存储资源飞速发展的时代带给人的新一种可能。

参考文献[1] ;易顺明,周洪斌,周国栋.Twitter推文与情感词典SentiWordNet匹配算法研究[J].南京师范大学学报(工程技术版),2016,16(03):41-47+53.[2] ;赵常煜,吴亚平,王继民.“一带一路”倡议下的Twitter文本主题挖掘和情感分析[J/OL].图书情报工作:1-9[2020-04-21][3] ;平健舟.基于商业知识图谱的新闻舆情系统设计与实现[D].北京邮电大学,2019.[4] ;Wei Chen,Xiao Zhang,Tengjiao Wang,等.Opinion-aware Knowledge Graph for Political Ideology Detection[C]//Twenty-Sixth International Joint Conference on Artificial Intelligence.2017.。

相关文档
最新文档