从视频到语义:基于知识图谱的 视频语义分析技术
基于语义分析的视频内容理解技术研究

基于语义分析的视频内容理解技术研究随着数字化时代的到来,越来越多的视频资源被传到互联网上,这些视频的数量和复杂程度也在不断增加。
传统的通过标签和关键词搜索视频的方式已经难以满足人们的需求,对于视频内容的理解和索引更加复杂。
而基于语义分析的视频内容理解技术则成为了解决这个问题的重要手段,其可以帮助人们更好地理解和管理视频资源。
一、基于语义分析的概念和技术语义分析是一种技术实现方式,其基于人工智能和机器学习等技术,旨在让计算机更好地理解自然语言和视频等多媒体资源。
其中,语义分析主要包括两个方面:语言理解和自然语言处理。
在语言理解方面,主要涉及到文本的分析,包括文本的分类、关键词提取、情感分析和文本摘要等。
而自然语言处理则涉及到自然语言的转换和处理过程。
这种处理主要包括从原始文本中提取语言的特征,如语法和意义,然后将其转化为计算机可处理的形式,从而提高机器对自然语言的理解能力。
在视频内容理解方面,基于语义分析的技术也可以实现多种功能,如视频中物体的检测、识别、跟踪,视频中场景的分类和语义分析,以及视频中人物的识别和情感分析等。
二、基于语义分析的视频内容理解技术的应用目前,基于语义分析的视频内容理解技术已经在许多领域得到应用。
其中,社交媒体、视频网站和在线广告等领域最为典型。
1、社交媒体在社交媒体领域,基于语义分析的技术主要应用于自然语言处理。
这些技术可以帮助人们更方便地搜索信息和内容,并对社交媒体上的视频信息进行分类和整理。
同时,基于语义分析的技术也可以帮助社交媒体平台更加精准地匹配用户,进而提高其用户体验和营销效果。
2、视频网站在视频网站领域,基于语义分析的技术主要应用于视频的自动标记和分类。
通过这些技术,视频网站可以更加精准地对视频进行分类和检索,从而提高用户体验和网站的使用率。
同时,基于语义分析的技术也可以帮助视频网站自动生成视频推荐列表,从而提高用户的满意度和视频的观看率。
3、在线广告在在线广告领域,基于语义分析的技术主要应用于广告定向和分类。
基于语义分析的知识图谱构建

基于语义分析的知识图谱构建随着信息技术的不断发展,互联网上的信息呈现爆炸式增长,人们在获取、利用和共享信息方面遇到了越来越多的挑战。
传统的搜索引擎只能通过关键词匹配的方式来寻找相关信息,但是往往会出现信息垃圾、信息不准确的问题,同时也无法很好地把各种信息连接起来,从而形成一个较为完整的知识体系。
知识图谱是一种利用大量数据来构建出具有智能交互能力的知识库的技术,它可以为用户提供更加准确、多样化、个性化的信息服务和知识交流。
而基于语义分析的知识图谱构建就是一种较为有效的方法,它可以将各种语言和数据转化为计算机可理解的形式,从而能够更加精确和全面地理解、管理和应用知识。
基于语义分析的知识图谱构建主要包括以下几个步骤:1、数据采集和预处理数据采集是构建知识图谱的第一步,需要从多个数据源中获取原始数据,包括文本、语音、图像、视频等。
在采集数据的同时,需要进行数据清洗和预处理,去除不必要的信息,进行数据标准化和归一化,同时也需要对数据进行分类和组织,为后续的知识抽取和分析打下基础。
2、知识抽取和建模知识抽取是将数据中的实体、关系、属性等抽象成计算机可理解的形式,建立起知识库的过程。
在抽取知识的过程中,需要利用自然语言处理、机器学习和人工智能等技术,对数据进行模式匹配、命名实体识别、关系抽取等处理,形成具有结构化的知识表示。
3、语义分析和推理通过语义分析和推理可以更好地理解、管理和应用知识。
在知识图谱中,不同的实体之间存在着复杂的关联关系,通过对这些关系进行分析和推理,可以更加准确地获取相关知识和信息。
同时,还可以利用知识图谱中的逻辑推理、模型预测等方法,对未知领域进行分析预测,实现知识的智能应用。
4、知识展示和交互知识展示和交互是指将建立好的知识图谱以可视化的形式呈现,并为用户提供智能化的交互服务。
知识图谱可以通过图谱展示、实体搜索、问答系统、推荐系统等方式为用户提供多样化的知识服务和智能化的应用。
基于语义分析的知识图谱构建技术在各个领域都有着广泛的应用,如医疗健康、金融、教育、出版、电商等。
知识图谱技术在信息检索中的应用

知识图谱技术在信息检索中的应用引言随着互联网信息的急剧增加,信息检索的难度也越来越大。
传统的检索方式依赖于关键字匹配,很容易出现误判、漏判等问题。
因此,随着人工智能技术的发展,出现了一种新的技术——知识图谱,它基于语义分析,不再是简单地通过文本匹配来进行信息检索,而是建立了语义关系,或称为知识关系,从而实现更准确的信息检索。
一、知识图谱的基本概念知识图谱是一种从数据中自动注意到隐藏的关联关系,并将其呈现为图形结构,从而理解并发现数据之间的复杂关系的技术。
它将数据转换为图形结构,其中节点表示实体或概念,边缘表示它们之间的关系。
此数据转换允许查询者可视化数据,了解其组织原则,并在分析过程中自然推进。
知识图谱工具允许用户直接研究特定主题领域内的实体,概念和意见。
知识图谱是通过语义提取技术实现的,即将大量文本、语音、视频等数据转换为句子、段落、文章等语义信息进行表示,以便计算机能够理解它们。
然后,这些语义信息会被转换为知识单元,存储在知识库中。
最终,这些知识单元组成了知识图谱。
二、知识图谱在信息检索中的应用1. 智能问答智能问答系统是知识图谱在信息检索中的一种重要应用。
智能问答系统可根据用户的问题,对知识图谱中的实体、属性、关系进行检索,并给出答案。
在搜索引擎中搜索,往往只能返回相关网页,并无法直接回答问题,而智能问答系统可以直接回答问题。
例如,百度百科中的“小度”机器人就是一个基于知识图谱的智能问答系统。
2. 文本匹配传统的文本匹配方式,例如文本关键字匹配、模式匹配等,只能精确匹配特定词语或字符串,而忽略了文本之间的语义关系。
基于知识图谱的文本匹配方法可以尝试对查询和文本进行语义解析,并匹配文本之间的知识关系。
因此,它可以提高文本匹配的准确性和召回率。
谷歌的语义搜索就是一种基于知识图谱的文本匹配应用。
3. 智能推荐基于知识图谱的智能推荐系统通过对用户行为、兴趣、需求等信息进行分析,以及对知识图谱中实体、属性、关系的语义分析,为用户推荐相关内容。
语义分析技术在知识图谱构建中的应用教程

语义分析技术在知识图谱构建中的应用教程知识图谱是一种结构化的知识表示方法,它能够将知识中的实体、属性和关系以图的形式呈现出来,并提供了一种便捷的方式来组织、推理和查询知识。
而语义分析技术则是一种对文本进行深层次理解和解析的方法,它能够从文本中提取出实体、属性和关系等信息,并将其转化为计算机可以理解的形式。
本文将介绍语义分析技术在知识图谱构建中的应用方法和步骤。
一、语义分析技术概述语义分析技术是指通过对文本进行分析和解析,提取出其中的语义信息,并将其转化为计算机可以理解和处理的形式。
常见的语义分析技术包括实体识别、关系抽取、属性提取等。
实体识别是指识别文本中的实体,如人物、地点、机构等;关系抽取是指识别文本中实体之间的关系,如“A是B的创始人”;属性提取则是指识别文本中实体的属性,如人物的年龄、国籍等。
这些技术可以帮助我们从大量的文本中提取出有用的知识。
二、知识图谱构建的基本步骤1. 数据收集和预处理:为了构建知识图谱,首先需要收集大量的文本数据。
这些数据可以是从互联网上获取的,也可以是已有的知识库。
在收集到数据后,需要对其进行预处理,包括去除无用的字符、分割句子和词语等。
2. 实体识别:在语义分析中,实体识别是一项非常重要的任务。
实体识别是指从文本中识别出具有特定意义的词语或短语,如人名、地名、机构名等。
通过实体识别,可以将文本中的实体信息提取出来,并构建知识图谱的实体节点。
3. 关系抽取:在知识图谱中,实体之间的关系是非常重要的内容。
关系抽取是指从文本中识别出实体之间的关系,并将其转化为知识图谱中的边。
关系抽取可以基于规则,也可以基于机器学习等方法。
4. 属性提取:除了实体和关系之外,属性也是知识图谱中的重要组成部分。
属性提取是指从文本中提取出实体的属性信息,如人物的年龄、国籍等。
属性提取可以通过词法分析、词性标注等方法实现。
5. 关联和推理:在知识图谱中,关联和推理是非常重要的功能。
关联是指将知识图谱中的实体、关系和属性连接起来,形成一个完整的网络结构;推理则是通过已有的知识进行推理和推断,从而将潜在的知识揭示出来。
基于知识图谱的语义检索技术研究

基于知识图谱的语义检索技术研究随着互联网技术的不断发展,人们随时随地都可以获取海量的信息,但随之而来的是信息过载的困扰。
传统的关键词检索方式已经难以满足人们对信息的精准和高效的需求,而基于知识图谱的语义检索技术可以很好地解决这个难题。
一、知识图谱简介知识图谱是一种用于表示和存储知识的图形结构。
它将实体、属性和关系抽象成节点和边的形式,形成一个具有语义明确、结构清晰的知识库,可以存储和共享各类知识。
知识图谱广泛应用于人工智能、自然语言处理、信息检索等领域。
知识图谱的构建需要经过知识采集、知识抽取、知识表示和知识推理等多个阶段。
通过这些过程,可以将现实世界中的各种知识进行抽象和建模,形成一种表示知识的结构化语义。
二、知识图谱在语义检索中的应用传统的信息检索技术主要依靠关键词匹配来进行检索,但有时候同一个词可能有不同的含义,或者同一概念有不同的表述方式,这样就可能导致检索结果的不准确性和不完整性。
而基于知识图谱的语义检索技术可以很好地解决这个问题。
知识图谱中的实体之间具有丰富的关联关系,这些关联关系可以帮助我们理解实体之间的语义关系。
比如,在知识图谱中,可以将“人”和“国籍”之间建立关系,这样就可以根据国籍信息进行人员的筛选和检索。
此外,知识图谱中还包含了实体的属性,可以根据实体属性的值进行检索,如根据电影的评分、导演等属性进行电影的检索。
基于知识图谱的语义检索技术还可以进行语义推理,从而获取更深层次的语义信息。
比如,在知识图谱中已经存在“父亲”和“儿子”之间的关系,如果我们输入“王先生的儿子是谁?”这样的查询语句,系统就可以通过推理得知王先生的儿子是谁。
三、基于知识图谱的语义检索技术的应用场景1.企业内部知识库检索企业内部的知识库通常涵盖了企业的各个领域的知识,包括技术文档、人员信息、项目信息等。
通过基于知识图谱的语义检索技术,可以快速地从企业内部知识库中获取所需信息,提高工作效率。
2. 智能客服基于知识图谱的语义检索技术已经广泛应用于智能客服领域。
基于深度学习的视频内容理解与语义理解技术研究

基于深度学习的视频内容理解与语义理解技术研究视频内容理解与语义理解一直是计算机视觉领域的重要研究方向。
随着深度学习技术的快速发展,基于深度学习的视频内容理解与语义理解技术逐渐成为主流。
本文将介绍基于深度学习的视频内容理解与语义理解技术的研究进展,并讨论其应用前景。
一、引言随着移动设备和互联网的普及,视频数据的产生和传播呈现爆发式增长。
然而,传统的视频分析方法在大规模视频数据的处理上面临着巨大的挑战。
因此,研究人员开始探索基于深度学习的视频内容理解与语义理解技术,希望通过机器学习的方法来提高视频内容理解与语义理解的效果。
二、基于深度学习的视频内容理解技术基于深度学习的视频内容理解技术通过构建深度神经网络模型来自动学习视频的特征表示,并实现对视频中物体、动作和场景的识别与理解。
其中,卷积神经网络(Convolutional Neural Networks, CNNs)在视频特征表示方面取得了巨大的成功。
通过将多帧连续的图像序列输入到CNNs模型中,可以获得视频中的空间和时间特征表示,从而实现对视频内容的理解。
此外,循环神经网络(Recurrent Neural Networks, RNNs)也被广泛应用于视频内容理解任务中,特别是对于视频中的动作和时序信息的处理。
通过将CNNs和RNNs结合起来,可以进一步提升视频内容的理解能力。
三、基于深度学习的视频语义理解技术基于深度学习的视频语义理解技术旨在将视频内容与自然语言描述相连接,实现对视频的语义理解。
其中,视频描述生成是一个重要的任务。
通过学习视频特征与文本描述之间的对应关系,可以将视频内容转化为自然语言的描述。
此外,还有一些研究致力于实现视频的问答任务,即给定一个视频和问题,模型能够返回与问题相关的答案。
通过基于深度学习的模型,可以有效地实现视频与语义之间的桥梁。
四、应用前景基于深度学习的视频内容理解与语义理解技术具有广泛的应用前景。
首先,在视频内容理解方面,它可以被广泛应用于视频检索、视频分类和视频标注等任务中。
基于隐含语义分析的抖音短视频语义检测方法

基于隐含语义分析的抖音短视频语义检测方法随着社交媒体的快速发展,短视频平台如抖音也逐渐成为人们获取信息和娱乐的重要途径。
随之而来的问题是,如何对海量的短视频进行内容检测,以保护用户的合法权益和维护社交平台的良好秩序。
基于此,本文提出一种基于隐含语义分析的抖音短视频语义检测方法,旨在有效识别短视频内容中的有害信息。
我们需要理解什么是隐含语义分析。
隐含语义分析(LSA)是一种文本分析技术,通过对文本数据进行结构分析和语义建模,从而发现隐藏在文本背后的语义关系。
在抖音短视频中,每一条视频都有一个对应的文本描述,通过对这些文本描述进行隐含语义分析,可以更好地理解和把握短视频内容。
具体地,我们可以按照以下步骤进行抖音短视频的语义检测。
通过分析抖音短视频的数据集,抽取其中的文本描述作为输入。
接着,利用自然语言处理技术,对文本进行分词、去除停用词等处理,以减少噪声干扰。
然后,利用词向量模型,将每个词表示为一个低维度的向量,用以捕捉词之间的语义关系。
常见的词向量模型有Word2Vec、GloVe等。
接下来,使用特征选择方法(如卡方检验、信息增益等),选择最具有代表性的词向量作为特征。
然后,构建语义模型,将特征表示为向量形式,以便后续的语义分析。
在构建语义模型时,可以使用LSA、主题模型(如LDA)等方法。
通过比较已标记的有害视频样本和未标记的短视频样本之间的语义相似度,来判断短视频是否包含有害信息。
为了验证该方法的有效性,我们可以收集一批已标记的有害视频样本,并将其与未标记的短视频样本进行比对。
通过计算它们之间的语义相似度,可以得到一个阈值,用来判断抖音短视频是否具有有害信息。
值得注意的是,由于短视频的特殊性,有些有害信息可能不仅仅在文本描述中体现,还可能存在于视频的图像或音频内容中。
在进一步的研究中,可以尝试结合图像和音频处理技术,构建多模态的抖音短视频语义检测方法,以提高检测的准确性和鲁棒性。
本文提出了一种基于隐含语义分析的抖音短视频语义检测方法。
基于知识图谱的智能语义搜索技术研究

基于知识图谱的智能语义搜索技术研究随着人工智能技术的不断发展和普及,人们对于智能搜索技术的需求也越来越高。
传统的搜索引擎虽然能够帮助用户快速地获取到大量的信息,但是它们往往只能提供与关键词相关的结果,而不能真正理解用户的需求,使得搜索结果的准确性和个性化程度有限。
因此,基于知识图谱的智能语义搜索技术成为了当下研究的热点之一。
知识图谱是一种基于图论理论的结构化知识表示模型,它能够将现实世界中的实体、属性、关系等信息以节点和边的形式组织成图。
基于知识图谱的智能语义搜索技术通过对图谱中的实体、属性、关系等元素进行建模和分析,进而实现对用户查询意图的深度理解和智能匹配。
基于知识图谱的智能语义搜索技术主要分为以下几个步骤:一、建立知识图谱建立知识图谱是整个搜索技术的基础和前提。
知识图谱需要通过收集、整理和挖掘大量的结构化和半结构化的数据,包括百科知识、自然语言文本、数据统计等。
通过对这些数据进行处理,构建图谱中的实体、属性和关系的模型。
建立知识图谱的难度在于如何保证图谱的完整性、准确性和时效性。
二、查询分析在知识图谱中,查询语句往往不能直接映射到图谱中的实体、属性或关系上,需要先通过自然语言处理技术对查询语句进行分析和理解。
查询分析的技术包括词法分析、句法分析、语义分析等,目的是将用户的自然语言查询语句转化为图谱中的对应实体、属性或关系。
三、语义匹配在查询分析的基础上,需要对查询语句进行语义匹配,找到与用户查询意图密切相关的实体、属性和关系。
语义匹配的关键在于如何衡量查询语句与图谱中的实体、属性和关系之间的语义相似度,以及如何选择最匹配的结果返回给用户。
基于图谱的语义匹配技术可以有效地解决信息断片化和信息孤立问题,提高搜索结果的准确性和个性化程度。
四、结果展示基于知识图谱的搜索结果展示需要遵循一定的规则和逻辑,以符合用户的直观感受和搜索体验。
例如,可以采用“直接引用”、“流程引导”、“半自动展示”等不同的方式进行结果展示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Computer Science and Application 计算机科学与应用, 2019, 9(8), 1584-1590Published Online August 2019 in Hans. /journal/csahttps:///10.12677/csa.2019.98178From Video to Semantic: VideoSemantic Analysis TechnologyBased on Knowledge GraphLiqiong Deng*, Jixiang Wu, Li ZhangAir Force Communication NCO Academy, Dalian LiaoningReceived: Aug. 6th, 2019; accepted: Aug. 19th, 2019; published: Aug. 26th, 2019AbstractVideo understanding has attracted much research attention especially since the recent availability of large-scale video benchmarks. In order to fill up the semantic gap between video features and understanding, this paper puts forward a video semantic analysis process based on knowledge graph, and adopts random walk to quantify semantic consistency between semantic labels. Then video semantic reasoning based-on knowledge graph is studied. The experimental results prove that knowledge graph can improve semantic understanding effectively. Finally, a constructed mul-tilevel video semantic model supports applications in video classifying, video labeling and video abstract, which has some guiding significance for information organization and knowledge man-agement of media semantic.KeywordsKnowledge Graph, Video, Classify, Semantic Analysis从视频到语义:基于知识图谱的视频语义分析技术邓莉琼*,吴吉祥,张丽空军通信士官学校,辽宁大连收稿日期:2019年8月6日;录用日期:2019年8月19日;发布日期:2019年8月26日*通讯作者。
邓莉琼 等摘要随着大规模视频的迅猛发展,视频理解受到了广泛的关注,为了填补视频特征与视频理解之间的语义鸿沟,本文提出了一种基于知识图谱的视频语义分析流程,采用了随机漫步方法对视频语义标签信息进行共生性概率的量化,研究了基于知识图谱的视频语义推理技术,相关的实验结果证明了知识图谱方法能有效提高视频语义分析的准确度,构建后的多层次视频语义模型支持在视频分类、视频标注及视频摘要等方面的应用,对媒体语义中的信息组织和知识管理有一定的指导意义。
关键词知识图谱,视频,分类,语义分析Copyright © 2019 by author(s) and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). /licenses/by/4.0/1. 引言在移动互联网、大数据的时代背景下,互联网上的视频数据呈现爆发式增长,由于其内容具有易复制、易分发、难管理、难监控等特性,视频语义内容的有效管理成为了近年来的研究热点。
语义鸿沟的存在导致了计算机自动描述视频语义准确率低的问题,针对这一问题,本文提出了基于知识图谱的视频语义分析技术,重点关注视频语义的分析描述研究,知识图谱作为一种智能、高效的知识组织方式,能够帮助用户迅速、准确地查询到自己需要的信息,在增进信息的组织、管理和理解领域具有巨大的应用潜力,是对视频视觉语义理解的一个行之有效的途径。
本文将知识图谱技术用于构建视频的语义框架之中,将语义关系融入到特征提取中,有效的弥补语义鸿沟,为视频语义理解提供有效的支撑,该方向的研究具有较高的应用价值和现实意义,可广泛应用于视频检索、人机交互、智能安防等。
2. 相关工作视频理解在计算机视觉领域是研究热点问题,随着近年来一些大型视频数据集标准(Sports-1M/YFCC-100M/Youtube-8M)的公布以及深度学习和神经网络技术在视频特征提取的运用,视频理解技术得到了巨大的发展。
视频分类技术可以分为基于帧层次和基于视频层次两种。
在基于帧层次,典型的有DBoF [1] (deep bag-of-frames)方法,DBoF 借鉴了自然语言处理中的BOW 的思想,可以理解为将多个帧特征合称为一个视频特征,使用了deep 的思想,利用DNN 将帧特征映射到更高维的空间中并进行求和,然后再利用DNN 将高维特征映射回低维空间中进行分类。
LSTM [2] (Long Short-Term Memory)则是不断传入帧数据,用最后的LSTM 向量来作为视频的表示向量。
在基于视频层次,则是对一系列帧进行聚合得到特征向量,然后利用支持向量机等方法进行分类训练,其中MoE [3] (mixture of experts)在视频层次的特征提取和分类上表现尤其突出。
除了以上两种方法外,还有利用视频中文本识别的方法来进行分类[4]。
虽然视频特征提取的准确度有了较大的提高,但语义鸿沟的问题依然存在,面对海量的视频信息,人们期望以更加智能的方式组织图像资源。
知识图谱技术的出现使得信息可以在语义层面上进行整合,这种语义层次的关联技术能够为视频的语义分析研判提供强有力的支撑[5]。
例如图1(a)所示,仅仅分析该视频帧的像素特征,由于小孩手中的话筒被挡住了,因而很难得出“她在拿着话筒讲话”这样的结论,但若基于语义知识推理的话则不难得出该结论;图1(b)所示是一个动物园的例子,但仅仅从像素特征的邓莉琼 等分析很难认定是动物园,若基于“有老虎的人为建筑很有可能是动物园”这样的知识,则该视频将很有可能被正确划分为动物园。
因此知识图谱的构建能极大填补语义鸿沟的存在。
(a) (b)Figure 1. (a) Child with microphone, (b) Tiger in the zoo图1. (a) 小孩拿话筒,(b) 动物园老虎知识图谱即为用图对知识和知识间关系进行建模。
图节点表示知识的概念或实体,图边表示概念或实体间关系,众多节点和边构成的图即可对知识进行完整而清晰的描述。
它们力求通过将知识进行更加有序、有机的组织,对用户提供更加智能的访问接口,使用户可以更加快速、准确地访问自己需要的知识信息,并进行一定的知识挖掘和智能决策。
例如将图1所示的视频特征建立为图2的知识图谱,通过节点之间的关系能够更好的帮助理解视频的语义内容。
近年来已经有不少将知识图谱应用于视频等多媒体领域[6],例如文献[7]使用知识图谱来进行视频的分类,然而该方法的知识图谱是独立于特征模型的,缺少反馈回路,故而准确度不高等。
至于知识图谱的具体构建技术不在本文重点研究范围之内。
Figure 2. Example of knowledge graph relations for video semantics图2. 视频语义的知识图谱关系示例3. 基于知识图谱的视频语义分析流程针对视频的语义分析,本文所提出的基于知识图谱的视频语义分析流程图如图3所示。
如图3所示,输入一个待分析的视频后,首先从关键视频帧中提取出视频特征和音频特征;然后将这些帧向量特征输入到基于帧的建模或基于视频的建模中,生成最终的知识图谱向量,并输入到分类器中。
该分析框架有两个优势,首先,该框架可适用于目前所有的视频分类算法,包括深度学习和浅层学邓莉琼等习等模型,因而具有较高的灵活性;其次,在机器学习的框架中融入了知识图谱的构建,用语义内容之间的关联性填补了视频语义鸿沟,从而提高了准确度。
Figure 3. Video semantics analysis framework based on knowledge graph图3. 基于知识图谱的视频语义分析框架3.1. 视频帧序列特征提取本文通过对输入的视频帧序列提取视频的3类特征,包括空间特征(基于VGG16、AlexNet的fc7层特征)、视频特征(DT特征),然后对于可进行融合的特征进行前期融合,再通过一个特征选择器,该特征选择器的作用为选择提取到的及前期融合后得到的特征的组合作为DBoF、LSTM等描述模型的输入。
空间特征:本文使用预训练的模型提取视频帧序列图像的空间特征,因为近年来CNN在图像分类、目标检测、图像语义分割等领域取得了一系列突破性的研究成果[8],通过CNN提取的特征能够很好地表达图像。
因此本文选择在ImageNet分类任务数据集中取得很好数据的CNN模型VGG16和AlexNet,提取预处理好的视频帧序列中所有图片的fc7层的特征,并计算帧序列特征的均值,最终得到一个4096维特征向量来表示整个视频。
视频特征:与单独的图片描述问题不同的是,视频帧之间具有时间上的关联性,故而在对视频进行分析时很有必要进行视频的时间上的特征提取。
本文使用文献[9]方法提取DT特征,在提取DT特征时采用不重叠的长方形块覆盖图像上的区域,最后将拼接获取到的各区域的DT特征作为整个视频的特征。
由于视频特征的提取算法不是本文关注主要问题,因此不在文中详细阐述。
3.2. 视频语义的知识图谱表示当提取出视频的特征之后,本文利用知识图谱来进一步表示视频里的语义关系[10],知识图谱用()=表示,V表示是途中各节点的组合(即视频中的语义实体或类别标签),E表示这些节点之间的连,G V E线,即各语义标签之间的关系。