多层循环神经网络在动作识别中的应用
人体动作识别算法的快速计算与实时监测技巧

人体动作识别算法的快速计算与实时监测技巧人体动作识别是一种重要的技术,在许多领域都有广泛的应用,例如健身监控、运动训练、医疗辅助等。
而实时监测人体动作需要高效的算法和快速的计算技术。
在本文中,我们将探讨人体动作识别算法的快速计算与实时监测技巧。
一、人体动作识别算法人体动作识别算法通常使用传感器数据来识别人体的动作。
传感器可以是加速度计、陀螺仪、磁力计等。
这些传感器可以采集人体进行动作时产生的数据,然后通过算法对这些数据进行分析和识别。
目前比较常用的人体动作识别算法包括传统的机器学习方法和深度学习方法。
1.传统的机器学习方法传统的机器学习方法常用的有支持向量机(SVM)、k最近邻(kNN)、决策树等。
这些方法通常需要手工提取特征,并对特征进行分类。
例如,在人体动作识别中,可以通过提取加速度数据中的窗口特征、时域特征、频域特征等,然后将这些特征输入到机器学习模型中进行分类。
传统的机器学习方法在人体动作识别中表现不错,但是需要较多的特征工程,计算复杂度较高。
2.深度学习方法深度学习方法在人体动作识别中表现出色,特别是卷积神经网络(CNN)和循环神经网络(RNN)。
这些方法通过端到端的学习方式来学习数据中的特征和模式。
在人体动作识别中,可以将传感器数据直接输入到深度学习模型中,模型可以自动学习到最优的特征表示和分类器。
深度学习方法不需要手工提取特征,计算复杂度较低,表现也很好。
二、快速计算技巧在实时监测人体动作时,快速计算是非常重要的。
以下是一些快速计算技巧:1.使用GPU加速深度学习算法通常需要较大的计算资源来训练和推理。
使用GPU可以显著加速深度学习模型的训练和推理过程。
在实时监测人体动作时,可以通过利用GPU来加速模型推理,提高计算速度。
2.优化模型结构在实时监测中,模型的轻量化和优化是非常重要的。
可以通过剪枝、量化、蒸馏等方法对模型进行优化,减少模型的参数和计算量。
优化后的模型可以更快地进行推理计算,提高实时监测的效率。
循环神经网络 RNN 在计算机视觉中的应用与优化

循环神经网络 RNN 在计算机视觉中的应用与优化摘要:循环神经网络(RNN)作为一种强大的序列建模工具,已经在计算机视觉领域发挥着重要作用。
本文将介绍RNN在计算机视觉中的应用,并探讨如何优化RNN 模型,以提高计算机视觉任务的性能。
引言:计算机视觉是一门涉及图像和视频处理、分析、理解和解释的学科。
随着计算机技术的快速发展和深度学习的兴起,神经网络在计算机视觉任务中扮演了重要角色。
而循环神经网络(RNN)作为一种能够处理序列数据的神经网络,具有记忆和递归的特性,被广泛应用于计算机视觉领域中。
一、RNN在计算机视觉中的应用1. 图像描述生成:图像描述生成是利用计算机算法为给定的图像生成相应的文字描述。
通过将图像输入到RNN中,可以利用RNN记忆之前的输入信息,产生更加准确和连贯的描述。
2. 目标检测:目标检测是计算机视觉中的一个重要任务,旨在识别并定位图像中的目标。
利用RNN可以捕捉图像中目标的上下文信息,并将其与目标检测算法相结合,从而提高目标检测的准确率和鲁棒性。
3. 图像分类:图像分类是根据图像的内容将其归类到不同的类别中。
通过引入RNN模型,可以利用图像中的空间信息以及上下文信息,从而提高图像分类的性能。
4. 动作识别:动作识别是计算机视觉中针对视频数据的任务,旨在自动地识别和理解人类的动作行为。
RNN可以通过对序列数据进行建模,捕捉视频序列中的时序信息,从而提高动作识别的准确性。
二、优化RNN模型的方法1. 双向RNN:双向RNN能够从两个方向分别对输入进行建模,从而更好地捕捉输入序列的上下文信息。
通过将正向和反向的隐藏状态进行拼接,可以获得更加全面的特征表示,提高模型的性能。
2. 长短时记忆网络(LSTM):LSTM是一种特殊类型的RNN,通过引入门控机制来有效处理长依赖关系。
LSTM网络具有记忆单元和更新门,可以更好地捕捉和传播序列中的重要信息。
3. 优化器的选择:RNN的训练通常使用梯度下降算法进行参数更新。
图像识别中的深度学习方法详解

图像识别中的深度学习方法详解深度学习是一种通过模拟人脑神经网络的工作原理来处理大量数据的人工智能技术。
在图像识别领域,深度学习方法已经取得了令人瞩目的成就。
本文将详细介绍图像识别中的深度学习方法,包括卷积神经网络(CNN)、循环神经网络(RNN)以及生成对抗网络(GAN)等。
一、卷积神经网络(CNN)卷积神经网络是图像识别中最常用的模型之一。
它通过不断的卷积和池化操作,提取图像中的特征,并用这些特征进行分类。
CNN的核心思想是局部感知和共享权值。
具体来说,CNN通过在输入图像上滑动卷积核,提取局部特征。
这种局部感知的方式使得CNN对于图像的平移、缩放和旋转等变换具有一定的鲁棒性。
此外,CNN使用了权值共享的策略,即不同的特征图共享同一组权值,减少了网络参数的数量,提高了网络的泛化能力。
二、循环神经网络(RNN)循环神经网络是一种能够处理序列数据的神经网络。
在图像识别中,RNN可以用于处理图像中的时序信息,例如图像中的运动轨迹和动作序列等。
RNN中最重要的组件是循环单元,它通过自循环的方式传递信息,保存并利用历史信息。
在图像识别中,RNN可以结合CNN一起使用,形成一种融合了时间信息和空间信息的混合模型。
这种融合模型可以有效地处理时序信息,并提升图像识别的准确性和鲁棒性。
三、生成对抗网络(GAN)生成对抗网络是一种用于生成新样本的深度学习模型。
GAN由生成器网络和判别器网络组成,二者通过对抗的方式相互训练,以求得生成器能够生成与真实样本相似的新样本。
在图像识别中,GAN可以用于生成缺失的图像部分,或者扩充已有的训练样本数量。
通过让生成器网络学习真实样本的分布,GAN不仅能够生成逼真的新样本,还能够提供更多的训练数据,从而提高图像识别的能力。
总结深度学习方法在图像识别领域发挥着重要的作用。
本文介绍了图像识别中的三种常用深度学习方法:卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)。
如何进行人体动作识别和行为分析

如何进行人体动作识别和行为分析人体动作识别和行为分析是指利用计算机视觉和模式识别技术来识别和理解人体动作的过程。
随着计算机视觉和深度学习技术的发展,人体动作识别和行为分析已经成为了一个研究热点,它在多个领域有着广泛的应用,如智能监控、健康管理、人机交互等。
本文将从人体动作识别和行为分析的技术原理、应用场景和研究趋势等方面进行探讨。
一、技术原理1.1传统方法传统的人体动作识别和行为分析方法通常基于计算机视觉和模式识别的技术。
其基本思路是通过摄像头等设备采集人体的运动信息,然后利用图像处理和特征提取等技术来识别和分析人体的动作。
传统方法一般使用手工设计的特征和分类器来实现人体动作的识别和行为分析,这些特征包括轮廓特征、颜色特征、运动特征等。
但传统方法往往需要大量的人工操作和专业知识,而且对光照、背景干扰等因素比较敏感,导致其在实际应用中存在一定的局限性。
1.2深度学习方法近年来,随着深度学习技术的发展,人体动作识别和行为分析进入了一个新的阶段。
深度学习方法通过构建深层神经网络模型来实现对人体动作的高效识别和行为分析。
深度学习方法通常基于卷积神经网络(CNN)、循环神经网络(RNN)等技术,通过端到端的学习来提取和学习人体动作的特征,从而实现对人体动作的自动识别和行为分析。
深度学习方法不仅能够有效地解决传统方法的局限性,而且在大规模数据集上取得了令人瞩目的性能。
二、应用场景2.1智能监控人体动作识别和行为分析技术在智能监控领域有着重要的应用。
通过识别和分析监控视频中的人体动作,可以实现对异常行为的自动检测和预警,例如盗窃、打架、火灾等。
此外,还可以实现对人群行为的统计分析,如人流量统计、人员活动轨迹分析等,为城市管理和安全防范提供有力支持。
2.2健康管理人体动作识别和行为分析技术在健康管理领域也有着广泛的应用。
通过识别和分析人体动作,可以实现对睡眠、运动、饮食等健康行为的监测和评估,为个人健康管理提供定量化的数据支持。
基于神经网络的舞蹈动作识别技术研究

基于神经网络的舞蹈动作识别技术研究随着计算机科学技术的不断发展,人工智能逐渐成为了当前的热点话题。
在人工智能的众多应用领域中,基于神经网络的动作识别技术逐渐备受关注,尤其是在舞蹈领域中的应用。
本文将从以下几个方面来探讨基于神经网络的舞蹈动作识别技术的研究现状、发展趋势以及成果应用等方面。
一、神经网络的舞蹈动作识别技术概述神经网络是模拟人类神经系统的一种数学模型,其结构和功能类似于人类的大脑,它可以通过对大量数据的训练,从中提取并学习到数据的模式,进而实现各种复杂的任务。
舞蹈动作识别技术则是指通过神经网络模型来对不同的舞蹈动作进行识别和分类,为后续的分析和研究提供数据支持。
二、神经网络的舞蹈动作识别技术研究现状目前,国内外已经有很多研究者开始探索基于神经网络的舞蹈动作识别技术。
其中比较典型的研究成果包括以下几个方面:1、动作数据采集在对舞蹈动作进行识别分类之前,首先需要采集大量的动作数据。
目前,国内外已经有很多机构开始利用不同的传感器(如惯性传感器)和高精度采样设备来获取舞者的运动数据。
在数据采集方面,研究者们已经有了许多有效的方法和技术,使得数据的质量和可靠性得到了一定的保障。
2、基于神经网络的动作识别算法在舞蹈动作识别技术领域,基于神经网络的识别算法是目前应用最为广泛的方法之一。
研究者们已经利用多种神经网络结构来实现对舞蹈动作的识别和分类,其中包括FNN、CNN、LSTM等。
这些神经网络结构都有着各自的优势和适用范围,可以根据实际需求灵活选择。
3、舞蹈动作识别应用实践通过对大量实验数据的模拟和分析,研究者们已经取得了一些舞蹈动作识别的应用实践成果。
其中比较典型的应用场景包括舞蹈教学、舞蹈比赛评判等。
利用神经网络的动作识别技术,可以有效地分析舞者动作的准确性、稳定性等指标,为教练员和评分人员提供客观的数据支持。
三、基于神经网络的舞蹈动作识别技术的未来发展趋势基于神经网络的舞蹈动作识别技术相较于传统的动作识别技术具有许多优势。
神经网络在物体识别中的应用

神经网络在物体识别中的应用随着人工智能技术的快速发展,神经网络在物体识别中的应用越来越受到关注。
神经网络是一种模拟人脑神经元网络的计算模型,通过学习和训练,可以实现对物体的自动识别和分类。
本文将探讨神经网络在物体识别中的应用以及相关的技术挑战。
一、神经网络的基本原理神经网络是由大量的人工神经元组成的,每个神经元接收来自其他神经元的输入,并通过激活函数进行计算和传递。
神经网络通过不断调整神经元之间的连接权重,以实现对输入数据的模式识别和分类。
在物体识别中,神经网络通常采用卷积神经网络(Convolutional Neural Network, CNN)结构。
CNN模型通过多层卷积层和池化层提取图像中的特征,并通过全连接层进行分类。
这种结构使得神经网络能够有效地处理图像数据,并具备较高的识别准确性。
二、1. 图像分类神经网络在物体识别中最常见的应用是图像分类。
通过大量的训练样本,神经网络可以学习到不同物体的特征,并能够对新的图像进行分类。
例如,当我们输入一张猫的图片时,神经网络可以判断出这是一只猫,并给出相应的分类结果。
2. 目标检测除了图像分类,神经网络还可以实现目标检测。
目标检测是指在图像中找出特定物体的位置和边界框。
通过在神经网络中引入额外的定位和回归层,可以实现对多个物体的同时检测和定位。
这种技术在自动驾驶、安防监控等领域有着广泛的应用。
3. 物体分割物体分割是指将图像中的物体从背景中分离出来。
神经网络可以学习到物体的边界和轮廓信息,并能够对图像进行像素级别的分类。
这种技术在医学影像分析、图像编辑等领域有着重要的应用价值。
三、神经网络在物体识别中的挑战尽管神经网络在物体识别中取得了显著的成果,但仍然面临一些挑战。
1. 数据集的规模和质量神经网络需要大量的训练数据才能够学习到有效的特征表示。
然而,获取大规模高质量的标注数据是一项困难且耗时的任务。
此外,数据集中可能存在标注错误和不平衡的问题,这会对神经网络的性能产生负面影响。
深度学习技术在视频分析和动作识别中的应用方法

深度学习技术在视频分析和动作识别中的应用方法在现代社会中,视频成为了人们获取信息和娱乐的重要方式之一。
然而,随着视频数据的迅速增长,如何高效地分析和识别其中的内容变得尤为关键。
深度学习技术作为一种强大的机器学习工具,已经被广泛应用于视频分析和动作识别领域,极大地改善了视频处理的效率和准确性。
首先,深度学习技术在视频分析中的应用方法为我们提供了更准确和高效的视频分类和识别能力。
传统的视频分析方法通常基于手工设计的特征提取和机器学习算法,而深度学习通过神经网络的层次化学习能力,可以自动地从视频中学习出更抽象、更有表达力的特征表示。
例如,当我们面对一个包含不同动作的视频集时,深度学习模型可以学习到每个动作的关键帧和特征,从而进行准确的分类和识别。
相比传统方法,深度学习技术能够更好地捕捉到视频中的细节和上下文信息,提高了视频分析的准确性和效率。
其次,深度学习技术在动作识别中的应用方法进一步增强了视频分析的能力。
动作识别是指从视频序列中区分和识别出特定动作的能力。
在传统的动作识别方法中,通常需要手工设计的特征和复杂的分类器。
然而,这些方法在面对复杂的场景和变化的条件时往往效果不佳。
而深度学习技术的出现,通过其强大的模式识别能力,从原始的视频数据中提取出丰富的特征信息,并直接进行动作分类和识别。
例如,可以使用卷积神经网络(CNN)对视频序列进行帧级别的特征提取和学习,然后使用长短时记忆网络(LSTM)等结构进行时间序列的建模和动作识别。
这种端到端的深度学习方法不仅大大简化了动作识别的流程,同时也提高了识别的准确性。
此外,深度学习技术在视频目标检测和跟踪中也有着广泛的应用。
视频目标检测和跟踪是指从视频中实时定位和追踪特定目标的能力。
深度学习模型通过从大量的标注数据中进行训练,可以学习到目标的视觉特征和运动模式,从而在视频中进行目标检测和跟踪。
例如,可以使用基于深度学习的目标检测方法如Faster R-CNN、YOLO等来检测视频中的目标物体,然后使用相关滤波等算法进行目标的跟踪。
神经网络中的循环神经网络应用案例分享

神经网络中的循环神经网络应用案例分享神经网络是一种模拟生物神经系统的人工智能技术,被广泛应用于图像识别、语音识别、自然语言处理等领域。
其中,循环神经网络(RNN)是一种特殊的神经网络,对于序列数据处理有很好的效果。
本文将分享一些循环神经网络在不同领域的应用案例。
一、文本生成循环神经网络被广泛应用于文本生成领域。
其中,LSTM(Long Short-Term Memory)是一种特殊的RNN,能够有效避免长序列训练中的梯度爆炸和梯度消失问题。
著名的文本生成应用案例包括莎士比亚风格的文本生成、唐诗生成等。
二、图像描述循环神经网络也被应用于图像描述任务中。
通过将图像信息输入到循环神经网络中,网络可以学习到图像中不同部分的语义信息,并生成对应的文本描述。
这种方法被广泛用于自然界中的图像描述生成。
三、自动摘要循环神经网络还可以用于自动摘要的任务中。
利用Encoder-Decoder模型,将原始文本序列输入到LSTM中,将其转换为向量表示,并将其作为Decoder模型的初始状态。
最终,Decoder输出的序列即为摘要的内容。
四、音乐生成循环神经网络也被应用于音乐生成领域。
通过将音乐序列输入到LSTM网络中,可以生成具有和弦和旋律的音乐序列。
这种方法被广泛应用于游戏中的背景音乐生成、音乐智能创作等领域。
五、情感分析循环神经网络还可以用于情感分析。
通过将文本序列输入到LSTM网络中,网络可以学习到文本中的情感信息,从而实现对文本的情感分析任务。
此方法被广泛用于社交媒体数据分析、舆情分析等领域。
总结:本文列举了循环神经网络在文本生成、图像描述、自动摘要、音乐生成、情感分析等领域的应用案例。
循环神经网络具有记忆能力,可以很好地处理序列数据,并在上述领域取得了不错的效果。
未来,循环神经网络将会在更多的领域被广泛应用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Computer Science and Application 计算机科学与应用, 2020, 10(6), 1277-1285Published Online June 2020 in Hans. /journal/csahttps:///10.12677/csa.2020.106132Multilayer Recurrent Neural Networkfor Action RecognitionWei DuNorth China University of Technology, BeijingReceived: Jun. 8th, 2020; accepted: Jun. 21st, 2020; published: Jun. 28th, 2020AbstractHuman action recognition is a research hotspot of computer vision. In this paper, we introduce an object detection model to typical two-stream network and propose an action recognition model based on multilayer recurrent neural network. Our model uses three-dimensional pyramid di-lated convolution network to process serial video images, and combines with Long Short-Term Memory Network to provide a pyramid convolutional Long Short-Term Memory Network that can analyze human actions in real-time. This paper uses five kinds of human actions from NTU RGB +D action recognition datasets, such as brush hair, sit down, stand up, hand waving, falling down.The experimental results show that our model has good accuracy and real-time in the aspect of monitoring video processing due to using dilated convolution and obviously reduces parameters.KeywordsAction Recognition, Dilated Convolution, Long Short-Term Memory Network, Deep Learning多层循环神经网络在动作识别中的应用杜溦北方工业大学,北京收稿日期:2020年6月8日;录用日期:2020年6月21日;发布日期:2020年6月28日摘要人体动作识别是目前计算机视觉的一个研究热点。
本文在传统双流法的基础上,引入目标识别网络,提出了一种基于多层循环神经网络的人体动作识别算法。
该算法利用三维扩张卷积金字塔处理连续视频图杜溦像,结合长短期记忆网络,给出了一种能够实时分析人体动作行为的金字塔卷积长短期记忆网络。
本文利用NTU RGB + D人体动作识别数据库,对五种人体动作,如梳头、坐下、起立、挥手、跌倒等动作进行识别。
试验结果表明算法由于采取了扩张卷积,参数量明显降低,在监控视频处理方面具有较好的准确性和实时性。
关键词人体动作识别,扩张卷积,长短期记忆网络,深度学习Copyright © 2020 by author(s) and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License (CC BY 4.0)./licenses/by/4.0/1. 简述在人体动作识别任务中,包含两个基本步骤:一是确定人体完整动作的起始和终止时间,二是识别该动作。
本文仅对动作识别进行讨论。
在动作识别的方法中,目前较为流行的方法有三维卷积、基于人体姿态识别和双流法等动作识别方法。
从直观出发,基于人体姿态识别的方法更容易被理解和接受,利用连续帧之间人体姿态变化的规律实现人体动作的识别。
这类方法以人体姿态识别[1]为基础,因此其研究重点集中于人体姿态识别的准确性和可靠性。
同时,人体姿态识别的结果直接影响动作识别的准确性。
区别于基于人体姿态识别的方法,双流法[2] [3] [4] [5]使用两个并列的分支网络,分别从彩色视频图像和光流图像中提取动作信息。
从不同的角度提取人体动作特征,并融合多角度特征进行动作识别。
但目前的双流法网络无法实现读取连续视频图像。
三维卷积解决了连续视频图像读取的问题。
三维卷积[4] [6]在二维卷积的基础上增加了提取前后图像关联特征的能力,这让三维卷积可以在获取单幅图像特征的同时,也能获取前后帧图像之间的关联信息。
唯一不足的是三维卷积无法灵活地读取长短不一的连续视频图像。
本文通过引入目标检测网络,构造了一种新的金字塔卷积长短期记忆网络(Pyramid Convolutional Long-Short Term Memory, P-ConvLSTM)。
将视频图像中的运动前景分离出来,而后通过深层长短期记忆网络进一步识别视频中运动的人体。
之后通过前后帧运动人体之间的联系,利用金字塔形的设计获取视频图像在不同维度下的特征信息,捕捉人体动作特征,进而对如跌倒、头痛等人体动作进行识别分类。
由于采用了多层循环神经网络,因此在处理序列长短有变化的数据上更加灵活。
2. 相关工作双流法于2014年由Simonyan和Zisserman [2]提出。
该方法采用两个并行的分支网络,分别提取空间信息和时间信息。
空间信息网络利用三通道彩色视频图像提取图像中的人、事、物等空间信息,而时间信息网络利用视频的光流信息提取视频中随时间变化产生的时间信息。
两个分支网络相互独立,仅在信息融合阶段进行信息地整合。
当前的双流法研究中,多以使用较为成熟的图像识别网络为分支网络的主要结构,并在信息融合的位置上和方法上进行改良。
这样可以大幅减少训练的时间和成本,但无法实现连续视频图像序列的读取。
杜溦我们再利用双流法提取不同角度特征这一特点,并结合三维卷积与多层循环神经网络,实现对连续视频序列的读取与处理,达到人体动作识别的目的。
未解决双流法中连续视频图像序列读取的问题,我们使用三维卷积[6]替换二维卷积。
三维卷积以二维卷积为基础进行扩展,扩展后的三维卷积可以接收连续图像序列,并提取图像序列中每幅图像的特征信息及前后图像之间的时间信息。
但三维卷积无法灵活读取长短不一的图像序列,因此我们结合多层循环神经网络,实现灵活读取图像序列的目的。
我们所使用的多层循环神经网络是卷积长短期记忆网络(Convolutional Long Short-Term Memory, ConvLSTM),该方法由Xingjian Shi [7]等人提出。
ConvLSTM是一种长短期记忆网络(Long Short-Term Memory,LSTM)的变形,它不仅利用自身的卷积操作获取视频图像中的信息,还利用LSTM的结构特点获取图像序列的长期依赖关系,更好地获取视频序列的特征。
因此,ConvLSTM被广泛应用于动作识别方法中[8] [9]。
3. 金字塔卷积长短期记忆网络(Pyramid Convolutional Long-Short Term Memory, P-ConvLSTM)与典型的双流法的工作不同,我们向双流法中引入了一个基于循环神经网络的目标识别网络作为网络的主干结构。
目标检测网络可以将视频图像中运动前景与不动后景进行分离,让P-ConvLSTM的注意力集中在运动的人体上。
该目标识别网络由Hongmei Song等人[10]于2018年提出,网络中设计了金字塔结构的扩张卷积模块和深层双向ConvLSTM模块为目标识别网络提供了更强的空间识别能力和时间信息获取能力。
我们在Hongmei Song等人的工作上进行了简单的改动,不仅让网络能更好的适应人体动作识别任务,还能读取连续视频图像数列。
P-ConvLSTM中有两个主要的模块:扩张卷积金字塔模块(Dilated Convolution Pyramid Module, DCP)和金字塔卷积长短期记忆模块(Pyramid Convolutional Long-Short Term Memory Module, Pyramid ConvLSTM)。
3.1. 扩张卷积金字塔模块在引入的目标识别网络中,Hongmei Song等人使用多个并列的二维扩张卷积在保留图像原始特征的情况下实现多尺度特征提取,同时避免了下采样操作并降低了网络中的参数。
我们将二维扩张卷积改造为三维扩张卷积,实现视频图像序列的多尺度特征提取。
在DCP模块中,我们使用了四个尺寸相同、扩张度分别为2、4、8、16的三维卷积,它们之间相互并列构成金字塔模型。
而扩张卷积实现多尺度特征提取则是充分利用了其特点。
以尺寸为3*3的卷积核为例,当扩张度为1时,卷积核仅能作用于图像上3*3的范围,进行卷积操作的像素数量为3*3;若扩张度为2,当卷积核在作用于图像上时,卷积核相邻元素之间距离变为2,卷积核作用范围扩大为5*5,但其中进行卷积操作的像素数量仍为3*3。
图1中形象展示了扩张卷积。
通过改变尺寸相同的卷积核扩张度可以有效实现多尺度特征提取,这样不仅保留图像的原始特征信息,还减少使用下采样操作。
3.2. 金字塔卷积长短期记忆模块在Hongmei Song等人的工作中,使用双向循环神经网络进一步提取视频图像序列的前后帧之间的关联信息。
这样的操作可以获取图像序列中某一图像来自前后两个方向的信息,更好的进行目标检测。
图2展示了双向循环神经网络的基本结构。
杜溦(a) (b) Figure 1. Dilated convolution. (a) When the dilated is 1, the 3*3 convolution kernel acts on the image, and the adjacent ele-ments in the convolution kernel act on the image together; (b) When the dilated is 2, the distance between the adjacent ele-ments of the 3*3 convolution kernel is pulled apart, and the area of convolution is expanded图1. 扩张卷积示意图。