人体姿态估计论文解析
《基于深度学习的3D人体姿态估计研究》

《基于深度学习的3D人体姿态估计研究》一、引言随着深度学习技术的不断发展,其在计算机视觉领域的应用越来越广泛。
其中,3D人体姿态估计是计算机视觉领域的一个重要研究方向,其应用场景包括运动分析、人机交互、虚拟现实等。
本文旨在研究基于深度学习的3D人体姿态估计方法,以提高姿态估计的准确性和鲁棒性。
二、相关工作3D人体姿态估计是一个具有挑战性的问题,其主要目标是识别和跟踪人体在三维空间中的姿势和动作。
近年来,许多研究者提出了不同的方法来解决这个问题。
传统的基于模型的方法通常依赖于复杂的骨骼模型和参数化表示,但这些方法往往难以处理复杂的姿态和背景。
随着深度学习技术的发展,基于深度学习的3D人体姿态估计方法逐渐成为研究热点。
三、基于深度学习的3D人体姿态估计方法本文提出了一种基于深度学习的3D人体姿态估计方法。
该方法主要包含以下几个步骤:数据预处理、特征提取、姿态估计和后处理。
首先,我们需要对输入的图像进行预处理,包括图像裁剪、归一化等操作。
然后,通过卷积神经网络等深度学习模型提取图像中的特征信息。
这些特征信息可以包括颜色、纹理、边缘等信息,对于后续的姿态估计非常重要。
接下来,我们使用一种基于卷积神经网络的姿态估计器来预测人体的关键点位置。
这个估计器可以是一个单阶段或多阶段的网络结构,其目标是通过学习大量的训练数据来提高预测的准确性。
在这个过程中,我们可以使用诸如残差网络等先进的网络结构来提高模型的性能。
在姿态估计的过程中,我们还需要考虑一些复杂因素的影响,如光照变化、背景干扰等。
为了解决这些问题,我们可以采用一些后处理方法来进一步提高姿态估计的准确性。
例如,我们可以使用一种基于优化的方法来调整关键点的位置,或者使用一种基于多模态融合的方法来整合不同信息源的数据。
四、实验与分析为了验证本文提出的方法的有效性,我们进行了大量的实验。
我们使用了多个公开的3D人体姿态估计数据集来训练和测试我们的模型。
实验结果表明,我们的方法在多个数据集上均取得了较好的性能表现。
基于人体姿态估计的行为识别技术研究

基于人体姿态估计的行为识别技术研究摘要:基于人体姿态估计的行为识别技术是计算机视觉和机器学习领域的研究热点之一。
人体姿态估计是指从图像或视频中识别和跟踪人体的关键点位置。
行为识别是指通过分析人体姿态的动态变化推断出人体的行为。
本文综述了近年来基于人体姿态估计的行为识别技术的研究进展,并对其在人机交互、安防监控和健康监测等领域的应用进行了讨论。
文章还探讨了当前技术所面临的挑战和未来的发展方向。
1. 引言随着计算机视觉和深度学习技术的快速发展,基于人体姿态估计的行为识别技术逐渐成为研究的热点。
人体姿态估计是指从图像或视频中对人体的关节位置和姿态进行准确的估计。
而行为识别则是根据人体姿态的动态变化推断人体的行为,例如走路、跑步、坐下等。
基于人体姿态估计的行为识别技术具有广泛的应用前景,例如人机交互、安防监控、健康监测等。
2. 相关研究在过去的几年里,许多学者和研究机构已经提出了各种基于人体姿态估计的行为识别技术。
其中,一些方法采用传统的计算机视觉技术,如特征提取、机器学习等,来进行行为识别。
另一些方法则利用深度学习技术,如卷积神经网络(CNN)和循环神经网络(RNN),来提高行为识别的准确性和泛化能力。
3. 基于传统计算机视觉技术的行为识别方法基于传统计算机视觉技术的行为识别方法通常包括以下步骤:人体姿态估计、特征提取和行为分类。
首先,通过姿态估计算法检测图像或视频中的人体关键点位置。
然后,从关键点位置中提取特征,例如关节角度、关节速度等。
最后,使用机器学习算法对提取的特征进行分类,以识别不同的行为。
4. 基于深度学习技术的行为识别方法深度学习技术在行为识别领域取得了显著的成就。
卷积神经网络(CNN)作为一种强大的特征提取器,在图像和视频处理中被广泛应用。
通过训练大规模的标注数据集,CNN可以从图像或视频中学习到高级的抽象特征,并用于行为识别任务。
此外,循环神经网络(RNN)也被用于处理序列数据,例如时间序列的姿态信息。
人体姿态估计与动作识别技术研究

人体姿态估计与动作识别技术研究人体姿态估计与动作识别技术是计算机视觉领域的重要研究方向,其在人机交互、虚拟现实、运动分析、智能监控等众多领域具有广泛的应用前景。
本文将探讨人体姿态估计与动作识别技术的研究进展及其在不同应用场景中的实际应用。
人体姿态估计技术旨在从图像或视频中恢复人体的三维姿态信息,包括身体的关节角度、关节位置等。
该技术的研究挑战在于图像中的遮挡、姿势多样性和动态变化等因素。
近年来,深度学习方法在人体姿态估计技术中取得了重要突破。
基于深度学习的方法可以通过训练大规模的姿态数据集,学习到人体的骨骼结构和属性,并通过反向传播算法优化模型参数,从而实现精确的姿态估计。
例如,卷积神经网络(CNN)被广泛应用于人体姿态估计,而递归神经网络(RNN)则可以对时间序列图像进行建模,进一步提高估计精度。
人体动作识别技术旨在识别和分类人体运动的不同行为,例如行走、跑步、拳击等。
该技术在健身、体育竞技、运动训练等方面具有广泛的应用潜力。
动作识别的关键在于提取有效的动作特征表示,并利用分类算法进行动作分类。
传统的方法主要基于手工设计的特征提取器,例如形状特征、运动轨迹特征等。
然而,这些方法在复杂场景下的性能受限。
近年来,深度学习方法的兴起为动作识别技术带来了革命性的突破。
卷积神经网络(CNN)和循环神经网络(RNN)等结构在动作识别中得到了广泛应用,这些网络能够自动学习动作的抽象特征表示,并从大规模的动作数据集中进行训练,极大地提高了动作识别的准确性和鲁棒性。
人体姿态估计与动作识别技术在许多领域中得到了实际应用。
在人机交互领域,人体姿态估计技术可以用于手势识别、姿势控制等,实现更自然、便捷的人机交互方式。
例如,通过识别手势,用户可以简单而直观地与计算机进行交互,实现手势控制的虚拟键盘、手势驱动的游戏等。
在虚拟现实领域,人体姿态估计技术能够追踪用户在虚拟环境中的姿态变化,实现沉浸式的用户体验。
在运动分析领域,人体姿态估计和动作识别技术可以用于智能运动捕捉、动作评估等,帮助运动员改善和优化运动技能。
基于深度相机的人体姿态估计研究

基于深度相机的人体姿态估计研究第一章:绪论在计算机视觉领域中,人体姿态估计是一个非常重要的问题。
人体姿态估计是指从图像或者视频中推断出人体的姿态信息,包括关节角度、身体朝向、身体位置等多种信息。
这个问题在很多应用场景下都非常重要,比如说动作捕捉、人机交互、虚拟现实、自然语言处理等等领域。
为了解决这个问题,研究人员们提出了很多不同的方法,如基于RGB图像的方法、基于深度图像的方法、基于多摄像头的方法等等。
其中,基于深度相机的人体姿态估计一直是研究的热点之一。
本文将主要介绍基于深度相机的人体姿态估计的研究现状和发展历程。
第二章:深度相机技术深度相机是一种可以同时获得RGB图像和深度图像的设备。
深度图像是指在图像上对每个像素点的深度信息进行测量和记录,通常采用的方法是基于结构光或者时间飞行原理。
深度图像与RGB图像一样都是2D的,在深度图像中每一个像素位置都对应一个3D空间的坐标点。
深度相机技术的出现大大提高了人体姿态估计的准确度。
主要有以下几个优点:1. 精度更高。
因为深度相机可以产生精确的深度图像,而这些深度图像相对于RGB图像来说是更加准确的。
2. 无需复杂的前景背景分割。
由于深度相机可以直接获取3D 信息,因此不需要进行复杂的前景背景分割操作。
3. 适用性更广。
深度相机可以工作在光照不足或者光照变化的环境下,这使得其更加适用于室内外各种场景。
第三章:基于深度相机的人体姿态估计方法基于深度相机的人体姿态估计方法主要可以分为两大类:基于人体模型的方法和基于深度图像的方法。
3.1 基于人体模型的方法基于人体模型的方法是指预先构建好人体的3D模型,然后在深度图像中寻找与模型匹配的特征点。
这种方法可以提高人体姿态估计的准确度,但需要对人体进行复杂的建模操作,同时这种方法也不够灵活,对人体姿态变化的适应性较差。
目前已知的一些基于人体模型的方法有:基于马尔科夫链的方法、基于MOCAP的方法、基于HOG的方法等。
人体姿态估计算法的研究与实现

人体姿态估计算法的研究与实现正文:一、绪论人类的日常活动与工作中,持续时间长、站姿不正、歪脖子撇肩等不良姿态现象普遍存在,使得人们的身体健康受到了很大的威胁。
姿态估计技术是解决这些问题的重要方法之一,也广泛应用于医学、体育、电影、虚拟现实等领域。
本文就人体姿态估计算法的研究与实现进行探讨。
二、人体姿态估计算法人体姿态估计算法的研究包括基于图像的方法和基于传感器的方法。
1. 基于图像的方法基于图像的姿态估计方法通常采用计算机视觉技术,基于单目或多目相机对人体图像的处理、提取特征和估计姿态。
其中比较成熟的包括基于模型的方法和基于深度学习的方法。
- 基于模型的方法基于模型的方法使用已知的人体模型来拟合人体姿态,包括人体骨骼结构和肌肉组织等。
通过对模型姿态参数的估计,实现对真实人体姿态的估计。
- 基于深度学习的方法基于深度学习的方法主要采用卷积神经网络(CNN)和循环神经网络(RNN)等模型,通过训练模型学习特征和姿态估计。
常见的网络结构包括Stacked Hourglass和OpenPose等。
2. 基于传感器的方法基于传感器的姿态估计方法通常采用陀螺仪、加速度计、磁力计和传感器融合等技术,通过传感器采集数据并融合处理,实现对人体姿态的估计。
其中比较成熟的包括惯性测量单元和磁力计惯性导航系统等。
三、姿态估计实现技术人体姿态估计的实现技术包括人体建模、特征提取和姿态估计三个步骤。
1. 人体建模人体建模是人体姿态估计基础。
人体建模需要将人体模型与图像对齐,即将一个三维人体模型映射到二维图像平面上。
建模技术主要包括基于形状的建模和基于纹理的建模两种方法。
其中基于形状的建模使用体素网格、三角网格等技术,基于纹理的建模使用纹理参数化、模型展开等方法。
2. 特征提取特征提取是从人体图像中提取有用的信息作为姿态估计的输入,包括人体关键点、人体骨骼信息和肢体关系等。
特征提取常采用卷积神经网络和深度学习技术,根据不同的应用场景和任务,可以设计不同的特征提取网络。
基于深度学习的人体姿态估计算法研究

基于深度学习的人体姿态估计算法研究第一章:引言人体姿态估计算法是计算机视觉领域中的一个重要研究方向,它可以用于人机交互、活动追踪、动作分析等多种应用场景中。
传统的人体姿态估计算法往往需要明确的特征提取,而采用深度学习方法的人体姿态估计算法能够自动学习特征,在性能上有了较大的提升。
本文将对基于深度学习的人体姿态估计算法进行研究和探讨。
第二章:深度学习在人体姿态估计中的应用2.1 卷积神经网络卷积神经网络是一种基于深度学习的神经网络模型,主要用于图像识别和分类等任务中。
在人体姿态估计中,卷积神经网络可以通过输入2D或3D图像数据,自动学习人体的关键点,从而实现人体姿态估计。
2.2 循环神经网络循环神经网络是一种基于深度学习的神经网络模型,主要用于序列数据的处理中。
在人体姿态估计中,循环神经网络可以通过输入序列化的关节坐标数据,自动学习人体的姿态信息,从而实现人体姿态估计。
2.3 深度卷积生成对抗网络深度卷积生成对抗网络是一种基于深度学习的神经网络模型,主要用于图像的生成与编辑等任务中。
在人体姿态估计中,深度卷积生成对抗网络可以通过输入一个姿态估计的初值,生成出更为精确的姿态估计结果。
第三章:基于深度学习的人体姿态估计算法研究3.1 图像姿态估计算法图像姿态估计算法是一种利用2D图像数据进行人体姿态估计的算法。
其中,基于卷积神经网络的图像姿态估计算法是目前比较流行的。
该算法将输入的2D图像数据送入卷积神经网络中进行特征学习,然后通过回归器来估计人体的关键点坐标,最终得到人体的姿态信息。
3.2 3D姿态估计算法3D姿态估计算法是一种利用3D数据进行人体姿态估计的算法。
其中,基于循环神经网络的3D姿态估计算法是目前比较流行的。
该算法将输入的序列化的3D关节坐标数据送入循环神经网络中进行特征学习,然后通过回归器来估计人体的关键点坐标,最终得到人体的姿态信息。
3.3 多视角姿态估计算法多视角姿态估计算法是一种利用多个视角下的图像数据进行人体姿态估计的算法。
基于物理学的人体姿态估计算法的研究与应用

基于物理学的人体姿态估计算法的研究与应用一、绪论人体姿态估计是计算机视觉领域的重要研究方向之一,在人机交互、运动分析、医疗诊断等领域有广泛的应用。
其核心任务是从图像或视频中自动识别并估计人体关节的位置和姿态。
传统的方法主要基于人工设计的特征和分类器来实现,但这种方法因为受到视角、光照、身体遮挡等因素的影响,其准确度和稳定性很难得到保证。
基于物理学的人体姿态估计算法不依赖于人工设计的特征,只需利用多视角下人体的运动学约束和动力学模型等物理学知识,并通过优化算法求解,能够更准确地估计人体姿态。
本文将介绍基于物理学的人体姿态估计算法的研究现状及其在实际应用中的表现。
二、相关工作基于物理学的人体姿态估计算法主要基于两种思路:一种是基于人体运动学约束的方法,这种方法通过限制人体关节的移动范围和人体姿态连续性,来实现人体姿态估计;另一种是基于人体动力学模型的方法,这种方法利用人体关节的运动学方程和力学原理,来推导出人体运动过程,并通过优化算法来实现姿态的估计。
早期的基于人体运动学约束的方法主要通过设计人体模板或人体分割算法来实现,但由于初始模板的选择以及人体分割的准确度等问题,直接限制人体关节移动的方法难以实现人体姿态的准确估计。
后来的研究者们发现,利用人体关节在不同姿态下运动时的几何约束,能够更好地约束人体姿态的估计。
一些方法利用对人体模拟建模,或者通过从视频中提取的边缘信息和深度信息来实现。
基于人体动力学模型的方法则更加注重人体关节的运动学和力学特性。
这种方法最早的应用是利用光流和轨迹信息来计算人体关节的加速度、速度和角度,然后通过基于约束的优化算法来实现姿态的估计。
这种方法对光照和身体遮挡的不敏感性,使得其成为近年来基于物理学的人体姿态估计算法的主流方法之一。
深度学习也日渐在该领域发挥重要作用,如在利用深度学习的马尔可夫链蒙特卡洛(MCMC)算法中,通过将人体当做刚体进行建模,并结合深度卷积神经网络来实现人体姿态估计。
《基于深度学习的人体姿态估计算法研究》

《基于深度学习的人体姿态估计算法研究》一、引言随着深度学习技术的飞速发展,人体姿态估计已成为计算机视觉领域的重要研究方向。
人体姿态估计旨在识别和定位图像或视频中人体的关键点,如关节、肢体等,从而理解人体的姿势和动作。
这项技术广泛应用于体育分析、人机交互、虚拟现实、智能监控等领域。
本文将深入研究基于深度学习的人体姿态估计算法,探讨其原理、方法及优势。
二、深度学习在人体姿态估计中的应用深度学习通过模拟人脑神经网络的工作方式,实现从大量数据中自动提取特征的能力。
在人体姿态估计中,深度学习通过训练大量的图像数据,学习到人体各部位之间的空间关系和运动规律,从而实现对人体姿态的准确估计。
目前,基于深度学习的人体姿态估计方法主要包括基于回归的方法和基于热图的方法。
基于回归的方法直接回归出关键点的坐标,而基于热图的方法则先生成各关键点的热图,再通过后续处理确定关键点的位置。
这两种方法各有优缺点,但都取得了显著的成果。
三、算法研究1. 数据集训练人体姿态估计模型需要大量的标注数据。
目前常用的数据集包括MPII、COCO等。
这些数据集包含了丰富的人体姿态信息,为模型的训练提供了有力支持。
2. 模型结构模型结构是人体姿态估计算法的核心。
常见的模型结构包括卷积神经网络(CNN)、循环神经网络(RNN)等。
这些网络结构能够有效地提取图像中的特征信息,为后续的关键点定位提供支持。
3. 损失函数损失函数用于衡量模型预测值与真实值之间的差距。
在人体姿态估计中,常用的损失函数包括均方误差损失、交叉熵损失等。
这些损失函数能够有效地指导模型的学习过程,提高估计的准确性。
四、算法优势与挑战基于深度学习的人体姿态估计算法具有以下优势:1. 准确性高:深度学习能够自动提取图像中的特征信息,从而实现对人体姿态的准确估计。
2. 适用性强:深度学习模型可以处理各种复杂的人体姿态,包括动态、静态、正面、侧面等。
3. 鲁棒性好:深度学习模型对光照、遮挡、噪声等干扰因素具有较强的鲁棒性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多层沙漏生成多分辨率的注意力地图。将多语义注意力地图应用于每一个沙漏,如堆栈1到堆 栈8。在堆栈5到堆栈8中,对局部区域缩放的层次注意机制进行了应用。
3
人体姿态估计新思路(怎么做?)
层级注意力机制
下层栈,使用两个整体注意力地图 和 来编码整个人体的构型。在 更高层堆栈中使用一个由粗到细的层级注意力机制来放大局部区域。
通过这种架构,我们可以丰富每个构建块的输出所接收到的信息,从而使 整个框架更健壮地进行伸缩。
3
人体姿态估计新思路(怎么做?)
多分辨率注意力机制
在每一个沙漏, 多分辨率注意力地图由不同尺度的特征生成,如图所示。
3
人体姿态估计新思路(怎么做?)
多分辨率注意力机制
然后,将注意力地图组合起来生成精炼的功能,进一步用于生成精细化的 注意力地图和进一步完善的功能图。
1
卷积神经网络用于人体姿势估计面临的问题(为什么做?)
卷积神经网络应用于计算机视觉方向成效显著,但是有以下局限性: 1、肢体关联性 2、身体自遮挡及被遮挡 3、服装影响
4、复杂背景影响 卷积神经网络面临以上问题时,将不能正确定位每一个身体部位我们观 察到,由于背景杂乱和自遮挡,卷积可能会产生错误的估计。
4
人体姿态估计新思路成效(结果)
结果
通过在每一堆沙漏(BL+MS)的末端添加整体注意力模型,得到87.2%的PCKh 分数,与基线模型相比,这是一个1.2%的改进。 使用HRUs来代替原来的剩余单元,将不同分辨率的特征组合在一起 (BL+MS+HRU) 。增加沙漏的残余单位,进一步提高1%。 通过多分辨率(BL+MS+HRU+MR)生成注意力地图的多分辨率关注,得到了进 一步的1%的改进。 在层次注意力模型中,将精细的整体注意力地图替换成一组,从4到8的部 分注意力地图,获得最高的平均PCKh分数89.4%。这些改进主要是由身体部位 的精细定位带来的。
★表示channel-wise Hadamard矩阵产品操作。 重新加权的特征,和f的大小相同。
是精细化的feature map,是注意力地图
3
人体姿态估计新思路(怎么做?)
多语义注意力机制
不同的栈有不同的语义:低层栈关注局部表示,而更高的栈编码全局表示。 因此不同栈产生的注意力地图也可以编码各种语义。下图为一个8层的沙漏网 络框架的基本结构。
5
总结
本文提出了将多上下文的关注和对网络的集成到一个端到端框架中。我们使 用视觉注意力来指导上下文建模。因此,我们的框架在上下文区域有很大的多 样性。我们不使用全局的Softmax,而是引入CRF来进行空间相关建模。我们在 三个组成部分建立了多上下文注意力模型。多分辨率、多语义学和分层式的假 期注意力计划。此外,还提出了一个沙漏单元来丰富传统残差单元的表达能力。 建议的多上下文注意和HRUs是一般的,并将帮助其他视觉任务。
视觉注意力是人类大脑有效理解场景的重要机制,计算机构建视觉注意力机制 来表达复杂语境。主要方法是通过注意力模型生成整体注意力图和部分注意力 图,注意力机制优点: 1、视觉注意力提供了一种明确的方法来模拟人体各部位之间的空间关系 2、部分注意映射可以通过解决重复计数问题来进一步细化部分位置。 3、注意力图由注意力模型生成,它依赖于图像特征,并提供一种有原则的方 法来聚焦于可变形状的目标区域 4、它有助于恢复丢失的身体部分,并将模糊的背景区分开来。这允许增加上 下文的多样性,因此上下文区域可以更好地适应每个图像 5、而是设计了一种基于条件随机场的新型关注模型,该模型较好地模拟了相 邻区域之间的空间相关性。利用条件随机场算法(CRF)对注意力图中相邻区域之 间的相关性进行建模
图,这使得多语义的注意力图具有不同层次的语义含义。
2、部分注意力模型 整体注意力模型对遮挡和杂乱的背景有很强的效果,但对不 同的身体部位缺乏精确的描述。为了克服这一局限性,我们设 计了一种分层次的视觉注意力方案,将整体注意力模型放大到 每个主体部分,即部分注意力模型。这有助于精确定位身体部 位,
3
人体姿态估计新思路(怎么做?)
空间CRF模型
使用条件随机场(CRFs)来模拟空间相关性。为了使其可微,利用均值-场 近似方法递归地学习空间相关核。
3
人体姿态估计新思路(怎么做?)
嵌套沙漏网络
我们将剩余的单位替换掉,它们沿着侧分支,通过建议的微沙漏单元 (HRUs),将多个分辨率的特征组合在一起,得到一个嵌套的沙漏网络,如图所 示。
Multi-Context Attention for Human Pose Estimation 基于多语境注意力机制的人体姿态估计
动画组
1
引言
为什么做
目 录
2 3 4
怎么做
总结
论文介绍:
论文提出了将具有多语境注意力机制的卷积神经网络结合到用于人体姿态估 计的端到端框架中。主要方法: 1、采用堆叠式沙漏网络,以多种分辨率和各种语义的特征产生注意力图。
2、利用条件随机场算法(CRF)对注意力图中相邻区域之间的相关性进行建模。
3、进一步结合整体注意力模型,构建全人体全局一致性;结合身体部位注意 力模型,对不同身体部位的详细描述。
4、设计了新的沙漏残差单元(HRUs)来增加网络的接收范围。
模型优点:我们的模型有能力关注从局部显著区域到全局语义一致空间的不 同粒度。
卷积神经网络、视觉注意力图和部分注意力图三者对于姿态估计的成效对比:
输入图像 整体注意力图 部分注意力图
部分位置热力图
可视化预测效果
(a)卷及神经网络对人体产生了错误的估计 (b)视觉注意力提供模拟人体各部位之间的空间关系,效果显著 (c)部分注意力图进一步优化部分位置,效果更为显著
2
构建Multi-context Attention模型(怎么做?)
粗到细的部分注意模型和可视化部分注意图标本
4
人体姿态估计新思路成效(结果)
结果
为了研究多上下文注意机制和沙漏残基的有效性,我们对MPII人体姿态数 据集的验证集[37]进行了消融实验。如果没有指定,我们使用8 - stack沙漏 网络[29]作为基准模型。整体结果如图8所示。基于基线网络(BL),我们分析 每一个建议的组成部分,即通过比较PCKh评分,将多语义注意力模型(MS)、沙 漏残差(HRUs)、多分辨率注意力模型(MR)和层次部分注意力模型(HP)进行比较。
1、整体注意力模型
堆叠沙漏网络是构建多情境的学习,具体方法: 在每一个沙漏的堆栈中,特征被汇集到一个非常低的分辨率,然后 被向上采样并结合高分辨率的特征。这种结构多次重复,以逐渐捕 获更多的全局表示。在每个沙漏堆栈中,我们首先从不同分辨率的
特征生成多分辨率注意力图。其次,为多个沙漏栈生成了注意力地