视觉注意机制在大视场目标快速定位中的应用
视觉注意力 原理

视觉注意力原理
视觉注意力是人们在感知世界时所表现出来的一种注意机制。
它是大脑在面对大量外界信息输入时,通过筛选和集中注意力来关注并处理特定的视觉刺激的过程。
视觉注意力可以将人们的注意力集中在感兴趣的目标上,从而提高对目标的感知和理解能力。
视觉注意力的原理可以归纳为两个关键机制:选择性注意和分配注意。
选择性注意是指大脑的特定区域会根据外界刺激的特点和重要性,选择性地加强或抑制相应的神经元活动,从而提高对该刺激的感知和认知。
这种选择性加强或抑制的机制可以使人们更容易注意到感兴趣的刺激,而忽视和过滤掉无关的刺激。
分配注意是指大脑会根据任务需求和认知目标,将有限的注意资源分配给不同的刺激和信息处理过程。
这种分配能力使人们能够在面对复杂的视觉环境时,能够集中注意力在重要的视觉任务上,同时忽略干扰和无关的信息。
通过分配注意资源,人们可以更有效地理解和记忆所接收到的信息。
视觉注意力受到许多因素的影响,例如任务需求、刺激特点和情境因素等。
任务需求决定了人们在特定环境中所需关注的刺激类型和属性。
刺激特点包括刺激的强度、颜色、形状等,这些特点会引起人们的注意。
情境因素是指人们的先前知识、经验和情感等,它们会影响人们对刺激的注意程度和选择方向。
总之,视觉注意力是一种复杂的认知机制,通过选择性注意和
分配注意的原理,使人们能够更高效地感知和理解视觉信息。
这种注意力机制对于人类的日常生活和认知活动具有重要意义。
【视觉神经生理学】视觉的中枢机制

第三节 视觉系统对视觉信患的处理机 制
一、视觉系统中既平行又分级串行的信息处理机制。 不同性质的视觉信息在视觉系统中由不同神经通路进行分离
传递即进行着平行处理。 相同性质的视觉信息在同一条信息传递通路的不同阶段进行
着不同级别的处理,即分级串行处理。
• IT区对正常的视觉学习和感知是必需的。 • 摘除将损害对形状和图像的视觉辨认,而并不影晌视知觉的其他
基本功能,如视锐度、颜色和运动的辨认等。
• KO(kinetic oceipital)区主要对运动物体的边缘信息进行感知加工。 • 额眼区(frontal eye field,FEF)负责眼球运动和注意转移。 • 顶内沟背侧前部(anterior doled intraparietd sttleus,DIPSA)负责三维物
平行处理机制
M,对低空间频
大细胞通路 大神经节细胞 谱、高时频和高 4Cα 速运动最敏感,基
本无色觉
P,对高空间
4A
小细胞通路 小神经节细胞
频率、稳定或 低时频、慢速
4Cβ
R/G
运动和R/G
6层
微细胞通路
双条纹神经 节细胞
L/Y
K
2,3层斑块区
分级串行处理
• 视锥细胞超极化 • 视网膜神经节细胞水平和外膝体神经元水平是产生动作电位 • 皮层下颜色反应神经元单拮抗式 • V1区水平双拮抗式
层细胞活动。
• 5 颜色选择性 • 视皮层细胞的色感受野具有双拮抗式结构。 • 因此,双拮抗式感受野通过中心的颜色拮抗能分辨红色和绿色,通
过中心与外周之间的相互作用能使红-绿对比的边缘得到增强。
(三)初级视皮层的功能柱
视觉显著性检测

图4 Itti模型
图5视觉显著性检测计算模型对于一幅输入的图像,该模型提取初级视觉特征:颜色(RGBY)、亮度和方位、 在多种尺度下使用中央周边(Center-surround)操作产生体现显著性度量的特征图,将这些特征图合并得到最终 的显著图(Saliency map)后,利用生物学中赢者取全(Winner-take-all)的竞争机制得到图像中最显著的空间位 置,用来向导注意位置的选取,最后采用返回抑制 (Inhibition of return)的方法来完成注意焦点的转移。视 觉显著性计算模型大致上可分为两个阶段:特征提取与特征融合。在特征融合阶段,可能存在自底向上的底层特 征驱动的融合方式,和自顶向下的基于先验信息与任务的融合方式。因此,视觉显著性检测模型框架大致表述为 如图 5所示。
算法
LC算法 HC算法
AC算法 FT算法
LC算法的基本思想是:计算某个像素在整个图像上的全局对比度,即该像素与图像中其他所有像素在颜色上 的距离之和作为该像素的显著值 。
图像中某个像素的显著值计算如下: 其中的取值范围为 [0,255],即为灰度值。将上式进行展开得: 其中N表示图像中像素的数量。 给定一张图像,每个像素的颜色值已知。假定,则上式可进一步重构: 其中,表示图像中第n个像素的频数,以直方图的形式表示。 LC算法的代码实现: 1、直接调用OpenCV接口,实现图像中像素的直方图统计,即统计[0,255]中每个灰度值的数量。 2、计算像素与其他所有像素在灰度值上的距离。 3、将灰度值图像中的像素值更新为对比度值(即距离度量)。
最新-选择性注意与视觉空间的联系综述 精品

选择性注意与视觉空间的联系综述论文关键词空间注意空间工作记忆基于物体的注意物体工作记忆论文摘要传统上只是从单方面讨论了选择性注意一与视觉空间工作记忆之间的关系,即认为注意选择有限信息以进人工作记忆。
近期的一些研究发现,视觉空间工作记忆的内容影响选择性注意的分配,注意选择工作记忆中保持的空间或物体表征,选择性注意对于正确保持空间或物体信息是必需的认知调节。
文章最后指出,关于选择性注意与视觉空间工作记忆交互作用的研究为将来进一步揭示基于空间与基于物体的注意选择之间的交互作用关系提供了一个很好的途径。
1引言对于视觉注意所选择的信息表征的类型,目前已得到大量实验证据支持的主要有两种理论观点,即基于空间一和基于物体一的视觉注意理论。
基于空间的理论模型认为,视觉选择是基于对视野的纯粹的空间表征进行操作的,视觉注意选择的是特定的空间位置,然后才对落在所选空间内的物体进行加工。
基于物体的理论模型认为,视觉注意选择的是根据格式塔知觉组织原则对视野的注意前组织而得到的知觉物体,而不管物体所处的空间位置。
等1994首次在单任务范式下同时确立了基于空间与基于物体的注意,说明这两种注意成分不是完全相互排斥的,而是可以交互作用的方式共同作用于视觉加工过程。
后来的一些研究进一步证实了等人的发现,并在单任务范式下初步探索了基于空间与基于物体的视觉选择的交互作用关系。
工作记忆是一个临时保存有限信息的认知系统,其中的信息时刻处于激活状态,以便随时进人其它认知过程。
1986提出了一个著名的工作记忆模型,这个模型包括两个独立的工作记忆系统,即视觉空间和语音工作记忆。
后来的研究发现,视觉空间工作记忆又可进一步划分为若干独立的子系统,如空间工作记忆和物体工作记忆的分离等。
这种工作记忆结构的分离反映出,在哺乳动物视觉系统中,有两条独立的神经通路以分别加工空间和物体视觉特征,即所谓的系统和系统。
对于选择性注意与视觉空间工作记忆这两个认知系统之间的关系,过去一般只看到它们之间的一个单向联系,即认为注意选择感觉信息以进入工作记忆中,注意对于工作记忆起着闸门控制的作用。
注意在时间知觉中的作用及其理论模型

注意在时间知觉中的作用及其理论模型一、本文概述时间知觉,即我们对时间流逝的感知和认知,是人类生活中不可或缺的一部分。
从日常的作息安排到复杂的计划执行,我们都需要依赖于准确的时间知觉。
然而,时间知觉并非一成不变,它受到众多因素的影响,其中注意的作用尤为关键。
本文旨在探讨注意在时间知觉中的作用,以及相关的理论模型。
我们将首先回顾时间知觉的基本概念和研究背景,明确其在心理学和认知科学中的重要性。
随后,我们将详细分析注意对时间知觉的影响,包括注意的时间分配、注意资源的有限性以及注意对时间感知的调节作用。
在此基础上,我们将介绍几种主流的理论模型,如注意闸门模型、变化/分割模型和注意资源模型,这些模型为我们理解注意在时间知觉中的作用提供了重要的理论框架。
通过本文的阐述,我们期望能够更深入地理解注意在时间知觉中的作用机制,为未来的研究提供有价值的参考。
我们也期待这些理论模型能够在实践领域,如时间管理、教育心理学和认知障碍康复等方面,发挥积极的指导作用。
二、时间知觉的基本理论时间知觉,即人们对时间流逝的感知和理解,是一个复杂且多维度的心理过程。
其基础理论涵盖了多个方面,包括时间知觉的心理学机制、时间感知的神经生理学基础,以及时间估计的影响因素等。
时间知觉的心理学机制主要关注人们如何主观地感知和理解时间。
根据心理学家的研究,时间知觉受到多种因素的影响,包括刺激的性质、任务的复杂性、个体的心理状态等。
例如,当面对连续不断的刺激时,人们往往会感觉时间过得更快;而在等待的过程中,人们可能会感觉时间过得特别慢。
个体对时间的感知也会随着年龄、情绪、注意力等因素的变化而发生改变。
时间知觉的神经生理学基础揭示了时间感知与大脑活动之间的紧密联系。
研究表明,大脑中的某些区域,如顶叶、前额叶和基底神经节等,都参与了时间知觉的过程。
这些区域通过神经元的放电模式和突触连接的改变来编码和处理时间信息,从而影响我们对时间的主观感知。
时间估计的影响因素的研究探讨了影响时间知觉准确性的各种因素。
人类视觉注意力机制

人类视觉注意力机制
人类的视觉注意力机制是一种神经生理过程,用于选择和集中注意力在环境中的特定信息上。
视觉注意力机制可以帮助人类过滤掉环境中的冗余信息,以及快速识别和处理重要的信息。
视觉注意力机制主要包括自底向上的注意力和自顶向下的注意力。
自底向上的注意力是指由外部环境中的感官刺激引起的注意力。
例如,当我们听到突然的声音或看到突然出现的亮光时,我们的注意力会自动地转移到这些刺激上。
自底向上的注意力可以帮助我们迅速地察觉到环境中的重要信息,以及潜在的危险。
自顶向下的注意力是由内部因素引起的注意力,通常是通过认知和目标导向的过程来调控。
例如,当我们有一个特定的任务或目标时,我们可以通过自己的意愿和意识来选择性地关注相关的信息。
自顶向下的注意力可以帮助我们集中注意力在特定的任务上,提高注意力的效率和准确性。
视觉注意力机制还可以被分为集中注意力和分散注意力。
集中注意力是指将注意力集中在一个特定的对象或区域上,以进行深入的处理和分析。
分散注意力是指将注意力分散在多个对象或区域上,以进行快速的扫视和检测。
最后,人类的视觉注意力机制还受到一些因素的影响,例如情绪状态、任务需求、经验和训练等。
这些因素可以影响注意力的分配和控制,以适应不同的情境和任务需求。
什么视觉注意力
什么视觉注意力视觉注意力是指我们对视觉信息的选择性处理和集中注意力的能力。
它是一种认知过程,在日常生活中起着至关重要的作用。
我们的大脑接收到大量的视觉信息,但由于处理能力和资源的限制,无法同时将所有的信息都进行深入的处理和分析,因此就需要通过视觉注意力的调节来选择我们感兴趣或重要的信息,并将其加以处理和理解。
视觉注意力的表现形式有以下几个维度:第一是注意的广度和范围。
广度指的是注意力的范围有多大,是否同时处理多个目标。
狭窄的注意范围意味着我们主要关注局部细节,而较宽的注意范围意味着我们可以同时关注多个目标。
研究发现,注意的广度可以通过训练进行改变,比如通过一些认知训练可以提高我们的注意范围。
第二是注意的稳定性和持续时间。
稳定性指的是我们能够维持注意的时间有多久,是否容易分散注意力。
有些人的注意力很容易被外界环境的干扰所分散,而有些人则能够更好地维持注意力。
这个也与人的个体差异有关,有些人天生就具有较好的注意力稳定性,而有些人则需要通过训练来提高。
第三是注意的选择性。
选择性指的是我们能够有针对性地选择感兴趣或重要的信息进行处理。
在面对海量的信息时,我们需要通过注意力选择性的调控来决定哪些信息值得我们的关注。
这个过程也与任务的要求和个体的目标有关。
比如,在一个复杂的视觉任务中,有时候我们需要选择关注任务相关的信息,而忽略任务无关的信息。
视觉注意力的机制可以分为自动和控制两种。
自动注意是指在没有意愿的情况下,注意力会自动被某些特定的刺激物所吸引,比如亮度突变、运动等。
而控制注意是指通过主动的意愿来引导和调控注意力,以满足特定任务的需要。
控制注意可以通过训练来提高,比如一些注意力训练和认知训练可以帮助我们更好地控制和调控注意力。
视觉注意力的研究领域有很多,其中一个常用的研究方法是眼动追踪技术。
眼动追踪技术可以记录被试者在视觉任务中的眼球运动轨迹,以此来研究注意力的分配和调控。
比如,在一个搜索任务中,被试者需要快速找到目标物体,研究者可以通过眼动追踪来分析被试者的注意焦点和注意转移的过程。
cbam注意力机制的中文-概述说明以及解释
cbam注意力机制的中文-概述说明以及解释1.引言1.1 概述CBAM注意力机制是一种用于提高深度神经网络性能的关键技朧,通过动态调整网络中的特征权重来提高模型的表达能力。
其主要思想是模仿人类视觉和听觉系统中的关注和选择机制,从而使网络更加聚焦于关键区域的特征,提高模型的表达能力和泛化能力。
CBAM注意力机制包含了两种主要的注意力子模块,分别为通道注意力和空间注意力。
通道注意力主要用于调整特征图的通道权重,从而提高特征图的对比度和区分度;空间注意力则用于调整特征图的空间分布,使网络更加关注重要的区域。
CBAM注意力机制在计算机视觉领域中被广泛应用,如图像分类、目标检测和图像分割等任务中,都能取得显著的性能提升。
同时,CBAM在自然语言处理领域中也有着探索的价值,其能够帮助模型更好地理解文本中的重要信息。
本文将深入探讨CBAM注意力机制的基本原理、在计算机视觉和自然语言处理中的应用,总结其优势并展望未来的发展方向,从而为深度学习领域的研究和实践提供启示和帮助。
文章结构部分是整篇文章的框架,通过对文章内容进行概述和组织,帮助读者更好地理解文章的主题和重点。
在本文中,文章结构的安排如下:1. 引言1.1 概述1.2 文章结构1.3 目的2. 正文2.1 CBAM注意力机制的基本原理2.2 CBAM在计算机视觉中的应用2.3 CBAM在自然语言处理中的探索3. 结论3.1 总结CBAM注意力机制的优势3.2 展望CBAM在未来的发展3.3 结论通过以上结构,读者可以清晰地了解本文的主要内容和展开方式。
引言部分对CBAM注意力机制进行了概述,并说明了本文的目的;正文部分将深入探讨CBAM注意力机制的基本原理、在计算机视觉和自然语言处理中的应用;结论部分将总结CBAM的优势,并展望它在未来的发展趋势,最终给出结论。
整个结构将有助于读者系统地理解CBAM注意力机制在中文领域的研究和应用。
1.3 目的CBAM注意力机制作为一种重要的注意力模型,在计算机视觉和自然语言处理领域都有着广泛的应用。
眼动追踪与视觉注意力
眼动追踪与视觉注意力在人类感知世界的过程中,视觉注意力起着至关重要的作用。
它能够帮助我们过滤信息、集中注意力并选择性地集中在感兴趣的事物上。
而眼动追踪技术则是一种被广泛应用于心理学、人机交互、认知科学等领域的实验方法,它可以帮助研究者深入了解人们在视觉任务中的注意分配与视觉搜索的机理。
眼动追踪技术通过记录被试者眼球运动的轨迹和注视点,提供了研究者一个直观的视觉注意数据。
通过分析眼动追踪数据,我们可以了解被试者在不同条件下对视觉刺激的注意偏好和注意转移的速度。
这不仅让我们对人们是如何从环境中筛选信息的过程有了更加全面的认识,同时也揭示了人们的注意力分配是否受到任务需求、知觉特性和认知机制的影响。
一种常见的眼动追踪实验是将被试者要观察的刺激(如图片、文字等)呈现在一个屏幕上,通过追踪眼球运动数据,我们可以得到被试者针对这些刺激的视觉注意分布。
通过计算注视点的数量、注视时长、注视位置等等眼动参数,研究者能够推断被试者对视觉刺激的重要性和吸引力。
这种定量的眼动数据可以帮助我们更好地理解注意力在视觉任务中的表现和影响。
除了刺激驱动的眼动追踪实验,视觉注意力也可以主动地被引导和操纵。
研究者可以使用一些视觉提示,例如箭头、颜色或形状等,来引导被试者的注意力。
通过观察被试者的眼动行为,我们可以了解到被试者是如何根据这些提示来调整他们的注意焦点和注意策略的。
这种主动操控注意力的实验设计,让我们有机会研究被试者的注意力如何在不同条件下进行选择性分配,并可根据结果推断视觉任务中的认知过程如何工作。
眼动追踪技术的应用不仅限于实验室环境,它也被广泛应用于人机交互的领域。
通过追踪用户的眼球运动,我们可以推断他们在与计算机界面进行交互时的视觉兴趣点和注意力分配情况。
这些信息对于改进界面设计、提高用户体验至关重要。
例如,在网页设计中,我们可以利用眼动追踪技术来确定用户对不同元素的关注度,从而优化布局和内容的呈现方式,使用户能够更快速、准确地获取所需信息。
篮球运动员视觉工作记忆对注意控制的影响
篮球运动员视觉工作记忆对注意控制的影响摘要采用视觉搜索任务范式,以不同工作记忆容量的篮球运动员作为研究参与者,探讨了视觉工作记忆对自上而下注意控制的影响。
结果表明,不同视觉工作记忆容量的篮球运动员的注意控制能力存在差异,高视觉工作记忆容量组的成绩略优于低视觉工作记忆容量的篮球运动员;视觉工作记忆中信息性质影响注意控制,其影响作用是通过记忆项目特征与目标项目特征相匹配的情况来实现,这个影响过程不受视觉工作记忆容量大小的调节。
关键词工作记忆,工作记忆容量,工作记忆内容,注意控制,篮球运动员。
1引言工作记忆(workingmemory)一直是心理学研究的热点之一,它是能够同时加工、管理和储存信息的系统,是一个暂时的信息加工平台,能够对接收的信息进一步的加工处理。
Baddeley提出工作记忆是容量有限的系统,是知觉、动作和长时记忆问的接口,因此也是思维的一个基础支撑结构(Baddeley,1992,2000,2003)。
工作记忆容量的大小经常被看作是对认知加工的重要限制,并且被认为是区分个体之间以及特殊群体之间差别的基础。
Baddeley(1992)认为工作记忆模型的一个明显特征就是注意控制的性质,这实际上也就是工作记忆容量有限的理论基础。
Engle(2002)做的潜变量研究分析表明,工作记忆容量反映的是个体注意控制的能力,更多地涉及了在控制过程和自动化过程中的差异而不是在存储容量方面的差异,这也是导致工作记忆容量的个体差异与高级认知能力,如语言理解、推理、一般流体智力相关的根本原因。
Corsi积木测验(corsi block task)是测量视觉工作记忆容量的经典任务(Vandierendonck,Kemps,Maria,&Ar-naud,2004)。
其优点是顺序呈现的视觉刺激是随机的空间位置,为非语音性编码,排除了言语工作记忆对实验数据的污染(张拉艳,周世杰,2005)。
工作记忆在心理学很多的分支学科领域内已成研究热点,但在运动心理学领域却惊讶地发现很少有人把这个概念引入(Furley&Memmert,2010)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于机器视觉来说, 难点在于 ROI 的确定。由于 ROI 在 很大程度上是一个主观概念, 在一些应用中由用户直接指定 ROI[3], 但这种方法不便于自动处理。许多研究者认为 ROI 是 图像中最 “显著” 的像素集合, 因此从这个角度来看就可以通 过提取图像中的显著性区域 (salient region) 来实现。从 20 世 纪 50 年代开始, 许多研究者建立了多个视觉注意计算模型[4-7], Koch 和 Ullman[7]在已有的视觉生理和心理物理实验结果基础 上提出了一个计算模型, 用于模拟生物体 “自底向上” 选择性 注意机制, 随后 Itti[8]等人完善了这一模型, 他们从视觉分析出 发, 模拟人类视觉系统构建的视觉注意模型获得了与人类视 觉系统比较接近的注意焦点, 并将它用于包含自然景物、 交通 及军事目标的图像分析, 取得了较好的实验结果。Itti 的模型 不需要任何先验知识, 处理结果完全由输入图像的初级视觉 特征决定[9], 很适合用来做图像的初步分析。因此, 采用视觉注 意机制来快速找出大视场图像中的几个最显著区域, 指导后续 的目标定位。后续的目标定位仅在找到显著区域进行, 从而加 快目标定位速度, 节省运算效能。实验取得了比较满意的结果。
1
引言
目标定位在相关跟踪、 下视景像匹配、 空中交通监视等众
估计目标的变化参数[2], 但是对数极坐标的旋转和平移不变性 的前提是必须知道目标变化的中心位置, 因此仍然要对整幅 图像进行逐行逐列的搜索, 而且对每个位置点得到的每个图 都要进行不同角度不同尺度的配准定位, 因此计算量依然很 大, 速度依然比较慢, 难以达到实时配准的需求。 人类视觉系统 (Human Visual System, HVS) 的配准却完 全不存在这个问题, 面对一个复杂场景, 它总会迅速选择少数 几个区域进行优先处理。这个过程被称为视觉注意 (Visual Attention) , 这些区域被称为感兴趣区域 (Region of Interest, ROI) 。视觉注意使人类视觉系统能够以不同的次序和力度对 各个场景区域进行选择性处理, 从而可以避免计算浪费, 降低 分析难度。
以使得人类可以快速分析复杂图像。算法首先模拟人类视觉系统特点, 根据图像的底层信息如对比度、 方向、 亮度等提取图像中 几个最需要关注的显著区域, 然后按照显著性由强到弱的顺序分别在每个显著区域利用具有尺度旋转不变性的对数极坐标变换方 法进行目标的匹配定位。该方法在没有牺牲定位准确度的前提下, 大幅减小了运算复杂度。实验表明该算法定位速度快而且准确。 关键词: 视觉注意机制; 对数极坐标变换; 目标定位 DOI: 10.3778/j.issn.1002-8331.2010.27.042 文章编号: 1002-8331 (2010) 27-0153-03 文献标识码: A 中图分类号: TP391
(1) (2) ((27)
Computer Engineering and Applications 计算机工程与应用 在大视场图像中, 通过视觉机制得到的显著区域通常在 准确度和精确度上都无法直接满足任务需求, 但是它可以用 极低的代价获得图像内容的相关线索, 这些线索可以为分析 提供重要的引导信息, 从而使原本异常复杂的任务趋于简 单。下面用一幅航拍的机场图像来说明。所用的航拍图片为 黑白单帧图片, 因此这里只提取亮度、 朝向、 纹理特征来计算 显著图, 显著区域定位结果如图 2 所示。
2
视觉注意机制
视觉生理中将能影响某一视神经元反应的视网膜区域称 为 “感受野” , 视觉生理实验结果表明, 许多动物视神经元对亮 度信息 (如猫、 猴) 和颜色信息 (如松鼠、 金鱼、 猴) 产生反映的 感受野的形状是同心圆, 而且对该类型感受野的中心与四周 进行刺激将引起相反的反应, 这种现象被称为 “中心-外周” 机 [10] 制, 它有利于对比度信息的抽取, 可以用 DOG 模型来模拟 , 视觉心理实验同时证实, 许多动物 (如猫、 猴) 的大脑皮层视区 神经元可以对边缘、 方位等刺激产生反应 [10], 可以利用 Gabor 模型来模拟这些方位选择性神经元的反应。视觉生理实验还 表明, 灵长类动物的后顶皮层内存在一幅 “显著性地图” (saliency map) , 它如同地形图一样, 对视觉场景中每一个位置的 局部显著性或被注意程度进行编码[11]。 Itti[8] 等提出的计算模型就是基于上述视觉生理基础, 为 了抽取图像中的多尺度信息, 模型中使用了图像金字塔分解 亮度、 颜色和方向、 运动等特征, 形成各个特征维上的显著 图。然后对这些显著图进行分析、 合并生成总的显著图。显 著图中可能含有多个显著区域, 可以通过竞争机制选出前几 位显著区域[12]。图 1 给出了视觉机制流程图。
[1]
能很好地处理目标发生任意角度旋转和更大尺度变化以及平 移变化的情况。对数极坐标变换方法可以将图像的尺度和旋 转变化转变为在对数极坐标图像中的平移, 因此可以被用来
基金项目: 国家自然科学基金 (the National Natural Science Foundation of China under Grant No.60772163) ; 国家部委预研基金资助项目; 广东 省自然科学基金 (the Natural Science Foundation of Guangdong Province of China under Grant No.8151802904000004) 。 作者简介: 任仙怡 (1973-) , 女, 博士后, 高级工程师, 副教授, 研究方向为图像处理、 模式识别、 机器视觉; 张基宏 (1964-) , 男, 博士, 教授, 研究方向 为数据压缩、 信号处理等; 梁永生 (1971-) , 男, 博士后, 教授, 研究方向为信号处理、 多媒体通信等。 收稿日期: 2009-06-22 修回日期: 2009-08-03
图 2 机场图像及其显著图
在航拍图像中, 一般关注的是军事目标, 而通常为人工建 筑的军事目标和周围自然景色的特征有很大差别。从结果中 可以看出, 视觉注意机制首先找到的几个注意区域就是人工 建筑, 而且所用时间仅为 384 ms, 充分说明了它可以快速从背 景中找出最 “与众不同” 的区域, 并对之进行关注。这几个区 域里虽然只有一个是我们真正关心的机场目标, 但是由于后 续的定位搜索只在几个显著区域附近进行, 大大降低了计算 量, 方便算法的后续处理。
Computer Engineering and Applications 计算机工程与应用
2010, 46 (27)
153
视觉注意机制在大视场目标快速定位中的应用
任仙怡 1, 张基宏 2, 梁永生 1 1 2 REN Xian-yi , ZHANG Ji-hong1, , LIANG Yong-sheng1
图像 多通道多尺度滤波器组
3
对数极坐标变换
相对于选定的坐标原点 O(0 0) , 基于均匀取样的图像中
象素的位置可以用笛卡尔坐标 ( x y) 表示, 也可用极坐标 ( ρ θ) 表示, 它们之间满足关系[13-14]:
r = x2 + y2 y θ = arctg( ) x 如果用复数 z 表示, 则为: z = x + iy = r(cos θ + i sin θ) = reiθ ω = u( z) + i(v( z)) = ln z = ln r + i(θ + 2π)
1.深圳信息职业技术学院, 广东 深圳 518029 2.深圳大学 ATR 国防科技重点实验室, 广东 深圳 518000 1.Shenzhen Institute of Information Technology, Shenzhen, Guangdong 518029, China 2.ATR Key Lab of Defense Technology, Shenzhen University, Shenzhen, Guangdong 518000, China E-mail: renxianyi@ REN Xian-yi, ZHANG Ji-hong, LIANG Yong-sheng.Fast approach to object locating in large field of view based on visual attention mechanism and log_polar puter Engineering and Applications, 2010, 46 (27) : 153-155. Abstract: Biological and visual perception studies show that visual attention mechanism enables human to select several salient regions likely to contain interesting objects in the scene in very short time and then analyze the image very quickly. The algorithm in this paper firstly imitates the characters of the human vision system and uses the bottom-up visual attention algorithm to select several salient locations of the large field image based on the image’ s low-level features such as contrast, orientation, color, texture and intensity.And then the locating of the object based on the scale and rotation invariant log-polar transform is carried out at the salient regions in order of decreasing saliency.The proposed algorithm can be used to quickly detect the object with large scale and rotation variation in large field image.It also can dramatically decrease the computation complexity without the lost of the locating precision.The experimental results show the algorithm is rather fast and precise. Key words:visual attention mechanism; log_polar transform; object location 摘 要: 视觉心理学研究表明人类在看一个场景时, 往往会在很短时间内找到几个显著区, 然后再细看显著区域的内容, 这样可