视觉注意机制理论分析
视觉注意力 原理

视觉注意力原理
视觉注意力是人们在感知世界时所表现出来的一种注意机制。
它是大脑在面对大量外界信息输入时,通过筛选和集中注意力来关注并处理特定的视觉刺激的过程。
视觉注意力可以将人们的注意力集中在感兴趣的目标上,从而提高对目标的感知和理解能力。
视觉注意力的原理可以归纳为两个关键机制:选择性注意和分配注意。
选择性注意是指大脑的特定区域会根据外界刺激的特点和重要性,选择性地加强或抑制相应的神经元活动,从而提高对该刺激的感知和认知。
这种选择性加强或抑制的机制可以使人们更容易注意到感兴趣的刺激,而忽视和过滤掉无关的刺激。
分配注意是指大脑会根据任务需求和认知目标,将有限的注意资源分配给不同的刺激和信息处理过程。
这种分配能力使人们能够在面对复杂的视觉环境时,能够集中注意力在重要的视觉任务上,同时忽略干扰和无关的信息。
通过分配注意资源,人们可以更有效地理解和记忆所接收到的信息。
视觉注意力受到许多因素的影响,例如任务需求、刺激特点和情境因素等。
任务需求决定了人们在特定环境中所需关注的刺激类型和属性。
刺激特点包括刺激的强度、颜色、形状等,这些特点会引起人们的注意。
情境因素是指人们的先前知识、经验和情感等,它们会影响人们对刺激的注意程度和选择方向。
总之,视觉注意力是一种复杂的认知机制,通过选择性注意和
分配注意的原理,使人们能够更高效地感知和理解视觉信息。
这种注意力机制对于人类的日常生活和认知活动具有重要意义。
视觉注意力机制与认知模型研究

视觉注意力机制与认知模型研究视觉注意力是人类视觉系统的重要组成部分,它是指通过选择、集中和维持注意力将注意力资源引导至感官上的某些信息来提高感知质量、减少冲突的过程。
在日常生活中,我们不断接收各种各样的视觉信息,但是大部分信息会被忽略掉,只有极少部分的信息被视为重要,受到注意力的关注。
因此,视觉注意力机制的研究对于深入理解人类视觉系统具有重要意义。
视觉注意力机制的研究主要分为两个方向:一是视觉选择性注意力的机制研究,另一个方向是视觉分配性注意力机制研究。
视觉选择性注意力机制是指通过筛选环节将感官信息中的部分信息选择出来进行深入的分析。
在不同的环境下,人类会将不同种类、不同质量的信息看成是海量的感官信息,而人类的视觉处理能力是非常有限的,因而人类会通过选择性注意力机制对感官信息进行精细和深入的分析和处理。
此过程中,注意力资源的分配是非常重要的,并且注意力受到多个因素的影响,如任务难以程度、提示信息等。
不同任务对注意力的要求不同,之所以会有这种差别,是基于人类大脑在不同处理任务上的大量数据积累和认知特点的差异。
因此,在不同的任务和环境中,人类往往会产生出一些差异性较大的注意力机制,以便更好地完成任务。
同时,在不同的任务和环境中,注意力机制也会表现出差异性,比如洞察性应变和制约,这个差异影响了视觉征程的深度与广度等。
视觉分配性注意力机制研究则是指人类在知觉过程中分配资源到每一个感官信息的比例和维持这种分配的过程。
通过观察受试者的足踝空间注意力分配,研究者发现在足踝空间任务中,人类的注意力资源分配主要集中在高质量信息上,同时这些信息容易引起人类的注意。
在时变和空间变换中,人们也会根据刺激或任务的时变特征,分配不同程度的注意力资源,因而也会导致注意力分配的不均衡。
此外,近年来,认知科学家也在积极探索基于神经网络的认知模型,在视觉注意力机制方面也取得了不少进展。
以视觉选择性注意力机制为例,研究者通过神经网络的建模,已经取得了不少进展。
人类视觉注意力机制

人类视觉注意力机制
人类的视觉注意力机制是一种神经生理过程,用于选择和集中注意力在环境中的特定信息上。
视觉注意力机制可以帮助人类过滤掉环境中的冗余信息,以及快速识别和处理重要的信息。
视觉注意力机制主要包括自底向上的注意力和自顶向下的注意力。
自底向上的注意力是指由外部环境中的感官刺激引起的注意力。
例如,当我们听到突然的声音或看到突然出现的亮光时,我们的注意力会自动地转移到这些刺激上。
自底向上的注意力可以帮助我们迅速地察觉到环境中的重要信息,以及潜在的危险。
自顶向下的注意力是由内部因素引起的注意力,通常是通过认知和目标导向的过程来调控。
例如,当我们有一个特定的任务或目标时,我们可以通过自己的意愿和意识来选择性地关注相关的信息。
自顶向下的注意力可以帮助我们集中注意力在特定的任务上,提高注意力的效率和准确性。
视觉注意力机制还可以被分为集中注意力和分散注意力。
集中注意力是指将注意力集中在一个特定的对象或区域上,以进行深入的处理和分析。
分散注意力是指将注意力分散在多个对象或区域上,以进行快速的扫视和检测。
最后,人类的视觉注意力机制还受到一些因素的影响,例如情绪状态、任务需求、经验和训练等。
这些因素可以影响注意力的分配和控制,以适应不同的情境和任务需求。
计算机视觉中的注意力机制及其应用

计算机视觉中的注意力机制及其应用近年来,计算机视觉领域取得了巨大的进展,其中一个重要的研究方向是注意力机制的应用。
注意力机制指的是模拟人类视觉系统中的注意机制,在海量信息中选择感兴趣的目标进行进一步处理。
本文将介绍计算机视觉中的注意力机制及其应用。
一、注意力机制的定义与原理注意力机制是基于人类视觉系统的研究和分析,其核心思想是通过引入一种机制来选择性地关注和处理图像中的局部信息,而不是对整个图像进行处理。
通过模仿人的视觉行为,计算机可以更加准确地识别和理解图像。
注意力机制主要包括两个关键步骤:首先是生成注意力图,然后是基于注意力图进行目标检测、分类等任务。
二、注意力机制的实现方式注意力机制的实现方式有多种,下面介绍其中两种常见的方法:空间注意力和通道注意力。
1.空间注意力空间注意力是指在图像的空间维度上对不同区域进行加权处理,从而实现对感兴趣区域的关注。
常用的方法包括高斯加权、自适应加权等。
具体而言,可以通过计算图像的显著度图来实现空间注意力。
显著度图可以反映不同区域在图像中的重要性,通过对显著度图进行阈值处理,可以得到一个二值掩膜,进而将注意力限定在感兴趣的区域上。
2.通道注意力通道注意力是指对图像的不同通道进行加权,从而实现对不同通道的关注。
在处理多通道图像时,不同通道的信息可能具有不同的重要性。
通道注意力可以通过计算每个通道的权重来实现。
常用的方法包括全局平均池化、全连接层和sigmoid函数等。
三、注意力机制的应用注意力机制在计算机视觉中有许多应用,下面介绍其中两个典型应用:目标检测和图像分割。
1.目标检测目标检测是计算机视觉中的重要任务之一,其目标是在图像中准确地定位和识别目标。
传统的目标检测方法主要依赖于手工设计的特征和分类器。
然而,由于图像中目标的复杂性和多样性,传统方法的性能存在一定的限制。
注意力机制可以通过关注感兴趣的目标区域,提高目标检测的准确性和鲁棒性。
2.图像分割图像分割是将图像分成不同的区域或对象的过程。
视觉选择性注意脑机制研究进展

视觉选择性注意脑机制研究进展I. 概括视觉选择性注意(Visual Selective Attention,简称VSA)是指在大量视觉刺激中,个体能够主动筛选、关注和处理其中一部分信息的能力。
近年来随着神经科学的发展,研究者们对视觉选择性注意脑机制的探讨逐渐深入,取得了一系列重要的研究成果。
本文将概述这些研究成果的主要进展,包括视觉选择性注意的神经基础、影响因素以及与认知功能的关系等方面。
视觉选择性注意的定义和重要性视觉选择性注意是指在面对大量视觉刺激时,个体能够有选择地关注和处理其中的一部分信息的能力。
这种能力对于人类的日常生活、学习、工作以及社交等各个方面都具有重要意义。
首先视觉选择性注意有助于提高个体的认知效率,使其能够更快地从大量的视觉信息中筛选出对自己有用的信息。
这对于在复杂环境中进行决策和解决问题至关重要,其次视觉选择性注意有助于个体更好地理解和解释周围世界,从而提高生活质量和工作效率。
此外视觉选择性注意还在一定程度上反映了个体的心理状态和情感倾向,因此在心理学研究中具有重要的应用价值。
近年来关于视觉选择性注意的研究取得了显著的进展,研究人员通过实验方法和神经影像技术揭示了视觉选择性注意脑机制的形成过程。
例如功能磁共振成像(fMRI)技术可以实时观察大脑在执行特定任务时的血流变化,从而揭示了视觉选择性注意与大脑特定区域的关联。
此外认知神经科学领域的研究也为理解视觉选择性注意提供了新的视角。
通过对不同类型的视觉选择性注意进行比较,研究人员发现,视觉选择性注意受到多种因素的影响,如任务性质、个体差异、心理状态等。
这些研究成果不仅丰富了我们对视觉选择性注意的认识,还为实际应用提供了理论指导。
研究背景和意义视觉选择性注意(visual selective attention)是指在大量视觉刺激中,个体能够有意识地关注和处理其中的一部分信息。
这种能力在日常生活和学习、工作等各个领域都具有重要的作用。
视觉注意与视觉搜索机制之间的关系

视觉注意与视觉搜索机制之间的关系视觉注意和视觉搜索是人类视觉系统中两个重要的认知过程,它们在感知和信息处理中起着至关重要的角色。
视觉注意是指人们在感知过程中选择性地关注特定的信息,以快速处理感知输入;而视觉搜索是一个目标驱动的过程,人们通过搜索特定目标物体或特征来获取所需信息。
虽然视觉注意和视觉搜索有时会被认为是相互独立的过程,但事实上它们之间存在密切的关系。
视觉注意和视觉搜索机制之间的关系可以从不同的角度来理解。
首先,视觉注意可以调控视觉搜索的效率。
视觉搜索是一个耗时的过程,而视觉注意能够通过调整注意的焦点和范围来改变搜索的效率。
通过引导注意流向目标物体或特定区域,我们可以更快速地检测到目标,提高搜寻效率。
例如,在一个视觉搜索任务中,如果目标是一个红色的圆圈,而背景是绿色的正方形,我们会更容易、更快速地找到目标,因为我们的注意被引导到红色和圆形特征上。
因此,视觉注意在视觉搜索中起到了关键的作用,能够提高搜索的准确性和效率。
其次,视觉搜索可以引发视觉注意的调控。
视觉搜索通常涉及到对目标的主动寻找,而这个寻找的过程会引发视觉注意的调控。
当我们主动寻找目标时,我们会注意到我们感兴趣的特定特征,例如目标的颜色、形状或方向。
这就意味着我们的视觉注意会根据搜索目标的特征进行调整,以快速检测到目标。
例如,如果我们要找到一个绿色的三角形,我们会主动关注绿色和三角形特征,而忽略其他无关的信息。
因此,视觉搜索可以触发视觉注意的调控,帮助我们更好地定位感兴趣的目标。
此外,视觉注意和视觉搜索还可以相互协调,共同作用。
在复杂的视觉环境中,我们需要同时处理多个信息和目标。
视觉注意和视觉搜索的协调作用可以帮助我们有效地选择性处理感兴趣的信息,并忽略其他无关的干扰。
这种协调作用可以在不同层次上发生。
例如,视觉搜索可以引发局部的视觉注意,选择性地关注目标的特征;而视觉注意可以引导全局的视觉搜索,在整个视野范围内寻找目标。
通过视觉注意和视觉搜索的协调作用,我们能够更快速、准确地处理视觉输入,提高感知和认知的效率。
视觉注意力的认知神经机制

视觉注意力的认知神经机制视觉注意力是人类视觉系统的核心。
它是一种能够使我们选择性关注感兴趣的目标物而过滤掉其他无用信息的机制。
视觉注意力的认知神经机制是一个长期以来备受研究的重点问题。
本文将对视觉注意力的认知神经机制进行深入探讨。
一. 视觉认知的分子层次研究发现,对于视觉认知的分子机制,神经递质(Neurotransmitters)和神经激素(Neuromodulators)在其中具有重要作用。
其中,乙酰胆碱(Acetylcholine, Ach)是视觉进程中最为典型的神经递质。
乙酰胆碱的含量与视觉注意力的程度成反比。
意识到周围的环境中哪些物体是有意义的,而哪些是无意义的,需要具有适当乙酰胆碱的量。
这进一步彰显了神经递质在视觉认知层面中的重要地位。
另外,多巴胺也是视觉认知的神经递质之一,内外源性多巴胺可以调节注意力,包括注意力引导,场景解释,以及注意力的定向等。
多巴胺参与了行动及感官审又系统之间的通信,该传输是注意力控制起源的重要组成部分。
二. 大脑的视觉底层处理在人的视觉系统中,视觉底层处理主要包括视觉感知、特征提取、两眼视差、并行处理等。
这方面的大部分研究是通过脑成像技术来完成的。
例如功能性磁共振成像技术(fMRI),通过不断的扫描脑部,在探索人类大脑级别的视觉处理方面发挥着重要的作用。
结构化数据的视觉届显然可以帮助理解视觉处理的机制。
对于大多数行为,视觉会产生一些反应,但未产生很多自主行动。
至少在底层视觉处理中,大多数反应和自主行动是直接通过一种无意识方式来完成的。
三. 大脑的视觉高层处理在视觉信息被传递到视觉皮层之后,会根据经验和学习对信息进行处理。
大脑还会通过视觉注意机制,对感兴趣的信息进行选择性的注意,这也被称为视觉注意的控制网络。
视觉皮层的不断进化和改进,使大多数人能够通过观察环境进行快速决策。
例如,人们能够在数毫秒之内意识到不同的面孔,即使这些面孔在形状和表情上存在细微的变化。
四. 认知神经科学其实,以上内容在认知神经科学领域中可以更好地描绘。
视觉注意力原理

视觉注意力原理视觉注意力原理是认知心理学中的一个重要理论,它描述了人类大脑在感知和处理信息时的注意力分配机制。
根据视觉注意力原理,人类的视觉系统在面对大量输入信息时,会选择性地关注、加工和记忆一部分重要的信息,而忽略其他次要的信息。
视觉注意力原理可以通过以下几个方面进行解释。
首先,人类视觉系统对于鲜艳、高亮度和高对比度的刺激更加敏感,这些刺激往往能够引起人们的注意。
其次,人们对于运动和变化的刺激也更容易注意到,这是因为运动和变化往往代表着新的信息,对生存和适应环境有重要意义。
再次,人们对于出现在他们注意范围内的刺激更容易注意到,而对于周围环境中的刺激则相对忽略。
这就是为什么当你集中注意力做某件事情时,周围的声音或移动物体可能会被你忽略掉。
此外,视觉注意力原理还包括“人类注意的独立性”和“容量有限性”。
前者指的是人们注意的焦点可以自由选择,并且不同个体的注意焦点可能存在差异。
后者指的是人类视觉系统具有一个有限的注意资源,当任务复杂度增加时,人们的注意力容量会减少,导致注意资源分配的困难。
这也解释了为什么当人们需要做多个任务时,效率可能会下降,因为他们的注意力被多个任务所分散。
在实际生活中,理解视觉注意力原理有助于设计更有效的信息传递和界面设计。
通过合理布局和突出重点,将重要信息吸引用户的注意,从而提高信息的接收和理解效果。
此外,掌握视觉注意力原理还可以帮助我们更好地分析和解读他人的行为,从而更好地理解他们的注意力分配策略和注意偏好。
总的来说,视觉注意力原理是认知心理学中的一项重要理论,它描述了人类大脑对于输入信息的选择性关注和加工机制。
通过理解和应用视觉注意力原理,我们能够更好地设计信息传递和界面设计,同时也能更好地理解他人的注意力分配策略。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2章视觉注意机制理论分析2.1 引言随着信息技术的快速发展,数字图像、视频成为信息的重要载体。
如何高效地处理和分析图像数据,理解图像内容已经成为当前的研究热点。
众所周知,人类可以从复杂的场景中快速地找到我们感兴趣的区域,容易地完成对场景的理解。
这是因为人类视觉系统(Human Visual System/HVS)的信息选择策略,利用视觉注意机制引导人眼在海量数据中注视到显著的区域,并分配资源对重要区域优先进行处理[10]。
多数情况下,当我们的眼睛接收到来自外界的大量的视觉信息,大脑并不能对所有的视觉信息进行同时,而是删除大部分无用信息,筛选出少许感兴趣的重要信息,优先对这些视觉信息进行处理。
计算机作为目前处理信息最快的工具之一,在计算机图像处理中引入视觉注意机制,不仅可以提高数据筛选能力和计算机的运算速度,还在物体识别、目标跟踪、图像分析与理解等领域具有重要的应用价值,这就为汽车车牌的快速处理提供了一个很好的解决方法。
但是目前的计算机视觉与人类的视觉在能力上存在着巨大的差异。
视觉注意机制是涉及生物视觉处理等学科交叉领域,生物视觉与计算机视觉进行的学科交流为理论创新带来了新的思路:一个可行的方法是从研究人类的视觉系统(大脑)如何感知和识别外界视觉刺激出发,模拟人的视觉注意机制,建立一种有效的视觉注意计算模型,使计算机拥有人类所具备的观察和理解世界的能力,并将其应用于静态场景、动态场景的感兴趣区域检测及场景分类中。
2.2 人类视觉感知系统关于人类的视觉感知系统,尤其是人类自身的视觉神经系统,心理学等相关领域专家已经进行了长期的探索和研究。
通过深入研究探索,人们发现人类视觉神经系统中的视觉感官信息在人脑中是按照某一固定路径来进行传递的,其输入的是视觉刺激,输出的是视觉感知,主要是由视觉感官、视觉通路、视感觉中枢组织和视知觉中枢组织组成的,其分别负责视觉信息的生成、传送和分析。
其中视觉信息分析过程可分为视感觉分析和视知觉分析,如图 2.1所示。
图2.1 人类视觉感知系统信息感知流程2.2.1 视觉系统生理结构人类视觉系统的感觉器宫是眼睛,一般人眼睛直径大约24毫米,近似球形,由眼球壁和眼球两部分组成。
角膜和巩膜位于眼球壁的外层,其中角膜具有屈光作用,能够将光线折射到眼睛内,巩膜保护眼球。
眼球壁的中间层由控制瞳孔大小的虹膜和吸收外来散光的脉络膜组成,内层有视网膜由视锥细胞和视杆细胞组成,有感光作用。
视觉信息的传递过程如下:视觉刺激从光感受细胞出发,作用在视网膜引起视感觉,再经由视神经、视束以及皮层下中枢,最终到达视皮层,引起视知觉[11]。
所谓的视感觉,指光的明暗,视知觉指颜色、形状等特性。
图2.2 人眼结构示意图眼睛的角膜是透明的、高度弯曲的折射窗口,光线通过它进入人眼内,随后有部分被带色的不透明的虹膜表面所阻挡。
瞳孔随光照强度而改变,光线暗时扩张,在正常的光照条件下它处于收缩状态,以限制眼内因球面像差引起的图像模糊。
一只人眼视网膜中不均匀分布了大约有上亿个视杆细胞及500万个圆锥细胞。
视网膜中心区域是黄斑,圆锥细胞密集程度密度特别高。
视网膜上还有一个盲点,神经中枢细胞轴突从视网膜盲点中离开,组成视神经[12]。
视网膜具有感光层、双极细胞层和节细胞层的三层生理结构,感光层中的感光细胞将视觉信号(光信号)转变为电信号,接着双极细胞分析处理这些转换的电信号,并进行分类成形状、深浅和色彩等信号。
接着节细胞把传入视网膜分类过后不同的信号传输到大脑形成图像。
除了上述细胞外,视网膜还有其它细胞:水平细胞和无长突细胞。
人眼是包含有限球壁、眼内容物和神经系统等,是一个前后直径大约24毫米,垂直直径大约23毫米的近似球状体。
眼睛的主要感光系统是眼球壁内层的视网膜,它由视锥细胞和视杆细胞组成的,视锥细胞主要用于分辨颜色。
我们会有对外界事物的色觉,其原因在于视网膜上有三种视锥细胞分别感受了蓝色、红色和绿色。
另外,视杆细胞也是主要用于感受运动物体和弱光[13]。
晶状体富有弹性,中央厚边缘薄,像一块双面凸起的球镜,它的作用是聚焦光线和调节屈光,并且玻璃体充满晶状体和视网膜之间,占据眼内腔的4/5,内含99%的水分,是眼球壁的主要支撑物[14]。
2.2.2 视觉感知系统加工特点人类视觉感知系统在视觉信息处理过程中,并不是原封不动的传送,而是结合输入信息进行相应的处理,再输出给其他神经元。
人眼的视觉系统只能选择少数显著性信息进行处理,摒弃大部分无用信息。
在视网膜上,每个神经元有不同形式的感受野,并呈现同心圆拮抗的形式[11]。
这种形式根据刺激对细胞的影响分为“on中心-off环绕”和“off中心-on环绕”两种类型。
“on中心-off环绕”类型,当光照充满中央区域时,激活反应最强;当光照充满了周边的区域时,则产生最大的抑制作用。
“off中心-on环绕”由中央抑制区和周边兴奋区组成,与“on中心一off环绕”相反。
大脑皮层上的感受野分简单细胞的感受野和复杂细胞的感受野。
其中简单细胞的感受野也分为兴奋区与抑制区,对刺激的方向和位置有很强的敏感性;复杂细胞的感受野对刺激敏感性取决于刺激的形式,和刺激的位置无关。
一般来说,不同的视觉信息要经过腹侧通路和背侧通路的加工处理操作。
腹侧通路由V1, V2, V3, V4和颞下回组成,主要对刺激信息负责接收。
视觉意识的产生须要腹侧一背侧这二条通路的共同参与。
这两条通路之间相辅相成、互相依赖与作用:人眼调整视觉注意焦点可以通过目标识别来完成,而视觉焦点可以有效地对目标识别进行指导,两者相辅相成帮助人类理解场景中的事物[15]。
作为一种生理机制,视觉注意与个人主观因素有关,也与眼球感知到的物象、环境条件和心理感受等外部刺激有关,视觉注意流程如图2-3所示。
图2.3 人类神经视觉注意识别框图在视觉处理中,视皮层中腹侧通路和背侧通路对视觉刺激信号的输入和视觉信息的进一步的处理起着重要作用。
腹侧通路中接收的信息由初级视皮层V1区经过V2区和V3区从腹侧延伸到V4和IT区直至颞叶,腹侧通路输入的信息来源主要是来源于视网膜的P型神经节细胞,该通路主要负责的是物体的识别功能,这也是另外叫“what通路”的缘由[15]。
背侧通路则由初级视皮层V2和V3区从背侧延伸向MT和MST区一直到顶叶后部,它的信息输入源主要由视网膜的M型神经节细胞,也称为“Where”通路,主要负责空间位置的信息。
根据神经生理学的相关研究结果,通过串行和并行的加工机制,可以将形状、颜色、深度和运动的相关视觉信息分离出来,并且在V2区以上层级的视皮层的分离趋向更为明显点[16]。
为比较快速完成不同的视觉任务处理,视通路各个层次上存在着基本互相独立的并行通道。
在人类视觉处理机制中,视网膜读入的信息是存在着反馈的双向传输,大脑中更高层区域都有许多反馈通路到达初级视皮层V1区和V2区,这些不同的反馈通路在一定程度与人类的意识行为有关联。
2.3 视觉注意机制模型视觉注意实质上是一种生物机制,这种机制能够从外界复杂的环境中选出重要的和所需要关注的信息,逐步排除相对不重要的信息,通过这种方式能够将十分复杂的外界视觉场景进行简化和分解,进而在接下来对重要的信息进行进一步处理。
这种机制的优势在于它能够使得我们在十分复杂的外界视觉场景环境中,可以十分迅速的注意所需要关注的重要的信息和物体。
在图像理解和分析中,人类视觉系统的视觉注意使得人们可以在复杂的场景中选择少数的感兴趣区域作为注意焦点(Focus Of Attention , FOA),并对其进行优先处理,从而极大地提高视觉系统处理的效率。
在日常生活中,我们会常常的感受到视觉注意机制的存在。
比如说一幅图像,我们会轻易的发现,墙壁上的小坑和黑点,白色打印纸上的纸张缺陷,蓝色车牌上的车牌号码等等。
图 2.4列举了几个关于视觉注意的示例图,当人们观察以下几张图片时,观察者会迅速将自己的注意力集中在左边图中的空心圆、中间图中的实心圆以及右边图中间部分的斜线,这种人眼的选择过程就是视觉注意,而被选中的对象或者区域就被称为注意焦点【17】。
图2.4 视觉注意机制示例图关于视觉注意机制,研究者们最初从生物神经科学、心理科学等方面进行了大量的探索。
心理学家将视觉注意划分为两种:一种是以自底向上(数据驱动)的方式驱使的,另一种是以自顶向下(任务驱动)的信息来控制的。
自底向上的视觉注意机制是基于刺激的、与任务无关的,比如在绿油油的草地上有一只白色的羊,大部人会第一时间注意到与周围环境不一样的羊。
自顶向下的视觉注意机制是基于任务的,受意识支配。
比如在机场接人时,我们会立刻看到我们要接的人,而对其他的人则视而不见。
2.3.1 数据驱动的视觉注意机制模型数据驱动的视觉注意机制的初级计算模型的研究从80年代后就开始成为很热的研究点,Koach等人在1985年提出了这种计算模型的理论框架[18],其中的神经网络理论的焦点抑制机制为众多模型所参考和借鉴。
Milaness等学者也提出了特征显著图的理念并利用中央—周边差分算法进行特征的提取[19],数据驱动的注意模型原理是从输入图像提取多方面的特征,如图片颜色、图像朝向、光照亮度等,并形成各个特征维上的显著图,再对所得显著图进行分析和融合得到兴趣图。
兴趣图中一般可能含有多个待注意的候选目标,通过竞争机制选出唯一的注意目标,并随后在注意焦点之间进行转移。
图2.5 数据驱动注意模型的原理流程图数据驱动的视觉注意机制模型,观察者从场景中的信息开始,外部场景信息源对人的眼睛对进行刺激,人眼对不同的场景信息进行重新组合加工进行信息并行处理。
这种因此注意模型没有先验信息的指导,也没有特定的任务,操作比较简单,处理速度比较快。
数据驱动注意模型也称为自底向上视觉注意模型,对该模型的研究主要是基于Koch和Itti等人提出的特征整合的理论,它具有两大特点[20][21]:1)数据驱动:数据驱动注意模型的注意机制与高层知识的观察无关,与底层数据驱动有关,不需要运用人的意识来控制其处理过程。
对输入的图像首先提取一些低级的诸如颜色、亮度、方向等视觉特征,并分别对每一类的特征构造生成相关的显著图。
再采用特征融合的方式把不同的显著图进行特征图合并,在这幅整合的显著图中出现的目标就是引起人类注意的目标[22]。
2)自主加工:数据驱动的视觉注意模型是一种自动加工过程,不需要先验信息和预期期望,未加入主观意识,对视觉信息的处理速度相对较快,以空间并行方式在多个通道中同时处理视觉信息。
图2.6 数据驱动的视觉注意流程数据驱动注意机制模型通过图像采样、特征提取、注意焦点搜索与描述三个模块的协同操作从输入图像中找到注意目标,形成了可操作性较强且计算速度较快的数据驱动的注意焦点检测方法。