视觉心理学的物体大小恒常性计算

合集下载

心理学经典实验

心理学经典实验实验1 心理旋转实验Cooper & Shepard,1973选取不同的字母或数字作为实验材料，如R，J，2，5。

将材料取正面或反面以及每面六中不同的倾斜角度随机呈现给被试，让其判断是正写的还是反写的字母或数字，并在反应之后记录反应时间。

结果：不同旋转角度的图形的辨认时间不同，结论：辨认图形时首先将倾斜不同角度的图形的表象加以旋转直至正立位置，然后再进行辨认，这就造成了不同旋转角度的辨认时间不同。

实验2 短时信息编码实验 Posner,1972实验安排两种材料：一种形同音同的两个字母AA；另一种是形状不同但读音相同的Aa。

并安排同时呈现和继时呈现两种模式，而继时呈现有多种时间间隔。

要求被试判定所呈现的两个字母是否相同并按键反应。

记录反应时间。

结果：同时呈现时形同音同的两个字母的反应时小于形异音同的两个字母的反应时；继时呈现时，随着两个字母呈现间隔增加，形同音同的字母对的反应时间急剧增加；而形异音同的字母对的反应时变化不大。

结论：短时记忆的信息编码先时视觉，而后逐渐过渡为听觉编码。

实验3 反应时相加因素法实验 Sternberg,?让被试先看1至6个数字（识记项目），然后再看一个数字（测试项目），要求被试判定该数字刚才是否识记过，按键反应，并记下反应时间。

结果：识记集合的大小，反应的肯定或否定、测试项目等因素分别独立作用于反应时间结论：短时记忆提取反应过程包括四个独立阶段，即刺激编码、顺序比较、决策、反应组织实验4 开窗实验 Hockey,1981给被试呈现1-4个字母并在后面标上一个数字，如“F+3”、“KENC+4”，其中字母和最后的数字由被试自行控制相继呈现。

要求被试将字母按照后面数字转换为字母表上对应数字之后的那个字母，比如“KENC+4”，先呈现“四个字母+4”，然后被试每按键后出现一个字母，他要出声进行转换“L-M-N-O”，然后按键出现下一个字母……，直至四个字母都出现，再进行一次总回答“OIRG”结果：获得的12个数据可明显看出此字母转换作业的不同加工阶段结论：作业分为三个阶段a.编码阶段：从按键看到一个字母到开始出声转换的时间b.转换阶段：出声转换所用的总时间c.储存阶段，从前一个字母转换结束到按键看下一个字母的时间实验5 音笼实验 Pierce & Young,1928让被试戴上眼罩坐在隔音房间的音笼内，音笼内各点到被试头部保持同样距离，随即在各个方位呈现声音让被试报告声源方位，主试来记录报告是否正确。

大学心理学第三章感觉和知觉

感觉剥夺实验
实验持续数日后，人会产生一些幻觉。例如看到大队老鼠行进的情景，或者听到有音乐传来等等。当实验进行到第４天时，被测学生出现了双手发抖、不能笔直走路、应答速度迟缓以及对疼痛敏感等症状。
被测学生参与完实验后，实验者再继续进行追踪调查，发现被测学生在实验结束后，需要３天以上的时间才能回复到原来的正常状态。
感觉剥夺实验
实验前，大多数被试以为能利用这个机会好好睡一觉，或者考虑论文、课程计划。但后来他们报告说，对任何事情都不能进行清晰的思考，哪怕是在很短的时间内。他们不能集中注意力，思维活动似乎是“跳来跳去”的。感觉剥夺实验停止后，这种影响仍在持续。
结果，尽管报酬很高，却几乎没有人能在这项感觉剥夺实验中忍耐三天以上。最初的８个小时好歹还能撑住，之后，被测学生有的吹起了口哨，有的自言自语，显得有点烦躁不安。对于那些８小时后结束实验的被测学生，即使实验结束后让他们做一些简单的事情也会频频出错，精神也集中不起来了。
对于一个正常人来说，没有感知觉的生活是不可忍受的。
感觉剥夺实验
第一个以人为被试的感觉剥夺实验是由贝克斯顿（Bexton）、赫伦（Heron）、斯科特（Scott）于1954年在加拿大的一所大学的实验室进行的。
被试是自愿报名的大学生，每天的报酬是20美元（当时大学生打工一般每小时可以挣50美分），所以大学生都极其愿意参加实验。
甜、酸、苦、咸等味道
嗅觉肤觉
运动觉
平衡觉
有气味的挥发性物质鼻腔粘膜的嗅细胞
气味
物体机械的、温度的作皮肤的和粘膜上的冷点、冷、温、痛、压、
用或伤害性刺激
温点、痛觉、触觉
触
肌肉收缩、身体各部分肌肉、肌腱、韧带、关身体运动状况

普通心理学第四章知觉思维导图

知觉知觉的一般概念什么是知觉知觉是人脑对直接作用于感觉器官的事物整体属性的反映，是人脑对感觉信息的组织和解释的过程。

知觉与感觉的区别与联系感觉反映个别属性；知觉反映整体属性感觉是单一感觉器官活动的结果；知觉是各种感觉协同活动的结果感觉的产生依赖于客观事物的物理属性，相同的刺激会引起相同的感觉。

知觉不仅依赖于它的物理特性，还依赖于知觉者本身的特点，如个人的知识和经验，心理状态、个性特征。

都是对直接作用于感觉器官的事物的反映，客观事物作用于感官，感知觉才会产生，事物消失了感知觉也就消失了都属于对事物的感性认识，是人类认识世界的初级形式知觉以感觉作为基础，但它不是个别感觉信息的简单总和；知觉是按一定方式来整合个别的感觉信息，形成一定的结构，并根据个体的经验来解释由感觉提供的信息知觉中的自下而上和自上而下的加工自下而上的加工（刺激驱动或数据驱动加工）知觉的产生是基于大量的感觉信息，由刺激直接引起自上而下的加工（概念驱动加工）指知觉依赖于已经存在于人们头脑中的信息进行的加工知觉中，已有的非感觉信息越多，所需的感觉信息就越少，从而自上而下的加工就越占优势反之，非感觉信息越少，就只能更多依赖感觉信息，从而自下而上的加工占优势知觉的种类空间知觉、时间知觉和运动知觉视知觉、听知觉、嗅知觉以及触摸知觉等正确知觉和错误知觉阈上知觉和阈下知觉知觉的特性知觉的对象与背景人在知觉客观世界时，总是有选择地把少数事物当成知觉的对象，而把其他事物当成知觉的背景，以便更清晰地感知一定的事物与现象整体与部分的关系人的知觉系统具有把个别属性、个别部分综合成整体的能力对整体的知觉优于对个别成分的知觉理解在知觉中的作用理解帮助对象从背景中分出理解还有助于知觉的整体性理解还能产生知觉期待和预测知觉的恒常性当知觉的客观条件在一定范围内改变时，我们的知觉映像在相当程度上保持着它的稳定性形状、大小、明度、颜色形状恒常性：对物体形状的知觉不因它在网膜上投影的变化而变化大小恒常性：对物体大小的知觉经验不因物体距离的远近所构成的网膜大小而所变化的现象。

教育心理学第2章感觉知觉与注意(原创)

只有在注意的状态下才能监控和调节自己的行为和活动，使其朝着达到目标的方向发展。
一、注意的概述
（二）注意的类型 1.无意注意
——事先没有预定的目的，也不需要付出意志努力的注意。例：大家正在开讨论会，忽然一个人推门进来，大家都不由自主地转过头去看他
上课时，老师停止声音。
• 引起无意注意的原因来自两个方面：刺激物的特点和人的内部状态，同时这两方面的原因也是密切联系的
感觉对比
• 感觉对比——不同刺激作用于同一感受器官，使其感受性发生变化的现象
• 原理：两事物在大脑皮层中产生相互诱导作用，在对比中加深了印象，而单独出现在大脑皮层中的事物，无诱导作用，显得平淡而不易记忆。
• 感觉对比分同时对比和继时对比两种。
同时对比：几个刺激物同时作用于同一感受器，从而使感受性发生变化的现象。例如，同样一个灰色长方形，放在白色背景上就显得暗些，而放在黑色背景上则显得亮些。
第二章感觉知觉与注意
第一节感觉和知觉第二节注意
第一节感觉和知觉
一、感觉的概述（一）感觉的概念
定义：人脑对直接作用于感觉器官的客观刺激物的个别属性的反映。
一、感觉的概述
（二）感觉的分类 1.外部感觉
包括：视觉、听觉、嗅觉、味觉、肤觉 2.内部感觉
包括：运动觉、平衡觉、机体觉（内脏觉）
注意的两个基本特征：指向性：人的心理活动在某一时刻指向一部分对象，
而离开其他对象，表现出心理活动的选择性。集中性：有关心理活动共同停留在被选择的对象上，
它使心理活动离开一切无关的事物，多余的活动被抑制。
第二节注意
一、注意的概述注意的功能
选择功能：大脑的信息加工能力有限，同一瞬间只能加工部分信息。注意的基本功能是对信息选择，使心理活动选择有意义的、符合需要的和与当前活动任务相一致的各种刺激；避开或抑制其他无意义的、附加的，干扰当前活动的各种刺激。

心理学的感觉知识

心理学的感觉知识心理学的感觉知识心理学是研究人们心理的一门学科。

下面让我们来了解一下心理学的感觉知识的内容吧！心理学的感觉知识一，知觉的定义对客观物体的个人属性的认识是感觉，对同一物体所产生的各种感觉的结合，就形成了对这一物体的整体的认识，也就形成对这个物体的知觉。

知觉是各种感觉的结合，它来自感觉，但高于感觉。

现实生活中很难有单独存在的感觉，只有在实验室里才把感觉当成独立的心理现象加以研究。

比如，我们看到1个苹果，我们不仅知道它是圆的，红的，还知道它是凉的，光滑的，吃起来酸甜的，它离我们多远，在什么方向上。

二，知觉的基本特性1，整体性给你画个半圆，借助于过去的经验，你可以感知到整体圆形，这个就是知觉整体性的表现。

2，选择性网络上面经常有很多测试图，不同角度，不同重点看到的东西的不一样的。

这种叫做知觉的选择性。

3，恒常性不同距离看1个人，远近大小，不会影响你对他高度的认知，不会站的远就觉得他人矮了，这个就是大小知觉的恒常性。

当然还有其他恒常性，比如形状，颜色，明度，运动等等。

一个方块高速360旋转，你不会觉得他是圆的。

但是恒常性的发生是有条件的，比如超过这个条件，恒常性就不存在了。

比如，80米外就超出视觉判断距离的限度。

所以位于远距离，且没有可以参照的物体时，对他大小知觉就不准确了。

4，理解性人们总要用过去的经验对其加以解释，并用词把它揭示出来特性叫知觉的理解性。

比如一朵云彩，你觉得像套马轩的汉子，你威武雄壮。

不好意思说错了。

你可能觉得像一匹马，那么你越看就会越像。

知觉的种类一，空间知觉对物体的大小，形状，距离，方位等空间特性的知觉叫空间知觉。

所以，空间知觉就包括大小知觉，形状知觉，距离知觉，方位知觉。

1，大小知觉大小知觉是由物体在视网膜上形成的视像的大小，物体与观察者之间的距离以及周围参照物等因素决定的。

在形成大小知觉的时候，运动觉和触摸觉都起了非常重要的作用。

根据观察者的经验知道，在距离相同的条件下，看到的东西越大，物体越大。

十个有趣的视觉错觉现象

十个有趣的视觉错觉现象作者：安利来源：《百科知识》2015年第14期视觉的产生是眼睛和大脑共同作用的结果。

人眼看东西时往往会受到背景、线条和色块等外部因素的干扰，而且在把影像信息传送到大脑的过程中，会因为信息的复杂程度而多少有所损耗和取舍，再加上大脑处理过程也很复杂，所以难免出“差错”，形成有趣的、有时甚至引起心理不安的视觉错觉现象。

1.弗雷泽螺旋错觉图中一圈圈的圆弧看起来是呈螺旋状的，其实这是由一组同心圆构成的。

这种错觉是英国心理学家詹姆斯·弗雷泽1906年发现的。

错觉产生的关键是背景里那些带有方向性的小单元格，它们使视网膜上形成的简单的连续的线条发生倾斜，造成螺旋上升的错觉。

2.赫林错觉图中的两条竖线看起来似乎是向外弯曲的，但实际上它们是互相平行的。

这种错觉被称为赫林错觉，亦称发散线条错觉，是由德国心理学家艾沃德·赫林于1861年提出的。

放射线的存在歪曲了人对线条和形状的感知。

要观察出这种错觉，两条直线和背景中的斜线交角必须小于90度。

3.佐尔纳错觉图中的8条长线是彼此平行的，可是加了方向不同的短线后，看上去就不平行了，这被称为佐尔纳错觉。

对于这类几何错觉，神经生理学理论认为，当两个轮廓彼此接近时，它们在视网膜上的投影也彼此接近，造成视网膜上的神经细胞间存在互相抑制的现象出现，进而引起几何图形形状和方向的错觉。

4.缪勒·莱伊尔错觉两条等长线段，由于线段两端箭头朝向的不同，使得箭头朝内的线段比箭头朝外的线段显得长些。

这种错觉1889年由缪勒·莱伊尔提出。

其原因可能是箭头朝外使该线条产生收缩感，而且试验证明，线段长度为8～50毫米时，这种错视最明显;如果线段长度增长，错视的感觉便有减小的趋势。

5.艾宾浩斯错觉图中两组圆中，似乎右侧的中心圆要比左侧的中心圆大一些，但事实上它们的大小是一样的。

被大圆围绕的圆看起来会比被小圆围绕的圆要小。

这种错觉是由德国心理学家赫尔曼·艾宾浩斯发现的，他是最早采用实验方法研究人类高级心理过程的心理学家之一，提出过著名的“艾宾浩斯遗忘曲线”。

第七章知觉实验心理学课件

• 潘佐错觉（倒V）
• 对比错觉
• 爱因斯坦错觉
• 物理上闪烁的光在主观上引起的感觉介于闪烁与稳定之间时的频率叫做临界闪光频率（critical flicker frequency），或临界融合频率（critical fusion frequency），简写为CFF。
（二）视错觉
• 1、运动错觉
• 2、线条错觉
• 3、自然错觉
• 月亮错觉：是指月亮在刚刚在地平线升起时看起来比在天顶时要大，而实际上月亮在两个位置上的大小是相同的（即直径保持不变），此时月亮大小(S)/距离(D)×57.3o
例如，某人的身高为1.8m，在6m远处形成的视角 α ＝1.8/6×57.3o ＝ 17.19o
•
网膜映象：在视网膜上所成的像，是倒置的。
•
如何计算网膜映像的大小？
• 影响视敏度的因素：
• (1)亮度：亮度增加，视敏度增加。
• (2)物体与背景间的对比度
1960）设计的，它表明深度线索的经验会直接影响到人们对这一测验中各个图片的感知。
• 从内容上来说，测验中这7幅图的每幅图画都可以包括7个组成部分中的若干个：一只羚羊、一只大象、一个人、一棵树、一条路、几座小山和一只正在飞翔的小鸟。见图7-2。
• （3）知觉恒常性（perceptual constancy）
• (3)视网膜不同部位：锥体细胞对细节分辨起作用，在锥体细胞集中处（中央凹）视敏度最大。
• (4)视觉适应：明、暗适应
• (5)闪光盲会降低视敏度
• 在明适应的条件下，突然的强光刺激会暂时降低视敏度，这种现象称为闪光盲。闪光盲也许是视觉功能的保护性抑制，但是过强的闪光可能造成永久性损伤。

第二章视觉生理与视觉心理

光的本质
人们通常所说的光是指“可见光”，它是由光源发出的辐射能中的一部分，并能产生视觉效应。从量子物理的观点，光具有二重性：粒子性和波动性。单个光子呈粒子性，密集光子的集合衍射便呈现出波动性。所以，光是一种电磁辐射能，即电磁波，光线的方向也就是波传播的方向。将各种电磁波按波长依次排列，就成为电磁波谱。
眼球的运动
• 人们在观察外部信息时，眼球始终处于不停运动的状态。只有静止的景物，没有静止不动的眼睛。 • ？眼球要不停的运动答：只有眼球不断的跳跃、颤动的刺激，才能引起大脑的注意。因此也有人认为眼球转动快的人更聪明。 • 眼球运动起到对视觉信息的选择与处理的作用，其中包括直接接受物理的“近刺激”和应对外界视野范围较广的 “远刺激”的两种眼球运动的重要分工。 • 对于视觉信息的选择，前者是一种眼球的瞬间运动，是一种“ 跳跃性的运动”。而后者是一种“追随性”运动。
• 3.3.3立体知觉与深度知觉 • 所谓立体，只是一种被感知的立体，这是由于人们的视觉心理的立体知觉所决定的。 • 1、双眼视觉：人对立体和空间的视觉感受主要通过两眼同时观察而获得。在观察外界物体时，每只眼睛都在各自的视网膜上形成单独的视像，并将这两个视像引起的神经冲动传送到大脑的视觉皮层，经大脑皮层的综合作用便形成了单一的具有立体感的视觉映像。 • 双眼视野大于单眼 • 中央眼
• 几何型：根据几何的透视原则而产生的透视关系，如远处在上，近处在下。东方绘画中国日本都属于这类。
Hale Waihona Puke • 概念型透视：主要通过社会观念等所表现的透视关系，如主要人物放大，突出其主要性等。 • 增强或减少视觉纵深的方法： • （1）大小：大的物体感觉较近，小的物体感觉较远 • （2)遮挡：前面的物体遮挡住后面的物体，可以体现出一定的纵深感。 • （3）质地：组成质地或纹理单元大的近，小的则显的远 • （4）焦距：观察到的细节，清楚的比模糊的更显得近。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

视觉心理学的物体大小恒常性计算摘要：　知觉恒常性是人类感知世界最重要、最突出的方面，它为解决计算机图像理解和物体识别等经典计算机视觉难题提供了新的思路．大小恒常性是最重要的知觉恒常性之一．正确的图像物体大小恒常性感知的关键在于准确计算物体在图像中的感知深度．本文总结了人眼使用的各种图像深度线索，提出了这些线索融合与冲突的解决方案，然后用数学方法建立了图像物体大小恒常性计算模型．实验结果表明该模型是有效的．本文是应用视觉心理学来解决计算机视觉问题的一次成功而有益的探索．关键词：　大小恒常性；视觉心理学；图像理解；图像深度线索１引言根据几何光学知识，物体在视网膜的映像轮廓不同于物体的轮廓，会随着人和环境不断变化，而且几乎每时每刻都在发生变化．但是对我们而言，外界的物体看上去都是一样的，有着标准的形状、大小、颜色、明度和位置关系．例如，随着观察者与桌子的相对运动或照明的变化，桌子的视网膜映像发生了很大的变化，但我们对它的感知却基本上没有变化．这种现象称作知觉恒常性（Ｐｅｒｃｅｐｔｉｏｎｃｏｎｓｔａｎｃｙ），它是人类感知世界最重要、最突出的方面．知觉恒常性使人类视觉系统能超越不完全的、易于失真的、模糊的、二维视网膜映像，而建立起丰富的、稳定的、通常正确的、三维的客观世界表象？从光学成像的角度，人眼和照相机有着几乎完全相同的成像机制（初始状态相同）．根据Ｍａｒｒ的观点，计算机视觉问题与人类视觉问题几乎完全相同，两者都是从图像中发现客观世界有什么事物，这些事物在什么地方（目的状态相同）．不同的是，人类视觉能轻易地完成计算机视觉中的许多经典难题，如边缘检测、图像分割、物体识别等等．目前，大多数研究者认为，无论在生物社区还是在机器人社区，人类视觉系统都是最好的、最通用的，而且绝大多数计算机视觉算法的参考标准要靠人眼标定．不难想象，在计算机求解视觉问题的中间状态时，如果能完全共享人类视觉的计算理论与算法，从理论上讲计算机视觉的性能就有可能与人类视觉系统相媲美悼１．知觉恒常性是人类感知世界的基本方式，所以计算机视觉也应充分利用人类知觉恒常性的有关理论与算法．恒常性理论对图像物体识别有着特别重要的意义．因为随着成像视点的变化，客观世界中的任一物体都可以产生无限多个二维图像投影，所以从二维图像出发，识别出对应的客观世界物体是一对多的数学问题，也是计算机视觉中的经典难题．恒常性理论最吸引人的地方是：面对连续变化的刺激特征，物体能被稳定、唯一地感知．所以恒常性理论特别有助于解决物体识别中的视点不变（Ｖｉｅｗｐｏｉｎｔｉｎｖａｒｉａｎｔ）难题Ｈ。．恒常性主要包含如下种类：大小恒常性、形状恒常性、明度恒常性及颜色恒常性等．文献［５］指出：除了有了颜色恒常性的报告外，没有发现计算机视觉学者对其他恒常性的研究文献．我们通过对国内外的中、英文文献资料的检索，也得出了同样的结论．故本文将对大小恒常性进行计算研究．大小是标识物体的一个重要属性．例如，在日常生活中，矮个子被感知为小孩的概率较大，高个子被感知为成年人的概率较大．而且，正确感知物体的大小具有重要的生物学意义．对许多食肉动物而言，小老虎是它们可能的美餐，而大老虎则是它们的杀手．故自动计算图像物体的正常大小对于图像物体识别无疑是十分重要的，这也正是图像物体大小恒常性计算的意义及应用所在．２大小恒常性心理学基础视觉心理学的研究表明：尽管物体视网膜映像的大小在变，但看上去它的大小基本不变．心理学家称这一现象为大小恒常性（Ｓｉｚｅ　ｃｏｎｓｔａｎｃｙ）．图１显示了一些大小恒常性的例子．视觉心理学已经揭示了大小恒常性的计算理论ｕ１，用公式表示为：Ｓ＝Ｂ木Ａ半Ｄ　（１）ｓ为物体的感知大小，Ａ为物体的成像视角，Ｄ为物体的感知深度（也称感知距离），即人类视觉系统感知到的图像上物体在成像时离照相机的距离，曰为与眼睛（相机）有关的成像缩放系数（对于同一次成像，曰值对所有物体都是相同的）．物体的成像视角Ａ可用物体在图像中的一维大小来表示．图２演示了一个实例．棒１和棒２分别放在离观察者１０个单位、３０个单位远的位置上，即Ｄ棒ｌ＝１／３　Ｄ棒２．根据几何光学知识，物体成像视角的大小与物体离眼睛的距离成反比，故两棒成像视角的关系为Ａ棒。＝３Ａ棒２．如果能正确感知两棒的实际深度（距离）Ｄ棒。，Ｄ棒２，应用式（１）就能实现大小恒常性，即Ｓ棒。＝Ｓ棒２．视觉心理学还揭示了人眼使用的各种图像深度线索（Ｉｍａｇｅｄｅｐｔｈ　ｃｕｅｓ），主要包括：物体在图像中的高度（Ｅｌｅｖａｔｉｏｎ　ｏｆ　ｏｂｊｅｃｔ　ｉｎ　ｔｈｅ　ｉｍａｇｅ）、线性透视（Ｌｉｎｅ　ｐｅｒｓｐｅｃｔｉｖｅ）、纹理梯度（Ｔｅｘｔｕｒｅｇｒａｄｉｅｎｔ）、大气透视（Ａｅｒｉａｌ　ｐｅｒｓｐｅｃｆｉｖｅ）等．下面对它们分别介绍，主要参考资料见文献［１，６，７］．（１）物体在图像中的高度室外深度图像一般同时包含低处的地面部分与高处的天空部分，如图ｌ（ａ）一（ｃ）、图３（ｃ）～（ｄ）．室内深度图像一般也同时包含低处地板部分与高处的天花板部分，如图３（ａ）．我们分别统称室外图像的天空部分与室内图像的天花板部分为图像天空，地面部分与地板部分为图像地面，并称图像天空与图像地面的分界线为中间线．处于中间线附近的图像物体在图像中具有最大的感知深度．在图像地面部分，图像物体离中间线越近，即离图像底端越远，感知深度越大，反之越小；在图像天空部分，图像物体离中间线越近，即离图像顶端越远，感知深度越大，反之越小．物体在图像中的高度是一种最重要的图像深度线索．图像有时也没有中间线，此时只有地面部分，线性透视客观世界中向远处延伸的平行线，在图像平面中将靠得越来越近，甚至会聚（Ｃｏｎｖｅｒｇｅ）．这样一组线称为会聚线（Ｃｏｎｖｅｒｇｉｎｇ　ｌｉｎｅ），它们的会聚点称为灭点（Ｖａｎｉｓｈｉｎｇ　ｐｏｉｎｔ）．在图像中，平行线指示平坦的表面，会聚线指示向远处延伸的表面．对于室外图像，线性透视效果一般仅出现在图像地面部分，但对于室内图像，同时作用于地面部分与天空部分，如图３（ｎ）．线性透视的深度感知规律是：图像中的物体离灭点越近，感知深度越大，反之越小．同时，会聚线的中心线也能给出图像感知深度变化最快的方向．如图ｌ（ａ）两铁轨的中心线（与图像底端边线夹角约４５℃）指示感知深度变化最快的方向；而图ｌ（ｂ）小径的中心线（与图像底端边线夹角约９００ｃ）为感知深度变化最快的方向．（３）纹理梯度（纹理密度）　许多表面如墙面、路面及田野里的花朵都有纹理．当这些纹理表面向远处延伸时，表面离观察者越远，分辨率越小、纹理也变得越来越小．所以，对于图像中的同质纹理区域，分辨率越小，纹理越小，感知深度越大；纹理越大，分辨率越大，感知深度越小．纹理梯度方向可用来指示感知深度变化最快的方向，大气透视大气散射来自各个方向的光线．来自远处物体的光线也应被大气散射．因蓝光更容易被散射，所以物体距观察者越远，物体附着的蓝色越深．又因并不是所有的光都以直线进入观察者的眼睛，所以物体距观察者越远，物体看上去越模糊．这种自然现象称大气透视，它也是一种图像深度线索：图像中的物体越模糊，附着的蓝色越深，感知深度越大，反之越小．（ｄ）是一张大峡谷的照片．照片中间靠近右侧（如箭头所示）的部分清晰、带蓝色较浅，感知深度较小；而同一高度靠近左侧的部分模糊，带蓝色较深，感知深度较大．上述所有线索都是相对深度线索．第一种深度线索（物体在图像中的高度）既适用于自然场景图像又适用于人造场景图像，是最为重要的深度线索．第二种深度线索（线性透视）一般仅适用人造场景图像．前两种线索都能对整幅图像产生强烈的、难以抗拒的深度感知．纹理梯度要求有大范围的规则纹理表面．大气透视仅适用于室外、天气晴朗且实际距离较远的物体．后两种线索适用范围有限．一般情况，各种线索是互补的，但有时也会产生冲突．冲突如何解决，心理学家并没有给出可参考的结论，本文将在这方面做一些有益的尝试．其他深度线索如物体重叠、阴影及对物体的熟悉程度等，我们在此不作介绍，原因是：一对它们的表示与计算比较困难；二通常它们只局部影响深度感知，在成像场景景深较大时，对深度感知的影响很。３大小恒常性计算模型尽管视觉心理学早已揭示了人类视觉系统大小恒常性的计算理论，但是多年来，计算机学者没有应用此项成果来解决计算机视觉问题，所以计算机也就一直没能获得图像物体大小恒常性感知的能力．应用式（１）作为计算理论，本文提出了图像物体大小恒常性的计算模型，试图使计算机像人一样，对单幅二维图像中的各物体能实现相对大小恒常性感知．实验结果表明此模型的效果确实如此．该模型的输入是单幅二维直立图像；输出是图像中的各物体在一维维度上和指定方向上（一般是垂直或水平方向）的相对感知大小；中间过程是按式（１）进行的相对大小恒常性计算；相机模型为针孔成像模型．直立图像是指：图像天空位于图像中间线的上面，图像地面位于图像中间线的下面．相对大小恒常性是指：在客观世界中，人与人之问、人与各正常物体之间及各正常物体之间的大小比例关系是基本恒定不变的，如成人与儿童的相对高度、成人与房子的相对高度、餐桌与旁边椅子的相对高度等等．这是人类视觉系统具有大小恒常性感知的客观物质基础，但是在针孔成像过程中，这种恒定的大小比例关系被破坏了．所以必须自动恢复图像中各物体间的大小比例关系，这个过程即本文要研究的大小恒常性计算．由式（１）可知，要实现对图像中各物体相对大小恒常性感知，需要正确计算图像物体的成像视角Ａ和相对感知深度Ｄ．成像视角Ａ可用物体在图像中的一维大小表示，即可用它在图像中沿某一方向覆盖的像素点数量表示．对给定轮廓的图像物体，计算机能轻易完成这项计算任务．本文的目的仅是论证大小恒常性计算模型的正确性与有效性，故假定图像物体的轮廓都是人工给定的，其余的工作都是由计算机自动完成．估计相对感知深度Ｄ一直是计算机视觉中的难题．本文从上述心理学的结论出发，提出了一种简单、新颖、有效的求解方法，其计算原理见图首先，利用物体在图像中的高度与大气透视两种深度线索，用天空检测技术计算出中间线上１，把图像地面部分从整幅图像中分离出来．其次，在图像地面部分，利用线性透视与纹理透视两种深度线索，可算出从图像底端边线到中问线的深度变化最快方向直线如．岛与厶的交点ｙ（ｙ。，Ｋ）为图像中的感知深度最大的点，即灭点．如与图像地面底端边线的交点ｕ（以，玑），为图像中的感知深度最小的点，我们称之为近点．根据针孔成像模型，在一定的范围内，图像深度是线性变化的．故从近点ｕ向图像中间线，沿着深度变化最快方向直　线￡，，图像深度值线性递增，直至灭点ｙ达到最大．最后，计算图像地面相对感知深度图．与如相垂直的直线上的所有点具有相同的深度．如直线Ｌ。过点Ｐ（ｍ，Ｆｔ）且与Ｌ２垂直，则厶上的所有点的感知深度与点Ｐ相同．故点Ｐ的相对感知深度可用近点ｕ到Ｌ３的距离Ｄ。表示．这样就可以自动计算出图像地面各点的相对感知深度，进而形成稠密相对感知深度图．得到了各物体的成像视角Ａ和相对感知深度Ｄ，应用式（１），计算机就能实现图像物体相对大小恒常性计算．因为我们只计算相对感知大小，故可将式（１）的中曰值设为１．计算时，用物体中点处的感知深度代表整个物体的感知深度，其原因将在本文实验部分中讨论．４感知深度算法如上所述，大小恒常性计算的关键是计算各图像物体的感知深度．因为我们仅想实现相对大小恒常性，故仅需要计算各物体间的相对感知深度，即物体问感知深度的比例关系．人类对位于地面上的物体能较好地实现大小恒常性感知，而对处于天空中物体的感知能力较差（如月亮错觉）．这是因为相对于天空而言，地面的深度线索比较多，比较有效，所以本文也仅计算图像地面各点的相对深度．已有很多方法可用来估计图像深度，按成像设备与输入图像数量的不同可分成三类：一是多相机多图像，即基于立体成像的双目匹配（Ｓｔｅｒｅｏ　ｂａｓｅｄ　ｂｉｎｏｃｕｌａｒｍａｔｃｈｉｎｇ），精度较高，但仅能产生稀疏的深度图旧ｏ；二是单相机多图像，即基于变焦的单目图像（Ｄｅｆｏｃｕｓ　ｂａｓｅｄ　ｓｉｎｇｌｅ　ｉｍａｇｅ），精度差，但能产生稠密深度图一。三是单相机单图像，精度差，但适用范围广ｕ１１．这些方法的共同缺点是：一仅从相机成像模型及其相应的数学变换关系出发来计算出图像深度，数学运算复杂，而且需要先验知识约束（如相机参数、对应点等）；二很少有效利用心理学已经给出的各种图像深度线索，从而忽视了人的主观感受．本文从心理学结论出发，提出了一种简单、新颖的单相机单图像深度计算方法，它无需先验知识约束，可产生较稠密的相对深度图．大小恒常性的实验结果表明这种方法是有效的．感知深度算法由以下三步组成．４．１计算中间线Ｌ１我们使用天空检测技术来计算图像中间线，把图像地面从整幅图像中分离出来．目前天空分离算法主要有基于天空物理模型的方法ｕ刮与二维多项式模型的方法，大气透视线索用来区分天空与类似天空颜色的表面，如水域、墙面、玩具、衣服等．这些方法计算复杂，而且需要先进行分类训练．我们的目的仅是想验证图像物体大小恒常性计算模型的可行性，所以提出了一种简单的天空分离方法，详述如下：图像天空部分（包括天花板）的颜色一致性较好，布局较简单．利用这个特性，使用图像分割技术能将天空分离出来．因Ｈ分量对彩色描述能力相对来说与人的视觉最接近，故先把ＲＧＢ空问转换成ＨＳＩ空间．因待处理图像都是直立的，故在图像的上半部分必定存在天空区域，故仅对图像的上半部分进行统计，计算ｌＤ颜色直方图．具有最大值的直方条（Ｂｉｎ）对应的Ｈ值就是天空的Ｈ值，记作热ＫＹ．为了提高计算速度和避免地面部分的单点被误判为天空，图像被分成２木２的小块，它的Ｈ值为４个像素的平均值．设ｗ为任一图像小块，它的Ｈ值记为日ｗ，如果Ｉ风。。一巩１＜＝瓦半Ｈ。ＫＹ，则块ｗ属于天空．一为相似性阈值，实验取值为０．０５．天空的计算在整幅图像上进行．若计算出天空的面积小于图像的５％，我们便认为此图像中不包含天空．图像每列中位于最下方的天空点形成天地分界线．用最小二乘法把天地分界线拟合成水平直线，这条水平直线就是中间线Ｌ。．当图像中不包含天空时，中间线一般退缩到图像的顶　端边线，如图１（ｄ）所示；有时也会出现在图像的两侧边，如图３（６）所示，在图像的左侧边．因为所有的图像都是直立的，中间线是出现在图像的底端边线．此时，中间线的位置由灭点位置与深度变化最快方向直线岛决定．当图像中包含天空时，图像地面是由中间线、底端边线及两侧边所形成的区域；当图像中不包含天空时，图像地面是整幅图像．图５是中间线计算的例子，可以看出这种简单的方法基本能满足我们的要求．４．２计算地面深度变化最快方向直线Ｌ：由前面心理学的内容可知，线性透视与纹理梯度两种深度线索可用来指示地面深度变化最快方向．这两种线索仅在图像地面部分有效，所以计算直线如的图像支持范围仅是图像地面部分．单独利用线性透视线索，可算出一条从图像底端边线到中间线的深度变化最快方向直线，我们称此直线为线性透视直线０．单独利用纹理梯度线索，也可算出一条从图像底端边线到中问线的深度变化最快方向直线，我们