计算机视觉贾云德chapter02

合集下载

北理工贾云德《计算机视觉》chapter07轮廓表示

北理工贾云德《计算机视觉》chapter07轮廓表示

第七章轮廓表示把边缘连接起来就成为轮廓(contour).轮廓可以是断开的,也可以是封闭的.封闭轮廓对应于区域的边界,而区域内的像素可以通过填充算法来填满.断开的轮廓可能是区域边界的一部分,也可能是图像线条特征,如手写体笔画、图画中的线条等.区域之间的对比度太弱或边缘检测阈值设置太高都有可能产生间断的轮廓.轮廓可以用边缘序列表或曲线来表示.曲线通常称为轮廓的数学模型.曲线表示包括线段、二次曲线、三次样条曲线等.下面是几种轮廓表示的评价标准:高效:轮廓应该是一种简单和紧凑的表示.精确:轮廓应能精确地逼近图像特征.有效:轮廓应适合于后处理阶段的计算.轮廓表示的精确性由以下三个方面因素决定:①用于轮廓建模的曲线形式;②曲线拟合算法的性能;③边缘位置估计的精确度.轮廓的最简单表示形式是边缘有序表.这种表示的精确度就是边缘估计的精确度,但其表示的紧凑性是最差的,因此不是一种有效的后续图像分析表示方法.用适当的曲线模型来拟合边缘会提高精确度,这是因为曲线模型拟合边缘时往往具有均值化效应,因而可以减少边缘位置误差.曲线模型也会提高轮廓表示的经济性,为后处理提供了一种更适合、更紧凑的表示,例如,一条直线上的边缘集用一直线来拟合是表示这些边缘的最简单和最有效的方法,这一表示也简化了后续处理(如确定线的长度和方向);另外,由于估计直线与真实直线的均值方差小于真实直线与任何其它边缘之间的均值方差,因此可以说这种表示也增加了精确度.轮廓曲线拟合通常采用内插曲线或逼近曲线来实现.已知一组称为控制点的坐标点,内插是指一条曲线拟合这组控制点,使得曲线通过所有的控制点;逼近是指一条曲线拟合这组这组控制点,使得这条曲线非常接近这些控制点而无需一定通过这些点.在下面几节中,假定由边缘检测器得到的边缘十分准确,并使用内插值方法进行边缘曲线拟合.定义7.1 边缘表是边缘点或边缘段的有序集合.定义7.2 轮廓是边缘表或用于表示边缘表的曲线.定义7.3 边界是包围一个区域的封闭轮廓.在无特别说明的情况下,边缘通常是指边缘点.对大多数曲线拟合算法来说,只需要边缘的位置信息。

北理工贾云德《计算机视觉》chapter12标定

北理工贾云德《计算机视觉》chapter12标定

第12章 标定本章将讨论各种摄象机系统及深度成像系统的标定方法.在摄影测量学领域中,已经建立了大量的摄象机和测距传感器标定方法.这些方法可以用来确定摄象机或测距传感器在场景中的位置和方向以及与场景坐标之间的关系.在摄影测量学中有以下四个标定问题:(1) 绝对定位:通过标定点确定两个坐标系在绝对坐标系统中的变换关系,或确定测距传感器在绝对坐标系中的位置和方向.(2) 相对定位:通过场景中的标定点投影确定两个摄象机之间的相对位置和方向.(3) 外部定位:通过场景中的标定点投影确定摄象机在绝对坐标系中的位置和方向.(4) 内部定位:确定摄象机内部几何参数,包括摄象机常数,主点的位置以及透镜变形的修正量.这些标定问题主要起源于高空摄影技术,是摄影测量中的经典问题.除了以上四个标定问题外,摄影测量学还解决以下两个问题:一是通过双目立体视差确定点在场景中的实际位置,二是对立体图像对进行校正变换,使得立体图像对的外极线与图像的行平行以便简化后续处理(见第十一章).摄象机标定过程中涉及到以下几种坐标,场景坐标、摄象机坐标、图像坐标和像素坐标等,这些坐标已经在1.7中介绍成像基础知识时引入.确定这些坐标之间的关系就是本章所要讨论的各种标定问题的目的.12.1 刚体变换物体位置和方向的任意变化都可以认为是刚体变换,因为物体的移动只改变其位置和方向,并不改变其形状和大小.假定通过两个处于不同位置的摄像机均可看到θ点,p 点在两个摄像机坐标系中的坐标分别是和()2222,,z y x =p .显然两个摄象机位置之间的变换是刚体运动,因此,p 点在第一个视场中的坐标p 1可以通过旋转和平移变换到第二个视场中的坐标2p ,t Rp p +=12(12.1)其中矩阵R 是一个33⨯的正交方阵,用于旋转变换:⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=zz zy zx yz yy yxxz xy xx r r r r r r r r r R (12.2) 矢量T z y x t t t ),,(=t 表示平移,或者说点t 是第一个坐标系原点在第二个坐标系上的坐标,如图12.1所示.图12.1 两个摄像机坐标系方程12.1可以认为是计算一个点经过旋转和平移以后的新坐标,或是计算空间中同一个点在不同坐标系中的坐标 .前者用于刚体力学:在物体移动到一个新的位置以后,计算物体上一点的新坐标;后者用于标定问题:同一点在不同观察位置上观察将会得到不同的坐标,这种不同可以由刚体变换确定,而标定问题就是来确定这种刚体变换.例如,考虑两个具有不同位置和姿态的摄象机观察场景中同一点,由于观察角度不同,这一点在两个摄像机坐标系中的坐标是不同的.设想旋转第一个摄象机,使其方向与第二个摄象机的方向相同;再设想将第一摄象机平移到第二摄象机的位置上,则两个摄象机坐标系完全重合. 12.1.1旋转矩阵空间角可用直角坐标系中的欧拉角描述:绕x 轴旋转角θ,绕新的y 轴旋转角ψ,绕新的z 轴旋转角φ,角θ是光轴的俯仰角(pitch),也叫垂直角,角ψ是光轴的偏航角(yaw)(水平角),角φ表示光轴滚动角(roll)或扭转角(twist).无转动(三个角都等于零)指的是两个坐标系统完全对正.各角度旋转正方向为从坐标系原点沿各轴正方向观察时的逆时针旋转方向.用这些角表示方程12.2定义的旋转矩阵各元素如下:ψθψθψφθφψθφθφψθφψφθφψθφθφψθφψcos cos cos sin sin cos sin sin sin cos cos cos sin sin sin sin cos sin sin cos sin cos sin cos cos sin sin cos cos ==-=-=+==+=-==zz zy zx yz yy yx xz xy xx r r r r r r r r r(12.3)用欧拉角的形式来确定坐标系的旋转会引起数值解不稳定,因为欧拉角很小的变化可能对应很大的旋转变化.因此,标定算法或者求解旋转矩阵的各元素常使用其它形式的旋转角表达式,如,四元数等.旋转矩阵是一个正交矩阵:I R R =T (12.4)其中I 表示单位矩阵.由上述公式不难得到旋转矩阵的逆就是该矩阵的转置.标定算法会在坐标系之间产生刚体变换;例如,从坐标系1到坐标系2,我们有212t Rp p += (12.5)刚体变换的逆变换就是将坐标系2的坐标变为坐标系1的坐标:12221)(t p R t p R p +=-=T T (12.6)这里的i t 表示坐标系上的i 点是另一个坐标系的原点.注意平移变换的逆变换并不是简单的等于2t 必须乘以旋转变换的逆变换,因为2t 表示在坐标系2上的平移,其逆变换一定要表示到与坐标系1同一个方位的坐标系中 .图12.2 欧拉角或俯仰角、偏航角和滚动角示意图12.1.2旋转轴旋转也可以规定为逆时针(右手坐标系)绕由单位矢量(,,)ωωωx y z 表示的轴的旋转.这是一种观察旋转的非常直观方法,但是它在数值计算上也有和欧拉角一样的问题.旋转轴和旋转角度表达式可以转换成矩阵表达式(方程12.1),以作为刚体变换的公式.当然,如果能直接使用旋转轴和旋转角表达式来产生满意的数值解,将是最好不过的了.在这种思路的基础上产生了旋转四元数,这也是将四元数用于旋转表示的原因之一.12.1.3 四元数四元数是一个四元矢量()432,1,,q q q q q =,可用来表示坐标旋转.实践证明,对于定位求解问题,四元数表示可以给出很好的数值解.为了理解四元数是如何对旋转进行表示的,我们首先想象在二维平面x y -上的一个单位圆,单位圆上的任何一个位置都只对应于一个旋转角.如图所示.图12.3 单位圆上一点),(y x 只能对应一个旋转角θ再考虑三维空间中的单位球:x y z 2221++= (12.7)在单位球上的任意一点只对应绕x 轴和y 轴旋转的两个角θ和ψ,无法表示绕z 轴旋转的第三个角φ.显然,再增加一个自由度就可以表示所有三个旋转角.四维空间单位球定义如下:x y z 22221+++=ω (12.8)三维空间中所有三个旋转角可以通过四维单位球上的点来表示.由单位四元数表示的旋转公式如下:q q q q 021222321+++= (12.9)每一个单位四元数和其反极点(antipole)-=----q (,,,)q q q q 0123都表示三维空间中的旋转.用单位四元数表示刚体变换的旋转矩阵:()()()⎢⎢⎢⎣⎡-+--+=203130212322212022q q q q q q q q q q q q q R ()()103223212220302122q q q q q q q q q q q q +--+- ()()222123201032203122q q q q q q q q q q q q --+-+⎤⎦⎥⎥⎥ (12.10) 在计算出单位四元数之后,就可利用上式计算旋转矩阵.单位四元数与上节描述的旋转角和旋转轴有密切关系.旋转可以用旋转量θ和旋转轴方向()ωωωx y z ,,的组合来表示,即四元数由一个与旋转量有关的标量和一个旋转轴矢量组成 .设旋转轴的单位矢量为()ωωωx y z ,,,使用i ,j 和k 表示坐标轴,则旋转轴单位矢可以表示为: ωωωx y z i j k ++(12.11)绕该轴逆时针旋转θ角的单位四元数为: ()k j i k j i z y x z y x q q q q q +++=+++=02sin 2cos ωωωθθ (12.12)上式的第一项为四元数的标量(实)部分,其余项为矢量(虚)部分.空间点p =(x,y,z)的四元数r 实际上只有矢量部分(虚部),该矢量就是空间点p 的矢量表示.k j i r z y x ++=(12.13)设'p 是点p 通过矩阵()R q 旋转得到, ()p q p R =' (12.14)若r 是点p 的四元数表示,那么对旋转后点的四元数表示'r 可以由四元数q 直接计算:'=*r qrq (12.15)这里的()q *=---q q q q x y z 0,,,,是q 的共轭四元数:四元数乘法定义如下: ),,,(00000000q r q r q r q r q r q r q r q r q r q r q r q r q r q r q r q r z x y y x z x z y z x y y z z y x x z z y y x x +-+++--++---=rq (12.16) 刚体变换可以很方便地用七个元素()6543210,,,,,,q q q q q q q 表示,前四个量是单位四元数,后三个量是平移量.在这一表达式中,若用R(q)表示对应于单位四元数的旋转矩阵,则刚体变换式为:()()T q q q R 65412,,+=p q p (12.17)12.2 绝对定位绝对定位问题是确定两个坐标系之间的刚体变换问题.求解绝对定位问题在机器视觉中有着许多应用,其中的一个应用是确定测距成像系统或双目立体视觉系统与定义在场景中的绝对坐标系之间的关系,这样可以将所有的测量值均表示在一个公共的坐标系里.若()c c c c z y x ,,=p 表示点在摄象机坐标系中的坐标,()a a a a z y x ,,=p 表示点在绝对坐标系中的坐标,则绝对坐标定位问题的输入就是一个共轭对组:),{(1,1,a c p p ,),(2,2,a c p p ,...,)},(,,n a n c p p .为了求解绝对定位问题,我们把刚体变换方程展开,以便说明旋转矩阵中各项的作用.设c p 是摄象机坐标系内的点,p a 是绝对坐标系内的点,从p c 到p a 的刚体变换公式为:zc zz c zy c zx a y c yz c yy c yx a xc xz c xy c xx a t z r y r x r z t z r y r x r y t z r y r x r x +++=+++=+++=(12.18)其中12个未知参数中有9个是旋转矩阵参数r ,3个是平移参数t .每个共轭对),(a c p p 对应有三个等式,则至少需要四个共轭对产生12个方程才能解出12个未知数.在实际应用过程中,常常使用大量的共轭对(这些共轭对通常是空间标定点在不同坐标系中的表示)来提高计算精度.在解线性系统方程时,如果旋转矩阵R 没有正交标准化,则可能得不到有效的旋转矩阵.使用非标准正交矩阵作为旋转矩阵可能会产生意想不到的结果,如不能保证矩阵转置一定等于矩阵逆,并且共轭对的测量误差会严重地影响计算结果,从而不能产生刚体变换的最佳逼近.有些方法是在每一步迭代过程之后对矩阵进行正交化,但仍不能保证正交化的矩阵是旋转矩阵的最佳逼近.一种替代的方法是求解旋转角而不是矩阵的各项元素.旋转角最一般的表示方法是欧拉角,不过使用欧拉角会导致非线性方程,从而产生数值计算上的困难.在摄影测量中,通常的做法是对非线性方程线性化并求解,以便得到名义值的修正值.这种线性化算法的成功与否很大程度上取决于初始预估值好坏.下面讨论用单位四元数表示方法求刚体变换.设)(q R 是对应于单位四元数q 的旋转矩阵,则摄象机坐标系上的每一点坐标转换成绝对坐标的刚体变换公式如下:()c i c i a R t p q p +=,, (12.19)其中c t 是摄象机原点在绝对坐标系中的位置.现在的回归问题有七个参数:表示旋转的单位四元数的四个参数加上平移矢量的三个参数.正如前面所指出的,绝对定位问题的输入是共轭对集合:),{(1,1,a c p p ,),(2,2,a c p p ,…,)},(,,n a n c p p .考虑一组点的两种集合表示,在摄象机坐标系中的点集{}n a p p p p ,2,1,,,,Λa a a =和绝对坐标系中的点集{}n p p p p ,2,1,,,,c c c c Λ=.绝对定位问题就是在空间中将这两个点群对正.下面计算每个点集的矩中心: ∑==ni i a a n 1,1p p (12.20) ∑==ni i c c n 1,1p p (12.21)用矩中心与每一个点相减得: r p p a i a i a ,,=-(12.22) r p p c i c i c ,,=-(12.23)若已知旋转矩阵)(q R ,则平移表达式可表示为: ()c c p q R p t a -= (12.24)下面将讨论求解旋转矩阵,使得这两簇射线对正.在推导旋转矩阵时,将点表示为从矩中心出发的射线,这样所有坐标都将是射线坐标.由于射线束是由共轭对集合推导的,因此,我们可以知道在摄象机射线束中的某一条射线对应于绝对坐标射线的那一条射线.当两组射线对正后,每一对对应射线将会重合.换句话说,每一对射线位于同一条直线上,并指向同一方向.若不考虑测量误差的影响,则每对射线之间的夹角应为0,夹角的余弦为1.测量误差导致射线束不能完全对正.但可以在最小方差的意义上,通过求解旋转矩阵R ()q 束得到最佳对正结果,其中旋转矩阵的求解是求每对射线标量积的极大值:()χ21=⋅=∑r q a i c i i n R r ,, (12.25)在四元数中,上面的和式可以表示为:()()rqr q qr qr a i c i i n c i a i i n ,,,,⋅=⋅==∑∑11 (12.26)上式可以变成二次表达式:()()()()q q q q q q q q q q q r qr N N N N N N N N T n i i T n i i a T i c T ni i a T i c T n i i a T i c n i i a i c =⎪⎪⎭⎫ ⎝⎛=⎪⎪⎭⎫ ⎝⎛===⋅∑∑∑∑∑=====11,,1,,1,,1,, (12.27) 假设q 对应一个列向量.则使二次式取极大值的单位四元数是对应于最大正特征值的特征向量.特征根可以利用[Horn 1987]给出的公式求解四阶多项式来确定,也可以利用标准数值方法[Press 1988]计算特征向量和特征值.矩阵N c i ,和N a i ,是由每个射线元素构成.设()r x y z c i c i c i c i ,,,,,=,()r x y z a i a i a i a i ,,,,,,=,那么:⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡------=0000,,,,,,,,,,,,,i c i c i c i c i c i c i c i c i c i c i c i c j c x y z x z y y z x z y x N (12.28) ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡------=0000,,,,,,,,,,,,,i a i a i a i a i a i a i a i a i a i a i a i a j a x y z x z y y z x z y x N (12.29) 矩阵N 为:⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡+--++-+-+-+-++------++=zz yy xx zy yz xz zx yx xy zy yz zz yy xx yx xy xz zx xz zx yx xy zz yy xx zy yz yx xy zy zx zy yz zz yy xx S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S N (12.30) 式中的和式S 是由摄象机坐标系和绝对坐标系的射线坐标元构成.其中,S kl 是求所有共轭对的摄象机坐标点的坐标k 坐标和在绝对坐标点的坐标l 坐标的乘积和:S kl kl c i a i i n ==∑,,1 (12.31)上述计算的结果是一个单位四元法,表示校准射线束的旋转变换.刚体变换可以作用于测距摄象机,双目立体视觉系统或任何其它深度测量系统产生的测量坐标值,以便把这是测量值变换到绝对坐标系统的测量坐标值 .12.3 相对定位相对定位问题是指用场景点在两个图像平面上的投影来确定两个摄象机坐标系之间的关系.相对定位问题是双目立体视觉系统标定的第一步.我们曾在第十一章讨论了沿极线匹配特征的双目立体视觉算法.为了简化表示,假定左、右图像平面上的外极线皆与图像阵列的行线重合,且对应的左、右图像阵列的行标号也相同.设场景点p 在左、右两个摄象机的视场范围内(见图11.1).点p 在左摄象机坐标系用),,(l l l l z y x =p 表示,在右摄象机坐标系内用),,(r r r r z y x =p 表示.点p 在左摄象机图像平面上的投影为'=''p l l l x y (,),在右摄象机图像平面上的投影为'=''p r (,)x y rr 设左右摄像机智的焦距分别为r l F F ,.由透视投影得到公式:l l l l z x F x =' ll l l z y F y =' (12.32) r r r r z x F x =' rr r r z y F y =' (12.33) 将左摄象机坐标系转换为右摄象机坐标系的刚体变换方程如下:zl zz l zy l zx r y l yz l yy l xy r xl xz l xy l xx r t z r y r x r z t z r y r x r y t z r y r x r x +++=+++=+++= (12.34)从透视投影方程()和()求出x y x l l r ,,和y r ,并将它们代入上面的刚体变换方程,得到一组共轭对投影之间的关系方程:rl l r r l l z l zz l zy l xz r l l r r l l yl yz l yy l xy r l l r r l l xl xz l xy l xx F F z z x z F t z r y r x r F F z z x z F t z r y r x r F F z z x z F t z r y r x r '=+'+'+''=+'+'+''=+'+'+' (12.35) 变换方程的旋转部分改变左摄象机的方位使之与右摄象机方位相同.而平移部分就是两个摄象机之间的基线.平移变量和深度变量在等式中以比值的形式出现,分别表示基线的长度和深度可任意缩放.例如,可以将摄象机分离两倍的距离,并将场景中的点移远两倍的距离而不改变透视几何关系.仅通过标定点的投影是不可能确定基线长度,但这并不是一个严重的问题,和确定比例系数一样,基线长度可以通过其它的方法确定.现在,假定摄象机之间的平移量是单位矢量.求解相对定位问题可以得到旋转的三个参数和表示基线方向的单位矢量的两个参数.双目立体深度测量值是以基线长度为计量单位的.假定单位基线长度,意味着双目立体测量值可以用任意计量单位表示.在这个单位基线长度假设下得到的测量值是正确的,但仍未确定比例系数.点之间的相对距离是正确的.这些任意设置的计量单位值乘以基线长度可以得到真实计量单位值.12.7节将介绍如何确定基线距离,这也是求解绝对定位问题的一个部分.求解绝对定位问题得到绝对坐标变换.使用绝对坐标变换,任意计量单位立体测量值到真实计量单位的转换和点在观察者坐标系到绝对坐标系的变换可以同步进行.方程组()含有12个相对位置参数和2个与场景点有关的未知数,因此若有n 个标定点,则有122+n 个未知量,旋转矩阵是正交矩阵,由此可以产生6个约束,另一个约束是基线距离取单位值的约束。

一种双目立体视觉系统的误差分析方法_刘佳音

一种双目立体视觉系统的误差分析方法_刘佳音

第29卷第3期2003年5月 光学技术OPTICAL TECHN IQU E Vol.29No.3May 2003文章编号:100221582(2003)0320354204一种双目立体视觉系统的误差分析方法Ξ刘佳音,王忠立,贾云得(北京理工大学视觉与智能系统实验室,北京 100081)摘 要:基于摄像机透视成像的针孔模型,分析了立体视觉中摄像机标定和三维重建过程的主要误差来源。

基于各主要误差源的模型分析,建立了双目视觉系统3D 测量误差与摄像机参数、基线长度、测量距离等因素之间的关系式。

如已知相关参数,可以估算出双目视觉系统的3D 测量精度,或根据3D 测量精度要求,初步确定摄像机的内部各项参数和基线长度、测量距离等参数。

关键词:双目立体视觉;针孔模型;标定;三维重建;误差分析;中图分类号:TP242.6+2 文献标识码:AError analysis of binocular stereo vision systemLI U Jia 2yin ,WANG Zhong 2li ,J I A Y un 2de(Department of Computer and Science ,Beijing Institute of Technology ,Beijing 100081,China )Abstract :Various error sources of binocular stereo system are analyzed based on pinhole camera model for estimation of the depth error.The relationship between the depth error of a stereo vision system and other factors such as baseline ,depth and camera parameters ,are presented.The computation of the precision of stereo vision is also discussed.The proposed method is able to approximate depth error according to the camera parameters or compute the camera parameters according to the pre 2de 2termined precision.K ey w ords :stereo vision ;pinhole model ;calibration ;reconstruct ;error analysis1 简 介物体的三维形态特征是物体最重要的特征之一[1],人们一直在研究各种方法对物体三维表面进行测量。

《计算机视觉》PPT课件

《计算机视觉》PPT课件
fucntion)
精选课件ppt
11
Overview (3)
计算机视觉的图像模型基础
✓ 摄像机模型及其校准
▪ 内参数、外参数
✓ 图像特征
▪ 边缘、角点、轮廓、纹理、形状…
✓ 图像序列特征 (运动)
▪ 对应点、光流
精选课件ppt
12
Overview (4)
计算机视觉的信号处理层次
低层视觉处理
✓ 单图像:滤波/边缘检测/纹理
计算机视觉的基本的分析工具和数学模型 Signal processing approach: FFT, filtering, wavelets, … Subspace approach: PCA, LDA, ICA, … Bayesian inference approach: EM, Condensation/SIS/…, MCMC, …. Machine learning approach: SVM/Kernel machine, Boosting/Adaboost, NN/Regression, … HMM, BN/DBN, … Gibbs, MRF, …
✓ 多图像:几何/立体/从运动恢复仿射或透视结构 affine/perspective structure from motion
中层视觉处理
✓ 聚类分割/拟合线条、曲线、轮廓 clustering for segmentation, fitting line…
✓ 基于概率方法的聚类分割/拟合
✓ 跟踪 tracking
精选课件ppt
6
Tools
Intel OpenCV, IPL
✓ Camera calibration (Zhang Zhengyou’s method) ✓ Face detection (a variation of Viola’s) ✓ Motion analysis and object tracking

北理工贾云德《计算机视觉》第七章 轮廓表示

北理工贾云德《计算机视觉》第七章 轮廓表示

Computer Vision
Department of Computer Science @BIT
二次曲线(圆锥截线)
• 二次曲线都是用平面 切割正圆锥面的截 线,包括三种类型: 双曲线,抛物线和椭 圆,圆是椭圆的特殊 情况. • 二次曲线的一般表示:
f ( x, y ) = ax 2 + 2hxy + by 2 + 2ex + 2 gy + c = 0
Computer Vision Department of Computer Science @BIT
圆锥曲线段
• 提供了直线段、圆弧段以及其他二次曲线段的 一般表示,更为方便、有效. • 圆锥曲线段由两个端点、两 个正切和第三点确定.(拟 合要点) • 端点:K i = (1 − vi )Vi + v iVi +1
i =0 i =0
n
n +3
C n +1 = C 0 , C n + 2 = C1 , C n + 3 = C 2
Computer Vision Department of Computer Science @BIT
B-样条曲线
• Qi , 4 (t ′) 为B-样条基函数,各基函数形状相同,
彼此相差一个平移 :
Department of Computer Science @BIT
曲线拟合
• 要素 (1)曲线模型:直线段(line segment),圆 锥曲线段(conic section),样条曲线段 (spline) (2) 曲线模型的拟合方法 (3) 拟合逼近(误差)程度的测量方法
Computer Vision
Computer Vision

北理工贾云德《计算机视觉》chapter06边缘检测

北理工贾云德《计算机视觉》chapter06边缘检测

第六章边缘检测边缘(edge)是指图像局部强度变化最显著的部分.边缘主要存在于目标与目标、目标与背景、区域与区域(包括不同色彩)之间,是图像分割、纹理特征和形状特征等图像分析的重要基础.图像分析和理解的第一步常常是边缘检测(edge detection).由于边缘检测十分重要,因此成为机器视觉研究领域最活跃的课题之一.本章主要讨论边缘检测和定位的基本概念,并使用几种常用的边缘检测器来说明边缘检测的基本问题.图像中的边缘通常与图像强度或图像强度的一阶导数的不连续性有关.图像强度的不连续可分为:(1) 阶跃不连续,即图像强度在不连续处的两边的像素灰度值有着显著的差异;(2) 线条不连续,即图像强度突然从一个值变化到另一个值,保持一个较小的行程后又返回到原来的值.在实际中,阶跃和线条边缘图像是很少见的,由于大多数传感元件具有低频特性,使得阶跃边缘变成斜坡型边缘,线条边缘变成屋顶形边缘,其中的强度变化不是瞬间的,而是跨越一定的距离,这些边缘如图6.1所示.(a)(b)图6.1 两种常见的边缘,(a) 阶跃函数,(b) 线条函数.其中第一排为理想信号,第二排对应实际信号对一个边缘来说,有可能同时具有阶跃和线条边缘特性.例如在一个表面上,由一个平面变化到法线方向不同的另一个平面就会产生阶跃边缘;如果这一表面具有镜面反射特性且两平面形成的棱角比较圆滑,则当棱角圆滑表面的法线经过镜面反射角时,由于镜面反射分量,在棱角圆滑表面上会产生明亮光条,这样的边缘看起来象在阶跃边缘上叠加了一个线条边缘.由于边缘可能与场景中物体的重要特征对应,所以它是很重要的图像特征。

比如,一个物体的轮廓通常产生阶跃边缘,因为物体的图像强度不同于背景的图像强度.在讨论边缘算子之前,首先给出一些术语的定义:边缘点:图像中具有坐标],[j i 且处在强度显著变化的位置上的点.边缘段:对应于边缘点坐标],[j i 及其方位θ,边缘的方位可能是梯度角.边缘检测器:从图像中抽取边缘(边缘点和边缘段)集合的算法.轮廓:边缘列表,或是一条表示边缘列表的拟合曲线.边缘连接:从无序边缘表形成有序边缘表的过程.习惯上边缘的表示采用顺时针方向来排序.边缘跟踪:一个用来确定轮廊的图像(指滤波后的图像)搜索过程.边缘点的坐标可以是边缘位置像素点的行、列整数标号,也可以在子像素分辨率水平上表示.边缘坐标可以在原始图像坐标系上表示,但大多数情况下是在边缘检测滤波器的输出图像的坐标系上表示,因为滤波过程可能导致图像坐标平移或缩放.边缘段可以用像素点尺寸大小的小线段定义,或用具有方位属性的一个点定义.请注意,在实际中,边缘点和边缘段都被称为边缘.由边缘检测器生成的边缘集可以分成两个子集:真边缘集和假边缘集.真边缘集对应场景中的边缘,假边缘集不是场景中的边缘.还有一个边缘子集,即场景中漏检的边缘集.假边缘集称之为假阳性(false Positive ),而漏掉的边缘集则称之为假阴性(false Negative ). 边缘连接和边缘跟踪之间的区别在于:边缘连接是把边缘检测器产生的无序边缘集作为输入,输出一个有序边缘集;边缘跟踪则是将一幅图像作为输入,输出一个有序边缘集.另外,边缘检测使用局部信息来决定边缘,而边缘跟踪使用整个图像信息来决定一个像素点是不是边缘.6.1 梯度边缘检测是检测图像局部显著变化的最基本运算.在一维情况下,阶跃边缘同图像的一阶导数局部峰值有关.梯度是函数变化的一种度量,而一幅图像可以看作是图像强度连续函数的取样点阵列.因此,同一维情况类似,图像灰度值的显著变化可用梯度的离散逼近函数来检测.梯度是一阶导数的二维等效式,定义为向量⎥⎥⎦⎤⎢⎢⎣⎡=⎥⎦⎤⎢⎣⎡=f x f y x G G y x G ∂∂∂),((6.1)有两个重要的性质与梯度有关:(1) 向量),(y x G 的方向就是函数),(y x f 增大时的最大变化率方向;(2) 梯度的幅值由下式给出:22|),(|y x G G y x G += (6.2)在实际应用中,通常用绝对值来近似梯度幅值:y x G G y x G +=|),(| (6.3)或),max(|),(|y x G G y x G ≈ (6.4)由向量分析可知,梯度的方向定义为)/arctan(),(x y G G y x a = (6.5)其中α角是相对x 轴的角度.注意梯度的幅值实际上与边缘的方向无关,这样的算子称为各向同性算子(isotropic operators).对于数字图像,方程6.1的导数可用差分来近似.最简单的梯度近似表达式为],1[],[],[]1,[j i f j i f G j i f j i f G y x +-=-+= (6.6)请注意j 对应于x 轴方向,而i 对应于负y 轴方向.这些计算可用下面的简单卷积模板来完成 11-=x G 11-=y G (6.7) 在计算梯度时,计算空间同一位置x 和y 处的真实偏导数是至关重要的.然而采用上面公式计算的梯度近似值x G 和y G 并不位于同一位置,x G 实际上是内插点 [,/]i j +12处的梯度近似值,y G 是内插点],2/1[j i +处的梯度近似值.由于这个缘故,人们常常使用22⨯一阶差分模板(而不用21⨯或 12⨯模板)来求x 和y 的偏导数:1111--=x G 1111--=y G (6.8) 用上式计算x 和y 方向梯度的位置是相同的,这一点位于内插点]2/1,2/1[++j i 处,即在22⨯邻域的所有四个像素点之间.不过这种计算可能会导致一些混淆,所以,通常用33⨯邻域计算梯度值.这一方法将在下一节讨论.6.2 边缘检测算法边缘检测算法有如下四个步骤:滤波:边缘检测算法主要是基于图像强度的一阶和二阶导数,但导数的计算对噪声很敏感,因此必须使用滤波器来改善与噪声有关的边缘检测器的性能.需要指出,大多数滤波器在降低噪声的同时也导致了边缘强度的损失,因此,增强边缘和降低噪声之间需要折衷.增强:增强边缘的基础是确定图像各点邻域强度的变化值.增强算法可以将邻域(或局部)强度值有显著变化的点突显出来.边缘增强一般是通过计算梯度幅值来完成的.检测:在图像中有许多点的梯度幅值比较大,而这些点在特定的应用领域中并不都是边缘,所以应该用某种方法来确定哪些点是边缘点.最简单的边缘检测判据是梯度幅值阈值判据.定位:如果某一应用场合要求确定边缘位置,则边缘的位置可在子像素分辨率上来估计,边缘的方位也可以被估计出来.在边缘检测算法中,前三个步骤用得十分普遍。

北理工贾云德《计算机视觉》第九章 彩色感知

北理工贾云德《计算机视觉》第九章 彩色感知

白色 紫色线
纯彩色
CIE 1931年x-y色度图
Computer Vision Department of Computer Science @BIT
规范化XYZ颜色空间(Nxyz)
• 色度图中的颜色范围可以表示成直线段或 多边形. 互补色 主波段
Computer Vision
Department of Computer Science @BIT
几种颜色模型在x-y 色度图中的位置:
R NTSC 制式 PAL 制式 CIE 模型 彩色监视器 (0.670,0.323) (0.640,0.330) (0.735,0.265) (0.628,0.346)
G (0.214,0.710) (0.290,0.600,) (0.274,0.717) (0.268,0.588)

RGB颜色空间
• 红、绿、蓝三基色光的波长国际标准分别 为:700nm, 546.1nm, 435.8nm • 标准白光的RGB光通量按以下比例混合而成: Φ r : Φ g : Φ b = 1 : 4 .5907 : 0 .0601 相应的红、绿、蓝光作为单位基色量 • 任意一种彩色光的光通量为:
Computer Vision
Department of Computer Science @BIT
三种锥体感受器的光谱敏感示意图 (Wald, 1964)
Computer Vision Department of Computer Science @BIT
RGB模型
• 用红(Red, R)、绿(Green, G)、蓝(Blue, B)三种 颜色作为三基色,通过三基色的加权混合形成 各种颜色. • RGB模型构成颜色表示的基础,其他颜色表示 方法可以通过对RGB模型的变换得到.

机器视觉教材-贾云得版chapter04分解

机器视觉教材-贾云得版chapter04分解

第四章 区域分析(qq584883658)图像中的区域是指相互连结的具有相似特性的一组像素.由于区域可能对应场景中的物体,因此,区域的检测对于图像解释十分重要.一幅图像可能包含若干个物体,而每一个物体又可能包含对应于物体不同部位的若干个区域.为了精确解释一幅图像,首先要把一幅图像划分成对应于不同物体或物体不同部位的区域.4.1 区域和边缘图像区域划分有两种方法:一种是基于区域的方法,另一种是使用边缘检测的轮廓预估方法.在基于区域的方法中,把所有对应于一个物体的像素组合在一起,并进行标记,以表示它们属于一个区域,这一处理过程称为分割.在某一评判标准下,把像素分配给某一区域,就可以把这些像素同图像其余部分分开.图像分割中的两个最基本的原则是数值相似性和空间接近性.如果两个像素具有相似的强度特性,或它们之间十分靠近,则可以把它们分配到同一区域,例如,两个像素之间的数值相似性度量可以是它们的灰度值之差,也可以是区域灰度值分布;它们的空间接近性度量可以是欧几里德距离,也可以是区域致密度. 相似性和接近性原则来源于如下假设:同一物体上的点投影到图像上得到的像素点在空间上十分靠近,且具有相似的灰度值.很显然,这一假设并不是在任何情况下都成立.然而可以使用这一假设来组合图像中的像素,然后利用相关域知识来匹配物体模型和区域.在简单的情况下,可以通过阈值法和连通成份标记法来进行图像分割,这一点在第三章讨论过了.对于复杂的图像,可以使用更高级的方法实现图像分割.分割也可以通过求取区域边界上的像素来进行.这些像素点(也称为边缘)可以通过搜寻邻近像素的方法来得到.由于边缘像素是在边界上,在边界两边的区域具有不同的灰度值,这样,区域的边界可以通过测量邻近像素差值来求取.尽管边缘检测可能使用诱导特性(如纹理和运动)来检测边缘.但大多数边缘检测器仅使用强度特性作为边缘检测的基础. 在理想的图像中,一个区域是由一条封闭轮廓线包围着.原则上,区域分割和边缘检测应该产生相同的结果,即使用边界跟踪算法可以得到区域的边缘(或封闭的轮廓线);反过来,使用区域填充算法也可以得到边缘所包围的区域.但在实际的图像中,很少能够从区域中得到正确的边缘,反之亦然.由于噪声和其它因素的影响,不论是区域分割还是边缘检测,都无法提供完整的信息.本章将讨论区域的基本概念,主要集中在两个问题上:图像分割和区域表示.4.2 分割已知一幅图像像素集I 和一个一致性谓词)(⋅P ,求图像I 表示成n 个区域i R 集合的一种划分:I Rn i i == 1 (4.1)一致性谓词和图像划分具有如下特性,即任何区域满足如下谓词:True )(=i R P (4.2)任何两个相邻区域不能合并成单一区域,必满足谓词:False )(=j i R R P (4.3)一致性谓词)(⋅P 定义了在区域i R 上的所有点与区域模型的相似程度.把一幅灰度图像转换成二值图像是图像分割的最简单形式.用于求取二值图像的阈值算法可以推广到求取多值图像,其中的阈值算法已经在第三章中讨论过了.为了在各种变化的场景中都能得到鲁棒的图像分割,阈值分割算法应能根据图像强度取样来自动选取合适的阈值.阈值分割法不要过分依赖于物体的灰度知识,且使用有关灰度值的相对特性来选取合适的阈值.这一简单的思想在许多计算机视觉算法中十分有用.4.2.1 自动阈值化法为了使分割更加鲁棒,系统应能自动选择阈值.基于场景中的物体、环境和应用域等知识的图像分割算法比基于固定阈值算法更具有普遍性.这些知识包括:对应于物体的图像灰度特性,物体的尺寸,物体在图像中所占的比例,图像中不同类型物体的数量等.图像灰度直方图就是一种灰度特性,它是指图像所有灰度值出现的相对频率.使用上述知识并在无人介入的情况下自动选取阈值的方法称为自动阈值化方法.自动阈值化算法通常使用灰度直方图来分析图像中灰度值的分布,并使用特定应用域知识来选取最合适的阈值.由于所用的知识具有普遍性,因此大大增加了算法的应用范围.假设一幅图像中包含有n 个物体n O O O ,,,21⋅⋅⋅,包括背景,并假设不同的区域n πππ,,,21⋅⋅⋅的灰度值具有概率分布函数)(,),(),(21z p z p z p n ⋅⋅⋅.在许多应用中,物体在图像中出现的概率n ,P ,,P P ⋅⋅⋅21也许是已知的.使用这些知识来严格地计算阈值是完全可能的.由于场景中的照明控制着图像中强度值的概率分布函数)(z p i , 因此预先计算阈值是不可能的.我们将要看到,大多数自动阈值的选取算法使用了物体尺寸和出现概率,并通过计算灰度直方图估算强度分布.下面将讨论几种常用的自动阈值化方法.为了简化表示,我们将遵循物体在图像中的表示惯例,即物体相对于光亮背景是黑的.也就是说,低于某一阈值的灰度值属于物体,而高于这一阈值的灰度值属于背景.下面将要讨论的算法稍作改动就可以应用到其它场合,如光亮物体相对于黑暗背景,灰暗物体相对于光亮和黑暗背景,光亮或黑暗物体相对于灰暗背景.一些算法还可以推广到由任意像素值集合组成的物体.(1) 模态方法如果图像中的物体具有同一灰度值,背景具有另一个灰度值,图像被零均值高斯噪声污染,那么就可以假定灰度分布曲线是由两个正态分布函数),(),(222211σμσμ和叠加而成.图像直方图将会出现两个分离的峰值,如图4.1所示.在理想恒定灰度值情况下,021==σσ,其直方图为两条线分别对应两个峰值,这时的阈值可以设置在两个最大值之间的任何位置.在实际应用中,两个最大值并不是分得很开,此时需要检测直方图曲线的波谷和波峰,并把阈值设置成波谷对应的像素值.可以证明,当物体的尺寸和背景相等时,这样选取阈值可使误分类概率达到极小值.在大多数情况下,由于直方图在波谷附近的像素很稀疏,因此,阈值的选取对图像分割影响不大.这一方法可推广到具有不同灰度均值的多物体图像中.假设有n 个物体,其强度值的正态分布参数为),(,),,(),,(2222211n n σμσμσμ⋅⋅⋅,背景也服从正态分布),(200σμ.如果这些均值明显的不同,方差值很小,且没有小尺寸物体,那么图像直方图将包含n+1个波峰,并可确定波谷的位置n T T T ,...,,21,落入每一个间隔),(1+i i T T 中的所有像素被分配给对应的物体,如图4.2所示.图4.1(a) 理想情况下,背景和物体的灰度值可以分的很开.(b)大多数情况下,物体和背景的强度值相互重叠.图4.2 具有不同灰度值的多物体图像直方图(2) 迭代式阈值选择迭代式阈值选择方法如下:首先选择一个近似阈值作为估计值的初始值,然后连续不断地改进这一估计值.比如,使用初始阈值生成子图像,并根据子图像的特性来选取新的阈值,再用新阈值分割图像,这样做的效果将好于用初始阈值分割的图像.阈值的改进策略是这一方法的关键.算法4.1给出了这一方法的步骤.算法4.1 迭代式阈值选择算法选择一个初始阈值的估算值T ,比如,图像强度均值就是一个较好的初始值. 利用阈值T 把图像分割成两组,1R 和2R .计算区域1R 和2R 的均值21,μμ.选择新的阈值T)(2121μμ+=T 重复2-4步,直到1μ和2μ的均值不再变化.(3) 自适应阈值化方法如果场景中的照明不均匀,那么上述的自动阈值化方法就不能使用.显然,在这种情况下,一个阈值无法满足整幅图像的分割要求。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章人类视觉2.1人类视觉简介了解人类视觉的构成、信息处理过程,对机器视觉研究人员来讲是非常具有启发性和吸引力的.本章从人眼的基本构造出发,介绍视觉通路、视觉感受野及视觉信息的基本处理过程。

本章的大部分内容取自文献[寿1997]。

人眼所能看到的光谱范围,只是电磁辐射波范围的很小一部分,其波长范围从380纳米到780纳米,这段波长称为可见光谱,如图2.1所示.在可见光范围内,不同波长的光给人以不同的色彩感觉,不同强度的光及不同强度分布的光刺激人眼,在人脑中将产生不同的光强,颜色,形状等视觉信息.图2.1 电磁辐射波谱和可见波谱2.1.1 人眼的构造人的眼睛是一个前后直径大约23毫米的近似球状体,由眼球壁和眼球构成,如图2.2所示.眼球壁的正前方,占整个眼球壁面积的1/6是一层弹性的透明组织,叫做角膜.角膜具有屈光功能,光线经角膜发生屈折进入眼内.眼球壁外层的其余5/6是白色的不透明膜,叫做巩膜,它主要起巩固、保护眼球的作用.眼球壁的中层包括虹膜、睫状体和脉络膜.脉络膜含有丰富的色素细胞,呈黑色,起着吸收外来散光的作用,消除光线在眼球内部的乱反射.虹膜在角膜的后面,位于晶体的前面,虹膜中央的圆孔叫做瞳孔.虹膜可以使瞳孔扩大和缩小,睫状体位于虹膜后面,其内部有睫状肌,起调节晶体的作用.眼球壁内层是视网膜(retina)和视神经乳头.视网膜是一种透明薄膜,是眼球的感光部分.视网膜由锥体细胞(cone cell)和杆体细胞(rod cell)两种感光细胞组成,其中,锥体细胞约有650万个,杆体细胞约有1亿个.视网膜可分为以视轴为中心直径约6毫米的中央区和周边区.中央区有一直径约2毫米(折合6度视角)呈黄色区域,称为黄斑.黄斑中央有一小凹,叫做中央凹(fovea),面积约1平方毫米.人类视觉的中央凹没有杆体细胞,只有锥体细胞,其密度高达每平方毫米150,000.离开中央凹,锥体细胞急剧减少,而杆体细胞急剧增多,在离开中央凹20度的地方,杆体细胞最多.中央凹的锥体细胞密度很高,是产生最清晰视觉的地方.杆体细胞主要是在黑暗的条件下起作用,同时还负责察觉物体的运动.因此,常将锥体细胞称为明视觉细胞,将杆体细胞称为暗视觉细胞.眼球内包括晶体、房水及玻璃体,它们都是屈光介质.晶体为一扁球形的弹性透明体,位于玻璃体与虹膜之间,睫状体的收缩可改变晶体的屈光力,使外界的对象能在视网上形成清楚的影像.图2.2 眼睛(右眼)解剖图[Wall 1942]2.1.2 视觉通路视觉通路见图2.3.到达视网膜的光线经杆体和锥体细胞转换为神经信号,并经视网膜中的神经节细胞(ganglion cell, GC)加工,传出视网膜.经神经节细胞加工的神经信号,经过视交叉部分地交换神经纤维后,再形成视束,传到中枢的许多部位,其中包括丘脑的外膝体或外膝核(lateral geniculate nucleus, LGN)、四叠体上丘、顶盖前区和皮层等.上丘与眼动等视反射有关,顶盖前区与调节反射、瞳孔反射有关,外膝体和视皮层都直接与视觉知觉有关.神经节细胞轴突在外膝体换神经元后,由外膝体神经元直接经放射到视皮层,这时视束的大部分纤维去向,称为视觉的第一视通路.视束的一小部分纤维走向内方,经上丘臂,到达上丘和顶盖前区.上丘浅层神经元再透射到丘脑枕换元后,再透射到视皮层,上丘还有纤维直接透射到视皮层.由于这条通路不经过外膝体,故称为第二视通路.人们普遍认为,视神经信号主要是通过视觉第一通路到达视皮层,因此,第一视觉通路在视觉过程中起着主要的作用,而第二视觉通路的作用及其微小,可以忽略不计,如图2.4所示。

图2.3 人类视觉通路[Nieuwenhuys1979]2.1.3视觉信息处理过程基本视觉信息包括:亮度,形状,运动,颜色,深度知觉等,其中亮度是最基本的视觉信息,因为没有亮度就谈不上什么形状、运动、颜色等视知觉.亮度是一种外界辐射的物理量在我们视觉中反映出来的心理物理量.物体的形状主要是由物体在视觉空间上的亮度分布,颜色分布或运动状态不同而显示出来的.雪地上一张白纸,荒野中潜伏的狼,都比较难以觉察.相反,雪地上一张彩纸,绿草地上等一朵红花,荒野中奔跑的狼,都比较容易发现,这是由于物体形状因亮度、颜色、运动等因素而突显出来,易于被人眼分辨出来.视觉系统对运动目标十分敏感,特别是低等动物更是如此,如蛙类的视网膜对运动特别敏锐,而对静止的目标却视而不见.颜色知觉是一种主观感觉,目前只在感受器细胞水平和心理物理的宏观水平上得到了较深入的研究.研究表明图2.4 视觉通路简化模型(Lindsay&Norman1972)[Wald1964],猴和人的视网膜中,含有三种不同的锥体细胞,每一种锥体细胞对不同的光谱,其敏感性也是不同的.三种锥体细胞对光谱的敏感峰值分别在430纳米,540纳米和570纳米.这三个峰值段正对应着光谱中的红、绿、蓝区域.实验进一步表明,当三种颜色按一定比例同时刺激人眼时,会产生各种颜色感觉.其中有一种比例会使得颜色感觉完全消失,只有亮度感觉.这就是所谓的色觉三变量性(tri-variance of color vision ),说明颜色只取决于三个基本的输入量,这也是色觉三基色原理的基础.图2.5 三种感受器的光谱敏感示意图[Wald 1964]人类的视觉不仅要识别物体的形状和颜色,而且要随时地作用于物体,例如,伸手拿一本书,躲开汽车或障碍物,把足球踢入球门等,这一切活动都需要判断我们与被作用物体的距离.立体知觉就是指这种判断物体距离或深度的感觉.正常的双眼视觉都可以提供高度的立体感.外界目标在视网膜上的象是二维的,而且同一物体在左右眼的视网膜上的成像有着微小的差异,比如,用你的手轮流遮挡你的左、右眼,会发现同一个物体在左右眼中的位置是不同的.实际上,这种不同为立体视觉提供了最基本的信息—视差(disparity).[Julesz 1960]首次使用随机点立体图对作为刺激研究了立体视知觉,如图2.4所示,这种刺激图形排除了所有单眼视觉引入的第二视觉线索,而只保留了视差信息。

受试者在观察随机立体图对时,用左右眼分别观看其中一个图几秒钟,当两个图融合后,便会感受到有一个方形平面从背景中突显出来。

除了双眼视差提供深度信息外,还有许多单眼的信息可以产生深度信息的估计,如物体的重叠、透视(近大远小,近清晰远模糊,近亮远暗)、明暗、纹理及运动.当然这种深度估计在质量和感觉上仍无法与视差立体知觉的深度相比.图2.6 立体视觉测试图[Julesz 1960]2.2 感受野在视觉通路上,视网膜上的光感受器(杆体细胞和锥体细胞)通过接受光并将它转换为输出神经信号而来影响许多神经节细胞、外膝状体细胞以及视觉皮层中的神经细胞.反过来,任何一种神经细胞(除起支持和营养作用的神经胶质细胞外)的输出都依赖于视网膜上的许多光感受器.我们称直接或间接影响某一特定神经细胞的光感受器细胞的全体为该特定神经细胞的感受野(receptive field).1953年Kuffler首次阐明猫的视网膜神经节细胞(GC)的感受野在反应敏感性的空间分布是一个同心圆[Kuffler 1953],即感受野一般是由中心的兴奋区域和周边的抑制区域构成的同心圆结构,称为On-型感受野,还有一类感受野是由中心抑制和周边兴奋区域的同心圆构成,称为Off-型感受野.图2.5所示的是猫视网膜GC的感受野及其反应形式,其中(a)为On-型感受野,(f)为Off-型感受野,(b)为小光点单独刺激On-型感受野中心时,细胞发放频率增加,小光点单独刺激Off-型感受野周边时,GC发放频率受到抑制而变低的示意图.(c)表明当用面积正好覆盖On-型感受野中心的光斑刺激感受野中心时,可以得到GC的最大兴奋型反应.(d)表示当用面积正好覆盖On-型感受野周边的光斑刺激周边时,得到GC的抑制型反应.(e)表示当用大面的弥散光照射On-型GC时,它们倾向于彼此抵消,得到较弱的兴奋型反应.Rodieck于1965年提出了同心圆拮抗式(homocentric opponent)感受野的数学模型,如图2.6所示,它由一个兴奋作用强的中心机制和一个作用较弱但面积更大的抑制性周边机制构成[Rodieck 1965].这两个具有相互拮抗作用的机制,都具有高斯分布的性质,但中心机制具有更高的峰敏感度,而且彼此方向相反,故称相减关系,又称高斯差模型(Difference of Gaussians,DOG).神经节细胞对落入其感受野内的对比度有选择性的敏感性要比落入整个感受野上的总光强的信息更加敏感.图2.7为一个对比边刺激物位于On-型感受野不同位置时,其GC反应放电频率变化.图2.7(b)表明,当刺激物从左移到感受野的中心区域边界且没有覆盖中心区域时,GC对这一位置的对比边缘反应要比同样光强的弥散光覆盖整个感受野(图2.7(a))所引起的反应更强.GC感受野的这种对明暗对比边缘特别敏感的性质,可以解释心理物理学中著名的马赫带效应(Mach Band).马赫是19世纪著名的奥地利物理学家,他在观察一个亮度渐变的边缘时,发现主观感觉在亮度的一端呈现一个特别亮的亮带,在暗的一端呈现一个特别暗的暗带,如图2.8所示,这就是马赫带.图2.8 的上方给出了On-型感受野的位置示意图,位置3的GC反应最为强烈,它对应于图2.7(b)的位置,位置4相当于图2.6(a)的位置,因此,强度仍然较强,但不是最强烈的反应,位置2对应于图2.7(c)的位置,反应最小,且是抑制性的,即低于黑暗中无刺激时的GC自发放电水平.位置1整个GC感受野处于黑暗中,因此只有GC本身的自发放电水平,但比位置2的放电水平要强一些.图2.7 猫视网膜神经节细胞的感受野及其反应形式图2.8 Rodieck 的视网膜感受野神经节细胞数学模型[Levine 1981]图2.10 马赫带现象及其生理基础在视觉皮层中,除了同心圆状的感受野外,还有更复杂的感受野响应特性,它们对其感受野中的特定方向的线段敏感.所有视觉通道上的神经细胞,按其感受野在一个视网膜或两个视网膜上,可分为单眼神经细胞和双眼神经细胞.所有神经节细胞、外膝体细胞和简单细胞都是单眼的,复杂细胞约有半数为单眼,半数为双眼.双眼细胞又可进一步分为右眼主导、左眼主导和双眼均衡的三种.2.3 视觉信息的多层次并行处理许多神经科学家对视觉信息的并行分块处理进行了深入的研究.所谓的并行分块处理是指不同视觉性质的视觉信息成分按不同的神经通道预处理并输入视皮层,由不同性质的皮层细胞分别进行分析处理.以英国科学家Zeki为代表的神经科学家认为,人类视觉系统使用更加精巧的策略或办法来统一不同性质的信息,即在几个不同水平上相互作用来多级地处理复杂的视觉信息,达到感知周围多彩生动的视觉世界[Zeki 1993].2.3.1视觉信息的多层串行处理机制Hubel和Wiesel首先提出视觉信息是多级串行处理的[Hubel 1959].由视觉通路可以看到,视网膜、外膝体、视皮层构成对视觉信息处理的多级串行处理,特别是视皮层,表现出更为复杂的多级分层.视网膜由三层细胞组成.从最外到最内为感受器细胞层(receptor cell, RC),双极细胞层(bipolar cell, BC)和神经节细胞层(GC),GC的轴突形成视神经.这三层的每一层均包含有不止一类细胞,各层之间以及一层之内的细胞形成广泛的联系.这里需要指出的是光线传递方向与视网膜信息传递方向相反,即光线首先到达神经节细胞层,最后到达感受器细胞,称这种视网膜为倒转视网膜(inverse retina)视网膜神经节细胞轴突形成视神经,经视交叉和视束到达外膝体.外膝体属丘脑,是眼睛到视皮层通路的中继站.猴的外膝体细胞在组织上分为六层,各层之间几乎没有任何细胞.而来自两个视网膜的纤维分别按照一定的规律投射到外膝体各层.外膝体对信息的处理是并行的.2.3.2 视觉信息的并行处理(1)X、Y和W通道空间拮抗(spatial opponent)是感受野的一种基本作用性质,但感受野还有一些其它性质,其中最重要的是它的反应时间特性和线性特性.比如,猫的神经节细胞可按其反应的空间—时间总和性质而划分为两类,一类细胞反应的空间总和性质大体符合Rodieck 模型,即它们的感受野的兴奋和抑制作用可以线性相加,称为X细胞,另一类神经节细胞的空间和性质是非线性的,称为Y细胞.外膝体的神经元也可按其空间总和性质划分为X和Y细胞,并且在传递信息过程中,X型神经节细胞总是与X型外膝体神经元发生联系,Y型神经节细胞总是与Y型外膝体神经元发生联系,而X型外膝体神经元多数传至视皮层简单细胞和超级复杂细胞,而多数Y型神经元只传给视皮层复杂细胞.由此可见,视觉系统内存在一个X和Y通道,它们在功能上表现出X细胞的感受野可能与空间信息的检测与传递有关,而Y细胞的感受野可能与时间信息的检测与传递有关.除了X 和Y细胞外,人们在猴、猫视网膜上还发现一种称为W型的神经节细胞,其感受野与Y 细胞大小相仿,但轴突直径特别细,因而动作电位在其轴突上传导速度也最慢.W细胞的轴突主要传至中脑上丘部,是控制眼球运动的.(2)On-型和Off-型通道在视网膜上,On-型和Off-型细胞是一种均匀镶嵌式的排列,其总数基本相等,而在LGN,它们开始呈现一定程度的分离,实验充分证明,On-型通道和Off-型通道在LGN到视皮层是充分地平行分离的.比如,在猴视网膜水平细胞、双极细胞处用药物选择性地阻断On-型通路,可以取消神经节细胞,LGN和视皮层的On-型反应,但对Off-型细胞的反应和视皮层细胞方位、方向选择毫无影响.(3)左眼、右眼通道在视网膜、外膝体及视皮层构成的视觉通道上,外膝体内的每一个细胞均只接受单眼输入,双眼信息并不相混.视皮层中的细胞多为双眼输入细胞,但大多数细胞总是呈现对某眼输入刺激的反应占优势.视皮层的左、右眼优势柱,与其对应的细胞产生连接.双眼视差信息是立体视觉产生的基础.实验证明,猫的不同视差信息处理是经X,Y,W 通道分别处理的.(4)空间频率通道视网膜、外膝体的X和Y型细胞都分别对高、低空间频率反应有显著差异.光栅适应性心理学实验有力地支持视觉信息是按空间频率强弱不同的多通道进行分析处理的.现已经有充分的实验证据表明猫和猴的皮层17区均存在着空间频率功能柱,在同一柱内的细胞最优空间频率相同.具有高空间频率的功能柱集中在17区中央皮层,具有较低空间频率的功能柱向17区中央的周边区域扩散分布.(5)颜色信息处理通道在视网膜感受器细胞水平,颜色信息即被三种光谱敏感性不同的(红、绿、蓝)锥体细胞所分别处理,侏儒型和平底型双极细胞处理颜色信息,而杆体双极细胞无色觉.在神经节细胞水平.猴B型节细胞处理信息,故接受其平行投射的外膝体小细胞层司色觉信息处理,而A型细胞无色觉,故平行地接受其输入的LGN大细胞层亦无色觉.经外膝体小细胞层细胞所处理的颜色信息,被V区(17区)的细胞色素氧化酶染斑点内皮层细胞1进一步地加工处理.(6)空间方位信息通道自Hubel和Wiesel 20世纪50年代末开始的视皮层细胞研究工作以来,人们一直认为视觉方位敏感性是视皮层细胞的独有的功能.20世纪80年代初,Levick 等证明神经节细胞也具有方位敏感性,不过其敏感性很弱[Levick19??].寿天德和Leventhal证明约80%的外膝体中继细胞具有弱但确实存在的方向敏感性,这些外膝体神经元具有与视网膜神经节细胞相似的、向心的最优方位分布规律,并且最优方位的细胞在外膝体内部已经聚集在一起[寿19].因此,视网膜、外膝体和视皮层形成一个方位信息通道.(7)运动方向信息通道视网膜节细胞中的少数W型兴奋-抑制中心细胞对运动刺激有方向敏感性.寿天德等人认为猫视网膜22%的X型和34%的Y型节细胞具有显著的方向敏感性[寿1995].Thompson等人]证明猫外膝体约有31的X和Y细胞具有方向敏感性[Thompson 1994].这些方向敏感性X和Y 细胞可能为强的皮层方向选择性形成作出贡献.2.4 视觉信息的集成和反馈现在知道猴大脑皮层确定与视觉有关的区域约有35个以上,它们既平行又分级处理着各种不同的视觉信息.解剖学证据说明35个视觉皮层区之间存在广泛的交互投射.英国科学家Zeki 提出关于视觉皮层信息传递集成的“多级同步集成”假说[Zeki 1993],用于解释视皮层各特殊区域之间的相互作用机理,以及由此实现思想和行为的集成.Zeki指出,视觉皮层信息的集成不是以部位上的会聚为主,而是一种多级集成,在几个不同水平上的相互作用来实现.支持这种“多级同步集成”假说的证据很多.例如,色觉区V与运动区5V均有投射到顶皮层的内顶4沟;顶皮层区和颞皮层均有输出到额叶,但它们的输入在第三个区域内空间上很少重叠,而且各自有其自己的领地;V和5V也都投射到颞叶皮层,但根本就不存在直接的重叠.4脑可能使用更加精巧的策略或办法来集成不同性质的信息,即在几个不同水平上相互作用来多级地处理复杂的视觉信息,达到感知周围多彩生动的视觉世界.Zeki认为,更高级视觉皮层向V和2V区“再进入”反馈输入信息,对于某些概念的形成具有十分重要的作用.正如前述,1视觉皮层之间几乎毫无例外地存在着交互投射,甚至丘脑外膝体也接受大量的视皮层下行投射.以V区为例,5V区→2V区是弥散于整个2V区(虽然在宽带部分最为密集),所以不但宽带2而且窄带、亮度之间都有来自V的投射纤维,因此5V区可以影响2V区窄带内细胞的颜色信息5处理;颜色信息处理区V对2V区内所有的带区均有弥散性投射,从而对2V区各带区内细胞投4射到V和3V区的信息处理产生影响.这样,返回性的“再进入”信息通路不仅返回到原有视区5的输入神经元所在的亚区,而且分布到整个前级视区,因此是非模块、不易定位的和多级弥散性的,从而将分工明确的高级视觉皮层内的形状、颜色和运动信息联系起来.总之,脑内整个视知觉是由几个视皮层和通路同时活动的产物.以上是人类近40年来对高级生物视觉的研究成果,这些研究成果给我们研究和设计机器视觉系统提供了很好的模型或生物支持.这里需要指出,对生物视觉信息处理过程的研究难度十分巨大,目前的研究成果仅仅是生物视觉信息处理机理的及其微小的一部分.。

相关文档
最新文档