毕业设计论文

毕业设计(论文)说明书

学院软件学院

专业软件工程

年级2007级

姓名张仁宇

指导教师操晓春

2011年6月15日

毕业设计(论文)任务书题目:基于单幅照片的重定焦

学生姓名张仁宇

学院名称软件学院

专业软件工程

学号3007218140

指导教师操晓春

职称研究员

一、原始依据(包括设计或论文的工作基础、研究条件、应用环境、工作目的等。)

在摄影学上,人物突出清晰背景相对模糊对摄影师来说是一幅理想的肖像照片。现在的情况是,专业的摄影设备器材相对昂贵,而且对于没有摄影基础的人来说难以操作,纵使有好的设备也不能拍出专业的,有艺术感的照片。而随着工艺的发展,普通的数码相机( point-and-shoot camera )越来越普及,但是大部分的傻瓜式相机并没有提供足够的离焦来达到这样的效果,主要原因是这种相机光圈要相对小很多以使拍摄时视野范围内的景物都能达到一种清晰的效果,减少人工的操作,但这种方式带来的直接后果是不能对重要的物体突出。虽然说我们可以借助软件对照片进行后期的处理,但现有的软件使用的都是简单模糊操作,没有考虑到图片的景深信息,导致使用错误模糊操作,使得处理后的图片不够真实。

我们提出的基于单幅图片的重定焦可以使得普通相机拍出的照片也能达到足够的离焦效果,突出重要的物体。与当前存在的算法不同的是,我们考虑到整幅图片的景深信息,结合摄影的几何规则加以模糊,使获得的图片更有真实感。

二、参考文献

[1] DARRELL T., WOHN K.: Pyramid based depth from focus[J]. In IEEE CVPR (1988).

[2] Ashutosh Saxena, Sung H. Chung, Andrew Y. Ng.: 3-D Depth Reconstruction from a Single Still Image[J]. IJCV, Aug 2007.

[3] Ashutosh Saxena, Sung H. Chung, Andrew Y. Ng.: Learning depth from single monocular images[J]. In NIPS 18, 2005.

[4] Soonmin Bae., Fredo Durand.: Defocus Magnification[J]. Computer Graphics Forum, V olume 26, Issue 3 (Proc. of Eurographics 2007)

[5] D. Scharstein and R. Szeliski. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[J]. International Journal of Computer Vision (IJCV), 47(1):7–42, 2002.

三、设计(研究)内容和要求(包括设计或研究内容、主要指标与技术参数,并根据课题性质对学生提出具体要求。)

目前的方法中,对于离焦的操作大多没有考虑到图片的景深信息,添加的模糊主要是基于像素的空间分布,这样的后果往往是处理后的图片看起来很不真实,不够自然。

针对上述方法的缺陷,提出一种基于图片本身的景深信息的方法,应用透镜成像的几何规则对图像进行模糊。其实际效果,相当于对于同一场景使用不同参

数的相机重新拍摄了一次,这样经过处理的图片会显得更加真实自然。

根据单幅图片获得整幅图片的3-D结构信息,另一部分是应用透镜成像规则模糊聚焦处以外的部分。获得单幅图片的景深信息,Ashutosh Saxena等人提出的方法可以很好的解决这个问题。获取单幅图片的景深信息基于Ashutosh Saxena 的工作。在研究了相机的参数及相机的成像模型后,提出一种更加符合实际的模糊模型,达到更加准确的模糊结果。

指导教师(签字)

年月日

审题小组组长(签字)

年月日

天津大学本科生毕业设计(论文)开题报告

摘要

在摄影学上,拍摄一幅如风景的照片时,背景模糊前景锐利是摄影师比较期望得到的,这样的照片能突出重点,而且往往具有更高的观赏性。但是并不是所有的相机都能拍摄出这样的照片,大部分的相机(我们常说的傻瓜相机)由于只有半径很小的透镜,也就半径很小的光圈,达不到充分离焦背景的要求,导致所拍的照片处处都是锐利的。在本篇论文中,我们提出一套全新的图像处理框架,使得这种效果的获得仅需要一张普通的照片。我们首先应用一种深度估计技术来估计图片的深度信息;在此之后,我们应用一种基于全局对比度的显著性区域检测方法来获取全局的显著性区域。在得到深度信息和显著性区域之后,我们应用高斯模糊来模糊显著性区域以外的背景区域而同时保持显著性区域锐利,这样这种背景虚化的效果就可以达到了。

关键词:显著性;深度估计;景深;真实感模糊;离焦

ABSTRACT

In photography, a defocused background, such as landscape, is often desired for photographs. Unfortunately, most point-and-shoot cameras which have small diameter of lenses don't have the ability to defocus background. In this work, we propose a new framework that can achieve this focusing effect automatically after the acquisition of an image. Our approach first employs a depth estimation technique to get the depth of the image. Then a global contrast based salient detection method is used to extract global salient region. With depth information and salient region, this bokeh effect can be generated by using Gaussian blur and kept focus onto salient region.

Key words:Focusing; saliency;depth estimation; depth of field; realistic depth blur.

目录

第一章绪论 (1)

1.1相机模型 (2)

1.2相机的局限性 (3)

1.3论文的组织结构 (4)

第二章框架结构 (5)

2.1相关工作 (5)

2.2框架概述 (5)

第三章照片预处理 (8)

3.1深度信息估计 (8)

3.2显著性区域检测 (11)

第四章真实感模糊计算 (11)

第五章实验结果 (14)

第六章结论 (16)

参考文献 (18)

附录 (19)

外文资料

中文译文

致谢

第一章 绪论

在很多情况下,譬如说肖像照和风景照时,为了突出显著的物体或区域,摄影师们会刻意将照片拍成背景模糊而同时前景或者说显著性大的区域仍然锐利,也就是我们常说的背景虚化,这样照片往往具有更高的艺术价值和观赏性。但是,此类照片的拍摄往往具有一定难度,受到硬件和拍摄人员技术的限制。现在的大多数傻瓜式相机(point-and-shoot camera)只具有较小的镜头,这就的镜头的光圈直径也会很小,可调节的范围很小,从而缺乏这种离焦背景的能力,拥有较大光圈的单反式相机(single-lens-reflex camera, SLR)却很容易拍摄出这样的照片,将照片的景深限定在一个较小的范围内。

在一个特定的场景中,如果相机与物体的距离已知,景深(depth-of-field, DOF)只与相机镜头的光圈大小有观。如上文提及的,少量的离焦效果,对于拍摄风景照和肖像照都是十分理想的,但是很多相机不能够提供足够的离焦能力而无法拍摄出理想的照片,这对于摄像师的创造力来说是一种很大的限制。事实上,照片背景虚化的质量往往被用来评价一幅照片的艺术价值。在本篇论文中,我们提出了一种全新的图片处理框架使得普通的没有离焦效果的照片也能够达到这样的离焦效果,这种方法是基于显著性的,也即是保持显著的物体或区域仍然锐利而只模糊背景区域。

图1-1 两幅不同焦距设置拍摄的照片

我们的方法首先根据提供的图片来图片中场景的深度信息,基于单张图片估计深度信息在计算机视觉中是一项很难的任务,在本篇论文中我们使用的是由Ashutosh Asxena. et. al .[1]提出的方法,选用这种方法的主要原因是它考虑了图片的全局结构。在获得了图片的深度信息后,我们使用一种基于全局对比度的显著性检测方法来获取图片的显著性区域,做这一步处理的原因是因为人们总是倾向于突出场景中突出的部分。得到图片的深度图(depth map)和显著性区域(salient regions)后,景深部分距离相机的最大距离和最小距离可以很容易的计算出来,对图片应用模糊处理后,我们就可以得到想要的离焦效果同时这种模糊是具有真实感地。

本篇论文得主要贡献有:

从单幅图片中获得真实感模糊

基于显著性的自动定焦

1.1相机模型

现实世界中的光学成像系统中,譬如说人眼,只有有限的景深。当物体处在一定距离(焦平面)显得锐利些,比焦平面更远或者比焦平面更近时,会逐渐地变得越来越模糊。然而,这些视觉上的细节会被针孔相机模型忽略,这样的图片看起来处处锐利,缺乏真实感。而薄透镜模型能够提供一种更加真实的光学模型,为接下来的模糊模型提供很好的基础。

图1-2 薄透镜模型

对于一个具有焦距f的透镜来说,如果物体距透镜的距离为u,透镜的像平面距透镜的距离为v,一幅锐利的图片会形成当且仅当像距、物距、焦距满足以下关系:

1

+ 1

=

1

否则,光线从物体通过透镜会与像平面相交形成一个近似的圆,称为模糊圈(Circle of Confusion)[2]. 人眼对模糊圈大小的识别有一定的阈值,当模糊圈的半径大于阈值时,这个阈值我们称之为可接受模糊圈直径,图片就会表现出模糊,而半径越大,模糊地效果就会越明显,越容易察觉。模糊圈的直径可以由以下公式算出:

CoC=|D?f

(u?z) z?(u?f)

|

式中的D就是透镜的直径,z代表的是物体距离透镜的距离。图1-2表示一种基本的薄透镜成像模型。在点A处发射的光线在像平面上产生了一个距离焦点A’很远的模糊圈,从C出发射的光线在像平面产生一个距离焦点C’相对较近的模糊圈,而从B处发射的光线透过透镜汇聚到焦平面并且满足透镜公式。

这里我们使用的是一种相对简化的透镜模型,更加复杂的透镜模型考虑了光

圈的形状,色差的影响,镜头的畸变等。然而,这些复杂的相机模型会导致高昂的计算代价,同时景深效果通常是光学系统中最容易观察的效果,所以,利用好简化的薄透镜模型已经足够达到我们需要的效果,更复杂的模型我们将不予考虑。

1.2 相机的局限性

经过上文中对相机模型研究,我们已经可以清楚知道相机是如何成像,如何形成常见的景深效果的,下面我们将从更加量化的观点来研究景深和相机参数之间的关联。

图1-3 从左至右分别由光圈设置f-22,f-8,f-4拍摄的照片

如果场景和相机的位置给定,景深(DOF)直接和镜头的光圈大小相关,光圈大小通常我们用f-数字,即相机的焦距和光圈直径的比值来表示。降低光圈直径即增大f-数字值能够增大景深效果,获得更广的景深;然而,降低光圈直径的同时也降低的曝光量,加强了衍射效果,这就限制了通过调节光圈直径来获得景深效果,也即无法通过充分降低光圈直径获得更广景深的同时保证获得高质量的照片。

图1-4 薄透镜模型

图1-4描述的是一幅标准的透镜模型[3]。在距离透镜距离s 处的物体,通过透镜投影到像平面v 。D F 和D N 处的物体分别被透镜投影到距离透镜v F 和v N 处,从像平面上观察v F 和v N 则只能看到模糊的点。上文已提及,景深的大小是由透镜的光圈直径d 控制的,当物体D F 和D N

在像平面上形成的模糊点的直径与人眼可

接受的模糊圈的直径c相等时,景深的近点和远点就在D N和D F处。由相似三角形可知,

v N?v v N = c d

v? v F

F = c

显然,s处的物体投影到像平面v处满足透镜成像公式

1 v +

1

s

=

1

f

同样地,对D N和D F的物体应用此公式

1 D N +

1

v N

=

1

f

1 D F +

1

v F

=

1

f

联立以上等式,可以得到

D N=sfd ()

D F=

sfd

fd?c(s?f)

当c和人眼可接受的模糊圈直径大小相等时,D N和D F分别就是DOF的近点和远点,所以

DOF =D F? D N=

2csfd(s?f) (fd)2? c2(s?f)2

对于人眼来说,c的通常是相同的,所以景深的大小直接受光圈直径d和透镜焦距f的制约。在前文我们提及,普通的傻瓜式相机光圈直径较小,可变的范围也就很小,只能获得较大的景深,即只能使得图片处处锐利,不能突出重点。1.3论文的组织结构

本文的主要工作是提出了一种新的图像处理框架,能够为普通相机拍摄的照片也能具有景深的效果,突出重点。

论文的第一章主要概述了本文的工作,介绍了本文采用的一种具有真实感的相机模型及普通相机的局限性。第二章将讲述图像处理框架的结构,处理流程。第三、四章是本文的重点所在,重点介绍了框架的处理细节及所应用的技术。第五章展示处理框架的实验结果。第六章是本文的结论部分,总结了处理框架的工作流程,并提出了进一步研究的问题。

第二章框架结构

2.1相关工作

目前已有很多方法可以用来生成这种景深的效果,当然,结果好坏不一。Bae和Durand通过检测单幅图片中模糊程度来估计模糊核(Blur Kernel)[4],如果想想修改模糊的程度只需定量的修改估计的模糊核,这种方法可以在原来模糊地基础上加深模糊,对一张处处都锐利的图片并不能达到想要的效果。Benjamin Huhle et. al.[5]提出了另一种变焦的方法在获得单幅图片之后,他们通过拍摄同一场景的高动态光照渲染(High Dynamic Range)照片,同时拍摄场景的Range Data(一种近似场景深度信息的数据),在获取这些数据之后,就可以真实地将照片定焦在场景的任何地方。还有很多类似的方法,他们通过相片的定焦/离焦来获取场景的深度信息,这些方法都使用了同一场景不用定焦设置的多幅照片来估计照片每个像素的深度信息,从而得到整个场景的深度图。我们所做的工作与此相反,我们只需要单张图片。

Eltoukhy和Kavusi[6]使用多幅不同焦距设置拍摄的照片来组合产生一幅扩展景深的照片。Trussell和Fogel[7]提出一种使用很多幅同一场景模糊照片来重建此场景的清晰照片的方法。与他们所作的工作不同的是,他们希望从模糊图片中重建出一幅清晰的图片,而我们希望的是由清晰的图片构建出具有景深效果的图片。

2.2框架概述

我们的框架从整体来说,指定一幅输入图片,自动产生一幅定焦的具有景深效果的照片,定焦在显著性最大的区域,无人工干预。自动完成定焦在显著性最大的区域的原因是人们在拍摄照片的时候,更愿意忽略看起来不那么重要的区域,突出显著性大的区域。

下图表示的是框架的整体流程:

整个流程主要分为三个部分:照片预处理部分(Image Pre-Processing),数据

优化部分(Data Optimization),真实感模糊(Realistic Depth Blur)。

在获得了一幅图片之后,我们将对图片做两种处理:由单张图片获取场景的深度信息,图片中每个像素的深度数值,即深度图(Depth Map),这里使用的是

由Ashutosh Asxena. et. al.1提出的方法,具体细节将在接下来的章节详细描述,

场景的深度信息不需要十分精确,但至少要能表示处场景中物体的排列关系,那些物体在那些物体的前面;另一项需要做的工作就是检测出图片中显著性最高的区域,所谓显著性最高的区域就是说从人类视觉的角度来说最吸引你眼球的区域,在图片中可能表现是与周围的物体颜色反差很大,在图片中此区域独一无二等。

在接下来工作中,我们是要定焦在显著性最高的这块区域,也就是将要保持这块区域锐利但是模糊这块区域以外的其他地方,这块区域就是我们常说的景深。在前面的步骤中我们已经获取了图片的深度图,我们可以很容易的知道景深的近点和远点的深度信息。利用我们所建立的模糊模型就可以对场景进行模糊操作,获得我们所需要的效果。

图2-1 处理框架

上面所描述的是我们的框架的标准流程,但是并不能获得很好的效果,主要原因有以下两点:从单幅获取场景的深度图,分辨率只有150×320,粒度远远小于输入图片的分辨率,这样会导致模糊的时候,原来边缘融合的物体被应用相同的模糊强度,表现不出物体之间的层次感,没有真实感。同时,获得的显著性区域往往是与周围反差最大的区域,在对待普通的照片时没有多大问题,但当处理肖像照时,往往难以检测出人脸,忽略这一部分。所以在考虑了以上两个问题的

基础上,我们提出了解决方案。针对获得的深度图分辨率小于输入图片分辨的问题,我们使用上采样提高深度图的分辨率,使得深度图的分辨率能够和输入图片的分辨率相同大小,同时为了消除简单上采样引入的噪声问题,我们使用去噪消除引入的噪声,将在接下来的章节详细叙述。针对显著性检测难以检测出人脸的问题,我们在中间检测显著性区域的过程中引入人脸检测,提高人脸在显著性检测中的权重。实验结果表明,在引入上述的解决方案后,实验获得的结果明显好于没有引入上述解决方案的实验结果。

以上是整个处理框架的流程,在接下来的章节中我们将详细叙述每步的具体流程。

第三章照片预处理

3.1深度信息估计

图像的深度信息即是图像中每点的像素值对应到点到某一参照平面的距离。图像的深度估计今年来已成为机器视觉领域中一个十分热点的研究对象,其根本目的在于通过对图像数据的运算得到图像中不同的物体对象间的空间位置关系。深度估计在图像理解(如目标识别,场景层次、姿态感知)、3D重建[8]、机器人视觉等方面都已得到了广泛的应用。

在如何获得场景深度信息方面,目前主流的方法有两种。一种是使用深度感应器,例如三位激光扫描仪,其原理是利用光线的反射特性,通过反射时间计算物体到扫描平面的绝对距离,这种方法有着精确度高的优点,但同时存在设备成本较高的缺点。另一种方法是基于一个场景的多幅图像或图像序列,利用多视几何[9],通过求取视差,获得深度信息,例如基于双目、三目的三维立体化深度信息获取方法。这些方法的优点是条件充足,易于实施,然而缺点是需要摄像机内部参数,对专业知识素养的要求比较高。

本文所要采用的方法是利用单目图像进行的深度估计,基本原理是:以模式识别原理为框架,采用MRF(Markov Random Field)方法建立深度估计模型。实

践证明,该方法成本低,即无需昂贵的测距设备,有无需摄像机内部及外部的专业参数,应用前景广泛。

马尔科夫随机域(MRF)及其变种已成为机器学习研究中主要研究方法,而且已经成功解决了很多局部特征信息不足必须得考虑全局信息的问题。譬如说,纹理分割、物体分类、图片标注等。Ashutosh Asxena. et. al.提出的方法是基于利用马尔科夫随机域建立起获取深度信息和深度之间的关系。他们首先使用3-D距离扫描仪来获取大量的训练数据,同时获得对应的场景图片,这样现在就有场景图片和它对应的准确无误(ground truth)的深度数据。利用训练数据集,可以建立起预测深度的马尔科夫模型;与其他方法不同的是,我们只建立深度与图片特征的后验分布而不是建立起深度与图片特征的联合分布关系。

人类具有从单目图片中获取深度信息非常好的能力,因为人眼可以通过一些细微的线索来帮助判断。比如说纹理的变化、纹理的交融、已知物体的尺寸、离焦效果、雾等。很多物体的纹理从不同的距离来看会有很大的不同。类似这些的很多单眼线索(Monocular cues)都是上下文的信息,并不是孤立的,从一小块图片来看是无法得出它的一些全局特征。尽管说一些局部的纹理变化、颜色变化可以给出一些深度信息,但是这些特征往往是不足以得出图片的真实深度值。举个例子来说,如果我们有一张干净蓝色天空的照片,取出其中一小块图片,单看这一小块图片我们是很难判断这块图片距离我们很远或者它仅仅是某个蓝色物体的

一部分。由于对待这些情况存在这些不确定性,我们需要从整体上来理解图片来获取图片的深度信息。

Ashutosh Asxena. et. al.等人提出将图片分割成更小的块,对每个小块分别估计深度值。其中,使用到两种深度值来表示每个小块:绝对深度值,用来估计每个小块的绝对深度值和相对深度值用来估计该小块与其他图片小块的相对深度值。在估计深度的过程中,三种局部的属性:纹理变化、纹理梯度和雾[10]被用来估计图片的深度信息。

仅仅使用图片的局部特征是远不足于估计图片小块的绝对深度值,我们需要使用更全局的图片特征。解决此问题,使用的是在不同尺度下使用图片的局部特征。因为不同深度上的物体在不同的分辨下观察会有很大的差异[11],使用不同尺度下的图像特征能够使我们抓住这些变化。为了获取更多的全局信息,在不同的空间尺度下计算图像特征也能够帮助我们考虑到不同尺寸的物体。举例来说,一个更靠近观察者的物体显得会更大些,远离观察者的物体会显得小些。为了使获得图片小块的全局特征,我们不仅仅使用从小块本身计算出来的特征,同时也使用图片小块的相邻小块的特征。然后在三种不同的图片尺度下重复这一步骤,这样每个图片小块的特征向量就同时包括它的相邻小块和其他的图片小块。

一个图片小块的深度值依赖于它本身的特征,但同时与图片中的其他部分紧密相连系。比如说,在一个建筑物上的两个相邻的图片小块在深度值很大程度上是近似的。我们使用一种Gaussian MRF来建模图片小块深度值与它相邻图片小块深度值的关系。为了能够表示不同图片尺度下深度关系,定义d i(s)如下:在每一图片尺度s=1,2,3下,d i(s+1) =(1/5)∑d j(s)

j∈N s(i)?*i+

.这里,N s(i)表示图片小块i在尺度s下的4个相邻图片小块。也就是说,在较大尺度下的深度值受更小尺度下平均深度值的制约。公式如下:

P(d|X;θ,σ)=1

exp ,?∑

(d

i

(1)? x

i

r

)2

1r

? ∑∑∑

.d i(s)?d j(s)/2

2rs

j∈N s(i)

M

i=1

3

s=1

M

i=1

-

M表示图片中图片小块总的数量;x i是图片小块i绝对深度特征向量;θ和σ是Gaussian MRF模型的变量,Z是归一化常量。利用训练数据最大化条件概率P(d|X;θr)就可以估计出等式中变量θr的值。

结果如下:

相关文档
最新文档