kinect三维重建

kinect三维重建
kinect三维重建

上海大学2014 ~2015学年秋季学期研究生课程考试

课程设计大作业

课程名称:建模与仿真课程编号: 09SAS9011

论文题目: 基于Kinect的三维重建

研究生姓名: 邵军强学号: 14721629 论文评语:

成绩: 任课教师:

评阅日期:

基于Kinect的三维重建

邵军强

(上海大学机电工程与自动化学院)

摘要:三维重建是计算机视觉的一个重要目标,可以帮助人们快速精确地将日常生活中的物体数字化,并有着广泛的应用前景。本文叙述了一种成本低廉、快速且操作简便的三维重建方法。借助于微软公司的Kinect 体感传感器作为采集深度图像和彩色图像的输入设备,通过对原始深度图像的去噪、平滑、表面重建等一系列方法,最终可以获得在三维空间中的点云模型。

关键词:三维重建,Kinect,点云模型

Based on Kinect 3D Reconstruction

SHAO JUNQIANG

( Shanghai University EMSD and automation College)

Abstract:3 D reconstruction is an important goal of computer vision, and can help people quickly and accurately to digital objects in everyday life, and has a broad application prospect. This paper describes a kind of low cost, quick and easy operation method of 3 d reconstruction. By using Microsoft's device body feeling sensor as a collection of depth image and color image input device, through the depth of the original image denoising and smoothing, surface reconstruction and a series of methods, finally can get the point cloud model in three-dimensional space.

Keywords:3D Reconstruction,Kinect, point cloud model

1 引言

Kinect 传感器是一种RGB-D 传感器,即可以同时获得环境颜色值(RGB)和深度值(depth)的传感器.它的采集速度快,精度高,且价格低廉,使其迅速被运用到很多领域.机器人领域也开始了对Kinect 传感器广泛的研究[1].利用Kinect 传感器对室内环境进行3D 重构,获得环境的3D 点云模型是研究热点之一.华盛顿大学与微软实验室[2],开发了基于SIFT (尺度不变特征变换)特征匹配定位及TORO(Tree-basednetwORk Optimizer)优化算法的实时视觉SLAM系统来建立3D 点云地图.德国Freiburg 大学[3]提出了RGBD-SLAM 算法,采用了与华盛顿大学类似的方法,但是为了提高实时性,使用了Hogman(hierarchical optimization for pose graphs on manifolds)图优化算法,同时在相对位姿检测上采用了SURF (加速鲁棒特征)特征进行对应配.KinectFusion 算法与这些算法不同,它仅使用深度信息,通过设计高效及高度并行的算法在GPU(图形处理单元)上运行达到了非常高的实时性,在试验中,在配置4000 元左右的电脑上运行速度达到了18 帧/秒(在同样配置的计算机上前面两种算法仅达到2 帧/秒),在进行场景建立时有良好的用户体验,甚至可以用来做一些人机交互方面的应用[4-5].同时KinectFusion 采用了基于TSDF(truncated signed distance

function)模型的点云融合方法,构建的点云模型冗余点少.而前面的方法因为没有进行点云融合,所以在地图创建过程中,点云的容量将不断增加[1].

除此之外,KinectFusion 算法也存在一些问题,由于其重建过程是在GPU上的实时重建,因此,受GPU 内存限制,只能建立较小规模环境。其算法注重效率的提升,在鲁棒性方面有不足之处,比如在一些环境中容易出现定位失效而无法正常建模。

2 Kinect 传感器

Kinect 传感器如图1,它包括随机红外点云投射器、红外相机和彩色相机.

图1 Kinect传感器结构

红外点云投射器和红外相机构成了一个结构光3D 成像系统[8].Kinect可以同时采集到环境的深度信息数据和颜色信息数据,其中深度信息数据是一个2 维矩阵,它的元素值表示环境中物体到相机中心的距离值,可以作为灰度图像进行处理.

不同于普通的通过计算得到物体3D坐标的设备,Kinect可以直接获取物体与摄像头之间的距离,这是Kinect最受人瞩目的一个功能。微软先后于2009年和2010年收购了3DV Systems(TOF)和PrimeSense(Light Coding)这两家以色列公司,并最终采用了Light Coding 技术作为Kinect体感设备的深度摄像功能的基础。

Light Coding技术理论是利用连续光(近红外线)对测量空间进行编码,经感应器读取编码的光线,交由晶片运算进行解码后,产生一张具有深度的图像。Light Coding技术说到底还是结构光技术。但与传统的结构光方法不同的是,他的光源打出去的并不是一副周期性变化的二维的图像编码,而是一个具有三维纵深的“体编码”。这种光源叫做激光散斑(laser speckle),是当激光照射到粗糙物体或穿透毛玻璃后形成的随机衍射斑点。这些散斑具有高度的随机性,而且会随着距离的不同变换图案,空间中任何两处的散斑都会是不同的图案,等于是将整个空间加上了标记,所以任何物体进入该空间以及移动时,都可确切记录物体的位置。

光源标定:测量前对原始空间的散斑图案做记录,先做一次光源的标定,方法是每隔一段距离,取一个参考平面,把参考平面上的散斑图案记录下来;假设Kinect规定的用户活动范围是距离摄像头1~4m,每隔10cm取一个参考平面,标定后保存了30幅散斑图像;测量时拍摄一幅待测场景的散斑图案,将这幅图像和保存的30幅参考图像依次做互相关运算,得到30幅相关度图像;空间中有物体存在的位置,在相关度图像上就会显示出峰值。把这些峰值一层层叠在一起,经过插值运算,即可得到整个场景的三维形状。

Kinect就是以红外线发出人眼看不见的class 1镭射光,透过镜头前的diffuser(光栅)将镭射光均匀分布投射在测量空间中,再透过红外线CMOS传感器记录下空间中的每个散斑,结合原始散斑图案,再透过晶片计算成具有3D深度的图像。传感器是通过黑白光谱的方式来感知环境的,纯黑代表无穷远,纯白代表无穷近,黑白间的灰色对应着物体到传感器的物理距离,如图2。

图2 Kinect激光点阵

Kinect 的主要技术参数如图3:检测距离0.5m~ 7m,检测角度水平方向57?,竖直方向43?,

采集帧率为30 帧/秒,误差在4m 远处为1.4%.

图3 Kinect相关参数

3 KinectFusion 算法

KinectFusion 算法通过将Kinect 采集到的深度数据进行匹配定位与融合来实现3D 场

景重构.它的算法流程如图4[4] 所示,主要由4 个部分组成:a) 深度数据处理,是将传感器原始的深度数据转换成3D 点云,得到点云中顶点的3 维坐标和法向量;b) 相机跟踪,是将当前帧3D 点云和由现有模型生成的预测的3D 点云进行ICP 匹配,计算得到当前帧相机的位姿;c) 点云融合,是根据所计算出的当前相机位姿,使用TSDF 点云融合算法[9]将当前帧的3D 点云融合到现有模型中;d) 场景渲染,是使用光线跟踪的方法,根据现有模型和当前相机位姿预测出当前相机观察到的环境点云,一方面用于反馈给用户,另一方面提供

给b) 进行ICP 匹配.

图4 KinectFusion 算法流程图

4、KinectFusion 对原始深度图的处理

由于获得的原始深度图像据有较多的噪点,不利于基于ICP算法的相机姿态追踪。所以需要对原始深度图做去噪处理以增加配准的准确度和速度。双边滤波是比较理想的滤波方法。

双边滤波是一种保边缘的光滑图象处理技术,它可以追溯到1995 年Aurich和Weule [9]非线性高斯滤波器的工作,他后来被Smith 和Brady[10]重新发现,并且作为其SUSAN 框架的一部分,Tomasi 和Manduchi[11]给出了它目前的名称。自那时以来,双边滤波的使

用迅速发展和普及,现在在图像处理中的应用已经随处可见,它已被用于多中应用领域,在理论和应用方面都有了很大的发展。理论上,双边滤波和robust statistics, PDEs, Local mode filtering 一样,是一种各向异性扩散方法[12],它是几种框架连接的桥梁。双边滤波的两种加速算法,一种是分段线性近似[13],即将双边滤波线性化并用下采样来加速,这种算法极大

地降低了运算时间,但是并没有理论基础,近似的精度也不清楚。另一种是将双边滤波表示成较高维空间的卷积[14],而卷积计算可以进行下采样,并不明显影响结果的准确性。这种

近似算法实现了几个数量级的加速。再有就是双边滤波器两个参数的选取,可以自适应地根据噪声选取参数,能得到最好的滤波效果,而且省去了以往实验多次来选择参数的麻烦。

双边滤波的广泛应用是因为它有以下几个特征:

1、表述简单:每个像素被相邻像素的加权平均所取代。这个方面是重要的,因为它更容易获得有关其行为的直觉,更容易适应特定要求的应用并实现它。

2、效果完全取决于两个参数,这两个参数表示保持图像特征的大小和对比度。

3、可用于非迭代的方式。这些参数不具有累积性的迭代,这使得参数易于设置。

4、可以以一种交互的速度计算大的图象,这要基于有效的计数算法,如果图形硬件是可用的,甚至可以实时计算[15]。

5 KinectFusion 中的ICP 定位方法

ICP 定位环节将当前帧3D 点云和预测得到的3D 点云进行匹配时,由以下步骤来实现:

A) 利用投影法来确定对应点关系.用一个2 维ICP 来表示其过程,如图5 所示.图5(a) 中黑色曲线是环境中的物体,相机在连续两个位置分别对其进行采样和预测,O k 和O k?1 分别是当前相机和前一帧相机的坐标系原点.首先将k 和k?1 时刻的两个点云都转换到当前

帧k 的相机坐标系下,然后将两个点云通过相机中心O k 向像平面上投影,两个点云中具有

相同的像平面上的投影点的点即为对应点,如图5(b) 中的P1 和P2 两点.算法中还通过对应

点间的欧氏距离和法方向夹角来对对应点进行筛选.

图5 2D 的ICP 例子示意图

B) 利用点到平面的误差机制来衡量当前相对位姿的准确度.如图5(b) 所示,在2 维情况下,P1 和P2 间的误差为P1 到P2 点的切线的距离d.所有对应点间的总误差公式如下:

其中Ω(u) ?表示当前点云中的一个点u存在对应点,T g,k 是一个4×4 的位姿矩阵,表示当前帧相机在世界坐标系下的绝对位姿,世界坐标系定义为第一帧的相机坐标系,k(u) 为当前帧中u点的顶点坐标,是u点在预测帧中对应点的顶点坐标,为对点的法向量.C) 通过优化式(1) 得到最佳的相对位姿T g,k.采用线性化的方法将优化问题转化为一个最小二乘优化,通过计算一个线性方程组如式(2) 来计算最优解x.

其中

,

,

D) 迭代A) ~B)10 次.

6 KinectFusion 中的TSDF 点云融合算法

TSDF 算法用一个立方体栅格来表示3 维空间(如图4步骤(c)),立方体中每一个栅格存放的是该栅格到物体模型表面的距离,同时使用正负来表示在表面被遮挡一侧和可见一侧,而过零点就是表面上的点,如图6 中左侧的立方体中的一个物体模型.当有新的数据需要加入模型时会按照式(3)和(4),进行融合处理,式中i+1 表示当前点云对应的栅格距离值,i 表

示原有的栅格距离值,同一个栅格的距离值通过一个权重W 来进行融合,新的权重为两个权重之和,示意图如图6 中右侧.在KinectFusion 算法中当前点云的权重为1.

图6 基于空间体的点云融合

这种方法是具有最小二乘优化性质的,同时使用了权重值来进行融合,对传感器的一些噪声具有一定的抑制作用{1}。

7 KinectFusion 重建物体的显示方法

点云融合后使用光线跟踪方法对融合后的图像进行显示,从而能够动态的实时的观察融合后的图像。光线跟踪是一种通过统一的方法,计算表面消隐、阴影、光的反射和折射等全局光照和其他效果的算法[16]。

Cook 等[17]提出分布式的光线跟踪算法,根据分布函数进行采样而产生一定方向分布的光线,并在场景中进行跟踪而产生运动模糊、景深、半影和模糊反射等光照效果。Kajiya[18]提出基于分布式光线跟踪的层次采样算法,它适应具有广泛多样性的基于蒙特卡洛方法的光线跟踪。Mitchell[19]将图像的非均匀采样方法应用到高维的分布式的光线跟踪算法中。Walter 等[20][21]提出一个新算法,通过对光源进行聚类生成相应的树状结构,并对其进行层次性的遍历,从而有效地对具有很多的各种类型的光源(点光源、面光源等)的场景进行光线跟踪,并应用到多维的光线跟踪算法中以产生丰富的视觉效果(如运动模糊、介质光照和景深等)。Hachisuka 等[22]提出光线跟踪的多维自适应采样与重建技术,即先在多维空间进行自适应采样,然后通过多维函数的综合而产生分布式的绘制效果(如软影、景深和运动模糊等)。

基于点云模型的投影算法能很好地绘制物体表面的局部光照的效果。光线跟踪是生成图像的非常通用的技术,能够模拟诸如阴影、反射和折射等全局光照(如图 7 所示),通过图像的每个像素跟踪光线到场景中,与场景中的几何面片进行求交计算[16]。

图7 基于点云模型的光线跟踪的绘制效果

8 结语

利用本文提到的三维重建方法,可以在日常环境下,无需使用成本高昂且操作复杂的设备,仅仅借助 Kinect 就能够在短时间内进行初步的三维建模,目前这类模型已经可以满足日常娱乐的需求。如果要想模型更加精确的话,就得使用3DMax 或 Maya 等专业工具来对本软件得出的模型进行修改,展望未来 Kinect 在三维重建方面必将拥有十分广阔的应用发展前景。

参考文献:

[1] 朱笑笑,曹其新,杨扬,陈培华. 一种改进的KinectFusion 三维重构算法, 第36 卷第2 期, 2014 年3

月,129-132

[2] Henry P, Krainin M, Herbst E, et al. RGB-D mapping: Usingdepth cameras for dense 3D modeling of indoor

environments[C]//RSS Workshop on RGB-D Cameras. 2010.

[3] Fioraio N, Konolige K. Realtime visual and point cloud SLAM[C]//RSS Workshop on RGB-D Cameras.

2011.

[4] Izadi S, Kim D, Hilliges O, et al. KinectFusion: Real-time 3Dreconstruction and interaction using a moving

depth camera

[C] Proceedings of the 24th Annual ACM Symposium on UserInterface Software and Technology. New York,

USA: ACM,2011: 559-568.

[5] Newcombe R A, Izadi S, Hilliges O, et al. KinectFusion: Realtimedense surface mapping and

tracking[C]//10th IEEE International Symposium on Mixed and Augmented Reality. Piscataway,USA: IEEE, 2011: 127-136.

[8] Herrera D C, Kannala J, Heikkila J. Joint depth and color camera calibration with distortion correction[J].

IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(10):2058-2064.

[9] Aurich and J. Weule. Non-linear gaussian filters performing edge preserving di?usion. In

Proceedings of the DAGM Symposium, 1995

[10] M. Smith and J. M. Brady. SUSAN – a new approach to low levelimage

processing.International Journal of Computer Vision, 23(1):45–78, May 1997.

[11] C. Tomasi and R. Manduchi, “Bilateral filtering for gray and color images,” in Proc. 6th Int. Conf.

Computer Vision, New Delhi, India, 1998, 839-846.

[12] M. Elad, “On the origin of the bilateral filter and ways to improve it,” IEEE

Trans.Image Processing, vol. 11, no.10, 1141–1151, Oct. 2002.

[13] Durand, F., and Dorsey, J. 2002. Fast bilateral filtering for the display of high

dynamic range images. ACM Transactions on Graphics 21, 3 (Proc. SIGGRAPH 2002), 257-266. [14] Paris and F. Durand. A fast approximation of the bilateral filter using a signal

processing approach. In Proceedings of the European Conference on Computer Vision,

2006

[15] 王玉灵,基于双边滤波的图像处理算法研究,西安电子科技大学,硕士学位论文,2010年,2-3

[16] 蔡鹏,基于光线跟踪与光子映射的点云数据绘制,博士学位论文,北京工业大学,2013-6-24,

[17] Cook R L, Porter T, Carpenter L. Distributed Ray Tracing [J]. Computer Graphics,

1984, 18(3): 137-145.

[18] Kajiya J T. The rendering equation [J]. Computer Graphics, 1986, 20(4): 143-150.

[19] Mitchell D P. Spectrally optimal sampling for distribution ray tracing [J]. Computer

Graphics, 1991, 25(4): 157-164.

[20] Walter B, Fernandez P, Arbree A, Bala P, Donikian M, Greenberg D P. Lightcuts: a scalable approach to

illumination [J]. ACM Transactions on Graphics, 2005, 24(3): 1098-1107.

[21] Walter B, Arbree A, Bala K, Greenberg D P. Multidimensional lightcuts [J]. ACM

Transactions on Graphics, 2006, 25(3): 1081-1088.

[22] Hachisuka T, Jarosz W, Weistroffer R P, Dale K, Humphreys G, Zwicker M, Jensen H W.

Multidimensional adaptive sampling and reconstruction for ray tracing [J]. ACM Transactions on Graphics, 2008, 27(3): 1-10.

图像三维重建技术

1概述 随着计算机软硬件技术的快速发展,大规模复杂场景的实时绘制已经成为可能,这也加快了虚拟现实技术的发展,又对模型的复杂度和真实感提出了新的要求。虚拟场景是虚拟现实系统的重要组成部分,它的逼真度将直接影响整个虚拟现实系统的沉浸感。客观世界在空间上是三维的,而现有的图像采集装置所获取的图像是二维的。尽管图像中含有某些形式的三维空间信息,但要真正在计算机中使用这些信息进行进一步的应用处理,就必须采用三维重建技术从二维图像中合理地提取并表达这些 三维信息。 三维建模工具虽然日益改进,但构建稍显复杂的三维模型依旧是一件非常耗时费力的工作。而很多要构建的三维模型都存在于现实世界中,因此三维扫描技术和基于图像建模技术就成了人们心目中理想的建模方式;又由于前者一般只能获取景物的几何信息,而后者为生成具有照片级真实感的合成图像提供了一种自然的方式,因此它迅速成为目前计算机图形学领域中的研究热点。 2三维建模技术 三维重建技术能够从二维图像出发构造具有真实感的三维图形,为进一步的场景变化和组合运算奠定基础,从而促进图像和三维图形技术在航天、造船、司法、考古、 工业测量、 电子商务等领域的深入广泛的应用。3基于图像的三维重建技术 基于图像的建模最近几年兴起的一门新技术,它使用直接拍摄到的图像,采用尽量少的交互操作,重建场 景。 它克服了传统的基于几何的建模技术的许多不足,有无比的优越性。传统的三维建模工具虽然日益改进,但构建稍显复杂的三维模型依旧是一件非常耗时费力的工作。考虑到我们要构建的很多三维模型都能在现实世界中找到或加以塑造,因此三维扫描技术和基于图像建模技术就成了人们心目中理想的建模方式;又由于前者一般只能获取景物的几何信息,而后者为生成具有照片级真实感的合成图像提供了一种自然的方式,因此它迅速成为目前计算机图形学领域中的研究热点。 4 基于图像重建几何模型的方法 4.1 基于侧影轮廓线重建几何模型 物体在图像上的侧影轮廓线是理解物体几何形状的 一条重要线索1当以透视投影的方式从多个视角观察某一空间物体时,在每个视角的画面上都会得到一条该物体的侧影轮廓线,这条侧影轮廓线和对应的透视投影中心共同确定了三维空间中一个一般形状的锥体1显然,该物体必将位于这个锥体之内;而所有这些空间锥体的交则构成了一个包含该物体的空间包络1这个空间包络被称为物体的可见外壳,当观察视角足够多时,可见外壳就可以被认为是该物体的一个合理的逼近。鉴于此类算法一般需要大量的多视角图像,因此图像的定标工作就变得非常复杂。 4.2采用立体视觉方法重建几何模型 基于立体视觉重建三维几何是计算机视觉领域中的经典问题,被广泛应用于自动导航装置。近年来,立体视觉 图像三维重建技术 康皓,王明倩,王莹莹 (装甲兵技术学院电子工程系,吉林长春130117) 摘要:基于图像的三维重建属于计算机视觉中的一个重要的研究方向,从提出到现在已有十多年的历史。文章首先对三维重建技术做了详细阐述,并着重从计算机图形学的研究角度对基于图像建模技术进行了综述,介绍了 具有代表性的基于图像建模的方法及其最新研究进展,给出了这些方法的基本原理, 并对这些方法进行分析比较,最后对基于图像建模技术的未来研究给出了一些建议和应解决的问题。关键词:三维建模技术;图像建模技术;计算机图形学;虚拟现实中图分类号:TP271文献标识码:A 文章编号1006-8937(2009)11-0042-02 Three-dimensional image reconstruction technique KANG Hao,WANG Ming-qian,WANG Ying-ying (DepartmentofElectronicEngineering,ArmoredInstituteofTechnology,Changchun,Jilin130117,China) Abstract:Image-based Three-dimensional reconstruction is an important research direction in computer vision ,from now more than ten years'history.This article first describes three-dimensional reconstruction technique in detail and review image-based modeling techniques from the perspective of computer graphics research,introduce a representative of the method of image-based modeling and the latest research progress,give the basic principles of these methods,analysis and compare these methods,finally,give a number of recommendations and problems which should be solved on image-based modeling technology for future research. Keywords:three-dimensional modeling techniques;image modeling techniques;computer graphics;virtual reality 收稿日期:2009-03-19 作者简介:康皓(1978-),女,吉林长春人,硕士研究生,讲师,研 究方向:计算机辅助设计与编程。 TECHNOLOGICAL DEVELOPMENT OF ENTERPRISE 2009年6月Jun.2009 企业技术开发 第28卷

基于Kinect深度信息的实时三维重建和滤波算法研究

第29卷第1期 计算机应用研究 V ol.29 No.1 2012年1期 Application Research of Computers Jan. 2011 ——————————————— 作者简介: 陈晓明(1987-),男(汉),浙江临海人,在读硕士,主要研究方向为嵌入式、图像处理 (xmchen2009@https://www.360docs.net/doc/928953298.html,);蒋乐天(1975-),男,博士,副教授,研究方向:嵌入式系统、软件可靠性和可用性研究;应忍东(1975-),男,博士,副教授,主要研究方向为导航信号处理、嵌入式系统、SoC 、数字信号处理。 基于Kinect 深度信息的实时三维重建和滤波算法研究 陈晓明,蒋乐天,应忍冬 (上海交通大学 电子工程系,上海市 200240) 摘 要: 三维重建技术是计算机视觉、人工智能、虚拟现实等前沿领域的热点和难点。本文分析了基于Kinect 输出的深度数据进行场景的实时三维重建的算法。针对实现过程中出现的深度图像噪声过大的问题,根据其信号结构的特点给出了改进的双边滤波算法。新算法利用已知的深度图像噪声范围,将权值函数修改为二值函数,并结合RGB 图像弥补了缺失的深度信息。实验表明,新算法无论在降噪性能还是计算效率上,都大大优于已有的双边滤波,其中计算速度是原始算法的6倍。 关键词: 实时三维重建;Kinect ;三维点云;噪声分析;深度图像;双边滤波;联合双边滤波 中图分类号: TP391 文献标志码: A Research of 3D reconstruction and filtering algorithm based on depth information of Kinect CHEN Xiaoming, JIANG Letian, Ying Rendong (Dept. of Electronic Engineering, Shanghai Jiao Tong University, Shanghai 200240, China ) Abstract: 3D reconstruction is one of the research hotspots. This paper analyzed and improved 3D reconstruction algorithm using the depth information from Kinect. To reduce noise, it proposed an improved bilateral filtering algorithm based on the signal structure. This new algorithm used a two-valued function to compute the weights of the filter, because the range of depth image data was already known. It also combined the RGB values and depth information of surrounding pixels to complement some missing depth information. The results show that the proposed algorithm has much better performance and efficiency, namely 6 times as fast as the original algorithm. Key words: real-time 3D reconstruction; Kinect; 3D point cloud; noise analysis; depth image; bilateral filter; joint bilateral filter 0 引言 三维重建技术是计算机视觉、人工智能、虚拟现实等前沿领域的热点和难点,也是人类在基础研究和应用研究中面 临的重大挑战之一,被广泛应用于文物数字化、生物医学成像、动漫制作、工业测量、沉浸式虚拟交互等领域。 现有的三维重建技术,按照获取深度信息的方式,可分为被动式技术和主动式技术。被动式技术利用自然光反射,一般通过摄像头拍摄图片,然后通过一系列的算法计算得到物体的三维坐标信息,如Structure from Motion[1]和Multi-View Stereo[2]。Structure from Motion 技术利用不同时间的图像建立对应关系,因此只适用于刚性物体;Multi-View Stereo 技术使用于刚体,但是计算量非常大,现阶段很难做到实时。主动式技术包含一个光源,直接测量物体的深度信息,因而很容易做到实时效果,如采用结构光技术的Kinect[3]和采用Time of Flight 技术的CamCube[4]。而相对于CamCube ,采用结构光技术的Kinect 价格更便宜,更容易推广。 本文着重解决动态场景建模,选用Kinect 技术作为三维重建的方法。Kinect 具有反应速度快、价格便宜的优点,但是得到的深度图像精度低,并包含大量噪声。因此在三维重建之前需要对得到的深度图像进行滤波,降低噪声。相对于RGB 图像滤波,深度图像滤波的研究工作还较少。文献[5]中采用双边滤波的方法降低噪声,采用多图像融合的方法修补未得到的深度信息,取得了很好的效果。但是该方法只适合静态场景,对于动态场景并不适合。对于缺失的深度信息,本文结合RGB 图像将其补全,并针对深度图像对双边滤波器进行改进,处理一般的噪声,提高了性能和计算速度。 本文首先阐述了三维重建的流程,然后针对重建过程 中噪声过大的问题分析并降低噪声,最后给出了实验结果和 结论。 1 三维重建算法 图1是三维重建的流程图。Kinect 设备的RGB 摄像头和红外摄像头分别得到RGB 图像和深度图像,为了消除因为两个摄像头位置不同而产生的图像中心不一致,首先将深度图像经过一定的坐标变换与RGB 图像对齐,之后计算出空间点的XY 坐标,最后将三维点云数据(X,Y,Z,R,G,B )通过PCL 开源库显示。 下面针对图中信号处理流程中各个环节具体分析。 红外摄像头 RGB 摄像头 坐标变换 XY 坐标计算 深度图像 RGB 图像 三维点云(X,Y,Z,R,G,B ) 显示 Kinect 图1 三维重建流程图 1.1 Kinect 摄像头信号标定 在使用Kinect 设备之前,需要对其进行标定,包括RGB 摄像头和红外摄像头 的标定,以及确定深度与RGB 图像间的坐标变换关系。 摄像头标定是一项比较成熟的技术,这里不加以详细叙述。文献[6]中,标定前的深度图像误差已经很小,标定后

三维重建综述

三维重建综述 三维重建方法大致分为两个部分1、基于结构光的(如杨宇师兄做的)2、基于图片的。这里主要对基于图片的三维重建的发展做一下总结。 基于图片的三维重建方法: 基于图片的三维重建方法又分为双目立体视觉;单目立体视觉。 A双目立体视觉: 这种方法使用两台摄像机从两个(通常是左右平行对齐的,也可以是上下竖直对齐的)视点观测同一物体,获取在物体不同视角下的感知图像,通过三角测量的方法将匹配点的视差信息转换为深度,一般的双目视觉方法都是利用对极几何将问题变换到欧式几何条件下,然后再使用三角测量的方法估计深度信息这种方法可以大致分为图像获取、摄像机标定、特征提取与匹配、摄像机校正、立体匹配和三维建模六个步骤。王涛的毕业论文就是做的这方面的工作。双目立体视觉法的优点是方法成熟,能够稳定地获得较好的重建效果,实际应用情况优于其他基于视觉的三维重建方法,也逐渐出现在一部分商业化产品上;不足的是运算量仍然偏大,而且在基线距离较大的情况下重建效果明显降低。 代表文章:AKIMOIO T Automatic creation of3D facial models1993 CHEN C L Visual binocular vison systems to solid model reconstruction 2007 B基于单目视觉的三维重建方法: 单目视觉方法是指使用一台摄像机进行三维重建的方法所使用的图像可以是单视点的单幅或多幅图像,也可以是多视点的多幅图像前者主要通过图像的二维特征推导出深度信息,这些二维特征包括明暗度、纹理、焦点、轮廓等,因此也被统称为恢复形状法(shape from X) 1、明暗度(shape from shading SFS) 通过分析图像中的明暗度信息,运用反射光照模型,恢复出物体表面法向量信息进行三维重建。SFS方法还要基于三个假设a、反射模型为朗伯特模型,即从各个角度观察,同一点的明暗度都相同的;b、光源为无限远处点光源;c、成像关系为正交投影。 提出:Horn shape from shading:a method for obtaining the shape of a smooth opaque object from one view1970(该篇文章被引用了376次) 发展:Vogel2008年提出了非朗伯特的SFS模型。 优势:可以从单幅图片中恢复出较精确的三维模型。 缺点:重建单纯依赖数学运算,由于对光照条件要求比较苛刻,需要精确知道光源的位置及方向等信息,使得明暗度法很难应用在室外场景等光线情况复杂的三维重建上。 2、光度立体视觉(photometric stereo) 该方法通过多个不共线的光源获得物体的多幅图像,再将不同图像的亮度方程联立,求解出物体表面法向量的方向,最终实现物体形状的恢复。 提出:Woodham对SFS进行改进(1980年):photometric method for determining surface orientation from multiple images(该文章被引用了891次) 发展:Noakes:非线性与噪声减除2003年; Horocitz:梯度场合控制点2004年; Tang:可信度传递与马尔科夫随机场2005年; Basri:光源条件未知情况下的三维重建2007年; Sun:非朗伯特2007年; Hernandez:彩色光线进行重建方法2007年;

基于Kinect的三维重建

项目源码详见:https://www.360docs.net/doc/928953298.html,/forum/viewtopic.php?f=1&t=13042 前几天刚入手了期待已久的Kinect ,用于实验室机器人项目的视觉导航与环境理解。 首先要做的是破解-->连接PC-->获取深度数据和图像数据-->三维点云显示这么几项基本工作。 开始仿照的是饮水思源[1]博客的方法(使用VS2008在windows平台上试用Kinect[2]),利用CL-NUI-Platform 来破解,它的最新版是1.0.0.1210,但我在XP上用会当机,后来换 1.0.0.1121 版的就可以用了。CL NUI 提供了十分简便易用的接口,在OpenCV 上调用很简单,另外它还提供了Kinect 底座马达的控制接口和LED 灯颜色的选择接口,其例程中可以操控Kinect 上下摆动。如果只需要获取深度数据和图像数据,CL NUI 就够用了。不过要做深入的应用,比如人体姿态识别、骨架提取、深度数据与图像数据的合并等等,就该用到OpenNI 了。 国内的CNKINECT[3]是个不错的Kinect 开发论坛,版块丰富,有很多资料可供借鉴。我通过论坛介绍的方法[4]成功配置了OpenNI + Kinect,先是用最新版的OpenNI+SensorKinect+NITE ,但在XP 下不能正常运行,可能跟 .net 平台有关,老实按上面论坛的方法装就成功了。另外用CMake + VS2008 装了最新的OpenCV_SVN,开始试过在CMake 里选择With TBB,但诡异的是TBB 似乎只适用于VS2005,在VS2008 编译后试用里面的samples 老是提示报错找不到msvcp80.dll,重新用CMake 配置取消了With TBB,就一切正常了。

基于Kinect的三维重建

基于Kinect-OpenNI-OpenCV-OpenGL的环境三维重构 项目源码详见:https://www.360docs.net/doc/928953298.html,/forum/viewtopic.php?f=1&t=13042 前几天刚入手了期待已久的Kinect ,用于实验室机器人项目的视觉导航与环境理解。 首先要做的是破解-->连接PC-->获取深度数据和图像数据-->三维点云显示这么几项基本工作。 开始仿照的是饮水思源[1]博客的方法(使用VS2008在windows平台上试用Kinect[2]),利用CL-NUI-Platform 来破解,它的最新版是1.0.0.1210,但我在XP上用会当机,后来换 1.0.0.1121 版的就可以用了。CL NUI 提供了十分简便易用的接口,在OpenCV 上调用很简单,另外它还提供了Kinect 底座马达的控制接口和LED 灯颜色的选择接口,其例程中可以操控Kinect 上下摆动。如果只需要获取深度数据和图像数据,CL NUI 就够用了。不过要做深入的应用,比如人体姿态识别、骨架提取、深度数据与图像数据的合并等等,就该用到OpenNI 了。 国的CNKINECT[3]是个不错的Kinect 开发论坛,版块丰富,有很多资料可供借鉴。我通过论坛介绍的方法[4]成功配置了OpenNI + Kinect,先是用最新版的OpenNI+SensorKinect+NITE ,但在XP 下不能正常运行,可能跟 .net 平台有关,老实按上面论坛的方法装就成功了。另外用CMake + VS2008 装了最新的OpenCV_SVN,开始试过在CMake 里选择With TBB,但诡异的是TBB 似乎只适用于VS2005,在VS2008 编译后试用里面的samples 老是提示报错找不到msvcp80.dll,重新用CMake 配置取消了With TBB,就一切正常了。

机器视觉—三维重建技术简介

三维重建技术简介 一、视觉理论框架 1982年,Marr立足于计算机科学,首次从信息处理的角度系统的概括了心理生理学、神经生理学等方面已经取得的重要成果,提出了一个迄今为止比较理想的视觉理论框架。尽管Marr提出的这个视觉理论框架仍然有可以进行改进和完善的瑕疵,但是在近些年,人们认为,计算机视觉这门学科的形成和发展和该框架密不可分。 第一方面,视觉系统研究的三个层次。 Marr认为,视觉是一个信息处理系统,对此系统研究应分为三个层次:计算理论层次,表示与算法层次,硬件实现层次,如下图所示: 计算机理论层次是在研究视觉系统时首先要进行研究的一层。在计算机理论层次,要求研究者回答系统每个部分的计算目的与计算策略,即视觉系统的输入和输出是什么,如何由系统的输入求出系统的输出。在这个层次上,将会建立输入信息和输出信息的一个映射关系,比如,系统输入是二维灰度图像,输出则是灰度图像场景中物体的三维信息。视觉系统的任务就是研究如何建立输入输出之间的关系和约束,如何由二维灰度图像恢复物体的三维信息。 在表示与算法层次,要给出第一层中提到的各部分的输入信息、输出信息和内部信息的表达,还要给出实现计算理论所对应的功能的算法。对于同样的输入,如果计算理论不同,可能会产生不同的输出结果。 最后一个层次是硬件实现层次。在该层次,要解决的主要问题就是将表示与算法层次所提出的算法用硬件进行实现。 第二方面,视觉信息处理的三个阶段。 Marr认为,视觉过程分为三个阶段,如表所示:

第一阶段,也称为早期阶段,该阶段是求取基元图的阶段,该阶段对原始图像进行处理,提取出那些能够描述图像大致三维形状二维特征,这些特征的集合构成所构成的就是基元图(primary sketch)"。 第二阶段也称中期阶段,是对环境的2.5维描述,这个阶段以观察者或者摄像机为中心,用基元图还原场景的深度信息,法线方向(或一说物体表面方向)等,但是在该阶段并没有对物体进行真正的三维恢复,因此称为2.5维。 第三阶段也称为后期阶段,在一个固定的坐标系下对2.5维图进行变换,最终构造出场景或物体的三维模型。 二、三维重建技术现状 目前三维重建的方法大致可分为三类,即:用建模软件构造的方式,多幅二维图像匹配重建的方式以及三维扫描重建的方式。 对于第一种方式,目前使用比较广泛的是3D Max, Maya, Auto Cad以及MultiGen-Creator等软件。这些三维建模软件,一般都是利用软件提供的一些基本几何模型进行布尔操作或者平移旋转缩放等操作,来创建比较复杂的三维模型。这样所构建出来的模型,比较美观,而且大小比例等非常精确。然而,这需要建模者精确知道三维场景的尺寸、物体位置等信息,如果没有这些信息,就无法建立精准的模型。 第二种方式是利用实时拍摄的图像或者视频恢复场景的三维信息。这种方式是基于双目立体视觉,对同一物体拍摄不同角度的图像,对这些图像进行立体匹

学术讲座报告— 基于结构光照明的三维物体识别

学术讲座报告 —— 基于结构光照明的三维物体识别 结构光照明(Structured Light Illumination ),是指基于三角测量,立体重建。通过测量一系列的预测模式的失真反射目标,目标的3 - D 表面信息可以提取。为了帮助理解结构光照明,无论是理想和在此演示文稿介绍实用模式。然后,我们采用模型设计模式和分析三维重建的表现。 以下是我对此技术的了解和体会: 结构光照明三维成像系统(3D Imaging System with Structured Illumination)基于光学三角法测量原理,是一种主动三维传感技术。光学投影系统将一定模式的结构光图案投射到待测物体表面,在表面上形成受到被测物体表面形状调制的三维变形图像。该三维图像由位于另一角度的成像系统探测,从而获得二维的变形图像。结构光图案的变形程度取决于光学投影系统与成像系统之间的相对位置和物体表面轮廓。当光学投影系统与成像系统之间的相对位置一定时,由变形的二维图像可以恢复物体表面的三维轮廓。结构光照明三维成像系统由光学投影系统、成像系统、计算机系统等组成。 基于光学三角测量法的结构光照明三维测量技术,通过处理测量系统所获取的数据,建立投影光栅、待测物体表面与摄像机像面上对应点之间的三角关系。最终根据三角测量原理得到待测物体表面的三维形貌分布。 摄像机数学模型: 摄像机的径向畸变可以表示为:246123246123(,)(....)(,)(....)xr yr x y x k r k r k r x y y k r k r k r δδ??=+++????=+++???? 其中 222 12,,...r x y k k =+为径向畸变参量。

三维重建与可视化技术的进展

医学图像的三维重建与可视化技术的进展随着20世纪七十年代计算机断层技术(Computerized Tomography, CT)、核磁共振成像(Magnetic Resonance Imaging, MRI)等医学影像技术的应用,可以得到病人病变部位的一组二维断层图像,通过这些二维断层图像医生可以对病变部位进行分析,从而使得医学诊断和治疗技术取得了很大的发展。 但是,这些医疗仪器只能提供人体内部的二维图像,二维断层图像只是表达某一界面的解剖信息,医生们只能凭经验由多幅二维图像去估计病灶的大小及形状,“构思”病灶与其周围组织的三维几何关系,这就给治疗带来了困难。在放射治疗应用中,仅由二维断层图像上某些解剖部位进行简单的坐标叠加,也不能给出准确的三维影像,造成病变定位的失真和畸变。 三维重建与可视化技术利用一系列的二维图像重建为具有直观、立体效果三维图像模型,并进行定性、定量分析。该技术不仅给医生提供了具有真实感的三维图形,并让医生从任意角度观察图像,还可以从二维图像中获取三维结构信息,提供很多用传统手段无法获得的解剖结构信息,帮助医生对病变体和周围组织进行分析,极大地提高医疗诊断的准确性和科学性,从而提高医疗诊断水平。同时,三维重建与可视化技术还在矫形手术、放射治疗、手术规划与模拟、解剖教育和医学研究中发挥着重要作用。 本文首先介绍了医学图像三维重建的几种经典方法,以对该技术有个总体性的大致的了解;然后结合相关文献,深入研究了一个改进的MC(Marching Cubes)算法以及基于寰椎的X线图像的三维形态重建。 一、医学图像的三维重建的几种常见方法 目前,医学图像三维重建的方法主要有两大类:一类是通过几何单元拼接拟合物体表面来描述物体的三维结构,称为基于表面的面绘制方法;另一类是直接将体素投影到显示平面的方法,称为基于体数据的体绘制方法,又称直接体绘制方法。其中面绘制方法是基于二维图像边缘或轮廓线提取,并借助传统图形学技术及硬件实现的,而体绘制方法则是直接应用视觉原理,通过对体数据重新采样来合成产生三维图像。近来,产生了结合面绘制和体绘制两者特点的混合绘制方法,可以称为第三类三维重建方法。

CT三维重建技术

CT三维重建技术 医学三维重建(three dimensions reconstructure,3D)是近10年发展起来的借助计算机对生物组织结构影像的连续图像进行后处理,获得三维图像并能进行定量测量的一项形态学研究的新技术与新方法。 传统医学影像获得的是二维图像,临床医师需要在此基础上通过空间思维综合过程建立起抽象的三维立体图像,由于患者个体的差异及手术医师个人思维方式的不同,容易对手术的精确性产生不利影响。螺旋CT(spiral CT, SCT)扫描设备用多排高速螺旋CT, 扫描基线与病变部位横径平行,通过调整扫描层厚度、扫描时间等条件,可满足不同图像要求。CT扫描数据传送到计算机工作台,采用3D重建软件进行处理,选用合适的重建算法完成图像重建,按人体解剖坐标轴的原则,图像逐层显示并围绕X轴(身体左右轴)和Z轴(身体上下纵轴)旋转,选择对病变显示良好,或对手术有参考价值的层面摄取图像。同时,在显示整体结构的基础上,通过立体切割法,可以去除部分解剖结构,使感兴趣的结构更为清晰并有利于各种数据的测量。 CT三维重建技术在骨科疾病的诊断中应用广泛。比如重叠因素较多的脊柱病变、髋臼骨折、胫骨平台骨折等。3D图像可以立体地、多角度地显示骨骼与其相邻结构的解剖关系,指导手术方案,模拟手术切除,预测手术的可能性。

在心脏介入手术方面,对于有冠脉变异但又需要做冠脉搭桥手术的病人,术前的三维重建对手术的可行性具有重要意义。在其它复杂而又需要明确解剖结构的部位,三维重建也具有重要的应用价值,例如下颌骨的隐匿性骨折的诊断等。

三维重建技术能清晰地、立体地显示解剖结构及病变,明确毗邻关系,提高诊断的准确率,有利于治疗方案的选定和手术效果的预测。该技术还可大大减少扫描过程中病人因呼吸或疼痛等原因引起的伪影,尤其适用于危急病人的检查。同时,它作为一种新的影像学技术,在医学教育中也有广泛应用前景,如虚拟手术及解剖教学等。

三维重建方法综述

三维重建方法综述 三维重建方法大致分为两个部分1、基于结构光的2、基于图片的。这里主要对基于图片的三维重建的发展做一下总结。基于图片的三维重建方法: 基于图片的三维重建方法又分为双目立体视觉;单目立体视觉。 A双目立体视觉: 这种方法使用两台摄像机从两个(通常是左右平行对齐的,也可以是上下竖直对齐的)视点观测同一物体,获取在物体不同视角下的感知图像,通过三角测量的方法将匹配点的视差信息转换为深度,一般的双目视觉方法都是利用对极几何将问题变换到欧式几何条件下,然后再使用三角测量的方法估计深度信息这种方法可以大致分为图像获取、摄像机标定、特征提取与匹配、摄像机校正、立体匹配和三维建模六个步骤。王涛的毕业论文就是做的这方面的工作。双目立体视觉法的优点是方法成熟,能够稳定地获得较好的重建效果,实际应用情况优于其他基于视觉的三维重建方法,也逐渐出现在一部分商业化产品上;不足的是运算量仍然偏大,而且在基线距离较大的情况下重建效果明显降低。 代表文章:AKIMOIOT Automatic creation of 3D facial models 1993 CHENCL Visual binocular vison systems to solid model reconstruction 2007 B基于单目视觉的三维重建方法: 单目视觉方法是指使用一台摄像机进行三维重建的方法所使用的图像可以是单视点的单幅或多幅图像,也可以是多视点的多幅图像前者主要通过图像的二维特征推导出深度信息,这些二维特征包括明暗度、纹理、焦点、轮廓等,因此也被统称为恢复形状法(shape from X) 1、明暗度(shape from shading SFS) 通过分析图像中的明暗度信息,运用反射光照模型,恢复出物体表面法向量信息进行三维重建。SFS方法还要基于三个假设a、反射模型为朗伯特模型,即从各个角度观察,同一点的明暗度都相同的;b、光源为无限远处点光源;c、成像关系为正交投影。 提出:Horn shape from shading:a method for obtaining the shape of a smooth opaque object from one view 1970(该篇文章被引用了376次) 发展:V ogel2008年提出了非朗伯特的SFS模型。优势:可以从单幅图片中恢复出较精确的三维模型。 缺点:重建单纯依赖数学运算,由于对光照条件要求比较苛刻,需要精确知道光源的位置及方向等信息,使得明暗度法很难应用在室外场景等光线情况复杂的三维重建上。 2、光度立体视觉(photometric stereo) 该方法通过多个不共线的光源获得物体的多幅图像,再将不同图像的亮度方程联立,求解出物体表面法向量的方向,最终实现物体形状的恢复。 提出:Woodham对SFS进行改进(1980年):photometric method for determining surface orientation from multiple images(该文章被引用了891次) 发展:Noakes:非线性与噪声减除2003年; Horocitz:梯度场合控制点2004年; Tang:可信度传递与马尔科夫随机场2005年;Basri:光源条件未知情况下的三维重建2007年;Sun:非朗伯特2007年; Hernandez:彩色光线进行重建方法2007年; Shi:自标定的光度立体视觉法2010年。 3、纹理法(shape from texture SFT) 通过分析图像中物体表面重复纹理单元的大小形状,恢复出物体法向深度等信息,得到物体的三维几何模型。

一种基于机器视觉的结构光三维扫描系统

一种基于机器视觉的结构光三维扫描系统 0 引言 随着制造技术的快速发展和制造领域的不断扩大,使得对制造产品的质量要求也越来越高。传统意义上很多对产品的检测方法已经不能适应现代制造业的要求。计算机视觉检测技术具有操作、维护简单,测量速度快,精度高,测量范围广等众多无可比拟的优点,被认为是检测技术领域中最具有发展潜力的技术。机器视觉被称为自动化的眼睛,在国民经济、科学研究及国防建设上都有着广泛的应用。机器视觉不但可以实现无接触观测,还可以长时间保持精度,因此,机器视觉系统可以广泛应用于长时间的、恶劣的环境。 在此探讨了线性结构光三维扫描系统的特点。设计一种能够测量物体深度的结构光三维扫描系统,通过图像处理技术对激光条纹进行提取,并建立数学模型,采用三角法测量方法获取深度信息,对工件图像进行重建。最后,实验结果验证了该系统的有效性。 1 基于机器视觉的结构光三维扫描系统模型结构光测量是将激光器发出的光束经过光学系统形成某种形式的光,包括点、单线、多线、单圆、同心多圆、网格、十字交叉、灰度编码图案、颜色编码图案和随机纹理投影等投向景物,在景物上形成特定的图案,并通过图像处理,对图案进行提取,然后根据三角法进行计算,从而得到景物表面的深度信息。根据投射光图案的种类可分为单点法、单线法和图案法。1.1 系统的硬件结构设计 如图 1 所示,文中所设计的结构光三维扫描系统由3大部分组成,分别 是运动平台、激光器和摄像机。系统的运动平台由导轨丝杠机构成,丝杠上的滑块带动工件左右运动,丝杠由伺服马达驱动。摄像机垂直于导轨运动平面。激光器和摄像机与摄像机呈固定角度安装。激光器所射出的线形光斑垂直于工件的运动方向。激光器与摄像机的相对角度可以调节,调节范围由20~?45。之间。运动平台行程为100 mm,图像分辨率为0. 2 mm/pixel。 1.2 系统的数学模型建立 系统的数学模型如图2所示。工件放置于运动平台上,摄像机垂直安装在运动平台正上方,激光与水平面的夹角B,激光器产生一字的线性结构光, 由于物体表面与运动平台的高度差,条形光斑同时照射在物体上的A处和平台的B处。用摄像机获得光斑的图像,经图像采集卡输入至计算机,经过图像处理,可以测量出点A与点B的距离d,根据三角法公式tan 9 =H/d,可以通过光斑间距d 计算出工件的高度H。因此物坐标和像坐标对应关系为:其中:xg,yg,zg 分别为物坐标;k 为像素一毫米转换系数;xi ,yi 分别为图像坐标。 2 结构光光斑提取的相关理论与方法 从系统的数学模型可知,物体的深度信息H主要受9和d的影响,而9主要表现为系统误差。因此,有必要对条纹间距d进行深入研究,以提高系统的精度。其主要包括:图像增强、图像二值化以及图像细化。 2.1 图像增强图像增强主要增加图像的对比度,突出图像中的高频部分。算法描述为:设原图像的灰度级为x,其最大和最小灰度级分别为xmax和xmin期望图像

Kinect国内外研究现状

动作捕捉技术方面,目前主流的动作捕捉技术可分为光学式,机械式,以及视频捕捉式等[15]。光学式为目前应用较为广泛的方案,其实现主要原理为利用分布在空间中固定位置的多台摄像机通过对捕捉对象上特定光点(Marker)的监视和跟踪完成动作捕捉。光学式动作捕捉的优点在于表演者活动的动作幅度大,无线缆、机械装置对动作的束缚,此外此种方式采样速率较高,一般可达每秒60帧的速率,可满足大多数动作捕捉的需求。但光学式系统捕捉系统整体造价比较高,对环境的要求也比较严格。机械式动作捕捉主要借助机械装置完成运动信息的采集。典型的机械式动作捕捉系统由多个关节和刚性连杆组成,借助安装在各个关节处的角度传感器完成各时刻的关节形态的采集以此可重绘出该时刻被捕捉对象的形态。其优点在于捕捉精度较高,缺陷是对动作捕捉对象的限制较多。典型的基于视频序列的动作捕捉通常采取在不同角度固定摄像机拍摄,通过被拍摄者身上的显著标志点来区分人体的各部位,最后在计算机中完成合成的方法。此方法可以实现比较理想的动作捕捉效果,但是制作成本比较高。例如09年的好莱坞大片《阿凡达》就是让演员身着色素点矩阵服装在演示着各种动作,通过不同角度摄像机协同拍摄,最后在计算机中完成了三维合成,整个影片在技术方面花费了高昂的成本。 自微软Kinect红外深度感应器发布以来,国外对其技术和应用上的研究都取得了比较多且富有创造性的成果。Kinect感应器最初是作为微软XBOX游戏机的体感外设发布的,后经热心开发者将其驱动破解并建立起OpenNI的软件框架,Kinect在计算机方面的研究和应用才逐步获得了较大的影响力。现阶段微软已经为此款深度感应器发布了官方的驱动程序及SDK,更进一步推动了体感技术的开发应用。 与Kinect类似,华硕在2011年联合PrimeSense公司发布了另一款深度感应器-Xtion,此款感应器在体积上更小,功能上更精简,支持OpenNI的开源函数库,目前也获得了较多开发者的青睐。 人体骨架识别和建模方面,利用SDK,华中科技大学的Wei Shen和微软公司的Ke Deng等人提出了基于模型的人体骨架修正和标记方法[19],较好地解决了获取人体动作视频中的遮挡问题。此外,微软剑桥研究院的Shahram Izadi等人则利用深度摄像头开发了一套实时三维重建和交互系统,系统通过摄像头对所见物体进行三维重建,并实现了操作者在虚拟空间中的实时交互。 可以说,传感器方面的革新使人体骨架建模有了更优的解决方案,为基于人体骨架识别和运动跟踪方面的应用开拓了广阔的前景。

三维重建调研报告

调研报告 题目基于二维图形的三维构造 学生姓名张鹏宇 指导教师张昊 学院信息科学与工程学院 专业班级电子信息工程 完成时间2016年1月 本科生院制

摘要: 由于计算机和数字化技术的快速发展,传统的二维图像已经无法满足人们的需求。人们更希望计算机能表达更加真实的三维世界。因此计算机视觉技术迈入高速发展的时期。计算机视觉是指用计算机来实现人类的视觉功能,也就是用计算机对二维图像进行三维重构,流行一些的说法就是基于双眼视觉。 关键词:三维重建,算法,CT图像,立体建模,三维分布; 1.三维重建算法的主要分类: (1)自顶向下法: 将形体分解为由若干个基本形体或体素(正多面体、圆柱、圆锥、球、环等)组合而成。每种基本形体在三面视图上的投影具有固定的模式,例如圆柱的三视图是两个矩形与一个圆,而球则为三个圆。找出每个视图中的圆、矩形等元素,再通过检查其坐标值将这些元素相互对应,根据基本形体的投影特性确定出每个部分的形状,最后将它们组装起来,就完成了三维重建。(类似于映射的关系,word中的三维重建就是这个原理) (2)自底向上法: (1)二维点、线的对应与三维点、线的生成。参与对应的二维点包括曲、直线段的端点与曲线的极值点。最初的算法首先由二维点对应产生三维点,再由三维点得到三维线段;给出了基于边线分类,从而由视图一步获得三维线段的快速方法。 (2)平面与曲面的获得。共面但不共线的两条或多条直线段与曲线段都能够唯一确定一个平面。曲面一般只考虑圆柱面、圆锥面、球面等,其中的每一种都可以用特定的模式来产生。例如一个球面可以由半径相同、相交但不共面的两个三维圆或圆弧唯一确定。通常,产生的平面与曲面都被记录成方程的形式。 (3)面环“face一loop求取。前面获得的平面与曲面需要加上边界条件才能作为形体的表面。边界可以通过求取落在面上的闭合环,即面环来获得。面 环分为内环与外环,内环产生于形体上的孔洞。 (4)基元形体的生成与组装。前面步骤中获得的平面与曲面将空间分割成一些无公共内点的三维封闭子空间,称为基元形体或体环(bdoy一loop)。基元形体的组合构成重建的候选解集,通过检验是否完全符合视图,判断出正确的重建结果。 2.部分三维重建算法:

结构光三维视觉测量

结构光三维视觉测量 1、应用简介结构光视觉方法的研究最早出现于20 世纪70 年代。在诸多的视觉方法中,结构光三维视觉以其大量程、大视场、较高精度、光条图像信息易于提取、实时性强及主动受控等特点,近年来在工业三维测量领域得到了广泛的应用。 2、系统设计原理、方框图、原理图结构光三维视觉是基于光学的三角法测量原理。如图所示,光学投射器(可以是激光器,也可以是投影仪)将一定模式的结构光投射于物体的表面,在表面形成由被测物体表面形状所调制的光条三维图像。该三维图像由处于另一位置的摄像机摄取,从而获得光条二维畸变图像。光条的畸变程度取决于取决于光学投射器与摄像机之间的相对位置和物体表面形廓(高度)。直观上,沿光条显示出的位移(或偏移)与物体的高度成比例,扭结表示了平面的变化,不连续显示了表面的物理间隙。当光学投射器与摄像机之间的相对位置一定时,由畸变的二维光条图像坐标便可重现物体表面的三维形廓。结构光三维视觉测量系统由光学投射器、摄像机、和计算机系统三部分构成。根据光学投射器所投射的光束模式的不同,结构光模式可分为点结构光模式、线结构光模式、多线结构光模式和网格结构光模式。线结构光模式复杂度低、信息量大,应用最为广泛。下图为线结构光打在标定板和被测物体的光条图像。 3、选型原则、精度分析结构光视觉传感器的测量精度受诸多因素的影响,如摄像机本身的光学物理参数、光学投射器特征参数、传感器本身的结构参数及外界干扰源等等。在摄像机、光学投射测量环境一定的情况下,测量系统的结构参数对测量精度影响很大。实验和相关理论推导表明,测量点的定位误差和系统结构相关性如下:1)摄像机光轴和光 平面垂直时,深度方向的测量误差最小。2)摄像机与光学投射器距离越远, 测量误差越小。3)摄像机镜头放大倍率越小,测量误差越小;这也表面被测

kinect三维重建

上海大学2014 ~2015学年秋季学期研究生课程考试 课程设计大作业 课程名称:建模与仿真课程编号: 09SAS9011 论文题目: 基于Kinect的三维重建 研究生姓名: 邵军强学号: 14721629 论文评语: 成绩: 任课教师: 评阅日期:

基于Kinect的三维重建 邵军强 (上海大学机电工程与自动化学院) 摘要:三维重建是计算机视觉的一个重要目标,可以帮助人们快速精确地将日常生活中的物体数字化,并有着广泛的应用前景。本文叙述了一种成本低廉、快速且操作简便的三维重建方法。借助于微软公司的Kinect 体感传感器作为采集深度图像和彩色图像的输入设备,通过对原始深度图像的去噪、平滑、表面重建等一系列方法,最终可以获得在三维空间中的点云模型。 关键词:三维重建,Kinect,点云模型 Based on Kinect 3D Reconstruction SHAO JUNQIANG ( Shanghai University EMSD and automation College) Abstract:3 D reconstruction is an important goal of computer vision, and can help people quickly and accurately to digital objects in everyday life, and has a broad application prospect. This paper describes a kind of low cost, quick and easy operation method of 3 d reconstruction. By using Microsoft's device body feeling sensor as a collection of depth image and color image input device, through the depth of the original image denoising and smoothing, surface reconstruction and a series of methods, finally can get the point cloud model in three-dimensional space. Keywords:3D Reconstruction,Kinect, point cloud model 1 引言 Kinect 传感器是一种RGB-D 传感器,即可以同时获得环境颜色值(RGB)和深度值(depth)的传感器.它的采集速度快,精度高,且价格低廉,使其迅速被运用到很多领域.机器人领域也开始了对Kinect 传感器广泛的研究[1].利用Kinect 传感器对室内环境进行3D 重构,获得环境的3D 点云模型是研究热点之一.华盛顿大学与微软实验室[2],开发了基于SIFT (尺度不变特征变换)特征匹配定位及TORO(Tree-basednetwORk Optimizer)优化算法的实时视觉SLAM系统来建立3D 点云地图.德国Freiburg 大学[3]提出了RGBD-SLAM 算法,采用了与华盛顿大学类似的方法,但是为了提高实时性,使用了Hogman(hierarchical optimization for pose graphs on manifolds)图优化算法,同时在相对位姿检测上采用了SURF (加速鲁棒特征)特征进行对应配.KinectFusion 算法与这些算法不同,它仅使用深度信息,通过设计高效及高度并行的算法在GPU(图形处理单元)上运行达到了非常高的实时性,在试验中,在配置4000 元左右的电脑上运行速度达到了18 帧/秒(在同样配置的计算机上前面两种算法仅达到2 帧/秒),在进行场景建立时有良好的用户体验,甚至可以用来做一些人机交互方面的应用[4-5].同时KinectFusion 采用了基于TSDF(truncated signed distance

相关文档
最新文档