图像编码、处理、识别技术综述

图像编码、处理、识别技术综述
图像编码、处理、识别技术综述

图像编码、处理、识别技术综述

摘要:随着科技水平的发展和生活质量的提高,在生产生活中,实时处理图像技术被应用得越来越广泛,数字图像处理技术涉及信息科学、计算机科学数学、物理学及生物学,应用于生活中的各个领域。图形识别技术也越来越多地渗透到我们的日常生活中,详细叙述了图像处理、编码和识别技术,展望图像处理技术在现实生活种的重要性。

关键词:科技,图像处理,图像识别

1、图像编码技术

1.1图像编码基础

图像编码压缩是指在满足一定图像质量的条件下,用尽可能少的数据量来表示图像。编码技术比较系统的研究始于Shannon信息论,从此理论出发可以得到数据压缩的两种基本途径。一种是设法改变信源的概率分布,使其尽可能地非均匀,再用最佳编码方法使平均码长逼近信源熵。使用此途径的压缩方法其效率一般以其熵为上界,压缩比饱和于10:1,如Huffman编码、算术编码、行程编码等。另一种是联合信源的冗余度也寓于信源间的相关性之中,去除它们之间的相关性,使之成为或基本成为不相关信源,如预测编码、变换域编码、混合编码等,但也大都受信息熵的约束。总体上可以概括为熵编码,预测编码,变换编码,也称为三大经典编码方法。

随着人们对传统压缩编码方法的深入研究和应用,逐渐发现了这些传统方法的许多缺点。如高压缩比时恢复图像会出现方块效应,人眼视觉系统(HVS)的特性不易被引入到算法中等。为了克服这些缺点,1985年M.Kunl等人提出了第2代图像压缩编码的概念。经过近20年的发展,在这一框架下,人们提出了几种新的编码方法:分形编码、小波变换编码和基于模型的编码方法等。于是,对数据压缩技术的研究就突破了传统Shannon理论的框架,使得压缩效率得以极大提高。

1.2图像编码基本原理

数字图像的冗余主要表现为一下几种形式:空间冗余,时间冗余,视觉冗余,信息熵冗余,结构冗余和知识冗余。图像数据的这些冗余信息为图像压缩编码提供了依据。图像编码的目的就是充分利用图像中存在的各种冗余信息,特别时空间冗余,时间冗余以及视觉冗余,以尽量少的比特数来表示图像。利用各种冗余信息,压缩编码技术能够很好地解决在将模拟信号转换为数字信号后所产生的带宽需求增加的问题,它是使数字信号走上实用化的关键技术之

一。虽然表示图像需要大量的数据,但是图像数据是高度相关的,或者说存在冗余信息,去掉这些信息后可以有效压缩图像,同时不会损害图像的有效信息。

1.3图像编码分类(第二代)

1.3.1分型编码

分形图像编码是在分形几何理论的基础上发展起来的一种编码方法。分形理论是欧氏几何相关理论的扩展,是研究不规则图形和混沌运动的一门新科学。它描述了自然界物体的自相似性,这种自相似性可以是确定的,也可以是统计意义上的。这一理论基础决定了它只有对具备明显自相似性或统计自相似性的图像,例如海岸线、云彩、大树等才有较高的编码效率。而一般图像不具有这一特性,因此编码效率与图像性质学特性有关,而且分形图像编码方法实质上是通过消除图像的几何冗余度来压缩数据的,根本没有考虑人眼视觉特性的作用。

分形图像压缩的概念是80年代中后期由Barnsley等人提出的,其理论基础是迭代函数系统(IFS: Iterated Function System)理论,着眼点是利用自然图像普遍存在的自相似特性(几何尺度不论怎样变化,景物任何一小部分的形状都与较大部分的形状极其相似),将这些自相似的结构以某种函数映射关系的形式表现出来,当这些函数映射关系满足一定的条件时,就可通过迭代计算重建图像。所以,分形图像编码过程是找映射关系的过程,而解码过程则是依照映射关系迭代计算的过程。整个方法包括以下步骤:

(1)将原图(集合X)予分割为若干分形子图X(m),m=1,2,3?M;

(2)对每一个子块X(m)提取IFS代码;

(3)对IFS代码进行编码、传输(或储存);

(4)译码形成IFS代码;

(5)由IFS代码构造X(m)的重构子块Y(m);

(6)由Y(m)构造X的重构图Y。这种分形图像压缩方法的实现不需要对图像有什么先验知识的了解。

1.3.2模型编码

基于模型的图像编码技术是近几年发展起来的一种很有前途的编码方法它利用了计算机视觉和计算机图形学中的方法和理论,其基本出发点是在编、解码两端分别建立起相同的模型,针对输入的图像提取模型参数,或根据模型参数重建图像。模型编码方法的核心是建模和提取模型参数,其中模型的选取、描述和建立是决定模型编码质量的关键因素。为了对图像数据建模,一般要求对输入图像要有某些先验知识。目前研究最多、进展最快的是针对可视电话应用中的图像序列编码。这类应用中的图像大多为人的头肩像。

基于模型的图像编码方法是利用先验模型来抽取图像中的主要信息,并以模型参数的形式表示它们,因此可以获得很高的压缩比。然而在模型编码方法的研究中还存在很多问题,例如:(1)模型法需要先验知识,不适合于一般的应用。(2)对不同的应用所建模型是不一样的。(3)在线框模型中控制点的个数不易确定,还未找到有效的方法能根据图像内容来选取。(4)由于利用模型法压缩后复原图像的大部分是用图形学的方法产生的,因此看起来不够自然。(5)传统的误差评估准则不适合用于对模型编码的评价。

1.3.3小波变换编码

一维连续小波变换可看成原始信号和一组不同尺度的小波带通滤波器的滤波运算,从而可把信号分解到一系列频带上进行分析处理,将其离散化后即为离散小波变换。

小波变换图像编码压缩的核心问题是要对子带图像进行小波分解系数的量化和编码。低频子带图像包含原图像的大部分能量,即包含图像的基本特性。它在图像重构算法中起主导作用,对重建图像的质量有很大影响,因此这部分信号应精确保留。高频子图像的系数分布符合广义高斯分布,对其系数进行粗量化编码较为有效。这也完全符合人的视觉特性,根据对人眼视觉系统的研究可知,人眼视觉灵敏度具有明显的低通特性,而且对不同方向上的敏感度也不一样,尤其是对倾斜方向的刺激不太敏感,如人眼对对角线方向子图像系数误差敏感度较低,因此可对对角线方向子图像进行粗量化高压缩。小波变换后的能量主要集中在低频系数分量,而其他高频系数分量大多为零值,这为高倍率压缩提供了可能。通过选择合适的具有平滑特性的小波基,就可消除重建图像中出现的方块效应,减小量化噪声,获得较好的重建图像质量。

小波变换图像编码压缩方法可分为如下两大类:基于传统的图像编码方法、基于分形理论的小波变换图像编码方法。

1.4图像编码评价

随着众多图像压缩算法的出现,如何评价图像压缩算法就成为重要的课题。一般来说,评价图像压缩算法的优劣有以下4个参数:

(1)算法的编码效率

(2)编码图像的质量

(3)算法的适用范围

(4)算法的复杂度

2、图像处理技术

2.1图像基础

图像是人类智能活动重要的信息来源之一,是人类相互交流和认识世界的主要媒体。随着信息高速公路、数字地球概念的提出,人们对图像处理技术的需求与日剧增,同时VLSI技术的发展给图像处理技术的应用提供了广阔的平台。图像处理技术是图像识别和分析的基础,所以图像处理技术对整个图像工程来说就非常重要,对图像处理技术的实现的研究也就具有重要的理论意义与实用价值,包括对传统算法的改进和硬件实现的研究。

2.2图像处理技术分类

像处理技术基本可以分成两大类:模拟图像处理(Analog Image Processing)和数字图像处理(Digtal Image Processing)。数字图像处理是指将图像信号转换成数字信号并利用计算机进行处理的过程。其优点是处理精度高,处理内容丰富,可进行复杂的非线性处理,有灵活的变通能力,一般来说只要改变软件就可以处理内容[1]。困难主要在处理速度上,特别是进行复杂的处理。数字图像处理技术主要包括如下内容:

几何处理(Geometrical Processing)、算术处理(Arithmetic Processing)、图像增强(Image Enhancement)、图像复原(Image Restoration)、图像重建(Image Reconstruction)、图像编码(Image Encoding)、图像识别(Image Recognition)、图像理解(Image Understanding)。

2.3图像处理研究方面

数字图像处理研究的内容有以下几个方面:

(1)图像变换由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大。因此,往往采用各种图像变换的方法,如傅立叶变换、沃尔什变换、离散余弦变换等间接处理技术,将空间域的处理转换为变换域处理,不仅可减少计算量,而且可获得更有效的处理(如傅立叶变换可在频域中进行数字滤波处理)。目前新兴研究的小波变换在时域和频域中都具有良好的局部化特性,它在图像处理中也有着广泛而有效的应用。

(2)图像编码压缩图像编码压缩技术可减少描述图像的数据量(即比特数),以便节省图像传输、处理时间和减少所占用的存储器容量。压缩可以在不失真的前提下获得,也可以在允许的失真条件下进行。编码是压缩技术中最重要的方法,它在图像处理技术中是发展最早且比较成熟的技术。

(3)图像增强和复原图像增强和复原的目的是为了提高图像的质量,如去除噪声,提高图像的清晰度等。图像增强不考虑图像降质的原因,突出图像中所感兴趣的部分。如强化图像高频分量,可使图像中物体轮廓清晰,细节明显;如强化低频分量可减少图像中噪声影响。图像复原要求对图像降质的原因有一定的了解,一般讲应根据降质过程建立"降质模型",再采用某种滤波方法,恢复或重建原来的图像。

(4)图像分割图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来,其有意义的特征有图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。虽然目前已研究出不少边缘提取、区域分割的方法,但还没有一种普遍适用于各种图像的有效方法。因此,对图像分割的研究还在不断深入之中,是目前图像处理中研究的热点之一。

(5)图像描述图像描述是图像识别和理解的必要前提。作为最简单的二值图像可采用其几何特性描述物体的特性,一般图像的描述方法采用二维形状描述,它有边界描述和区域描述两类方法。对于特殊的纹理图像可采用二维纹理特征描述。随着图像处理研究的深入发展,已经开始进行三维物体描述的研究,提出了体积描述、表面描述、广义圆柱体描述等方法。

(6)图像分类(识别)图像分类(识别)属于模式识别的范畴,其主要内容是图像经过某些预处理(增强、复原、压缩)后,进行图像分割和特征提取,从而进行判决分类。图像分类常采用经典的模式识别方法,有统计模式分类和句法(结构)模式分类,近年来新发展起来的模糊模式识别和人工神经网络模式分类在图像识别中也越来越受到重视。

3、图像识别技术

3.1图像数字化表示

为了利用计算机来处理图像,首先必须把连续的图像变换成离散的数字图像。一幅数字图像f(x,y)是在其空间坐标和灰度上都离散化,并进行数字编码的图像。图像f(x,y)在空间坐标上的离散化称为采样,图像f(x,y)在灰度上的离散化称为量化。经过采样和量化,图像f(x,y)可以用一个矩阵来表示,取行和列的交点标出图像的每一个像素,每一个像素对应一个灰度值。为实现数字化,灰度值必须离散。一般量化与采样数值都取为2的整数幕。

3.2图像处理数学基础

1、数学形态学

数学形态学是一种应用于图像处理和模式识别领域的新的方法,他建立在严格的数学理论基础之上。随着数学形态学逻辑基础的发展,其应用开始向边缘学科和工业技术方面发展,在工业控制,放射医学,运动场景分析等都有应用。虽然数学形态学是一门综合了多学科知识的交叉科学,其理论基础颇为艰深,但其基本观念却比较简单,用于描述数学形态学的语言是集合论。数学形态学中的主要概念有:腐蚀,膨胀,开运算,闭运算,击中和击不中运算。用这些算子及其集合组合来进行图像形状和结构的分析,包括图像分割,特征提取,边缘检测,图像滤波,图像增强和恢复等方面的工作。

(1) 腐蚀:是用结构元素S在被研究的对象A中移动,当S全部在A中时,S的原点的位置留下,而其他的部分腐蚀掉。

(2) 膨胀:先做结构元素S的映射,S的映射在A上移动,当S的映射至少有一个点和A重合是,其原点的位置将被保留下来。

(3) 开运算:是腐蚀和膨胀的综合,即先用S腐蚀A,再用S膨胀A。

(4) 闭运算:跟升运算正好相反,既先膨胀,再腐蚀。

(5) 击中:被研究对象X,结构元素S1和S2,且S2和S1的交集是空集,击中的结果是X被S1腐蚀的结果与X被S2膨胀的结果之差。

2.算法的数学基础

数字图像处理分为两种方法:空域处理法和频域处理法。空域处理法主要用在图像的点运算,比如几何变换等。频域处理法主要是用在图像的特征提取,图像增强,图像滤波,图像复原,图像压缩和图像识别等领域。

3.3图像识别技术

随着计算机技术与信息技术的发展,图像识别技术获得了越来越广泛的应用。例如医疗诊断中各种医学图片的分析与识别、天气预报中的卫星云图识别、遥感图片识别、指纹识别、脸谱识别等,图像识别技术越来越多地渗透到我们的日常生活中。

图像识别技术的涵义很广,主要指通过计算机,采用数学技术方法,对一个系统前端获取的图像按照特定目的进行相应的处理。图像识别包括诸如条码识别、生物特征识别(人脸识别、指纹识别等)技术、智能交通中的动态对象识别、手写识别等。可以说,图像识别技术就是人类视觉认知的延伸。是人工智能的一个重要领域,随着计算机技术及人工智能技术的发展,图像识别技术越来越成为人工智能的基础技术。它涉及的技术领域也越来越广泛,应用越来越深入。其基本分析方法也随着数学工具的不断进步而不断发展。现在,图像识别技术的应用范围已经远远突破视觉的范围,而更多地体现为机器智能、数字技术的特点。

4、总结

第二代图像编码将视觉系统特性引入到图像编码技术,分形图像编码是以分形几何理论为基础,基于模型的图像编码是利用了计算机视觉和计算机图形学中的理论,而小波变换图像编码则引入了小波分析理论。尽管它们理论基础不同,但它们均在不同情况下不同程度地提高了编码质量。

数字图像处理技术的发展涉及信息科学、计算机科学、数学、物理学以及生物学等学科,因此数理及相关的边缘学科对图像处理科学的发展有越来越大的影响。近年来,数字图像处理技术日趋成熟,广泛用于空间探测、遥感、生物医学、人工智能以及工业检测等领域,并促使这些学科产生了新的发展。

参考文献:

[1]数字图像压缩原理及常用压缩编码方法农机化研究 2005年5月第3期

[2]图像识别技术浅论内蒙古电大学刊 2008年第8期

[3]数字图像处理技术现状与展望 Computer Era No.9 2005

图像识别技术的研究现状论文

图像识别技术研究现状综述 简介: 图像识别是指图形刺激作用于感觉器官,人们辨认出它是经验过的某一图形的过程,也叫图像再认。在图像识别中,既要有当时进入感官的信息,也要有记忆中存储的信息。只有通过存储的信息与当前的信息进行比较的加工过程,才能实现对图像的再认。图像识别技术是以图像的主要特征为基础的,在图像识别过程中,知觉机制必须排除输入的多余信息,抽出关键的信息。在人类图像识别系统中,对复杂图像的识别往往要通过不同层次的信息加工才能实现。对于熟悉的图形,由于掌握了它的主要特征,就会把它当作一个单元来识别,而不再注意它的细节了。这种由孤立的单元材料组成的整体单位叫做组块,每一个组块是同时被感知的。图像在人类的感知中扮演着非常重要的角色,人类随时随处都要接触图像。随着数字图像技术的发展和实际应用的需要,出现了另一类问题,就是不要求其结果输出是一幅完整的图像,而是将经过图像处理后的图像,再经过分割和描述提取有效的特征,进而加以判决分类,这就是近20年来发展起来的一门新兴技术科学一图像识别。它以研究某些对象或过程的分类与描述为主要内容,以研制能够自动处理某些信息的机器视觉系统,代替传统的人工完成分类和辨识的任务为目的。 图像识别的发展大致经历了三个阶段:文字识别、图像处理和识别及物体识别:文字识别的研究是从1950年开始的,一般是识别字母、数字和符号,并从印刷文字识别到手写文字识别,应用非常广泛,并且已经研制了许多专用设备。图像处理和识别的研究,是从1965年开始的。过去人们主要是对照相技术、光学技术的研究,而现在则是利用计算技术、通过计算机来完成。计算机图像处理不但可以消除图像的失真、噪声,同时还可以进行图像的增强与复原,然后进行图像的判读、解析与识别,如航空照片的解析、遥感图像的处理与识别等,其用途之广,不胜枚举。物体识别也就是对三维世界的认识,它是和机器人研究有着密切关系的一个领域,在图像处理上没有特殊的难点,但必须知道距离信息,并且必须将环境模型化。在自动化技术已从体力劳动向部分智力劳动自动化发展的今天,尽管机器人的研究非常盛行,还只限于视觉能够观察到的场景。进入80年代,随着计算机和信息科学的发展,计算机视觉、人工智能的研究已成为新的动向 图像识别与图像处理的关系: 在研究图像时,首先要对获得的图像信息进行预处理(前处理)以滤去干扰、噪声,作几何、彩色校正等,以提供一个满足要求的图像。图像处理包括图像编码,图像增强、图像压缩、图像复原、图像分割等。对于图像处理来说,输入是图像,输出(即经过处理后的结果)也是图像。图像处理主要用来解决两个问题:一是判断图像中有无需要的信息;二是确定这些信息是什么。图像识别是指对上述处理后的图像进行分类,确定类别名称,它可以在分割的基础上选择需要提取的特征,并对某些参数进行测量,再提取这些特征,然后根据测量结果做出分类。为了更好地识别图像,还要对整个图像做结构上的分析,对图像进行描述,以便对图像的主要信息做一个好的解释,并通过许多对象相互间的结构关系对图像加深理解,以便更好帮助和识别。故图像识别是在上述分割后的每个部分中,找出它的形状及纹理特征,以便对图像进行分类,并对整个图像做结构上的分析。因而对图像识别环节来说,输入是图像(经过上述处理后的图像),输出是类别和图像的结构分析,而结构分析的结果则

图像压缩编码方法

图像压缩编码方法综述 概述: 近年来, 随着数字化信息时代的到来和多媒体计算机技术的发展, 使得人 们所面对的各种数据量剧增, 数据压缩技术的研究受到人们越来越多的重视。 图像压缩编码就是在满足一定保真度和图像质量的前提下,对图像数据进行变换、编码和压缩,去除多余的数据以减少表示数字图像时需要的数据量,便于 图像的存储和传输。即以较少的数据量有损或无损地表示原来的像素矩阵的技术,也称图像编码。 图像压缩编码原理: 图像数据的压缩机理来自两个方面:一是利用图像中存在大量冗余度可供压缩;二是利用人眼的视觉特性。 图像数据的冗余度又可以分为空间冗余、时间冗余、结构冗余、知识冗余 和视觉冗余几个方面。 空间冗余:在一幅图像中规则的物体和规则的背景具有很强的相关性。 时间冗余:电视图像序列中相邻两幅图像之间有较大的相关性。 结构冗余和知识冗余:图像从大面积上看常存在有纹理结构,称之为结构 冗余。 视觉冗余:人眼的视觉系统对于图像的感知是非均匀和非线性的,对图像 的变化并不都能察觉出来。 人眼的视觉特性: 亮度辨别阈值:当景物的亮度在背景亮度基础上增加很少时,人眼是辨别 不出的,只有当亮度增加到某一数值时,人眼才能感觉其亮度有变化。人眼刚 刚能察觉的亮度变化值称为亮度辨别阈值。 视觉阈值:视觉阈值是指干扰或失真刚好可以被察觉的门限值,低于它就 察觉不出来,高于它才看得出来,这是一个统计值。 空间分辨力:空间分辨力是指对一幅图像相邻像素的灰度和细节的分辨力,视觉对于不同图像内容的分辨力不同。 掩盖效应:“掩盖效应”是指人眼对图像中量化误差的敏感程度,与图像 信号变化的剧烈程度有关。 图像压缩编码的分类: 根据编码过程中是否存在信息损耗可将图像编码分为: 无损压缩:又称为可逆编码(Reversible Coding),解压缩时可完全回复原始数据而不引起任何失真; 有损压缩:又称不可逆压缩(Non-Reversible Coding),不能完全恢复原始数据,一定的失真换来可观的压缩比。 根据编码原理可以将图像编码分为: 熵编码:熵编码是编码过程中按熵原理不丢失任何信息的编码。熵编码基

手势识别技术综述

手势识别技术综述 作者单位:河北工业大学计算机科学与软件学院 内容摘要: 手势识别是属于计算机科学与语言学的一个将人类手势通过数学算法针对人们所要表达的意思进行分析、判断并整合的交互技术。一般来说,手势识别技术并非针对单纯的手势,还可以对其他肢体动作进行识别,比如头部、胳臂等。

但是这其中手势占大多数。本文通过对手势识别的发展过程、使用工具、目的与市场等进行综述,梳理出手势识别发展的思路,让读者对手势识别有一个总体上的认识,同时也可以让读者在此基础上进行合理想象,对手势识别的未来有一个大体印象。 Abstract: Gesture recognition is an interactive technology using mathematical arithmetic to the analysis,judge and assembly meaning that people want to convey which belongs to computer science and Linguistics.In general, gesture recognition technology is not for simple gestures expressed by hands ,it can also aim to other body movement recognition, such as the head, arm and so on. But the gesture accounted for most of the analysis. In this paper, by describing the development process, tools used , objective and market of gesture recognition , we can sort out the ideas of the development of gesture recognition, and let readers have an overall understanding of gesture recognition. At the same time, it can let the reader imagine that on hand gesture recognition based on reason ,and have a general impression of its future. 1.定义 说到手势识别,首先要对手势识别中的手势有一个清晰的认知。手势在不同的学科中有不同含义,而在交互设计方面,手势与依赖鼠标、键盘等进行操控的区别是显而易见的,那就是手势是人们更乐意接受的、舒适而受交互设备限制小的方式,而且手势可供挖掘的信息远比依赖键盘鼠标的交互模式多。在学术界,人们试图对手势定义一个抽象、明确而简洁的概念以为手势及其应用的研究提供依据。1990年Eric Hulteen和Gord Kurtenbach曾发表的题为“Gestures in Human-Computer Communication”中定义:“手势为身体运动的一部分,它包括一部分信息,而且是一种能被观察到的有意义的运动。挥手道别是一种手势,而敲击键盘不是一种手势,因为手指的运动没有被观察,也不重要,它只表示键盘

图像识别技术发展状况及前景

医学图像配准技术 罗述谦综述 首都医科大学生物医学工程系(100054) 吕维雪审 浙江大学生物医学工程研究所(310027) 摘要医学图像配准是医学图像分析的基本课题,具有重要理论研究和临床应用价 值。本文较全面地介绍了医学图像配准的概念、分类、配准原理、主要的配准技术及评 估方法。 关键词医学图像配准多模 1 医学图像配准的概念 在做医学图像分析时,经常要将同一患者的几幅图像放在一起分析,从而得到该患者的多方面的综合信息,提高医学诊断和治疗的水平。对几幅不同的图像作定量分析,首先要解决这几幅图像的严格对齐问题,这就是我们所说的图像的配准。 医学图像配准是指对于一幅医学图像寻求一种(或一系列)空间变换,使它与另一幅医学图像上的对应点达到空间上的一致。这种一致是指人体上的同一解剖点在两张匹配图像上有相的空间位置。配准的结果应使两幅图像上所有的解剖点,或至少是所有具有诊断意义的点及手术感兴趣的点都达到匹配。 医学图像配准技术是90年代才发展起来的医学图像处理的一个重要分支。涉及“配准”的技术名词除registration外,mapping、matching、co-registration、integration、align-ment和fusion 等说法也经常使用。从多数文章的内容看,mapping偏重于空间映射;fu-sion指图像融合,即不仅包括配准,而且包括数据集成后的图像显示。虽然在成像过程之前也可以采取一些措施减小由身体移动等因素引起的空间位置误差,提高配准精度(称作数据获取前的配准preacquisition),但医学图像配准技术主要讨论的是数据获取后的(post-acquisition)配准,也称作回顾式配准(retrospective registration)。当前,国际上关于医学图像配准的研究集中在断层扫描图像( tomographic images,例如CT、MRI、SPECT、PET等)及时序图像(time seriesimages,例如fMRI及4D心动图像)的配准问题。 2 医学图像基本变换 对于在不同时间或/和不同条件下获取的两幅图像I1(x1,y1,z1)和I2(x2,y2,z2)配准,就是寻找一个映射关系P:(x1,y1,z1) (x2,y2,z2),使I1的每一个点在I2上都有唯一的点与之相对应。并且这两点应对应同一解剖位置。映射关系P表现为一组连续的空间变换。常用的空间几何变换有刚体变换(Rigid body transformation)、仿射变换(Affine transformation)、投影变换(Projec-tive transformation)和非线性变换(Nonlin-ear transformation)。 (1)刚体变换: 所谓刚体,是指物体内部任意两点间的距离保持不变。例如,可将人脑看作是一个刚体。 处理人脑图像,对不同方向成像的图像配准常使用刚体变换。刚体变换可以分解为旋转和平移:P(x)=Ax+b(1) x=(x,y,z)是像素的空间位置;A是3×3的旋转矩阵,b是3×1的平移向量。

基于matlab的图像预处理技术研究文献综述

毕业设计文献综述 题目:基于matlab的图像预处理技术研究 专业:电子信息工程 1前言部分 众所周知,MATLAB在数值计算、数据处理、自动控制、图像、信号处理、神经网络、优化计算、模糊逻辑、小波分析等众多领域有着广泛的用途,特别是MATLAB的图像处理和分析工具箱支持索引图像、RGB 图像、灰度图像、二进制图像,并能操作*.bmp、*.jpg、*.tif等多种图像格式文件如。果能灵活地运用MATLAB提供的图像处理分析函数及工具箱,会大大简化具体的编程工作,充分体现在图像处理和分析中的优越性。 图像就是用各种观测系统观测客观世界获得的且可以直接或间接作用与人眼而产生视觉的实体。视觉是人类从大自然中获取信息的最主要的手段。拒统计,在人类获取的信息中,视觉信息约占60%,听觉信息约占20%,其他方式加起来才约占20%。由此可见,视觉信息对人类非常重要。同时,图像又是人类获取视觉信息的主要途径,是人类能体验的最重要、最丰富、信息量最大的信息源。通常,客观事物在空间上都是三维的(3D)的,但是从客观景物获得的图像却是属于二维(2D)平面的。 图像存在方式多种多样,可以是可视的或者非可视的,抽象的或者实际的,适于计算机处理的和不适于计算机处理的。 图像处理它是指将图像信号转换成数字信号并利用计算机对其进行处理的过程。图像处理最早出现于20世纪50年代,当时的电子计算机已经发展到一定水平,人们开始利用计算机来处理图形和图像信息。图像处理作为一门学科大约形成于20世纪60年代初期。早期的图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。图像处理中,输入的是质量低的图像,输出的是改善质量后的图像,常用的图像处理方法有图像增强、复原、编码、压缩等。首次获得实际成功应用的是美国喷气推进实验室(JPL)。他们对航天探测器徘徊者7号在 1964 年发回的几千张月球照片使用了图像处理技术,如几何校正、灰度变换、去除噪声等方法进行处理,并考虑了太阳位置和月球环境的影响,由计算机成功地绘制出月球表面地图,获得了巨大的成功。随后又对探测飞船发回的近十万张照片进行更为复杂的图像处理,以致获得了月球的地形图、彩色图及全景镶嵌图,获得了非凡的成果,为人类登月创举奠定了坚实的基础,也推动

图像压缩编码实验报告

图像压缩编码实验报告 一、实验目的 1.了解有关数字图像压缩的基本概念,了解几种常用的图像压缩编码方式; 2.进一步熟悉JPEG编码与离散余弦变换(DCT)变换的原理及含义; 3.掌握编程实现离散余弦变换(DCT)变换及JPEG编码的方法; 4.对重建图像的质量进行评价。 二、实验原理 1、图像压缩基本概念及原理 图像压缩主要目的是为了节省存储空间,增加传输速度。图像压缩的理想标准是信息丢失最少,压缩比例最大。不损失图像质量的压缩称为无损压缩,无损压缩不可能达到很高的压缩比;损失图像质量的压缩称为有损压缩,高的压缩比是以牺牲图像质量为代价的。压缩的实现方法是对图像重新进行编码,希望用更少的数据表示图像。应用在多媒体中的图像压缩编码方法,从压缩编码算法原理上可以分为以下3类: (1)无损压缩编码种类 哈夫曼(Huffman)编码,算术编码,行程(RLE)编码,Lempel zev编码。(2)有损压缩编码种类 预测编码,DPCM,运动补偿; 频率域方法:正交变换编码(如DCT),子带编码; 空间域方法:统计分块编码; 模型方法:分形编码,模型基编码; 基于重要性:滤波,子采样,比特分配,向量量化; (3)混合编码 JBIG,H.261,JPEG,MPEG等技术标准。 2、JPEG 压缩编码原理 JPEG是一个应用广泛的静态图像数据压缩标准,其中包含两种压缩算法(DCT和DPCM),并考虑了人眼的视觉特性,在量化和无损压缩编码方面综合权衡,达到较大的压缩比(25:1以上)。JPEG既适用于灰度图像也适用于彩色图像。其中最常用的是基于DCT变换的顺序式模式,又称为基本系统。JPEG 的压缩编码大致分

基于手势识别的智能电视交互专利技术综述

基于手势识别的智能电视交互专利技术综述 智能电视具有操作系统,支持第三方应用资源实现功能扩展,支持多网络接入功能,具备人机交互、与其他智能设备进行交互等。随着计算机视觉的发展和人机交互的需要,手势识别研究取得了蓬勃的发展,通过手势识别对智能电视进行控制和操作,能够更轻松、高效地使用电视设备。文章利用专利数据库对智能电视手势识别技术进行了数据统计和分析,对该领域的专利申请趋势等情况做了归纳总结。 标签:智能电视;手势识别;发展状况;专利 Abstract:Intelligent TV has the operating system,which supports the third party application resources to realize the function expansion,supports the multi-network access function,has the man-machine interaction,and carries on the interaction with other intelligent devices. With the development of computer vision and the need of human-computer interaction,the research of gesture recognition has made great progress. By controlling and operating intelligent TV through gesture recognition,one can more easily and more efficiently use TV equipment. This paper makes use of patent database to analyze the data of intelligent TV gesture recognition technology,and summarizes the trend of patent application in this field. Keywords:intelligent TV;gesture recognition;development status;patent 引言 电视是家庭娱乐休闲必不可少的家用电器。如今,电视依然是最为普及的信息传播载体,用户在观看普通节目的同时,还可以上网、娱乐等。从用户的角度出发,通过自然简单、人性化的方式完成交互,无疑是用户完成电视操作的最佳方式。而手势具有直观、自然、丰富的特点,是一种符合人们日常习惯的交互手段,是表達信息和特定意图的良好载体,由于手势具有上述特性,因此在对智能电视进行操控中得到了良好的运用,实现了对智能电视自然灵活地操作。 1 基于手势识别的智能电视控制技术发展状态分析 1.1 技术分解 本文通过检索获得的专利申请进行统计分析,对基于手势识别的智能电视控制所涉及的具体技术和应用领域进行分解。 根据手势采集设备可以将手势识别系统大致分为基于数据手套和基于视觉的两种手势识别系统。其中,数据手套通过多个传感器反馈各关节的数据,并通过位置跟踪器返回人手所在的三维坐标,从而获取手势在三维空间中的位置信息和手指的运动信息。通过数据手套可以直接获取人手在三维空间中的位置和运动

图像处理技术的研究现状和发展趋势

图像处理技术的研究现状和发展趋势 庄振帅 数字图像处理又称为计算机图像处理,它是指将图像信号转换成数字信号并利用计算机对其进行处理的过程。数字图像处理最早出现于20世纪50年代,当时的电子计算机已经发展到一定水平,人们开始利用计算机来处理图形和图像信息。数字图像处理作为一门学科大约形成于20世纪60年代初期。早期的图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。图像处理中,输入的是质量低的图像,输出的是改善质量后的图像,常用的图像处理方法有图像增强、复原、编码、压缩等。首次获得实际成功应用的是美国喷气推进实验室(JPL)。他们对航天探测器徘徊者7号在1964年发回的几千张月球照片使用了图像处理技术,如几何校正、灰度变换、去除噪声等方法进行处理,并考虑了太阳位置和月球环境的影响,由计算机成功地绘制出月球表面地图,获得了巨大的成功。随后又对探测飞船发回的近十万张照片进行更为复杂的图像处理,以致获得了月球的地形图、彩色图及全景镶嵌图,获得了非凡的成果,为人类登月创举奠定了坚实的基础,也推动了数字图像处理这门学科的诞生。在以后的宇航空间技术,如对火星、土星等星球的探测研究中,数字图像处理都发挥了巨大的作用。数字图像处理取得的另一个巨大成就是在医学上获得的成果。1972年英国EMI公司工程师Housfield发明了用于头颅诊断的X射线计算机断层摄影装置,也就是我们通常所说的CT(Computer Tomograph)。CT的基本方法是根据人的头部截面的投影,经计算机处理来重建截面图像,称为图像重建。1975年EMI公司又成功研制出全身用的CT 装置,获得了人体各个部位鲜明清晰的断层图像。1979年,这项无损伤诊断技术获得了诺贝尔奖,说明它对人类作出了划时代的贡献。与此同时,图像处理技术在许多应用领域受到广泛重视并取得了重大的开拓性成就,属于这些领域的有航空航天、生物医学过程、工业检测、机器人视觉、公安司法、军事制导、文化艺术等,使图像处理成为一门引人注目、前景远大的新型学科。随着图像处理技术的深入发展,从70年代中期开始,随着计算机技术和人工智能、思维科学研究的迅速发展,数字图像处理向

关于计算机视觉的手势识别综述

关于计算机视觉的手势识别综述 蒋指挥 (江苏科技大学江苏镇江 213022) 摘要:计算机技术的高速发展也产生了许多新领域,在此对以计算机视觉为基础的手势检测识别技术展开综述。主要阐述该技术的发展历程、实现方法、研究现状以及其存在的不足之处和发展方向。结果表明简单的可穿戴设备的手势识别和深度视觉传感器的手势识别和多方法交叉融合的手势识别是未来该领域的发展方向。 关键词:计算机视觉;手势识别;人机交互 A survey of gesture recognition in computer vision//Jiang Zhi Hui Abstract;With the rapid development of computer technology, a lot of new fields have been developed. In this paper, the technology of gesture detection and recognition based on computer vision is reviewed. This paper describes the development of the technology, the realization method, the research status and its shortcomings and development direction. The results show that the simple wearable device for hand gesture recognition and depth vision sensor for hand gesture recognition and multi method cross fusion for gesture recognition is the future direction of the development of the field. Key words:Computer vision; gesture recognition; human-computer interaction 计算机在我们的生活中越来越不可或缺,我们同时也对计算机提出了更高的要求,计算机视觉的手势识别正是对计算机应用拓展的重要途径,例如现在的VR技术,就是应用了手势识别才实现的。ABIResearch公司高级分析师约书亚·弗拉德(JoshuaFlood)指出:“免提操作或手势识别很快将成为高端旗舰智能手机、媒体平板电脑和智能眼镜区别于其他同类产品的一个关键因素。三星电子最新推出银河S4已经将这项技术用于其手机中,并以其全新的用户体验获得用户交口称赞。此外,在一系列新型智能眼镜产品即将发布之时,不难想象这类技术将被采用。”其实手势识别技术涵盖了许多领域,比如物理学、生物学等,实现手势识别的方式有很多种从一开始的二维手型识别、二维手势识别到后来的三维手势识别,正是计算机视觉技术的发展使得手势识别的实现方式更加多样。但目前的技术仍然很繁琐,冗杂的可穿戴设备就直接影响了使用者的舒适感,其还有很大的发展空间。 1、手势识别的发展历程及其实现方法

浅析图像压缩编码方法

Computer Knowledge and Technology 电脑知识 与技术第6卷第23期(2010年8月)浅析图像压缩编码方法 徐飞 (闽西职业技术学院,福建龙岩364021) 摘要:该文描述了图像压缩编码的概念,原理以及主要分类,介绍了目前常见的三种图像压缩编码方法的原理,特点以及简单讨论了其中两种方法的MATLAB 代码实现。 关键词:图像压缩编码;编码原理;编码分类;编码方法;MATLAB 中图分类号:TP301文献标识码:A 文章编号:1009-3044(2010)23-6584-03 Analysis of the Image Compression Coding Method XU Fei (Minxi Vocational &Technical College,Longyan 364021,China) Abstract:This paper is mainly about the concept,principle and classification of image compression coding,introduces the concepts and characteristic of three kinds of image compression coding methods that are common used,and discusses how to using matlab to accomplish the two common methods which mentions in the front. Key words:image compression coding;coding principle;coding classification;coding method;MATLAB 现代社会是信息社会,随着信息技术的发展,图像信息被广泛应用于多媒体通信、计算机系统和网络中。因为对图像的要求越来越高,图像信息量也越来越大,所以在传输之前需要进行信息处理,必须采用合适的方法对其进行压缩,因此有必要对图像压缩编码方法进行研究。 1图像压缩编码 1.1概述 图像压缩编码就是在满足一定保真度和图像质量的前提下,对图像数据进行变换、编码和压缩,去除多余的数据以减少表示数字图像时需要的数据量,便于图像的存储和传输。即以较少的数据量有损或无损地表示原来的像素矩阵的技术,也称图像编码。 1.2图像压缩编码原理 图像数据的压缩机理来自两个方面:一是利用图像中存在大量冗余度可供压缩;二是利用人眼的视觉特性。 1.2.1图像数据的冗余度 1)空间冗余: 在一幅图像中规则的物体和规则的背景具有很强的相关性。 2)时间冗余:电视图像序列中相邻两幅图像之间有较大的相关性。 3)结构冗余和知识冗余: 图像从大面积上看常存在有纹理结构,称之为结构冗余。 4)视觉冗余:人眼的视觉系统对于图像的感知是非均匀和非线性的,对图像的变化并不都能察觉出来。 1.2.2人眼的视觉特性 1)亮度辨别阈值:当景物的亮度在背景亮度基础上增加很少时,人眼是辨别不出的,只有当亮度增加到某一数值时,人眼才能感觉其亮度有变化。人眼刚刚能察觉的亮度变化值称为亮度辨别阈值。 2)视觉阈值:视觉阈值是指干扰或失真刚好可以被察觉的门限值,低于它就察觉不出来,高于它才看得出来,这是一个统计值。3)空间分辨力:空间分辨力是指对一幅图像相邻像素的灰度和细节的分辨力,视觉对于不同图像内容的分辨力不同。 4)掩盖效应:“掩盖效应”是指人眼对图像中量化误差的敏感程度,与图像信号变化的剧烈程度有关。 1.3图像压缩编码的分类 根据编码过程中是否存在信息损耗可将图像编码分为: 1)无损压缩:又称为可逆编码(Reversible Coding),解压缩时可完全回复原始数据而不引起任何失真; 2)有损压缩:又称不可逆压缩(Non-Reversible Coding),不能完全恢复原始数据,一定的失真换来可观的压缩比。 根据编码原理可以将图像编码分为: 1)熵编码:熵编码是编码过程中按熵原理不丢失任何信息的编码。熵编码基本原理是给出现概率大的信息符号赋予短码字,出收稿日期:2010-06-10 作者简介;徐飞(1982-),男,福建龙岩人,闽西职业技术学院,助教,理学学士,主要研究方向为数字图象,软件开发,软件测试。ISSN 1009-3044Computer Knowledge and Technology 电脑知识与技术Vol.6,No.23,August 2010,pp.6584-6586,6589E-mail:eduf@https://www.360docs.net/doc/c813597063.html, https://www.360docs.net/doc/c813597063.html, Tel:+86-551-56909635690964

数字图像处理技术的现状及其发展方向(笔记)

数字图像处理技术的现状及其发展方向 一、数字图像处理历史发展 数字图像处理(Digital Image Processing)将图像信号转换成数字信号并利用计算机对其进行处理。 1.起源于20世纪20年代。 2.数字图像处理作为一门学科形成于20世纪60年代初期,美国喷气推进实验室(JPL)推动了数字图像处理这门学科的诞生。 3.1972年英国EMI公司工程师Housfield发明了用于头颅诊断的X射线计算机断层摄影装置即CT(Computer Tomograph),1975年EMI公司又成功研制出全身用的CT装置,获得了人体各个部位鲜明清晰的断层图像。 4.从70年代中期开始,随着计算机技术和人工智能、思维科学研究的迅速发展,数字图像处理向更高、更深层次发展,人们已开始研究如何用计算机系统解释图像,实现类似人类视觉系统理解外部世界,其中代表性的成果是70年代末MIT的Marr提出的视觉计算理论。 二、数字图像处理的主要特点 1.目前数字图像处理的信息大多是二维信息,处理信息量很大,对计算机的计算速度、存储容量等要求较高。 2.数字图像处理占用的频带较宽,在成像、传输、存储、处理、显示等各个环节的实现上,技术难度较大,成本也高,这就对频带压缩技术提出了更高的要求。 3.数字图像中各个像素是不独立的,其相关性大。因此,图像处理中信息压缩的潜力很大。 4.由于图像是三维景物的二维投影,一幅图像本身不具备复现三维景物的全部几何信息的能力,要分析和理解三维景物必须作合适的假定或附加新的测量。在理解三维景物时需要知识导引,这也是人工智能中正在致力解决的知识工程问题。 5.一方面,数字图像处理后的图像一般是给人观察和评价的,因此受人的因素影响较大,作为图像质量的评价还有待进一步深入的研究;另一方面,计算机视觉是模仿人的视觉,人的感知机理必然影响着计算机视觉的研究,这些都是心理学和神经心理学正在着力研究的课题。 三、数字图像处理的优点 1.再现性好;图像的存储、传输或复制等一系列变换操作不会导致图像质量的退化。 2.处理精度高;可将一幅模拟图像数字化为任意大小的二维数组,现代扫描仪可以把每个像素的灰度等级量化为16位甚至更高。 3.适用面宽;图像可以来自多种信息源,图像只要被变换为数字编码形式后,均是用二维数组表示的灰度图像组合而成,因而均可用计算机来处理。 4.灵活性高;数字图像处理不仅能完成线性运算,而且能实现非线性处理,即凡是可以用数学公式或逻辑关系来表达的一切运算均可用数字图像处理实现。 四、数字图像处理过程及其主要进展 常见的数字图像处理有:图像的采集、数字化、编码、增强、恢复、变换、

图像压缩与编码

实验项目3、图像压缩与编码 一、实验目的 (1)理解图像压缩编码的基本原理; (2)掌握用程序代码实现DCT变换编码; (3)掌握用程序代码实现游程编码。 二、实验原理及知识点 1、图像压缩编码 图像信号经过数字化后,数据量相当大,很难直接进行保存。为了提高信道利用率和在有限的信道容量下传输更多的图像信息,必须对图像进行压缩编码。 图像压缩技术标准一般可分为如下几种:JPEG压缩(JPEG Compression)、JPEG 2000 、H.26X标准(H.26X standards)以及MPEG标准(MPEG standards)。数字压缩技术的性能指标包括:压缩比、平均码字长度、编码效率、冗余度。 从信息论角度分,可以将图像的压缩编码方法分为无失真压缩编码和有限失真编码。前者主要包括Huffman编码、算术编码和游程编码;后者主要包括预测编码、变换编码和矢量量化编码以及运动检测和运动补偿技术。 图像数据压缩的目的是在满足一定图像质量的条件下,用尽可能少的比特数来表示原始图像,以提高图像传输的效率和减少图像存储的容量,在信息论中称为信源编码。图像压缩是通过删除图像数据中冗余的或者不必要的部分来减小图像数据量的技术,压缩过程就是编码过程,解压缩过程就是解码过程。 2、游程编码 某些图像特别是计算机生成的图像往往包含许多颜色相同的块,在这些块中,许多连续的扫描行或者同一扫描行上有许多连续的像素都具有相同的颜色值。在这些情况下就不需要存储每一个像素的颜色值,而是仅仅存储一个像素值以及具有相同颜色的像素数目,将这种编码方法称为游程(或行程)编码,连续的具有相同颜色值的所有像素构成一个行程。 在对图像数据进行编码时,沿一定方向排列的具有相同灰度值的像素可看成是连续符号,用字串代替这些连续符号,可大幅度减少数据量。游程编码记录方式有两种:①逐行记录每个游程的终点列号:②逐行记录每个游程的长度 3、DCT变换编码 变换编码是在变换域进行图像压缩的一种技术。图1显示了一个典型的变换编码系统。 压缩 图像输入图 像N×N 图1 变换编码系统 在变换编码系统中,如果正变换采用DCT变换就称为DCT变换(离散余弦变换)编码系统。DCT用于把一幅图像映射为一组变换系数,然后对系数进行量化和编码。对于大多数的正常图像来说,多数系数具有较小的数值且可以被粗略地量化(或者完全抛弃),而产生的图像失真较小。

数字图像处理技术的研究现状与发展方向

数字图像处理技术的研究现状与发展方向 孔大力崔洋 (山东水利职业学院,山东日照276826) 摘要:随着计算机技术的不断发展,数字图像处理技术的应用领域越来越广泛。本文主要对数字图像处理技术的方法、优点、数字图像处理的传统领域及热门领域及其未来的发展等进行相关的讨论。 关键词:数字图像处理;特征提取;分割;检索 引言 图像是指物体的描述信息,数字图像是一个物体的数字表示,图像处理则是对图像信息进行加工以满足人的视觉心理和应用需求的行为。数字图像处理是指利用计算机或其他数字设备对图像信息进行各种加工和处理,它是一门新兴的应用学科,其发展速度异常迅速,应用领域极为广泛。 数字图像处理的早期应用是对宇宙飞船发回的图像所进行的各种处理。到了70年代,图像处理技术的应用迅速从宇航领域扩展到生物医学、信息科学、资源环境科学、天文学、物理学、工业、农业、国防、教育、艺术等各个领域与行业,对经济、军事、文化及人们的日常生活产生重大的影响。 数字图像处理技术发展速度快、应用范围广的主要原因有两个。最初由于数字图像处理的数据量非常庞大,而计算机运行处理速度相对较慢,这就限制了数字图像处理的发展。现在计算机的计算能力迅速提高,运行速度大大提高,价格迅速下降,图像处理设备从中、小型计算机迅速过渡到个人计算机,为图像处理在各个领域的应用准备了条件。第二个原因是由于视觉是人类感知外部世界最重要的手段。据统计,在人类获取的信息中,视觉信息占60%,而图像正是人类获取信息的主要途径,因此,和视觉紧密相关的数字图像处理技术的潜在应用范围自然十分广阔。 1数字图像处理的目的 一般而言,对图像进行加工和分析主要有以下三方面的目的[1]: (1)提高图像的视感质量,以达到赏心悦目的目的。如去除图像中的噪声,改变图像中的亮度和颜色,增强图像中的某些成分与抑制某些成分,对图像进行几何变换等,从而改善图像的质量,以达到或真实的、或清晰的、或色彩丰富的、或意想不到的艺术效果。 (2)提取图像中所包含的某些特征或特殊信息,以便于计算机进行分析,例如,常用做模式识别和计算机视觉的预处理等。这些特征包含很多方面,如频域特性、灰度/颜色特性、边界/区域特性、纹理特性、形状/拓扑特性以及关系结构等。 (3)对图像数据进行变换、编码和压缩,以便于图像的存储和传输。 2数字图像处理的方法 数字图像处理按处理方法分,主要有以下三类,即图像到图像的处理、图像到数据的处理和数据到图像的处理[2]。 (1)图像到图像。图像到图像的处理,其输入和输出均为图像。这种处理技术主要有图像增强、图像复原和图像编码。 首先,各类图像系统中图像的传送和转换中,总要造成图像的某些降质。第一类解决方法不考虑图像降质的原因,只将图像中感兴趣的特征有选择地突出,衰减次要信息,提高图像的可读性,增强图像中某些特征,使处理后的图像更适合人眼观察和机器分析。这类方法就是图像增强。例如,对图像的灰度值进行修正,可以增强图像的对比度;对图像进行平滑,可以抑制混入图像的噪声;利用锐化技

图像压缩技术的综述

题目:图像压缩技术的综述 学生姓名:徐欢学号: 系别:计算机与信息学院专业:计算机科学与技术 入学年份:年月 导师姓名:陈蕴谷职称学位:讲师硕士研究生 导师所在单位:中国科学院合肥物质研究院 完成时间年月 .引言 随着多媒体技术和通讯技术的不断发展,多媒体娱乐、信息高速公路等不断对信息数据的存储和传输提出了更高的要求,也给现有的有限带宽以严峻的考验,特别是具有庞大数据量的数字图像通信,更难以传输和存储,极大地制约了图像通信的发展,因此图像压缩技术受到了越来越多的关注。图像压缩的目的就是把原来较大的图像用尽量少的字节表示和传输,并且要求复原图像有较好的质量。利用图像压缩,可以减轻图像存储和传输的负担,使图像在网络上实现快速传输和实时处理。 图像数据是用来表示图像信息的,如果不同的方法为表示相同的信息使用了不同的数据量,那么使用较多数据量的方法中,有些数据必然代表了无用的信息,或者是重复的表示了其他数据表示的信息,前者成为数据冗余,后者成为不相干信息。图像压缩编码的主要目的,就是通过删除冗余的或者是不相干的信息,以尽可能地的数码率来存储和传输数字图像数据。 图像压缩编码技术可以追溯到年提出的电视信号数字化,到今天已经有多年的历史了。在此期间出现了很多种图像压缩编码方法,特别是到了年代后期以后,由于小波变换理论,分形理论,人工神经网络理论,视觉仿真理论的建立,图像压缩技术得到了前所未有的发展,其中分形图像压缩和小波图像压缩是当前研究的热点。本文对当前最为广泛使用的图像压缩算法进行综述,讨论了它们的优缺点以及发展前景。 图像编码基础 图像编码压缩是指在满足一定图像质量的条件下,用尽可能少的数据量来表示图像。编码技术比较系统的研究始于信息论,从此理论出发可以得到数据压缩的两种基本途径。一种是联合信源的冗余度也寓于信源间的相关性之中,去除他

关于人工智能中的图像识别技术的研究

191 关于人工智能中的图像识别技术的研究 翁和王 (武夷学院数学与计算机学院,福建武夷山354300) 摘要:图像识别技术作为在信息时代发展起来的一项信息技术,其主要是利用计算机对人工进行替代,实现对众多的物 理信息进行处理。计算机技术快速发展也推动了图像识别技术得以迅猛的发展。文章就图像识别的技术原理、模式识别进行图像识别技术概述,并对其识别过程进行一定的分析,重点对神经网络以及非线性降维两个形式的图像识别技术加以分析。以期对图像识别有关的研究人员与应用人士有所参考。关键词:人工智能;原理与过程;图像识别技术;非线性;神经网络中图分类号:TP18文献标识码:A 文章编号:1673-1131(2016)10-0191-02 0引言 图像识别技术作为人工智能内的重要领域之一,在计算机技术和信息技术快速发展的背景下,其也得到了愈发广泛的使用,其在医疗诊断、指纹识别、面部识别以及卫星云图识别等方面具有着很好的应用。图像识别技术通常是指利用计算机对系统前端捕获的图片根据既定的目标对其进行处理。图像识别在人们日常的生活中也得到普遍的应用,诸如条码识别、车牌捕捉以及手写识别等。随着其不断的发展与完善,其今后的应用领域也会更加的广泛。 1图像识别技术的概述1.1图像识别的技术原理 事实上,图像识别具有的原理并非很深奥,主要是图像识别所需处理的信息非常的复杂。计算机中的所有处理技术均不能随意出现,是众多学者通过实践获得的启示,通过程序使其得到模拟与实现。计算机实现图像识别所需的原理与人类进行图像识别所需的原理基本上是一致的,仅仅是计算机不存在人类视觉和感觉方面的影响。人类在进行图像识别过程中并非仅是利用这一图像存在于脑海内的记忆加以识别,而是通过图像自身拥有的特征对其进行相应的分类,之后利用各个类别拥有的特征使图片被识别出来。当我们看到图片时,大脑便会快速感知出以前见过这张或与之相类似的图片与否。事实上在看到和感知间已经实现了快速的识别,这一识别与搜索存在一定的相似性[1]。在识别过程中,大脑将会按照存储记忆内被分好类的图片展开识别,检查其是否和这一图像存在相同或者是类似特征记忆存储,便识别出以往时候看见过这一图片。计算机进行图像识别的原理也是这样,利用分类和提取出图像的重要特征,并对多余的无用特征加以有效地排除,以此实现对图像的识别。计算机所能提取出来的上述特征有时会较为明显,而有时也会非常的普通,这在极大程度上对计算机识别效率造成一定的影响。总而言之,利用计算机进行视觉识别时,图像中的内容一般是通过图像特征对其加以描述的[2]。 1.2模式识别 模式识别作为信息科学与人工智能中的重要组成,其通 常是对现象和事物处于不同形式中信息实现处理与分析,以便能够达到对现象与事物进行分类、描述以及辨认等目标。而计算机能够实现图像识别便是对人类进行图像识别时的一种模拟,在实现图像识别时,能够展开模式识别是不可或缺的。以往的模式识别仅仅是人类所掌握基本智能之一,伴随人工智能以及计算机技术得到兴起与发展,人类自身具有的识别 模式便无法再满足人类的生活需求,对此人们便需要利用计算机来对人类脑力劳动进行一定程度的替代与扩展。这也就产生了计算机形式的模式识别。简而言之,模式识别便是对数据实现分类,其是一门和数学有着密切联系的科学,其所运 用的大量思想便是数学中的统计和概率[3] 。可以将模式识别分成统计模糊模式、识别模式识别以及句法模式识别三类。 2图像识别技术的识别过程 由于计算机进行图像识别和人类进行图像识别所采用的是一样的原理,因此上述两种识别过程也会存在一定的相似性。可以将图像识别技术划分为如下几步:第一步,信息的获取,其是指利用传感器将声音和光等信息装换为电信号,简而言之便是获取识别对象具有的基本信息,同时将其装换成为计算机可以识别的信息。第二步,预处理,其是指对图像进行去噪、变换以及平滑等处理操作,以此来提升图像所具有的重要特点。第三步,特征抽取与选择,其是在模式识别过程中,要对图像进行特征的抽取与选择,简而言之便是识别的图像是多种多样的,若想通过一定的方式将其分离开,便要对图像中拥有的自身特征进行识别,在特征的获取时便称为特征抽取[4]。在进行特征抽取过程中,获取的特征并非一定对本次识别有所价值,此时便要对所获取的特征进行一定的提取,这便是特征选择。对于图像识别整个过程而言,特征抽取与选择时期中最为关键的步骤之一,因此,这一步使进行图像识别理解时的重点内容。第四步,分类器设计与分类决策,其中分类器设计即利用训练来制定出一个识别规则,借此识别规则便能够获得一个特征种类,从而让图像识别可以达到更高的辨识率。而分类决策则是对特征空间内的被识别对象实现分类的最佳识别方法。 3图像识别技术的研究分析 3.1神经网络形式的图像识别技术 神经网络形式的图像识别是目前较为新型的技术,其是基于以往的图像识别方式,并将神经网络算法进行有效的融合。这里所说的神经网络指的是人工神经网络,换句话说便是该神经网络并非是动物体所拥有的神经网络,而是人类根据动物神经网络进行人工模拟的一种神经网络。对于神经网络形式的图像识别技术而言,遗传算法和BP 神经网络进行有效的结合是目前基于神经网络形式的图像识别技术内最为经典的模型,其在诸多的领域之中均有所应用。对图像识别系统运用神经网络系统,通常先对图像特征进行提取,之后将图像特征向神经网络中加以映射,以此实现对图像的识别与分类。例如,对于智能汽车监控中拍照识别技术而言, 2016 (Sum.No 166) 信息通信 INFORMATION &COMMUNICATIONS 2016年第10期(总第166期)

相关文档
最新文档