图象视觉特征的提取与表示

合集下载

OCR解决方案

OCR解决方案一、背景介绍随着信息技术的发展，越来越多的企业和个人需要对纸质文件进行数字化处理。

光学字符识别（Optical Character Recognition，OCR）技术应运而生，它可以将纸质文件中的文字内容转化为电子文本，方便后续的存储、检索和处理。

本文将介绍一种OCR解决方案，包括其原理、应用场景和技术优势。

二、解决方案原理OCR解决方案基于计算机视觉和机器学习技术，通过对图象进行预处理、特征提取和模式识别等步骤，实现从图象到文本的转换。

具体流程如下：1. 图象预处理：对输入的图象进行灰度化、二值化、去噪等操作，以提高后续处理的准确性和效率。

2. 特征提取：通过边缘检测、角点检测等方法，提取图象中的文字特征，为后续的识别过程提供有效的信息。

3. 文字识别：利用机器学习算法，将提取的文字特征与预先训练好的模型进行匹配，实现文字的识别和转换。

4. 后处理：对识别结果进行校正和优化，提高识别准确率，并输出最终的文本结果。

三、应用场景OCR解决方案可以广泛应用于各个行业和领域，以下是几个典型的应用场景：1. 文档数字化：将纸质文件扫描并转换为可编辑的电子文本，提高文档的存储和检索效率。

2. 自动化办公：实现自动化的表格识别和数据录入，减少人工操作和错误率。

3. 身份证识别：快速准确地识别和提取身份证上的文字信息，方便实名认证等应用。

4. 银行票据处理：自动识别银行票据上的关键信息，提高银行业务的处理效率和准确性。

5. 车牌识别：实现对车牌号码的自动识别，方便交通管理和车辆追踪等应用。

四、技术优势本OCR解决方案具有以下技术优势：1. 高准确率：采用先进的机器学习算法和大规模数据集进行训练，提高文字识别的准确率。

2. 多语言支持：支持多种语言的文字识别，满足不同地区和用户的需求。

3. 快速处理：通过优化算法和并行计算技术，实现快速的图象处理和文字识别，提高处理效率。

4. 灵便可定制：提供灵便的接口和参数设置，方便用户根据实际需求进行定制和集成。

立体视觉概述_王湘君

电脑知识与技术１概述客观世界是一个三维的空间世界。

用各种观测系统以不同的形式和手段观测客观世界而得来的图象是２Ｄ平面的，尽管其中包含有３Ｄ物体空间信息。

人的视觉系统具有将获取的图象信息转变为立体视图的功能。

立体视觉正是根据这个原理，探求从２Ｄ图象中恢复３Ｄ空间信息的方法，达到从图象认识世界的目的。

立体视觉主要研究如何借助（多图象）成象技术从（多幅）图象里获取场景中物体的距离（深度）信息，兴起于２０世纪６０年代中期［１］。

立体视觉的基本方法是用两个或两个以上的视点去观察同一物体目标，获得在不同视角下的一组图象，然后通过视觉成象原理推算出不同图象中对应象素间的相对位置信息，进而推断物体目标的空间位置。

２立体视觉模块一个完整的立体视觉系统可以划分图象采集、摄象机标定、特征提取、立体匹配、三维重建和后期处理六个模块［１］。

２．１图象采集采集含有立体信息图象的方式很多，主要取决于应用的场合和目的。

通常利用ＣＣＤ摄像器件或ＣＭＯＳ摄像器件并经过预处理获得景物的本征图像。

其基本方式是由不同位置的两台或者一台摄像机（ＣＣＤ）经过移动或旋转拍摄同一幅场景，获取立体图像对。

２．２摄象机标定摄象机标定也称为摄像机的校准。

在立体视觉的研究中，通常需要根据摄象机获取的图象信息计算三维空间中的物体几何信息，由此重建和识别物体，而空间物体表面某点的三维几何位置与其在图象中对应点之间的相互关系是由摄象机成象的几何模型决定的。

这些几何模型参数就是摄象机参数。

在大多数条件下，这些参数必须通过实验与计算才能得到，这个过程被称为摄象机的标定［２］。

因此，摄象机标定是为了确定摄象机的位置、属性参数（内部参数如焦距、镜头失真系数、不确定性图像因子和外部参数如旋转矩阵和平移矢量）和建立成象模型，以便确定空间坐标系中物体点同它在图象平面上象点之间的对应关系。

摄像机标定在获取立体图象时不但要满足应用要求，而且要考虑视点差异、光照条件、摄象机性能以及景物特点等因素的影响，建立一个有效的摄象机模型，这样不仅能够精确地恢复出空间景物的三维信息，还有利于解决立体匹配问题。

图象处理-机器视觉-基础知识

1 .什么是机器视觉技术试论述其基本概念和目的。

答：机器视觉技术是是一门涉及人工智能、神经生物学、心理物理学、计算机科学、图像处理、模式识别等诸多领域的交叉学科。

机器视觉主要用计算机来模拟人的视觉功能，从客观事物的图像中提取信息，进行处理并加以理解，最终用于实际检测、测量和控制。

机器视觉技术最大的特点是速度快、信息量大、功能多。

机器视觉是用机器代替人眼来完成观测和判断，常用于大批量生产过程汇总的产品质量检测，不适合人的危险环境和人眼视觉难以满足的场合。

机器视觉可以大大提高检测精度和速度，从而提高生产效率，并且可以避免人眼视觉检测所带来的偏差和误差。

2 .机器视觉系统一般由哪几部分组成试详细论述之。

答：机器视觉系统主要包括三大部分：图像获取、图像处理和识别、输出显示或控制。

图像获取：是将被检测物体的可视化图像和内在特征转换成能被计算机处理的一系列数据。

该部分主要包括，照明系统、图像聚焦光学系统、图像敏感元件（主要是CCD和CMOS）采集物体影像。

图像处理和识别：视觉信息的处理主要包括滤波去噪、图像增强、平滑、边缘锐化、分割、图像识别与理解等内容。

经过图像处理后，图像的质量得到提高，既改善了图像的视觉效果又便于计算机对图像进行分析、处理和识别。

输出显示和控制：主要是将分析结果输出到显示器或控制机构等输出设备。

3 .试论述机器视觉技术的现状和发展前景。

答：。

机器视觉技术的现状：机器视觉是近20〜30年出现的新技术，由于其固有的柔性好、非接触、快速等特点，在各个领域得到很广泛的应用，如航空航天、工业、军事、民用等等领域。

发展前景：随着光学传感器、信息技术、信号处理、人工智能、模式识别研究的不断深入和计算机性价比的不断提高，机器视觉技术越来越成熟，特别是市面上已经有针对机器视觉系统开发的企业提供配套的软硬件服务，相信越来越多的客户会选择机器视觉系统代替人力进行工作，既便于管理又节省了成本。

价格持续下降、功能逐渐增多、成品小型化、集成产品增多。

图像的基本概念

学习了数字图象的表示与运算，请思考：

要进行数字图象处理，通常要经过哪几个步骤？
滤波
边缘提取
图象分割
轮廓表示
物体识别
图像的滤波处理
图象常被强度随机信号（也成为噪声）所污染。一些常见的噪声有脉冲噪声、高斯噪声等。对随机噪声的抑制，是图象预处理中的重要方面，下面介绍几种抑制噪声的时域滤波器。脉冲噪声：含有随机的白强度值（正脉冲）或黑强度值（负脉冲）；高斯噪声：含有亮度服从高斯或正态分布的噪声，是许多传感器噪声的很好的模型
g ( x, y) e ( x, y) I ( x, y)
1
图象的点运算
直方图模型化
直方图模型化技术是指修正图象的直方图，使重新组织后的具有一种期望的直方图的形状。这对于展开具有偏的或者是窄的直方图来说是非常有用的。
图A
图B 图 B
图C
图象的点运算
直方图模型化
一、直方图均衡化直方图均衡是指将一个已知灰度分布的图像经过一种变换，使之变成一幅具有均匀灰度分布的新图像。
图象的代数运算

代数运算是指对两幅输入图象进行点对点的加、减、乘或除运算而得到输出图象的运算。对于相加和相乘的情形，可能不止有两幅图像参加运算。在一般情况下，输入图象之一可能为常数。然而，加、减、乘、除一常数可按线性的点运算来对待；当两幅输入图像完全相同时，也如此。
图象代数运算的数学表达式
灰度直方图
２边界阈值选取假设某图象的灰度直方图具有二峰性，则表明这个图象的较量的区域和较暗的区域可以较好地分离，去这一点为阈值点，可以得到好的２值处理的效果。
利用灰度直方图进行单阈值分割
图象的点运算

数字图像处理知识点总结

数字图像处理知识点总结第一章导论1.图像：对客观对象的一种相似性的生动性的描述或写真。

2.图像分类：按可见性（可见图像、不可见图像），按波段数（单波段、多波段、超波段)，按空间坐标和亮度的连续性(模拟和数字）。

3.图像处理：对图像进行一系列操作，以到达预期目的的技术。

4.图像处理三个层次：狭义图像处理、图像分析和图像理解.5.图像处理五个模块：采集、显示、存储、通信、处理和分析.第二章数字图像处理的基本概念6.模拟图像的表示：f（x，y)＝i（x，y）×r（x，y)，照度分量0< i（x，y)〈∞ ，反射分量0 <r(x,y）<1。

7.图像数字化:将一幅画面转化成计算机能处理的形式-—数字图像的过程。

它包括采样和量化两个过程。

像素的位置和灰度就是像素的属性。

8.将空间上连续的图像变换成离散点的操作称为采样.采样间隔和采样孔径的大小是两个很重要的参数。

采样方式：有缝、无缝和重叠.9.将像素灰度转换成离散的整数值的过程叫量化.10.表示像素明暗程度的整数称为像素的灰度级(或灰度值或灰度）。

11.数字图像根据灰度级数的差异可分为:黑白图像、灰度图像和彩色图像.12.采样间隔对图像质量的影响：一般来说，采样间隔越大，所得图像像素数越少，空间分辨率低，质量差,严重时出现像素呈块状的国际棋盘效应;采样间隔越小，所得图像像素数越多,空间分辨率高,图像质量好，但数据量大。

13.量化等级对图像质量的影响:量化等级越多,所得图像层次越丰富，灰度分辨率高,图像质量好，但数据量大；量化等级越少，图像层次欠丰富，灰度分辨率低，会出现假轮廓现象，图像质量变差,但数据量小.但在极少数情况下对固定图像大小时，减少灰度级能改善质量,产生这种情况的最可能原因是减少灰度级一般会增加图像的对比度.例如对细节比较丰富的图像数字化。

14.数字化器组成:1)采样孔：保证单独观测特定的像素而不受其它部分的影响。

2)图像扫描机构:使采样孔按预先确定的方式在图像上移动。

基于激光视觉的角焊缝图像特征点提取

ｂｅｄｄｉｎｇｄｅｐｔｈｏｆａｂｒａｓｉｖｅｇｒａｉｎｓｏｎｗｏｒｋｉｎｇｓｕｒｆａｃｅｏｆｓｉｎ￣ｅ·ｌａｙｅｒｂｒａｚｅｄＣＢＮｇｉｎｄｉｎｇｗｈｅｅｌ［Ｊ］．ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＮｏｎｆｅｒｒｏｕｓＭｅｔａｌｓ，２００７，１７（３）：４１—４５．［７］王大勇，冯吉才．杨氏方程的能量求解法及润湿角计算模型［Ｊ］．焊接学报，２００２，２３（６）：５９—６１．
ＷｕＢ，ＸｕｅＴ，ＺｈａｎｇＴ，ｅｔａ１．Ａｎｏｖｅｌｍｅｔｈｏｄｆｏｒｒｏｕｎｄｓｔｅｅｌ
ｍｅａｓｕｒｅｍｅｎｔｗｉｔｈａｍｕｈｉ—ｌｉｎｅｓｔｒｕｃｔｕｒｅｄｌｉｇｈｔｖｉｓｉｏｎｓｅｎｓｏｒ［Ｊ］．ＭｅａｓｕｒｅｍｅｎｔＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，２０１０，２１（２）：０２５２０４ —
２００８，１３（１）：６４—６８．［５］ＳｔｅｇｅｒＣ．ＵｎｂｉａｓｅｄｅｘｔｒａｃｔｉｏｎｏｆｌｉｎｅｓｗｉｔｈｐａｒａｂｏｌｉｃａｎｄＧａｎｓｓｉａｎ
ｐｒｏｆｉｌｅｓ［Ｊ］．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＩｍａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ，２０１３，１１７（２）：９７—１１２．［６］赵小松，张国雄，张宏伟．测量强反射表面的测头研究［Ｊ］．天津大学学报，２００４，３７（３）：２７４—２７７．
ＷａｎｇＤａｙｏｎｇ，ＦｅｎｇＪｉｃａｉ．Ｏｂｔａｉｎｉｎｇｏｆｙｏｕｎｇｅｑｕａｔｉｏｎｂｙｐｒｉｎｅｉ·
ｐｌｅｏｆｅｎｅｒｇｙａｎｄｅｓｔａｂｌｉｓｈｍｅｎｔｏｆｗｅｔｔｉｎｇａｎ＠ｅｍｏｄｅｌ［Ｊ］．Ｔｒａｎｓ－ａｃｔｉｏｎｓｏｆｔｈｅＣｈｉｎａＷｅｌｄｉｎｇＩｎｓｔｉｔｕｔｉｏｎ，２００２，２３（６）：５９－６１．

数字图像处理名词解释

数字图像处理名词解释数字图像是由像素组成的二维矩阵，每个小块区域称为像素（pixel）。

数字图像处理是指利用数字计算机及其它数字技术，对图像进行某种运算和处理，从而达到某种预期目的的技术。

8-连通是指对于具有值V的像素p和q，如果q在集合N8(p)中，则称这两个像素是8-连通的。

灰度直方图反映了一幅图像中各灰度级像元出现的频率，是灰度级的函数，描述的是图像中该灰度级的像素个数。

直方图只反映该图像中不同灰度值出现的次数，而未反映某一灰度值像素所在位置。

直方图可用于判断图像量化是否恰当，给出了一个简单可见的指示，用来判断一幅图象是否合理的利用了全部被允许的灰度级范围。

数字图像通常有两种表示形式：位图和矢量图。

点位图由像素构成，包含不同色彩信息的像素的矩阵组合构成了千变万化的图像。

矢量图形指由代数方程定义的线条或曲线构成的图形，由许多矢量图形元素构成，这些图形元素称为“对象”。

两种图像的构成方式不同，其绘画方式也存在差别。

点位图是通过改变像素的色彩实现绘画和画面的修改，而矢量图操纵的是基本的图形（对象）。

在矢量图中，以Corel Draw为例，选择贝赛尔曲线工具，用鼠标在页面上定出一些节点，节点之间有线段，构成一个封闭图形。

用修改工具把这个图形调整圆滑。

傅里叶变换是一种将空间域中复杂的卷积运算转化为频率域中简单的乘积运算的方法，其应用主要有以下三方面：简化计算、处理空间域中难以处理或处理起来比较复杂的问题、以及实现特殊目的的应用需求。

通过傅里叶变换，可以将图像从空间域变换到频率域，利用频率域滤波或频域分析方法对其进行处理和分析，然后再将处理后的图像变换回空间域，从而实现图像的增强、特征提取、数据压缩、纹理分析、水印嵌入等效果。

对于M*N的图像f(x,y)，其基矩阵的大小为M*N，也即及图像由M*N块组成。

当（x，y）取遍所有可能的值（x=0，1，2….m-1;y=0,1…n-1）时，就可得到由（M*N）*（M*N）块组成的基图像，所以其基图像大小为M平方*N平方。

第五章遥感图像目视解译原理

(1) 可见光黑白像片和黑白红外像片解译
可见光黑白像片和黑白红外像片上，目标地物的形状和色调是识别地物的主要标志。由于人类习惯在可见光条件下观察地物，因此，可见光黑白像片上各种地物比较容易识别。黑白像片识别与解译的规律是：可见光范围内反射率高的地物，在航空像片（正片）上呈现淡白色调，反射率低的地物，在像片上呈现暗灰色调，如水泥路面呈现灰白色，而湖泊中的水体呈现深暗色。加上可见光黑白像片多数为大比例尺像片，地物形状特征明显，形状特征与色调特征等多种解译标志综合使用，可以提高目标地物的正确识别率。
解译耐心认真：不能单纯依据图像上几种解译标志草率下结论, 而应该耐心认真地观察图像上各种微小变异；
重点分析：有重要意义的地段 , 要抽取若干典型区进行详细的测量调查 , 达到“从点到面”及印证解译结果的目的。
遥感图像目视解译原理
4、遥感图像目视解译的一般顺序
• 从已知到未知、先易后难、先山区后平原、先地表后深部、先整体后局部、先宏观后微观、先图形后线形
北京故宫博物院与护城河之间的色调差异
(5)颜色：指彩色图像上色别和色阶，如同黑白影像上的色调，它也是地物电磁辐射能量大小的综合反映，用彩色摄影方法获得真彩色影像，地物颜色与天然彩色一致；用光学合成方法获得的假彩色影像；根据需要可以突出某些地物，更便于识别特定目标。
真彩色图像上地物颜色能够真实反映实际地物颜色特征，这符合人的认知习惯。同一景多光谱扫描图像的相同地物，不同波段组合可以有不同的颜色，目视判读前需要了解图像采用哪些波段合成，每个波段分别被赋予何种颜色。
例如, 由于山区基岩裸露, 影像清晰 , 而平原地区平坦, 影像较为模糊 , 所以前者容易辨识, 后者就比较困难，况且山区与平原在构造上总有这样那样的牵连,因此，一方面在解译上可以借鉴, 另一方面又可用“延续性分析”不断扩展。至于圆形构造、线形构造 , 在一般情况下, 两者都易于发现。

图像特征介绍经典特征

20
图像纹理的主要特性及描述与提取方法
图像纹理特征描述与提取方法
结构分析法
结构分析方法认为纹理基元几乎具有规范的关系，因而假设纹理图像的基元可以分离出来, 并以基元的特征和排列规则进行纹理分割。该方法根据图像纹理小区域内的特点和它们之间的空间排列关系，以及偏心度、面积、方向、矩、延伸度、欧拉数、幅度周长等特征分析图像的纹理基元的形状和排列分布特点，目的是获取结构特征和描述排列的规则。结构分析法主要应用于已知基元的情况，对纤维、砖墙这种结构要素和规则都比较明确的图像分析比较有效。
23
基于灰度共生矩阵的纹理特征提取方法
灰度共生矩阵法(Grey Level Co-occurrence Matrix ，GLCM)也称为联合概率矩阵法，是一种基于图像中某一灰度级结构重复出现的概率来描述图像纹理信息的方法。该方法用条件概率提取纹理的特征，通过统计空间上具有某种位置关系（像素间的方向和距离）的一对像素的灰度对出现的概率构造矩阵，然后从该矩阵提取有意义的统计特征来描述纹理。灰度共生矩阵可以得到纹理的空间分布信息。
3 3
一些容易混淆的概念
特征提取：feature extraction starts from an initial set of measured data and builds derived values (features) intended to be informative and nonredundant, facilitating the subsequent learning and generalization steps, and in some cases leading to better human interpretations. Feature extraction is related to dimensionality reduction. 特征选择：In machine learning and statistics, feature selection, also known as variable selection, attribute selection or variable subset selection, is the process of selecting a subset of relevant features (variables, predictors) for use in model construction.

第四章遥感图像特征提取

第一节：基本概念
纹理特征要素组成：纹理基元：是一种或多种图像基元的组合。纹理基元的排列组合：基元排列的疏密、周期性、方向性。纹理特征提取：通过一定的图像处理技术，抽取出纹理特征，从而获得纹理的定性或定量的描述。
检测出纹理基元检测纹理基元的排列方式
第二节：纹理特征提取
第二节：纹理特征提取
灰度分布统计特征--灰度梯度共生矩阵灰度－梯度共生矩阵同时提供了直方图信息和梯度信息，因此也可以从中抽取图像的纹理统计特征参数。
第二节：纹理特征提取
灰度分布统计特征--灰度梯度共生矩阵
第二节：纹理特征提取
灰度分布统计特征--灰度梯度共生矩阵
练习： 0 1 2 3 0 0 1 3 0 2 2 0
p (i, j )(i, j 0,1,...N 1)
灰度分布统计特征-灰度共生矩阵
0度方向
(0,1)
90度方向
135度方向
45度方向
灰度分布统计特征-灰度共生矩阵
0度方向
90度方向 45度方向
135度方向
第二节：纹理特征提取
灰度共生矩阵特点
矩阵大小： L×L L为灰度级在实际应用中为了减少运算量，可先减少灰度级数，再计算共生矩阵。归一化
相关是用来衡量灰度共生矩阵的元素在行的方向或列的方向的相似程度。如，某图像具有水平方向的纹理，则图像在0度方向的共生矩阵的相关值往往大于其它方向的相关值。
第二节：纹理特征提取
由灰度共生矩阵派生出的纹理特征参数
熵
熵是图像所具有的信息量的度量，因纹理信息也属于图像的信息，若图像没有任何纹理，则灰度共生矩阵几乎为零阵，该图像的熵值接近于0。若图像纹理较多，则熵值也较大。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第1章图像视觉特征的提取和表示1.1引言图像视觉特征的提取和表示是将图像的视觉信息转化成计算机能够识别和处理的定量形式的过程，是基于视觉内容的图像分类与检索的关键技术，因此，图像视觉特征的提取和表示一直是图像内容分析领域中一个非常活跃的课题。

图像底层视觉特征一定程度上能够反映图像的内容，可以描述图像所表达的意义，因此，研究图像底层视觉特征是实现图像分类与检索的第一步。

一般来说，随着具体应用的不同，选用的底层特征也应有所不同，在特定的具体应用中，不同底层视觉特征的选取及不同的描述方式，对图像分类与检索的性能有很大的影响。

通常认为，一种良好的图像视觉特征的提取和表示应满足以下几个要求：(1)提取简单，时间和空间复杂度低。

(2)区分能力强，对图像视觉内容相似的图像其特征描述之间也应相近，反之，对于视觉内容不相似的图像其特征描述之间应有一定的差别。

(3)与人的视觉感知相近，对人的视觉感觉相近的图像其特征描述之间也相近，对人的视觉感知有差别的图像其特征描述之间也有一定的差别。

(4)抗干扰能力强，鲁棒性好，对图像大小，方向不敏感，具有几何平移，旋转不变性。

本章重点讨论当前比较成熟的特征提取方法，在此基础上选取合适的特征提取方法，用于图像分类与检索系统的特征提取模块。

接下来，将依次介绍颜色，纹理，形状等特征的提取和表示方法，最后对各种特征的特点加以比较。

1.2颜色特征的提取和表示颜色是图像视觉信息的一个重要特征，是图像分类与检索中最为广泛应用的特征之一。

一般来说同一类别的图像之间颜色信息具有一定的相似性，不同类别的图像，其颜色信息具有一定的差异。

相对几何特征而言，颜色特征稳定性好，有对大小、方向不敏感等特点。

因此，颜色特征的提取受到极大重视并得到深入研究。

本章首先介绍几种常用的颜色空间模型，然后介绍各种颜色特征提取和表示方法。

1.2.1颜色空间模型为了正确地使用颜色这一特征，需要建立颜色空间模型，通常的颜色空间模型可用三个基本量来描述，所以建立颜色空间模型就是建立一个3-D坐标系，其中每个空间点都代表某一种颜色。

通常来说，对于不同的应用，应该选取不同的颜色空间模型。

常用的颜色空间模型主要有：RGB、HIS、HSV、YUV、YIQ、Munsell、Lu*v*和La*b*等。

颜色空间模型的选取需要符合一定的标准，下面就这一标准和最常用的颜色空间模型作一些介绍。

文献中介绍了选择颜色空间模型的标准主要有以下几个：(1)观察角度的鲁棒性(2)对物体几何性质的鲁棒性(3)对光照方向改变的鲁棒性(4)对照强度改变的鲁棒性(5)对照明的光谱能量分布(SPD)的鲁棒性(6)高分辨能力(7)对物体遮掩和杂乱的鲁棒性(8)对图像噪声的鲁棒性RGB颜色空间模型由R、G、B分量构成，是最常用的颜色空间模型，现在各种格式的图像都是采用RGB空间存储和传输，并得到各种物理设备的直接支持。

但是，研究发现，RGB颜色空间模型也有一些缺点，主要表现在以下三个方面：首先是通道之间的相关性，BR之间的相关性系数大约为0.74,RG相关性系数约为0.98，GB之间的相关性系数为0.94；其次是心理学上的非直观性；最后是感知上的非一致性。

为了更好地适应于各种应用场合，人们提出了很多的其他颜色空间模型。

HIS颜色空间模型反映了人观察颜色的方式，与人的视觉感知特性符合较好，其中，I表示亮度，H表示色度，S表示饱和度。

与HIS颜色空间模型相比，HSV颜色空间模型更符合人类对颜色的视觉感知特性，H表示色调，色调是彩色相互区分的特性，S表示饱和度，是指彩色的纯洁性，V表示强度，是指彩色的明暗程度，这三个分量是相互独立的。

在彩色图像的分割中，RGB模式难以直接进行分割，只有将它们转化成HSV模式才行。

从RGB颜色空间模型转换到HSV 颜色空间模型的方法有多种，本文介绍一种比较容易实现的转换方法。

2- B G H B G π⎧≤⎪⎪=⎨⎪>⎪⎩(2-1) max(,,)min(,,)max(,,)R G B R G B S R G B −= (2-2) max(,,)255R G B V = (2-3) YUV 和YIQ 主要用于视频传输和编码，其中Y 为亮度分量，UV 或IQ 为色差分量。

Munsell 系统是从心理学的角度，根据颜色视觉的特点所指定的颜色分类和定标的系统，它由以H (色调)、V (明度)和C (色度)为基础系统排列的色卡组成。

Lu *v *和La *b *为均匀色度空间，其中色差可以由欧氏距离度量。

从图像处理的角度来说，对颜色的描述与人对颜色的感知越接近越好，这样便于将人的意图在处理结果中反映出来。

从视觉感知均匀的角度来说，人们希望所感知的两个颜色的距离应该与这两个颜色在颜色空间中的距离是一致的。

在均匀颜色空间中，人们观察到的两个颜色的距离与这两个颜色在空间中的欧氏距离成正比。

1.2.2 颜色特征的表示方法常用的颜色特征表示方法有：颜色直方图、颜色矩、颜色聚合向量、颜色集等。

(1) 直方图法直方图的颜色特征方法是把颜色量化成若干种，然后统计每种颜色的像素数在整幅图像中所占的比重。

颜色直方图特别适用于描述那些难以自动分割图像和不需要考虑物体空间位置的图像。

常用的颜色直方图的方法有简单颜色直方图和累积颜色直方图两种。

最早使用颜色直方图进行图像检索的是Swam 和Ballard ，其核心思想是在一定的颜色空间中对颜色出现的频数进行统计，然后采用色彩直方图的交来度量两幅图像色彩的相似性，其最大的缺点是完全丢失了图像色彩的空间信息。

直方图是一个向量，维数为颜色级数，每维数值即对应该维所对应颜色的像素数占整幅图像像素数的百分比。

设图像I ，颜色被量化成N 种颜色（N 通常小于实际颜色数），直方图表示为：()[(0),(1),(1)]H I h h h N =K − (2-1)其中()k n h k n =(2-2) 10N k k n −==n ∑ (2-3)k n 表示第k 种颜色的像素的数目，N 为颜色数。

直方图表示为简单直方图时没有考虑到相邻颜色的相似性，为了改进这个不足，以颜色为横坐标，颜色累加出现的频数为纵坐标，引入累积直方图的定义。

累积直方图的统计方法如式(2-4)所示。

0()k i i n h k n==∑ (2-4) 无论是哪种直方图特征，都需要进行直方图量化，更多的量化区间可以具有更强的能力，但具有更高的运算代价，且不适于数据库索引。

一些改进的方法将直方图结合空间信息，将图像按特定方法分割成不同的子区域，在子区域中统计颜色直方图。

(2) 颜色矩基于图像中任何的颜色分布均可用它的矩来表示这一数学基础，Stricker 和Orengo 提出了颜色矩的颜色特征表示方法。

此外，由于颜色分布信息主要集中在低阶矩中，因此仅采用颜色的一阶矩(mean)、二阶矩（variance)和三阶矩(skewness)就足以表达图像的颜色分布。

与颜色直方图相比，该方法的另一个好处在于无需对特征进行向量化。

颜色的三个低阶矩在数学上表达为：11N i j ij pN μ==∑ (2-5) ()12211N i ij j p u N σ=⎛⎞=−⎜⎝⎠∑i ⎟ (2-6) ()13311N i ij j s p u N =⎛⎞=−⎜⎝⎠∑i ⎟ (2-7)其中ij p 是图像中第j 个像素的第i 个颜色分量的值。

由于颜色空间模型都是有3个分量构成，因此图像的颜色矩一般只需要9个分量，与其它的颜色特征相比非常简洁的。

在实际应用中为避免低阶矩较弱的分辨能力，颜色矩常和其它特征结合使用，而且一般在使用其它特征前起到过滤缩小范围的作用。

(3) 颜色聚合向量针对颜色直方图和颜色矩无法表达图像中色彩的空间位置的缺点，Pass 和Zabih 等人提出了颜色聚合向量(color coherence vector)。

该方法是颜色直方图的一种演变，其核心思想是：将属于直方图每一个柄的像素分成两部分，如果该柄内的某些像素所占据的连续区域的面积大于给定的阈值，则该区域内的像素作为聚合像素，否则作为非聚合像素。

假设i α与i β分别代表直方图的第i 个柄中聚合像素和非聚合像素的数量，图像的颜色聚合向量可以表达为1122(,),(,),(,)N N αβαβαβ<>L 。

而1122,,N N αβαβαβ<+++L >就是该图像的颜色直方图。

由于包含了颜色分布的空间信息，对需要比较物体的空间位置的图像，颜色聚合向量能比颜色直方图达到更好的检索效果。

(4) 颜色集颜色集是J.R. Smith 提出的图像颜色特征的一种表示方法，其表示形式为二值空间中的一个M 维指示向量，其值指示在图像中是否出现符合某种特定条件的颜色，1表示出现，0表示未出现。

颜色集的统计方法为：首先选择一个合适的颜色空间，并在此空间得到一个具有M 种颜色输出的颜色量化函数，每种颜色在M 维的二值空间中占一位；然后利用颜色量化函数对图像进行量化处理，使得处理后的图像至多包含M 种颜色；最后为每种颜色确定一个阈值，如果图像中属于此颜色的像素达到这一阈值，则相应的二值指示向量的位置置为1，否则置为0。

事实上颜色集只是一种表示方式，它等价于阈值直方图。

另外，如果每种颜色的阈值都定义较高的话，颜色集中置为1的那些颜色实际上就是主色。

1.3 纹理特征的提取和表示纹理是图像的另一个主要特征，通常看作图像的某种局部特征，它不仅反映图像的灰度统计信息，而且反映图像的空间分布信息和结构信息。

对图像纹理，迄今为止仍无一个公认的、一致的严格定义。

但图像纹理对人们来说是很熟悉的。

纹理是人眼视觉的重要组成部分，反映了物体的深度和表面信息，表达了物体表面颜色和灰度的某种变化。

而且这些变化又与物体本身的属性有关，是图像的固有特征之一。

数字图像中的纹理是相邻像素的灰度或颜色的空间相关性，或是图像灰度和颜色随空间位置变化的视觉表现。

纹理特征描述方法大致可以分为四类：统计法、结构法、模型法、频谱法。

(1)统计法统计方法分析纹理的主要思想是通过图像中灰度级分布的随机属性来描述纹理特征。

(2)结构法结构法分析纹理的基本思想是假定纹理模式由纹理基元以一定的、有规律的形式重复排列组合而成，特征提取就变为确定这些基元并定量分析它们的排列规则。

(3)模型法模型法是利用一些成熟的图像模型来描述纹理，如基于随机场统计学的马尔可夫随机场、自回归模型，以及在此基础上产生的多尺度自回归模型等。

(4)频谱法频谱法是借助于变换域的频率特性来描述纹理特征，常用的频域变换包括傅里叶变换、Gabor变换、塔式小波变换、树式小波变换等方法。

基于以上四种方法的具体的纹理特征提取和表示方法有很多，本节重点介绍几个典型的纹理特征提取方法。