人耳检测和识别算法综述
快速三维人耳提取与识别

第21卷第10期2009年10月计算机辅助设计与图形学学报J OU RNAL OF COMPU TER 2A IDED DESIGN &COMPU TER GRAP HICSVol.21,No.10Oct.,2009收稿日期:2008-10-20;修回日期:2009-04-14.基金项目:国家自然科学基金(60672116);上海市重点学科建设项目(B112).陈雷蕾,男,1984年生,硕士研究生,主要研究方向为视觉信息处理.王 斌,男,1964年生,博士,教授,博士生导师,论文通讯作者,主要研究方向为信号和图像处理及其应用(wangbin @ ).张立明,女,1943年生,教授,博士生导师,主要研究方向为人工神经网络模型及其在图像识别上的应用.快速三维人耳提取与识别陈雷蕾 王 斌3 张立明(复旦大学电子工程系 上海 200433)(leileichen @ )摘要 针对现有三维人耳提取与识别算法中存在处理时间长、识别率低的问题,提出一种快速三维人耳提取方法和2种三维人耳识别方法.三维人耳提取时,使用不变特征迭代最近点算法使人耳与平均耳对齐,完成位置和姿态的归一化,然后用掩膜提取出三维人耳.第一种三维人耳识别方法结合人耳深度和曲率信息,采用主元分析算法进行降维,然后用最近邻分类完成识别;第二种三维人耳识别方法则使用不变特征迭代最近点算法对齐测试耳与原型耳,利用配准误差完成人耳识别.实验结果表明,第一种人耳识别方法识别率较高、计算速度很快,第二种人耳识别方法可达到很高的识别率.关键词 人耳提取;三维人耳识别;不变特征迭代最近点;主元分析中图法分类号 TP391.4F ast 3D E ar Extraction and R ecognitionChen Leilei Wang Bin 3 Zhang Liming(Depart ment of Elect ronic Engineering ,Fudan Universit y ,S hanghai 200433)Abstract The main drawbacks of existing 3D ear ext raction and recognition algorit hms are t heir long processing time and low recognition rate.In t his paper ,a novel approach for fast 3D ear ext raction and two approaches for 3D ear identification are p roposed.For t he ear ext raction ,t he ear po se and position are normalized by aligning ear to t he mean ear by iterative closest point using invariant feat ures (ICPIF )algorit hm.A mask is finally used to extract t he 3D ear.In t he first 3D ear identification app roach ,ear is represented by a combination of range image and curvat ure image.Principle component analysis is t hen adopted to reduce t he dimensionality ,followed by t he nearest neighbor (NN )algorit hm for ear recognitio n.In t he second 3D ear identificatio n approach ,t he ICPIF algorit hm is used to align t he probe ear and gallery ear.The regist ration error is used for ear recognition.Experimental result s show t hat our first ear identification app roach has a relatively good recognition rate but a very fast co mp uting speed ,and our second approach could achieve a very high recognition rate ,but less comp utationally efficient compared wit h t he first one.K ey w ords ear ext raction ;3D ear recognition ;iterative closest point using invariant feat ures (ICPIF );principal component analysis (PCA ) 人耳识别是一种较新的生物识别方法,近年来受到了国内外众多研究者的关注,是一种很有发展潜力的生物特征识别技术.这是因为人耳具有唯一性和稳定性,可以作为个体生物识别的依据,而且人耳表面具有大量的沟和脊,形状特征很丰富,还不受胡子、化妆品和表情的影响[1].另外,人耳数据采集比较方便,不需要识别对象较多的配合,适用于监视场合.已有一些基于二维灰度图像的人耳识别技术,但它们的性能受阴影、姿态变化和成像条件等的影响较大[224].一个实用的生物识别系统需要具有识别率高、识别速度快和鲁棒性好等特点.基于三维表面形状的人耳识别算法能够很好地解决光照、姿态等问题,鲁棒性较好.Y an等[6]比较了几种三维人耳识别算法:基于深度图像的主元分析(principle component analysis, PCA)算法、基于深度图像边缘Hausdorff距离的算法,以及利用迭代最近点(iterative clo sest point s, ICP)算法[5]配准后的配准误差来识别的方法;并在一个包含302人的数据集上使用手动分割的人耳数据,PCA算法的识别率仅为55.3%,Hausdorff算法为67.5%,而ICP算法达到98.8%.后来他们提出了一种耳洞检测方法用于检测耳朵位置,在灰度图像和深度图像结合后的图像上,使用Snake算法自动提取人耳区域,依然使用ICP算法识别人耳[627].在一个包含415个原型耳和415个测试耳的数据集上,他们报道的识别率为97.6%,人耳提取过程耗时约10~20s[7];在另一个包含415个原型耳和1386个测试耳的数据集上,识别率为97.8%[8].由于ICP算法运算复杂度较高,所以人耳识别非常慢,配准一对耳朵就需要5~8s.Chen等[9]也使用了ICP算法进行人耳识别,但他们得到的识别结果不如Yan等[6]的识别结果.Passalis等[10]使用通用人耳标注模型(annotated ear model,A EM)对齐和拟合三维人耳,然后提取出用二维表示的元数据,通过比较2个元数据之间的L1范数距离来衡量一对耳朵的相似程度.对齐操作通过最小化对应点深度通道和各彩色通道的误差加权和来实现,优化过程采用的是模拟退火算法;然后使A EM向人耳变形,变形的结果作为耳朵元数据.整个提取过程耗时约30s.由于识别过程不涉及复杂的运算,所以速度比较快,配准一对耳朵所需时间少于1ms,但是识别率不高,在包含415个原型耳和415个测试耳的数据集上仅达到93.9%.现有的三维人耳识别系统在人耳提取过程耗时都比较大.基于ICP的三维人耳识别方法存在运算复杂度高、识别速度低等问题,在识别率上也还有一定的提升空间.基于A EM的方法虽然改进了识别速度,但识别率降低较多.本文提出了一套新的三维人耳提取和识别方法,从速度和性能上分别进行了较大改进.该方法分为三维人耳提取和三维人耳识别2个主要部分.在人耳提取阶段,使用不变特征迭代最近点(iterative clo sest point s using invariant feat ures,ICPIF)[11]算法与平均耳对齐所有的三维耳朵,然后用一个掩膜提取出耳朵区域.在人耳识别阶段,使用了2种方法进行人耳识别:第一种方法结合深度图像和曲率图像使用PCA算法降维,再进行识别;另一种方法使用ICPIF算法配准测试耳与原型耳,采用平均误差作为两者的距离,最后用最近邻分类完成识别.这2种方法都取得了较好的效果.1 ICPIF算法原理ICPIF是ICP算法的改进.ICP是一种用于三维表面配准的算法,其目的是找到一个刚体变换,使得点云P与点云X尽可能地重合,通过最小化P 与X之间对应点对的距离平方和实现配准.每一次迭代过程中,对于P中每一个点p,在X中查找空间距离最近的点x作为对应点对,然后计算刚体变换使所有对应点对的距离平方和最小.ICP算法需要一个初始估计,并假设P中每一个点都能在X中找到对应点.ICPIF是Sharp等[11]提出的一种对传统ICP 算法的改进,它在迭代过程中使用欧氏不变特征(例如曲率)对点进行了扩展,将特征坐标排在空间坐标后面构成高维点,p′=(p x,p y,p z,αp f1,αp f2,…,αpfk)∈3+k;其中,p′是高维点,p x,p y与p z是空间坐标,p f1到p fk是点p的k个特征描述,α是特征权重,可以通过经验来选取.ICPIF的配准过程同ICP算法完全一样,只是进行距离度量的点坐标改为p′.ICPIF在距离公式中增加了特征距离项,因而得到正确对应点对的概率通常要比仅使用空间距离的ICP算法大,收敛到正确配准位置的概率也就比较大.曲率是最常用的欧氏不变特征之一,曲面上点的主曲率k1,k2(k1≥k2)可以通过曲面方程的一阶微商和二阶微商计算.2 三维人耳提取和归一化在完整的三维人耳识别系统中,后端的识别系统通常要求输入准确的外耳数据,否则将会严重影响整个系统的识别性能,因此对原始输入图像进行934110期陈雷蕾等:快速三维人耳提取与识别准确的人耳提取是一个不可缺少的关键环节,具有特别重要的意义.归一化是图像预处理中的关键步骤,对于后续的特征提取工作非常重要,归一化效果直接影响特征提取的准确性.由于三维人耳表面上没有显著的容易精确确定的特征点,所以姿态和位置精确归一化是个难题.尽管文献[6]使用了“三角窝”与“耳屏间切迹”这两点之间的连线进行手动归一化,但实际上对于某些耳朵,这两点的位置并不容易确定,其定位的不精确直接影响了归一化的精度,这也是导致他们使用基于PCA 算法识别率不高的主要原因.为此,本文提出一种新的人耳提取方法,首先利用ICPIF 算法使人耳与平均耳对齐,完成人耳位置和姿态归一化,然后用固定掩膜提取感兴趣的人耳区域.平均耳是进行人耳姿态归一化的标准,这个平均耳是所有原型耳的平均,包括平均深度、平均最大曲率和平均最小曲率3幅图像.由于平均耳的计算是一个迭代过程,而且与人耳提取过程息息相关,所以把平均耳的建立放在人耳提取过程之后介绍.图2 人耳提取预处理过程2.1 掩膜1和掩膜2使用掩膜能有效提取感兴趣区域,去除干扰区域.人耳提取过程使用了2种掩膜,分别称为掩膜1和掩膜2,如图1所示,闭合曲线内部为掩膜区域,是我们关心的内容.对齐过程使用的是掩膜1,提取最终人耳区域使用的是掩膜2.作为ICP 算法的一种改进,ICPIF 算法也继承了ICP 算法的一些缺点,如沿着表面的切向运动收敛较慢[12].切向误差投影到X Y 平面后表现为图像的旋转和平移,对后续的识别算法(如PCA )影响非常大,如果ICP 使用的点在三维空间的各个方向分布都比较充分,就能有效地消除这个问题.所以,掩膜1包含了少量耳朵轮廓外部的点.深度传感器获取表面形状使用的是三角测距原理,在深度变化剧烈的地方所测得数据点的噪声比较大,当从不同的方向采集数据时这些区域的视线遮挡问题也会比较严重.所以识别时使用的掩膜2应尽量避免包含深度变化太剧烈的点,提取的主要是耳廓内部和部分脸颊方向的点.图1 2种掩膜2.2 三维人耳提取流程Step1.耳洞检测.采用文献[7]的耳洞检测方法,在侧脸深度图像中找到人耳位置.Step2.构造三角网格.取耳洞周围102×142范围内的点构造三角网格,如图2所示.由于传感器获得的是在X ,Y 坐标上近似均匀排列的网格状三维点,所以使用了一个非常简单的网格生成算法:在X 2Y 坐标平面上相邻的任意4个点中添加一条斜边构成2个三角形,如图2d 所示.由于传感器的原因,网格上有些顶点数据缺失,称之为无效点.接着把顶点为无效点的三角形直接去除,计算三角形在三维空间中的实际边长,把最大边长大于5mm 的三角形标记为不可信441计算机辅助设计与图形学学报 2009年任三角形,因为这些地方梯度太大,实际表面有可能是不连续的.Step3.坐标中心化.通过计算耳洞周围小范围内点坐标的均值得到耳洞的三维坐标;然后进行坐标平移,使耳洞坐标与坐标原点重合.Step4.均匀重采样.对网格进行均匀重采样,采样点在X 方向与Y 方向都是均匀分布的,采样间隔定为0.63mm ,X 坐标范围是(-25,25)mm ,Y 坐标范围(-35,35)mm.采样点落在不可信任三角形内的点标记为无效点.Step5.表面拟合.表面拟合可以使表面得到一定程度的平滑,同时还能估计无效点的值.拟合采用了从mathworks 网站下载的gridfit 代码[13],该代码利用相邻点梯度的一致性来实现表面平滑和拟合,通过选取适当的平滑参数可以得到较好的拟合结果.Step6.曲率计算.计算每个点的主曲率k 1和k 2(k 1≥k 2).Step7.如果迭代次数没有达到上限,执行下一步;否则,把落在人耳掩膜2内的数据点取出来,提取完成.Step8.把落在人耳掩膜1内的数据点提取出来.Step9.使用主曲率k 1和k 2作为每个点的不变特征,与平均耳作ICPIF 对齐,计算出最佳转动矩阵和平移向量.Step10.应用最佳转动矩阵和平移向量,使三维网格转动到新位置.转Step4.ICPIF 算法能使数据点尽量与平均耳对齐,如图3所示,图中的网状表面是平均耳,分散的点是某只待对齐耳朵的采样点.从图3中可以看出,对齐之前大部分数据点在平均耳表面上方,对齐之后,数据点都比较靠近平均耳.提取与对齐的过程交叉迭代进行是有必要的,因为人耳初始姿态的变化范围很大,用固定掩膜提取的人耳数据会有很大不同,导致与平均耳对齐的结果也有所不同.但经过一次对齐后,姿态变化已经得到了很大程度的矫正,重新提取的人耳已经比较精确了,再进行一次对齐,姿态就得到了更加精确的归一化.我们在实验中发现,迭代2次是一个比较好的选择,更多的迭代次数不仅不能进一步提高归一化精度,而且会增加处理时间.图4展示了姿态归一化的效果,可以看出,图4a ,4d 的姿态存在较大差异,但图4c ,4f 已经非常相似,说明姿态归一化效果良好.图3 ICPIF 算法对齐效果图4 姿态归一化效果 人耳提取得到的结果包含X 坐标、Y 坐标、Z坐标(深度)、最大主曲率和最小主曲率5组数据.其中,X 与Y 坐标分别沿着X 方向与Y 方向均匀分布,每个耳朵都是一样的;Z 坐标、最大主曲率和最小主曲率则随耳朵不同而不同,如图5所示.图5a 中,亮度越低表示深度越大;图5b ,5c 中,同一幅图像中亮度越大表示该处主曲率值越大.图5 人耳提取结果2.3 平均耳平均耳是所有原型耳的平均,其获得方法如下:144110期陈雷蕾等:快速三维人耳提取与识别对每只原型耳执行第2.2节中的Step1~Step6,得到深度图像和2种主曲率图像;然后分别计算每种图像的平均值,得到平均深度、平均最大曲率、平均最小曲率3幅图像.这3幅图像便是平均耳,本文称之为初步平均耳.用来计算初步平均耳的耳朵没有经过姿态归一化,所以初步平均耳不能很好地表示耳朵的平均.为此,先使原型耳与初步平均耳对齐,完成姿态归一化,再计算它们的平均深度图像和平均主曲率图像作为新的平均耳.最终所得平均耳的3种图像如图6所示.图6 平均耳3 人耳识别针对计算速度与识别性能,本文提出了2种人耳识别算法:基于PCA 的算法和基于ICPIF 的算法,它们都在深度图像的基础上添加了曲率信息,获得了更高的识别率.3.1 基于PCA 的人耳识别曲率是三维表面的局部描述,不同人耳的曲率分布存在较大差异,因此曲率图像也可用于人耳识别.由于传感器采集的三维点坐标数据含有噪声,而曲率对噪声尤为敏感,导致曲率图像中某些点的灰度值显著异于周围点,严重影响PCA 识别的效果,所以本文使用直方图均衡化方法,使主曲率的灰度级在0~1之间均匀分布.我们也尝试过使用中值滤波消除噪声,但发现效果没有直方图均衡化方法好.最终获得如图7a ~7c 所示的可用于识别的3种人耳图像.图7 用于识别的人耳图像 深度图像、最大主曲率图像和最小主曲率图像中任何一种均可作为人耳的表征,用来进行人耳识别.当单独使用一种图像识别效果不理想时,还可以把2种甚至3种图像组合成一幅图像作为人耳的表征,例如把图7a ,7b 拼接,得到如图7d 所示的图像.实际计算中,可把曲率图像的灰度乘以权重16,然后与深度图像组合;接着提取掩膜内的点形成一个长向量,向量长度就是样本维数.一幅图像的有效点数为4054个,N 幅图像拼接的样本维数就是4054N (N =1,2,3),样本个数为415个,使用PCA 算法降维之后数据维数一定小于415,得到了大幅压缩,加快了识别比较的速度.在进行人耳识别之前,先利用原型耳计算投影基以及各原型耳的特征向量.识别时,将测试耳投影到这个基上得到特征向量,然后使用最近邻分类得到识别结果.认证时,通过特征相似度阈值来判定接受还是拒绝.人耳识别时利用特征向量的相似性测度进行分类,本文尝试了3种测度:欧氏距离测度、余弦测度和Tanimoto 测度.对于特征向量u ,v ,它们之间的相似性测度记为S (u ,v ),值越大越相似.欧氏距离测度.2个向量间的欧氏距离,其值越小,相似度越大,所以加上负号取反,即S (u ,v )=-‖u -v ‖2=-(u -v )T (u -v ); 余弦测度.2个向量间夹角的余弦值,其值越大,相似度越大,即S (u ,v )=u Tv‖u ‖2‖v ‖2; Tanimoto 测度.余弦测度的变形,其值越大,相似度越大,即S (u ,v )=u Tvu T u +v T v +u Tv.3.2 基于ICPIF 的人耳识别与ICP 算法相比,ICPIF 算法获得正确对应点对的概率比较大,不容易陷入局部极小,更容易得到正确的配准位置.另外,ICPIF 所用的点不仅有整体的位置信息,还有曲面的局部特性,因而对刚体表面的描述性更强.ICPIF 的配准误差也是一种整体和局部相结合的误差表征,用它来衡量一对耳朵表面的相似程度比ICP 算法更精确.所以使用ICPIF 算2441计算机辅助设计与图形学学报 2009年法进行人耳识别能取得比ICP 算法更高的识别率.实验中使用曲面的主曲率作为不变特征,设其幅度分别为k 1和k 2(k 1≥k 2).把它们与三维点坐标相结合,这样每个点都用一个五维向量来表征:p =(p x ,p y ,p z ,αk 1,αk 2)∈5,其中α是特征部分的加权系数,实验中取为3.0.使用ICPIF 算法使测试耳与原型库中的每一个样本进行配准,与测试耳配准误差最小的那只被认为是同一个人的耳朵.人耳认证时,通过配准误差阈值来判定接受还是拒绝.当测试耳数据点数较多时,ICPIF 算法运算较慢,因此在配准过程中采取了一些措施来加快运算.例如查找最近点时,使用了ANN (approximate nearest neighbors )[14]代码,当迭代次数达到15次或前后2次配准误差的差小于0.001时,配准结束.由于用于配准的一对耳朵可能只存在部分交集,曲率也存在噪声点,所以计算刚体变换参数时,把大于平均距离+2倍网格精度的点对去除了,计算最终的配准误差时也只使用了距离较小的90%的点对.4 实验及结果分析4.1 实验数据与环境U niversity Not re Dame (UND )的三维人耳数据库①是到目前为止公开可用的最大三维人耳库.本文所使用的数据是UND 数据库的一个子集,来自415个人,每人2个数据,共有830个数据,本文称之为UND830数据集.文献[7,10]使用的都是UND830数据集.所有数据都是使用Minolta 910激光扫描仪扫描左侧脸获取的,包含X ,Y 和Z 3个坐标的深度图像以及对应的R G B 彩色图像,分辨率为640×480.系统运行的硬件环境是2.33GHz Intel (R )Xeon (R )四核处理器,4G B 内存,软件环境是Matlab R2008a.4.2 人耳提取结果采用第3节的方法能够成功地提取所有耳朵,得到有效点数为4054.由于人耳检测不是本文的重点,所以只比较提取过程所消耗的时间.本文人耳提取方法中最耗时的步骤是曲面拟合,每提取一只耳朵需要进行3次曲面拟合,每进行一次曲面拟合需要0.3s ,所以人耳提取过程耗时约1s ,而且基本恒定.Passalis 等[10]对齐时使用的是模拟退火算法,硬件环境为P43GHz 处理器,1G B 内存,整个提取过程需要30s ;Yan 等[7]的系统使用Snake 算法,硬件环境为2.8GHz 双核Pentium Xeon 处理器,2G B 内存,提取过程需要10~20s ,如表1所示;由于无法重复其他方法实验系统的硬件环境,本文的运行时间仅供参考.显然本文方法要快得多,而且没有使用二维纹理信息,适用范围更广.表1 人耳提取时间和所用数据的比较算法提取时间Πs所用数据Passalis [10]303D 形状+2D 图像Yan [7]10~203D 形状+2D 图像本文1仅3D 形状4.3 基于PCA 算法的人耳识别结果利用自动提取的人耳,分别使用深度图像R Z 、最大主曲率图像k 1、最小主曲率图像k 2以及它们的组合图像在415个原型耳上训练PCA 投影基,保留80%的能量;然后分别使用欧氏距离测度、余弦测度和Tanimoto 测度进行最近邻分类,实验结果如表2所示.可以看出,余弦测度或Tanimoto 测度之间没有显著差别,均高于欧氏距离测度.单独使用一种图像时,最小主曲率优于最大主曲率,后者又优于深度图像.在组合图像中,采用深度图像和最小主曲率组合的方式能达到较好的识别效果,在余弦测度或Tanimoto 测度下达到最高识别率98.6%.下文中提到的PCA 算法指标都是使用深度图像和最小主曲率的组合在余弦测度下得到的结果.表2 所用图像与相似度测度对PCA 算法识别率的影响图像测度欧氏距离余弦Tanimoto R Z 92.095.794.9k 194.796.996.9k 296.697.397.6R Z +k 195.797.897.6R Z +k 297.398.698.6k 1+k 296.997.897.8R Z +k 1+k 296.998.398.34.4 基于ICPIF 算法的人耳识别结果查找最近点是ICPIF 算法的瓶颈,本文使用了ANN 代码,它查找一个点的最近点的平均运算复杂度为O (N D ×lb (N X )),其中N X 是原型耳的数据点数,N D 是数据点的维数.则配准一对耳朵的运算344110期陈雷蕾等:快速三维人耳提取与识别①http :ΠΠ Π~cvrl ΠUNDBiometricsDatabase.html复杂度为O (I ter ×N P ×N D ×lb (N X )),其中,I ter 是迭代次数,N P 是测试样本的点数.从运算复杂度公式可以看出,要降低运算时间的方法有降低迭代次数、降低测试样本的点数,以及降低原型耳的点数N X .一方面由于N X 在对数中,对复杂度贡献不大;另一方面如果降低原型耳点数,会使找到的对应点位置精度严重受损,影响配准精度,所以保留所有原型耳数据点.如果估计出一个比较精确的初始配准位置,就能有效降低迭代次数.本文提出的与平均耳对齐的方法有效地解决了耳朵姿态和位置归一化问题,不仅方便了人耳提取,而且给出了一个比较精确的初始配准位置,降低了迭代次数.降低运算时间最有效的方法是减小N P ,而对测试样本进行子抽样能显著减小N P .子抽样符号S n 表示从样本中每n 行n 列取一个点,例如S 4表示从4行4列取一个点,则实际点数下降为原来的116.本文使用了不同的子抽样方式进行实验,结果如表3所示.表3 子抽样方式、迭代次数、识别时间和识别率比较子抽样方式迭代次数运行时间Πs识别率Π%S 86.81.698.3S 47.83.999.5S 38.36.399.8S 28.913.599.8S 19.353.099.8图9 人耳识别和认证的性能曲线 从表3可以看出,随着数据点数的增加,迭代次数和运行时间都显著增加,但识别率在使用S 1,S 2和S 3子抽样后均为最高值99.8%,只有一只耳朵识别失败.这是因为数据集中这只耳朵的测试样本和原型样本存在显著不同,怀疑是由数据采集错误所致,如图8所示.图8 唯一识别错误的一对耳朵本文后面提到ICPIF 算法指标都是使用S 3子抽样得到的结果.4.5 2种识别算法的比较在三维人耳识别阶段,累积匹配特性曲线(cumulative match characteristic curve ,CMC )如图9a 所示.可以看出,基于PCA 算法的识别率为98.6%,基于ICPIF 算法的识别率达99.8%,都比Y an 等[7]得到的97.6%要高.在三维人耳认证阶段,接收器操作特性曲线(receiver operating characteristic ,ROC )如图9b 所示,其中细实线表示错误拒绝率和错误接受率相等的点.可以看出,粗实线比虚线更靠近坐标轴,这说明就人耳认证来说,基于PCA 算法的性能优于基于ICPIF 的算法.在数值上,基于ICPIF 算法的等错误率(equal error rate ,EER )为1.4%,基于PCA 算法的EER 仅为0.5%,优于Y an等[7]得到的1.2%.下面比较不同方法在UND 人耳库UND830数据集上的实验结果.如表4所示,其中EER 是指人耳认证的EER ,由于无法重复其他方法实验系统的硬件环境,本文算法的识别时间仅供参考.可以看出,基于PCA 的算法不论识别率、识别时间还是认证的EER 都显著优于现有的文献.基于PCA 算法的识别速度最快,认证EER 最低,基于ICPIF 算法的识别率最高.4441计算机辅助设计与图形学学报 2009年。
人脸检测和识别技术的文献综述

人脸检测和识别技术的文献综述摘要:通过对关于人脸检测与识别技术方面文献的阅读,本文综述了传统的身份识别,人脸检测和识别技术的背景、意义及国内外发展现状,着重介绍了人脸检测和识别方法。
关键词:人脸检测;人脸识别;子空间分析;核主元分析。
人脸不仅具有很强的自身稳定性和个体差异性,而且直接、友好,相对传统识别,更符合人类的视觉习惯。
一个完整的人脸识别过程一般包括人脸检测和人脸识别两大部分,人脸检测是指计算机在包含有人脸的图像中检测出人脸,并给出人脸所在区域的位置和大小等信息的过程[1],人脸识别就是将待识别的人脸与已知人脸进行比较,得出相似程度的相关信息.这里所指的人脸识别是狭义的识别,是统称的广义人脸识别的一个子过程[2]。
近年来人脸检测和识别技术的研究取得了较大的发展。
1 人脸识别的背景和研究意义身份识别与验证是人类社会日常生活中的基本活动之一。
尽管也许是无意识的,我们每天都要对很多人的身份做出判别,同时,每个人也都要经常通过各种方式和手段证明自己的身份,目前我们大多数情况下仍然依赖于传统的身份验证手段来完成身份识别过程,这些手段包括各类标识物如身份证、学生证等各类证件,钥匙,口令等,然而这些方式使用不方便、不安全、不可靠的缺点不言而喻,证件、钥匙携带不便证件可以被伪造钥匙可能会丢失密码,这些缺点使得它们越来越不能满足现实的需要[3]。
目前广泛使用的依靠证件、口令等传统方法来确认个人身份的技术面临着严峻的挑战,已经不能适应现代科技发展和社会进步的需要[4-6]。
随着社会的发展,信息化程度的不断提高,人们对身份鉴别的准确性和实用性提出了更高的要求,传统的身份识别方式已经不能满足这些要求.生物特征识别利用人类特有的生理特征如指纹,虹膜等或行为特征如签名,声音等进行身份识别。
基于生物特征的身份认证技术是一项新兴的安全技术,也是本世纪最有发展潜力的技术之一[7]。
2 人脸检测和识别技术的发展概况人脸检测是自动人脸识别系统中的一个关键环节,也是极其重要的一步。
人耳识别系统中的定位点选择及检测算法的设计

人耳识别系统中的定位点选择及检测算法的设计黄南天1,杨景景2(1.吉林化工学院信息与控制工程学院,吉林吉林132022;2.哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001)摘要:本文提出了一种新的可应用于人耳识别系统的人耳轮廓定位方法,即利用耳轮脚和耳垂脚两个端点进行定位,在此基础上提出了一种基于轮廓方向的定位点检测算法,并在实验中取得了良好的效果.关键词:人耳识别;人耳轮廓定位;定位点检测算法中图分类号:TP391.42 文献标识码:A 目前主要的生物特征识别技术有人脸识别、指纹识别、虹膜识别、DNA识别、步态识别等.但是,由于对环境的要求太高或其他原因,很多生物特征识别系统没有达到期望效果.学者们正在积极寻找新的识别方法,人耳识别就是其中的一种.人耳识别技术既可作为其他生物识别技术的有益补充,也可以单独应用于一些个体身份鉴别[1].人耳检测定位是人耳跟踪、识别、分析的关键,是人耳进一步特征提取和匹配的基础.其任务是从图像中检测是否有人耳的存在,对检测到的人耳位置进行标定,并在此基础上对图像进行旋转、平移的归一化.通常可以基于人耳结构、形状、肤色等信息,采用主分量分析法(eigenears analysis)、神经网络(neural net w ork)、支持向量机(support vect or machine)等方法实现对图像中人耳位置的检测与标定.目前比较成功的方法主要包括:(1)I annarelli系统(2)形态学特征(3)势能井和势能通道(4)主分量分析法(5)基于傅立叶系数的外耳边缘法等[2]总的来说,目前的研究工作大多采用了手工的图像分割定位技术,或者事先假定耳廓图像是正直的,并未考虑耳廓在图像中的倾斜角度.以上方法显然不能用于人耳自动识别系统,基于对系统速度效率的考虑,仍然使用基于特征点的定位方法,但是要求所选的特征点要对图像的旋转平移保持一定稳定性,同时脱离以往基于解剖形态学模糊的特征点描述方法,使特征点的选取尽可能的稳定准确[3].1 定位点选取自动识别系统中的定位点必须满足如下几个条件:(1)稳定性:定位点的稳定性是指定位点应该在耳廓旋转、平移,或者镜头位置变化时保持相对的不变性.以此为基础才可以对图像进行归一化处理,提高识别率.(2)正确性:定位点的正确性要求每次使用定位点检测算法后都能找到唯一且正确的定位点.(3)明确性:明确性其实是指定位点的定义应该脱离解剖学的几何定义,而是建立在相对明确的数学定义中[4].总的来说,稳定性保证定位点能够定位耳廓,正确性保证定位点每次都能正确地被检测出来,明确性保证定位点检测在算法上容易实现[5].在此选择耳轮脚与耳垂脚两点作为定位点:这两点所形成的直线是耳廓平面与人脸平面的交线,由直线与平面之间的垂直关系可知,如图1所示,耳轮脚与耳垂脚两点形成的直线是垂直于镜头光轴线簇所确定的平面,而由于平面法线上任意两点距离对平面上不同直线来说都是一定的,由刚体运动原理可知,即耳轮脚与耳垂脚两点在由于头部或镜头转动或镜头移动而引起的图像旋转和平移时是保持相对不变性的,也就是满足定位点的稳定性的要求,因此可以作为整个耳廓图像的定位中心点.图1 镜头与耳廓角度变化图再者实验证明不同图像中耳廓与脸颊邻接线上的这两点附近像素往往具有梯度变化大于15的特点,可以很容易利用梯度法得到经过以上两点的耳廓轮廓线模型.由于两个定位点是耳廓与脸颊临界线上的两端点,两点在耳廓线与其延伸线组成的轮廓线上具有比较明显的几何特征:此两点是轮廓线中两个比较强烈的拐点,即轮廓线在此两点出现比较大的曲率变化.因此完全可以跟踪整个轮廓线的曲率变化,确定这两个像素点的坐标.对于任意一个凸多边形,当沿着凸多边形逆时针漫游时,多边形上的点总是向左转的.对于一个非凸多边形,利用近似的Convex Hull 算法,如图2所示.图2 Co nvex Hu ll 算法原理快速的漫游所有的非凸多边形点,找出多边形上所有出现非左平移的点即为此多边形的非凸拐点.根据以上的理论,耳轮轮廓可以近似的拟合为一条非闭合的凸多边形,而耳轮轮廓与耳轮在脸颊部分的延伸线合起来可以近似地拟合为一条非闭合的非凸多边形.这样求耳轮与人脸临界线两端点的问题就变成了求相应的非凸多边形上两个非凸拐点的问题,即所求的定位点即是此非凸多边形上的两个非凸拐点.根据以上算法,可以很容易地在轮廓线中检测出两个定位点坐标,即系统选用的定位点同样满足正确性和明确性的要求.因此,选择耳轮脚和耳垂脚两端点作为耳廓定位点是合理的、正确的.2 定位点检测算法定位点选取的正确性原则,即是定位点必须具有独特的或者说明显的能够区别于其他特征点的特征,能够通过一定的算法快速检测到.这条原则正是为了能够找到一种快速有效的定位点检测算法,因此定位点检测算法实际上就是定位点从物理特征到逻辑特征的抽象和定义过程.在本系统中,作为定位点的耳轮脚和耳垂脚端点是耳轮线及其在脸颊延伸线形成的曲线上的两个曲线拐点.为了正确描述这种曲线特征,在实验中我们把人耳轮廓近似为一个非凸多边形,定位点就变成此非凸多边形上的两个非凸拐点.根据Convex Hull 算法,可以漫游多边形上的每个像素点,判断每个点的运动方向,从而选取其中的非左平移点即为定位点.在算法实现前,首先要定义图像中像素点的运动方向和非左平移判断条件.图像的每个像素点都具有一个二维坐标(X ,Y ),因此像素点的运动方向可以定义为像素点的坐标变化.当从轮廓上的任意一个像素点作为起点开始以某种方向顺序(顺时针或逆时针)漫游整个轮廓时,像素点(X ,Y )及其后继节点(X ’,Y ’)的坐标变化可以定义为(X ’∃X ,Y ’∃Y ).根据X ’与X 的相等、大于、小于关系,可以简单的把X ’∃X 抽象定义为0、∃、+三种关系,Y ’∃Y 同理.从而图像中像素点的坐标变化我们可以归结为八种方向即为:(+,0)、(+,+)、(0,+)、(∃,+)、(∃,0)、(∃,∃)、(0,∃)、(+,∃),如图3所示.对于如何判断非左平移的问题,Convex Hull94 第4期黄南天,等:人耳识别系统中的定位点选择及检测算法的设计 2012-05-16########################2012-05-16########################2012-05-162012-05-16########################2012-05-16########################2012-05-16算法中给出了一种基于极坐标的判断方法,但是图像中的像素点坐标是基于直角坐标系的,为了简化判断条件在算法及相关试验中使用在直角坐标系下的运动方向判断规则.首先要为漫游凸多边形像素点运动方向定义一个方向序列,例如以逆时针顺序遍历凸多边形时,像素点的方向序列可以定义为:{(+,0),(+,+),(0,+),(∃,+),(∃,0),(∃,∃),(0,∃),(+,∃)},整个凸多边形上的点的坐标变化都应该遵循以上的方向序列.实际应用中,判断一个像素点与其前趋点、后继点的坐标变化,如果轮廓线是一个凸多边形则两者的运动方向应该相同或者严格遵守以上序列的循环向前顺序.这样,寻找非左平移点的问题其实变成寻找坐标变化不符合如上条件的点的过程.图3 像素点运动方向人耳耳轮整体上可以近似为一个凸多边形,但是在实际中,由于耳轮上固有的生理突起、外界干扰(痣等对轮廓线的影响)和边缘提取时的误差使得轮廓线并不是严格的凸多边形,因此算法实现中实际遍历轮廓上每一个像素点显然是不可取的.为了解决此类问题,系统中实际使用N×N窗口处理每个像素点,选取相应的前趋点和后继点.窗口大小选择至关重要,太小的话算法能够识别的方向变化范围较小,不能处理一些较大的奇异突起,算法最终可能错误地终止在一个奇异点上;窗口也不能选择得太大,太大的话算法能够识别的方向变化要求较大,因此很容易错误地接受耳轮脚端点这种变化不是那么强烈的拐点,最终找不到正确的定位点.通过实验,选择5×5大小的窗口处理图像.使用5×5窗口处理像素点,只选取位于窗口边缘的零灰度点作为窗口中心点的前趋点或者后继点.在这种处理中,通过窗口内缩减像素点的方向变化量,从而保证算法对奇异点的处理能力.如图4所示,通过这种方法窗口内边缘像素的抖动就可以被消除,而且整个边缘像素点的方向变化程度也可以被消减.为了进一步增加算法对此类问题的处理能力,对于5×5窗口的16个边缘点位置,需要定义某个位置为零灰度时其相对于中心点的位置关系即运动方向.具体的位置关系如图5所示.窗口边缘共16个像素点,在系统中,相对于中心点的位置我们定义如下:3号像素(0,+),4∃6号像素(+,+),7号像素(0,+),8∃10号像素(∃,+),11号像素(∃,0),12∃14号像素(∃,∃),15号像素(0,∃),16∃2号像素(+,∃).从而在选定了相应的前趋点和后继点之后,就可以根据位置关系得出他们的运动方向,然后根据遍历序列判断点的方向变化.图4 窗口像素点位置关系图5 窗口边缘点位置实验过程中,检测中心像素点与前趋点、后继点与中心点的位置关系,然后对比两者,判断是否为定位点.满足如下情况的像素点,系统都接受其为正常的曲线拐点:(1)前后的位置关系相同(方向保持一致);(2)在方向序列上,后继点与中心点的位置关系必须在中心点与前趋点的位置关系的循环之前(遍历遵循方向序列);(3)方向序列上,后继点与中心点的位置关系不能循环提前中心点与前趋点的位置关系超过两位(消除轮廓中过于强烈方向改变).05 吉 林 化 工 学 院 学 报 2008年 2012-05-16########################2012-05-16########################2012-05-16 2012-05-16########################2012-05-16########################2012-05-16如果算法检测到不能满足以上条件的像素点,则算法停止,该像素点即为所求的定位点.算法在具体实现中,需要两个数据结构Pre 2D irecti on 和Sub D irecti on 分别记录中心点相对于前驱点的位置变化、后继点相对于中心点的位置变化,及三个数据结构PrePoint 、MedPoint 、Sub 2Point 分别记录目前窗口的前驱点、中心点和后继点.算法流程如下:(1)首先确定轮廓上任意一点作为算法起点,顺时针方向寻找后继遍历点.MedPoint 和SubPoint 分别记录起点和后继点坐标,Pre D irec 2ti on 记录两点位置关系;(2)窗口中心移动到下一个遍历点.PrePoint =MedPoint,MedPoint =SubPoint,寻找后继遍历点,SubPoint 记录后继点坐标,SubD irecti on 记录窗口中心点与后继点的位置关系;(3)判断Pre D irecti on 和Sub D irecti on 记录的位置关系是否满足上文提到的三个条件,判断该点是否合法;(4)如果是,循环执行(2)、(3)步;(5)如果否,算法终止,输出终结点坐标.实验证明,这种定位方法就有良好的鲁棒性,对噪声以及人耳位置的变化不敏感,为进一步的特征提取打下了很好的基础.根据特征提取的结果分析在不同情况下,系统的定位方法处理噪声和图像位置变换的能力.3 实验结果及分析实验系统在现有的数据库基础上,分别对轮廓定位和特征提取算法进行了测试.在小样本空间每人分别取3个样本共60个样本作测试,对其仅进行同类样本之间比较,目的是测试同一类中的算法精度和误差.实验表明,同一类的样本之间,图像大小为640×480时,定位点检测误差平均在[5,5]的范围内,基本符合轮廓定位的要求.特征向量平均维数AVE 随着极轴数N 的增加而增长.整个系统匹配结果与两个因素有直接关系:极轴数N 和匹配分数阀值TScore .在现有的数据库上,选取30人,每人6幅,共180幅的人耳图样,2个样本注册,其余4个样本认证(N =5,6,7),实验结果如下,见表1所示.从表中可以看出,当N =5时,相应的特征向量维数较小,特征点分布较分散,同一样本的特征不稳定,受随机因素的影响较大,不同对象之间的差别又不明显,因此当匹配分数阀值TScore 变化时,识别率或者说拒识率(FRR )变化相对较小,整体识别率不高,达到50%左右.随着N 的增大,当N 取6或7时,特征向量维数变大,特征点分布变得较为均匀密集,对象的特征较为丰富,包含的关键性特征比较多,因此匹配阀值TScore 引起的拒识率(FRR )变化较大,选取合适的阀值后识别率较高.整个实验中,由于样本数量较少、样本之间差距比较明显,因此误识率(F AR )都比较低.最终,当N =7,TScore =0.36时,达到最佳的识别率67%.表1 不同TS co re ,N 下的FRR 和FARN TScore FRR /%F AR /%50.5049.90.0650.4050.40.050.3656.70.060.5041.30.060.4043.60.060.3644.20.070.5023.72.6670.4030.80.770.3633.30.0样本测试结果如图6所示.图6 算法测试15 第4期黄南天,等:人耳识别系统中的定位点选择及检测算法的设计 2012-05-16########################2012-05-16########################2012-05-162012-05-16########################2012-05-16########################2012-05-164 结 论本文主要介绍的是人耳识别系统中定位点的选择及监测算法.首先简单介绍了人耳识别领域现有几种定位技术,然后介绍了定位点选取的三个原则:稳定性、正确性和明确性.最后详细介绍了本系统中使用的定位技术:选择耳轮脚和耳垂脚端点作为系统定位点,基于Convex Hull 算法使用5×5窗口以逆时针顺序遍历处理每个像素点,选取中心点的前趋点和后继点,通过判断它们之间的位置关系,从而确定定位点的位置.参考文献:[1] 梅中玲.人耳自动识别技术探讨[J ].铁道警官高等专科学校学报,2007,17(2):97-99.[2] 张海军,穆志纯,危 克.人耳识别技术研究进展综述[J ].计算机工程与应用,2004,33(3):5-7.[3] 田 莹,苑玮琦.人耳识别技术研究综述[J ].计算机应用研究,2007,24(4):21-25.[4] K .Chang,K .W.Bowyer,S .Sarkar,B.V ict or .Com 2paris on and Combinati on of Ear and Face I m ages in Appearance 2Based B i ometrics [J ].I EEE Transacti ons on Pattern Analysis and M achine I ntelligence,2003,25(9):1160-1165.[5] A.Rosenfeld,M.Thurst on .Edge and Curve Detecti onfor V isual Scene Analysis [J ].I EEE Transacti ons on Computer,1971,20(5):562-569.Selecti on of the anchor po i n ts and desi gn of the detecti n ga lgor ithm for ear recogn iti on systemHUANG Nan 2tian 1,Y ANG J ing 2jing2(1.College of I nf or mati on &Contr ol Engineering,J ilin I nstitute of Chem ical Technol ogy,J ilin City 132022,China;2.College of Computer Sciences and Technol ogy,Harbin I nstitute of Technol ogy,Harbin 150001,China )Abstract:I n this thesis,a ne w ear cont our l ocalizati on method,which is used in the aut omatic ear recogniti on syste m,is p resented,using r oot points of helix and l obule .And an algorithm of the anchor points detecting based on cont our directi ons is intr oduced,which is p r oved experi m entally .Key words:ear recogniti on;ear cont our l ocalizati on;anchor points detecting algorith m25 吉 林 化 工 学 院 学 报 2008年 2012-05-16########################2012-05-16########################2012-05-162012-05-16########################2012-05-16########################2012-05-16专 业 推 荐↓精 品 文 档。
基于傅里叶变换和K—L变换的人耳识别方法

设 大 小 为 M+N 的 图 像 f ( x , y ) , 其 傅 里 叶 变 换
u , ) : F V ) : 1 u ( u , v ) : )
, , . , y ) =∑ ∑ “ ,
2 + ) 】
滑图像 , 最后将图像经过 K—L 变换后得到低纬的正交基 , 组 成 低维 线 陛空 间 ,特 征 向量就 是线 性 空间 的投 影 。
其 中 ,u=0 , 1 , Z. . . , M 一1 , V=0 , 1 , 2 , …, N一1 ,傅里 叶逆变换得到了空间域的 平 滑干 争 的 图像 ;二维黑 白图像可 以 运用 取整 ,小 幅 度为
基于傅里 叶变换和 K — L变换 的人耳识别方法
张好 朋 孙桂 双 赵 青青 李 玮祥
针 对入耳识 另 H 骞易受到 外界环境 千扰 ,导致 识 n 率 出现 很多偏
差问题 ,提出了基于 傅里叶变换和 K — L变换相结合 的人肆自动识
滤波器
滤波 器对 图像 具 有平 滑作 用 ,在 频率 域平 滑可 以 用低 通 滤波 对高频 信 息进 行衰 减 。 布 特沃 斯低 通滤 波器
零 实现 图像 的重 建 。
图像 的预处理
K — L变换
傅 里叶变换
f ( x , y ) 在 图像 处 理 中 ,经 过 傅里 叶变换 后 ,频 率 变化 较慢 的 直流 分量 ,低频 分量 组 成 了图像 灰 度 平均值 ,频率 变化 较 快 的高频 分 量显 示 了噪 声 的分 布 以及 边缘 强度 的 变
C t @ J A S C I E N C E A N D T E c i N C ) l 』 _ = ) 0 Y I H F O R M A f I O N M a y 2 0 1 5; 丰 } 圜 科 技 信 息2 0 1 5 年 第 0 g 期
人耳识别技术研究综述

标号代表: 1 耳 轮, 2 耳 垂, 3 对 耳轮, 4 耳 甲腔, 5 耳 屏, 6 对 耳 屏, 7 耳轮脚, 8 三角窝, 9 耳屏 间切迹。对于人 耳识别 来说, 在
训 练 和 测 试 时 主 要 是 因 为 耳轮 、耳 屏 和 对耳 屏 产 生 阴 影 而 发 生 变化 [ 2] 。
图像的采集阶段一般通过摄像机或 CCD 照相机采集 一定 数量的人耳 图像, 建 立 人耳 图像 库。预 处理 阶 段通 常包 括 降 噪、增强以及归 一化、去除噪声、进行光照 补偿等处理, 以克 服 光照变化的影响, 突 出人耳 特征。然后 进行边 缘提取 和分割, 提取出人耳轮廓并分割定 位出完 整的人 耳图像。至 于特征 提 取, 不同的方法差别很大。最后是匹配。
1 研究背景
近年来, 生物特征识别越来越多地引起人们的关注。生物 特征识 别 技 术 在 新 安 全 措 施 的 各 个 方 面 均 扮 演 了 重 要 角 色———从安全门禁到恐怖分子的识别。实际上, 人的任何生理 或行为特征只要它满足如下条件, 原则上就可作为生物特征用 于身份鉴别: 这个特征是每个人都应 该有的( 普遍性 ) ; 没有 两 个人是相同的( 唯一性) ; 特征是不随时间改变的( 稳定性) ; 是 可以定量测量的( 易采集性) [ 1] 。目前主要的 生物特征识 别技 术有人脸识别、指 纹识 别、虹膜 识 别、DNA 识 别、步态 识 别等。 但是, 由于对环境的要求 太高或 其他原 因, 很 多生物 特征识 别 系统 没 有 达 到 期 望 效 果 。学 者 们 正 在 积 极 寻 找 新 的 识别 方 法 , 人耳识别就是其中的一种。人 耳识别 技术既 可作为 其他生 物 识别技术的有益补充, 也可以单独应用于一些个体身份鉴别的 场合 。
说话人识别的综述

说话人识别的综述
说话人识别可以分为语音特征和语言特征两种方法。
语音特征是指通过分析声音的频率、时域、能量等参数来区分不同说话人的声音特点。
语言特征则是通过分析说话人的语言习惯、语音特点、语音风格等信息来识别说话人的身份。
此外,说话人识别还可以通过语音识别技术、人脸识别技术、生物特征识别技术等手段来实现。
在技术方法方面,说话人识别主要有基于统计模型的方法和基于深度学习的方法。
前者包括高斯混合模型、支持向量机、隐马尔可夫模型等,后者则包括深度神经网络、卷积神经网络、循环神经网络等。
随着深度学习技术的发展,基于深度学习的方法在说话人识别领域越来越受到关注。
评价指标是评价说话人识别性能的重要标准。
常用的评价指标包括准确率、召回率、F1值、等错误率等。
在实际应用中,还需要考虑识别速度、鲁棒性、可扩展性等因素。
虽然说话人识别技术已经取得了一定的进展,但其仍面临着许多挑战。
如何提高识别准确率、缩短识别时间、降低成本等问题仍需要进一步研究。
另外,在保护个人隐私等方面也需要加强相关的法律法规和技术手段。
- 1 -。
说话人识别方法综述

说话人识别方法综述【综述】随着语音识别技术和人工智能技术的不断发展,说话人识别技术已经逐渐成为了人们研究的热点和难点。
说话人识别技术是指计算机通过语音信号识别说话人的身份,实现自动说话人识别。
在实际应用中,说话人识别技术已经广泛应用于身份认证、声纹加密、电话客服等领域。
本文将就说话人识别技术的算法、特点及应用做一综述。
【算法】1.基于GMM-UBM的方法GMM-UBM(Gaussian Mixture Model-Universal Background Model)方法是一种经典的说话人识别算法,它利用GMM模型对语音信号进行建模,并以通用背景模型(UBM)作为训练数据。
该方法通常用于短时语音信号的识别,准确度较高,但对噪声以及长时语音信号的识别效果较差。
2.基于i-vector的方法i-vector方法是由NIST提出的一种说话人识别算法,它将说话人的隐含向量表示为i-vector。
该方法将说话人的长时语音信号进行建模,具有很好的抗噪性能,但需要大量的训练数据和计算复杂度高。
3.深度学习方法随着深度学习技术的发展,深度学习方法在说话人识别领域得到了广泛应用。
其中,卷积神经网络(CNN)和长短时记忆网络(LSTM)是常用的神经网络结构。
该方法具有很高的准确度和鲁棒性,但需要大量的训练数据和计算资源。
【特点】1. 鲁棒性说话人识别技术在实际应用中需要具有较好的鲁棒性,即能够在嘈杂环境和不同话语语速下识别说话人的身份。
基于深度学习的方法和i-vector方法具有很好的抗噪能力。
2. 精度说话人识别技术需要具有较高的识别精度,能够准确识别说话人的身份。
在精度方面,基于GMM-UBM的方法表现并不理想,而基于i-vector和深度学习的方法可以达到很高的准确度。
3. 训练数据说话人识别技术需要大量的训练数据才能得到较好的效果。
基于GMM-UBM的方法需要大量的训练数据才能获得较高的识别精度,而基于i-vector和深度学习的方法需要更多的训练数据。
基于2D图像的人耳生物特征识别技术研究综述

20 0 8年 l 2月
石 家庄铁路 职业技术学院学报
J R LOFS i I Z U G I S I U E O AIWA E H OU NA Il A H AN T T T FR L Y T C NOL Y J N OG
V 0 L . O. 7N 4
7 5
石家庄铁路职业技术学 院学报
20 08年第 4期
识别 。另 外 ,声音 受健康 状 况影 响,而 耳朵几 乎不受 健康状 况 的影 响 。
12人耳耳廓 图像 自动识别系统 .
人耳识 别 主要包 括 人耳耳 廓识 别 、人耳压 痕识 别、人耳温 普 图识 别。 目前 ,非常活 跃 的研 究方
割定位
2 人 耳识 别 主要 技 术方 法
2 1In aal系统 与 V rn i a n rl i oo o 图的邻接 图匹配 法 14 美 国 Af dIn ael提 出 了基 于几何特 征 的人耳 识别方法 ,它 通过在 一 张放大 的耳 朵 96年 r nrl e a i
图像 上放 置一 个有 8根轮辐 的透 明罗盘 ,然 后在 耳朵周 围确定 1 2个测 量段 ,这些 测量 段加 上种族 、
性 和 有 效性 等 特 点 ,越 来越 受 到人 们 的重视 ,并开 始进 入 我们 社会 生活 的各 个 领 域 。现 在 人 体 生
物 识 别 技 术 的研 究 主要 针 对人 体 的指 纹 、 掌纹 、视 网膜 、虹膜 、脸 部 、声 音 、书 写 、 步态 、签 名
等 生 理 或 行为 特 征来 进 行 。而 人 耳识 别 作为 一 种新 的 生物 特 征识 别 技术 ,正逐 渐 引起 人 们 的注 意
技术,最后对入耳识别 的关键 问题进行探讨和展望。 关键词:入耳识别 特征提取 生物识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于人耳检测的文献1 基于AdaBoost的侧面人脸、人耳检测现今,人脸检测技术的局限性主要存在于侧面人脸检测这方面,本文主要利用人脸人耳的位置关系,用AdaBoost方法进行分别检测,最后人脸检测与人耳检测融合在一起,以提高人脸检测效率。
2 综合肤色模型和多模板匹配增强Adaboost人耳检测为克服传统的Adaboost算法出现的样本训练时间过长、过于依赖样本质量等问题,在训练不足及初始人耳定位不好的情况下,引入YCbCr肤色模型和多模板匹配技术策略对人耳进行精确定位。
实验表明,改进后的人耳检测性能得到较大的提高,对动、静态人耳均能达到准确定位和检测的效果,算法的鲁棒性较好。
3 基于肤色模型的人耳检测系统人耳检测是人耳识别以及基于内容的图像和视频检索的一项重要任务。
本文提出了一种将背景差分和肤色模型相结合的人耳检测算法。
算法首先在序列图像中自动提取运动目标并进行人体检测,然后经过肤色分割进行人耳的粗定位,产生人耳候选区域。
最后利用人耳检测模块判断候选区域中是否含有人耳,以及获得它们的位置、大小等信息。
实验结果表明,该算法是有效的。
4 一种基于改进GVF Snake的自动人耳检测方法近几年对人耳这种生物特征的研究大都只能依靠手工定位和分割人耳,这大大减缓人耳识别技术的实用化进程.文中提出一种人耳自动检测方法.该方法首先利用YCbCr肤色模型和Gentle AdaBoost级联分类器检测出人耳块,然后运用改进的GVF Snake方法提取外耳轮廓.该方法通过构造耳形图,提取非常接近于人耳实际边缘的初始轮廓线,不但节省迭代时间,还提高GVF Snake提取人耳边缘的准确率,在USTB人耳库上获得约97.3%的正确检测率.实验结果表明,该方法具有较好的检测效果和鲁棒性.5 一种内外轮廓加权的人耳检测算法为了提高人耳检测中图像匹配的精确性,提出对内外耳轮廓加权,并利用Hausdorff距离进行人耳检测的算法。
在传统的Hausdorff距离匹配中,图像如果受噪声干扰或边缘不连续等情况,检测结果不理想。
因此为使检测位置更加接近外耳轮廓,需要强调外耳轮廓的作用,这通过对外耳加大权值、对内耳加小权值实现,然后再结合加权Hausdorff距离进行图像匹配计算。
仿真实验表明,提出的算法是有效的。
相比传统Hausdorff距离和平均Hausdorff距离的匹配,人耳轮廓加权的算法更加精确。
6 基于梯度的ROI提取及人耳检测利用人耳区域内梯度幅值较大这一特点,提出基于区域梯度的感兴趣区域(ROI)提取方法,进而利用支持向量机对人耳进行检测。
ROI提取方法计算人耳大小区域的梯度均值,通过设定合适的阈值得到较少的候选区域。
为降低搜索范围,用肤色模型检测人脸区域,然后设计区域梯度值快速搜索算法提取人耳的候选区域。
将提取的候选区域利用主元变换降维后用支持向量机进行分类判别。
实验结果表明此方法是有效的。
7 基于几何结构关键点的人耳检测人耳识别是目前生物特征识别的一种重要技术,外耳图像上最具区分能力的特征就是外耳的形状特征和外耳的解剖学特征,比如对耳轮、耳垂、三角窝等部分。
本文的方法首先将基于灰度识别转化为复杂度比较,从而增强可操作性,然后结合人耳特有的几何特征,进行结构特征基本点的选取,在选取时考虑在局部采用优化算法进行最优化选点,最后抓取选取的最优点进行曲线的拟合,得到人耳轮廓及特征结构。
8 利用Hausdorff距离的快速人耳检测为有效解决人耳检测中的遮挡和光照不均等问题,结合Hausdorff距离的模糊匹配的特点和较强的抗干扰能力,提出基于Hausdorff距离的人耳检测算法.算法首先用肤色模型检测出人脸区域,然后用canny算子提取边缘,并进行距离变换,再构造多分辨率金字塔模型,在不同分辨率层上采用不同的匹配策略进行Hausdorff距离匹配.算法采用多分辨率方法显著提高检测速度,采用部分Hausdorff距离提高它的抗干扰能力.仿真实验结果取得95%的正确率,并且对遮挡和光照不均具有较强的鲁棒性.人耳识别一、基于特征融合的算法:1 基于人脸人耳特征的组合识别人脸受到年龄、表情、化妆品等影响,使人脸识别具有局限性,而人耳正好弥补了人脸的不足,提出了基于正面人脸和人耳相结合的识别方法。
利用二维Fisher线性判别方法分别进行了人脸、人耳、人脸人耳组合识别,其中组合识别包括脸耳相互辅助识别、脸耳图像组合识别、脸耳特征按不同权重组合识别。
在北京科技大学(USTB)人耳图像库和ORL人脸图像库上进行实验,实验结果表明,人脸人耳组合识别的识别效果好于单一的人脸识别和人耳识别。
2 人耳人脸特征融合在身份鉴别中的研究针对单一人耳识别对姿态变化鲁棒性较差的问题,鉴于人脸在图像性质和生理位置上与人耳具有相似性和互补性,使用了多模态特征融合的方法提高姿态变化下的识别率。
与传统的独立成分分析首先获得独立的基向量(ICA1)不同,提出了利用ICA直接获得独立的鉴别特征的方法(ICA2)。
在USTB图像库上分别将两种ICA特征进行单模态和多模态的融合。
实验表明,两种特征的融合提高了单一模态的识别率,并且多模态识别优于单一的人耳或人脸识别。
3 基于特征融合的人脸人耳多生物身份鉴别针对人头旋转时单一人脸识别率较差的问题,基于人脸与人耳位置上的关联性,提出人脸人耳多生物特征级融合的身份鉴别方法以克服姿态带来的影响.首先采用传统独立成分分析(ICA)方法及其变形分别提取出图像的局部和全局特征,然后将这2种互补的特征进行多模态加权串联融合,并采用基于非线性核函数的主元分析法(KPCA)降维.在USTB图像库上的实验表明,2种独立成分特征具有很好的互补性,多生物识别大大优于单一生物识别,且提出的核非线性降维方法进一步改善了识别性能.4 基于CCA的人耳和侧面人脸特征融合的身份识别鉴于人耳和人脸特殊的生理位置关系,从非打扰识别的角度出发,提出仅采集侧面人脸图像,利用典型相关分析的思想提取人耳和侧面人脸的关联特征,进行人耳和侧面人脸在特征层的融合。
实验结果表明,此方法与单一的人耳或侧面人脸特征识别比较,识别率得到提高。
5 人耳和侧面人脸融合的多模态身份识别首先分别对人耳和侧面人脸建立基于全空间线性判别分析(FSLDA)的分类器;然后采用贝叶斯决策理论中常见的积、和、中值多分类器融合算法,并对投票算法进行了改进。
实验结果表明,与单一的人耳或侧面人脸特征识别比较,人耳和侧面人脸融合的多模态识别率得到提高,并扩大了识别范围。
6 基于ICA的非线性自适应特征融合的人耳识别针对单一特征的人耳识别对旋转角度鲁棒性差的问题,提出一种非线性自适应特征融合的方法.首先提取人耳的2种具有互补性质的独立成分特征,然后将它们加权串联形成高维融合特征;最后通过核主元分析方法实现非线性降维.实验结果表明,当人耳有姿态旋转时,融合特征较单一特征的识别率有显著提升,且文中方法比传统的串联融合的识别结果更好.7 基于KCCA的特征融合方法及人耳人脸多模态识别针对非打扰识别问题,鉴于人耳人脸特殊的生理位置关系,提出一种基于二者信息融合的多模态生物特征识别方法.该方法首先采集侧面视角人脸图像,然后将核方法引入到典型相关分析(CCA)中,提出基于核CCA的特征融合方法,并应用其提取人耳人脸的关联特征进行个体的分类识别.仿真实验结果证明了基于KCCA的特征融合方法的有效性.与人耳或侧面人脸单一模态的识别相比,基于人耳人脸的多模态识别的性能显著提高,这为非打扰式生物特征识别提供了一条有效途径.8 基于特征融合的人耳识别分析Zernike矩人耳特征提取和非负矩阵分解(NMF)人耳特征提取的利弊。
将线性判别分析的思想融入到NMF算法中,对传统的NMF方法进行改进。
介绍一种融合特征人耳识别方法:将Zernike矩和传统非负矩阵分解融合提取人耳特征,得到一个分类能力更强的人耳特征矩阵,并采用BP神经网络进行分类识别,实验结果表明,应用融合特征方法提取人耳图像特征,可以提高识别效果。
9 基于特征融合的人脸人耳多生物身份鉴别针对人头旋转时单一人脸识别率较差的问题,基于人脸与人耳位置上的关联性,提出人脸人耳多生物特征级融合的身份鉴别方法以克服姿态带来的影响.首先采用传统独立成分分析(ICA)方法及其变形分别提取出图像的局部和全局特征,然后将这2种互补的特征进行多模态加权串联融合,并采用基于非线性核函数的主元分析法(KPCA)降维.在USTB图像库上的实验表明,2种独立成分特征具有很好的互补性,多生物识别大大优于单一生物识别,且提出的核非线性降维方法进一步改善了识别性能.二、基于向量机1 基于粗糙集和支持向量机的人耳识别人耳识别技术是以人耳作为识别媒体来进行身份鉴别的一种新的生物特征识别技术,具有相当的理论研究价值和实际应用前景。
传统的人耳识别方法是运用人耳图像的几何特征进行识别的,由于角度等条件的变换使识别的准确性大大降低。
为此,提出了运用几何特征比值的方法和纹理特征来进行特征数据的预处理。
文中采用粗糙集理论对所得属性数据进行约简,去掉冗余的信息。
不仅简化了后继的运算,而且提取出重要的信息。
再把得到的信息分为支持向量机的训练集和识别集,用支持向量机进行分类识别。
实验及实际应用表明了支持向量机应用于人耳图像识别的优越性,同时也进一步验证了人耳作为一种生物特征用于个体识别的可行性。
2 基于LDA/GSVD和支持向量机的人耳识别针对人耳图像自身的特点并通过对现有方法的研究,提出了一种先利用LDA/GSVD算法对样本图像进行特征提取,然后运用SVM分类器对样本向量进行分类的人耳识别方法.此外,还对线性判别分析、广义奇异值分解和支持向量机的相关内容做了简要介绍.实验表明,LDA/GSVD很好地解决了在高维、小样本的情况下,使用Fisher线性鉴别分析的特征提取方法存在的病态奇异问题,把它与支持向量机有机地结合起来,构成了一种有效的人耳识别新方法.3 基于KDA/GSVD和支持向量机的人耳识别在高维、小样本的情况下使用Fisher线性鉴别分析的特征提取方法存在病态奇异问题,学者们提出了许多解决此问题的方法。
针对小样本问题,并通过对现有人耳识别方法的研究,提出了一种利用KDA/GSVD算法对图像数据进行降维,运用SVM分类器对样本进行判别的人耳识别方法。
此外,还对线性判别分析、广义奇异值分解和支持向量机的基本理论等内容做了简要介绍。
实验证明,KDA/GSVD 很好地解决了由于小样本的问题而导致的LDA算法中类内离散度矩阵不可求逆的问题,把它与支持向量机有机地结合起来,构成了一种有效的人耳识别新方法。
三、基于小波1 基于小波变换和规范型纹理描述子的人耳识别在带有角度的人耳图像上提取有效特征一直是人耳识别的难点.本文提出一种基于Haar小波变换和规范型纹理描述子的人耳识别方法,即先对人耳图像进行Haar小波变换,然后利用更加合理的规范型纹理描述子,同时结合分块与多分辨率思想,共同描述经Haar小波变换后人耳子图像的纹理特征,最后用最近邻分类器进行分类识别.实验结果表明,Haar小波变换可以有效增强图像纹理基元的有效信息;利用规范型纹理描述子提取特征不仅速度快,而且具有很强的鲁棒性,尤其与分块、多分辨率方法相结合时,效果更为显著,明显优于经典的PCA和KPCA 方法.2 基于小波变换和LDA/FKT及SVM的人耳识别人耳识别技术是生物特征识别和人工智能领域的一个重要分支。