基于特征融合人脸识别

合集下载

基于特征融合的多模态身份识别方法研究

义，后发展成为短时傅里叶变换（ｏｔｉＦｕｉｔｎｆｒ之ｓｒｍｅｏｒｒｒｓｍ，ｈｔｅａｏ
ＳＦ）其基本思想是对信号加窗，后对窗口内的信号进行ＴＴ。然
傅里叶变换，此它可以反映出信号的局部特性。后来Ｄｕ因ａ・ｇｎ将其扩展为二维形式，ＤＧｂｒ波器可以达到空域与ｍａ２ａｏ滤频域的局部最优化，空间局部化的同时可以获得很好的方在向和频率选择性，些性质对图像纹理分析具有重要的意义。这掌纹的主线、线、突纹等３纹线，脸中的眉毛、睛、皱乳类人眼
０引言
生物认证技术是利用人体固有的生理特征，如人脸、人
方法应用比较普遍，实际上，征级的融合方法也有其独特而特
的优势，不仅能保留参与融合的多特征有效鉴别信息，能它还
程师，研究方向为物证鉴定、刑侦技术；商琳（９３，女，河北曲阳人，博士，副教授，研究方向为数据挖掘、机器学习；高阳（９２，１７一）１７一）
男，江苏淮阴人，教授，博士生导师，研究方向为人工智能、图像处理。Ｅｍａｌｌｇ１６ｌ．ｕｃ — ｉｉｌ２＠ｙｓｅ．：ｎｙｄｎ

如何使用AI技术进行智能化人脸识别与身份验证

如何使用AI技术进行智能化人脸识别与身份验证智能化人脸识别与身份验证是一种利用AI技术来识别和验证人脸信息的高级技术。

它广泛应用于各个领域，包括安全监控、金融交易、手机解锁等。

本文将介绍如何使用AI技术进行智能化人脸识别与身份验证，并对其原理和发展趋势进行探讨。

一、智能化人脸识别技术介绍1.1 什么是智能化人脸识别智能化人脸识别技术将传统的基于图像处理的人脸识别方法与机器学习相结合，通过深度学习神经网络模型，能够准确地提取并匹配出独特的面部特征，并根据特征比对结果来进行身份认证。

1.2 智能化人脸识别的原理智能化人脸识别主要包括两个步骤：特征提取和特征匹配。

首先，通过卷积神经网络（CNN）等深度学习模型，将人脸图像转换成数字矩阵，并提取出高维度的特征表示。

这些特征表示能够准确地反映人脸的形状、纹理、轮廓等信息。

其次，将提取得到的特征与数据库中存储的人脸特征进行比对，通过计算相似度或距离来确定是否匹配成功。

常用的比对方法有欧氏距离、余弦相似度等。

二、智能化人脸识别在身份验证中的应用2.1 安全监控领域智能化人脸识别技术在安全监控领域得到广泛应用。

它可以通过分析视频流或图像数据中的人脸信息，实时识别出陌生人员或可疑行为，并向相关部门发送警报，加强对公共场所的安全管理。

2.2 金融交易领域在金融交易中，智能化人脸识别技术被用于身份验证和防止欺诈行为。

用户在进行网上银行交易或支付时，系统会通过摄像头获取用户面部图像，并与事先注册的人脸特征进行比对，以确保交易过程的安全性和真实性。

2.3 手机解锁与支付领域智能手机现已广泛采用人脸识别技术来解锁设备和进行支付操作。

用户只需要通过正面摄像头将自己的面部对准屏幕，系统即可快速识别并解锁，提供便捷的用户体验，并加强设备的安全性。

三、智能化人脸识别技术的优势和挑战3.1 优势智能化人脸识别技术具有以下几个明显优势：- 高准确性：深度学习模型使得人脸识别的准确度大大提高，极大程度上避免了传统图像处理方法中对光线、姿态等因素的影响。

手机人脸识别原理

手机人脸识别原理
手机人脸识别技术是一种通过手机摄像头对用户脸部特征进行检测和分析，从而确定用户身份的技术。

它主要基于以下原理：
1. 提取脸部特征：手机摄像头拍摄用户的脸部图像，并通过图像处理算法将图像中的脸部特征提取出来。

这些脸部特征可以包括人脸的轮廓、眼睛、嘴巴、鼻子等部位的位置和形状信息。

2. 特征比对和匹配：将提取的脸部特征与事先存储在手机内部的特征模板或数据库中的特征进行比对和匹配。

这些特征模板通常是通过用户在手机上进行人脸注册时生成的，其中包含用户脸部特征的数学描述。

3. 人脸比对算法：手机人脸识别技术还依赖于一系列人脸比对算法，例如相似度计算、特征融合等。

这些算法可以通过将提取的脸部特征与特征模板进行比对，计算相似度得分，并确定用户身份。

4. 图像采集和预处理：手机在进行人脸识别时需要对图像进行采集和预处理。

采集时需要保证光线条件充足，并采集多张角度不同、表情不同的图像以增加准确性。

预处理阶段主要包括人脸检测、人脸对齐、图像增强等步骤，以提高对脸部特征的提取和匹配的精度。

5. 脸部识别模型的训练：为了实现准确的人脸识别，手机人脸识别系统需要经过大量的数据训练。

数据集通常包含各种光照条件下的人脸图像，用于训练人脸识别模型。

这些模型可以通
过机器学习和深度学习方法进行训练，以提高人脸识别算法的准确性和鲁棒性。

综上所述，手机人脸识别技术通过摄像头采集用户的脸部图像，提取脸部特征，并将其与事先存储的特征模板进行比对和匹配，从而实现对用户身份的识别。

这项技术在手机解锁、支付安全、人脸表情识别等领域具有广泛应用。

基于增强特征融合网络的行人重识别方法

第33卷第2期计算机辅助设计与图形学学报Vol.33No.2 2021年2月Journal of Computer-Aided Design & Computer Graphics Feb. 2021基于增强特征融合网络的行人重识别方法刘玉杰1), 周彩云1), 李宗民1), 李华2,3)1) (中国石油大学(华东)计算机科学与技术学院青岛 266580)2) (中国科学院计算技术研究所智能信息处理重点实验室北京 100190)3) (中国科学院大学北京 100049)(****************.cn)摘要: 针对行人重识别技术受遮挡、背景冗余、光照、姿态以及检测误差等问题的影响, 鲁棒的行人特征表达对正确检索行人越来越重要. 为了利用对齐特征和度量学习的优势, 进一步分析局部空间语义特征. 首先, 在特征层面: 一是在ResNet50框架中嵌入空间变换结构, 自适应对齐局部区域空间特征, 解决因局部区域不对齐导致的空间语义不一致的问题; 二是通过对齐的局部特征设计一种增强特征融合网络, 充分利用语义信息间的关联性提取图像的细节特征. 然后, 在损失函数层面: 提出一种排序矩阵方法选取区域样本对, 设计了一种局部三元组损失计算方法, 联合正则化分类损失共同训练网络, 充分利用融合的增强特征, 达到高效度量的效果. 最后, 文中方法结合现有的重排算法进一步提高了Rank-1与mAP检索精度, 在行人重识别基准数据集Market-1501上的实验结果, 证明了本文方法的有效性.关键词: 空间语义特征; 增强特征融合网络; 排序矩阵; 局部三元组损失中图法分类号: TP391.41 DOI: 10.3724/SP.J.1089.2021.18303Strong Feature Fusion Networks for Person Re-IdentificationLiu Yujie1), Zhou Caiyun1), Li Zongmin1), and Li Hua2,3)1) (College of Computer Science and Technology, China University of Petroleum, Qingdao 266580)2) (Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing100190)3) (University of Chinese Academy of Sciences, Beijing 100049)Abstract: With the development of deep learning, the performance of person Re-Identification (Re-ID) has been significantly improved. It’s still a challenging task due to the challenges coming from large variations on persons such as occlusion, background clutter, pose, illumination and detection failure, etc. To retrieve true pedestrians, robust feature expression is significant. Instead of using external cues, this paper takes advantage of robust align-ment features and metric learning. First, from the aspect of feature extraction, there were three contributions. (i) Embeded a spatial transformer network in the network architecture, which is called ResNet_STN in this paper, which can solve the problem of local spatial semantic feature inconsistency, accurately express the main charac-teristics of the target, and achieve pedestrian alignment. (ii) Designed a strong feature fusion network based on the aligned local features, which is named a Strong Feature Fusion Module (SFFM) and can make full use of the connection between semantic information to extract detailed features of images. Then, from the aspect of metric loss function, one contribution was put forward. (iii) Proposed a Ranking Matrix (RM) method to select local收稿日期: 2020-04-07; 修回日期: 2020-06-29. 基金项目: 国家自然科学基金(61379106, 61379082, 61227802); 山东省自然科学基金(ZR2013FM036, ZR2015FM011). 刘玉杰(1971—), 男, 博士, 副教授, CCF会员, 主要研究方向为计算机图形图像处理、多媒体数据分析、多媒体数据库; 周彩云(1995—), 女, 硕士研究生, 主要研究方向为行人重识别、图像检索; 李宗民(1965—), 男, 博士, 教授, 博士生导师, CCF会员, 主要研究方向为计算机图形学、图像处理、模式识别、科学计算可视化; 李华(1957—), 男, 博士, 研究员, 博士生导师, CCF会员, 主要研究方向为计算机图形图像处理.第2期刘玉杰, 等: 基于增强特征融合网络的行人重识别方法 233triplet samples and compute local triplet loss. We combined a regularized classification loss to train the network to unleash the discrimination ability of the learned strong representations of this network architecture. Finally, the proposed method with the existing re-ranking algorithm to further improves Rank-1 and mAP retrieval accuracy. Experimental results on Market-1501 dataset demonstrate the effectiveness of our proposed method.Key words: spatial semantic feature; strong feature fusion networks; ranking matrix; local triplet loss随着互联网技术的不断进步, 人脸识别[1]、目标追踪[2]以及行人再识别[3]等行人智能认知技术日益发展, 并逐渐用于商业应用. 行人重识别(person re-identification)任务旨在给定1幅行人的查询图像, 在大规模的行人数据中检索出不同摄像头下拍摄的与其最相似的前k幅图像, 被视为一种跨摄像头的图像检索[4]任务. 由于训练数据与测试数据的行人身份不重合, 所以也看做一种零样本学习[1]问题. 该技术可以与行人检测[5]、目标跟踪[2]等技术结合应用于智能视频监控、智能安保、智能交通等领域. 在现实场景中, 如刑侦破案以及特定场景下的识人、寻人问题上具有广泛的应用前景.随着深度学习的不断发展, 在计算机视觉领域更深层的网络[6]被应用到行人重识别任务中, 优化了识别效果. 但随着更深层网络的提出, 底层细节信息随着卷积层的加深往往会丢失. 同时, 受背景冗余、遮挡、光照、摄像头拍摄角度、运动模糊和检测误差等问题的影响, 导致行人图像间的差异很大, 不易区分. 由此, 提取鲁棒的行人特征表示[7-9]以及应用高效的相似性度量方法[10-13]仍是重中之重.(1) 特征层面. 目前, 在有监督行人重识别任务中, 为了提取更具判别力的行人特征, 全局特征通常会联合局部特征共同表征行人的整体信息, 但由于背景冗余、遮挡和摄像头拍摄角度不同, 会带来极大的局部区域偏差, 导致局部语义空间不一致的问题. 本文在不引入额外的姿态估计模型以及关键点信息的前提下, 通过嵌入空间变换结构解决行人图像间区域不对齐的问题. 为进一步表达图像局部区域之间的关联性并提取目标区域的显著性特征, 本文利用对齐的相邻区域设计了增强特征融合模块(strong feature fusion module, SFFM), 在不引入其他模型的情况下粗定位行人的关键区域, 增强网络的判别力.(2) 损失层面. 行人重识别作为一种分类任务, 常用交叉熵计算分类损失; 同时作为一种检索任务, 常用对比损失[11]、三元组损失[10,12]以及四元组损失[13]进行样本间的相似性度量. 为充分地利用融合网络提取的对齐增强特征, 本文采用分类损失和三元组损失训练网络, 提出一种排序矩阵(ranking matrix, RM), 根据特有的监督信息选取局部三元组样本, 设计了一种局部三元组损失计算方法. 同时考虑行人重识别作为一类特殊的检索问题, 即训练数据与测试数据中行人身份不重合, 为避免训练过程中过拟合现象的发生, 采用一种正则化的分类交叉熵损失, 进一步解决类内差异大、类间差异小的问题.本文根据网络框架输出的对齐特征, 设计3层级SFFM方法, 以增强特征的鲁棒性和表达能力; 同时提出RM方法选取三元组区域样本对, 并设计一种局部三元组损失计算方法准确度量样本间的相似性, 以达到正确聚类的效果; 整合新的网络框架ResNet_STN, 在经典的行人重识别数据集Market-1501上, 将现有的重排算法引入到本文方法中, 优化检索结果并进一步提高了检索精度.1 相关工作1.1行人重识别行人重识别作为一类特殊的检索问题, 一般是通过对数据图像进行特征提取, 获得其特征表示, 然后投影到特定的度量空间中进行相似性度量, 并依据相似性距离进行排序, 最终得到检索结果. 目前, 基于深度学习的行人重识别[14]发展迅速, 并逐步向限制场景下的应用阶段迈进. 近3年在计算机视觉会议CVPR, ICCV, ECCV发表的行人重识别方向的论文, 多数依旧是在特征表达以及相似性度量方面做工作, 但也有少量工作开始转向无监督跨域迁移, 利用生成对抗网络解决数据少、遮挡、视角变换等严峻问题, 有效提高了行人重识别的检索精度. 但是, 无论是在有监督的行人重识别还是解决无监督数据域分布问题上, 严峻的挑战依旧存在, 如行人换衣、姿态各异以及域风格适应问题仍然没有得到很好的解决. 因此, 如何设计网络结构提取更加鲁棒的行人特征, 以及寻找最优的度量学习方法匹配不同行人间的相似程度依旧是行人重识别中研究的重点.234 计算机辅助设计与图形学学报第33卷1.2增强特征融合为提取行人的显著性特征以及图像中具有判别力的属性特征(衣服LOGO、配饰、背包等), 大部分工作开始融合全局特征与局部特征, 但由于数据集中的行人图像存在背景冗余以及遮挡的情况, 所以局部特征的引入会带来特定区域的不对齐问题, 导致特征表达上的空间语义不一致. 语义一般针对图像数据而言, 一致是要求提取的特征具有一定的联系性. 在行人重识别任务中, 由于拍摄角度、场景变化、运动模糊等带来的不同图像中同一行人的部位不对准则会导致不同图像在空间上的语义特征表达不一致, 进而影响行人重识别的性能. 由此, Wei等[15]通过引入额外的姿态估计模型进行语义空间对齐, 虽然融合对齐后的局部特征提高了精度, 但额外模型的引入也带来了新的模型误差以及计算量. Li等[16]采用注意力机制的方法定位行人的关键区域, 增强目标的特征表达, 提取显著性特征来实现图像局部空间一致性, 但忽略了有用的边缘细节信息, 缺少语义信息间的关联性, 且这类方法一般需要额外的标注信息. 2017年, Zhang等[17]直接采用分块的方法学习局部区域特征并提出利用最短路径解决局部空间语义不一致的问题. 同年, 在Sun等[7]提出的基于局部区域的卷积基线(part-based convolutional baseline, PCB)网络中, 虽然利用简单的分块方法PCB取得了不错的检索效果, 但其前提条件是假设数据集中的行人图像对齐, 这忽略了行人图像中存在的背景冗余以及遮挡等问题带来的影响; 提出的局部池化优化(refined part pooling, RPP)方法需要进一步微调, 且不能端到端训练网络.针对以上问题, 本文在ResNet50框架中嵌入空间变换结构实现对齐, 主要针对输出的对齐特征设计了一种增强特征融合模块. 该模块分为3层级特征: 第1级特征提取行人的整体全局特征; 第2级特征提取行人空间分块区域的局部特征; 第3级特征利用对齐局部相邻区域的融合提取行人图像中的关联性特征, 充分利用了语义信息间的关联性达到弱注意力机制的效果, 既不需要大量的标注信息, 也不需要引入额外的姿态关键点模型.1.3相似性度量相似性度量旨在采用一种抽象的距离方式去刻画图像之间的相似程度. 在行人重识别任务中, 主要是将图像特征编码到欧几里得空间中, 根据样本间的欧几里得度量优化损失函数, 通过将函数最小化来控制正样本对,a pd以及负样本对,a nd之间的距离, 最终达到拉近正样本对、推开负样本对的效果, 即,,a p a nd d. 2014年, Yi等[18]在行人重识别问题上首次提出用一个统一的框架联合特征提取与度量学习进行端到端学习. Schroff等[10]首次将三元组损失引入到人脸识别领域并取得了突破性进展. 为提高网络的泛化能力以及收敛速度, Hermans等[12]选取困难样本三元组来更好地表达类内、类间的结构分布, 从而加快网络的训练速度并提升相似样本的区分能力. 目前, 度量学习在计算机视觉任务中非常有效, 在目标检索[4]、零样本学习[1]和人脸验证[10]等方向均有广泛应用.本文考虑三元组损失带来的过拟合、泛化能力差的问题, 采用困难样本三元组损失[12]作为相似性度量优化函数. 在充分拟合的基础上, 加入局部融合特征并计算其之间的相似性距离, 最终将设计的局部三元组损失联合类别约束进一步提升了网络对行人图像的区分能力.1.4重排算法重排算法(re-ranking, RK)旨在再次对检索排序结果进行重新排序. 本文采用基于k互近邻方式的重排算法[19], 在局部查询扩展方法基础上, 计算原始距离与杰卡德距离的加权集合作为最终的检索距离排序列表, 有效地降低了图像错误匹配的情况, 具体算法详见文献[19].2 本文方法针对行人重识别面临的挑战, 本文进一步探索局部语义信息之间的关联性, 提出一种基于增强特征融合网络的行人重识别方法. 搭建网络框架并在卷积层中引入空间变换结构, 以提取语义一致的局部特征; 设计新型融合模块, 以利用邻近区域的关联性信息提取到更强判别力的特征; 引入局部三元组损失计算方法, 并采用矩阵存储的形式, 以保留邻近区域的监督信息; 最终对3层级特征分别计算三元组损失和分类损失来约束样本间的相似程度, 进而达到正确检索行人的目的. 整体框架如图1所示, 主要由2部分构成: 嵌入空间变换结构的残差网络框架ResNet_STN和增强特征融合模块SFFM, 后者是本文的主要创新. 使用在ImageNet上预训练的ResNet50模型, 包括5个ResBlock模块和全局平均池化层(global average pooling, GAP), 每个ResBlock模块包括卷积层、归一化层、激活层(激活第2期刘玉杰, 等: 基于增强特征融合网络的行人重识别方法 235函数采用ReLU)以及最大池化层, 通过移除最后的全连接层并根据行人类别数目增加对应映射的全连接层来预测行人类别概率. 在框架ResNet_STN 中, 利用输出的4ResBlock 的特征图作为空间变换结构的输入, 输出的M 个对齐局部特征在SFFM 中得到进一步的分析和利用. 在测试阶段将融合后的特征作为最终的行人检索特征, 进行相似性度量获得检索结果.图1 本文方法框架图2.1 网络模块(1) ResNet_STN. 选择在动作识别、图像检索等计算机视觉任务中取得显著成果的ResNet50网络结构作为本文模型的基本框架. 为解决引入局部特征带来的问题以及更好地利用本文提出的增强特征融合模块, 在该网络中嵌入可微分的空间变换结构[20]. 如图1所示的灰色虚线框, 在ResNet_STN 中引入了空间变换结构. 空间变换结构作为一种轻量级的通用模块, 可以无缝集成到任何网络架构中, 使神经网络能够主动变换特征图, 实现对网络内的数据仿射变换的操作, 该结构不需要额外关键点的标定, 能够根据分类任务自适应地将数据进行空间变换和对齐. 空间变换结构主要包含定位网络(localization net, LN)、网格变换以及线性采样3个组成部分, 将ResNet50输出的4ResBlock 的特征图作为输入, 利用LN 得到的M个空间位置参数, 根据空间变换计算得到对应的仿射变换参数12=[,,,]M θθθθ , 最后利用双线性插值方法实现局部区域位置的对准. 在本文实验中, LN 由1个卷积层和2个全连接层构成, 其他部分设置参考文献[20], 最终提取到局部空间语义一致的对齐特征, 并在核心方法SFFM 中得到利用.(2) SFFM. 如图2所示, 对于数据集中的多数样本而言, 同类目标虽然在外观上呈现多样性, 但具有相同的深层语义特征; 不同类目标之间, 即使外观有一定的相似性, 其语义却不相关, 因而利用分类模型便能很好地将行人,,A B C 进行归类识别. 但对于数据集中极为相似的样本, 如图2中行人C 的分类样本, 红色方框中的图像与行人C 外观相似、网络提取的语义特征也相似, 故将其错误分类.由此, 利用全局语义特征进行分类很大程度上会受限于数据集样本情况.为进一步提取样本间的显著性特征提高网络的区分能力, 设计了图1中红色虚线框中的SFFM 方法, 如图3所示. 根据ResNet_STN 输出的M 个对齐局部特征②, 除了将其全部融合作为全局特征①之外, 为表达图像局部区域之间的关联性, 本文进一步分析和利用M 个局部特征, 将相邻局部区域特征再次融合作为增强特征③, 最后融合特征①②③作为最终的检索行人特征. 在第3层级特征中, 增强特征融合后经过一个平均池化层GAP 得到M '个列向量, 其中, 2M M '=. 随后经过ϕ操作降低特征维度, ϕ由1个1×1卷积层、归一化层和激活层(激活函数采用ReLU)构成. 最后, 特征向量输入到由全连接层FC 和Softmax 函数构成的分类器中, 从而预测行人类别概率. 具体地, 损失部分见第2.2节. 第3.4节实验中, 在全局特征融合M 个局部特征的基础上, 验证了第3层级增强特征的进一步融合切实有效地提高了检索精度.图2 利用全局特征分类行人图像示意图236计算机辅助设计与图形学学报第33卷图3 增强特征融合模块结构图2.2 损失函数为了充分利用增强的融合特征来度量行人图像间的相似性, 本文采用正则化的分类损失以及三元组损失联合训练网络, 并使用梯度下降算法使得损失函数不断下降来进行优化, 最后在特征空间实现类内距离足够小、类间距离足够大的效果, 从而准确分类并检索出不同摄像头下的相似行人. 2.2.1 正则化分类损失在训练过程中, 对每个行人的图像x 做预测分类, 计算分类损失. 本文采用基于Softmax 激活函数的交叉熵损失训练分类器, Softmax 激活函数表示为1ee jnz j N zn P ==∑ (1)其中, N 为训练集类别总数; z 表示分类层输出得分, T j j z x=W ,T n n z x=W . 对于行人,1,2,3,,j j N ∈ , 其类别的概率为j P . 交叉熵分类损失为lsid1log()Nj j LP φ==-∑ (2) 本文考虑到行人重识别中训练与测试数据的行人身份不重合, 为避免过拟合现象的发生, 在原有的标签平滑(label-smoothing, LS)[21]方法基础上采用φ函数, 即,1,y jNy jN δφδδ⎧≠⎪⎪=⎨⎪-+=⎪⎩(3)并在本文网络中取得很好的效果. 其中, φ表示目标概率; 若y 表示的真值标签与j 相等, 则目标概率值较为接近1, 反之接近0; δ为常数, 在实验中设置0.1δ=. 在控制损失较小的情况下, 通过φ函数的引入, 一是提高模型的泛化能力, 防止过拟合现象的发生; 二是通过δ值控制分类预测值大小, 在一定程度上缩小了不同类别之间的差距, 提高分类任务的挑战性.如图3所示, 训练过程中, SFFM 方法中的全局特征以及()M M '+个局部特征分别计算分类损失, 最终的正则化分类损失为cla lsid lsidlsid 11111+= log() log()log()NG m m j j N M N M m m j j j m j m L L L L P P P φφφ'='''=====+-+-+-∑∑∑∑∑(4)2.2.2 三元组损失在三元组集合={,,}a p n S X X X 中, (,)a p X X 构成一对正例, 即表示同一行人的2幅图像,(,)a n X X 构成一对负例, 表示不同行人的2幅图像.相似性度量旨在优化函数达到让相似正样本对a X 与p X 之间的距离小于负样本对a X 与n X 之间距离的效果. 三元组损失公式为()()(()())22trip,,221 a p na p X X X a n L f X f X N f X f X γ+=---+∑(5)其中, trip N 表示三元组总数; , , a p n X X X S ∈; ()f ⋅为网络输出的特征; ()+max(,0)=⋅⋅. 通过最小化L , 达到拉近正样本、推开负样本的效果.考虑三元组损失中简单与困难样本的选取对网络模型具有重要作用, 且不同的采样策略对全局特征与局部特征的表征分布会有不同影响. 由此, 为使三元组损失函数在训练过程中更有效, 加快网络训练速度的同时提升对相似图像的区分能力, 采用困难样本三元组损失函数[12], 即通过欧几里得度量选取相同标签下距离最远的一对为正例, 以及不同标签下最近的一对为负例, 它们作为困难三元组样本[22]. 在一个批次处理中选取P 个行人的K 幅图像, tripN P K '=⨯. 由于硬件条件限制, 最大取trip64N '=, 困难样本三元组损失函数计算公式为()()()()2trihard21,,112a21,,1,, max minP Kii a p p Ki a i l nn K l P l iLf X f X fX f X γ===+==≠⎡=---⎢⎣⎤-+⎥⎦∑∑ (6)第2期刘玉杰, 等: 基于增强特征融合网络的行人重识别方法 237在SFFM 方法中, 选用第1级特征和第3级特征做三元组损失, 为了避免网络训练过程中收敛速度慢, 没有用到第2级特征进一步联合损失计算. 如图3所示, 第1级特征计算全局三元组损失gt L , 即式(6). 图3中, 对于全局特征①, 对号表示利用ϕ操作之前的特征向量计算相似性, 而非叉号表示的归一化后的向量计算. 针对第3级特征, 提出一种RM 方法选取三元组区域样本对, 并计算局部三元组损失lt L , 对号表示利用第3级增强融合的特征计算lt L , 而不是利用叉号表示的第2级特征.(3) RM. 针对SFFM 方法中的第3级特征, 采用经过ϕ操作之后的归一化特征2[0,1]x y f f ''-∈计算一个批次大小tripN '中M '个局部特征之间的欧几里得度量, 归一化后的特征距离d 构成RM, 即{}22,e 1 ,1,2,,e +1x y x y f f x y f f d x y M ''''-''--'''=∀= (7) RM 表示为111RM ,1 = M x y M M M d d d d d ''''''⎡⎤⎢⎥⎢⎥⎢⎥⎣⎦M .RM 按序存储, 由此会保留一定的监督信息.选出RM M 中正样本对与负样本对下的对应区域的最小值, 即对角线区域,1,2,,mm d m M '∈ , 计算局部三元组损失ltL , 其公式为 lt ,,1+1+M mm mm a p a n m L d d M β'=⎡⎤=-⎣⎦'∑ (8) 最终三元组损失trip L 公式为trip gt lt L L L λ=+ (9) 其中, gt L 中的γ与ltL 中的β是常量超参阈值, 均用于控制三元组类内类间距离; λ表示局部三元组损失所占比重. 本文设置0.01γβ==, =2λ. 2.2.3 总优化损失函数联合分类损失以及三元组损失作为整个网络的损失函数, 最终的总优化损失函数为total cla trip L L L =+ (10) 3 实验结果与分析 3.1 数据集介绍本文选择在经典的行人重识别数据集Market- 1501[23]上进行评估. Market-1501是行人重识别领域的基准数据集, 一共有来自6个不同的摄像头1 501个行人的32 668幅图像. 数据集被分为训练集和测试集, 其中751个行人的12 936幅图像作为训练集, 剩余的750个行人的19 732幅图像作为测试集, 在测试集的750个行人中随机选择每个摄像头中的一幅图像作为查询图像, 共3 368幅查询图像. 对于每幅查询图像, 旨在从测试集中检索出最相似的行人图像序列. 因Market-1501数据集涉及不同视角、不同场景以及各类行人不同风格的图像, 相较来说比较接近真实场景应用, 故选择该数据集以验证本文方法的有效性.3.2 评价标准在Market-1501数据集中, 采用Rank-1准确率和平均准确率(mean average precision, mAP)作为评价标准.3.3 实验设置实验基于深度学习框架PyTorch 实现, 在Windows 10操作系统、NVIDIA GeForce GTX TITAN X 以及4块NVIDIA Tesla P100的服务器上进行. 在数据预处理阶段, 针对Market-1501数据集的分布特点采用了色彩抖动、随机擦除、水平翻转进行数据预处理做数据增强, 初始化图像大小为256128⨯. 在训练过程中, 使用在ImageNet 数据上预训练的ResNet50模型为底层框架, 采取学习率更新策略, 并将最后一个残差块的步长设置为1, 增大行人的显著性特征. 实验设置局部区域=6M , 3M '=, 批量大小为64, 即16个行人各选取4幅图像, 训练迭代总次数为200次. 在测试阶段, 利用融合后的特征向量作为行人的整体特征,实现精准检索.3.4 实验分析表1所示为不同方法在Market-1501数据集上的评估结果, 其中SFFM ①②表示去掉第3级局部特征融合, 仅利用第1, 2级局部特征的融合作为最终的检索特征; +lt SFFM-L 表示在增强特征融合模块的基础上去掉局部三元组损失的优化; +RK 表示在本文方法上加入重排算法优化检索排序的结果. 可以看出, 本文方法较Res50-baseline [6]结果有明显提升, 在重排算法优化下, 其在Market-1501数据集上Rank-1达到94.22%, mAP 达到85.03%. 为进一步验证本文方法中增强特征融合模块及损失优化带来的效果, 表1中分别比较Res50-baseline, ResNet_STN, Res50-baseline+SFFM 以及本文方法238计算机辅助设计与图形学学报第33卷分别去掉第3级局部融合特征和局部三元组损失、本文方法ResNet_STN+SFFM 以及本文方法结合重排后的效果. 对比发现, 第3级特征的进一步融合在mAP 上提升了7.7%, 在Rank-1上提升了2.7%; 此外, 局部三元组损失的加入有效地提高了精度, 在mAP 指标上提高了4.39%. 同时, 相比于Res50-baseline, ResNet_STN 的精度在Rank-1指标上也提高了2.29%.表1 不同方法在Market-1501数据集上的评估结果 %方法 Rank-1 mAP Res50-baseline [6]85.14 68.59ResNet_STN 87.43 70.38 Res50-baseline(+SFFM) 91.78 75.17 ResNet_STN(+SFFM )①② 90.17 74.10ResNet_STN(+SFFM-ltL )91.83 77.41ResNet_STN(+SFFM) 92.87 81.80+RK 94.22 85.03为了进一步验证局部特征之间对齐的相似程度, 随机选取10对正例样本统计归一化后的相似性距离[0,1]d ∈. 如图4所示, 对任意一对正例数据12{,}I I , 其对应的横坐标表示图像1I 的6个局部区域, 纵坐标表示图像2I 的6个局部区域, 计算两两局部特征间距离. 距离越小, 表示相似程度越高, 在图4中表示的颜色越浅; 距离越大, 表示相似程度越低, 在图4中表示的颜色越深. 根据随机选择的10对样本数据计算各部分平均距离的统计示例来看, min 21(,}), {1,,6}d I I ζζζ== , 即正例数据相对应的局部特征间的平均距离最小, 相似程度最高, 说明本文的网络模型提取到的局部特征达到了较好的对齐效果.图4 局部特征相似性度量统计示例在Market-1501数据集中, 将本文方法与现有的行人重识别方法进行比较, 如表2所示. 对比方法包括传统方法(BoW+kissme [23], LOMO+XQDA [24])和深度学习方法(MSCAN [8], TripNet [12], GLAD [15],HA-CNN [16], AlignedReID [17], PCB [7], SRB [14]), 分析如下:(1) 相比于传统方法, 基于深度学习方法的准确率有大幅度的提升, 这也证明了深度学习在特征表示以及度量学习方面的优越性.(2) 相比于基准的分类识别方法MSCAN [8],TripNet [12], 本文方法在Market-1501数据集上的准确率结果都有大幅度的提高. 对比局部特征学习的方法GLAD [15], 本文方法不需要额外的姿态估计模型以及关键点信息, 这证明了本文方法有效地增强了特征表达, 从而提高行人重识别的性能.(3) 相比于现有的行人重识别方法SRB [14], 本文方法达到了相近的结果, 这主要是结合了鲁棒特征和度量学习的优势. SRB 方法利用行人的全局特征进行识别分类, 但是考虑行人图像本身的多样性以及相似性, 局部信息的引入往往会更加有助于区分性特征的表达. 以图2中行人C 的样本图像为例, 红色方框中的图像与其他行人图像外观相似、网络提取的全局特征也相似, 计算样本对特征之间的距离,,0a p a n d d ->, 所以容易将其分错.表2 13种方法在Market-1501数据集上的对比 %方法 Rank-1 mAP BoW+kissme [23] 44.42 20.76 LOMO+XQDA [24] 22.22 43.79 MSCAN [8] 80.31 57.53 TripNet [12] 84.92 69.14 TripNet(RK)[12] 86.67 81.07 GLAD [15] 89.90 73.90 HA-CNN [16] 91.20 75.70 AlignedReID [17] 91.80 79.30 PCB [7] 92.40 77.30 PCB+RPP [7] 93.80 81.60 SRB [14]94.50 85.90本文方法 92.87 81.80 本文方法(RK) 94.22 85.03本文方法通过融合增强的局部特征作为最终的行人特征表示, 如图5所示. 联合多层级局部区域信息提取到更具有区分性的细节特征(背包肩带、鞋子颜色), 计算得到样本间的欧几里得度量d a ,n >d a ,p , 因此能准确衡量正负样本间的相似程度, 最终优化目标函数达到拉近正例、推开负例的效果.。

多特征局部与全局融合的人脸识别方法

局部特征按空间位置的不同划分由接抽取全局特征的子集构成。根据实际应用中对人脸识男系统速度和精度的不同要求，直 Ⅱ 给出２种融合策略组合全局和局部特征。在ＦＧ．大规模人脸库上的实验结果表明，该方法在增加少量运算的条件下能使系统性能明显提升。ＲＣｖ０２关健词：人脸识别；局特征；局部特征；融合；分数层全
式（）明采用分数层加权融合后，对分类鉴别函数的估９表计误差不超过性能最低的分类器的估计误差，也不超过单独使用这些分类器的平均估计误差。因此，利用分数层加权融
（）融合各原始特征的维数普遍较高且特征类型差异１待巨大。如果选择在特征层进行融合：一是融合的物理意义不 ’ 明确；二则可能导致随后在进行ＰＡ和ＬＡ降维时，散度ＣＤ矩阵过大，求解特征值困难。
■ 度述中表像后向幅梯位，像方如尾箭度图中素的特相头区将箭向置，图域１形幅这头代像间统征接值些成表素长计。方的向直示短大的图箭直对Ｈ梯代Ｏ度的小其整头方中方，该Ｇ图尾方图首。描最端，所
婺
２４６８１Ｏｌ１１２４６
ＦａｅＲｅｏｎｔｎＭｅｈｄｏｕｔｐｅＦｅｔｒｓｃｃｇｉｉｔｏｆｏＭｌｉｌａｕｅ
ＬｏａｎｏａｓｏｃｌｄＧｌｂｌａＦｕｉｎ
ＳＨＵａｇＤＩＣｈｎ，ＮＧａ－ｉｇＦＸｉｏｑｎ，ＡＮＧｉＣｈ
ｆ ≤ 【）：【）兰）｛￡］ ‘ 】（１（１（

基于全局与局部特征融合的人脸识别方法

可以看出：空间投影方法适用的情况为人脸光照比较
其中，ａ＞１，Ｉｎ、ｎ是整数，ｘ＝ａ一（ＸＣＯＳ０＋ｙｓｉｎＯ），Ｙ＝
ａ一（一ｘｓｉｎＯ＋ｙｃｏｓＯ）。ａ一是尺度因子，通过改变ｍ
２０１４年第３期
兰佩等：基于全局与局部特征融合的人脸识别方法
１１１
素的灰度值大于阈值，则该像素位置置ｌ，否则置０。按照顺时针方向对得到的０／１值进行排列得到一个二进制串，将其转换为十进制数，最后将该十进制数作为中心像素Ｐ的标记。ＬＢＰ一致模式是指在ＬＢＰ二进制串中，１到０或者由０到１的翻转变化不超过２，若是一致模式，则ＬＢＰ值即为１的累计值。ＬＢＰ计
（２））７３．８６７９．５５８１．８Ｏ８６．３６８６．９３１２．２ＯＰＣＡ（８Ｏ）７４．４３７６．７０８１．２５８５．８０８７．５０１６．７８
算如公式（１）所示：
ＬＢＰ＝
ｉ
况。由于预处理中采用了直方图均衡化算法，会对原来在同一光照情况采集的标准库造成一定影响，ＰＣＡ与２ＤＰＣＡ算法在原始ＯＲＬ库中的识别率测试如图３
所示。
７１．５９７５．００８０．６８８３．５２８５．８Ｏ１３．３４

基于多模态融合的图像识别算法研究

基于多模态融合的图像识别算法研究随着人工智能技术的不断发展，图像识别算法被越来越广泛地应用于人们生活和工作中。

而基于多模态融合的图像识别算法，由于在多个角度提取图像信息，可以提高识别的准确率和鲁棒性，得到了越来越多的关注和研究。

一、多模态融合的概念所谓多模态融合，是指将来自不同传感器或源的信息进行整合，从而获得更丰富、更准确、更完整的信息。

在图像识别领域，多模态融合意味着将来自不同图像特征的信息融合在一起，以提高识别的准确性和效率。

二、基于多模态融合的图像识别算法基于多模态融合的图像识别算法，主要有以下三种类型：1.基于特征融合的算法特征融合是指将来自不同特征提取方法得到的特征进行融合，以提高识别的准确率。

具体方法包括加权平均、特征拼接、特征堆叠等。

其中，加权平均是最常用的方法，可以根据各特征在识别中的作用进行加权，从而得到更为准确的结果。

值得注意的是，特征融合的过程也会提高算法的复杂度，因此在实际应用中也需要对算法进行优化以提高效率。

2.基于决策融合的算法决策融合是指将多种分类器的结果进行整合，以得到更准确的分类结果。

在图像识别中，不同的分类器可以提取不同的特征，得出不同的结果。

这些结果可以通过加权求和、最大化投票等方式进行整合，得到更为准确的结果。

但是，在决策融合中，需要对各分类器的可靠性进行评估，并进行权重调整，以避免其对最终结果的影响。

3.基于任务融合的算法任务融合是指将多个任务的识别结果进行整合，以得到更为准确的结果。

在图像识别中，不同的任务可以包括目标物体的识别、物体的姿态估计和目标物体的识别等。

这些任务可以根据其在识别任务中的重要性进行加权求和或投票融合，以得到更为准确和完整的识别结果。

三、多模态融合的优势相较于单一模态的图像识别算法，基于多模态融合的算法具有以下优势：1.提高了识别准确率由于多种模态提取的特征相对较为独立，因此，通过多模态融合可以提高识别的准确性。

例如，在人脸识别领域中，可以将三维人脸模型和二维人脸图像进行融合，得到更为准确的人脸识别结果。

人脸识别技术的特征提取方法

人脸识别技术的特征提取方法人脸识别技术是一种通过获取和分析人脸图像中的特征，来进行身份验证或者身份识别的技术。

而人脸识别技术的核心就是人脸特征的提取。

本文将介绍几种常用的人脸识别技术中的特征提取方法。

一、颜色信息的提取颜色信息是人脸图像中最直观的特征之一，通过对人脸图像进行色彩空间转换，即将RGB颜色空间转换为HSV颜色空间，可以提取出特定的颜色信息。

在HSV颜色空间中，H表示色调，S表示饱和度，V 表示亮度。

通过调整阈值，可以提取出人脸图像中的肤色信息，从而进行特征的提取和分析。

二、几何信息的提取几何信息是利用人脸图像中的形状和结构特征，通过计算和测量人脸各个部位之间的相对位置和大小关系来进行特征提取。

常见的几何信息包括眼睛间距、眼睛到鼻子的距离、嘴巴的大小等。

通过测量和计算这些几何信息，可以得到一个人脸的独特特征。

三、纹理信息的提取纹理信息是指人脸图像中由于皮肤质地、皱纹等因素造成的细微变化。

纹理信息的提取需要先将人脸图像进行分割，再对每个小区域进行纹理特征的提取。

常用的方法有局部二值模式（LBP）和高斯微分滤波器（GDF）等。

通过提取纹理信息，可以得到一个人脸图像的纹理特征。

四、特征融合除了单一的特征提取方法，还可以通过将不同的特征进行融合来得到更加准确的特征提取结果。

特征融合可以采用加权求和的方式，将不同特征的重要性进行评估，并根据重要性进行加权处理。

常见的特征融合方法有融合规则、融合加权和融合决策等。

五、深度学习方法近年来，深度学习方法在人脸识别技术中得到了广泛应用。

深度学习方法通过构建深层神经网络，利用多层次的特征提取和表达能力来实现人脸特征的提取。

常见的深度学习方法有卷积神经网络（CNN）和自编码器（Autoencoder）等。

总结：人脸识别技术的特征提取方法包括颜色信息的提取、几何信息的提取、纹理信息的提取、特征融合和深度学习方法。

不同的特征提取方法有不同的应用场景和优劣势，根据具体的需求选择合适的方法进行特征提取，可以提高人脸识别技术的准确度和稳定性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于特征融合的人脸识别
摘要：针对单一的人脸特征在人脸识别中的局限性，本文将多种人脸特征进行融合以提高识别率。

通过对人脸图像提取pca、dct 和lbp特征向量，后通过数据融合理论进行多特征融合，最后经过fisher分类器进行识别，实验表明本文算法有效提高了人脸识别性能。

关键词：特征提取；主分量分析；离散余弦变换；局部二值模式；特征融合
中图分类号：tp391
早期的人脸识别是直接采用图像灰度作为人脸特征进行特征选
择或分类，如eigenfaces[1]、fisherfaces[2]等。

近年来，对图像灰度进行多尺度、多方向的小波变换日益成为人们分析人脸图像的重要手段。

针对单一特征在人脸识别中具有一定的局限性，假如通过不同的特征提取方法提取几种人脸特征，然后按照一定的规则进行融合，将有效地利用人脸的各种信息进而提高人脸识别率。

在此基础上本文提出了基于特征融合的了人脸识别方法，实验表明该方法有效地提高了人脸识别性能。

1 特征提取
特征提取在数据预处理阶段是一个非常关键的步骤，人脸特征的鲁棒性直接影响系统的识别性能，本文分别提取了人脸图像的pca、dct和lbp特征。

1.1 pca
主分量分析（pca）算法通过进行线性变换来寻找一组最优的单位正交向量基，并用这组向量的线性组合来重构原样本使得重构后的样本和原样本的均方误差最小。

计算全体训练样本的协方差矩阵s，将s的特征向量按特征值从大到小的顺序排列，选择较大的前r （r?m）个特征值对应的特征向量组成特征空间，这就是图像的主分量。

1.2 dct
离散余弦变换（dct）是一种常用的多尺度变换工具，通过dct 算法将图像数据变换到频域得到图像的低频和高频信息，主要信息将集中在变换后的低频系数中，根据计算要求，我们舍弃一部分高频信息，保留主要的低频信息。

当u（n）是一个向量时，经过dct变换得到的c（k×n），表示为：
通过离散余弦变换，一个序列被分解为余弦基序列的加权和，这些余弦基序列就是矩阵c的行向量[3]，直接去除高频系数也可以降低图像的维数。

1.3 lbp
近年来基于局部二值模式（lbp）的人脸识别方法[4]受到了人们的关注。

在灰度图像中，像素值为像素的灰度。

基本的lbp算子[5]作用于一个大小固定为3～3的矩形块，如图1所示。

数学上，对于任意一幅图像，lbp 算子可描述如下：
（2）
其中：xc为中心点的灰度值，xp代表中心点某个邻节点的灰度值，下标p表示邻域，r 表示圆形邻域的半径。

s（）为阶梯函数。

使用lbp算子对整个图像进行逐行扫描得到一个lbp响应图像，计算响应图像的直方图得到图像的lbp直方图，它作为我们进行人脸识别的特征。

2 特征融合
数据融合在模式识别领域尤其是人脸识别方面有着诸多应用。

按照融合层次可将数据融合划分为数据融合、特征融合和决策融合。

多特征融合可以利用具有区分意义和互补信息的特征进行融合，确保了识别特征的鲁棒性[6]。

在特征融合阶段，将由通过lda、dct和lbp特征提取算法提取到的特征向量进行融合。

假设f1、f2和f3分别是通过lda、dct
和lbp算法得到特征向量，由于这三个特征向量维数不一致，因此对其先进行归一化，定义如下融合阶段的特征向量：
融合后的特征向量定义为
其中||.||代表向量的二范数。

3 实验结果与分析
实验采用的数据是orl人脸库，库中含有40个人的400幅图像，每人10幅，这些人脸图像是在不同的时间、光照、头部角度、面部表情和人脸细节条件下拍摄的，图像尺寸为92×112像素。

分类识别采用的是fisher方法，此方法使得同类之间样本更加聚集，不同类样本之间更加分离。

本文实验先通过训练不同数量样本得到
的识别结果进行比较，结果如下表。

实验设计了本文算法与各自单独使用pca、dct和lbp特征进行人脸识别的性能比较，结果如下
由上述表格可以看出，训练样本数量越多，识别率就越高，但是相应的计算量也会增加，因此要注意选择适合的训练样本数量。

在算法比较实验中，我们统一选取了每个人的5幅图像作为训练样本。

由比较结果可以看出，本文通过将多种特征进行融合有效地提高了人脸识别性能。

4 结论
本文提出了一种多特征融合的人脸识别方法，弥补了单一特征信息量不足的影响，通过将多种人脸特征归一化后进行融合，有效地提高了人脸识别性能。

后续工作中我们将对融合策略进一步优化，根据不同特征对识别效能的贡献设置相应的权重或融合方案，以使该方法具有更广泛的应用。

参考文献：
[1]turk m，pentland a.face recognition using eigenfaces.in：negahdaripour s，et al.，eds. proc.of the ieee conf.on computer vision and pattern recognition.maui：ieee computer society press，1991：586?591.
[2]belhumer p，hespanha p，kriegman d.eigenfaecs vs fisherfaces：recognition using class specific linear projection.ieee trans. on pattern analysis and machine
intelligence，1997，19（7）：711?720.
[3]李建科，赵保军，张辉，焦继超.dct和lbp特征融合的人脸识别[j].北京理工大学学报，2010，11：1355-1359.
[4]王玮，黄非非，李见为，冯海亮.采用lbp金字塔的人脸描述与识别[j].计算机辅助设计与图形学学报，2009，21（1）：94-106.
[5]ojala t，pietik?inen m，m?enp?? t.multiresolution gray-scale and rotation invariant texture classification with local binary patterns.ieee trans.on pattern analysis and machine intelligence，2002，24（7）：971?987.
[6]刘冬梅，吕明磊，曾智勇.基于数据融合的人脸识别方法[j].计算机工程，2014，1.
作者简介：刘冬梅（1987-），女，山东泰安人，硕士研究生，研究方向：模式识别、图像处理。

作者单位：福建师范大学软件学院，福州 350108。