【CN109815893A】基于循环生成对抗网络的彩色人脸图像光照域归一化的方法【专利】
基于对偶生成对抗式网络的人脸图像去模糊和恢复方法[发明专利]
![基于对偶生成对抗式网络的人脸图像去模糊和恢复方法[发明专利]](https://img.taocdn.com/s3/m/72f157626529647d262852e7.png)
专利名称:基于对偶生成对抗式网络的人脸图像去模糊和恢复方法
专利类型:发明专利
发明人:王爽,焦李成,刘梦晨,胡月,权豆,梁雪峰,马文萍,刘飞航
申请号:CN201810338538.1
申请日:20180416
公开号:CN108573479A
公开日:
20180925
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于对偶生成对抗式网络的人脸图像去模糊和恢复方法,本发明实现的步骤为:1、网络初始化;2、输入数据;3、优化判别器;4、优化生成器;5、迭代训练网络;6、测试网络;7、输出结果。
本发明相比现有技术基于单一生成对抗式网络的方法,网络更加容易收敛,不容易造成模型崩塌,并且生成效果更加稳定,生成图像与真实图像更加接近。
本发明可应用于对模糊、细节信息残缺的图像进行去模糊和恢复处理。
申请人:西安电子科技大学
地址:710065 陕西省西安市雁塔区太白南路2号
国籍:CN
代理机构:西安通大专利代理有限责任公司
代理人:徐文权
更多信息请下载全文后查看。
基于生成对抗网络的轻量级图像盲超分辨率网络

基于生成对抗网络的轻量级图像盲超分辨率网络李若琦;苍岩【期刊名称】《应用科技》【年(卷),期】2024(51)2【摘要】针对图像盲超分辨率网络计算参数多、模型庞大的问题,对快速且节省内存的轻量级图像非盲超分辨率网络(fast and memory-efficient image super resulotion network,FMEN)进行改进,提出了一种轻量级的快速且节省内存的图像盲超分辨率网络(fast and memory-efficient image blind super resulotion network,FMEBN)。
首先,通过图像退化模块模拟部分真实世界退化空间,使用退化预测模块预测低分辨率(low resolution,LR)图像的退化参数;然后,为能有效利用退化先验信息指导并约束网络进行重建,使用动态卷积对原网络特征提取、重建模块、高频注意力块(high frequency attention block,HFAB)结构进行改进;最后,使用生成对抗网络(generative adversarial network,GAN)对FMEN训练策略与损失函数进行优化,减小真实数据与生成数据的差异,生成更加真实、清晰的纹理、轮廓。
实验结果表明,在合成图像数据集和真实图像数据集RealWorld-38上,该算法有较好的重建精度与视觉效果,模型大小12 MB,可以满足图像盲超分辨率网络的轻量级需求。
【总页数】8页(P112-119)【作者】李若琦;苍岩【作者单位】哈尔滨工程大学信息与通信工程学院【正文语种】中文【中图分类】TP391【相关文献】1.经ERCP和PTCD途径胆道支架置入治疗老年低位恶性梗阻性黄疸的临床观察2.基于生成对抗网络的人脸图像超分辨率重建3.基于生成对抗网络与噪声分布的图像超分辨率重建方法4.基于条件生成对抗网络的图像超分辨率重建研究5.利用图像掩膜优化基于生成对抗网络的图像超分辨率模型因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于循环条件生成对抗网络的人脸衰老图像合成方法[发明专利]
![一种基于循环条件生成对抗网络的人脸衰老图像合成方法[发明专利]](https://img.taocdn.com/s3/m/a175467ff6ec4afe04a1b0717fd5360cba1a8db4.png)
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010608734.3(22)申请日 2020.06.29(71)申请人 电子科技大学地址 611731 四川省成都市高新区(西区)西源大道2006号(72)发明人 王博文 潘力立 (74)专利代理机构 电子科技大学专利中心51203代理人 陈一鑫(51)Int.Cl.G06T 3/00(2006.01)G06K 9/00(2006.01)G06K 9/62(2006.01)G06N 3/04(2006.01)G06N 3/08(2006.01)(54)发明名称一种基于循环条件生成对抗网络的人脸衰老图像合成方法(57)摘要该发明公开了一种基于循环条件生成对抗网络的人脸衰老图像合成方法,属于计算机视觉领域。
该方法首先选择使用生成对抗网络作为基本框架,同时,借鉴循环生成对抗网络的对偶学习的思想,并利用辅助分类器的监督学习思想,创新地在循环生成对抗网络进行衰老图片生成时引入类别标签,使网络对特定的年龄特征增加关注度,并通过给判别器增加一个辅助分类支路,使得生成网络可以有效利用标签信息去学习特定的知识,并且通过对偶学习的思想,单次训练即可完成生成网络在不同年龄段图像的生成转换。
通过上述的方法,本发明充分利用了对偶学习和辅助分类监督思想的优势,大大地提高了循环生成对抗网络在衰老图像生成的效率和图片质量。
权利要求书2页 说明书12页 附图3页CN 111798369 A 2020.10.20C N 111798369A1.一种基于循环条件生成对抗网络的人脸衰老图像合成方法,该方法包括:步骤1:对数据集进行预处理;获取UTKFace数据集,UTKFace数据集是具有较长年龄范围的大规模面部数据集,对获取的数据集根据不同的年龄段进行分组;再利用one-hot向量对这三个年龄段的图像标签进行编码,最后对图片像素值进行归一化;步骤2:构建卷积神经网络;构建的卷积神经网络包括三个子网络,一个为生成器G,一个为生成器F,一个为判别器D;生成器G输入源域图片x和目标域标签c,输出生成目标域人脸图片G(x,c);生成器F输入生成的目标域人脸图片G(x,c)和源域标签c′,输出生成的源域人脸图片F(G(x,c),c′);生成器F的生成过程是源域图片x的重建过程,设计生成器F的重构损失使F(G(x,c),c′)和源域图片x相似,这样一张源域图片经过G变为目标域图片,目标域图片再经过F转换回源域图片;G和F为一个互逆的过程,一张图片依次经过G和F,图片保持不变;保证图片在源域和目标域转换的过程中,重要特征不会丢失;生成器输入输出均为图片,而判别器输入为图片,输出为标量和分类向量;生成器网络的前两层为3个下采样卷积块,之后接着6个残差网络块,最后再跟着3个上采样卷积块;判别器网络依次采用6个下采样卷积块,以及两个标准卷积块;生成器G和F的详细参数如下:首先是3层卷积层,卷积核模板大小分别为7×7、4×4、4×4卷积层步长分别为1、2、2,每一卷积层后使用Instance norm归一化层来归一化,激活函数为ReLU函数;其次是6个残差块串联,然后是两层转置卷积,卷积核模板大小都为,步长都为2,每一转置卷积层后使用Instance norm归一化层来归一化,激活函数是ReLU函数;最后一层是卷积层,卷积核模板大小为7×7,卷积层步长为2,激活函数为tanh函数;判别器D的详细参数如下:首先是6个卷积层,每个卷积层卷积核模板大小都为4×4,步长都为2,激活函数都为Leakey ReLU;最后输出分为两路,一路为辅助分类器路,另一路为判别器路;辅助分类器路卷积层卷积核模板大小2×2,步长为1,输出维度为3,对应生成器输入的标签维度;判别器路卷积核模板大小3×3,步长为1,输出维度为1;步骤3:训练判别器D;利用上述步骤得到的人脸对齐图像和one-hot年龄标签来训练判别器D;判别器D的输入是源域图像x和源域标签c′,输出人脸图像的真假判别D src(x)和源域真实图片的标签c′的后验估计D cls(c′|x);采用如下的损失函数:公式中的c′是源域图片的标签,x是源域的图像;λcls是对E x,c′[-log(D cls(c′|x))]的平滑加权系数,即对输入图片的标签与辅助分类器输出的概率密度估计之间的交叉熵损失的平滑加权系数;E x,c′,E x分别表示对(x,c′),x求期望;在下一步的训练中,判别器这一次输入生成器G生成的目标域人脸图片G(x,c),c是生成器需要生成的图片的年龄段标签,即目标域标签;输出人脸图像的真假判别D src(G(x,c));E x,c是对(x,c)求期望;这个过程用如下损失函数表示:判别器D的总损失函数如下式表示:步骤4:训练生成器G;生成器G的输入是源域图片x和目标域标签c,输出生成器生成目标域人脸图片G(x,c);利用上一步训练的判别器D来训练生成器G;训练生成器G时,判别器D的参数固定;判别器D 的输入是生成器生成的目标域人脸图片G(x,c),输出的是生成器目标域标签c的后验估计D cls(c|G(x,c))和输出人脸图像的真假判别D src(G(x,c));为保证输入图像和衰老图像身份一致性,加入循环一致性损失;生成器G的损失如下面公式所示:公式中λcls是对E x,c[-log(D cls(c|G(x,c)))]的平滑加权系数,即对目标域标签与判别器判别生成图片所属类别的概率密度估计之间的交叉熵损失的平滑加权系数;λrec是对E x,c,c′[||x-F(G(x,c),c′)||1]的平滑加权系数,即对循环一致性损失项的平滑加权系数;E x,c,E x,c,c′分别是对(x,c),(x,c,c′)求期望;步骤5:训练生成器F;生成器F的输入是上面得到的目标域图片G(x,c)和源域标签c′,输出生成器生成的人脸图片F(G(x,c),c′);生成器F与G的训练过程类似,生成器F是利用源域标签,将目标域图片转为源域图片,即对应目标年龄段图片映射回源年龄段图片;损失为:公式中λcls是对E x,c′[-log(D cls(c′|F(G(x,c),c′)))]的平滑加权系数,即对源域标签与判别器判别生成图片所属类别的概率密度估计之间的交叉熵损失的平滑加权系数;λrec是对E x,c,c′[||x-(F(G(x,c),c′))||1]的平滑加权系数,即对循环一致性损失项的平滑加权系数;E x,c′,E x,c,c′分别是对(x,c′),(x,c,c′)求期望;步骤6:训练完成后只采用生成器G部分,给定图片X和目标域标签C,则可以得到多张不同年龄段的输出图片。
基于循环生成对抗网络的人脸素描合成

第60卷 第4期吉林大学学报(理学版)V o l .60 N o .4 2022年7月J o u r n a l o f J i l i nU n i v e r s i t y (S c i e n c eE d i t i o n )J u l y 2022d o i :10.13413/j .c n k i .jd x b l x b .2021311基于循环生成对抗网络的人脸素描合成葛延良,孙笑笑,张 乔,王冬梅,王肖肖(东北石油大学电气信息工程学院,黑龙江大庆163318)摘要:针对当前卷积神经网络通常以降低感受野为条件获得多尺度图像特征,以及很难捕获各特征通道之间重要关系的问题,结合循环生成对抗网络结构的特点提出一种新的多尺度自注意力机制的循环生成对抗网络.首先,在生成器中使用V G G 16模块组成U -N e t 结构网络,以增强对图像特征信息的提取,同时对网络中的下采样和上采样进行改进,以提高特征分辨率,获取更多的细节信息;其次,设计多尺度特征聚合模块,采用不同采样率的多个并行空洞卷积,整合了不同尺度上的空间信息,在保持图像较大感受野的同时,多比例地捕捉图像信息;最后,为捕获空间维度和通道维度中的特征依赖关系,设计像素自注意力模块对空间维度和通道维度上的语义依赖关系进行建模,以增强图像特征的表现能力,提高生成素描图像的质量.关键词:深度学习;循环生成对抗网络;空洞卷积;多尺度特征聚合模块;像素自注意力模块中图分类号:T P 391 文献标志码:A 文章编号:1671-5489(2022)04-0897-09F a c e S k e t c hS y n t h e s i sB a s e d o n C yc l e -G e n e r a t i v eAd ve r s a r i a lN e t w o r k s G EY a n l i a n g ,S U N X i a o x i a o ,Z HA N G Q i a o ,WA N G D o n g m e i ,WA N G X i a o x i a o (S c h o o l of E l e c t r i c a l a n dI n f o r m a t i o nE ng i n e e r i n g ,N o r th e a s t P e t r o l e u m U ni v e r s i t y ,D a q i n g 163318,H e i l o n gj i a n g Pr o v i n c e ,C h i n a )收稿日期:2021-08-23.第一作者简介:葛延良(1979 ),男,汉族,硕士,副教授,从事图像处理㊁计算机视觉和无线通信的研究,E -m a i l :g e y a n l i a n g @139.c o m.通信作者简介:孙笑笑(1993 ),女,汉族,硕士研究生,从事生成对抗网络和人脸素描融合的研究,E -m a i l :3076266954@q q .c o m.基金项目:黑龙江省自然科学基金(批准号:L H 2020F 005).A b s t r a c t :A i m i n g a tt h e p r o b l e m t h a tt h ec u r r e n tc o n v o l u t i o n a ln e u r a ln e t w o r k su s u a l l y o b t a i n e d m u l t i -s c a l e i m a g e f e a t u r e s o n t h e c o n d i t i o no f r e d u c i n g r e c e p t i v e f i e l d s ,a n d i tw a s d i f f i c u l t t o c a p t u r e t h e i m p o r t a n t r e l a t i o n s h i p b e t w e e nc h a n n e l s .C o m b i n e dw i t ht h e f e a t u r e so f c y c l e -g e n e r a t i v e a d v e r s a r i a l n e t w o r k s s t r u c t u r e ,w e p r o p o s e dan e w c y c l e -g e n e r a t i v ea d v e r s a r i a ln e t w o r k s w i t h m u l t i -s c a l ea n d s e l f -a t t e n t i o nm e c h a n i s m.F i r s t l y ,V G G 16m o d u l ew a s u s e d t o f o r m U -N e t s t r u c t u r e i n t h e g e n e r a t o r t o e n h a n c e t h ee x t r a c t i o no f i m a g e f e a t u r e i n f o r m a t i o n .A t t h es a m et i m e ,t h ed o w n -s a m p l i n g a n d u p -s a m p l i n g i n t h e n e t w o r kw e r e i m p r o v e d t o i m p r o v e t h e f e a t u r e r e s o l u t i o n a n do b t a i nm o r e d e t a i l e d i n f o r m a t i o n .S e c o n d l y ,am u l t i -s c a l e f e a t u r e f u s i o nb l o c kw a s d e s i g n e d .T h em u l t i p l e p a r a l l e l d i l a t e d c o n v o l u t i o n sw i t hd i f f e r e n t s a m p l i n g r a t e sw e r eu s e d t o i n t e g r a t e t h e s p a t i a l i n f o r m a t i o no nd i f f e r e n t s c a l e s ,a n d c a p t u r e i m a g e i n f o r m a t i o n i nm u l t i p l e p r o p o r t i o n sw h i l em a i n t a i n i n g a l a r g e r e c e p t i v e f i e l d o f t h ei m a g e .F i n a l l y ,i no r d e rt oc a p t u r et h ef e a t u r ed e p e n d e n c i e si nt h es p a t i a ld i m e n s i o na n d c h a n n e l d i m e n s i o n ,t h e p i x e l s e l f -a t t e n t i o n m o d u l ew a sd e s i g n e d t om o d e l t h e s e m a n t i cd e p e n d e n c i e si n t h e s p a t i a l d i m e n s i o na n dc h a n n e l d i m e n s i o n ,s oa s t oe n h a n c e t h e r e p r e s e n t a t i o na b i l i t y o f i m a g e f e a t u r e s a n d i m p r o v e t h e q u a l i t y o f t h e g e n e r a t e d s k e t c h i m a g e s .K e y w o r d s :d e e p l e a r n i n g ;c y c l e -g e n e r a t i v ea d v e r s a r i a ln e t w o r k s ;d i l a t e d c o n v o l u t i o n ;m u l t i -s c a l e f e a t u r e f u s i o nb l o c k ;p i x e l s e l f -a t t e n t i o nm o d u l e 作为图像风格迁移的一个重要分支,人脸素描合成(f a c e s k e t c hs y n t h e s i s ,F S S )目前得到广泛的关注[1].人脸素描合成是指将人脸转化为相对应的素描图像[2],其在生活㊁刑事侦查㊁数字娱乐㊁漫画制作[3]及电影制作等领域应用广泛.图像的风格迁移方法主要有两种:基于图像迭代和基于模型迭代[4].图像迭代方法主要包括基于最大均值差异㊁基于M a r k o v 随机场和基于深度图像类比.模型迭代方法在图像风格迁移方面有较大优势,特别是卷积神经网络[5]和生成对抗网络的不断发展[1],极大提高了人脸素描合成的图像质量.其中基于卷积神经网络的图像风格迁移[6],实现了局部连接㊁权值分担㊁特征提取和封装,缺点是迁移缺乏泛化能力,可能导致图像模糊甚至失真[7].生成对抗网络(g e n e r a t i v ea d v e r s a r i a ln e t w o r k s ,G A N )很好地解决了上述问题.G o o d f e l l o w 等[8]首次提出了生成对抗网络,极大提高了生成图像的速度和清晰度[9],同时降低了网络的复杂度,但整个过程是全监督学习,而全监督网络要求训练人脸到素描风格迁移模型有较大的成对数据集,准备成对数据集既困难又昂贵,同时具有时间和空间的局限性;G u l r a j a n i 等[10]提出了I m p r o v e d G A N ,对G A N 进行了结构更改和训练,主要集中于半监督学习和更好的图像生成,训练结构稳定的G A N [11];I s o l a 等[12]提出了 P i x 2p i x 网络模型,风格迁移效果显著,但要求图片必须成对;在此基础上,Z h u 等[13]提出了循环生成对抗网络(c y c l e -g e n e r a t i v e a d v e r s a r i a l n e t w o r k s ,C y c l e G A N ),在该网络中提出基于对称G A N 模型,其在损失函数中加入周期一致性损失,使输入图像在不配对的情况下生成不同风格的图像,完成无监督学习的高质量风格传递任务.本文使用循环生成对抗网络框架,将其应用于人脸素描合成,实验得到了更优质的素描图片.图1 C yc l e G A N 生成模型结构F i g .1 G e n e r a t i v em ode l s t r u c t u r e o fC yc l e G A N 1 循环生成对抗网络模型无监督学习循环生成对抗网络的整体模型如图1所示.由图1可见,总网络包括两个生成器网络G X 和G Y 及两个鉴别器网络D X 和D Y .其训练过程相当于生成器G 与鉴别器D 的相互博弈,生成器伪造的样本越来越逼真,鉴别器的鉴别技术越来越强,直到鉴别器D 分辨不出生成的素描图像是真实的人脸素描还是人脸图片风格迁移后的素描,该对抗过程达到平衡.在网络模型结构中,X ,Y 分别表示人脸和素描图像组成的数据集,C y c l e G A N 由X ңY 和Y ңX 的G A N 网络组成,D Y 鉴定区分来自素描域Y 的真实图像和人脸照片X 通过生成器G Y 合成的素描图像^Y ,同理D Y 的目标是区分来自人脸域X 的真实图像和素描图像Y 通过生成器G X 合成的人脸图像^X ;分别加入一个循环损失函数898 吉林大学学报(理学版) 第60卷(c y c l e -l o s s ),c y c l e -l o s s 采用循环一致性损失L 1;整个网络采用端到端的方法训练,学习人脸和素描图像之间的映射关系.本文定义两个相同的P a t c h G A N [12]作为鉴别器.鉴别器采用四组卷积层+正则化+L e a k y R e L U 激活函数形式和一组卷积层+谱归一化+L e a k y Re l u 激活函数形式,每个卷积层的卷积核大小均为4,步长为2,通道数依次为64,128,256,512,最后一层每个分割块通过S i g m o i d 输出为真的概率,然后用B C E 损失函数计算得到最终的损失[12].P a t c h G A N 对于图像风格迁移后的图片保持高细节的清晰化.鉴别器网络结构如2所示.图2 鉴别器网络结构F i g.2 D i s c r i m i n a t o r n e t w o r k s t r u c t u r e 2 预备知识2.1 U -N e t 模块循环生成对抗网络的生成器采用卷积神经网络学习图像特征,本文受文献[14]的启发,将U -N e t 结构应用于生成器中.U -N e t 结构本质上是一个编码器-解码器网络,在完全对称的编码器和解码之间进行常规的跳跃连接,以结合图像高级和低级语义[15].本文以V G G 16模块组成U -N e t 的结构作为生成器主框架,X (i ,m )表示位于U -N e t 网络层不同位置的V G G 16模块,其中i 表示模块位于第i 行,m 表示模块位于第m 列,其结构如图3所示.图3 U -N e t 结构模型F i g.3 S t r u c t u r a lm o d e l o fU -N e t 2.2 空洞卷积常见的图像分割算法通常使用池化层和卷积层增加感受野,特征图缩小再放大的过程会导致精度损失,因此本文引入空洞卷积(d i l a t e dc o n v o l u t i o n )[16],可在增加感受野的同时保持特征图的尺寸不变,如图4(A )所示.图4是标准的3ˑ3卷积(扩张率为1),该卷积的感受野是卷积核覆盖3ˑ3区域.当扩张率为2时,感受野R F n 可利用R F n =R F n -1+(i -1)ˑd(1)计算,其中R F n -1表示上一层的感受野,i 表示卷积核大小,d 表示步长.图像特征提取过程中,在保证特征图一定分辨率的前提下,获得较大的图像特征感受野.由图4(B )可见,此时的卷积核大小为2ˑ(3-1)+1=5,与图4(A )叠加得到图4(C )的感受野相当于7ˑ7网格所覆盖的区域.2.3 自注意力模块由于目前的网络结构在图像特征提取过程中存在均匀分布的特点,而卷积运算将图片进行局部分998 第4期 葛延良,等:基于循环生成对抗网络的人脸素描合成割,在进行深层特征提取与迁移时,局部与整体会有差异.本文受文献[17]工作的启发,通过自注意力机制建立像素之间的关联,提高对图像高频信息和图像风格保持的能力.本文引用通道自注意力模块(c h a n n e ls e l f -a t t e n t i o n m o d u l e ,C S AM )和空间自注意力模块(s p a t i a ls e l f -a t t e n t i o n m o d u l e ,S S AM ).C S AM 结构如图5所示.S S AM 通过每个位置特征的加权总和,选择性地聚集每个位置的特征,其结构如图6所示.图4 空洞卷积感受野示意图F i g .4 S c h e m a t i c d i a g r a mo f d i l a t e d c o n v o l u t i o n r e c e pt i v e f i e ld 图5 通道自注意力模块的结构F i g .5 S t r u c t u r e o f c h a n n e l s e l f -a t t e n t i o nm o d u le 图6 空间自注意力模块的结构F i g .6 S t r u c t u r e of s pa t i a l s e l f -a t t e n t i o nm o d u l e 3 改进的生成网络模型3.1 多尺度特征聚合模块本文设计多尺度特征聚合模块(M F F B ),结构如图7所示.将图像特征并行输入通过3个3ˑ3的图7 多尺度特征聚合模块F i g .7 M u l t i -s c a l e f e a t u r e f u s i o nb l o c k 空洞卷积[16],分别以2,4,8的采样率并行采样,同时将输入与一个全局平均池化(G A P )相乘,将得到的4个不同尺度的特征在通道维度上叠加到一起,最后再通过1ˑ1的卷积进行特征融合和通道数恢复.3.2 上采样和下采样模块本文上采样模块和下采样模块设计采用相同的结构,如图8所示.分别在下采样保持最大池化提取特征和反卷积上采样的同时,与一个3ˑ3的卷积层进行并联,并在通道维度上进行特征叠加,最后通过R e l u 激活函数达到快速收敛,使采样过程增加对图像细节特征信息的获取.3.3 像素自注意力模块本文建模像素自注意力模块(p i x e l s e l f -a t t e n t i o n m o d u l e ,P S AM )通过自注意力机制建立像素之间的关联,以提高对图像高频信息和图像风格保持的能力,如图9所示.输入的图像特征表示为3维009 吉林大学学报(理学版) 第60卷图8 上采样和下采样模块F i g .8 U p s a m p l i n g m o d u l e a n dd o w n s a m p l i n g mo d u l e C ˑH ˑW ,其中C 表示通道维度,H ˑW 表示位置维度.对于输入特征为C ˑH ˑW 的特征A ,先在空间维度上进行压缩,A 通过重塑后特征图与A重塑和转置的特征图进行矩阵相乘后通过S o f t m a x 函数得到像素大小为C ˑC 通道注意图G ;同理使转置后的G 与转置后的A 进行矩阵乘法,并乘以尺度系数β,再次转置后与A 逐元素相加得到特征图M ,β初始化为0,并逐渐学习分配更多的权重.得到特征图M 后在通道维度上进行压缩,首先,分别通过3个卷积层得到分割后的特征图B ,C ,D ,然后分别重塑成C ˑN ,N =H ˑW 表示像素的大小;其次,特征图B 通过转置后与重塑后的C 进行矩阵相乘后,通过S o f t m a x 函数得到像素大小为图9 像素自注意力模块F i g.9 P i x e l s e l f -a t t e n t i o nm o d u l e N ˑN 的空间注意图E ;同理使转置后的E 与转置后的D 进行矩阵乘法,并乘以尺度系数α,再次转置后与M 逐元素相加得到特征图F ,α初始化为0,并逐渐学习分配更多的权重.通过C S AM 与S S AM 进行级联组成像素自注意力模块,不仅捕捉了任意两个通道特征图之间的通道依赖关系,还挖掘了任意两个位置之间的空间依赖性,通过训练网络自主学习两个位置之间的特征相似性权重.3.4 生成器网络结构本文在C yc l e G A N 生成器网络基础上进行改进,结构如图10所示.首先,用V G G 16模块组成U -N e t 网络代替生成器中的全卷积神经网络,模型中使用改进后的上采样和下采样模块,使网络下采样采用最大池化和上采样反卷积时,能减少图像特征的损耗;其次,在编码器与解码器进行常规跳跃连接过程中添加M F F B ,可在保持一定图像特征分辨率的情况下,具有较大的感受野,多尺度的捕捉上下文信息,使得U -N e t 结构的每个解码器层都融合了来自编码器中的小尺度和同尺度的特征图,减少图像细节信息的损失,M F F B 不仅改善了网络对图像边界细节信息的提取,并且可从图像特征中提取有用信息;再次,在解码器端进行多尺度密集跳跃连接,通过解码器端的X (1,5)与X (3,3),X (4,2),X (5,1)模块进行密集跳跃连接;同理X (2,4)与X (4,2),X (5,1)及X (3,3)与X (5,1)模块都采用密集跳跃连接的方式,使得U -N e t 结构内部形成多尺度的密集跳跃连接,对图像的不同尺度特征信息进行多次的复用和提取,以提高网络浅层特征利用率及深度特征的兼容性,从而成功地捕捉图像的几何特征和细节纹理信息,使U -N e t 结构的每个解码器层都融合了来自编码器中的小尺度和同尺度的特征图;最后,图像信息的提取集中在第五层的X (5,1)模块,此时通道数最多,使X (5,1)和X (1,5)模块进行级联操作,在该过程中建模P S AM ,实现方法是通过网络训练,P S AM 自动学习使不同的图像特征获得与之匹配的权重,从而完成对原始特征的重新标定,实现多层次交叉模态特征融合,并降低了低质量图像特征的冗余和噪声.3.5 训练过程C y c l e G A N 学习从X ңY 的映射,如果映射关系设为G ,则学习到的图像即为G X ,然后用鉴别器判断是否是真实图像,从而形成生成对抗网络.其损失函数为L G A N (G X ,D Y )=E Y [l o g D Y (y )]+E X [l o g (1-D Y (G X (x )))],(2)其中G X 计划生成与目标域中的图像完全无法区分的假图像G X (x ),而D Y 试图区分真假图像.对于映109 第4期 葛延良,等:基于循环生成对抗网络的人脸素描合成209吉林大学学报(理学版)第60卷射函数G Y:YңX和鉴别器D X,本文定义一个类似的对抗性损失L G A N(G Y,D X).图10生成器合成过程网络结构F i g.10N e t w o r k s t r u c t u r e o f g e n e r a t o r s y n t h e s i s p r o c e s s基于C y c l e G A N中两个G A N的对称性,所有X都可由G映射到Y空间的图像上,反之亦然.所以为避免损失无效,本文不能直接使用该损失进行训练.因此重新定义一种损失函数,其假设生成的图像可以被合成回原域.对于X域的图像,本文训练的目的是XңG X(x)ңG Y(G X(x))ʈX;对于Y 域的图像,本文训练的目的是YңG Y(y)ңG X(G Y(y))ʈY.C y c l e G A N模型的关键是使用循环一致性损失的监督,其损失函数表示为L c y c(G X,G Y)=E X[G Y(G X(x))-x1]+E Y[G X(G Y(y))-y1].(3) C y c l e G A N结构还加入了本体映射损失(i d e n t i t y l o s s).C y c l e G A N使用I d e n t i t y l o s s的目的是在迁移过程中保持原色调,约束生成器更接近真映射,本文引入的损失函数表示为L i l(G X,G Y)=E X[G X(x)-x1]+E Y[G Y(y)-y1].(4)从而在整个C y c l e G A N网络中的总目标损失函数表示为L(G X,G Y,D X,D Y)=L G A N X+L G A N Y+λc y c L c y c+λi l L i l,(5)其中λc y c和λi l是控制循环损失和本体映射损失的参数.4实验为验证本文人脸素描合成网络框架的性能,本文在包含人脸手绘素描和人脸照片的数据集C U F S[18]和C U F S F[19]上进行训练.数据集C U F S包含606对彩色人脸照片,用于研究人脸草图合成和人脸素描识别,其包括来自香港中文大学(C UH K)学生数据库的188对面孔,其中88对用于训练, 100对用于测试;来自A R数据库的123对面孔,60对用于训练,63对用于测试;来自X M2V T S数据库中的295对人脸面孔,其中150对用于训练,145对用于测试.数据集C U F S F分别包括1194对黑白人脸照片和素描,其中挑选400对用于训练,694对用于测试,因为草图更抽象化及与原始照片没有很好的对齐,增加了实验的复杂性.实验环境为U b u n t u操作系统计算机,N V I D I A1080T i显卡, P y t o r c h1.9环境下运行.4.1参数设置由于受实验设备条件限制,在实验过程中训练集的人脸图像被裁剪成256ˑ256大小,b a t c h_s i z e 为5,实验迭代次数为200次,生成器和鉴别器使用A d a m算法进行优化,优化学习率为0.0002,为减少网络的震荡,存储几张生成图像作为缓冲更新鉴别器.4.2实验结果与分析为验证本文实验对人脸素描合成的有效性,在相同的硬件环境下,本文对比了F C N算法[20]㊁MW F 算法[21]㊁C y c l e G A N 算法[13]㊁C A -G A N 算法[22]和本文算法分别在数据集C U F S 和C U F S F 上生成的人脸素描图像.在客观评价指标上,采用的图像质量评估指标分别为:结构相似指数(s t r u c t u r a l s i m i l a r i t y i n d e x m e a s u r e ,S S I M )[23],其从亮度㊁对比度和结构相似三方面衡量待评图像的质量;特征相似度测量(f e a t u r e s i m i l a r i t y i n d e xm e a s u r e ,F S I M ),其是在S S I M 上的延伸,F S I M 算法[23]能根据一张图片中不同像素所占的百分数不同而给予合适的权重指数,与肉眼的视觉感知一致性较高,聚焦合成素描图像的低层次特征与手绘图像的区别;结构共现纹理的测试(S c o o tM e a s u r e )[24],其针对类视觉系统具有快速评估两张面部素描之间感知相似性的能力,空间结构和共线纹理是面部素描合成中两个普遍适用的感知特征,结构共线纹理测试同时考虑空间结构和共线纹理,指标数值越大,说明与手绘素描图相似度越高,重构的人脸素描与手绘素描之间的差异越小,效果越好.不同网络架构在数据集C U F S 和C U F S F 上生成的素描图像进行测评的结果分别列于表1和表2.表1 不同网络架构在数据集C U F S 上素描图像评估结果对比T a b l e 1 C o m p a r i s o no f s k e t c h e v a l u a t i o n r e s u l t s o f d i f f e r e n t n e t w o r ka r c h i t e c t u r e s o nC U F Sd a t a s e t 评估指标F C N 算法MW F 算法C y c l e G A N 算法C A -G A N 算法本文算法S S I M 0.56970.57410.58340.64310.6543F S I M 0.68420.68680.68420.75980.7623S c o o tM e a s u r e0.47110.48210.52410.58320.5925表2 不同网络架构在数据集C U F S F 上素描图像评估结果对比T a b l e 2 C o m p a r i s o no f s k e t c h e v a l u a t i o n r e s u l t s o f d i f f e r e n t n e t w o r ka r c h i t e c t u r e s o nC U F S Fd a t a s e t 评估指标F C N 算法MW F 算法C y c l e G A N 算法C A -G A N 算法本文算法S S I M 0.53210.56120.56630.67320.6836F S I M 0.66240.66740.67930.74210.7583S c o o tM e a s u r e 0.47320.48980.50120.54760.5732由表1可见,本文算法相比于F C N ,MW F ,C y c l e G A N ,C A -G A N 算法训练得到的人脸素描图像,其各项指标均有提高.本文算法与效果相对较好的C A -G A N 网络训练得到的人脸素描图像相比,其S S I M 和F S I M 值分别提高0.0112和0.0025,S c o o tM e a s u r e 提高0.0093.由表2可见,本文算法与效果相对较好的C A -G A N 网络训练得到的素描图像相比,其S S I M 和F S I M 值分别提高0.0104和0.0162,S c o o tM e a s u r e 提高0.0256.实验结果证明了本文算法在人脸素描图像合成方面的有效性.下面从主观视觉上对比实验结果.各算法在数据集C U F S 和C U F S F 上测试生成的人脸素描图片如图11所示.由图11可见,不同算法的重建素描效果图在主观视觉上,MW F 和F C N 算法重建的图像主观上能辨析人脸,但其纹理模糊;C y c l e G A N 算法重建的图像线条更丰富,但边缘较模糊;C A G A N 算法重建的素描图像面部表情稍微失真,但整体轮廓更清晰;本文算法重建的人脸素描图像能恢复出更好的轮廓边缘信息,且线条含有更多的细节信息,发丝和五官轮廓更清晰,呈现出笔绘的线条感.实验结果表明,本文算法基于人脸照片重建的素描图像取得了最好的素描风格重现,感官视觉和客观指标上均优于对比算法.综上所述,针对在人脸素描图像合成过程中存在人脸边缘和细节纹理模糊㊁面部表情失真等问题,本文结合C y c l e G A N 算法的优点,提出了一种多尺度自注意机制的循环生成对抗网络用于人脸素描图像合成.该网络通过建模P S AM ,使网络在对图像特征进行提取时,网络自动学习图像特征信息的权重,通过学习不同特征通道之间的重要关系提升网络性能,使素描风格迁移获得更好的表达;该网络采用U -N e t 结构的生成器,并改进内部连接方式和采样结构,在获得较大感受野的情况下提取多尺度的特征信息,利用空洞卷积设计M F F B .将该网络与其他经典算法进行实验对比的结果表明,本文算法不仅主观上重建了较好的视觉效果,进一步纠正了网络生成的人脸素描图像在细节纹理㊁几何特征和边缘特征方面的表现能力;在客观评价指标上,本文取得的较高的F S I M 和S c o o tM e a s u r e 值,也证明了本文算法在人脸素描图像合成方面的有效性.309 第4期 葛延良,等:基于循环生成对抗网络的人脸素描合成图11 在数据集C U F S 和C U F S F 上各算法的视觉对比结果F i g .11 V i s u a l c o m p a r i s o n r e s u l t s o f e a c ha l go r i t h mo nC U F Sd a t a s e t a n dC U F S Fd a t a s e t 参考文献[1] 王楠楠.异质人脸图像合成及其应用研究[D ].西安:西安电子科技大学,2015.(WA N G N N.H e t e r o ge n e o u s F a c e I m a g eS y n t h e s i s a n d I t sA p p l i c a t i o n [D ].X i a n :X i d i a nU n i v e r s i t y ,2015.)[2] 徐润昊,程吉祥,李志丹,等.基于循环生成对抗网络的含遮挡人脸识别[J ].计算机工程,2022,48(5):289-296.(X U R H ,C H E N G J X ,L IZ D ,e ta l .M a s k e d F a c e R e c o g n i t i o n B a s e do n C y c l i c G e n e r a t i o nof A d v e r s a r i a lN e t w o r k [J ].C o m p u t e rE ng i n e e r i n g ,2022,48(5):289-296.)[3] 姚赛赛.素描人脸合成与识别研究[D ].济南:山东大学,2018.(Y A OSS .R e s e a r c ho nS k e t c hF a c eS yn t h e s i s a n dR e c o g n i t i o n [D ].J i n a n :S h a n d o n g U n i v e r s i t y,2018.)[4] 彭春蕾.基于概率图模型的异质人脸图像合成与识别[D ].西安:西安电子科技大学,2017.(P E N G C L .H e t e r o g e n e o u sF a c e I m a g eS y n t h e s i sa n d R e c o g n i t i o nB a s e do nP r o b a b i l i s t i cG r a p h M o d e l [D ].X i a n :X i d i a n U n i v e r s i t y ,2017.)[5] 梁正友,刘德志,孙宇.结合迁移学习与可分离三维卷积的微表情识别方法[J ].计算机工程,2022,48(1):228-235.(L I A N GZY ,L I U DZ ,S U N Y.M i c r o e m o t i cR e c o g n i t i o n M e t h o dC o m b i n i n g T r a n s f e rL e a r n i n g a n d S e p a r a b l eT h r e e -D i m e n s i o n a l C o n v o l u t i o n [J ].C o m p u t e rE n g i n e e r i n g ,2022,48(1):228-235.)[6] 申铉京,张雪峰,王玉.像素级卷积神经网络多聚焦图像融合算法[J /O L ].吉林大学学报(工学版),(2022-02-24)[2022-07-20].d o i :10.13229/j .c n k i .j d x b g x b 20211096.(S H E N XJ ,Z HA N G X F ,WA N G Y.P i x e l -L e v e l C o n v o l u t i o n a l N e u r a l N e t w o r kM u l t i f o c u s I m a g e F u s i o nA l g o r i t h m [J /O L ].J o u r n a l o f J i l i nU n i v e r s i t y (E n g i n e e r i n g S c i e n c eE d i t i o n ),(2022-02-24)[2022-07-20].d o i :10.13229/j .c n k i .j d x b g x b 20211096.[7] WO OS ,P A R K J ,L E EJ Y ,e ta l .C b a m :C o n v o l u t i o n a lB l o c k A t t e n t i o n M o d u l e [C ]//P r o c e e d i n gso ft h e E u r o p e a nC o n f e r e n c e o nC o m p u t e rV i s i o n (E C C V ).B e r l i n :S p r i n g e r ,2018:3-19.[8] G O O D F E L L OWI J ,P O U G E T -A B A D I EJ ,M I R Z A M ,e t a l .G e n e r a t i v eA d v e r s a r i a lN e t s [C ]//P r o c e e d i n gs o f t h e27t h I n t e r n a t i o n a l C o n f e r e n c e o n N e u r a lI n f o r m a t i o n P r o c e s s i n g S ys t e m s .N e w Y o r k :A C M ,2014:2672-2680.[9] 朱海琦,李宏,李定文,等.基于生成对抗网络的单图像超分辨率重建[J ].吉林大学学报(理学版),2021,59(6):1491-1498.(Z HU H Q ,L IH ,L ID W ,e t a l .S i n g l e I m a g eS u p e r -R e s o l u t i o nR e c o n s t r u c t i o nB a s e do n 409 吉林大学学报(理学版) 第60卷G e n e r a t e dC o u n t e r m e a s u r eN e t w o r k [J ].J o u r n a l o f J i l i nU n i v e r s i t y (S c i e n c eE d i t i o n ),2021,59(6):1491-1498.)[10] G U L R A J A N I I ,A HM E D F ,A R J O V S K Y M ,e ta l .I m p r o v e d T r a i n i n g of W a s s e r s t e i n G a n s [E B /O L ].(2017-12-25)[2021-03-20].h t t p s ://a r x i v .o rg /a b s /1704.00028.[11] S A L I MA N S T ,G O O D F E L L OW I ,Z A R E M B A W ,e ta l .I m p r o v e d T e ch ni q u e sf o r T r a i n i n g Ga n s [C ]//P r o c e e d i n g s o f t h e 30t hI n t e r n a t i o n a lC o n f e r e n c eo nN e u r a l I n f o r m a t i o nP r o c e s s i n g S ys t e m s .N e w Y o r k :A C M ,2016:2234-2242.[12] I S O L AP ,Z HUJY ,Z HO U T ,e t a l .I m a g e -t o -I m a g eT r a n s l a t i o nw i t hC o n d i t i o n a lA d v e r s a r i a lN e t w o r k s [C ]//P r o c e e d i n g s o f t h e I E E EC o n f e r e n c e o nC o m p u t e rV i s i o n a n dP a t t e r nR e c o g n i t i o n .P i s c a t a w a y,N J :I E E E ,2017:1125-1134.[13] Z HUJY ,P A R K T ,I S O L AP ,e t a l .U n p a i r e d I m a g e -t o -I m a g eT r a n s l a t i o nU s i n g C y c l e -C o n s i s t e n tA d v e r s a r i a l N e t w o r k s [C ]//P r o c e e d i n g s o f t h e I E E EI n t e r n a t i o n a lC o n f e r e n c eo nC o m p u t e rV i s i o n .P i s c a t a w a y,N J :I E E E ,2017:2223-2232.[14] R O N N E B E R G E R O ,F I S C H E R P ,B R O X T.U -N e t :C o n v o l u t i o n a l N e t w o r k s f o r B i o m e d i c a l I m a ge S e g m e n t a t i o n [C ]//I n t e r n a t i o n a lC o nf e r e n c eo n M e d i c a l I m ag eC o m p u t i n g a n dC o m p u t e r -A s s i s t e dI n t e r v e n t i o n .B e r l i n :S p r i n g e r ,2015:234-241.[15] S I MO N Y A N K ,Z I S S E R MA N A.V e r y D e e pC o n v o l u t i o n a l N e t w o r k sf o r L a r g e -S c a l e I m a g e R e c o g n i t i o n [E B /O L ].(2015-04-10)[2021-02-01].h t t p s ://a r x i v .o r g /a b s /1409.1556v 4.[16] Y U F ,K O L T U N V.M u l t i -s c a l e C o n t e x t A g g r e g a t i o n b y D i l a t e d C o n v o l u t i o n s [E B /O L ].(2016-04-30)[2021-03-01].h t t p s ://a r x i v .o r g /a b s /1511.07122v 1.[17] F UJ ,L I UJ ,T I A N HJ ,e t a l .D u a lA t t e n t i o nN e t w o r k f o r S c e n e S e g m e n t a t i o n [C ]//P r o c e e d i n gs o f t h e I E E E /C V FC o n f e r e n c e o nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n .P i s c a t a w a y ,N J :I E E E ,2019:3146-3154.[18] WA N G X G ,T A N G X O.F a c eP h o t o -S k e t c hS y n t h e s i sa n d R e c o g n i t i o n [J ].I E E E T r a n s a c t i o n so nP a t t e r n A n a l y s i s a n d M a c h i n e I n t e l l i g e n c e ,2008,31(11):1955-1967.[19] Z HA N G W ,WA N G X G ,T A N G X O.C o u p l e d I n f o r m a t i o n -T h e o r e t i c E n c o d i n g f o r F a c e P h o t o -S k e t c h R e c o g n i t i o n [C ]//C V P R2011.P i s c a t a w a y ,N J :I E E E ,2011:513-520.[20] Z HA N GLL ,L I NL ,WU X ,e t a l .E n d -t o -E n dP h o t o -S k e t c hG e n e r a t i o nv i aF u l l y C o n v o l u t i o n a l R e p r e s e n t a t i o n L e a r n i n g [C ]//P r o c e e d i n gso f t h e5t h A C M o nI n t e r n a t i o n a lC o n f e r e n c eo n M u l t i m e d i aR e t r i e v a l .N e w Y o r k :A C M ,2015:627-634.[21] Z HO U H ,K U A N G Z ,WO N G K Y K.M a r k o v W e i g h tF i e l d sf o rF a c eS k e t c h S yn t h e s i s [C ]//2012I E E E C o n f e r e n c e o nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n .P i s a t a w a y ,N J :I E E E ,2012:1091-1097.[22] Y UJ ,X U XX ,G A OF ,e t a l .T o w a r dR e a l i s t i cF a c eP h o t o -S k e t c hS y n t h e s i s v i aC o m p o s i t i o n -A i d e dG A N s [J ].I E E ET r a n s a c t i o n s o nC y b e r n e t i c s ,2020,51(9):4350-4362.[23] S A R A U ,A K T E R M ,U D D I N M S .I m a g e Q u a l i t y A s s e s s m e n t t h r o u ghF S I M ,S S I M ,M S Ea n dP S N R :A C o m p a r a t i v eS t u d y [J ].J o u r n a l o fC o m p u t e r a n dC o mm u n i c a t i o n s ,2019,7(3):8-18.[24] F A N DP ,Z HA N GSC ,WU Y H ,e t a l .S c o o t :A P e r c e p t u a lM e t r i c f o rF a c i a l S k e t c h e s [C ]//P r o c e e d i n g so f t h e I E E E /C V FI n t e r n a t i o n a l C o n f e r e n c e o nC o m p u t e rV i s i o n .P i s c a t a w a y ,N J :I E E E ,2019:5612-5622.(责任编辑:韩 啸)509 第4期 葛延良,等:基于循环生成对抗网络的人脸素描合成。
一种基于辅助变量的对抗生成网络的彩色图像灰度化方法[发明专利]
![一种基于辅助变量的对抗生成网络的彩色图像灰度化方法[发明专利]](https://img.taocdn.com/s3/m/86fec9e56c85ec3a86c2c5bd.png)
专利名称:一种基于辅助变量的对抗生成网络的彩色图像灰度化方法
专利类型:发明专利
发明人:刘且根,李婧源,周瑾洁,何卓楠,李嘉晨,全聪,谢文军,王玉皞
申请号:CN201910529133.0
申请日:20190618
公开号:CN110428473A
公开日:
20191108
专利内容由知识产权出版社提供
摘要:本发明提供了一种基于辅助变量的对抗生成网络的彩色图像灰度化方法,包括以下步骤:步骤A:检验输入图像是否为彩色图像,若为彩色图像则使用梯度相关相似度灰度化(GcsDecolor)算法对其进行灰度化处理,并将灰度化后图像进行复制,得到三份灰度化图像作为对抗生成网络的对比图像;步骤B:设计基于辅助变量的对抗生成网络(AV‑GAN),训练AV‑GAN网络;步骤C:将彩色图像通过已训练完成的AV‑GAN网络进行测试,得到最终的灰度化图像。
本发明使彩色图像灰度化计算效率较高,并可保存彩色图像的显著特征,使灰度化图像可保留颜色排序,更好地反映了彩色和灰度图像之间的结构相似性。
申请人:南昌大学
地址:330000 江西省南昌市红谷滩新区学府大道999号
国籍:CN
代理机构:北京众合诚成知识产权代理有限公司
代理人:许莹莹
更多信息请下载全文后查看。
基于循环生成对抗网络的人脸素描合成网络设计

第41卷 第1期吉林大学学报(信息科学版)Vol.41 No.12023年1月Journal of Jilin University (Information Science Edition)Jan.2023文章编号:1671⁃5896(2023)01⁃0076⁃08基于循环生成对抗网络的人脸素描合成网络设计收稿日期:2021⁃03⁃11基金项目:黑龙江省自然科学基金资助项目(LH2020F005)作者简介:葛延良(1979 ),男,黑龙江大庆人,东北石油大学副教授,主要从事图像处理㊁计算机视觉㊁无线通信研究,(Tel)86⁃158****3399(E⁃mail)geyanliang@;通讯作者:孙笑笑(1993 ),女,河南商丘人,东北石油大学硕士研究生,主要从事生成对抗网络㊁人脸素描融合研究,(Tel)86⁃159****1939(E⁃mail)3076266954@㊂葛延良,孙笑笑,王冬梅,王肖肖,谭 爽(东北石油大学电气信息工程学院,黑龙江大庆163318)摘要:针对目前人脸到素描合成存在生成的素描图轮廓模糊㊁细节纹理缺失等问题,提出一种采用循环生成对抗网络(CycleGAN:Cycle⁃Generative Adversarial Networks)解决方案㊂构建多尺度CycleGAN,生成器采用深度监督的U⁃Net++结构为基础,在其解码器端进行下采样密集跳跃连接;在其生成器的编码器端设计通道注意力和和空间注意力机制形成特征增强模块;最后在生成器中增加像素注意力模块㊂实验结果表明,与现有经典算法相比,从主观视觉评测和利用现有的4种图像质量评价算法进行质量评估,该方法较好地合成了素描图像的几何边缘和面部细节信息,提高了素描图像的质量㊂关键词:深度学习;多尺度CycleGAN;卷积神经网络;特征增强模块;像素注意力模块中图分类号:TP391.41;TP183文献标志码:ADesign of Face Sketch Synthesis Based on Cycle⁃Generative Adversarial NetworksGE Yanliang,SUN Xiaoxiao,WANG Dongmei,WANG Xiaoxiao,TAN Shuang(School of Electrical and Information Engineering,Northeast Petroleum University,Daqing 163318,China)Abstract :At present,Face sketch synthesis has a series of problems,such as generateing fuzzy outline,lacking of detail texture and so on.Therefore,using CycleGAN(Cycle⁃Generative Adversarial Networks)as a solution to build multi⁃scale cyclegan is proposed.Method innovation is mainly reflected in:The generator adopts the deep supervised U⁃net++structure as the basis,and performs down sampling dense jump connection at its decoder;The encoder end of the generator designs the channel attention and spatial attention mechanism to form a feature enhancement module;a pixel attention module is added to the pared with some existing classical algorithms,from the subjective visual evaluation and using the existing four image quality evaluation algorithms for quality evaluation,the experimental results show that this algorithm can better synthesize the geometric edge and facial detail information of sketch image,and improve the quality of sketchimage.Key words :deep learning;multi⁃scale cycle⁃generative adversarial networks (CycleGAN);convolutional neuralnetworks(CNN);feature enhancement module;pixel attention module 0 引 言近年来,作为图像风格迁移的一个分支[1],人脸素描合成(FSS:Face Sketch Synthesis)得到广泛关注㊂人脸素描合成是指将人脸转化为相对应的素描图像,其在生活,数字娱乐,漫画制作[2]及电影制作等多个行业中应用广泛㊂2014年,Goodfellow 等[3]首次提出生成对抗网络(GAN:Generative Adversarial Network),其能提高生成图像的清晰度;特别是2017年Gulrajani 等[4]提出ImprovedGAN,对GAN 网络进行结构更改和训练,主要集中于半监督学习和更好的图像生成㊂Isola 等[5]提出 Pix2pix”网络模型,其要求图片必须成对;Zhu 等[6]提出CycleGAN,使输入图像在不配对的情况下生成不同风格的图像,完成高质量的风格传递任务㊂利用生成对抗网络进行人脸素描合成的研究已成为计算机视觉研究的热点[7]㊂笔者使用CycleGAN 网络框架应用于人脸素描合成,实验得到更加优质的素描图片㊂首先,以CycleGAN 网络架构为基础网络,构建一个多尺度特征合成的CycleGAN 实现人脸素描合成,基于U⁃Net++结构优势,使用VGG16模块[8]对U⁃Net++网络[9]结构进行改进,生成器的解码器端利用图像高级特征指导低级特征的特点,在解码器端的每层增加密集跳跃连接,增强对特征图像的提取能力,能生成高质量的图像㊂其次,在生成器中解码器端下采样的过程中添加通道注意力和空间注意力机制组成的特征增强模块(FEM:Feature Enhancement Module)㊂最后,为使生成器能合理的分摊图片低频信息和高频信息的像素权重,在生成器的框架中加入像素注意力模块㊂在CFUS 和CFUSF 数据集上的实验结果表明,与现有的一些经典方法对比,笔者的研究结果在主观视觉上,使素描图像的细节和表情纹理表现更加突出,图像边界更加清晰;在4种客观评价指标上,笔者方法在人脸素描合成上取得最好的效果㊂1 相关工作1.1 循环生成对抗网络2017年,Zhu 等[6]首次提出CycleGAN,其整体模型如图1a 所示,总网络包括两个生成器网络G X 和G Y ,以及两个鉴别器网络D X 和D Y ㊂其训练过程相当于生成器G 与鉴别器D 的相互博弈,生成器伪造的样本越来越逼真,鉴别器的鉴别技术越来越强,直到鉴别器D 分辨不出生成的素描图是真实的人脸素描还是人脸图片风格迁移后的素描,对抗过程达到平衡㊂在网络模型结构中,笔者定义两个相同的PatchGAN 结构[5]的鉴别器,结构如图1b 所示㊂鉴别器采用1组卷积层+正则化+Leaky ReLU 激活函数形式和5组卷积层+谱归一化+Leaky Relu 激活函数形式㊂X ㊁Y 分别表示人脸和素描图像组成的数据集㊂图1 循环生成对抗网络模型Fig.1 Model of cycle⁃generative adversarial networks 1.2 注意力模块由于目前的网络结构在图像特征的提取过程中存在均匀分布的特点,因此Xu 等[10]提出通道注意力模块,提高了网络对有意义的特征信息的选择能力㊂其原理是采用池化操作,进行高频特征提取,从而提高网络对有用信息的关注㊂通道注意力和空间注意力结构如图2a 和图2b 所示㊂77第1期葛延良,等:基于循环生成对抗网络的人脸素描合成网络设计图2 注意力模块Fig.2 Attention block structure 1.3 像素注意力机制人脸照片的高频信息和低频信息的分布是不均匀的,使网络能合理分摊图像特征低频信息和高频信息的像素权重,朱海琦等[11]采用一种像素注意力机制更加关注高频信息,结构如图3所示㊂图3 像素注意力机制模块Fig.3 Pixel attention mechanism block 2 改进后的生成器网络结构2.1 特征增强模块在生成器中设计由一个通道注意力和一个空间注意力级联组成的特征增强模块,以融合多层次交叉模态特征[12],以增强网络对图像特征的兼容性,提高图像高频信息的提取㊂其结构如图4所示㊂图4 特征增强模块Fig.4 Feature enhancement module 在网络中输入和输出的通道数不会发生改变,特征图通过通道注意力进行全局平均和全局最大池化学习对各通道的依赖程度,随后在把空间域的信息做对应的空间变换,增加特征信息的多样性的同时也提高了对高频图像特征信息的提取㊂具体做法如下,以F 表示输入的特征图,首先将特征图在空间维度上进行压缩,通过利用平均池化和最大池化实现特征提取上的相互补充,通过两个池化函数后可得到两个一维矢量㊂然后再通过全87吉林大学学报(信息科学版)第41卷局平均池化以特征图为单位进行特征均值提取,使网络对特征图的每个像素点都有反馈㊂而全局最大池化也为全局平均池化的一个补充,弥补了在进行梯度反向传播计算时,只有特征图中响应最大的地方才有梯度反馈的特性㊂F c avg 和F c max 分别代表经过全局最大池化和全局平均池化计算后的特征图,R 0和R 1代表多层感知模型中的两层参数层,感知模型中R 0和R 1之间特征需要使用ReLU 作为激活函数进行非线性网络加深,σ表示激活函数,通过通道注意力后得到的权重特征图M C (F )公式如下:M C (F )=σ(R 1(R 0(F c avg ))+R 1(R 0(F c avg )))㊂(1) 特征图在通道上形成注意模型,为使输入的特征图在空间层面上的部分得到更高的权重倾斜,所以在通道层面上通过使用平均池化和最大池化对输入特征图进行压缩操作,对输入特征F c 分别在通道维度上做平均和最大值采样操作,得到了两个二维的特征图,然后在通道维度叠加在一起得到一个通道数为2的特征图;最后为保证得到的特征图在空间维度上与输入的特征图一致,使用一个包含单个7×7卷积核的隐藏层对其进行卷积操作,如图3㊁图4下部分网络所示㊂这部分卷积层之间采用Sigmoid 激活函数,用μ表示,该特征图经过平均池化操作后定义为F s avg ∈R 1×H ×W ;经过最大池化操作后定义为F s max ∈R 1×H ×W ,F s max 通过空间注意力机制后权重特征图如下:M S (F )=μ(f 7×7([F s avg ;F s max ]))㊂(2)2.2 生成器设计笔者以VGG16模块[8]改进U⁃Net++的结构作为生成器,X (i ,m )表示位于U⁃Net++网络层不同位置的VGG16模块,其中i 表示模块位于第i 行,m 表示模块位于第m 列㊂首先对U⁃Net++结构网络层连接方式进行改进,网络结构解码器端利用高级特征指导低级特征的特点,在解码器端的每层增加密集跳跃连接,增强对特征图像的提取能力㊂实现方式如图5所示,解码器端的X (1,5)与X (3,3),X (4,2),X (5,1)模块进行密集跳跃连接;同理X (2,4)与X (4,2),X (5,1);X (3,3)与X (5,1)模块都采用密集跳跃连接的方式,使U⁃Net++结构的左右两端形成不对称的跳连方式,以对图像的特征信息进行多次复用和提取㊂图5 改进后生成器网络结构Fig.5 Improved generator network structure基于U⁃Net++的结构,为提高网络模型对高频信息的提取,在解码器端下采样的过程中X (4,1)到X (5,1)模块之间设计特征增强模块㊂实现方法是使用通道注意力和空间注意力级联融合多层次交叉模态特征,在特征输入的每个通道里采用全局平均池化和全局最大池化进行并联,以不同的权重值对通道里的特征进行特征提取,多尺度的进行特征提取㊂使用通过简单的卷积层[13]增强多层次深度特征和对比[14]改进深度图㊂并在通道维度上进行特征聚合,最后通过Sigmoid 函数激活;空间维度上采用最大池化和平均池化进行多尺度特征聚合㊂该方法的目的就是网络在保留多尺度信息的同时,有效提高网络多97第1期葛延良,等:基于循环生成对抗网络的人脸素描合成网络设计08吉林大学学报(信息科学版)第41卷模态特征兼容性㊂FEM不仅改善多模态图像特征的匹配性,并从图像特征中提取有用信息,还降低了低质量图像特征的冗余和噪声㊂图像信息的提取集中在第5层的X(5,1)模块,使X(5,1)和X(1,5)模块进行级联操作,在该过程中添加像素注意力模块,通过网络结构最后输出为X(1,5)模块,使生成器对像素低频信息和高频信息的像素权重的处理能合理的分摊,提高网络浅层特征利用率及深度特征的兼容性㊂2.3 损失函数CycleGAN学习从X到Y的映射,如果映射关系设置为G,则学习到的图像就是G X,然后使用鉴别器判断是否是真实图像,从而形成生成对抗网络㊂其损失函数如下:L GAN(G X,D Y)=E Y[log D Y(y)]+E X[log(1-D Y(G X(x)))],(3)其中G X计划生成与目标域中的图像完全无法区分的假图像G X(x),而D Y试图区分真假图像㊂对映射函数G Y:Y→X和鉴别器D X,笔者定义一个类似的对抗性损失:L GAN(G Y,D X)㊂基于CycleGAN网络中两个GAN网络的对称性,所有X都可以由G映射到Y空间的图像上,反之亦然㊂所以为不使损失无效,笔者不能直接使用这个损失进行训练㊂基于这种情况,定义一种损失函数,其假定生成的图像可被合成回原域㊂对X域的像,笔者训练目的X→G X(x)→G Y(G X(x))≈X;对Y域的像,笔者训练的目的是Y→G Y(y)→G X(G Y(y))≈Y㊂CycleGAN模型的关键是使用循环一致性损失的监督㊂其损失函数为L cyc(G X,G Y)=E x[G Y(G X(x))-x1]+E y[G X(G Y(y))-y1]㊂(4) CycleGAN网络结构还加入本体映射损失(Identity Loss)㊂CycleGAN使用Identity loss的目的是在迁移过程中保持原色调,约束生成器更加接近真映射,则有L il(G X,G Y)=E x[G X(x)-x1]+E y[G Y(y)-y1],(5)所以在整个CycleGAN网络中的总目标损失函数为L(G X,G Y,D X,D Y)=L GAN X+L GAN Y+λcyc L cyc+λil L il,(6)其中λcyc和λi l表示控制循环损失和本体映射损失的参数㊂3 实验与结果为验证笔者人脸素描合成框架性能,在CUFS[15]和CUFSF[16]数据集上进行训练㊂CUFS数据集中包含606对彩色人脸照片和素描,包括来自香港中文大学学生数据库的188张人脸,其中88张用于训练, 100张用于测试;来自AR数据库的123张人脸,60张用于训练,63张用于测试;还有XM2VTS数据库中的295张人脸,其中150对用于训练,145对用于测试㊂CUFSF数据集分别包括1194对黑白人脸照片和素描,其中挑选400对用于训练,694对用于测试,因为草图更加的抽象化和与原始照片没有很好的对齐增加了实验的挑战性㊂程序在pytorch1.9环境下运行,实验设备是一台Ubuntu操作系统计算机,一块NVIDIA1080Ti显卡㊂3.1 参数设置由于受实验设备条件限制,在实验过程中训练集的人脸图像被裁剪成256×256像素大小,batch_size 为5,整个实验迭代次数为200次,生成器和鉴别器使用Adam算法进行优化,优化学习率为0.0002㊂3.2 结果与分析为证明本实验对人脸素描合成的有效性,在相同的硬件环境配置下,笔者对比FCN(Fully Convolutional Networks for Semantic Segmentation)算法[17],LIE算法[18],MRF(Marcov Randon Field)算法[19],SSD(Single Shot MultiBox Detector)算法[19],GAN(Generative Adversarial Network)算法[3]以及CGAN(Conditional Generative Adversarial Network)算法[21]和笔者方法(Ours)在CUFS和CUFSF数据集上生成的人脸素描图像㊂在客观评价指标上,笔者采用的图像质量评估指标为VIF(Visual Information Fidelity)㊁FSIM(Feature Similarity Index Measure)㊁UIQI(Universal Image Quality Index)和Scoot Measure㊂分别为视觉信息保真度VIF [22],其主要适用于灰度图像,在本文中主要用于测试生成的素描图与剪裁后的艺术家绘画的素描图进行对比计算,以衡量待评图像的质量优劣㊂特征相似指数FSIM 是在结构相似指数上的延伸,FSIM 算法[23]能根据一张图片中不同的像素所占的比重不同而给予合适的权重指数㊂UIQI [24]是为各种图像处理应用而设计的,其存在的意义是可对不同类型的图像失真进行比较㊂笔者还使用结构共现纹理的测试(Scoot Measure),其针对类视觉系统具有很强的快速评估两张面部素描之间的感知相似性的能力㊂ 空间结构”和 共线纹理”是面部素描合成中两个普遍适用的感知特征,结构共线纹理测试同时考虑 空间结构”和 共线纹理”[25⁃26]㊂这些指标越接近1,说明与Target 相似度越高,重构的人脸素描与手绘素描之间的差异越小㊂对不同网络在CUFS 数据集和CUFSF 数据集生成的素描图像进行评估结果如表1㊁表2所示㊂表1 各网络架构在CUFS 数据集上素描图评估结果对比Tab.1 Comparison of sketch evaluation results of each network architecture on CUFS test setMethod FCN LLE MRF SSD GAN CGAN OursVIF 0.05990.06200.05370.06580.06450.06720.0696FSIM 0.64600.70410.70470.69380.71480.75820.7814UIQI 0.95980.95450.94850.96010.95870.97790.9850Scoot 0.45310.48010.51520.45000.48410.70740.7552表2 各网络架构在CUFSF 数据集上素描图评估结果对比Tab.2 Comparison of sketch evaluation results of each network architecture on CUFSF test set MethodFCN LLE MRF SSD GAN CGAN Ours VIF 0.06240.06410.05390.06620.06530.06710.0701FSIM0.63620.70180.70390.69540.71510.75910.7892UIQI 0.96220.95450.94860.95290.95870.97840.9886Scoot 0.45420.47690.51510.45470.48370.71760.7763 从表1中数据看出,笔者方法相较于FCN,LLE,MRF,SSD,以及GAN 和CGAN 训练得到的人脸素描图像,其各项指标均有提高㊂笔者方法和效果相对较好的CGAN 网络训练得到的人脸素描图像对比,其VIF 和FSIM 值分别提高0.0028和0.0232,UIQI 和Scoot Measure 分别提高0.0071和0.0478;从表2中数据看出,笔者方法和效果相对较好的CGAN 网络训练得到的人脸素描图像对比,其VIF 和FSIM 值分别提高0.0030和0.0301,UIQI 和Scoot Measure 分别提高0.0102和0.0587㊂由此证明笔者算法在人脸素描图像重建的有效性㊂各算法测试的视觉效果如图6㊁图7所示㊂图6 在CUFS 数据集上各算法的视觉对比结果Fig.6 The visual comparison results of each algorithm on CUFS test set 18第1期葛延良,等:基于循环生成对抗网络的人脸素描合成网络设计图7 在CUFSF 数据集上各算法的视觉对比结果Fig.7 The visual comparison results of each algorithm on CUFSF test set从主观视觉上对比,基于笔者改进的CycleGAN 生成的素描图案在图像纹理㊁阴影㊁遮挡㊁脸部线条和脸部像素分布方面更加的清晰㊂如图6所示,各算法在CUFS 数据集上测试生成的人脸素描图片,不同算法的重建素描效果图在主观视觉上,FCN,LLE,MRF 和SSD 网络重建出的图像都存在不同程度的失真和扭曲,GAN 和CGAN 重建出的素描图的面部表情稍微失真但整体轮廓更加清晰,CGAN 和笔者算法重建出的效果较好于前5种算法,但笔者算法重建出的人脸素描线条含有更多的细节信息,发丝和人眼轮廓更加清晰㊂当人脸图片换成难度更大的灰度图片时,如图7所示,各算法在CUFSF 数据集上测试生成的人脸素描图片,从主观视觉上看,在画像师画出的素描图像更抽象的条件下,FCN,LLE,MRF 和SSD 重建出的素描图像失真更严重,脸部轮廓模糊㊂笔者方法与其他网络相比,生成的人脸素描图案的脸部轮廓更清晰,而且能显示更多的脸部细节纹理,脸部线条更加流畅,五官表现清楚,更好的突出表情纹理㊂综合图6和图7,笔者的网络架构重建出的素描图像与其他网络重建的图像相比,脸部纹理细节更加丰富,能恢复出更好的轮廓边缘信息,在显示图像细节和纹理方面更具有表现性㊂综上所述,笔者网络重建的素描图像取得最好的视觉抽象效果,在感官视觉和客观指标上均优于现有的几种经典算法㊂4 结 语笔者针对在人脸素描合成过程中对特征信息的提取不充分,以及对各个特征提取通道的比重没有倾斜和丢失细节信息的问题,结合CycleGAN 网络进行研究,用于人脸素描合成的过程中对生成器的内部连接方式进行改进,以及设计特征增强模块和添加注意力机制㊂通过该网络在CUFS 和CUFSF 公共人脸数据集上进行训练,并与其他经典算法进行实验对比,笔者方法不仅主观上重建出较好的视觉效果,证明笔者算法较为成功地解决了上述问题,从而重建出逼真的细节纹理信息㊁几何特征和边缘特征;在客观评价指标上,取得了较高的FSIM 和UIQI 值以及Scoot 值,有力的证明笔者方法在人脸素描合成方面的有效性㊂未来的工作将主要研究如何设计最新的生成对抗网络得到更加优质的人脸素描合成结果㊂参考文献:[1]王楠楠.异质人脸图像合成及其应用研究[D].西安:西安电子科技大学通信工程学院,2015.WANG N N.Heterogeneous Face Image Synthesis and Its Application [D].Xi’an:School of Communication Engineering,Xi’an University of Electronic Science and Technology,2015.[2]姚赛赛.素描人脸合成与识别研究[D].济南:山东大学控制科学与工程学院,2018.28吉林大学学报(信息科学版)第41卷YAO S S.Research on Sketch Face Synthesis and Recognition [D].Jinan:School of Control Sceince and Engineering,Shandong University,2018.[3]GOODFELLOW I,POUGET⁃ABADIE J,MIRZA M,et al.Generative Adversarial Nets [J].Advances in Neural InformationProcessing Systems,2014,27.[4]GULRAJANI I,AHMED F,ARJOVSKY M,et al.Improved Training of Wasserstein Gans [P].arXiv Preprint arXiv:1704.00028,2017.[5]ISOLA P,ZHU J Y,ZHOU T,et al.Image⁃to⁃Image Translation with Conditional Adversarial Networks [C]∥Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2017:1125⁃1134.[6]ZHU J Y,PARK T,ISOLA P,et al.Unpaired Image⁃to⁃Image Translation Using Cycle⁃Consistent Adversarial Networks [C]∥Proceedings of the IEEE International Conference on Computer Vision.[S.l.]:IEEE,2017:2223⁃2232.[7]BI H,LIU Z,YANG L,et al.Face Sketch Synthesis:A Survey [J].Multimedia Tools and Applications,2021,80(12):18007⁃18026.[8]PARDEDE J,SITOHANG B,AKBAR S,et al.Implementation of Transfer Learning Using VGG16on Fruit RipenessDetection [J].International Journal of Intelligent Systems &Applications,2021,13(2):127⁃134.[9]MICALLEF N,SEYCHELL D,BAJADA C J.Exploring the U⁃Net++Model for Automatic Brain Tumor Segmentation [J].IEEE Access,2021,9:125523⁃125539.[10]XU X,WANG J,ZHONG B,et al.Deep Learning⁃Based Tool Wear Prediction and Its Application for Machining ProcessUsing Multi⁃Scale Feature Fusion and Channel Attention Mechanism [J].Measurement,2021,177:109254.[11]朱海琦,李宏,李定文,等.基于生成对抗网络的单图像超分辨率重建[J].吉林大学学报(理学版),2021,59(6):1491⁃1498.ZHU H Q,LI H,LI D W,et al.Single Image Super⁃Resolution Reconstruction Based on Generative Adversarial Network [J].Journal of Jilin University (Science Edition),2021,59(6):1491⁃1498.[12]FAN D P,ZHAI Y,BORJI A,et al.BBS⁃Net:RGB⁃D Salient Object Detection with a Bifurcated Backbone Strategy Network[C]∥European Conference on Computer Vision.Cham:Springer,2020:275⁃292.[13]PIAO Y,JI W,LI J,et al.Depth⁃Induced Multi⁃Scale Recurrent Attention Network for Saliency Detection [C]∥Proceedingsof the IEEE /CVF International Conference on Computer Vision.[S.l.]:IEEE,2019:7254⁃7263.[14]ZHAO J X,CAO Y,FAN D P,et al.Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection [C]∥Proceedings of the IEEE /CVF Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2019:3927⁃3936.[15]WANG X,TANG X.Face Photo⁃Sketch Synthesis and Recognition [J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2008,31(11):1955⁃1967.[16]ZHANG W,WANG X,TANG X.Coupled Information⁃Theoretic Encoding for Face Photo⁃Sketch Recognition [C]∥CVPR2011.[S.l.]:IEEE,2011:513⁃520.[17]IJJEH A A,ULLAH S,KUDELA P.Full Wavefield Processing by Using FCN for Delamination Detection [J].MechanicalSystems and Signal Processing,2021,153:107537.[18]LIU Q,TANG X,JIN H,et al.A Nonlinear Approach for Face Sketch Synthesis and Recognition [C]∥2005IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition (CVPR’05).[S.l.]:IEEE,2005,1:1005⁃1010.[19]LI C,WAND M.Precomputed Real⁃Time Texture Synthesis with Markovian Generative Adversarial Networks [C]∥EuropeanConference on Computer Vision.Cham:Springer,2016:702⁃716.[20]SONG Y,BAO L,YANG Q,et al.Real⁃Time Exemplar⁃Based Face Sketch Synthesis [C]∥European Conference onComputer Vision.Cham:Springer,2014:800⁃813.[21]BI H,LI N,GUAN H,et al.A Multi⁃Scale Conditional Generative Adversarial Network for Face Sketch Synthesis [C]∥2019IEEE International Conference on Image Processing (ICIP).[S.l.]:IEEE,2019:3876⁃3880.[22]ZHANG L,LIN L,WU X,et al.End⁃To⁃End Photo⁃Sketch Generation via Fully Convolutional Representation Learning [C]∥Proceedings of the 5th ACM on International Conference on Multimedia Retrieval.[S.l.]:ACM,2015:627⁃634.[23]ZHANG L,ZHANG L,MOU X,et al.FSIM:A Feature Similarity Index for Image Quality Assessment [J].IEEETransactions on Image Processing,2011,20(8):2378⁃2386.[24]ZHOU W,BOVIK A C.A Universal Image Quality Index [J].IEEE Signal Processing Letters,2002,9(3):81⁃84.[25]MIRZA M,OSINDERO S.Conditional Generative Adversarial Nets [J].Computer Science,2014(4):2672⁃268.[26]FAN D P,ZHANG S C,WU Y H,et al.Scoot:A Perceptual Metric for Facial Sketches [C]∥Proceedings of the IEEE /CVF International Conference on Computer Vision.[S.l.]:IEEE,2019:5612⁃5622.(责任编辑:刘东亮)38第1期葛延良,等:基于循环生成对抗网络的人脸素描合成网络设计。
基于生成对抗网络的可见光与红外图像融合

基于生成对抗网络的可见光与红外图像融合
刘锃亮;张宇;吕恒毅
【期刊名称】《无线电工程》
【年(卷),期】2022(52)4
【摘要】图像融合是图像处理领域中非常重要的分支,可见光图像与红外图像的融合在机器感知、目标检测与追踪、监控、遥感和图像去雾等方面扮演着十分重要的角色。
针对目前一些融合算法时效性差、复杂程度高、泛化程度低和融合后图片信息丢失量大等问题,在神经网络FusionGAN的基础上进行了改进。
在其中引入了一种多尺度卷积PSConv和一种轻量化注意力模块ECA-Net,前者能够在更细粒度角度进行多尺度特征融合,后者能自适应地选择一维卷积核大小,从而实现性能上的提优。
实验采用经典的红外与可见光数据集TNO和NIO数据集,经实验表明,改进后的算法在主观评价与客观评价下,与原算法和其他算法相比有着明显提高。
【总页数】7页(P555-561)
【作者】刘锃亮;张宇;吕恒毅
【作者单位】中国科学院长春光学精密机械与物理研究所;中国科学院大学光电学院
【正文语种】中文
【中图分类】TP183
【相关文献】
1.一种基于生成对抗网络与注意力机制的可见光和红外图像融合方法
2.基于边缘保持和注意力生成对抗网络的红外与可见光图像融合
3.基于双路级联对抗机制的红外与可见光图像融合方法
4.基于生成对抗模型的可见光-红外图像匹配方法
5.基于WEMD和生成对抗网络重建的红外与可见光图像融合
因版权原因,仅展示原文概要,查看原文内容请购买。
基于组合对抗生成网络的人脸微表情深度学习识别系统[发明专利]
![基于组合对抗生成网络的人脸微表情深度学习识别系统[发明专利]](https://img.taocdn.com/s3/m/0d9d7bb58662caaedd3383c4bb4cf7ec4afeb618.png)
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910991629.X(22)申请日 2019.10.18(71)申请人 复旦大学地址 200433 上海市杨浦区邯郸路220号(72)发明人 付彦伟 王文萱 李树昀 薛向阳 姜育刚 (74)专利代理机构 上海德昭知识产权代理有限公司 31204代理人 郁旦蓉(51)Int.Cl.G06K 9/00(2006.01)G06K 9/62(2006.01)G06N 3/04(2006.01)G06N 3/08(2006.01)(54)发明名称基于组合对抗生成网络的人脸微表情深度学习识别系统(57)摘要本发明提供一种基于组合对抗生成网络的人脸微表情深度学习识别系统,对用于进行人脸微表情识别的模型进行训练从而完成对待识别图像的人脸微表情识别,其特征在于,包括:模型存储部,存储有预先训练完成的用于进行微表情识别、姿态分类以及人脸识别的多功能识别网络以及基于组合对抗生成网络的微表情人脸图像生成网络;待识别图像获取部,用于获取待识别图像;特征提取部,将待识别图像输入多功能识别网络从而得到对应身份、姿态、微表情的特征信息;以及微表情识别部,根据特征信息完成人脸微表情识别。
权利要求书2页 说明书8页 附图3页CN 112686083 A 2021.04.20C N 112686083A1.一种基于组合对抗生成网络的人脸微表情深度学习识别系统,对用于进行人脸微表情识别的模型进行训练从而完成对待识别图像的人脸微表情识别,其特征在于,包括:模型存储部,存储有预先训练完成的用于进行微表情识别、姿态分类以及人脸识别的多功能识别网络以及基于组合对抗生成网络的微表情人脸图像生成网络;待识别图像获取部,用于获取所述待识别图像;特征提取部,将所述待识别图像输入所述多功能识别网络从而得到对应身份、姿态、微表情的特征信息;以及微表情识别部,根据所述特征信息完成人脸微表情识别,其中,所述多功能识别网络通过如下步骤训练得到:步骤S1,根据带标签的训练数据集进行所述多功能识别网络的预训练;步骤S2,将所述训练数据集划分为以随机三张图片为一组的训练组,所述三张图片分别表示了所述微表情人脸图像生成网络的生成对象的目标身份、目标姿态以及目标微表情的特征信息;步骤S3,将所述训练组输入所述微表情人脸图像生成网络并生成符合所述目标身份、所述目标姿态以及所述目标微表情的人脸生成图片;步骤S4,将所述训练数据集以及所述人脸生成图片输入所述多功能识别网络进行训练;步骤S5,重复所述步骤S3至所述步骤S4直至网络收敛从而完成所述多功能识别网络的训练。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A之中的图像Areal输入GA生成器生成的图像Afake的光照域类别的鉴别损失,使用了多尺度特 征图进行鉴别,当鉴别为真实时输出接近1,鉴别为假时输出接近0;
S23 :对于判别器GA和GB的 损失函数 ,均结合了WGAN梯度惩罚策略 ,判别器GA和GB以 最小
2
CN 109815893 A
权 利 要 求 书
2/3 页
化损失函数为优化目标; S24 :生成器的 重构损失Lrec构建 ,结合三 种距离衡量方法计算重构图 像与原始图 像之
间的距离误差,分别为L1范数误差,MS-SSIM误差,PSNR误差; S25:生成器GA的整体损失函数 其结合了鉴别器DB损失函数的相反数和对集合A之
中的图像Areal与GB生成器生成的重构图片Brec的重构误差;
3 .根据权利要求2所述基于循环生成对抗网络的彩色人脸图像光照域归一化的方法, 其特征在于,所述生成器GA和生成器GB具有相同的网络结构,其网络共有四个卷积层、六个 残差模块和两个转置卷积层,其中第一个卷积层为输入层,两个用作下采样的卷积层与两 个 用做上采样的 转置卷积层中间嵌入六个残差模块 ,保证输出图 像 与输入图 像的 大小一 致。
本发明公开了一种基于循环生成对抗网络 的彩色人脸图像光照域归一化的方法,包括以下 步骤 :S1:建立 用于彩色人脸图 像光照归一化的 循环生成对抗网络模型 ;S2:建立模型的 损失函 数 ;S3:进行模型的 训练 ,并 在测试集上 测试。本 发明是对多种光照下的彩色人脸图像进行到指 定目标光照域的转换,输入不均匀光照的彩色人 脸图 片 ,使 用循环生成对抗网 络作为模型架构 , 以目标均匀光照域为目标,实现人脸图像多光照 的归一化,归一化的图像不仅可以较好的保持原 有人脸的脸部属性特征,还可以很好实现跨数据 集迁移。
S26:生成器GB的整体损失函数 其结合了鉴别器DA损失函数的相反数和对集合B之 中的图像Breal与GA生成器生成的重构图片Arec的重构误差;
α1为重构误差权重参数;
S26 :生成器 总的 损失函数为 :
以最小化该损失函数同时优化更新生
成器GA和GB的参数。 6 .根据权利要求5所述基于循环生成对抗网络的彩色人脸图像光照域归一化的方法,
代理人 李斌
(51)Int .Cl . G06K 9/00(2006 .01) G06N 3/04(2006 .01)
(10)申请公布号 CN 109815893 A (43)申请公布日 2019.05.28
( 54 )发明 名称 基于循环生成对抗网络的彩色人脸图像光
照域归一化的方法 ( 57 )摘要
S11 :构建生成网络 ,构建两个生成器GA和GB ;其中 ,GA生成器以 多光照域集合A中的人脸 图 片Areal作为输入 ,生成与目标光照域B具有相同 光照特征的图 片Afake ,以 GB生成器生成的 图 片Bfake作为输入 ,生成与Breal具有相同 光照特征与人脸特征的 重构图 片Arec ;GB生成器以 GA生成器生成的图片Afake作为输入,生成与Areal具有相同光照特征和人脸特征的重构图片 Brec ,并且以光照域B之中的图像Breal作为输入生成与光照域集合A光照特征相同的图片 Bfake ;
S21:对于判别器DA,其损失函数 是对多光照域集合A中的人脸图片Areal和将光照域
B之中的图像Breal输入GB生成器生成的图像Bfake的光照域类别的鉴别损失,使用了多尺度特 征图进行鉴别,当鉴别为真实时输出接近1,鉴别为假时输出接近0;
S22:对于判别器DB,其损失函数 是对目标光照域集合B中的人脸图片Breal和将集合
4 .根据权利要求2所述基于循环生成对抗网络的彩色人脸图像光照域归一化的方法, 其特征在于,所述鉴别器DA和鉴别器DB均采用使用多尺度特征图来进行鉴别,共有六个卷积 层,六个卷积层通道数按照是前一层的两倍递增。
5 .根据权利要求2所述基于循环生成对抗网络的彩色人脸图像光照域归一化的方法, 其特征在于,所述步骤S2的具体过程是:
( 19 )中华人民 共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910061571 .9
(22)申请日 2019 .01 .23
(71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号
(72)发明人 朱俊勇 李锴莹 赖剑煌 谢晓华
(74)专利代理机构 广州市华学知识产权代理有 限公司 44245
S2:建立模型的损失函数,使生成对抗网络训练稳定,并且使得生成器在学习目标光照 域光照信息时能够比较好保留输入图像的脸部特征;
S3 :进行模型的 训练 ,将不同 光照类别的图 像分成不均匀光照域和目标均匀光照域 ,进 行在生成对抗网络中循环训练,并在测试集上测试,并查看生成的人脸图像效果图。
2 .根据权利要求1所述基于循环生成对抗网络的彩色人脸图像光照域归一化的方法, 其特征在于,所述步骤S1的具体过程是:
S12 :构建鉴 别网络 ,构建两个鉴 别器DA 和DB ,DA鉴 别器 用以 鉴 别人脸光 照域集合A中图 片Area l 与生成 器G B生成的图 片Bfa ke的 光 照域类 别 ;DB鉴 别器 用以 鉴 别人脸光 照域 B中图 片 Breal与生成器GA生成图片Afake的光照域间类别,鉴别器用以鉴别光照域时候,均采用多尺度 特征图来进行鉴别。
权利要求书3页 说明书7页 附图1页
CN 109815893 A
CN 109815893 A
权 利 要 求 书
1/3 页
1 .基于循环生成对抗网络的彩色人脸图像光照域归一化的方法,其特征在于,包括以 下步骤:
S1 :建立 用于彩色人脸图 像光照归一化的 循环生成对抗网络模型 ,该循环生成对抗网 络模型包括生成网络和鉴别网络,所述生成网络通过构建生成器生成转换成指定光照域的 人脸图片和人脸特征重构图片,所述鉴别网络通过构建鉴别器来鉴别光照域;