Image retrieval using NN based pre-classification and fuzzy relevance feedback
利用自相似性实现医学图像合成的生成对抗网络

第 43 卷第 1 期2024年 1 月Vol.43 No.1Jan. 2024中南民族大学学报(自然科学版)Journal of South-Central Minzu University(Natural Science Edition)利用自相似性实现医学图像合成的生成对抗网络李帅先,谭桂梅,刘汝璇,唐奇伶*(中南民族大学生物医学工程学院,武汉430074)摘要基于深度卷积的跨模态医学图像合成网络具有从大规模数据资源中学习非线性映射关系以进行局部生成的优势,但现有方法忽略了医学图像具有特征自相似性的特点,仅通过卷积来提取像素级别的特征信息,导致深层特征提取能力不足和语义信息表达不充分.为此,提出了基于图注意力块(Graph Attention Block,GAB)和全局块注意力块(Global Patch Attention Block,GPAB)的生成对抗网络(Graph Attention Block and Global Patch Attention Block GenerativeAdversarial Networks,GGPA-GAN).其中,用图注意力块和全局块注意力块捕捉医学图像切片间以及切片内的自相似性,进行深层特征的提取.此外,在生成器中加入二维位置编码,利用图像的空间位置信息来增强语义信息的表达能力. 在HCP_S1200数据集和ADNI数据集上的实验结果表明,提出的网络在3T-7T、T1-T2的脑部MRI图像合成任务中相较于其他网络取得了最优的结果.在3T-7T脑部MRI图像合成任务中,相比Pix2pix合成方法,该方法在峰值信噪比(Peak Signal-to-Noise Ratio)、结构相似性指数(Structural Similarity Index)和平均绝对误差(Mean Absolute Error)方面分别提升了0.55、0.007和6.55.在T1-T2脑部MRI图像合成任务中,相比Pix2pix合成方法,在PSNR、SSIM和MAE分别提升了0.68、0.006和8.77.这些结果充分证明了此方法的有效性,为临床诊断提供了有力的帮助.关键词脑磁共振图像;深度学习;医学图像合成;图注意力;位置编码中图分类号TP391.4 文献标志码 A 文章编号1672-4321(2024)01-0078-12doi:10.20056/ki.ZNMDZK.20240111A generative adversarial networks for medical image synthesisbased on self-similarityLI Shuaixian,TAN Guimei,LIU Ruxuan,TANG Qiling*(College of Biomedical Engineering, South-Central Minzu University, Wuhan 430074, China)Abstract The cross-modal medical image synthesis network based on deep convolution has the advantage of learning nonlinear mapping relationships from large-scale data resources to perform local generation. However,the existing methods overlook the inherent feature self-similarity of medical images and only extract pixel-level feature information through convolution, which results in insufficient deep feature extraction capability and inadequate semantic information representation. Therefore, a Generative Adversarial Network(Graph Attention Block and Global Patch Attention Block Generative Adversarial Networks, GGPA-GAN) is proposed based on Graph Attention Block(GAB)and Global Patch Attention Block(GPAB). GAB and GPAB are utilized to capture the self-similarity between and within slices of medical images,which enable deep feature extraction. Additionally,2D positional encoding in the generator is incorporated by using spatial position information of the images to enhance the expression capability of semantic information. The experimental results on the HCP_S1200 dataset and ADNI dataset demonstrate that the proposed network achieves superior performance compared to other networks in synthesizing brain MRI images across 3T-7T and T1-T2 modalities. In the 3T-7T brain MRI image synthesis task, the method outperforms the Pix2pix synthesis method with improvements of 0.55 in Peak Signal-to-Noise Ratio (PSNR), 0.007 in Structural Similarity Index (SSIM), and 6.55 in Mean Absolute Error (MAE). For the T1-T2 brain MRI image synthesis task, the method surpasses the Pix2pix method with improvements of 0.68 in PSNR,0.006 in SSIM,and 8.77 in MAE. These results fully prove the effectiveness of the proposed method and provide powerful help for clinical diagnosis.Keywords brain magnetic resonance imaging; deep learning; medical image synthesis; graph attention; positional encoding收稿日期2023-05-21* 通信作者唐奇伶(1973-),男,副教授,博士,研究方向:医学图像处理,E-mail:*****************基金项目湖北省自然科学基金资助项目(2008CDB392);中央高校基本科研业务费专项资金资助项目(CZY22014)第 1 期李帅先,等:利用自相似性实现医学图像合成的生成对抗网络医学图像在临床诊断中起着至关重要的作用,它为医生提供了非侵入性的方法,帮助医生观察和分析病人体内的内部结构,更准确地诊断疾病[1-3].然而,由于技术、设备、成本和患者安全等因素的限制,有时并不能获得所需的医学图像[4].医学图像合成技术可以根据已有的图像数据,通过计算机算法和人工智能技术生成逼真的医学图像,有效地解决数据不足、成本高昂等问题.在从核磁共振成像(Magnetic Resonance Imaging,MRI)的T1加权图像合成T2加权图像中,T1加权脑图像可以清晰地显示灰质和白质组织,而T2加权脑图像可以描绘皮层组织中的流体,两种图像组合可以帮助医生更准确地识别异常病变组织,更准确地诊断疾病.在从MRI的3T图像合成7T图像中,由于3T图像的空间分辨率受到限制,很难观察到较小的大脑结构,如海马体等.但是,7T图像可以提供更高质量的图像.由于7T图像的成本相对较高且不普及[5],但医学图像合成技术可以用来生成近似于7T 的高质量图像,为医生提供更准确、全面的诊断依据.近年来,深度学习在医学图像合成领域取得了实质性的突破[6-8].基于深度学习的图像合成方法共享一个通用框架,该框架使用数据驱动的方法进行图像强度映射.工作流程通常包括一个网络训练阶段,用于学习输入与其目标之间的映射,以及一个预测阶段,用于从输入中合成目标图像.相比于传统的基于地图集、字典学习等方法,基于深度学习的方法更具有普适性,可以更好地解决医学图像合成问题[9].GAO等[10]基于深度卷积神经网络(Deep Convolutional Neural Networks,DCNN),即编码器-解码器神经网络架构,以学习源图像和目标图像之间的非线性映射,实现图像合成. LI等[11]使用卷积神经网络(Convolutional Neural Network,CNN)从相应的MRI数据中估计缺失的正电子发射断层扫描(PET)数据.QU等[12]通过在UNet网络中加入来自空间域和小波域的互补信息,实现了从3T MRI合成7T MRI图像的任务. CHARTSIAS等[13]提出了一种用于MRI图像生成的网络结构,能够自动用现有的模态图像还原缺失的模态图像.ZHANG等[14]提出了一种双域CNN框架,该框架分别在空间域和频域中使用两个并行的CNN,通过傅里叶变换相互交互,从3TMRI合成7T MRI图像.基于生成对抗网络(Generative Adversarial Networks,GAN)的医学图像合成是近年来备受关注的研究热点之一[15-18].NIE等[5]将GAN结合自动上下文模型和全卷积神经网络,从MRI图像合成CT图像、3T MRI合成7T MRI图像. WOLTERINK等[19]使用GAN将低剂量CT图像转换为常规剂量CT图像. KAWAHARA等[20]基于具有两个卷积神经网络的GAN预测框架,实现T1加权的MRI图像和T2加权的MRI图像的相互生成.YANG等[21]基于循环一致性生成对抗网络(Cycle Consistent GAN, CycleGAN)模型用于非成对的MR图像到CT图像的合成. YANG等[22]通过利用条件生成式对抗网络(Conditional GAN,CGAN)的深度学习模型,实现T1加权和T2加权的MRI图像的互转.当前利用卷积神经网络处理医学图像合成任务中,通常依靠堆叠大量卷积层来增加网络的深度或宽度,以更好地拟合非线性关系.此外,一些网络结构如残差结构、U-Net结构也被广泛应用于医学图像合成,以提高性能和改善效果.然而,很少有工作专注于医学图像本身的特点,缺乏对其特有特征的考虑,导致网络在深层特征提取的能力和表征方面存在不足.医学图像中存在大量特征相似性较高的图像块.图1呈现了不同患者的7T MRI脑图像(Sample1、Sample2、Sample3),其中相似的图像块可能在同一张切片内不同位置之间(绿色框),或者在连续的切片中同一位置之间(红色框).医学图像具有自相似性特点,即重要的结构和特征在不同空间位置上以相似的方式出现.为此,本文提出了两种注意力块.首先,图结构方法可以模拟不同CT切片之间的结构连续性和相互作用[16].本文在图像的连续切片下构建了以图像块(patch)为单位的拓扑结构,通过图注意力捕捉医学图像连续切片的关联性,使网络在不同切片之间共享和传递信息,提高特征的学习能力.该方法通过图注意力块(Graph Attention Block,GAB)实现.其图1 7T MRI图像在不同样本下的内部切片示例Fig.1 Internal slice examples of 7T MRI images in different samples79第 43 卷中南民族大学学报(自然科学版)次,本文同样构建以图像块为单位的全局块注意力块(Global Patch Attention Block,GPAB)来捕捉同切片下的非局部相似性,建立全局的相互关系,使网络更好地理解同一切片中不同区域之间的关联性,并通过设计一个并行的特征提取单元,该单元通过将GAB和GPAB结合,来进行深度特征提取.与自然语言序列中的位置信息类似,图像中不同像素之间的位置关系也可以提供重要的上下文信息(黄色框、黄线),对这些位置关系进行位置编码可为网络提供更多的语义信息.此外,在不同样本下的相同位置的切片中(黄色框、紫线),也存在相似的空间结构和位置关系,通过加入位置编码使网络进一步提高对数据特征关系的理解和学习能力.本文在GAN框架下,提出了基于图注意力块和全局块注意力块的生成对抗网络(Graph AttentionBlock and Global Patch Attention Block Generative Adversarial Networks,GGPA-GAN),在生成器加入GAB和GPAB以及二维位置编码,丰富语义信息和提升特征表达能力,提高图像合成的精确度.1 方法为了更好地实现源图像到目标图像的合成,本文使用生成对抗网络作为框架进行学习.如图2所示,GGPA-GAN由两部分组成:生成器(G)和判别器(D).生成器由编码器、深层特征提取单元和解码器组成,目的在于生成与真实目标图像相似的合成目标图像.判别器由卷积神经网络和全连接层组成. 判别器的任务是评估生成器生成的合成目标图像是否与真实目标图像足够相似.在训练过程中,生成器会不断优化自己的参数,最小化其生成的图像与真实图像之间的差异.同时,由于判别器的存在,生成器也会受到来自判别器的反馈,不断改进自己的生成策略,以尽可能地欺骗判别器.通过这种对抗训练方式,生成器和判别器可以互相协作,不断提高网络的性能,最终生成高质量的图像.1.1 生成器网络结构生成器可以分为3个阶段,第一个阶段是编码阶段,编码器通过逐层的卷积操作实现下采样来捕捉图像不同层次的特征.第二个阶段是深层特征提取阶段,通过由GAB和GPAB构建的深层特征提取单元加强网络对图像特征的感知和提取.第三个阶段是解码阶段,对各层特征图进行整合后使用解码器实现上采样,最后经过1×1的卷积进行通道降维,完成输出.这个阶段是对前面阶段提取的特征进行重建和还原.生成器的结构采用了逐层提取、加强感知能力、逐层重建的策略,通过多层次的处理来捕捉图像的不同特征,以合成高质量的图像输出.如图3所示为生成器网络内部结构.1.1.1 编码器与解码器图4为生成器网络中的编码器内部结构,编码器包括卷积层、激活层、池化层和位置编码.在每个卷积层中,输入图像会与一组内核进行卷积运算,每个内核可以捕捉图像的局部特征,使网络能够有效地学习图像的特征表示.激活层使用整流线性单元(ReLU激活函数)为神经网络增加非线性运算,其将负输入替换为零,并保持正输入不变.池化层使用最大化池化(MaxPool)用来提取特征图中的最显著的特征,并降低特征映射的维度.位置编码可为网络提供位置信息,该方法将在下文进行介绍.此外,引入残差连接可以使网络更容易学习恒等映射,提高网络性能和训练效率.该网络使用三个卷积层(Conv1、Conv2和Conv3)以增加网络深度.其图2 GGPA-GAN的内部结构Fig.2 Internal structure of GGPA-GAN 80第 1 期李帅先,等:利用自相似性实现医学图像合成的生成对抗网络中,Conv1和Conv2是一个3 × 3内核大小、填充为1、步长为1的卷积层.Conv2的卷积核数量是Conv1的两倍,以使特征通道数增加.通过卷积核大小为2 ×2,步长为2的MaxPool 使特征图大小缩小一半.本文中,编码器和解码器具有相同的网络结构和层数,唯一区别在于解码器将编码器中的池化层替换为反卷积层,用于将低维特征图恢复为高维特征图.解码器中的反卷积层使用的卷积核大小为2 × 2、步长为2.本文中的生成器网络包含4个编码器和4个解码器.1.1.2 深层特征提取单元本文的深层特征提取单元位于图3蓝色框区域.该单元将GAB 和GPAB 相结合,其中GAB 用于捕捉切片之间的相似性,而GPAB 用于捕捉切片内不同图像块的相似性.同时,通过引入残差连接来保留图像的细节信息.原始特征图经过这两种块并行处理后,再将它们的输出进行通道连接.最后,使用卷积核大小为1 × 1的卷积操作,将通道数恢复为原始的通道数.1.2 判别器网络结构判别器包括3个卷积核大小依次为8 × 8,4 × 4,4 × 4的卷积层、批量归一化层(BN )、ReLU 激活函数层,紧接着还有3个全连接层将数据扁平化,卷积层的卷积核数量依次为8、64、256,全连接层中输出节点数为256、64和1.在最后一层,利用tanh 激活函数作为评估器,得出输入图像是真实图像的概率.图5为判别器网络内部结构.1.3 位置编码对于医学图像合成,医学图像通常具有较高的空间分辨率和较复杂的结构.因此在医学图像合成中准确地捕捉到这些空间位置信息对于合成图像的质量至关重要.位置编码是一种将空间位置信息嵌入到特征表示中的方法,通过位置编码学习到图像中不同位置的特征和相对位置之间的关系,从而提高模型的空间感知能力.如图6所示为本文的位置编码内部结构,H 、W 、D 分别为特征图的高度、宽度和通道数.本文将Transformer 模型[23]中提出的1D 位置编码技术调整为2D ,公式如(1)~(4)所示:PE (x ,y ,2i )=sin(x 100004i D),(1)PE (x ,y ,2i +1)=cos (x100004i D),(2)PE (x ,y ,2j +D2)=sin (y100004i D),(3)图3 生成器网络内部结构Fig.3 Internal structure of the generator network图5 判别器网络内部结构Fig.5 Internal structure of the discriminator network图4 生成器网络中的编码器内部结构Fig.4 Internal structure of the encoder in a generator network81第 43 卷中南民族大学学报(自然科学版)PE (x ,y ,2j +1+D2)=cos(y 100004jD),(4)式中:x 和y 指定为水平和垂直位置坐标值,即(x ,y )为二维空间的一个坐标点;i ,j 是[0,D /4)中的整数.位置编码得到的位置信息图具有与特征图相同的大小和维度.位置编码的每个维度都由特定频率和相位的正弦信号组成,表示水平方向或垂直方向.本文使用的时间范围从1到10000.不同的时间尺度等于D /4,对应于不同的频率.对于每个频率,在水平/垂直方向上生成正弦/余弦信号.所有这些信号被串联成D 个维度,前一半维度为水平位置的编码,后一半维度为垂直位置的编码.最后将位置信息和特征图相加,作为输出.该位置编码具有不向神经网络添加新的可训练参数的优点.1.4 图注意力块(GAB )在图注意力块中,将图像数据转换成一张图结构,将不同的图像块作为图中的节点,节点之间的关系构成了图中的边.通过连接不同切片中相同坐标位置的图像块起来,构建出一张具有结构连续性的图.选取其中一切片内的图像块作为中心节点,将其相邻两个切片同坐标位置的图像块作为邻居节点与其关联.这些图像块间存在着不同细节的信息,导致它们之间存在差异.故在中心节点附近选取了若干个节点作为补充.这一点在于图像的任何一个图像块并不是单独存在,图像块会与周围数个像素信息相关联,使中心节点与邻居节点进行相互交互的同时,中心节点可以从周围像素组中弥补缺失.图注意力网络(Graph Attention Networks ,GAT )既能充分结合局部特征又能保留整体的结构信息[24-25].本文构建以图像块作为节点的图结构.其中图像块的大小为h × w ,相邻切片的同位置共有n 1个图像块相连接,输入维度为[h × w ,n 1].其中的中间切片的图像块与周围相邻的k 个像素相连接,将k个元素重塑为一个矩阵,使输入维度为[h × w ,n 2].最终,特征向量的总输入维度为[h × w ,n ],其中,n =n 1 + n 2.以图7为例,不同颜色的方块代表着一个像素,图中以2 × 2个像素大小为一图像块,首先将相邻三切片提取的三个图像块(3 × 2 × 2个像素)重塑为4 × 3的矩阵,然后将与中间切片的图像块相关联的12个像素重塑为4 × 3的矩阵,将所有矩阵拼接后可得到4 × 6大小的特征矩阵.特征矩阵的每一列可以被视为该图的一个节点,每对列之间相似性可以视为图的一条边.根据特征矩阵与构建的拓扑结构,得到邻接矩阵,来描述图中节点之间的连接关系.在邻接矩阵中,如果节点i 和节点j 之间有连接,则邻接矩阵的第i 行第j 列和第j 行第i 列的元素值为1,否则为0.最后,通过同时输入邻接矩阵和特征矩阵到GAT 层进行计算,完成对图数据的处理.对于特征图X ∈R H ×W ×C (H 、W 、C 分别为特征图的高度、宽度和通道数),图像块的大小为H /n ×W /n ,其中n 为尺度因子,使图像块能够与特征图的尺寸相匹配.如图8(a )所示,该图以第i 个节点的节点特征h i →,以及相关联的5个节点为例描述GAT 层的计算过程.图注意力层的输入是一组节点特征,h ={h 1→,h 2→,…,h n →},h i →∈R d ,通过利用相邻节点的相似性,得到一组新的节点特征,h '={h →'1,h →'2,…,h →'n },h →'i ∈R d '.为了更新特征,一个可学习的共享线性变换权重矩阵W 将应用于每个节点,以生成更深层的特征.然后在节点上执行一个共享的自注意机制e ,e :R d ×R d →R ,e ij 为每条边(i ,j )的注意力分数,表示为相邻节点j 对节点i 的重要性.eij =e ()W h →i ,W h →i=LeakyReLU ()a T⋅() W h →i W h →i ,(5)式中:a ∈R 2d ',W ∈R d '×d 被学习,||表示向量串联. LeakyReLU 为一个非线性激活函数.这些注意力分数在所有邻居j ∈N i 中经过Softmax 标准化,注意力图6 二维位置编码内部结构Fig.6 Internal structure of the two -dimensional position encoding图7 图注意力块(GAB )的内部结构Fig.7 Internal structure of the Graph Attention Module (GAM )82第 1 期李帅先,等:利用自相似性实现医学图像合成的生成对抗网络函数定义为:a ij =Softmax j ()e ()h →i ,h →j ,=exp ()e ()h →i ,h →j∑j '∈N iexp ()e ()h →i ,h →j '.(6)通过标准化注意系数计算相邻节点变换特征的加权平均值(σ是非线性函数),作为节点h i →的新表达形式:h ′i →=σ(∑j ∈N iαij⋅W h →j ).(7)多头注意力机制是提取深层特征的有效扩展方式.在图8(b )中,红色圆圈和蓝色圆圈分别代表第i 个节点及其最近的5个相邻节点.不同颜色箭头表示独立的注意力计算,图中展示了3个注意力头.假设对于每张图结构均使用M 个独立的注意力机制,每个注意力机制都能够使用公式(7)来获取第i 个节点的更新特征.将M 个独立的注意力机制更新后的特征向量连接在一起,进行平均处理,得到最终的节点特征.这个过程可以从不同的注意力机制中获取更加丰富和准确的特征信息,提高模型的性能.此过程如下所示:h →'i =σ(1M∑m =1M∑j ∈N ia m ij W mh →j ),(8)式中,a m ij 和W m是计算的标准化注意力系数和第m个注意力机制的线性变换权重矩阵.1.5 全局块注意力块(GPAB )为探索医学图像同切片内的特征相似性,本文提出在图像切片内基于图像块的全局块注意力块(GPAB ),该块可以通过从全局范围内获取图像中的信息,因此能够更好地捕捉长距离依赖关系,增强局部特征.如图9所示为GPAB 的内部结构.该块以图像块为单位进行相似度匹配,将每个图像块的特征作为全局特征的一部分,并通过在全局特征中计算相似度矩阵来衡量每个图像块与全局特征关系,此相似度矩阵是多维度的.对多维相似度矩阵进行Softmax 函数运算,得到一组注意力权重.最后,每个图像块与全局特征按照对应注意力权重通过哈达玛运算进行加权求和,得到该图像块的最终表示.给定图像特征图X ,该注意力定义为:Z i ,j =∑g ,hexp ()ϕ()X i ,j ,X g ,h∑u ,vexp ()ϕ()X i ,j,X u ,vψ(X g ,h),(9)式中:(i ,j )、(g ,h )和(u ,v )是特征图X 的坐标元组,ϕ(∙,∙)为相似性函数,被定义为:ϕ(X i ,j ,X u ,v )=θ(X i ,j )Tδ(X u ,v ),(10)式中:θ(X )、δ(X )、ψ(X )是特征表达函数,通过1×1的卷积实现.θ(X )=W θX ,φ(X )=W φX , ψ(X )=W ψX ,其中,W θ,W φ,W ψ为可学习的参数;X i ,j ,X g ,h ,X u ,v 为大小、维度相等的图像块.GAB 与GPAB 相同,图像块的大小设置为H /n ×W /n ,其中n 为尺度因子.1.6 基于对抗性学习下的损失函数本文将对抗性损失应用于生成器网络及其判别器网络.对抗性损失函数可以定义为:图8 图注意力层流程图与多头图注意力机制Fig.8 Process diagram of the Graph Attention Layer and theMulti -head Graph Attention Mechanism图9 GPAB 的内部结构Fig.9 Internal structure of GPAB83第 43 卷中南民族大学学报(自然科学版)L GAN(G,D)=E I X,I Y∼P data ()I X,I Y[log10D(I X,I Y)]+EI X∼P data ()I Xéëlog10(1-D(I X,G(I X)))ùû,(11)式中:G表示生成器,D表示判别器,I X表示输入图像,I Y表示相应的真实图像.训练中,生成器G试图生成与真实图像I Y相比足够逼真的合成图像G(I X).判别器D的任务是区分真实的医学图像I Y和合成的医学图像G(I X).生成器G试图最小化该损失函数,而判别器D则试图最大化该损失函数,即:G*= argmin G max D L GAN(G,D).除了对抗性损失函数外,生成器的损失函数还包括L1损失来引导生成器生成高质量的图像.生成器G的L1损失项:L L1(G)=E I X,I Y∼P data ()I X,I YIY-G()I X1.(12)GGPA-GAN网络的整体损失函数为:G*=arg min max G D L GAN(G,D)+λL L1(G),(13)式中,λ用于控制L1损失函数和对抗性损失函数之间的权重分配.2 实验2.1 数据集本文的3T-7T MRI合成任务使用的图像数据来自HCP数据集[26](Human Connectome Project,人类连接组项目).本文的T1-T2 MRI合成任务使用的图像数据来自ADNI数据集[27](Alzheimer's Disease Neuroimaging Initiative,阿尔茨海默症神经影像学倡议).针对3T-7T MRI任务,本文使用80例成对的3T MRI和7T MRI图像,并对所有3T MRI和7T MRI图像进行尺寸固定,空间分辨率为180×256×256,体素分辨率为1.0 mm×0.8 mm×0.7 mm.针对T1-T2 MRI任务,本文同样使用80例成对的T1 MRI 和T2 MRI图像,并将所有T1、T2 MRI的空间分辨率固定为180×256×256,体素分辨率为0.9 mm×0.9 mm×3 mm.所有采集图像均为具有清晰脑部纹理、丰富细节特征的高质量数据,且均经过类间、类内的刚性配准,以保证严格对齐.对于每例数据,将原始强度值线性缩放到[-1,1].将所有数据分为训练集与测试集,每个任务随机选取62例用于网络训练的训练集图像,18例用于测试网络泛化性能的测试集图像.测试集与训练集不重叠,以确保模型的泛化性能和可靠性.2.2 实验环境硬件设备:CPU:Intel Xeon Gold ********* GHz×72;GPU:NVIDIA TITAN RTX 24 G×2;内存:64 G;软件配置:操作系统为64位Ubuntu18.04.6 LTS; Python 3.7; Pytorch 1.6.0.2.3 实验参数设置在训练过程中,Batch-size设置为32,每个批次大小为16×256×256.使用ADAM优化器实现网络参数优化,网络总轮数设置为300轮.初始学习率0.0002,动量参数为0.9,权重衰减为0.005.2.4 评价指标本文采用峰值信噪比(Peak Signal-to-noise Ratio,PSNR)和结构相似性指数(Structural Similarity Index,SSIM)以及平均绝对误差(Mean Absolute Error,MAE)三种指标来评估合成图像的质量.其中,PSNR 是一种广泛应用于评估图像清晰度的指标,它基于像素点之间的误差来衡量合成图像与真实图像之间的差异.在计算PSNR时,均方误差(Mean Squared Error,MSE)越小则PSNR越大,代表着合成图像的效果越好.峰值信噪比PSNR的计算公式如下:MSE=1N∑i=1N (I(i)-Syn(I(i)))2,(14)PSNR=10⋅log10(MAX2MSE),(15)式中:I(i)表示真实图像中某个像素点的像素值,Syn(I(i))表示在体素空间中合成图像相应像素点的像素值.SSIM从3个方面评价合成图像与真实图像的差距:亮度、对比度和结构,值的范围在(0,1),值越大表示两张图像越相似.结构相似性指数SSIM的计算如下所示:SSIM=()2μRμS+c1()2σS+c2()μR2+μS2+c1()σR2+σS2+c1,(16)式中:μR和μS分别表示真实图像和合成图像的均值,σR、σS为真实图像和合成图像的协方差.c1= (k1L)2,c2= (k2L)2为常数,L是像素值的动态范围,在本文中L=7,k1=0.01,k2=0.03.MAE是计算每个像素值之间的绝对差异,再取平均值,因此是一种评估两个图像之间平均差异的方法.MAE越小,两张图像越相似.平均绝对误差MAE的计算如下:MAE=1H×W∑i=1H∑j=1W||X()i,j-Y()i,j,(17)式中:H和W分别表示图像的高度和宽度,X和Y分84第 1 期李帅先,等:利用自相似性实现医学图像合成的生成对抗网络别表示合成图像和原始真实图像.2.5 对比实验及分析为了验证本文提出的模型性能,本文将其与4种现有模型进行比较,它们分别是UNet++[28]、TransUNet [29]、Pix2pix [16]和CycleGAN [21].其中,分别将AttentionUNet 和TransUNet 作为生成器网络嵌入到本文的GAN 架构中作为对比,以证明本文生成器网络在深层特征提取方面卓越的成效.UNet++网络在UNet 基础上进行升级,该网络加入了深度监督机制,将跳跃连接改进为密集的短连接,可以抓取不同层次的特征,并将它们通过叠加的方式进行整合.TransUNet 同时具有Transformers 和U -Net 的优点,相比于传统的卷积神经网络,TransUNet 使用了Transformer 结构,使得模型可以自适应地学习到图像中的全局和局部特征.Pix2pix 与CycleGAN 为如今主流的医学图像合成方法.Pix2pix 是一种基于条件生成对抗网络(CGAN )的方法,通过专注于保持逐像素的强度相似性来合成整个图像.CycleGAN 是使用对抗性损失函数合成图像,同时通过一个循环一致性损失函数保持图像的原始语义信息.2.5.1 定性评估对3T -7T MRI 和T1-T2 MRI 两个任务进行了定性比较实验,图10为本文方法与4种对比方法在相同测试图像下的矢状面和轴位面上进行3T -7T MRI 任务测试的定性比较结果.可见大多数对比方法不能很好地恢复图像细节.如CycleGAN 的局部放大结果整体非常模糊,而本文方法合成的图像比对比方法拥有更清晰的细节.图11所示为本文方法与4种对比方法在矢状面和轴位面上进行T1-T2任务中的定性比较结果图.可见与3T -7T 任务相比,T1与T2图像具有边界模糊、噪声、对比度差的特点,本文在任务中能较为清晰地还原图像的轮廓与细节特征,边缘也较为平滑.综上,本文方法的合成效果优于其他4种对比的合成方法.2.5.2 定量评估实验利用PSNR 、SSIM 、MAE 客观评价指标在3T -7T MRI 、T1-T2 MRI 两个任务中测试了18例MRI 图像,本文方法的表现均优于对比的4种合成方法,本文方法及4种对比合成方法在PSNR 、SSIM 、MAE 的测试结果折线图分别如图12-13所示,其中绿色折线表示本文方法的客观评价结果,评价结果平均值如表1所示.图10 本文方法与 4种对比方法在 3T 合成7T MRI 任务中的定性比较结果Fig.10 Qualitative comparison results of the proposed algorithm and four comparison algorithms in the 3T to 7T MRI synthesis task85。
caimr计算方法

caimr计算方法CAIMR 计算方法CAIMR(细胞自动化形态学图像重建)是一种用于从细胞图像序列创建三维 (3D) 模型的计算方法。
该方法涉及以下步骤:1. 图像预处理:将细胞图像序列对齐和注册,以补偿样品运动和漂移。
增强图像对比度和信噪比,以提高细胞的可视性。
分割细胞,将其与背景分离。
2. 表面渲染:使用分割的细胞图像,生成细胞表面的网格模型。
优化网格以平滑表面并减少多边形数量。
应用纹理贴图以实现细胞膜的逼真呈现。
3. 体素重建:将细胞表面网格转换为体素,形成细胞的内部表示。
使用算法填充网格内的体素,例如 Marching Cubes 或Poisson 重建。
平滑体素模型以减少锯齿和伪影。
4. 模型分析:计算模型的几何特征,例如体积、表面积和形状系数。
分析细胞形态随时间或处理条件的变化。
识别和量化细胞亚型或异常。
优点:高精度:CAIMR 模型通常高度精确,反映了细胞的真实 3D 形状。
可扩展性:该方法可以应用于大数据集,包括数千个细胞图像。
灵活性:CAIMR 可以处理各种细胞类型和形态。
可视化:3D 模型提供了一个强大的方式来可视化细胞结构和动态变化。
应用:CAIMR 在细胞生物学和生物医学研究中具有广泛的应用,包括:研究细胞形态与功能之间的关系。
检测和表征细胞异常,如癌症或神经退行性疾病。
创建 3D 细胞库,用于药物筛选和治疗开发。
提高对细胞生长、分化和组织形成的理解。
限制:依赖图像质量:CAIMR 模型的精度取决于图像质量和预处理步骤。
计算密集型:此方法可能在处理大型数据集时需要大量计算资源。
假设:CAIMR 模型假设细胞具有固定的拓扑结构,这可能不适用于所有细胞类型。
持续发展:CAIMR 作为一个研究领域正在不断发展,重点在于提高精度、效率和针对更广泛的细胞类型的适用性。
机器学习算法和高性能计算技术正在集成到 CAIMR 方法中,以进一步增强其功能。
基于自适应对偶字典的磁共振图像的超分辨率重建

L I U Z h e n - q i , B A 0 L i - j u n , C HE N Z h o n g
r De p a r t m e n t o f E l e c t r o n i c S c i e n c e , X i a me n U n i v e r s i t y , Xi a me n 3 6 1 0 0 5 , C h i n a )
刘振 圻 , 包立君 , 陈 忠
( 厦 门大学电子科 学系, 福建 厦门 3 6 1 0 0 5 )
摘 要: 为了提高磁共振成像的图像 质量 , 提 出了一种基于 自适应对偶字典的超分辨率 去噪重建方法 , 在超分辨率重建过程 中引入去噪功能 , 使 得改善图像 分辨率的同时能够有效地滤除 图像 中的噪声 , 实现 了超分辨率重建和去噪技术 的有机结合 。该 方法利用聚类一P c A算 法提取图像的主要特征来构造主特征字典 , 采用 训练方法设计 出表达图像 细节信 息的 自学 习字 典 , 两者 结合构成的 自适应对偶字典具有 良好 的稀疏度和 自适应性 。实验表 明, 与其他超分辨率算法相 比, 该方法超分辨率重建效果显 著, 峰值信噪 比和平均结构相似度均有所提高。
第2 8 卷第 4 期
2 0 1 3 年8 月
பைடு நூலகம்光 电技术 应 用
EL ECT RO一 0P T I C T ECHNOLOGY AP P LI CAT1 0N
V O1 . 28. NO. 4
Au g u s t , 2 01 3
・
信号 与信息处理 ・
基 于 自适应对偶 字典的磁共振 图像 的超 分辨率重建
计算光谱成像联合色差矫正及超分辨技术研究

文提出了基于分段线性近似点扩散函数的色差矫正方法。通过仿真实验验证,本文提
出的色差矫正方法能够有效减少色差对重建图像质量的影响,从而提高了光谱图像的
重建质量。
此外,针对 CASSI 系统重建图像分辨率低的问题,本文另辟蹊径,提出了联合
poor imaging quality and low resolution. Based on this, some papers put forward specific
solutions for better reconstruction quality, such as multi-frame observation and an
图 1.3
编码快照光谱成像系统示意图 ............................................................................. 4
图 1.4
DD-CASSI 系统[15] ................................................................................................. 4
process is divided into two stage: the observation process and the data restoration process.
In the observation stage, the measurements are obtained by coding and sampling of the
图 1.5
基于图像块相似性和补全生成的人脸复原算法

基于图像块相似性和补全生成的人脸复原算法苏婷婷;王娜【摘要】图像获取过程中,由于成像距离、成像设备分辨率等因素的限制,成像系统难以无失真地获取原始场景中的信息,产生变形、模糊、降采样和噪声等问题,针对上述情况下降质图像的复原问题,提出了适用于低分辨率,低先验知识情况下的人脸复原方法,通过基于图像相似性的期望块1o9相似性EPLL(expected patch log likelihood)框架来构建人脸复原效果的失真函数,利用生成对抗网络的图像补全式生成过程来复原图像.所提算法在加噪率50%以及更高情况下可以保持较好的人脸图像轮廓与视觉特点,在复原加噪20%的降质图像时,相比传统的基于图像块相似性的算法,本文算法复原结果的统计特征峰值信噪比PSNR(peak signal-noise ratio)与结构相似度SSIM(structural similarity)值具有明显优势.【期刊名称】《科学技术与工程》【年(卷),期】2019(019)013【总页数】6页(P171-176)【关键词】图像复原;图像块相似性;生成对抗网络;人脸复原;图像补全【作者】苏婷婷;王娜【作者单位】武警工程大学密码工程学院,西安710086;武警工程大学基础部,西安710086【正文语种】中文【中图分类】TP391.413在图像获取过程中,由于成像距离、成像设备分辨率等因素的限制,成像系统难以无失真地获取原始场景中的信息,通常会受到变形、模糊、降采样和噪声等诸多因素的影响,导致获取图像的质量下降。
因此,如何提高图像的空间分辨率,改善图像质量,一直以来都是成像技术领域亟待解决的问题[1]。
图像复原技术致力于从一定程度上缓解成像过程中各种干扰因素的影响,主要采用的方法是将降质图像建模为原始图像与点扩展函数PSF(point spread function) 的卷积加上噪声的形式,根据PSF是否已知分为传统的定向复原与盲复原。
图像检索(imageretrieval)-13-Smooth-AP:Smoothingth。。。

图像检索(imageretrieval)-13-Smooth-AP:Smoothingth。
Smooth-AP: Smoothing the Path Towards Large-Scale Image RetrievalAbstract优化⼀个基于排名的度量,⽐如Average Precision(AP),是出了名的具有挑战性,因为它是不可微的,因此不能直接使⽤梯度下降⽅法进⾏优化。
为此,我们引⼊了⼀个优化AP平滑近似的⽬标,称为Smooth-AP。
Smooth-AP是⼀个即插即⽤的⽬标函数,允许对深度⽹络进⾏端到端训练,实现简单⽽优雅。
我们还分析了为什么直接优化基于AP度量的排名⽐其他深度度量学习损失更有好处。
我们将Smooth-AP应⽤于标准检索基准:Stanford Online products和VehicleID,也评估更⼤规模的数据集:INaturalist⽤于细粒度类别检索,VGGFace2和IJB-C⽤于⼈脸检索。
在所有情况下,我们都改善了最先进的技术的性能,特别是对于更⼤规模的数据集,从⽽证明了Smooth-AP在真实场景中的有效性和可扩展性。
1 Introduction本⽂的⽬标是提⾼“实例查询”的性能,其任务是:给定⼀个查询图像,根据实例与查询的相关性对检索集中的所有实例进⾏排序。
例如,假设你有⼀张朋友或家⼈的照⽚,想要在你的⼤型智能⼿机图⽚集合中搜索那个⼈的所有图⽚;或者在照⽚授权⽹站上,您希望从⼀张照⽚开始查找特定建筑或对象的所有照⽚。
在这些⽤例中,⾼recall是⾮常重要的,不同于“Google Lens”应⽤程序从图像中识别⼀个物体,其中只有⼀个“hit”(匹配)就⾜够了。
检索质量的基准度量是Average Precision(AP)(或其⼴义变体,Normalized Discounted Cumulative Gain,其中包括⾮⼆进制相关性判断)。
随着深度神经⽹络的兴起,端到端训练已经成为解决特定视觉任务的实际选择。
nnunet 推理代码

nnunet 推理代码nnunet推理代码是一种用于医学图像分割的深度学习方法。
本文将介绍nnunet推理代码的原理和使用方法,并探讨其在医学图像分割领域的应用。
我们需要了解什么是医学图像分割。
在医学领域中,图像分割是指将医学图像中的感兴趣区域从背景中准确地分离出来的过程。
这个过程对于诊断和治疗决策非常重要,因为它可以帮助医生更好地理解病变区域的形态和特征。
nnunet推理代码是基于神经网络的图像分割方法。
它使用深度学习模型来自动学习医学图像中的特征,并根据这些特征进行像素级别的分类。
nnunet推理代码的核心思想是通过训练神经网络来学习医学图像中不同组织和病变的特征表示,然后使用该模型对新的医学图像进行分割。
nnunet推理代码是基于nnunet框架开发的。
nnunet是一个开源的深度学习框架,专门用于医学图像分割任务。
它提供了一个可定制的架构,包括预处理、数据增强、训练和推理等步骤。
用户可以根据自己的需求选择不同的网络结构和参数设置。
使用nnunet推理代码进行医学图像分割的一般步骤如下:1. 数据准备:准备医学图像数据集,并将其划分为训练集、验证集和测试集。
确保数据集中的图像和标签具有一一对应的关系。
2. 数据预处理:对图像进行预处理,包括裁剪、缩放、归一化等操作。
同时对标签进行相应的预处理,例如进行one-hot编码或转换为类别索引。
3. 网络配置:选择合适的网络结构和参数设置。
nnunet提供了一系列的预定义网络结构,包括U-Net、V-Net等。
用户可以根据实际需求选择适合的网络结构。
4. 训练模型:使用训练集对网络模型进行训练。
训练过程中,需要定义损失函数和优化器,并设置合适的超参数。
通过迭代优化,使网络模型能够学习到医学图像中的特征表示。
5. 模型评估:使用验证集对训练好的模型进行评估。
评估指标可以包括Dice系数、交并比等,用于衡量模型的性能。
6. 模型推理:使用测试集对训练好的模型进行推理。
基于语义的图像检索技术研究

基于语义的图像检索技术研究I. 引言图像检索是计算机视觉领域的一个重要研究方向,旨在实现通过输入图像来搜索和检索数据库中相关图像的目标。
传统的图像检索方法通常采用基于颜色、纹理和形状等低级特征的方式,例如基于内容的图像检索(CBIR)。
然而,这些方法往往无法捕捉到图像中的语义信息,导致检索结果不准确。
基于语义的图像检索技术旨在通过深入理解图像的语义含义来提高检索的准确性和效果。
II. 语义特征提取由于传统的低级特征无法表达图像的语义信息,因此需要利用深度学习等方法来提取图像的语义特征。
常用的方法包括使用预训练的卷积神经网络(CNN)模型,例如VGGNet、ResNet和Inception等,从图像中提取特征向量表达图像的语义信息。
这些特征向量可以更好地反映图像中的语义信息,从而提高图像检索的准确性。
III. 语义相似度计算在基于语义的图像检索中,需要计算图像之间的语义相似度。
常用的方法是基于特征向量的余弦相似度计算,通过计算特征向量之间的夹角来衡量图像之间的相似程度。
另外,还可以使用基于深度学习的方法,例如使用自编码器或生成对抗网络(GAN)来学习图像的表征并计算相似度。
这些方法可以更加准确地捕捉图像之间的语义相似性。
IV. 语义扩展和映射由于语义信息在图像中的表达是模糊的,可能存在多种解释和理解。
为了提高图像检索的效果,需要进行语义扩展和映射。
语义扩展指的是基于已有语义信息,通过使用同义词、上下位词等方式来丰富图像的语义信息。
语义映射则是通过将图像的语义信息映射到更高层次的语义概念中,以便更好地匹配用户的查询意图。
这些方法可以提高图像检索的覆盖范围和准确性。
V. 应用案例基于语义的图像检索技术在很多领域都有广泛的应用。
例如在电子商务中,可以使用该技术来实现商品搜索和推荐,用户可以直接上传一张商品的照片,系统即可返回相关商品。
此外,在医学影像分析中,基于语义的图像检索可以辅助医生快速检索相关疾病的病例,提高诊断效率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Image retrieval using NN based pre-classification and fuzzy relevance feedbackMalay K. Kundu and Manish ChowdhuryMachine Intelligence Unit, Indian Statistical Institute, Kolkata - 700108, Indiamalay@isical.ac.in, manishchowdhury2005@Abstract— In this article, we have proposed an interactive imageretrieval scheme using MPEG-7 visual features, Neural Network(NN)-based pre-cl assifier and fuzzy based feature evaluationscheme. The performance of the existing image retrieval systems is general y l imited due to semantic gap, resul ted due to thediscrepancies between the computedl ow-levelfeatures anduser’s conception of an image. Partitioning the database by aNN-based pre-cl assifier, and using a fuzzy based featureevaluation scheme, the performance of the proposed scheme has been found to improved drastical y by reducing the retrieval time and increasing the accuracy.Keywords— CBIR, MPEG-7, EHD, MLP, DBI.I NTRODUCTIONContent-Based Image Retrieval (CBIR) techniques are aimed at retrieving relevant images from an image database by measuring similarity between the automatically derived low-level features of the query image and that of the images stored in the database. Relevance feedback mechanism has been used as an essential tool to provide significant performance boost in CBIR systems through continuous learning and interaction with end-users [1], [2]. The system provides initial retrieval results through query by example based on which the user judges the retrieved results as to whether and to what degree, they are relevant /irrelevant to the query.This paper deals with the study of performance of a CBIR system using MPEG-7 Edge Histogram D escriptor (EHD), Multilayer Perceptron (MLP) and fuzzy relevance feedback mechanism. EHD feature are extracted using MPEG-7 visual feature and by using these feature MLP network is trained to classify a class of the image with labelled samples. Then classify the whole image database having particular number of subsets representing different classes. Time requirement for each query searching is proportional to total number of features in each database. To cut down this computation cost, the whole database (DB) is pre-classified by a NN. For every new query, the same network is used for classification. After classification, a particular relevance feedback block is used which access only portion of the DB, representing a particular class and also added to the D B if such data is not already present. This process cuts down the searching space, improving the computational cost and quality of the image retrieval system.The rest of the article is organized as follows. Section 2. describe the proposed methodology. Experimental results and conclusion are discussed in section 3 and section 4 respectively.II.P ROPOSED S CHEMEIn the proposed method, 30% data are randomly selected from the database (DB) as labelled sample for different class of image present and their EHD features (MPEG-7 visual descriptor) are extracted for the training of MLP network. The exact configuration of the MLP is selected on trial and error basis based on the error rate of the output classification. The configuration having minimum error rate is selected for the proposed pre-classification block. Block diagram of the proposed scheme is shown in Figure 1.Fig. 1 Block Diagram of Image Retrieval SystemThe user enters the query image to the system. EHD features are extracted for this particular query image and by using these features; class identification of the query image is done by the proposed pre-classification block. If the class identification of the query image is correct, it will enable the respective fuzzy relevance feedback block and the system computes the similarities between the query image and all the images in the partitioned database of the particular class by using the Euclidean distance. The system retrieves the top- ranked 20 images from the partitioned database of the particular class and presents them to the user. The user marks the images returned to the search engine as relevant or irrelevant samples. A fuzzy based relevance feedback algorithm [2] uses this feedback information to select a set of better 20 images from the partitioned DB in the next iteration. This retrieval process finishes at a point when the user is satisfied with the retrieved result.A.NN for pre-classificationTo increase the accuracy in the proposed scheme, we have used MLP neural network based pre-classifier withfeedforward backpropagation [4] algorithm for learning the network which consists of three layers. There were 81 neurons in input and 5 neurons in output for our learning network. By using the rule of thumb, it is assumed that upper bound of thenodes in the hidden layer isFig. 2 Block Diagram of N-N pre-ClassificationThe block diagram of the pre-classification block is shown in Figure 2. EHD features are extracted from the mixed DB, from which 30% of the label data are randomly used to train the network. The feedforward backpropagation algorithm is used for learning the network. When the learning is completed successfully, network is tested on remaining 70% data randomly and their classes are identified to form different partitions of the DB based on the class label.The feedforward backpropagation neural network is used. The first layer is the input layer, second layer is hid- den layer and has a log sigmoid activation function and the third layer, or output layer, has a linear activation function. All the neurons of one layer are fully interconnected with all the neurons of its just preceding and just succeeding layers. Weights measure the degree of correlation between the activity levels of neurons that they connect. The network is initialized with random weights and biases, and was then trained using the Levenberg-Marquardt algorithm (LM) [4]. Backpropagation is used to calculate the Jacobian JX of performance with respect to weight and bias variables X. Each variable is adjusted according to LM as shown in Eqn. (1, 2, 3), where I the identity unit matrix, E the error at the output and ȝ the learning parameter.JJ = JX x JX (1)Je = JX x E (2)dX = - (JJ + ȝI)/Je (3) The learning function used in the proposed network is gradient descent with momentum weight/bias function as shown in Eqn. (4)dW = MC * dWprev + (1 - MC)*LR*gW (4) where weight change dW for a given neuron was calculated from the neuron’s input and error, the weight or bias W, learning rate (LR), and momentum constant (MC) according to the gradient descent with momentum. A momentum term could be added to increases the learning rate with stability. The gW define gradient with respect to performance. The performance of the network is measured by mean squared error (MSE), which can be quantitatively calculated. The smaller the MSE is, the better the network performs.B.Relevance Feedback Mechanism after ClassificationTo preserve interactivity, the relevance feedback mechanism implemented in a search engine must operate in real time. A fuzzy based particular relevance feedback block will enable only when the respective class is identify. Relevance feedback retrieval systems prompt the user for feed- back on retrieval results and then use this feedback on sub- sequent retrievals with the goal of increasing retrieval performance. At each iteration user rates each returned result with respect to how useful the result is for his or her retrieval task at hand. Ratings may be simply relevant or irrelevant. A fuzzy based relevance feedback algorithm uses this feed- back information to modify the relative weight of different feature values to select another set of 20 images to retrieve for theuser. The retrieval process, for a given query image, finishes at a point when the user is satisfied with the retrieved images as shown in Figure 3.Fig. 3 Block Diagram of Relevance FeedbackIn conventional CBIR approaches an image I is usually represented by a set of features, F = {f q}N q=1, where f q is the q th feature component in the N dimensional feature space. Euclidean distance is used with weight w q for measuring the similarity between query image I qr and other images I. The weights should be adjusted such that, the features have small variation over the relevant images and large variation over the irrelevant images. The information from relevant images (I r) and irrelevant images (I ir) are combined to compute the relative importance of the individual features, from fuzzy feature evaluation index (FEI) [5] in pattern classification problems.The FEI is defined from interclass and intraclass ambiguities as follows: Let C1, C2,.. C j... C m be the m pattern2010 Annual IEEE India Conference (INDICON)2010 Annual IEEE India Conference (INDICON)classes in an N dimensional (f 1, f 2, f q ,...:f N ) feature space where class C j contains, n j number of samples. The entropy of afuzzy set gives a measure of intraset ambiguity along the q thco-ordinate axis in C j is computed in Eqn. (5),where the Shannon’s function S n (ȝ(f iqj )) = - ȝ(f iqj )lnȝ(f iqj ) – {1 – ȝ(f iqj )}ln{1-ȝ(f iqj )}. Entropy is dependent on the absolute values of membership (μ). H min = 0 for ȝ=0 or 1, H max = 1 for ȝ=0.5. Entropy (H) of C j along q th component can be computed using a standard S type membership function [2], [5]. The criterion of a good feature is that, it should be nearly invariant within class, while emphasizing differences between patterns of different classes [5]. The value of H would therefore decrease, after combining the class C j and C k as the goodness of the q th feature in discriminating pat- tern classes C j and C k increases. The measure denoted as H qjk is called “interset ambiguity ” along q th dimension between classes C j and C k . Considering the two types of ambiguities, the proposed Feature evaluation index (FEI) for the q th feature is given in Eqn. (6), (6)Lower value of FEI q , indicates better quality of importance of the q th feature in recognizing and discriminating different classes [2]. The precision of retrieval can be improved with these values. The relevant images constitute the (intraclass) and the irrelevant images constitute the (interclass) image features. To evaluate the importance of the q th feature, the q th component of the retrieved images is considered. H qj and H qk is computed from I r (q) and I ir (q) respectively. H qjk is computed by combining both the sets. Images are ranked according to Euclidean distance. The user marks the relevant and irrelevant set from 20 returned images, for automatic evaluation of (FEI). The weight w q is a function of the evaluated (FEI q ) as shown in Eqn. (7),w q =F q (FEI q )(7)In the first pass, all features are considered to be equally important. The feature spaces of the relevant images are there- fore altered in a similar fashion after updating the components with w q . As a result, the ranks of the relevant images are not affected much. For irrelevant images, one feature component may be very close to the query, whereas other feature component may be far away from the query feature. But the magnitude of the similarity vector may be close to the relevant ones. Multiplying by w q increases the feature separation between the irrelevant components, such that due to the combined effect the irrelevant image may be pulled down.III.–EXPERIMENT RESULTS AND DISCUSSION To prove the effectiveness of the proposed system, extensive experiments have been performed on MPEG-7 EHDfeatures upon 500 images of Simplicity databases [6] of 5 different classes (tribal people, ocean, building, bus and dinosaurs). The results are compared with the EHD and M-band wavelet without classification [2], [3]. The weight updating formula w q =FEI q 2 is used in each iteration as it generate better results in majority of the cases. EHD feature are chosen to evaluate the overall similarity between images and produced better results where spatial distribution of edges and semantic significance is more important [7]. The experiment was performed on Dell Precision T7400 with 4GB RAM machine and was implemented by using MATLAB R2008a. The proposed relevance feedback performance after class identification is measured in terms of precision as de- scribed in [2]. As low-level features are not always powerful in representing the semantic concepts, the images similar in semantic contents are selected as positive examples among the first 20 retrieved set, in each round of feedback iteration and the remaining are negative examples for up- dating the weight parameters and revising the features. One such example may be the case of a tribal people face where the precision is from50% to 70% without doing the class identification. But the rate of precision increases drastically by doing the classidentification before using the relevance feedback mechanismi.e. from 80% to 85% as shown in Fig. 4, Fig.5 and Fig.6. The average precision is obtained from the set of same query after different iterations. From the graph of Fig. 7, it can be shown that the accuracy achieved in the system with classifier isbetter than our earlier work [2, 3] for the same query after 3rdor 4thiteration.Fig. 4 Retrieval result obtain without any iteration (Upper left hand side is aquery image)Fig.5 After first iterationFig. 6 After fourth iterationFig. 7 Comparative studies of relevance feedback with and without classifierIV.C ONCLUSIONExperimental result shows that the proposed image retrieval system with classifier based on MPEG-7 EHD features is able to improve the accuracy of the retrieval performance. If the pre-classification is wrong then our whole retrieval result will be wrong. To overcome this problem we are trying to implement fuzzy ranking membership function. This proposed mechanism could be tested for video retrieval as future scope of research.R EFERENCES[1]P. Y. Yin, and B. Bhanu, and K. C. Chang and A. Dong, “IntegratingRelevance Feedback Techniques for Image Retrieval Using Reinforcement Learning”, IEEE Transactions on Pattern Analysis andMachine Intelligence , Vol 27, No. 10, pp. 1536-1551, 2005..[2]M. K. Kundu, and M. Banerjee, and P. Bagrecha, “Interactive ImageRetrieval in a Fuzzy Framework”, Proceedings 8th International Workshop on fuzzy logic and Application , Palermo, Italy, pp. 246-253, 2009.[3]M. K. Kundu, and P. Bagrecha, “Color Image Retrieval Using M-BandWavelet Transform Based Color-Texture Feature ”, Proceedings of 7thInternational Conf. on Advances in Pattern Recognition (ICAPR 2009), Kolkata, India, pp. 117-120, 2009..[4] A. L. Betker, and T. Szturm, and Z. Moussavi, “Application offeedforward backpropagation neural network to center of mass estimation for use in a clinical environment”, Proceedings of the 25thAnnual International Conference of the IEEE Engineering in Medicineand Biology Society, Vol 3, pp. 2714-2717, 2003.[5]S. K. Pal, and B. Chakraborty, “Intraclass and interclass ambiguities(fuzziness) in feature evaluation”, Pattern Recognition Letters, Vol 2,pp. 275-279, 1984.[6]Z. Wang and J. Li and G. Wiederhold , “Simplicity: Semanticssensitive integratedmatching for picture libraries”, IEEE Transactionson Pattern Analysis and Machine Intelligence , Vol 23, No. 9, pp. 947-963, 2001[7] B. S. Manjunath and J. R. Ohm and V. V. Vasudevan and A. Yamada,“Color and Texture D escriptors”, IEEE Transactions on Circuits andSystems for Video Technology , Vol 11, No. 6, pp. 703-715, 20012010 Annual IEEE India Conference (INDICON)。