图像哈希检索背景综述(一)
图片搜索的原理

图片搜索的原理是什么?这种技术的原理是什么?计算机怎么知道两张图片相似呢?对于这种图像搜索的算法,一般是三个步骤:1. 将目标图片进行特征提取,描述图像的算法很多,用的比较多的是:SIFT描述子,指纹算法函数,bundling features算法,hash function(散列函数)等。
也可以根据不同的图像,设计不同的算法,比如图像局部N阶矩的方法提取图像特征。
2. 将图像特征信息进行编码,并将海量图像编码做查找表。
对于目标图像,可以对分辨率较大的图像进行降采样,减少运算量后在进行图像特征提取和编码处理。
3. 相似度匹配运算:利用目标图像的编码值,在图像搜索引擎中的图像数据库进行全局或是局部的相似度计算;根据所需要的鲁棒性,设定阈值,然后将相似度高的图片预保留下来;最后应该还有一步筛选最佳匹配图片,这个应该还是用到特征检测算法。
其中每个步骤都有很多算法研究,围绕数学,统计学,图像编码,信号处理等理论进行研究。
根据Neal Krawetz博士的解释,原理非常简单易懂。
我们可以用一个快速算法,就达到基本的效果。
这里的关键技术叫做"感知哈希算法"(Perceptual hash algorithm),它的作用是对每张图片生成一个"指纹"(fingerprint)字符串,然后比较不同图片的指纹。
结果越接近,就说明图片越相似。
下面是一个最简单的实现:第一步,缩小尺寸。
将图片缩小到8x8的尺寸,总共64个像素。
这一步的作用是去除图片的细节,只保留结构、明暗等基本信息,摒弃不同尺寸、比例带来的图片差异。
第二步,简化色彩。
将缩小后的图片,转为64级灰度。
也就是说,所有像素点总共只有64种颜色。
第三步,计算平均值。
计算所有64个像素的灰度平均值。
第四步,比较像素的灰度。
将每个像素的灰度,与平均值进行比较。
大于或等于平均值,记为1;小于平均值,记为0。
第五步,计算哈希值。
基于感知哈希的图像匹配技术研究

基于感知哈希的图像匹配技术研究随着图像处理技术的不断进步,各种图像相关的技术应用也在不断涌现。
其中,图像匹配技术是一项非常重要的技术,它可以用来解决图像相似性检测、图像检索、3D重建等多种问题。
在这些应用中,感知哈希是一种非常实用的技术,它在图像压缩、图像识别、内容推送等领域都能发挥着重要作用。
本文将深入探讨基于感知哈希的图像匹配技术。
一、图像匹配技术概述图像匹配是指找到两幅或多幅图像之间的相似度,也就是说,找出它们之间有多少像素相同。
图像匹配是图像处理领域中一项重要的技术,广泛应用于机器视觉、图像搜索、目标跟踪等领域。
在实际应用中,往往需要找到一张图片中与另一张图片相似的部分,这就需要用到图像匹配技术。
目前,图像匹配技术主要分为两种,一种是基于特征点的匹配技术,另一种是基于感知哈希的匹配技术。
其中,基于特征点的匹配技术通过对图像中的特征点进行提取和描述,然后通过匹配这些特征点来实现图像匹配。
而基于感知哈希的匹配技术则是通过将图像转化为哈希值,然后比较这些哈希值来实现图像匹配。
二、感知哈希技术原理感知哈希技术是一种快速、可靠的哈希编码算法,它可以将图像中的重点信息提取出来,并将其压缩成一个唯一的哈希值。
在感知哈希技术的实现过程中,主要包括以下几个步骤:1. 将图像转化为灰度图像,然后调整图像的大小为固定大小。
2. 对灰度图像进行离散余弦变换(DCT),得到图像的频域分布情况。
3. 选取特征点,对图像进行权值分配,并计算图像的平均值,然后根据权值分配的结果调整图像的频域分布情况。
4. 比较调整后的频域分布,根据比较结果生成哈希值。
根据哈希值的比较结果,我们可以确定两张图片是否相似。
如果两个哈希值之间的差异很小,则说明这两张图片非常相似,反之则不相似。
三、感知哈希技术应用感知哈希技术在图像处理领域有着广泛的应用,其中最为常见的应用是图像搜索和图像推送。
图像搜索是指通过检索相似的图片,从而获得相关的信息。
关于对图像哈希算法的研究与应用

关于对图像哈希算法的研究与应用姚永明;杨纯;吴凌燕;沈烨【摘要】传统的基于文本的检索方式无法精确地搜索图片,因此基于图像内容的检索技术应运而生.它利用图像哈希算法提取图像特征,通过量化压缩等方法产生一个标明图像指纹的哈希序列,对比哈希序列即可判定两张图像的相似度.主要从图像哈希算法的定义、原理、特点、应用等方面进行研究,并着重介绍和对比aHash算法及pHash算法.【期刊名称】《西安文理学院学报(自然科学版)》【年(卷),期】2016(019)005【总页数】4页(P30-33)【关键词】均值哈希算法;感知哈希算法;哈希算法;图片相似搜索【作者】姚永明;杨纯;吴凌燕;沈烨【作者单位】南京邮电大学通达学院,江苏扬州225200;南京邮电大学通达学院,江苏扬州225200;南京邮电大学通达学院,江苏扬州225200;南京邮电大学通达学院,江苏扬州225200【正文语种】中文【中图分类】TN919.81在网络技术飞速发展的当今社会,以图片、音乐和视频为主的非结构化数据已经占据主导地位,如何从如此庞大的数据库中快速准确地找出我们需要的图像成为研究重点,同时随着人们对图像检索要求的提高,图像哈希技术应运而生.其工作原理是通过构造哈希函数将高维的数据映射成低维的二值哈希码,并使其在二值空间中保持高维数据的空间结构,具有检索速度快、存储空间小、表示方式简洁等优点.本文主要对图像哈希算法的概念及相关应用进行介绍,总结了aHash算法和pHash 算法的基本思想、实现步骤,并通过旋转、缩放图像,改变图像颜色、内容等实验对均值哈希算法和感知哈希算法实现相似图像搜索的效果进行比较,总结其优缺点. 图像哈希技术可以将任意分辨率的图像数据通过哈希函数转化为几十或几百个比特的二进制编码序列,称为哈希编码.哈希编码在目前二进制的计算机系统系下,不仅可以加快检索速度,还节省了内存空间.2.1 哈希算法含义及特点哈希的英文为HASH,也叫作散列函数.它是一种单向密码体制,同时可以把任意长度的输入,通过散列算法,变换成固定长度的输出.简单地说,哈希算法就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数.HASH主要用于信息安全领域中的加密算法,它把一些不同长度的信息转化成杂乱的128位的编码,这些编码值叫做HASH值,即HASH就是找到一种数据内容和数据存放地址之间的映射关系.2.2 均值哈希算法原理及应用Average Hash,简称aHash,即均值哈希算法,主要用于由图像的缩略图搜原图.aHash主要利用图片的低频信息,其工作过程如下:①缩小尺寸:将图片缩小到8×8的尺寸,共64个像素.②简化色彩:将8×8的小图片转换成灰度图像.③计算平均值:计算64个像素的灰度平均值.④比较像素的灰度:将每个像素的灰度与平均值进行比较,大于或等于平均值记为1,小于平均值记为0.⑤计算Hash值:将④的比较结果组合成一个64位的整数,即该图片的指纹.⑥对比图片指纹:对比不同图片的指纹,计算出64位不相同位的位数.如果不相同的数据位数不超过5,说明两张图片很相似,如果大于10,说明两张图片不相同.2.3 感知哈希算法原理及应用pHash,全称为Perceptual Hash,即感知哈希算法.主要应用于图像检索、图像识别、图像认证及数字水印技术.其工作过程如下[1]:①缩小尺寸:选取大于8×8,32×32的图片,简化DCT的计算,而非减小频率.②简化色彩:将图片转化成灰度图像,进一步简化计算量.③计算DCT:计算图片的DCT变换,得到32×32的DCT系数矩阵.④缩小DCT:保留32×32大小的矩阵中呈现图片中最低频率的8×8矩阵.⑤计算平均值:计算DCT的均值.⑥计算Hash值:根据8×8的DCT矩阵,设置0或1的64位的Hash值,大于等于DCT均值的设为“1”,小于DCT均值的设为“0”.组合在一起构成一个64位的整数,即这张图片的指纹.3.1 Matlab仿真实验3.1.1 图像性质及特征图像是一种二维的连续函数,像素是构成数字图像的最小单位.图像特征一般包含颜色特征、纹理特征、形状特征及空间关系特征.在计算机上对图像进行数字处理的时候,需要对图像进行采样和量化,量化级别越高,图像质量越好[2].3.1.2 图形变换分析(1)图像灰度处理在数字图像处理中,灰度直方图表达的信息是每种亮度的像素点的个数.直方图是图像的一个重要特征,因为它用少量的数据就可以表达图像的灰度统计特征.在Matlab仿真实验中,建立一个数组存储1~256灰度级出现的个数,然后根据定义,计算各像素灰度值出现的个数,如图1、图2所示.(2)基于DCT的图像去噪对图像进行模糊和去噪声处理,目的是去除太小的细节或将目标内的小间断连接起来,以减少对图像特征识别的影响.一般图像存在很多冗余和相关性,也就是说图像的噪声在离散余弦变换结果中处在其高频部分,而高频部分的幅值一般很小,利用这一性质,很容易实现图像的噪声抑制.处理结果如图3、图4所示.(3)图像的缩小与放大图像的缩小是通过减少像素个数来实现的,为减少缩小图像时的像素丢失,可以采用等间隔采样的图像缩小或局部均值的图像缩小[3].本实验采用局部均值法缩小图片,因为它不同于等间隔采样,仅取在原图像中的采样点像素,而是以相邻的两个采样点为分割,将原图像分成一个个的子块,缩小图像的像素取相应子块像素的均值.一张图片的高频成分描述具体的细节,低频成分描述大范围的信息,在对图像数字处理时我们希望保留低频成分去除高频成分.所以图像的放大采用双线性插值法,因为双线性灰度插值的平滑作用可使得图像的细节产生退化,而这种现象在进行图像放大时尤其明显.3.2 JAVA(eclipse)环境测试为对比两种算法相似搜图的效果,实验对图片进行一系列的变化后提取出特征因子,计算出每张图片的汉明距离,并与原图的汉明距离进行比较,来判别此图是否与原图相似或者全部相同.同时,在多次变换图形形状、颜色、大小、内容等情况下,分析出算法对何种变换不敏感,并总结了它们各自的优缺点.3.2.1 均值哈希(aHash)算法的测试均值哈希算法通过对比图像指纹的差异,也就是汉明距离来判定图像是否相似.汉明距离表示两个等长字对应位不相同的数量,即两个字之间的差异.若计算以d(x,y)表示的两个字符串x,y之间的汉明距离,那么对x和y字符串进行异或运算,结果为1的个数之和便是它们的汉明距离.(1)颜色变化的影响:通过5张背景颜色不同的图片与原图比较,得如下实验结果:Resources: [0008884b0b080808,ffff4fbcfcfffff7,0008080b0b080800, 0008080b0b080808,0008080b0b080808](指纹数)Source: ffff4fbcfcfffff7(指纹数)[16,0,16,16,16](汉明距离)汉明距离越小说明两张图相似度越高,因此只有第2张图与原图完全相同,其他的汉明距离都大于10而与原图不相似.因此颜色的改变对相似搜索有很大的影响. (2)同样地,用均值哈希算法对改变了内容、大小和旋转角度的图片进行实验,并得如下结论:a.图片放大或缩小,或改变纵横比,结果值不会改变,对搜索影响不大.b.均值哈希算法更简单也更快速,不受图片大小缩放的影响,但是如果在图片上加几个文字,它就无法识别.所以,它的最佳用途是根据缩略图找出原图.3.2.2 感知哈希(pHash)算法的测试pHash算法使用离散余弦变换(DCT)来获取图片的低频成分,离散余弦变换公式如下:其中F(u,v)是变换系数阵列的元素,式中表示的阵列为N*N.DCT是种图像压缩算法,它将图像从像素域变换到频率域.二维图像进行离散余弦(DCT)变换的步骤:①获得图像的二维数据矩阵f(x,y);②求离散余弦变换的系数矩阵A;③求系数矩阵对应的转置矩阵AT;④根据公式[F(u,v)]=Af(x,y)AT计算离散余弦变换.实验把对图形的变换集中在一起,用pHash算法对其进行相似比较,实验结果如下:source:a0000000000000001-1 2-0 3-2 4-2 5-0 6-0 7-0 8-1 9-16 10-0 11-1(注:a000000000000000是原图片的指纹数;“a-b”型数据的a代表图片序号,b代表汉明距离,b越小就越相似)本次实验达到了图片相似搜索的目的,而且改善了均值哈希算法对颜色的敏感性,从而使得搜索相似图的效果大大改善.3.3 实验总结通过Matlab对图像的分析,我们得知在pHash算法处理图像中加入DCT变换会使相似搜索的可比性提高,并且采用局部均值法缩小图像和双线性插值法放大图片,减少了图像像素的丢失,图片的特征识别效果有所提高.另外eclipse环境测试的实验结果,也说明了均值哈希算法(aHash)更简单,但是在比较上略显死板,一旦图像中涉及颜色变化或者内容修改,它将无法识别.感知哈希算法(pHash)虽然比较复杂,但它能很好地容忍一些小的变形,改善了相似图片比较的性能.本文对图像哈希算法的应用背景及相关理论知识进行了介绍,主要对均值哈希算法和感知哈希算法进行了研究和比较,总结了它们各自算法的思想、实现过程及优缺点.面对大数据下的检索,图像搜索似乎成为一种趋势,图像哈希技术在图像检索、模式识别以及多媒体认证等应用领域有着重要的研究意义.今后我们会更加关注图像检索技术的发展,努力研究算法的核心思想,并尽其所能地从多方面来提高算法的精确性、抗干扰性.【相关文献】[1] 牛夏牧,焦玉华.感知哈希综述[J].电子学报,2008,36(7):1406-1411.[2] 赵小川.学以致用:现代数字图像处理技术提高及应用案例详解(MATLAB版)[M].北京:北京航空航天大学出版社,2012.[3] 史世泽.局部敏感哈希算法的研究[D].西安:西安电子科技大学,2013.。
基于深度多监督哈希的快速图像检索

而,主流的深度学习方法往往使用较高维度的特征,这 极大地增加了图像检索的时间和空间开销。为了提高 检索的效率,哈希方法,如 LSH[19]开始应用于图像检 索领域,哈希特征的使用大大降低了图像检索在空间 和时间上的开销。然而,哈希方法的检索准确率往往 取决于它们所使用的特征,而手工编码的特征只能编 码线性特征,无法捕捉图像的深层语义信息。
第 36卷第 11期 2019年 11月
计算机应用与软件 ComputerApplicationsandSoftware
Vol36 No.11 Nov.2019
基于深度多监督哈希的快速图像检索
郁延珍
(复旦大学计算机科学技术学院 上海 201203)
摘 要 由于较低的检索时间和空间复杂度,哈希方法被广泛应用于大规模图像检索领域。提出深度多监督 哈希(DeepMultiSupervisedHashing,DMSH)方法来学习具有高度判别能力和紧凑的哈希编码,并进行有效的图 像检索。设计一个新的卷积神经网络结构来产生相似性保留的哈希编码,用一个识别信号来增加类间距离,用一 个验证信号来降低类间距离。同时,通过正则化的方式降低网络输出和二进制哈希编码之间的损失并使二进制 哈希值在每一维上均匀分布使网络输出更接近离散的哈希值。在两个数据集上的实验证明了该方法能够快速编 码任意新的图像并取得先进的检索结果。 关键词 图像检索 深度多监督哈希 卷积神经网络 中图分类号 TP3 文献标识码 A DOI:10.3969/j.issn.1000386x.2019.11.037
最近,很多基于卷积神经网络的哈希方法被提出, 如文 献 [1-2,14-15,23,26-27],用 来 解 决 快 速 图 像检索的问题。这些方法表明:深度卷积神经网络可 以有效地编码非线性函数,图像特征及其对应的哈希 函数都可以通过深度卷积神经网络学习得到。
基于深度监督哈希的快速图像检索

1 研究背景随着互联网的蓬勃发展,每天有数以万计的图像在网络中产生,但很难根据不同用户的要求对相关图像进行准确查找。
假设数据库中的图像和待查询图像都是由实值特征来表示,查找相似图像最直接的方法就是根据数据库中的图像在特征空间中与待查询图像之间的距离对数据库中的图像进行排名,然后返回其中距离最接近的图像。
但是,对于现如今拥有数千万甚至数亿张图像的数据库来说,通过线性搜索整个数据库会花费大量的时间和内存。
受到CNN(卷积神经网络)功能鲁棒性的启发,作者通过利用CNN结构提出了一种二值码学习框架(称为深度监督哈希(DSH))。
在此方法中,作者首先设计一个CNN模型,该模型不再是使用单张图片进行训练,而是将图像对或三元图像组以及指示相似程度的标签作为训练输入,并生成二值码作为输出。
设计损失函数用于将相似图像的网络输出拉到一起,并将不相似图像的输出推送到很远的位置,以使得学习到的汉明空间可以很好地逼近图像的语义结构。
2 国内外研究现状最近邻居搜索的问题旨在从数据库中找到一个最接近查询的项目,在数据库很大或距离度量的计算成本很高的情况下,精确的最近邻居搜索的计算开销会过高。
作为一种更实用的选择,近似最近邻搜索方法由于其高效性而受到越来越多的关注,其代表性算法为LSH(局部敏感哈希)。
为了产生更紧凑的二值码,提出了与数据相关的哈希方法,试图从训练集中学习保留相似性的哈希函数。
这些方法又可以进一步分为非监督方法和监督(或半监督)方法。
无监督方法仅利用未标记的训练数据来学习哈希函数。
例如,SH(谱哈希)、ITQ(迭代量化哈希)等。
为了更好地处理更复杂的语义相似性,提出了监督学习方法,以利用诸如类别、标签之类的信息。
例如,DGH(离散图哈希)、SDH(监督离散哈希)等。
上述哈希方法在一定程度上确实取得了成功,但这些功能无法很好地捕获现实世界数据中出现的剧烈变化下的复杂语义信息,从而限制了学习的二进制代值码的检索精度。
图像检索课件演示文稿(共71张PPT)

• 规整度 • 光滑度
2.纹理特征匹配
1)基本原理:
• 粗糙度反映纹理的尺寸
2.纹理特征匹配
1)基本原理:
• 对比度反映纹理的清晰度
2.纹理特征匹配
1)基本原理:
• 方向反映实体是否有规则的方向性。
包含多个纹理区域的图象
纹理是以像 素的邻域灰 度空间分布 为特征;
是图像强 度局部变 化的重复 模式
基于结构特征的纹理分析 Content-Based Image Retrieval
举例:用颜色特征模板进行检索
语包义含特 多征个:纹场理景区到、域事的件图9、象0情年感等代以后,出现了对图像的内容语义,如图像 的颜色、纹理、布局等进行分析和检索的图像检索 技术,即基于内容的图像检索。
综合利用颜色、纹理、形状特征,逻辑特征和客观属性等,实 现图像检索
3个瓶有透明液体
3 基于内容的图像检索
• 传统的图像检索方法
– 标引文字的检索的局限性是:
图片的标引文字主要靠人工输入。 • 对大数据量的场合(如Web资源、数字图书馆等)应用困
难
标引文字无法精确完整的刻画图片内容 • 文字描述一维线性的媒体,而图片是二维非线性的媒体
• 生成或利用元数据的过程实质是在两种差异很大的媒体间 的翻译过程,有很大的随意性和信息损失
一些典型的纹理图象
2.纹理特征匹配
2)匹配方法: • 基于统计特征的纹理分析——共生矩阵,心理学特征等 • 基于信号处理的纹理分析——小波变换,Gabor滤波器
等
• 基于结构特征的纹理分析
• 基于模型的纹理分析——Markov随机场模型等
• 2)匹配步骤:
• 从上述纹理分析的方法中得到一组描述纹理的特 征量;
图像检索资料

何谓图像检索从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。
到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术。
CBIR属于基于内容检索(Content-based Retrieval,简称CBR)的一种,CBR中还包括对动态视频、音频等其它形式多媒体信息的检索技术。
在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。
为了进一步提高检索的准确性,许多系统结合相关反馈技术来收集用户对检索结果的反馈信息,这在CBIR中显得更为突出,因为CBIR实现的是逐步求精的图像检索过程,在同一次检索过程中需要不断地与用户进行交互。
编辑本段基于文本的图像检索技术基于文本的图像检索沿用了传统文本检索技术,回避对图像可视化元素的分析,而是从图像名称、图像尺寸、压缩类型、作者、年代等方面标引图像,一般以关键词形式的提问查询图像,或者是根据等级目录的形式浏览查找特定类目下的图像,如Getty AAT使用近133,000个术语来描述艺术、艺术史、建筑以及其它文化方面的对象,并推出30多个等级目录,从7方面描述图像的概念、物理属性、类型和刊号等。
又如Gograph将图像分为动态图像、照片、图标、背景、艺术剪辑图、插图、壁纸、界面、成套图像8个一级类,下设数量不等的子类。
基于哈希的图像检索技术

基于哈希的图像检索技术为什么在图像检索⾥⾯使⽤到哈希(hashing)算法?基于哈希算法的图像检索⽅法将图⽚的⾼维内容特征映射到汉明空间(⼆值空间)中,⽣成⼀个低维的哈希序列来表⽰⼀幅图⽚,降低了图像检索系统对计算机内存空间的要求,提⾼了检索速度,能更好的适应海量图⽚检索的要求。
最近或者最近邻问题在⼤规模的数据查询中⽤得⾮常多。
但是他们都会遇到⼀个问题,就是"维数灾难"。
也就是说当数据的维数太⼤的时候,之前的那些索引⽅法(如KD树)就不能起到作⽤,这时候新的⽅法就很有必要,哈希算法满⾜了这个要求。
相似性搜索算法的评价标准为了解决相似性搜索问题,⼈们提出了很多相似性搜索的算法实现,⽽为了衡量这些算法的优劣,需要引⼊相似性搜索算法的评价机制。
⼀般来讲,⼀个相似性搜索算法可以从以下⼏个⽅⾯进⾏评价这个性质描述的是相似性搜索算法的查询质量。
对于给定的查询请求,算法必须返回符合条件的查询结果,⽽且查询结果最好能和通过线性查找得到的结果⼀致。
⽂本检索领域的两个著名指标可以⽤在此处来衡量查询质量,它们分别是召回率(recall)和精度(precision)。
召回率和精度的定义如下:CBIR中的Hashing算法有哪些?要解决这个问题,⾸先我们得⽤数学的⽅法将这个问题描述⼀下:我们有⼀个包含个点的集合,,这样矩阵的形式就是。
我们的⽬标是寻找到⼀个⼆元编码的集合,c表⽰编码的长度。
对于每⼀个位我们使⽤,是超平⾯的系数。
从训练数据是否有Label(标记)上来分,CBIR中的hashing算法分为三类,监督学习,⽆监督学习,半监督学习。
监督学习Semantic hashing (RBMs)受限玻尔兹曼机是⼀个深度学习模型,每⼀层都表⽰⼀个受限玻尔兹曼机,最底层受限玻尔兹曼机的输⼊是原始⾼维数据,通过该受限玻尔兹曼机计算得到⼀个中间值,然后将这个中间值作为下⼀个受限玻尔兹曼机的输⼊,继续计算得到新的中间值,重复此过程,直到从顶层的受限玻尔兹曼机计算得到最终的编码结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
慌乱挣扎的第一个学期终于马上就要结束。
差不多忙活了一个学期,最近终于开始慢慢理清楚这个思路,也准备开始使用一些benchmark的数据集来对某一篇paper的算法做一下实验,实现一下。
感觉自己的思路有时候不太清晰,因此现在开始想写一点东西,把自己做的事情和思路一步步记录下来,包括以后每次看的paper的理解,也能够成为见证自己学习的一个过程。
现在从最开始的背景综述开始写起。
现在的图像检索技术基本上还是分为两类,基于文本的图像检索(Text-based Image Retrieval,TBIR)和基于内容的图像检索(Content-based Image Retrieval, CBIR)。
基于文本的图像检索也就是主要利用文本描述的方式对一幅图像进行特征的描述,建立相应的描述子或者key words,比如图像的年代、作者、尺寸、编码、名称等一些关键性的信息,将它们进行自动或者人工采集标注,产生图像的索引数据库,然后将用户输入的关键字,进行匹配查找,再返回结果的一种图像检索方式。
它易于实现,查准率也较高,但是存在文本描述有限,有些图像特征不好描述甚至无法描述,而且存在不同描述人的较大的主观性,并且需要人工标注,在海量数据的处理中越来越失去应用价值,进而也不能满足检索的要求。
基于内容的检索技术是由计算机对图像的特征进行分析,提取特征,如颜色、纹理和形状等,将提取的特征作为向量存入图像数据库,对于输入的检索图片做相同的处理,利用相似性准则计算该查询图片与图像特征库中的每一个特征向量的相似度,根据相似度排序后,输出给定阈值下的检索结果。
其优点在于使用机器对图像的内容进行判别性的信息提取,得到特征的描述子,不需要人为地对图像进行文本标注;并且,该过程作为一个近似匹配的过程,对于检索效率的提升也有了很大的贡献,但是对于图像特征的提取上,复杂的算法需要实现从最底层图像特征到高层的语义信息的联系显得有点困难,因此检索准确性上不是很高。
随着CBIR成为研究热点,目前国内外有了许多以图搜图的图像搜索引擎系统。
总结了一下目前以图搜图的一些搜索引擎有以下:
picitup,Google的按图搜索,图想,百度试图,TinEye,千视惠搜,搜鞋客等。
在海量数字图像数据再互联网上泛滥之后,对于图像的快速和有效检索就显得日益重要。
传统的方法有基于树的索引结构,如k-d树,但它仅仅在处理低维数据时可以有效提高检索速度,当数据维度超过20维时,其检索效率就接近于穷举的搜索方式。
因此,目前针对高维数据的快速检索问题,图像哈希技术在上世纪九十年代末诞生。
上图为图像哈希技术的检索流程。
对于训练图像和查询图像都需要进行特征的提取,之后通过哈希函数的转化,压缩为一定数目的二进制编码序列,该过程称为哈希编码。
然后将得到的哈希编码,进行汉明距离的计算,在设置的汉明距离阈值范围内再对候选样本做欧式距离排序,也就是重排(一般论文这一步都是没有的),最后返回检索到的图像,这些得到的图像称为查询图像的近似最近邻。
对于哈希函数的期望,我们希望其满足以下两个必要的条件:
(1)对于内容相似的图像,其哈希编码的序列能够尽可能相同或者十分接近;
(2)对于内容不同的图像,其哈希编码的序列能够尽可能不同。
对于以上两个条件的判定,与其汉明距离的大小相关联。
而汉明距离就是一串二进制代码的异或操作,非常方便快捷,因此,哈希技术给图像检索带来很大的便捷性。