图像检索

合集下载

基于内容的图像检索

基于内容的图像检索

基于内容的图像检索
基于内容的图像检索(Content-Based Image Retrieval, CBIR),也称为内容视觉检索,是一种能够从图像库中自动找到和用户提供的图像或者用户视觉描述相似的图像的技术。

它可以利用图像中存在的特征和类别,进行快速准确的信息检索。

基于内容的图像检索的原理是,首先将图像进行处理,形成和其中的特性相关的特征向量,然后将提取到的特征向量传入到模型中,计算和检索图像之间的相似性,从而进行图像内容检索。

基于内容的图像检索技术有很多优势,包括精确性和可处理信息量大等特点。

相比于表面检索技术,基于内容的图像检索技术不仅可以检索出更高质量的图像,还可更好地提高搜索效率。

此外,基于内容的图像检索技术还可以根据不同的图像特征,进行更加详细和准确的检索,从而实现更快的检索速度。

基于内容的图像检索技术的典型应用是基于用户上传的图像或口头描述,进行图像模糊检索或类似图像检索,从而使用户能够快速检索到自己想要的内容信息。

同时,基于内容的图像检索技术还可以用于商业图像检索、监控视频搜索等多种不同的任务。

总的来说,基于内容的图像检索是一种发展很快的技术,它已经被广泛应用在信息检索、图像检索、人工智能等方面。

它能
够提高信息检索的准确性和效率,为用户提供快速、准确、全面的搜索服务。

大规模图像分类与检索算法研究

大规模图像分类与检索算法研究

大规模图像分类与检索算法研究随着互联网和数字化技术的快速发展,图像的使用和处理也成为了重要的研究领域。

在海量的图像数据中,如何高效地进行分类和检索成为了亟待解决的问题。

大规模图像分类与检索算法的研究便应运而生。

一、背景介绍大规模图像分类与检索是指对海量图像进行自动分类和检索。

随着互联网中图像数据的爆炸式增长,传统的手动分类和检索已经无法满足实际需要。

因此,研究人员们开始关注如何使用计算机视觉和机器学习的技术来实现自动化的图像分类和检索。

二、图像分类算法研究图像分类是将图像划分到不同的类别中的过程。

在大规模图像分类任务中,由于数据的维度高和数量大,传统的机器学习算法往往难以胜任。

因此,深度学习算法成为了解决大规模图像分类问题的重要工具。

1. 卷积神经网络(Convolutional Neural Networks,简称CNN)卷积神经网络是一种逐层堆叠的神经网络结构,其模仿人类视觉系统的处理方式。

通过多个卷积层和池化层,CNN可以有效地提取图像中的特征,并将其转化为可用于分类的向量。

一些经典的CNN模型,如AlexNet、VGGNet和ResNet,在大规模图像分类任务中取得了很好的效果。

2. 迁移学习迁移学习是指将预训练好的模型迁移到新的任务上。

在大规模图像分类任务中,由于数据量大和训练时间长,重新训练一个完整的模型代价较高。

因此,研究人员们尝试将在其他任务上训练好的模型直接应用于大规模图像分类任务中。

通过在新任务上微调模型参数,可以显著提高图像分类的准确率。

三、图像检索算法研究图像检索是指根据图像的内容和特征,从海量图像库中检索到与之相似的图像。

在大规模图像检索任务中,由于数据量大和查询速度要求高,传统的图像检索算法往往无法满足需求。

因此,研究人员们提出了一系列针对大规模图像检索的算法。

1. 基于局部特征的图像检索基于局部特征的图像检索算法可以有效地提取图像中的局部特征,并根据这些特征计算图像之间的相似度。

基于深度学习的图像检索与相似度计算算法研究

基于深度学习的图像检索与相似度计算算法研究

基于深度学习的图像检索与相似度计算算法研究深度学习技术的发展已经在多个领域取得了重大突破,其中图像检索与相似度计算领域也得到了广泛的应用和研究。

本文将对基于深度学习的图像检索与相似度计算算法进行研究和探讨,以期为相关领域的研究者和开发者提供一些有益的参考。

一、引言随着网络上图像数据的不断增加,准确、高效地检索和计算图像之间的相似度变得尤为重要。

而传统的图像检索和相似度计算算法通常需要依赖人工提取的特征,这种方法的局限性在于往往难以捕捉到图像的高级语义信息。

而深度学习作为一种自动学习的方法,可以从大量的标注数据中学习到更高层次的抽象特征,从而在图像检索和相似度计算任务中取得更好的效果。

二、基于深度学习的图像检索算法1. 卷积神经网络(CNN)的应用卷积神经网络是深度学习中最常用的网络结构之一,它可以自动学习到图像中的各种特征。

在图像检索任务中,可以将卷积神经网络用于图像的特征提取。

通过将图像输入网络中,最后一层的特征向量可以作为该图像的表示。

通过计算特征向量之间的距离,即可进行图像的相似度计算和检索。

此外,还可以使用预训练的卷积神经网络模型,如VGGNet、ResNet等,来提取图像的特征表示,以更好地捕捉图像的高级语义信息。

2. 图像检索的局部特征在传统的图像检索算法中,SIFT、SURF等局部特征是常用的方法。

这些方法在一定程度上能够描述图像的纹理和形状等特征,但往往无法捕捉到图像的高级语义信息。

而在基于深度学习的图像检索算法中,可以利用卷积神经网络的局部响应性来提取图像的局部特征。

通过将图像切割为多个小区域,并提取每个区域的局部特征向量,可以得到更细粒度的图像表示。

这种方法对于含有多个物体或复杂背景的图像具有较好的效果。

三、基于深度学习的相似度计算算法1. 基于向量相似度的计算在基于深度学习的相似度计算中,最常见的方法是通过计算图像之间特征向量的相似度来衡量它们之间的相似程度。

常用的相似度计算方法包括欧氏距离、余弦相似度等。

图像检索的技术及其应用

图像检索的技术及其应用

图像检索的技术及其应用图像检索是一项通过计算机技术来实现对图像进行搜索、分类、管理等操作的技术,它可以方便地找到用户需要的图片,提高图像管理的效率和准确率。

随着计算机技术的不断进步和图像数据的不断增长,图像检索的应用也越来越广泛。

一、图像检索的原理图像检索是基于图像的内容特征来实现的,主要包括颜色、纹理和形状三个方面。

图像检索的原理是首先通过图像处理技术对图像进行特征提取,然后建立相应的图像特征库,最后根据用户输入的检索关键词进行匹配搜索。

具体的步骤包括以下几个方面:1.特征提取:对图像进行处理,提取图像中的关键信息,如颜色、纹理和形状等。

2.特征表示:将特征提取出来的信息转换为数学模型,并建立相应的图像特征库。

3.相似度度量:通过计算图像之间的相似度来判断它们的相似程度。

4.检索结果排序:根据相似程度进行排序,将相似度高的图像排在前面,方便用户进行查看。

二、图像检索的应用图像检索的应用非常广泛,涉及到许多领域,如图像搜索引擎、图像检索系统、医学图像检索、图像视频监控、智能家居等等。

下面分别介绍其中几个典型的应用:1.图像搜索引擎图像搜索引擎是一种非常流行的应用,通过输入关键词来搜索出符合条件的图片。

它可以用于网站的设计、广告的制作、和谐公安、卡通游戏等各种领域。

其中,国内知名的图像搜索引擎有百度图片和谷歌图片。

2.医学图像检索医学图像检索可以帮助医生快速准确地找到符合特定条件的医学图像,以便诊断和治疗疾病。

例如,对于CT图像,可以通过图像检索技术检索出与某种病灶相似的图像,从而提高诊断的准确度和效率。

3.图像视频监控图像视频监控是指通过不同的视频监控设备对特定区域进行监控,将监控到的视频流送到监控中心,并进行分析和识别。

图像检索技术可以帮助监控人员快速准确地找到特定的事件,如突然出现的火灾、车祸等,提高安全监控的效率和准确率。

三、图像检索的发展趋势目前,随着人工智能、深度学习和大数据技术的不断发展,图像检索技术也在不断提高和完善。

图像检索小结

图像检索小结

图像检索小结图像检索是一种根据图像内容进行搜索和导航的技术。

它主要涉及图像特征提取、特征匹配和相似度计算等步骤。

本文对图像检索技术进行了总结,包括特征提取方法、特征匹配算法和相似度计算方法等。

在图像检索中,特征提取是非常重要的一步。

常用的特征提取方法有颜色直方图、纹理特征、形状特征和深度学习特征等。

其中,颜色直方图是一种用于描述图像颜色分布的方法,可以通过统计每个颜色通道的像素数量来构造直方图。

纹理特征能够描述图像的纹理信息,可以通过局部二值模式(LBP)和灰度共生矩阵等方法进行提取。

形状特征可以通过提取图像的边缘或轮廓等几何形状信息来进行描述。

深度学习特征是近年来兴起的一种特征提取方法,它利用深度神经网络模型从图像中学习高层次的特征表示。

特征匹配是图像检索中的一个关键步骤,其目的是找到目标图像和数据库图像之间的对应关系。

常用的特征匹配算法有最邻近匹配法、RANSAC算法和局部特征匹配算法等。

最邻近匹配法是一种简单且高效的匹配算法,它通过计算不同图像中的特征向量之间的欧氏距离或余弦相似度来进行匹配。

RANSAC算法是一种鲁棒的特征匹配算法,它通过随机采样一组匹配特征点来计算模型参数,并通过剔除外点来提高匹配准确度。

局部特征匹配算法是一种基于图像局部区域的特征匹配方法,它通常利用局部关键点和描述子来进行匹配。

相似度计算是评估目标图像与数据库图像之间相似程度的一种方法。

在图像检索中,常用的相似度计算方法有欧氏距离、余弦相似度和基于深度学习的相似度计算等。

欧氏距离是一种简单的距离度量方法,可以用于计算特征向量之间的差异程度。

余弦相似度是一种比较特征向量之间夹角的相似度度量方法,可以有效地减小向量长度带来的影响。

基于深度学习的相似度计算是利用预训练的深度神经网络模型来计算图像的相似度,该方法通过特征提取和相似度度量两个步骤来实现,可以获得较好的检索性能。

图像检索是一门涉及多个领域的交叉学科,不仅包括计算机视觉、模式识别和机器学习等方面的知识,还需要结合人类对图像的感知和理解。

简述基于内容的图像检索技术

简述基于内容的图像检索技术

简述基于内容的图像检索技术基于内容的图像检索技术是一种利用图像的视觉特征,通过计算机技术进行图像匹配和相似度计算,从而实现高效的图像检索。

它可以帮助用户快速地查找到需要的图片,也可以为图像分析和计算机视觉领域的研究提供支持。

本文将详细介绍基于内容的图像检索技术。

一、图像特征提取图像特征提取是基于内容的图像检索技术的核心步骤,其目的是从图像中提取出代表其内容的特征。

常用的特征提取方法包括颜色特征、纹理特征、形状特征、边缘特征等。

其中,颜色特征是最为常用的特征之一,它可以通过统计图像中各像素的颜色分布来提取颜色特征。

二、相似度计算相似度计算是基于内容的图像检索技术的关键步骤,其目的是计算待查询图像和数据库中图像之间的相似度。

常用的相似度计算方法包括欧氏距离、余弦相似度、汉明距离等。

其中,余弦相似度是最为常用的相似度计算方法之一,它可以用于计算图像之间的相似度。

三、图像检索算法基于内容的图像检索技术采用不同的算法进行图像检索,其中最常用的算法包括基于特征的检索算法和基于深度学习的检索算法。

基于特征的检索算法主要利用图像的视觉特征进行相似度计算和图像匹配,例如SIFT、SURF等算法。

基于深度学习的检索算法则是利用深度神经网络对图像进行特征提取和相似度计算,例如基于卷积神经网络的图像检索算法。

四、图像检索应用基于内容的图像检索技术在许多应用领域都得到了广泛的应用。

例如在电商领域,可以利用图像检索技术实现商品搜索和推荐;在娱乐领域,可以利用图像检索技术实现图像搜索引擎和相册管理;在医学领域,可以利用图像检索技术实现医学图像检索和诊断等。

五、图像检索的挑战基于内容的图像检索技术还面临着一些挑战。

其中最主要的挑战是图像的复杂性和多样性。

不同的图像可能存在着相同的特征,而相似的图像可能存在着不同的特征。

此外,图像的噪声、失真等因素也会影响图像检索的效果。

六、总结基于内容的图像检索技术是一种通过计算机技术实现高效的图像检索的方法。

计算机视觉的图像检索方法

计算机视觉的图像检索方法

计算机视觉的图像检索方法随着计算机技术的飞速发展,计算机视觉技术逐渐成为研究和应用的热点之一。

图像检索作为计算机视觉的重要应用之一,是指根据用户输入的查询信息,在大规模图像库中快速准确地检索出与查询图像相似的图像。

图像检索方法在各个领域都有着广泛的应用,如医疗影像诊断、智能交通、智能监控等。

本文将介绍几种常见的图像检索方法,并进行比较分析。

特征提取与描述图像检索的第一步是对图像进行特征提取和描述。

特征提取是指从图像中抽取出能够代表图像内容的一些特征,常用的特征包括颜色、纹理、形状等。

特征描述是指对提取出的特征进行描述和编码,以便于后续的匹配和检索。

常用的特征提取和描述方法包括SIFT、SURF、HOG等。

基于内容的图像检索基于内容的图像检索是指通过图像的内容特征进行检索,而不考虑图像的语义信息。

基于内容的检索方法主要包括基于特征的检索和基于相似度的检索。

基于特征的检索通过提取图像的特征,然后计算特征之间的相似度来进行检索。

基于相似度的检索则是通过计算图像之间的相似度来进行检索,常用的相似度计算方法包括余弦相似度、欧氏距离等。

基于语义的图像检索基于语义的图像检索是指通过对图像的语义信息进行分析和理解,来进行检索。

基于语义的检索方法主要包括基于标注的检索和基于自然语言的检索。

基于标注的检索是指通过对图像进行标注,然后根据标注信息进行检索。

基于自然语言的检索则是指通过对自然语言查询进行理解,然后将查询转化为图像特征进行检索。

深度学习在图像检索中的应用近年来,深度学习技术在图像检索领域取得了巨大的进展。

深度学习技术能够学习到图像的高层次特征表示,从而提高了图像检索的准确性和效率。

常用的深度学习模型包括卷积神经网络(CNN)、循环神经网络(RNN)等。

这些模型在图像检索中能够提取出更加抽象和语义丰富的特征表示,从而提高了检索的准确性。

图像检索的挑战与未来发展虽然图像检索技术取得了很大的进展,但仍然面临着许多挑战。

基于内容的图像检索技术精选全文

基于内容的图像检索技术精选全文
颜色特征描述方法 直方图法、累积直方图法、局部累积直方图法、颜 色布局法、中心矩法等。
颜色特征
欧几里德距离法 欧几里德距离通过特征向量差值的均方差反映了图 像之间的差异,用欧几里德距离公式计算图像x和y 的距离如下:D(X ,Y ) (xk yk )2 优点:是简便易行,有清晰的物理意义,即距离小, 匹配好,说明2个特征之间的相似度大
mn (t) 2m/2 (2m t n)
假设图像的轮廓函数为f(t),它的小波变换系数为:
Cmn f (t) mn (t)dt
利用小波变换系数可以重建的公式,它如下所示:
m0
f (t)
cmn mn (t)
cmn mn (t)
mm0 1 n
m n
小波变换
假设尺度函数为,把它和小波变换重建公式相结合
傅立叶形状描述符
傅立叶形状描述符(Fourier Descriptor)的基本思 想是用物体边界形状特征函数的傅立叶变换来描述 形状。傅立叶变换通过把敏感的直接表示转换到频 域获得物体的一般特征,频域特征不容易被微小的 变化和噪声所影响。
傅立叶形状描述符
边界的离散傅立叶变换表达可以作为定量描述形状 边界的特征参数的基础。假设在平面上有一由个点 组成的数字化边界,其中的每个点可以用坐标来表 示。从任意一个起点开始,以逆时针方向沿着边界 移动,这样可以得到一系列坐标点。将平面与复平 面重合,其中实部轴与轴重合,虚部轴与轴重合, 这样边界上的每个点的坐标就可以用复数的形式来 表示,从而边界就可以表示成坐标组成的一个复数 序列。
图像检索技术的发展
图像检索技术的发展两个阶段:
✓ 基于文本的图像检索 70年代,研究者们在对图像进行文本标注的基 础上,对图像进行基于关键字的检索。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

所谓bag of word认为文档就是一个词的集合,忽略任何语法或者出现顺序关系。

摘要本文描述一种物体和影像搜索方法,即搜索并将用户在一个影像中看到的大致图像的所有点局部化。

物体是由一系列视觉不变的区域点来代表的,所以即使在视角、光照和空间闭合上发生了改变,图像还是能够被成功辨别出来。

在某一个视觉内的图像的局部连续性被用于追踪某些区域点,以便排除易变的区域点和减少在描述过程中噪音的影响。

该方法与文本检索的类似之处在于对被预先计算(利用矢量化)的描述点的匹配方法,和反序的文件系统以及文档排序都被使用。

结果是检索是即时的,利用谷歌的方式返回一个关键电影画面或者关键点的排序列表。

下面以匹配两个标准长度的故事片来阐述这个方法。

1.介绍我们的目标是检索出在包含了一个在位移、速度和精确度上都具有特殊性的物体的视频里面的关键电影画面和点,正如谷歌也利用位移、速度和精确度来检索包含了关键字的文本文档(网页)。

该论文研究的是文本检索方法是否能够被成功应用于物体识别。

识别图像库里的一个(可识别的)物体的技术,现在已经大致成熟,但仍存在一些值得攻破的难题,因为视角和光照或者局部损坏,一个物体的视觉外观可能会非常不同,但是成功(识别)的方法现在还是存在的。

一个物体通常由一系列交叉区域来表示,每个区域又由通过计算区域外观所得的一个矢量来表示。

这个区域段和描述点是依据在一定视角和光照条件下设定的等级可控的空间不变性来构建的。

类似的描述点被计算以供数据库里面的所有图像使用。

通过描述向量的就近匹配,或者本地空间连贯性(例如邻接点、顺序或者空间布局)进行排歧,又或者全局关系(例如对极几何)来识别一个特定的物体。

例子包括[5, 6, 8, 11, 13, 12, 14, 16, 17]。

我们探索的是这类识别方法是否像文本检索那样被重铸。

实际上,这要求一个单词的视觉类比,在这里我们通过矢量化描述向量提供这种类比。

然而,人们将看到,现在做得更多的是与文本检索进行类比而不是在不同的向量矢量化(算法)上进行最优化。

目前有很多在文献检索中已经被学习和发展了的经验教训和翻阅规则,这些值得被进一步确定是否同样能够应用于视觉检索中。

这种方法的好处是通过预计算,匹配是有效的,因此在包含任何特定物体的电影画面和视觉中,检索是无延迟的。

这意味着任何出现在视频中的物体(包括多个物体的同时出现)都能够被检索出来,即使这些物体在构建对视频的描述时并没有明显的用处。

然而,我们还是必须确定这些已经被矢量化了的向量是否遗漏了任何匹配,而这些匹配恰恰是使用最近邻接匹配的前一种方法能够获得的。

文本检索的回顾:文本检索系统一般采用的是一系列标准的步骤。

文档首先被解析为一个个单词,然后这些单词用它们的原始词表示,比如单词“walk”、“walking”以及“walks”均被表示为“walk”。

第三步,建立一个(索引中不列出的)省略词语表用来排除非常常用的单词,如“the”和“an”,这些几乎在大部分文档中都会出现,所以在一篇特定的文档中不再识别它们。

那些剩下的单词则被指定一个唯一的识别符,然后每篇文档被表示为依据单词在文档中的出现频率得出的一个向量。

此外用多种方法去权衡向量的构成部分(第4节将详细介绍),在谷歌的解决方案中,一个网页的权值由该网页的链接数来决定。

所有以上步骤在实际检索前进行,表示文献库里面的所有文档的向量集被像一个反向文件那样组织以便帮助有效的检索。

一个反向文件在结构上像一个理想的书目,反向文件中有每个单词在文库中的入口和所有文档的列表(以及单词在某一篇文档中出现的位置)。

通过计算由单词频率得到的向量来检索文本,并返回拥有最接近向量集(通过角度来测量)的文档集。

而另外的,根据在单词出现顺序和单词间隔等方面的匹配程度来排列返回的文档集。

论文概述:我们探索在这里提到的每一步的视觉类比。

第二节描述的所使用的视觉描述符,第三节描述这些视觉描述符的矢量化向量对应的视觉“单词”,第四节为向量模型编制索引和权值。

这些想法在第五节中用一个实际背景下的电影画面来加以评价。

最后,一个省略词语表和排序(根据空间上的匹配)在第六节中介绍,它们被用来评估两部故事片中的物体检索。

虽然在此之前也有人把文献检索的思想借用到图像检索(例如利用权值和反向文件组合),然而我们的研究是这些方法在视频中的物体匹配的第一次系统的应用。

2.视觉不变的描述每一张电影画面都有两种类型的视觉协变区域被测量。

第一种通过一个利益点的椭圆形版本来构建。

这种方法包括反复确定椭圆的中心、大小和形状。

椭圆的大小通过(在规模上的)拉普拉斯算子的局部极端值来确定,椭圆的形状通过最大化亮度倾斜度和无向性来确定【2,4】,实现细节在【8,13】中给出。

这种区域类型被称为形状适应(SA)。

第二种类型的区域通过从一个图像分割的强度流域选择区域来构建。

这些区域是那些如强度入口一样大致静止的区域变换所得。

实现细节在【7】中给出。

这种区域类型被称为最大化的稳定(MS)。

两种类型区域都得以应用因为它们检测不同的图像区域并且因此提供一张电影画面的补充表示。

SA趋向于集中关注局部如外部特征,而MS区域相当于遵循其周围影像(例如一面灰色墙壁上的黑窗户)的高度抽象的模糊体。

这两种类型的区域都用椭圆来表示。

为了使得图像形状更加容易识别,这两种类型的区域在起始的检测区域大小下被计算两次。

对于一张720*576像素大小的视频画面,被计算出来的区域大小一般是1600。

在图1中显示的是一个例子。

用已经发展到劳氏5的SIFT描述符将每个椭圆仿射的不变区域以一个128维度的向量表示,在【9】中可以看出这种描述符要优于其它用于文献的描述符,例如一系列可控过滤或者正交过滤之后的响应结果,而且通过在5.1节中比较景象检索结果与实际景象我们也发现SIFT是出色的(描述符)。

之所以拥有这么出色的表现是因为SIFT,不像其它描述符,被设计为一个区域范围内的一小部分像素的不变转换,这样局部错误是经常发生的。

结合SIFT描述符和仿射协变区域能够提供相当于图像的仿射转换的区域描述向量。

注意,区域检测和在单色画面以及颜色信息上进行计算所得的描述目前没有用于现在的工作。

为了减少噪音和排除不稳定区域,信息聚集在画面序列中。

用一种简单固定的动力速率模型和相关性来追踪每个视频画面的区域检测。

任何没有在超过三个画面中存留的区域都被摈弃。

每次追踪所得的区域都被视为一个公共景象区域(被检测区域的预先图像)的独立测量。

针对景象区域的描述符的评价指标是通过计算整个追踪中的所有描述符的平均值得出。

这使得在标志描述符的噪音方面有了显著的提高(这一点在第5.1节用实际景象加以证明)。

3.建立视觉“词汇表”这里的目标是将描述符矢量量化成串将相当于文本检索中的视觉“单词”。

然后当电影的一个新画面被观察,画面的每个描述符被分配到最接近(最匹配)的串中,这会立即产生对于整部电影的所有画面的匹配。

词汇表由电影的子部分来构建,而它的匹配精确度和表达力在电影的剩余部分得到评估,就如下面所描述的那样。

这里使用K-meas聚集方法进行矢量量化,其它方法*******也是可以的。

3.1实现区域通过连续的画面来追踪,i区域的每一块都计算出一个平均向量描述符xi。

为了排除不稳定区域,有10%的对于最大对角线协方差矩阵的追踪要被排除。

这样一来每个画面平均产生1000个区域。

每个描述符是一个128维度的向量,同时聚集电影的所有描述符将是一个巨大的任务。

反之被选择的48镜头的一个子集(这些shots将在5.1节中进行详细讨论)覆盖了大约代表了整部电影的所有画面的大约10% (即10k画面)。

虽然减少了一些,但仍然有平均200k 被追踪到的描述符必须聚集。

确定用来聚集马氏距离的距离函数用如下方法计算所得:假设由协方差Σ,对于所有追踪来说这个值都是相同的,这个值是从所有可用数据和在48镜头中所有追踪的所有描述符当中估算所得。

马氏距离能够使得128向量里面噪音影响越大的成分得到越小的权值,而且能够使这些成分不相关。

根据经验,存在一定等级的相关性。

在两个描述符之间的距离函数(由它们的平均追踪描述符表示)x1,x2,由d。

给出。

正如标准所规定的,描述符距离是对Σ的平方根的仿射变换,所以欧几里德距离会被用到。

大概6k串被用于SA区域,而大约10k串被用于MS区域。

每一种类型的集群数比率被选至大致相等于每一种类型的被检测描述符的比率。

集群数根据经验被选来最大化5.1节的检索结果。

以随机初始分配的点作为集群中心和被使用的最好的结果,K-means算法被运行多次。

图2是一个展示了属于特定集群的区域的例子,特定集群如视觉“单词”那样被构建。

集群区域反映了SIFT描述符的属性,这些SIFT描述符是为了消除区域间的差异而提高其互相关性的。

这是因为SIFT注重梯度的定位,而不是区域内某一特定强度的位置。

SA和MS区域被分开集群的原因是它们覆盖了景象的不同的和高度独立的区域。

所以,它们可能被认为是描述相同景象的不同词汇表,因此它们应该有自己的单词集合。

正如在相同的方式下,一个词汇表可能描述建筑装饰,而另外一个描述一栋建筑的维修状态。

4.利用文本检索方法的视觉索引在文本检索中,每个文档都用一个单词频率向量来表示。

然而,必须对这些向量成分做一个权值而不能直接编入索引中。

在这里我们探讨的是被应用的标准权值,和文档检索与画面检索的视觉类比。

标准权重被称为“术语频率-反向文档频率”(tf-idf),计算方法如下:假设有一个包含了k个单词的词汇表,每个文档都被表示为一个以单词频率为权重的k维度的向量vd(t1、t2……),其中ti=。

,其中nid是指单词i在文档d中出现的次数,nd是文档d的单词总数,ni是项目i在整个数据库的出现次数,而N是整个数据库的文档总数。

权重在两项中获得,单词频率nid/nd,以及反向文档频率logN/ni。

公式所呈现出来的就是单词频率加大了那些经常出现在某一特定文档中的单词的权重。

所以,为了更好地描述(文本),与此同时反向文档降低了那些经常出现在数据库中的单词的权重。

在检索阶段,文档根据它们标准规模的产品(角的余弦值)排序,余弦值是由查询向量Vq和数据库里面所有文档向量Vd求得。

在我们的例子中,查询向量由包含在一个用户指定的一个画面的子部分的视觉词汇表求得,其它的画面根据它们的权重向量与这一查询向量的相似程度排序。

在接下来的章节对各种各样的权重模型进行评估。

5.利用视觉单词进行场景匹配的评估实验这里的目标是在一个封闭的视觉里进行场景匹配。

这一方法的测试环境是从电影Run Lola Run中以19种不同的3D位置获取的48个镜头中挑选164张画面。

我们在每个位置上获取4-9张画面。

图3a展示的是分别在四个不同的位置上获取3个画面。

相关文档
最新文档