移动视觉搜索技术研究与标准化进展
视觉问答研究报告

视觉问答研究报告视觉问答是人工智能领域中一个重要的研究方向,它旨在让计算机能够理解和回答关于图像或视频内容的问题。
该领域的研究目标是构建一个强大而智能的系统,使它能够从输入的图像或视频中提取出信息,并准确地回答与该内容相关的问题。
本报告将对视觉问答的研究现状、方法和应用进行探讨。
一、研究现状视觉问答作为一门新兴的研究领域,近年来得到了广泛的关注和研究。
许多研究人员和机构致力于构建视觉问答系统,并取得了一些重要的进展。
这些研究基于深度学习、计算机视觉和自然语言处理等相关领域的技术,并试图通过融合多种信息源来实现智能问答。
目前的视觉问答研究主要围绕以下几个方面展开:1. 图像特征提取:对于视觉问答系统来说,准确提取出图像的特征是至关重要的。
传统的方法包括使用手工设计的特征提取器,如SIFT 和HOG,而现代的方法则借助于深度卷积神经网络(CNN)来学习更高级的特征表示。
2. 问题处理:在视觉问答中,问题处理是一个关键的环节。
针对不同类型的问题,需要设计相应的处理方法。
常见的问题类型包括分类问题、计数问题、位置问题等,可以通过分类器、回归器或序列模型来解决。
3. 知识嵌入:为了提高视觉问答系统的效果,许多研究将外部知识嵌入到系统中。
这些知识可以是来自于图像或文本的语义信息,也可以是来自于大规模的知识库,如维基百科。
通过将这些知识与图像特征和问题特征相结合,系统能够提供更准确的答案。
二、方法与技术在视觉问答的研究中,有许多不同的方法和技术被提出和应用。
以下是其中的一些主要方法:1. 深度神经网络:深度神经网络在视觉问答中得到了广泛的应用。
特别是卷积神经网络(CNN)和循环神经网络(RNN)等结构,可以分别用于提取图像和问题的特征,并通过结合两者的表示来生成答案。
2. 多模态融合:多模态融合是指将图像和问题的特征进行有效的组合。
可以通过连接、融合或对齐等方式来实现。
常见的多模态融合方法包括逐元素乘法、注意力机制和双线性池化等。
移动机器人双目视觉系统的研究与应用的开题报告

移动机器人双目视觉系统的研究与应用的开题报告一、选题目的随着移动机器人的不断普及和应用,移动机器人的自主导航和环境感知技术也越来越重要。
双目视觉系统可以提供更加准确的环境感知信息,而移动机器人又可以通过移动来获取更加全面的环境信息。
因此,研究移动机器人双目视觉系统的技术与应用,具有很高的实际应用价值和学术研究价值。
二、研究内容和方法1.研究内容(1)移动机器人的概述和发展趋势;(2)双目视觉系统的原理与技术;(3)移动机器人双目视觉系统的系统框架设计与实现;(4)移动机器人双目视觉系统在自主导航和环境感知中的应用研究;(5)移动机器人双目视觉系统的性能评估与优化。
2.研究方法(1)文献综述法:对移动机器人和双目视觉系统的相关文献进行综述和分析,明确研究的意义和重要性;(2)理论分析法:深入研究双目视觉系统的原理和技术,构建移动机器人双目视觉系统的数学模型,分析其在自主导航和环境感知中的应用;(3)实验验证法:构建移动机器人双目视觉系统的实验平台,对系统的性能评估和优化进行实验验证。
三、研究意义和创新性1.研究意义移动机器人是目前智能机器人领域的热门研究方向之一,其中自主导航和环境感知是其重要技术之一。
双目视觉系统可以提供更加准确的环境感知信息,而移动机器人又可以通过移动来获取更加全面的环境信息。
因此,研究移动机器人双目视觉系统的技术与应用,具有很高的实际应用价值和学术研究价值。
2.创新性(1)提出移动机器人双目视觉系统的系统框架设计与实现方法,对移动机器人进行更加全面的环境感知;(2)将移动机器人双目视觉系统应用于自主导航和环境感知中,提高移动机器人的自主能力和环境感知能力;(3)对移动机器人双目视觉系统的性能评估和优化进行研究,提高系统的效率和精度。
四、研究进度安排1.前期准备(1个月):对移动机器人和双目视觉系统的相关文献进行综述和分析,构建移动机器人双目视觉系统的数学模型。
2.中期研究(5个月):设计移动机器人双目视觉系统的系统框架,实现系统的功能,并将系统应用于自主导航和环境感知中。
移动机器人视觉里程计技术研究综述

移动机器人视觉里程计技术研究综述
陈明方;黄良恩;王森;张永霞;陈中平
【期刊名称】《农业机械学报》
【年(卷),期】2024(55)3
【摘要】随着移动机器人技术不断发展,里程计技术已经成为移动机器人实现环境感知的关键技术,其发展水平对提高机器人的自主化和智能化具有重要意义。
首先,
系统阐述了同步定位与地图构建(Simultaneous localization and
mapping,SLAM)中激光SLAM和视觉SLAM的发展近况,阐述了经典SLAM框架及其数学描述,简要介绍了3类常见相机的相机模型及其视觉里程计的数学描述。
其次,分别对传统视觉里程计和深度学习里程计的研究进展进行系统阐述。
对比分
析了近10年来各类里程计算法的优势与不足。
另外,对比分析了7种常用数据集的性能。
最后,从精度、鲁棒性、数据集、多模态等方面总结了里程计技术面临的问题,从提高算法实时性、鲁棒性等方面展望了视觉里程计的发展趋势为:更加智能化、小型化新型传感器的发展;与无监督学习融合;语义表达技术的提高;集群机器人协同技术的发展。
【总页数】20页(P1-20)
【作者】陈明方;黄良恩;王森;张永霞;陈中平
【作者单位】昆明理工大学机电工程学院
【正文语种】中文
【中图分类】TP242.6;TP391.41
【相关文献】
1.室内移动机器人视觉里程计研究
2.移动机器人视觉里程计综述
3.移动机器人中视觉里程计技术综述
4.融合运动约束的轮式机器人视觉里程计研究
5.移动机器人视觉里程计综述与研究展望
因版权原因,仅展示原文概要,查看原文内容请购买。
移动机器人视觉SLAM研究综述

移动机器人视觉SLAM研究综述一、本文概述随着移动机器人技术的不断发展,视觉SLAM(Simultaneous Localization and Mapping,即同时定位与地图构建)已成为该领域的研究热点。
本文旨在对移动机器人视觉SLAM的研究进行综述,全面梳理相关理论、方法和技术,总结现有研究成果,探讨未来发展趋势。
本文首先介绍了视觉SLAM的基本概念、原理和发展历程,阐述了视觉SLAM在移动机器人领域的重要性和应用价值。
随后,重点分析了视觉SLAM的关键技术,包括特征提取与匹配、相机姿态估计、地图构建与优化等方面,并对各类方法进行了详细的比较和评价。
在综述过程中,本文注重理论与实践相结合,既介绍了视觉SLAM 的理论基础,又通过案例分析展示了视觉SLAM在实际应用中的效果。
本文还探讨了视觉SLAM面临的挑战与问题,如环境适应性、计算复杂度、鲁棒性等,并提出了相应的解决思路和发展方向。
通过本文的综述,读者可以全面了解移动机器人视觉SLAM的研究现状和发展趋势,为相关领域的研究和实践提供有益的参考和借鉴。
二、视觉SLAM技术原理视觉SLAM(Simultaneous Localization and Mapping)是一种利用视觉传感器(如相机)进行环境感知和定位的技术。
其核心原理是通过相机捕捉到的图像序列,进行特征提取、匹配和追踪,从而估计机器人的位姿(位置和姿态)以及构建周围环境的地图。
视觉SLAM技术可以分为特征点法和直接法两大类。
特征点法基于图像中的特征点进行匹配和追踪,通过最小化重投影误差来优化机器人的位姿和地图点。
这种方法对光照和视角变化具有一定的鲁棒性,但可能会受到特征点稀少或纹理不足的影响。
直接法则是利用像素灰度信息,通过最小化光度误差来优化机器人的位姿和地图。
这种方法可以处理特征点稀少或无纹理的场景,但对光照和噪声较为敏感。
视觉SLAM技术通常包括前端和后端两部分。
前端主要负责图像处理和特征提取,以及机器人位姿和地图点的初步估计。
视觉搜索的名词解释

视觉搜索的名词解释视觉搜索,顾名思义,是一种通过观察和解读视觉图像进行搜索的方式。
它是人工智能(AI)领域中的一个重要研究方向,旨在使计算机能够理解和识别图像中的内容,并根据此内容提供相关信息或结果。
随着技术的不断发展,视觉搜索正逐渐成为人们实现自然、便捷的信息检索方式之一。
视觉搜索主要依赖于计算机视觉技术的进展,该技术旨在使计算机能够像人类一样理解和解释图像。
在视觉搜索中,计算机需要通过图像识别、内容分析和语义理解等技术来识别图像中的对象、场景、颜色等特征,并将这些信息与用户的查询进行匹配,从而提供最符合要求的搜索结果。
为了实现视觉搜索,计算机需要经过一系列步骤。
首先,它需要对图像进行预处理,包括图像的降噪、去除不相关的背景信息等。
然后,计算机会使用图像识别技术来提取图像中的关键特征,例如物体的形状、颜色、纹理等。
接下来,计算机会将这些特征与事先建立的图像数据库进行比对,并找出与查询最相似的图像。
最后,计算机会基于相似度排序搜索结果,并将最相关的图像展示给用户。
视觉搜索的应用非常广泛。
其中之一是在电子商务行业的商品搜索中。
企业和消费者可以使用视觉搜索来查找他们感兴趣的商品。
例如,当用户看到一件喜欢的服装或鞋子时,可以通过拍摄或上传相应的图像,然后使用视觉搜索引擎来找到类似的商品或相同品牌的其他款式。
这种方式不仅方便了用户,也提高了在线购物的效率。
此外,视觉搜索还在旅游和旅行行业得到了广泛应用。
当用户在旅途中看到一座漂亮的风景或者一个有趣的建筑物时,他们可以使用视觉搜索来获取更多相关的信息。
通过拍摄或者上传图片,用户可以获得与该景点相关的历史、介绍、评论等内容,也可以查看其他旅行者分享的类似图片。
这样,用户能够更好地了解和规划自己的旅行。
除了商业应用,视觉搜索也在科学研究和医学诊断方面发挥着重要作用。
科学家可以利用视觉搜索来分析和识别天文图像中的恒星、星系等天体。
医生和医学图像师则可以使用视觉搜索来帮助他们识别和分析医学影像,例如X光、MRI等。
基于移动视觉的运动车辆检测技术研究

基于移动视觉的运动车辆检测技术研究随着社会的快速发展和人们生活水平的提高,交通工具的使用量也在不断增加。
特别是汽车,已经成为人们日常生活中必不可少的交通工具之一。
然而,随之而来的交通问题也日益严重,尤其是在城市交通拥堵、交通事故和违章行为频发的情况下。
因此,如何有效地监测和管理道路上的运动车辆,成为了一个亟待解决的问题。
近年来,随着移动视觉技术的快速发展,基于移动视觉的运动车辆检测技术逐渐成为研究热点。
该技术利用计算机视觉和图像处理技术,通过对视频图像中的运动目标进行检测和跟踪,实现对运动车辆的准确识别和统计。
这种技术具有非接触式、实时性和高效性的特点,可以有效地提高交通管理的水平。
基于移动视觉的运动车辆检测技术主要包括以下几个关键步骤。
首先,利用视频采集设备获取道路交通场景的视频图像。
然后,通过图像预处理技术对图像进行降噪、增强和分割等处理,提取出道路和运动目标的特征。
接下来,利用目标检测算法对图像中的运动目标进行检测和跟踪,实现对运动车辆的准确识别。
最后,根据识别结果进行车辆数量统计和车辆行为分析,为交通管理提供参考依据。
然而,基于移动视觉的运动车辆检测技术在实际应用中还存在一些问题和挑战。
首先,由于道路交通场景的复杂性,图像预处理和目标检测算法需要具备较高的鲁棒性和适应性。
其次,由于运动目标的多样性和变化性,运动车辆的准确识别和跟踪也是一个复杂的问题。
此外,大规模视频数据的处理和存储也对计算资源和存储空间提出了较高的要求。
为了克服上述问题,未来的研究可以从以下几个方面展开:一是进一步改进图像预处理和目标检测算法,提高运动车辆的识别和跟踪准确率;二是结合深度学习和机器学习等方法,提高算法的自适应性和智能化水平;三是利用云计算和大数据技术,提高对大规模视频数据的处理和存储效率。
综上所述,基于移动视觉的运动车辆检测技术在交通管理中具有重要的应用价值。
随着技术的不断进步和发展,相信这一领域将取得更加丰硕的成果,并为交通管理提供更加有效的解决方案。
室内环境下的移动机器人视觉SLAM导航研究及系统实现

摘要自主导航是移动机器人的核心技术,主要包括移动机器人视觉同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)和路径规划,这是当前移动机器人研究领域的重点研究方向,因此针对室内环境下移动机器人视觉SLAM导航系统的研究具有重要的理论意义和实际应用价值。
首先,针对移动机器人导航、视觉SLAM和路径规划相关技术的研究现状进行分析,对视觉SLAM的系统框架进行了设计和视觉传感器的选取,结合对路径规划技术的研究,完成了室内环境下的移动机器人视觉SLAM导航系统方案的总体设计。
在视觉SLAM研究中,针对其前端存在点云配准误差大、效率低的问题,提出一种改进点云配准策略的配准算法。
算法通过随机采样一致性(Random Sample Consensus,RANSAC)采样策略对RGB图进行点对的筛选获得内点,完成预处理;采用基于刚体变换一致性的对应点间的距离阈值完成点云初配准;在保证具有良好初始位姿的情况下,引入一种动态迭代角度因子的迭代最近点(Iterative Closest Point,ICP)算法实现了点云精配准。
随后,针对视觉SLAM系统中存在累积误差导致地图构建不一致的问题,提出了一种改进的回环检测策略。
该策略通过改进词袋模型(Bag of Words,BoW)的相似性得分函数,减小回环感知歧义,从而提高了回环检测的准确率。
为减少关键帧的比较次数,在关键帧选取中引入了基于旋转度和平移度的双重权重策略,结合图优化(General Graph Optimization,G2O)算法优化机器人位姿轨迹,实现全局一致的视觉SLAM系统。
在路径规划中,针对室内环境下最优路径的选取问题,提出一种改进自适应策略的人工鱼群算法(Improved Adaptive Artificial Fish Swarm Algorithm,IA-AFSA)。
通过改进的聚集度因子得到一种自适应视觉与步长策略,来平衡全局与局部搜索能力;在鱼群的觅食、聚群和追尾行为中引入了权重评价因子,能够更好地选取最优的鱼群行为,有效避免算法陷入局部极值和早熟状态。
移动应用开发知识:移动应用开发中的机器视觉技术应用

移动应用开发知识:移动应用开发中的机器视觉技术应用移动应用开发已经成为当今最具前景的领域之一。
每天有数以百万计的新移动应用在各个应用商店上架,为用户提供无穷无尽的选择。
随着技术的不断进步,移动应用的开发也将会变得越来越智能化,更加贴近用户的需求。
其中,机器视觉技术就是移动应用开发中最为炙手可热的领域之一。
机器视觉技术(Computer Vision),简称CV,是一种模拟人类视觉系统的技术。
基于机器学习和深度学习算法,机器视觉可以识别、理解和解释图像和视频数据。
在移动应用领域中,机器视觉技术被广泛应用于图像识别、人脸识别、文字识别、场景感知等方面。
这些应用不仅提升了用户体验,也为企业提供了更多的商业价值。
在移动应用领域中,最常见的机器视觉技术应用就是图像识别。
我们经常下载的拍照识花、扫描二维码、搜图找图等应用,都是机器视觉图像识别技术的典型代表。
其中,拍照识花是近年来较为流行的应用之一。
它可以通过拍摄花朵的照片,快速识别花的品种、科属、生长环境等信息。
这种应用可以让用户更加了解花卉知识,也可以帮助园林业者更加精准地管理花卉。
除了图像识别,机器视觉技术还可以用于人脸识别。
随着智能手机的广泛普及,人们开始更加依赖移动设备来进行生活、工作和娱乐。
同时,移动支付、人脸解锁等功能也越来越重要。
为了提升安全性和用户体验,传统的人脸识别技术已经逐渐向深度学习和人脸三维建模技术转型。
这些技术不仅能快速准确地识别用户的面部信息,还能较好地防止假冒。
另外,机器视觉技术在场景感知方面也有广泛的应用。
警察能源于视觉传感器,而人工智能技术可以对警察提供的大量数据进行分析,帮助他们快速准确地发现嫌疑人,并加强对城市的监控和安全管理。
类似的应用还有卫星图像分析、智能物流等,这些技术为城市的智能化管理搭建了一个良好的平台。
当然,机器视觉技术在移动应用领域中还有许多其他方面的应用。
例如,可以将OCR文字识别技术应用于身份证识别、银行卡扫描等场景,依靠高精度的OCR算法,可以更快速、准确地识别和录入文字信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
研究与开发 Research & Development
51移动视觉搜索技术研究与标准化进展
概述根据国际电联(ITU)公布的数据,2010年全球移动互联网用户数为8.65亿人(与之对应,全球互联网用户总数为20.8亿人)。其中,中国有3.03亿人,美国为1.15亿人,日本计0.86亿人。中国互联网络信息中心(CNNIC)发布《第30次中国互联网络发展状况统计报告》显示,2012年上半年,通过手机接入互联网的网民数量达到3.88亿,超出台式电脑的3.80亿,成为我国网民的第一大上网终端。ITU预计,到2015 年全球使用移动互联网的人数将超过桌面互联网。伴随移动互联网的高速发展,人们对移动性与多媒体信息的需求急剧上升。越来越多的人希望在移动中接入互联网,获取急需的信息。
随着移动互联网产业的迅速崛起,越来越多的IT 厂商推出移动智能终端(如智能手机、平板电脑等)登陆移动互联网。移动智能终端在计算性能上有了飞速发展并保持持续增长。此外,智能终端携带了丰富的传感器,如摄像头、GPS、重力感应器、电子罗盘。通过移动终端以及运行其上的强大应用,人们可以在现实世界与信息世界之间建立关联,从而便捷地获取全面的多媒体信息及服务,比如基于位置的多样化服务。
毫无疑问,移动视觉搜索技术将成为支撑未来移动
段凌宇 黄铁军 高 文北京大学信息科学技术学院数字媒体研究所 北京 100871
摘 要 移动视觉搜索成为未来移动世界中有影响的基础技术之一。文章介绍了移动视觉搜索面临的技术挑战,探讨了包括紧凑视觉描述子、视觉检索流程、检索系统互操作性等关键技术。围绕紧凑视觉描述子概述了移动视觉搜索国际标准的工作进展,提出建设大规模视觉对象数据集的重要意义。关键词 视觉搜索;移动互联网;紧凑视觉描述子;移动智能终端
互联网应用的基础技术之一。如图1所示,通过移动智能终端与视觉搜索技术的有效结合,人们可以快速便捷地采集现实世界的视觉对象,从移动互联网另一端获取感兴趣的关联信息。
HQT
图1 移动视觉搜索系统基本架构
若将移动视觉搜索与增强现实技术有机结合起来,
以移动智能终端为平台的“所见即所知”式的增强现实应用将可能成为继搜索引擎之后的互联网新一代服务模式。例如手机拍摄到燕园博雅塔时,互联网上的相关文字内容、图片、视频、甚至三维几何模型将精确地叠加显示在移动终端屏幕上;若与移动位置服务结合,用户打开手机摄像头就可以查看周围商户及餐馆的信息;如用户开启增强现实客户端后,将手机摄像头对准景物,
增强现实软件将对屏幕内的景物信息进行分析处理,随即提供关于该景物及周边地区的旅游信息等;利用摄像头对准书页,获得大家的书评;在火灾等重大事故发生现场,救援人员开启增强现实移动终端,获得建筑三维框架图的增强呈现。
视觉搜索研究领域已经有大量算法和技术方案可基金项目:国家“973”计划基金资助项目(2009CB320902); 国家自然
科学基金(60902057)研究与开发 Research & Development
52供选择,人们通常经验性地从中挑选若干模块去构建系统。然而,多样化的不同设计架构下的视觉搜索系统,
必然引发一个互操作性的问题。如果移动视觉搜索使用图像视觉特征而不是以图像作为交换信息,如何使得这些应用程序和图像数据库兼容于广泛的设备与平台?交互数据规范化需求日益突出。由于移动视觉搜索技术在手机平台拥有巨大的潜在价值,移动互联网终端厂商、
芯片厂商以及各类行业巨头均对这项技术给予了重视,
他们正积极推动该技术的发展。无疑,多样化的视觉搜索应用系统挑战互操作性,移动视觉搜索应用程序的标准化成为亟待解决的技术瓶颈。
本文除介绍移动视觉搜索技术研究与标准化进展外,还将探讨移动视觉搜索技术推广应用将面临的大规模视觉对象数据采集等瓶颈问题。
1 移动视觉搜索技术移动视觉搜索是指利用移动终端获取真实世界中对象的图像或视频作为查询对象,通过移动互联网检索视觉对象关联信息的检索方式。
视觉搜索赢得了学术界和工业界的广泛关注和研发努力,然而实际应用中的视觉搜索系统存在查询性能不理想或者不稳定的问题,任何一次糟糕的搜索结果都将损害用户体验。围绕服务端,大量研究工作致力于如何有效提高视觉检索性能。另一重要方面,为迎接无线网络环境的带宽有限、带宽波动、时延和获取性等方面挑战,移动视觉搜索必须考虑视觉查询的紧凑表示。发送图像的紧凑视觉签名,通常要比传送整张图像更有优势,尤其是在带宽有限的无线网络环境下,大数据量传输造成的上行查询传输延迟,直接影响用户体验。围绕移动智能终端,针对视觉查询进行紧凑表示,在不损失基于原始图像的检索性能前提下,亟待突破特征提取速度慢、内存开销大、数据不紧致的瓶颈;这也是多媒体信号处理、图像分析与检索等多个交叉研究领域共同关注的问题。
以下将从紧凑视觉描述子和视觉搜索流程两方面介绍移动视觉搜索技术研究。
1.1 紧凑视觉描述子描述图片是计算机视觉领域的一个基本挑战。除优化视觉描述子以更好地应用于图像视频内容分析与理解外,研究还需要关注描述子压缩问题。如上所述,
发送
一幅图像的紧凑视觉签名,往往要比传送整张图像更有优势,尤其是在带宽有限的无线网络环境下。此外,压缩后的描述子可以避免视觉对象分类器训练过程中经常面临的高维特征带来的负面影响,尤其当面对大规模视觉对象分类和识别问题时,紧凑描述子对百万量级以上的图片或视频的可扩展存储、处理、索引发挥着至关重要的作用。
图像特征表示是视觉搜索的关键环节,局部特征描述子得到广泛的研究,其中尺度不变描述子[1](Scale
Invariant Feature Transform,SIFT)是被广泛应用的一种。图2给出基于SIFT局部描述子的图像对匹配实例,
左边为查询图像,右边为参考图像,黄色圆圈代表自动检测出来的尺度不变描述子,连接两幅图像中局部描述子集合的红色线条代表通过最近邻准则检测出来的匹配局部描述子。如图2所示,分别从查询图像与参考图像提取局部特征,基于局部特征进行最近邻比对,
然后针
对匹配上的特征对集合进行几何一致性校验,最终判断两幅图像是不是匹配对。尽管CD封面图像的尺度发生很大改变,存在严重旋转,但基于SIFT描述子仍然完成精确的匹配。围绕移动视觉搜索应用,近期研究工作更多地关注描述子压缩问题,对描述子进行深度压缩的同时尽可能地维持甚至提升描述子本身的区分力。
图2 基于局部描述子SIFT的图像对匹配实例局部描述子压缩的相关研究工作可以划分为三类。
第一类采取降维。代表性工作有PCA-SIFT[2],提出在
梯度块(Gradient Patches)上做主成分分析(PCA),只研究与开发 Research & Development
53保留方差较大的维度。也可采用线性判别分析(Linear Discriminant Analysis,LDA)[3]利用监督信息将描述子映射到低维空间,匹配的描述子之间保持近距离,而非匹配的描述子被分离开来。第二类采用二进制码表示图像。Torralba等人[4]利用机器学习技术将GIST描述子转化为紧凑的二进制码,这是一类比较流行的满足大规模图像搜索需求的描述子压缩方法。第三类以量化为基础,其中最具代表性的工作是Chandrasekhar等人提出的梯度直方图描述子压缩(Compressed Histogram of Gradient,CHoG)[5],其核心思想是使用霍夫曼树来压缩量化后的梯度直方图表达,使得一个兴趣点的局部特征只要60比特来表达。基于图像层面的视觉签名压缩方法有两类。第一类采取局部描述子集成。代表性工作有VLAD(Vector of Iocally Aggregated Descriptors)[6]。另一类采取词汇包直方图压缩。Ji等人[7]引入机器学习手段,提出利用上下文信息(如GPS、标签等)的单词选择方法,建立位置自适应的紧凑视觉词典,并将其应用于移动地标搜索,单张查询只需约100比特。面向视觉搜索,紧凑描述子以及搜索流程标准化工作MPEG CDVS(Compact Descriptors for Visual Search)[8]已经确定建立在视觉特征的局部描述与全局描述之上的紧凑视觉描述,如图3所示,融合了局部描述子压缩的图像对匹配优势及图像全局签名的图像检索优势。图像对匹配也作用于图像检索的重排序阶段。MPEG CDVS的标准参考软件集成的全局图像签名采纳了北京大学提出的全局描述子SCFV(Scalable Compressed Fisher Vector)[9];局部描述子压缩采用两套方案,即标量量化器与矢量量化器,矢量量化器采纳了北京大学提出的MSVQ(Multi-Stage Vector Quantizer)[10]。)EpH!Efufdups*և)TJGU!Eftdsjqups*)Lfzqpjou!tfmfdujpo*և)Mpdbm!eftdsjqups!dpnqsfttjpo*և)Hmpcbm!eftdsjqups!bhhsfhbujpo*Ք)Dppsejobuf!dpejoh*图3 紧凑视觉描述子提取流程此外,图像紧凑视觉描述子必须保存局部特征的位置坐标信息。图像对匹配与检索,一方面依赖局部视觉描述子,另一方面依赖特征点的空间位置信息。正如图2所示,图像对匹配需要局部特征的位置信息完成几何一致性校验。面向移动视觉搜索,有必要针对兴趣点位置坐标编码。任意一张VGA图像(分辨率为640x480)的兴趣点位置坐标在不压缩的情况下平均占用约20比特,若图像有500个兴趣点,那么仅坐标位置信息就需要大约1 250字节,几乎是MPEG CDVS设定的最低操作点(单幅查询大小)512字节[8]的三倍;因此,局部特征的位置坐标压缩也是紧凑视觉描述子的重要环节,提供降低查询传输延迟的技术手段。当前MPEG CDVS参考模型采用了斯坦福大学提供的有损压缩算法,单个兴趣点的坐标信息编码约需6比特[11]。
1.2 视觉搜索流程视觉搜索性能还有很大提升空间,它在计算机视觉领域方面也有很大的技术挑战性。为了突破基于视觉特征实现对象精准搜索的瓶颈,需要广泛探索如何结合实
际系统的应用环境以及特定需求,优化视觉搜索性能。
举例来说,结合移动设备携带的丰富上下文信息辅助视觉搜索,提升性能与效率[7];研究高效的基于几何一致
性校验的重排序方法[11];研究全局描述子与局部描述子的融合算法[9];如何利用主题模型提升搜索性能等[12]。