基于内容的视频检索

合集下载

视频新闻检索系统的实现

视频新闻检索系统的实现

摘要 : 与一般 基于 内容的视 频检索相 比,新闻视频 的管 理和检 索尤其 特殊性 ,对于关 键 帧检索很 难准确描 述 的动 态信 息内容 特征。为此 ,提 出基 于静 态内容特征和运动特征结合检 索的方案 。整个系统包 括了特征提取 、 视频信息浏览 、数 据库生成 、相似结果反 馈等 功能。实验 表 明,该 系统依 靠不 同性质 的特征 ,可以找 出与查 询要求接 近的视频新 闻或视频 片断 ,是个 有效 的基于示例 的视频新 闻检 索系统 。 关键 词 : 基于 内容 的视频检索 ; 静态 特征 ; 动特征 ;基于示例的检索 运
维普资讯
第2卷 4
第5 期
吉 林 大 学 学 报 ( 息 科 学 版) 信
Ju a f inU i ri Ifr a o Si c dt n or l l n esy(nom t n: e eE io ) n oJi v t i cn i
Vo . 4 No 5 12 .
引 言
由于宽带网的普及 ,越来越多的视频内容被搬到互联网上 ,如视频点播、数字 图书馆等 。基于内容 的视频数据检索 ¨ ,得到越来越广泛 的应用。视频新闻管理和检索可有效地应用于政府政务信息管理
中。而怎样有效地从各地区、各部 门数据巨大的会议 、视频新 闻中检索或浏览相关资料 ,对于提高政府 工作和服务效率 , 具有巨大实用价值。从 现有 的技术来 看 ,其生成、表示 、存 储、传输 已基本不成问 题 ,但可视数据的索引、访 问以及检索技术还远未成熟。笔者针对视频新 闻数据检索的实际应用需求 , 实现 了视频新闻检索系统 。首先利用抽取关键帧的方法 ,将视频的检索问题转化为图像 的检索问题 。原 先的基于内容的图像检索理论和方法可 以方便地应用于基于内容的视频新 闻检索中。对于关键帧检索很 难准确描述的动态信息内容特征 , 论文 中采用 了基于运动特征和 内容特征相结合 的视频检索方案 。最后 将提取的视觉特征存人特征库中建立索引或描述。整个系统由运动特征提取和静态内容特征提取与检索 两大模块构成。当用户浏览或检索视频时 ,系统依靠这些特征找出与查询要求最接近的视频新闻或视频

基于内容的多媒体文件搜索技术

基于内容的多媒体文件搜索技术

关 键帧
中图分类号: T P 3 7
文献标识码 : A
随着互联 网的飞速发展 , 信息出现爆炸式增长 , 搜索引擎 前基于文本搜索引擎技术发展 已经十分成熟 ,而这类搜索引 已经成为了用户上 网查询信 息不可缺少的应用服务 。 搜索引 擎 的准 确 度 除 了依 赖 于 搜 索 引擎 系 统 的 网 页信 息 存 储 量 和 词 擎所检索 的信息覆盖面大 , 相关度高, 在用户需要进行范围广 汇切割 的准确度 以外 ,用户所搜 寻的 目标文件也是影响其准 泛 的查询 。 但是随着 当今网络上多媒体文件数据的 日渐增多, 确度的一个重要 因素 , 如果用户着重于搜索文本形式的文件 , 传统 的基于文本的搜索引擎越来越难 以满 足用户的需要。特 此类搜索 引擎的准确率 已经很高。但 是,传统的基于文本搜
于 内容的搜索技术应运而生, 迅速成为研 究热点。
索的是图片 、 音频或者视频类无法在 网页中只用文本就 能精
数字 多媒体文件 目前主要包含文本、 图像、 音频和视频 四 确描述其 内容的文件 , 则其准确率就会受到很大影响. 因此基 种主要格式 。广告、 新闻等传媒文件在互联网上传播速度快、 于 内容的搜索引擎是 目前搜索技术发展的一个重要课题互联
妇 》 霪
基于 内容的多媒体文件搜索技术
马 晓 星
( 天津 财 经 大 学
摘 要
天津
3 0 0 2 0 4)
数 字 多媒 体 文 件 目前 主要 包 含 文 本 、 图像、 音 频 和 视频 四种 主 要格 式 。在 对 多媒 体 文件 进 行 搜 索 时 。 因为 互
联 网 上 的 图像 和 音 、 视 频 文件 的传 播 缺 乏 统一 规 范 。 同 一 内 容 会 采用 不同 的 主题 词 来 描 述 。 且其包含的内容丰富。 数

视频的内容分析与检索技术及其教学应用

视频的内容分析与检索技术及其教学应用
需要 对视频 进行 基 于 内容 的分 析 。基 于 内容 的视频
图 1 视 频 分 层 结 构
帧是视 频 数 据 的最 小 单 元 ,是 一 幅 静 止 的 画
面。镜头是视频数据的基本单位 ,它是摄像头的一 次连续的动作 ,只能拍摄相邻 地点连续 发生 的事 情 。场景由内容相近的镜头组成 ,从不同的角度描 述 同一个事件。而视频序列则由许多场景组成 ,叙 述一个完整的故事结构 。层 中每一个视频层次 的数 据都可以用一定 的属性加以描述 。如 :视频序列的 属性 :主要包括场景的个数和持续时间;场景 的属
在视频分析与检索过程中,决定其性能的主要
关键 技术 如下 。 ( )视频 镜头 的检测 和表示 一
基于内容的视频信息检索是一个人机互动的过 程 。能为用户提供交互界 面、多样化 的查询手段 、 方便快速 的浏览和导航 能力 ,并满 足各 种反馈/ 交
镜头检测 的关键是 确定从 镜头到镜 头的转换 处 ,利用镜 头 之 间 的 转 换 方 式 ( 突 变 切 变 和 渐 如 变)找到镜头图像之间的差别。在此基础上可对每 个镜头提取出关键帧和运动信息以供浏览和检索之 用。一个镜头的关键帧就是反 映该镜头 中主要内容
二 、视频 结构 的分 析
束镜头等 ;镜头 的属性 :如持续时 间、开始 帧号 、 结束帧号 、代表帧集合 、特征空间向量等;帧的属 性: 帧有 大量 的属性 ,如 直方 图 、轮廓 图 D C及
A C分量 图等 。
视频数据的本质是一组连续的图像帧 ,除了存 在时问上的先后关系外 ,其本身并不具有任何结构 信息。要实现基于 内容的视频检索 ,必须为视频建 立不同层次的结构索引 ,并进一步为视频的检索和
的一 帧图像 或若 干帧 图像 。关 键 帧 的选 取 一方 面必 须 能够 反映镜 头 中的 主要事 件 ,因而描 述应 尽可 能

视频资源管理系统的设计

视频资源管理系统的设计

视频资源管理系统的设计成星深圳图书馆广东深圳518026[摘要]本文就各行业对视频资源的再利用需求进行了详细分析,明确了各个需求与视频资源自身特性的关系,根据公众对视频资源的实际需求,重点论述了视频资源管理系统的设计。

[关键词]视频描述基于内容的视频检索视频资源管理Design of Video Asset Management SystemCheng XingShenzhen Library, Shenzhen, Guangdong 518026[Abstract]This text is analysing every walk of life抯requirement in video asset recycle area,definituding the connection between the requirement and the video resource抯characteristic。

Following the requirement of the pubilc for the video asset,The text discusses the design of the video asset managerment system.[Keywords]Videocategory;Content-based video retrieval;Video asset management1前言视频资源管理系统是基于视频技术和视频数据库管理技术的一种全新管理平台,以计算机为核心,采用视频技术,结合视频资料行业的实际需求及多年来不断完善的视频片段检索算法的经验,建立一套软硬件相结合的、崭新、完整的管理体系。

它的应用可以优化资源内部结构,提高整体性能和查询的灵活性,满足公众对视频资源再利用的需求。

该系统集中体现在视频数字化、系统的网络化、查询的多样化、管理的智能化,充分体现了现代信息技术与视频资源管理技术的有机结合。

视频内容的结构分析研究

视频内容的结构分析研究
8 2
维普资讯
第 4期
杨阿祧 , 吴卉男 : 视频 内容 的结构分析 研究
行检 索 。基于 内容 的视频检 索模 型如 图 1 所示 :
视频 内容结 构 的分析 指 的是 镜头 的分 割 、 键 关 帧 的提取 、 场景 的构 造等 。为 了能把 视频序 列分 为
( . ho o Ma e t n f a o , o h et o a U i rt, az o , as 30 0, hn ; 1 S ol f t macadI o t n N a w s N r l nvs y E nhu G u70 7 C ia c h i nr i m m ei n
维普资讯
第2 5卷 第 4期
20 0 7年 1 月 1
贵州师范大学学报 ( 自然科学 版)
Junl f uzo om l n esy( aua Si cs ora o i uN r a i ri N t l c ne ) G h U v t r e
Absr c :Co t n —b s d vd o r tiv li e t c n lg ta t n e t a e ie e re a sa n w e h o o y.a d i i mp r n o c e t n e c n t si o t tt r ae i d x a — a c r i g t h i e o t n .I hi a e o d n o t e vd oc n e t n t s p p r,we man y d s u ss ma tc sr t r fc n e tb s d vd il ic s e n i tucu eo o t n a e i— e y s ts g na in a d c a sfc to o b ho e me t to n ls iia in. Ke r s:c n e tb s d vde e re a ;s ts g nat n;k y fa y wo d o t n — a e i o r ti v l ho e me t i o e —r me

基于内容的图像检索技术研究

基于内容的图像检索技术研究

基于内容的图像检索技术研究内容图像检索技术,又称为基于内容的图像检索(Content-Based Image Retrieval, CBIR),是一种通过分析图像的内容特征来实现图像检索的方法。

它与传统的基于文本的图像检索方法相比,可以直接利用图像的视觉特征,无需依赖人工标注的文本信息。

内容图像检索技术在多领域都有广泛的应用,如图像库管理、医学图像分析、视频监控等。

1. 图像特征提取:内容图像检索的第一步是提取图像的特征。

图像特征可以分为低层次特征和高层次特征。

低层次特征包括颜色、纹理、形状等,可以通过图像处理和计算机视觉的算法提取。

高层次特征则是对图像语义的抽象,如物体、场景等。

这些特征的提取旨在将图像转化为数字化的向量表示,便于后续的相似度计算和检索。

2. 相似度计算:在内容图像检索中,关键的一步是计算图像之间的相似度。

相似度可以基于图像的特征向量进行计算,常用的方法有欧氏距离、余弦相似度等。

一般来说,相似度计算会考虑多个特征之间的加权组合,以综合反映图像的相似程度。

通过相似度计算,可以建立图像库中图像之间的相似性关系,为后续的检索提供基础。

3. 检索方法:基于内容的图像检索可以采用不同的检索方法,如基于特征的检索和基于查询的检索。

基于特征的检索是指通过提取图像的特征向量,然后与图像库中的特征向量进行相似度匹配,找到相似的图像。

而基于查询的检索是指用户通过输入图像或图像的描述信息作为查询条件,系统通过计算查询图像与图像库中图像的相似度,返回检索结果。

4. 索引结构:为了提高图像检索的效率,常常需要构建索引结构来加速检索过程。

索引结构可以基于图像的特征向量进行构建,如kd树、R树等。

通过索引结构的建立,可以减少相似度计算的次数,提高检索性能。

5. 评估和优化:对于内容图像检索技术的研究,评估和优化是不可或缺的环节。

评估可以通过比较检索结果与人工标注结果之间的差异来衡量检索系统的性能。

优化则需要根据评估结果,对图像特征提取、相似度计算、索引结构等方面进行调整和改进,以提高检索的准确性和效率。

跨媒体检索技术在视频内容分析中的应用研究

跨媒体检索技术在视频内容分析中的应用研究

跨媒体检索技术在视频内容分析中的应用研究摘要:随着互联网和数字媒体技术的迅速发展,视频数据的规模和多样性呈爆炸式增长,对视频内容的准确分析和检索成为了迫切的需求。

跨媒体检索技术作为一种有效的视频内容分析方法,在提供智能化的检索服务和实现大规模视频分析方面具有广阔的应用前景。

本文将研究跨媒体检索技术在视频内容分析中的应用,并对其实现方法和未来发展进行探讨。

1. 引言随着数字媒体的广泛应用,视频数据正在成为一种重要的信息载体。

然而,由于视频数据的高维特性和庞大数量,传统的视频分析方法已无法满足日益增长的分析需求。

因此,研究开发一种高效准确的视频内容分析方法具有重要意义。

2. 跨媒体检索技术概述跨媒体检索技术是一种能够以一种媒体的内容查询另一种媒体的信息的技术。

它主要通过对视频的音频、文本和图像等多模态信息的分析和提取,将视频数据与其他媒体数据进行有效关联,实现跨媒体内容的检索。

3. 跨媒体检索技术在视频内容分析中的应用3.1 视频内容理解跨媒体检索技术可以用于提升视频内容理解的准确性。

通过分析视频中的图像、音频以及文本信息,可以对视频中的物体、场景、情感等内容进行深入分析。

例如,当用户在搜索引擎中输入一个关键词时,跨媒体检索技术可以返回与该关键词相关的视频片段,并且可以通过分析视频中的语音信息和图像特征等提供更加准确的搜索结果。

3.2 视频目标识别跨媒体检索技术可以用于视频目标识别。

通过分析视频中的图像特征和文本描述,可以准确地识别视频中的目标物体,并且可以实现对视频中目标物体的分类和跟踪。

例如,通过分析视频中的图像特征和文本描述,可以准确地识别汽车、人物等目标物体,并且可以实现对这些目标物体的分类和跟踪,为视频内容的理解和检索提供更多可能性。

3.3 视频内容分析与推荐跨媒体检索技术可以用于视频内容的分析和推荐。

通过分析视频中的图像、音频和文本信息,可以实现对视频内容的自动分析和推荐。

例如,通过分析视频中的图像和音频信息,可以将视频划分为不同的场景,并且可以自动提取出视频中的重要特征,为用户提供个性化的视频推荐服务。

【计算机应用】_基于内容的检索_期刊发文热词逐年推荐_20140726

【计算机应用】_基于内容的检索_期刊发文热词逐年推荐_20140726

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84
多媒体信息检索 基于案例推理 基于内容的检索 基于内容图像检索 图像语法 图像特征 图像数据集 图像处理 可扩展标记语言 压缩域 单状态 区域加权信息熵 动态规划 内容覆盖率 兴趣区域 关键帧提取 关键帧 共同祖先 全球定位系统 信息量 信息检索 信息挖掘 人机交互 人工标注 trecvid比赛 sspisia mpeg meanshift lipschitz指数 lbp canny算法 adaboost算法
2009年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
图形化标注 图像语义 图像增强 哼唱检索 向量空间模型 分布式多agent 内容管理系统 关键帧提取 保真度 低层描述等 位置因子 伪彩色增强 主颜色 web搜索 web umlprofile sigmiod函数 p2p网络 mars系统 lxaxbx空间彩色距离技 k-均值聚类怂 k-l变换 jsr-170规范
2008年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于内容的视频检索 曹亚光 (北京理工大学现代远程教育学院,北船院,计算机专升本2001级,2001023011076)

摘 要:视频检索有着广泛的应用和广阔的发展前景,是当前多媒体研究领域的热点。系统地介绍了基于内容的视频检索的一般实现步骤。从分析基于内容的视频检索的系统结构出发,全面地探讨了系统中所涉及的视频结构的构造、镜头切变检测技术、关键帧提取技术、从视频流中构造场景或组的技术、特征提取技术以及视频检索、浏览和检索反馈技术,重点分析了其中一些关键技术中各种实现方法的优缺点,并介绍了一些新的技术方法。最后提出了一些需要进一步研究的问题。 关键词:视频数据库,基于内容,视频检索,镜头切变检测,关键帧提取,特征提取,检索反馈

1 前言 随着多媒体技术和网络技术的飞速发展,视频在多个领域得到广泛地应用。对这些海量的而且包含大量非结构化信息的数据进行组织、表达、管理、查询和检索成为迫切的需求。因此基于内容的视频检索(Content-Based Video Retrieval,CBVR)成为近年来研究的热点。 基于内容的视频检索系统如图1所示。

图1 基于内容的视频检索系统框图 首先要进行视频结构分析,将视频序列分割为镜头,并在镜头内选择关键帧,这是实现一个高效的CBVR系统的基础和关键。然后提取镜头的运动特征和关键帧中的视觉特征,作为一种检索机制存入视频数据库。最后根据用户提交的查询按照一定特征进行视频检索,将检索结果按相似性程度交给用户,当用户对查询结果不满意时可以优化查询结果,自动根据用户的意见灵活地优化检索结果。

2 视频结构的构造及有关的算法 为了对视频数据库进行基于内容的查询,首要要构造便于检索的视频结构。视频数据可以按照由粗到细的顺序划分为四个层次结构:视频(Video)、场景( Scene)、镜头(Shot)和图像帧(Frame)。 镜头是视频数据的基本单元,它代表一个场景中在时间上和空间上连续的动作,是摄像机的一次操作所摄制的视频图像,任何一段视频数据流都是由许多镜头组成的。 镜头的切换有两种:突变和渐变。突变是指从一个镜头直接切变到另一个镜头;而渐变根据视频编辑手法的不同可以分为3种:淡化(Fade,又细分为Fade in和Fade out)、融化(Dissolve)和滑变(Wipe)。渐变是切变检测中的难点。 整个视频结构构造过程分以下三个步骤:从视频流中提取镜头、从镜头中选择关键帧和从视频流中构造场景或组。

2.1 从视频流中提取镜头(即对视频流的切变检测) 镜头是视频数据的基本单元,视频处理首先就需要把视频自动地分割为镜头,以作为基本的索引单元,这一过程就称为镜头边界的检测。它是实现基于内容的视频检索的第一步,其核心处理是镜头切变检测。 视频结构的构造中,镜头切变检测是重点,而且其算法和思想可用于其它步骤,故应重点研究。 2.1.1 基于颜色特征的方法 (1) 模板匹配法(对应像素法) 模板匹配法是将两帧对应像素差的绝对值之和作为帧间差,当帧间差大于某个阈值t时,则认为有镜头的切换。模板匹配法的缺点是,由于与像素的位置密切相 关,因此对噪声和物体运动十分敏感,容易造成误识别。张宏江等人[3]提出将各帧划分为8×8像素的子块,并对每个块取平均,再用这个平均值对前后帧的对应子块进行比较,这种方法对小的噪声和运动不敏感。 (2) 直方图法 直方图法是使用得最多的计算帧间差的方法,它丢失了颜色的位置信息,因而抗噪声能力要比模板匹配强。颜色直方图法的缺点是,两幅图像可能内容完全不同但直方图相似,也容易造成误识别。一种改进的方法是将图像划分成若干子块分别对各子块进行匹配。A. Nagasaka和Y. Tanaka[4]提出了一种将视频帧划分为4×4相同大小的子块并比较相应子块的方法。其它改进方法还有X2直方图匹配法[5]和Swanberg等人[6]采用的模板匹配法和直方图匹配法相结合的方法。 2.1.2 基于边缘的方法 由于在镜头切变时新旧边缘应在不同的位置,所以可先提取两幅图像的边缘,计算新边缘在旧边缘的基础上增加和减少像素比例,当大于某一个阈值时便认为发生镜头切换。缺点是计算量大,当边缘不明显时效果差。 2.1.3 光流检测法 张宏江等人[3]还提出了光流检测法,该方法的原理是镜头切换时无光流,而镜头运动应适合某种特定的光流类型。它能将渐变切换与镜头的运动区分开来,但计算复杂且在光照变化很大情况下检测失败。 2.1.4 基于模型的方法 Hampapur等人[7,8]通过对视频制作过程的研究,提出了一种可用于镜头边界检测的视频编辑模型。它的缺点是,建模过程比较复杂,需要对每种切换类型建立模型。这种方法适用于专业领域。 2.1.5 压缩域的方法 由于越来越多的视频数据是以压缩的形式保存,因此,最好能直接在压缩域中进行边界检测。 (1) DC系数法 DC 图像是原图像8×8的平均,它包含了原图像的基本全局信息,且具有压缩性处理过程更加快捷的特点。可以先从各帧中提取DC图像,再用帧间差的方法进行检测。 (2) 运动矢量法 张宏江等人[3]根据统计发现镜头转换处的BP帧中有效运动向量个数较少,因此可以对这些帧进行解压,用非压缩视频的边界检测方法进行镜头边界检测。 文献[9]中从视频流中提取宏块的运动矢量,宏块的相似度与它们的运动矢量成反比,帧的相似度由各宏块的相似度取平均求得。文献[10]中将各帧的类似度进行了归一化,(公式)结果是多帧类似度加权相加的结果,可以取比较简单的门限进行判断,减少了计算复杂度,多帧加权减小了误检,但对渐变检测效果不佳。 这类方法的缺点是,目前的MPEG算法是面向数据压缩的,而不是面向视频内容表示的。随着基于内容的编码标准MPEG-4和多媒体数据内容表示MPEG-7成为国际标准后,上述问题将得到解决。 (3) 模糊查找法 一种方法是只用视频流中的I帧进行检测,它适用于检测精度不是很高的需求;另一种方法是先找出差异大的相邻两个I帧作为可能存在镜头切换处,再用两帧间的B和P帧确定准确位置,这种方法精度较高。两种方法均受编码算法优劣的影响。 2.1.6 几种改进的算法 张宏江等人[3]提出了双阈值比较法。当两帧间差在阈值d1和d2之间时,便认为潜在渐变开始,将差值开始累加,直到累加和大于d2时认为有渐变,当帧间差小于d1

时认为渐变结束。这种方法对渐变检测有较好的效果,但对镜头的缓慢运动仍可能

会造成误识别。 Yeo B L[11]提出了一种滑动窗口检测法。先以待检的帧作为中心开一个窗,计算各帧与邻帧的帧间差,若该帧的差值大于窗口内的其它所有帧的差值,且大于第二大差值的某倍数,则认为是发生切换。 用双重窗口法[12]可进一步改进以减小搜索量,先选取一个大的窗口,取平均值,将大于均值一定倍数的差值作为候选切变帧,再以候选切变帧为中心取小窗口,检测具体位置。大窗口可避免误检并减小搜索量;小窗口可避免大运动造成的漏检。 由于在很多情况下,人们仅对图像中的某一区域感兴趣。因此,先进行图像分割,仅利用某一区域的信息进行检索。近几年来这一领域的研究逐渐引起了人们的兴趣。

2.2 从镜头中选择关键帧 关键帧(也称代表帧)是用于描述一个镜头的关键图像帧,它通常会反映一个镜头的主要内容。关键帧的使用大大减少了视频索引的数据量,同时也为检索和浏览视频提供了一个组织框架。关键帧的提取原则是“宁滥勿缺”。关键帧选取的方法有以下几类: 2.2.1 基于镜头的方法 一段视频分割成镜头后,将每个镜头的首帧(或首帧与末帧)作为镜头的关键帧。该方法实现起来比较简单,无论镜头的内容如何,关键帧的数量都是一定的(1帧或2帧),但效果不是很稳定,因为每个镜头的首帧或末帧不一定总是能够反映镜头的主要内容。 2.2.2 基于内容分析的方法 这种方法基于每一帧的颜色、纹理等视觉信息的改变来提取关键帧,当这些信息有显著变化时,当前的帧即可作为关键帧。张宏江等人[3]依据帧间的显著变化来选择多个关键帧,首先把镜头的第一帧作为关键帧,然后计算前一个关键帧与剩余帧之差,如果差值大于某一阈值,则再选取一个关键帧。这种方法可以根据镜头内容的变化程度选择相应数目的关键帧,但所选取的帧不一定具有代表意义,而且在有镜头运动时,容易选取过多的关键帧。 帧平均法和直方图平均法[13]统计所有帧的像素值或直方图平均,取最接近平均值的帧作为代表帧。 2.2.3 基于运动分析的方法 Wolf[14]通过光流分析来计算镜头中的运动量,在运动量取局部最小值处来选取关键帧,它反映了视频数据中的静止,视频中通过摄像机在一个新的位置上停留或通过人物的某一动作的短暂停留来强调其本身的重要性。Wolf的这种基于运动分析的方法可以根据镜头的结构选择相应数目的关键帧。如果先把图像中的运动对象从背景中取出,再计算对象所在位置的光流,可以取得更好的效果。 合成法将镜头中的所有运动转换拼接成一个合成帧作为关键帧。 2.2.4 基于聚类的方法 聚类提取[15]的方法首先要确定一个初始类心,然后根据当前帧与类心的距离来判断是归为该类还是作为新的类心,再将镜头中帧分类后取各类中离类心最近的帧作为关键帧。另外,Zhao[16]提出了一种基于最近特征线(Nearest Feature Line,NFL) 的端点检测算法用于选取关键帧。该方法的主要原理是用某些特征点的连线(特征线)近似并代表某个类的所有特征样本轨迹,而这些特征点就是关键帧。

2.3 从视频流中构造场景或组

计算镜头间的相似性(实际是关键帧间的比较),选择合适的聚类算法进行分析。按时间顺序和关键帧的相似程度可分为场景[17],也可以只按关键帧的相似程度进行分组。

3 特征提取 视频分割成镜头后就要对各个镜头进行特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频聚类和检索的依据。特征提取包括关键帧中的视觉特征和镜头的运动特征的提取。 3.1 颜色特征 颜色是图像最显著的特征,与其它特征相比,颜色特征计算简单、性质稳定,对于旋转、平移、尺度变化都不敏感,表现出很强的鲁棒性。颜色特征包括颜色直方图、主要颜色、平均亮度[3]等。其中利用主要颜色和平均亮度进行图像的相似匹配是很粗略的,但是它们可以作为层次检索方法的粗查,对粗查的结果再利用子块划分的颜色直方图匹配进行进一步的细查。为了能够在大规模图像数据集中进行快速的搜索,Smith和Change[18]等人提出了颜色集的概念:首先将RBG颜色空间转换为视觉上一致空间HSV,然后量化为m个颜色条,颜色集就定义为量化后的颜色空间中颜色的一种选择。由于颜色集特征向量是二叉的,因而可以通过构造二叉树来进行快速的搜索。

相关文档
最新文档