基于内容的项目视频关键帧识别技术研究

合集下载

基于内容的视频检索关键技术探究

基于内容的视频检索关键技术探究
0 0年
第1 7期
基于 内容的视频检索关键技术探究
柴旭 清 ’ 崔 红志 吕 佳 。 (. 1河南师 范大 学 网络 中心 河 南 新 乡 4 3 0 2新 乡学 院 河 南 5 0 7;. 3新 乡医学 院 图书馆 河南 新 乡 4 3 0 ) 。 5 0 3 新乡 4 07 ; 3 0 0

出 结 果
如下
AF t ID(= )

 ̄ s(, , ,x , 1 b(x Yc f ,t ) f ) (y 一 )
图 1 基 于 内容 的 视 频检 索
如上 图所 示 , 先 要构 造 视 频 结 构 , 视 频 序 列 分 割 为 镜 头 , 在 首 将 并 镜 头 内选 择 关 键 帧 . 是实 现 一 个 高 效 的 基 于 内 容 的 视 频 检 索 系 统 的 这 基 础 和关 键 。然 后 提取 镜 头 的特 征 以 及 关 键 帧 的 视 觉 特 征 , 为 一 种 作 检 索机 制 存 人 视 频 数据 库 。 后 根 据 用 户 提 交 的 查 询按 照 一 定 的特 征 最 进 行视 频 检 索 。 检 索 结果 按 相 似 程 度 提 交 给 用 户 。特 征 的 提 取 和 检 将 索算 法 的优 劣 决 定 了整 个 检索 系 统 的 效 率 和 性 能 。
对 于 运 动 较 多 的镜 头 . 一 两 个 关 键 帧 又无 法充 分 描述 。 有人 依 据 帧 用
1 基 于 内容 的视 频 检 索 技 术综 述
序 列 间 的 显 著 变化 来 选 取 多 个 关 键 帧 。 们 计算 前 一 个 关 键 帧 与 剩余 他 帧之间的差值 , 如果 差 值 大 于 某 一 个 阈值 则 再选 取 一个 关 键 帧 。这 种

基于深度学习的视频内容分析与关键帧提取

基于深度学习的视频内容分析与关键帧提取

基于深度学习的视频内容分析与关键帧提取视频内容分析是指通过运用深度学习技术对视频进行分析和理解,从而提取出视频中的关键帧。

深度学习是一种机器学习方法,通过构建多层神经网络模型来模拟人类大脑处理信息的方式。

它可以自动学习和提取特征,以实现对复杂任务的解决。

在视频内容分析中,关键帧提取是一个重要的步骤。

关键帧是指在视频中具有重要信息或变化的帧画面,可以代表视频内容的特征。

通过提取关键帧,可以有效地压缩视频数据,并减少对存储和传输资源的需求。

此外,关键帧提取还在视频搜索、视频摘要和视频内容分析等领域具有广泛的应用。

深度学习在视频内容分析中发挥了重要作用。

首先,深度学习可以通过训练模型来学习和提取视频中的特征,包括颜色、纹理、形状等。

通过大量的视频数据和深度神经网络的训练,可以得到更准确和鲁棒的特征表示。

其次,深度学习可以建立复杂的模型来理解视频的语义信息。

通过深度卷积神经网络和循环神经网络的结合,可以对视频进行时间和空间上的建模,进一步提高关键帧提取的准确性和效果。

在深度学习方法中,常用的模型包括卷积神经网络(CNN)和循环神经网络(RNN)。

卷积神经网络主要用于提取视频帧的空间特征,通过多层卷积层和池化层,可以逐渐减少特征图的尺寸,并提取出有代表性的特征。

而循环神经网络则主要用于处理序列数据,如视频帧的时间顺序。

通过循环隐藏层的记忆性,RNN可以捕捉视频中的时间相关性,从而更好地理解视频的语义信息。

在基于深度学习的视频内容分析中,通常的步骤包括数据预处理、特征提取和关键帧提取。

首先,需要对视频数据进行预处理,例如解码、采样和标准化。

然后,通过卷积神经网络提取视频帧的空间特征,同时利用循环神经网络建立视频帧之间的时间关系。

最后,通过设计适当的评估指标,可以筛选出关键帧,并得到最终的结果。

当前,基于深度学习的视频内容分析与关键帧提取已经取得了许多重要进展。

例如,通过引入注意力机制和生成对抗网络,可以进一步提高关键帧提取的效果。

基于内容的视频检索中的关键帧提取技术

基于内容的视频检索中的关键帧提取技术

中 。但遗憾的 是这些存 储通常只进 行了简单 的分类甚至不 分类 , 而 且 只能通过顺 序浏览 的方式 进行 访问 。为 了有效 地管 理和 使用 大
型 视 频 数 据 库 , 们 需 要 解 决 视 频 售 息 的 自 动 标 弓j 检 索 问 题 。 我 和
内容 , 所以有 人提出了基 于内容分析的方 法。
据 库 ;. 户运用浏 览 、 图或 范例 等 手段对 索引 数据 库进 行 匹配 c用 草 运算, 检索 出符合 查询要求 的关 键帧 图像 , 最后 系统 提供 的结 果是 与关键 帧相关联 的镜头序 列或在线 播放 和下载相关 视频。
关 键 帧 抽 取 是 实 现 该 方 案 的 关 键 技 术 之 一 。 关 键 帧 是 反 映 一 组 镜 头 中 主 要 信 息 内 容 的 一 帧 或 若 干 帧 图 像 , 以 简 洁 地 表达 镜 头 可 内容 , 用关 键 帧 代 表 镜 头 , 用 类 似 于 文 本 检 索 中 的 关 键 词 。 本 文 作
tn ae iVie ti a) 接 对 图 像 、 频 、 频 内 容 进 行 分 et sdOl doRer v1 直 B e 视 音 析 , 取 特 征 和 语 义 , 用 这 些 内 容 特 征 建 立 索 引 , 进 行 检 索 _j 抽 利 并 2。 其 中 一 种 比 较 可 行 的 方 案 是 基 于 视 频 关 键 帧 的 { 。 它 的 基 本 思 佥索 想 是 _一 :. 用 场 景 转 换 检 测 ( cn h l e tcin cD) 术 3 a运 S eeC a g et ,s l De o 技 将 原 始 视 频 流 ( ie) 割 成 长 短 不 一 的 镜 头 单 元 (ht ; . 用 关 vdo 分 so) b 运 键 帧抽取技 术对每个 镜头单 元提取关键 帧或代表帧( r帧 ) 。 对 这 并 些 r 进 行 特 征 提 取 ( 色 、 理 、 状 等 特 征 ) 建 立 索 引 , 入 数 帧 颜 纹 形 , 存

基于深度学习的视频关键帧提取算法研究

基于深度学习的视频关键帧提取算法研究

基于深度学习的视频关键帧提取算法研究摘要:随着互联网和数字媒体的快速发展,视频数据的数量和规模不断增长。

视频关键帧提取算法在视频内容分析、视频检索和视频摘要等领域具有重要应用价值。

本文研究了基于深度学习的视频关键帧提取算法,探讨了其原理、方法和实现过程,并对其应用前景进行了展望。

1.引言随着移动互联网和社交媒体的普及,人们对视频数据的需求越来越高。

然而,海量的视频数据使得人们在观看和搜索视频时面临着困难。

视频关键帧提取算法能够从视频序列中自动选择表达视频内容的关键帧,以便于用户快速浏览和搜索视频,提升用户体验。

2.相关工作2.1 传统方法传统的视频关键帧提取算法主要基于图像处理和机器学习技术。

这些方法通常使用手工设计的特征提取器和分类器来进行关键帧的选择,但往往面临着通用性差、效率低和提取效果不佳的问题。

2.2 基于深度学习的方法近年来,深度学习技术在计算机视觉领域取得了显著的成果。

基于深度学习的视频关键帧提取算法通过利用深度神经网络自动学习视频特征表示,能够提高提取效果和适应性。

3.基于深度学习的视频关键帧提取算法3.1 数据预处理在深度学习算法中,数据预处理是一个重要的环节。

对于视频关键帧提取,首先需要将视频转化为图像序列,并进行大小归一化和图像增强等处理。

3.2 特征表示学习通过卷积神经网络(Convolutional Neural Network,CNN)等深度学习模型,提取视频图像序列的特征表示。

深度学习模型能够自动学习到更具有判别性的特征,从而提高关键帧提取的准确性。

3.3 关键帧选择在学习到的特征表示基础上,利用聚类、分类或回归方法进行关键帧的选择。

聚类方法通常将相似的特征聚集到一起,从而选取代表性帧作为关键帧。

分类方法则通过训练一个分类器来判断每一帧是否为关键帧。

回归方法则是通过回归模型预测每一帧的关键帧得分,从而选取得分最高的帧作为关键帧。

4.实验与评估通过实验比较基于深度学习的视频关键帧提取算法与传统方法的效果差异。

基于内容的视频检索系统关键技术

基于内容的视频检索系统关键技术
tiva y tm nd t r dton ere la e c m p r d i ti a r And t e e K e e hn o de ere lS se s n o re lS se a he ta ii a r tiva r o a e n h sp pe . l n Th y T c olg ofVi o R tiva y tm Bae o C n— h y tnti i t d ou . e spo n e t
一ห้องสมุดไป่ตู้
帧选 作 关 键 帧 , 种 方 法 的 运 算量 小 , 常 适 合 于 突 变 镜 头 , 这 非 但
2技 术 特 点
与 传 统 的基 于关 键 词 的 文 本 描 述 检 索 技 术 , 于 内 容 的检 索 基 有 如下 特 点 : 1 型 数 据 库 的 快 速 检 索 : f大 1 它往 往 拥 有 数 量 巨 大 、 种 类 繁 多 的 多媒 体 数 据 库 ,能 够 实 现 对 多 媒 体 信 息 的快 速 检 索 ; 1 ( 2 是 一 种 相 似 度 检 索 。 它 采 用 一 种 近 似 匹 配 f 局 部 匹 配1 或 的方 法 和 技 术逐 步求 精来 获 得 查询 和 检 索 结 果 ; ) 接 从 内容 中提 取 信息 (直 3 线 索 。它 直 接 对 文 本 、 图像 、 视频 、 频 进 行 分 析 . 中抽 取 内 容 特 音 从
广 泛 的 应 用 前 景
人 、 出等 。 淡
31 键 帧 提 取 .关
在 视 频 流 信息 中 . 键 帧 起 着 与关 键 词 类 似 的 作 用 。 典 型 的 关 关 键 帧抽 取 算 法可 分 为 基 于首 尾 与 中 间 帧方 法 、基 于 颜 色 特征 方 法 、 于 运 动分 析 的方 法 和 基 于聚 类 的方 法 。基 于 首 尾与 中间 帧方 基 法 为切分 得 到 的 每 个 镜头 选 取 一个 关 键 帧 ,例 如将 每 个 镜 头 的第

浅析基于内容的视频检索

浅析基于内容的视频检索
关 键 词 : 频检 索 ; 头检 测 ; 视 镜 分割 技 术 ; 关键 帧提 取 ; 态 特征 提 取 动
中 图分 类 号 :P 7 T 3
文献标识码 : A
1 问题 的提 出
2 O世 纪 9 O年 代 以 来 , 随着 计 算 机 硬 件 和 图 像 处 理 软 件 的发
类 等 方 法 研 究 镜 头 之 间 的关 系 , 内容 相 近 的 镜 头 组 合 起 来 , 把 逐
基于 内容 的视频检索 ( B R) C V 是一种 新的检索技术 , 它能从 数据库 中查找 到具有指定特 征或含有特定 内容的视频 ,它 区别 于传统 的基于关键字 的检 索手段 , 融合 了视频分割 、 关键帧和动 态特 征提取等 关键 技术 , 具有 如下特点 : 一 , 第 直接从媒 体 内容 中提 取信息线 索 ; 二 , 第 基于 内容 的检索是 一种近似 匹配 , 这一 点与常规数据库检 索的精 确匹配方法有 明显 的不同 ; 第三 , 动态 特征提取 和索 引建立可 由计 算机 自动实现 ,这避免 了人工描述 的主观性 , 也大大减少 了工作量 。

3 基 于 内容 的视频 检 索技 术
31 基 于 内 容 的视 频 检 索过 程 .
首先 , 视频流经过镜头分割 、 特征提取并 以 M E 一 P G 7标准描 述存人特 征数据库 。接着 , 用户便可以通过查询界 面寻找检索模
块 ,计 算 机 通 过 从 所 建 立 的 以 M E 一 P G 7标 准 描 述 的 视 频 数 据 库
基于 内容检索时 ,根据 媒体特征进行 相似性匹配检索 的媒
体 特 征 有 : 色 ( o u ) 纹 理 ( etr) 轮 廓 ( kth 、 状 颜 C l r、 o T xue 、 Se )形 e (h p )空 问约束 (p tlo s a t)动态( t n 、 S ae 、 S aaC nt i s 、 i rn Moi )领域 、 念 o 概 ( o a ene t)结构描述及其 他的 图像信息 。在过去 的几 年 D m i oeps 、 n 中, 基于 内容 的视频检索 已经成 为一 个非常活跃 的研 究领域 , 并 开发 出许 多具 有可视化 特征的系统 。其 中建立视频数据库是 一 个重要环节 ,它是 图像 处理技术和传统数 据库技术相结 合的产

基于内容的视频检索与关键技术简述

基于内容的视频检索与关键技术简述

基于内容的视频检索与关键技术简述作者:马晨晨周政龙门来源:《新学术论丛》2013年第04期1.引言随着多媒体技术的发展和信息高速公路的出现,数字视频的存储和传输技术都取得了重大的进展。

如何能在海量的视频中找到需要的资料,是视频检索要解决的问题。

传统的视频检索只能通过快进和快退等顺序的方法人工查找,因而是一件非常繁琐耗时的工作,这显然已无法满足多媒体数据库的要求。

用户往往希望只要给出例子或特征描述,系统就能自动地找到所需的视频片断点,即实现基于内容的视频检索。

2.基于内容的视频检索基于内容的视频检索(Content Based Video Retrieval, CBVR)指根据视频的内容及上下文关系,对大规模视频数据库中的视频数据进行检索。

主要特点:直接从视频数据中提取信息线索,它是一种近似匹配,在没人工参与的情况下自动提取并描述视频的特征和内容。

它融合了图像理解、模式识别、计算机视觉等技术。

基于内容的视频检索的过程是先将视频流通过镜头边界检测分割为镜头,并在镜头内选关键帧,再提取镜头的运动特征和关键帧中的视觉特征,作为一种检索机制存入视频数据库,最后根据用户提交的查询按一定特征进行视频检索,将检索结果按相似性程度交给用户,用户可优化查询结果,系统会依用户意见灵活优化检索结果。

特征的提取和检索算法的优劣决定了系统的效率和性能。

3.关键技术视频包含着丰富的内容。

一般对视频采用分层的表达方式表示视频。

一个视频可以表示为场景、镜头、帧几个层次。

帧是视频最基本组成单元,镜头边界检测是视频层次化的基础。

3.1镜头边界检测实现基于内容的视频检索首先要将视频数据自动地分割为镜头,称为镜头边界检测或场景转换检测。

镜头的切换有突变和渐变,突变表现为在相邻两帧之间发生的突变性的镜头转换。

(1)基于像素的镜头检测方法利用视频两帧对应像素之差的绝对值之和作为帧间差,当大于某个阈值m时,则认为有镜头的切换。

缺点是对噪声和物体运动敏感,易造成误识别。

一种基于深度学习的目标检测提取视频图像关键帧的方法

一种基于深度学习的目标检测提取视频图像关键帧的方法

⼀种基于深度学习的⽬标检测提取视频图像关键帧的⽅法摘要:针对传统的关键帧提取⽅法误差率⾼、实时性差等问题,提出了⼀种基于深度学习的⽬标检测提取视频图像关键帧的⽅法,分类提取列车头部、尾部及车⾝所在关键帧。

在关键帧提取过程中,重点研究了基于SIFT特征的粗识别和Alex-Net卷积神经⽹络模型的精识别两个阶段,通过模型训练验证基于卷积神经⽹络的关键帧提取器的可⾏性。

关键词:卷积神经⽹络(CNN);关键帧;⽬标检测中图分类号:TP391 ⽂献标识码:A ⽂章编号:1009-3044(2018)36-0201-031 概述随着我国铁路的不断发展,铁路在运⾏过程中的安全性问题⽇益凸显,视频监控在铁路交通安全中起着⾄关重要的作⽤。

通过摄像头监控、互联⽹的传播,监控画⾯实时显⽰,铁路部门可以利⽤视频中的有效图像信息,对视频流进⾏处理,从⽽有效地保证铁路系统的正常运营。

因此,如何快速有效地提取铁路视频图像中的关键帧信息,是本⽂研究的重点。

考虑到视频中相邻帧的重复率⼀般⽐较⾼,关键帧的提取可以减少帧数,进⽽提升图像特征点检测和匹配效率,同时也为图像拼接提供⼀个组织框架。

针对这项关键技术,得到了研究者们的⼴泛关注,并取得了⼀定研究成果。

⽂献[1]从相邻帧间的颜⾊或纹理信息变化程度出发,提出了基于视频内容的⽅法。

⽂献[2]通过计算当前帧与类⼼之间特征值的距离,将视频中所有帧进⾏聚类分析,得到基于视频聚类的分析⽅法。

⽂献[3]提出基于运动特征分析的算法,其基本原理是利⽤光流分析,将视频中运动量最⼩的⼀帧作为关键帧。

上述的三类传统算法主要基于图像整体信息的变化来选定关键帧,容易造成关键帧选取错误、计算量⼤、实时性差等问题。

因此,本⽂在此基础上使⽤⼀种基于深度学习的⽬标检测⽅法,通过建⽴卷积神经⽹络(Convolutional Neural Network,CNN)模型,分类提取视频中列车头部、尾部及车⾝所在关键帧,使得基于深度学习的⽬标检测在关键帧提取的应⽤中成为可能。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Software Engineering and Applications 软件工程与应用, 2016, 5(2), 114-121Published Online April 2016 in Hans. /journal/sea/10.12677/sea.2016.52013Video Key Frame Recognition TechnologyResearch Based on the ContentQian Liu, Gui’e Luo, Xianru Liu*Central South University, Changsha HunanReceived: Mar. 17th, 2016; accepted: Apr. 2nd, 2016; published: Apr. 5th, 2016Copyright © 2016 by authors and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License (CC BY)./licenses/by/4.0/AbstractThe key frame extraction is vital for automatic segmentation of video; the standard of extracted key frame directly affects the final result. Based on the analysis and research about project video, the paper proposes template matching, histogram comparison, the key frame detection and key frame recognition algorithm, and for the recognition accuracy and recognition rate of template matching and histogram comparison, the paper also does the comparison. In the recognition, the key frames adopted a new character segmentation algorithm. Finally, the paper summarizes the advantages of this method and good results have been achieved.KeywordsKey Frame, Template Matching, Character Segmentation基于内容的项目视频关键帧识别技术研究刘倩,罗桂娥,刘献如*中南大学,湖南长沙收稿日期:2016年3月17日;录用日期:2016年4月2日;发布日期:2016年4月5日摘要关键帧的提取对于视频的自动切分至关重要,提取的好坏直接影响最终的结果,本文通过对项目视频的*通讯作者。

刘倩等分析研究,提出了模板匹配,直方图比较,关键帧检测与关键帧识别的算法,并比较了模板匹配与直方图对比的识别准确率和识别速率,其中在关键帧识别中,采用了新的字符分割的算法。

最后,总结了本文方法的优越性,并且取得了很好的效果。

关键词关键帧,模板匹配,字符分割1. 引言随着计算机技术、多媒体技术[1]和网络技术的不断发展,图像和视频资源[2]日益丰富,从这些海量图像、视频中获取感兴趣[3]的信息已经成为当前多媒体信息技术研究的热点。

为加快国家科技管理信息系统建设,各类计划等实现全流程在线信息化管理[4];实现全过程痕迹管理,做到“可申诉、可查询、可追溯”[5]。

在研究、借鉴网易视频、百度网盘、微软skydrive等大数据[6]、大文件视频等管理模式基础上,结合国家科技信息管理的新要求以及信息中心自身建设的特点和要求,科技部提出了对各类视频数据进行有效管理的要求,具体要求实现对相关视频文件按需求进行切分、标注、归档、查询和服务等功能。

目前,这一项工作主要由工作人员通过利用相关软件手动拖动视频进行观察、估计、切分等工作,这不仅效率低下且造成人力资源的浪费。

针对此问题,本项目拟设计并开发一个基于内容的视频切分系统[7],该系统可根据需求能对一种或多路高清视频进行自动解码、识别关键帧、切分等多项功能。

在目前的条件下本文针对特定的视频类型来设计特定的、既简单又实用的视频提取算法,下面本文就介绍一种针对项目视频的识别关键帧而设计的一种关键帧提取算法。

通过反复观察此项目视频之后,发现在视频中,如果出现时间表的文字时,一定在视频帧的右上角,这些视频帧最大限度地反映了报告人作报告所用的时间,具有极强的代表性,正是我们要提取的关键帧. 因此,在对项目视频进行分析和对项目视频的关键帧进行提取时,考虑到了时间表信息的利用。

为了对关键帧进行识别,主要分为两个步骤,分别是关键帧检测和关键帧识别,本文分别对这两个内容进行了描述。

2. 关键帧检测关键帧提取[8]的方法有很多种,目前比较典型的有基于镜头的方法,帧平均法和直方图平均法[9],基于运动的分析法方法[10],基于聚类的方法[11]。

其中基于镜头的方法主要是将镜头检测中得到的镜头中的首帧(或尾帧)作为镜头关键帧。

帧平均法是从镜头中取所有帧在某个位置上像素值的平均值,然后将镜头中该点位置的像素值最接近平均值的帧作为关键帧;直方图平均法则是将镜头中所有帧的统计直方图取平均,然后选择与该平均直方图最接近的帧作为关键帧。

基于运动的分析法方法通过光流分析来计算镜头中的运动量,在运动量局部最小值处选取关键帧,它反映了视频数据的静止。

基于聚类的方法[12]可以通过对视频帧进行聚类来选取关键帧。

算法主要分为三个步骤,首先是特征提取阶段,这里的特征主要是帧间直方图的差别,第一阶段提取的特征作为第二阶段的输入进行聚类,第三阶段即是关键帧的选取。

本文采用模板匹配和直方图比较两种方法,通过对项目视频进行大量的分析发现,不包含时间表帧和包含时间表帧的区别的最为行之有效的方法就是提取时间表本身的特征,包含时间表的帧和不包含时间表的帧空间结构模型是固定的,如图1所示为视频帧的空间结构模型。

2.1. 模板匹配法由于本项目需要实现大量视频的自动切分,各类视频数据量非常多,实现视频的自动切分不仅识刘倩 等Figure 1. The spatial structure model of video frames 图1. 视频帧的空间结构模型别的准确率要高,而且识别的时间也必须提高。

因此本文采用了改进的模板匹配[13]方法不仅能够提高识别的准确率,而且也提高了识别的效率。

模板匹配方法是通过在输入图像上滑动图像块对实际的图像块和输入图像进行匹配,算法的检测速度比较快,可以对视频流进行实时检测,通过多次分析统计项目视频中的时间表,逐步对算法进行改进,并利用改进后的算法对项目视频中固定区域(位于屏幕右上方十二分之一范围内)的图片进行了检测,下面对优化后的基于帧图像序列模板提取的模板匹配方法做简要介绍。

根据图1所示空间结构可知,时间表出现的位置是一定的,因此要设定一个局部区域来进行检测,为了提高检测的准确性,局部区域的选择要满足两个条件:1) 位置要准,所选的区域一定是时间表可能出现的区域;2) 范围不能大,否则直接导致检测的时间会延长,而且准确率也会下降。

基于上述条件,选择了图1空间结构图所示的“局部A ”区域。

图中所示的“局部A ”区域相对帧于整帧图像的尺寸如式(2-1)所示:w a W h b H =∗=∗, (2-1)其中,H ——整帧图像的高度;W ——整帧图像的宽度;h ——局部区域的高度;w ——局部区域的宽度;a ,b ——尺寸系数。

对于不同项目视频,尺寸系数略有差异,可以根据具体情况来调整尺寸系数的大小。

对于本文中所采用的项目视频,本文用a = 0.25,b = 1/3。

得到了视频中的区域,算法开始用模板匹配的方法进行检测,多次分析视频数据,提取时间表本身作为固定的模板对项目视频进行检测。

具体实现过程为:首先,读取视频,在视频帧序列中选取一幅有时间帧的图像,根据上述区域分割的方法提取出时间表,作为模板匹配方法的模板,然后连续读入视频序列,对视频序列中所有帧进行固定区域检测,将提取出的模板与视频序列中所有的帧进行模板匹配,检测视频帧中是否包含时间表帧,最后,将检测的结果进行输出并将包含时间表的帧提取出来。

时间表的具体提取流程图如图2所示。

2.2. 直方图比较法直方图[14]中的数值都是统计而来,描述了该图像中关于颜色的数量特征,可以反映图像颜色的统计分布和基本色调。

本文采用了直方图比较的方法实现两幅图像的对比。

要比较两个直方图(H1和H2),首先必须要选择一个衡量直方图相似度的对比标准()12,d H H 。

Opencv 中提供了函数cvCompareHist()用于刘倩 等Figure 2. The extraction of schedule steps 图2. 时间表的提取步骤c) 相交(CV_COMP_INTERSECT),如式(2-4)所示。

()()()()interection 1212,min ,id H H H iH i =∑ (2-4)d) Bhattacharyya 距离(CV_COMP_BHATTACHARYYA),如式(2-5)所示。

通过大量的实验可以验证,使用Bhattacharyya 方法的效果最好。

对Bhattacharyya 方法的直方图匹配,低分数表示好匹配,而高分数表示坏的匹配。

完全匹配是0,完全不匹配是1。

本文所采用的直方图具体步骤如下。

1) 计算视频中提取到的模板图片的直方图hist1。

2) 读取视频帧,截取帧上与模板图片相同大小的位置,并计算其直方图。

3) 采用Bhattacharyya 直方图比较的方法比较每一帧图片与模板图片的直方图相似性。

4) 统计结果设定出阈值T ,通过对所有项目视频做大量的实验分析,可以将本项目视频的阈值T 设定为0.6,将直方图比较结果与阈值T 进行对比,若小于T ,则包含时间表,否则,此视频帧不包含时间表。

2.3.实验结果对比通过上述两种方法,为了验证算法的准确性与高效性,本文选取了多个项目中的视频作为实验对象,其中包括多人做ppt 时的报告视频。

采用识别的准确率与识别效率作为评判标准,模板匹配具体结果如表1所示,直方图比较具体结果如表2所示。

相关文档
最新文档