视频摘要算法调研
改进聚类的视频摘要生成算法

收稿日期:2018-08-09;修回日期:2018-11-01 基金项目:安徽省自然科学基金项目(1708085MF154);安徽高校省级自然科学研究基金资助重点项目(KJ2015A071)
94
信号处理
第 35卷
动信息的关键帧提取,使用光流法计算镜头的运动 量,将其局部最小值处的帧定为关键帧。该算法可 以根据镜头变化的不同来选择对应关键帧的数目, 不过该方法的运动量计算过程尤其复杂,而且局部 最小值也难以准确判断。第二类是基于镜头边界 的关键帧提取[4],将原始视频划分成若干个镜头片 段,然后将其中的首尾和中间帧定为关键帧。该方 法操作简单,但 适 用 性 差,尤 其 当 镜 头 切 换 比 较 频 繁时效果很差。第三类是基于视觉内容的关键帧 提取,选取视频内容变化剧烈的帧作为关键帧。这 种提取的关键帧的方式符合原始内容,但若出现镜 头频繁切换时冗余信息过多。第四类是基于聚类 方法的关键帧提取,从每个聚类簇中选择最接近聚 类中心的帧作为关键帧。该方法提取的关键帧切 实贴合视 频 主 体 内 容,形 成 的 视 频 摘 要 效 果 甚 佳, 但是对初始参数的选择十分敏感,直接影响聚类效 果[56]。聚类 算 法 在 视 频 摘 要 领 域 发 挥 着 重 要 作 用,在传统聚类算法中,聚类初始参数、关键帧数目 和聚类稳定性等问题没有被综合考虑,导致视频摘 要效果不佳[7]。传统 kmeans聚类简单易行,不足 之处在于 kmeans算法对初始聚类参数敏感,很容 易陷入局 部 最 优 解,很 难 得 到 全 局 最 优 解。层 次 聚类方法 虽 [89] 然 不 需 要 预 设 初 始 参 数 和 关 键 帧 数目,但是聚 类 中 的 分 裂 点 和 合 并 点 难 以 确 定 并 且计算复杂度高。因此本文分析并结合两者的特 点提 出 一 种 改 进 聚 类 的 算 法 应 用 到 视 频 摘 要 当中。
基于k-means++聚类的视频摘要生成算法

击 G 删
3 ) 由公式 ( 6 ) 计 算 每 个 向 量 被 选 为簇 中 心 的概 率 P ( X j ) , 当
P ( x . ) 最 大 时 对应 的 向量 就 是 新 的 簇 中 心 。
P ( x j ) = D( x) ‘ / ∑ D( x i ) ‘ ( 6 )
E0 c e nt er
频 分 解 为 图 像 序 列 , 并 做 预 采 样 处 理 ;然 后 ,提 取 所 有 预 采 样 帧 的 基 于 HS V 空 间 的 颜 色特 征 ;最 后 ,使 用 改 进 的 k — me a n s + + 算 法 对 所 有 的 预 采 样 帧进 行 聚 类 , 选 取 距 离聚 类 中心 最近 的帧 作 为 关键 帧 。
Ke y wo r d s: vi de o s u mma r i z a t i on, k —mea ns ++ c l u s t er i n g, co l o r s pa ce HS V
视 频 摘 要 技 术 是 目前 计 算 机 视 觉 领 域 的 研 究 热 点 , 本 文 提 出 了 一种 基 于 k - me a n s + + 聚 类 的视 频 摘 要 生 成 算 法 , 不 仅 提
关键词 : 视 频 摘要 , k - m e a n s + + 聚类。 H S V颜 色 空 间
Ab s t r a c t : I n o r de r t o f u r t h er i m pr o v e t h e qu al i t y o f t h e gen e r a t e d vi de o su m ma r i za t i o n。 a n al gor i t h m b as e d on k-me an s ++ c l u s t er i n g i s pr opo s e d i n t h i s pa per Fi r s t . d ec ompo s e t he o r i gi n al v i deo i n t o i ma ge s e qu en c es an d go t h r o ugh t h e pr e- s a m pl i n g pr oc e ss . T h en, ex t r a c t t h e c ol or f e at u r e s o f s a m pl e f r a m es ba s ed o n HS V c ol or s p ac e F i n al l y , cl us t e r s a m pl e f r a me s t h r ou gh an i mpr o v ed k-me an s ++ a l g or i t h m, a nd s el ec t t h e f r ame whi ch i s c l o s e s t t o t h e cl u s t e r i ng ce n t e r a s t h e k e y f r a me
视频监控系统中的算法研究和优化

视频监控系统中的算法研究和优化随着现代科技的不断发展,视频监控系统已经广泛应用于城市公共安全领域、交通领域、商业领域等,成为了社会安全保障的重要手段之一。
而视频监控系统的功能和效果,取决于其中的算法技术的优劣。
本文将重点探讨视频监控系统中的算法研究和优化。
一、视频监控系统中的算法技术视频监控系统是一种包含了大量的视觉传感器、图像处理和计算机技术的复杂系统,其中的算法技术主要包括以下方面:1. 目标检测和跟踪算法:目标检测和跟踪是视频监控系统中的重要应用场景,其主要任务是在图像中自动识别和跟踪人、车、物等目标对象,为后续的行为分析和安全预警提供基础。
目前,目标检测和跟踪算法主要分为基于传统的特征提取(如Haar特征、HOG特征等)和深度学习的特征提取两种,其中深度学习的算法如Faster RCNN、YOLO等在准确度和处理速度上都有了很大的提升。
2. 行为识别和分析算法:视频监控系统中的行为识别和分析是对目标动态行为的精细描述和分析,其主要任务是对目标的各种行为进行识别和分析,形成行为模型并做出决策。
行为识别和分析算法主要依赖于深度学习和机器学习技术,例如物体检测和识别,动作识别、行为分析、目标追踪、异常检测等。
3. 图像增强和质量评估算法:由于图像采集条件的限制,有些图像往往存在一些噪声、模糊和失真等问题,这就需要图像增强和质量评估算法来处理。
图像增强算法主要通过滤波、去噪和图像纠正等技术来提高图像质量。
而图像质量评估算法则是对图像质量的定量评估,可有助于进一步提高图像的可用性。
二、视频监控系统中的算法优化在现今的视频监控系统中,由于受到计算资源和传输带宽的限制,往往需要人们对系统进行算法优化,以提高其性能和效率。
视频监控系统中的算法优化主要包括以下几个方面。
1. 优化算法的准确度:在实际应用中,准确度往往是视频监控系统中最重要的评价指标,因此算法优化的主要目的之一就是提高其准确度。
具体来说,可以通过增加训练数据、创新性的网络结构设计、优化损失函数等手段来提高算法准确度。
监控视频的摘要提取方法研究

的要求更 多的是对某一段 时间内监视情况 的回顾或者是
对某 个 特 征 人 物 或 物 体 的查 找【 ” 。 根 据 监 控 视 频 的 这些 特点 ,笔 者 将 监 控 视 频 分 为 运 动 片段 和 静 止 片 段 。 运动 片段 包 含 了人 物 的 活动 情 况 , 为
【 s at T e caat s o sre l c ie r a a zd h bt c et c o e o ae n te cl ltn o f m Abt c】 h hrc r f uvia evdo ae nl e .T e as at x at n m t d b sd o h a uao f r eS r e ln y r r i h c i a
YAO B n HI P n ,GE e ,XI Z i y n i ,S i g F i E h — a g
(co lo nom t nE gneig o mu i t n U ie @ o hn,B rn 0 0 4 hn ) S ho fr ai n ier ,C m n ai nv ̄i f C ia e i 1 0 2,C ia fI o n c o g
moi n a d h iiin o t n s g n s i p o o e . T e e p rme tl r s l h w h t h t o i smp e r l l n t n te d vso f moi e me t s r p s d h x e o o i n a e u t s o ta te meh d s i l, ei e a d s b a
3 )监控视频 中含有大量冗余 内容 。 监视视频包含 了 大量没有经过编辑的 、 原始的视频信息 , 可能会 出现一长 段时间内都是 同一静止画面的无用 内容 。 4 )监控视频的观众是 一个 固定 的群体。 视视频 的 监
视频内容分析与理解的算法研究与应用

视频内容分析与理解的算法研究与应用随着互联网的发展,视频内容的数量和质量不断增加,如何有效地对海量视频进行分析和理解成为一个重要的问题。
视频内容分析与理解的算法研究和应用旨在利用计算机视觉和机器学习等相关技术,对视频中的视觉和语义信息进行提取和理解,以实现视频自动理解、分类和检索等功能。
本文将着重探讨视频内容分析与理解的算法研究和应用。
一、视频内容分析的基本任务视频内容分析是指对视频中的各种信息进行提取和理解的过程。
视频内容分析的基本任务可以分为以下几个方面:1. 高级特征提取:视频中包含了大量的视觉和语义信息,如颜色、纹理、形状等特征。
高级特征提取算法可以利用这些信息来识别和分类不同的视觉内容,比如人物、物体、场景等。
2. 目标跟踪:目标跟踪是指在视频序列中对感兴趣的目标进行追踪的过程。
目标跟踪算法需要在视频中不同帧之间确定目标的位置和运动轨迹,以实现目标的准确跟踪。
3. 行为分析:视频中的行为分析是指对视频中的人物或物体的行为进行分析和识别的过程。
行为分析算法可以从视频中提取出各种动作和行为,并对其进行分类和识别,如人的行走、交互、跳跃等。
4. 视频摘要:视频摘要是指将长时间的视频序列压缩成较短的关键帧序列,以便更好地进行浏览和检索。
视频摘要算法可以从视频中选择出一小部分重要的帧,并根据它们的内容和顺序生成摘要。
二、视频内容分析的算法研究和应用要实现对视频内容的准确分析和理解,需要利用计算机视觉和机器学习等相关技术来开发高效的算法。
以下是视频内容分析的一些经典算法和应用:1. 物体识别与分类:物体识别与分类是视频内容分析中的核心任务之一。
通过利用深度学习等技术,可以设计出高效的物体识别和分类算法。
这些算法可以将视频中的物体进行自动识别和分类,如车辆识别、人脸识别等。
2. 行为分析与事件检测:行为分析和事件检测是对视频中的行为和动作进行分析和识别的过程。
利用深度学习和模式识别算法,可以检测到视频中的各种行为和事件,如交通事故、人群聚集、物体移动等。
视频内容分析和推荐算法研究

视频内容分析和推荐算法研究第一章前言在当今数字化的时代,视频已经成为人们日常生活中不可或缺的一部分,许多人喜欢通过在线观看视频来获取信息、娱乐自己。
随着视频内容的增长和动态,如何为不同的用户提供最优的内容推荐已经成为了大众关注的热点问题。
本文旨在分析视频内容分析与推荐算法的理论基础,并深入探讨其实际应用。
第二章视频内容分析技术2.1 视频特征提取技术视频特征提取是视频内容分析的基础。
视频特征通常通过色彩、纹理、形状、动作等方面来描述视频内容。
色彩特征是通过提取图像像素信息来获取的,通常包括感知色度量、色彩直方图、色度直方图等。
纹理特征可以通过图像中包含的纹理区域来获取,常见的纹理特征包括灰度共生矩阵、局部二值模式等。
形状特征常见的包括边缘特征、角点、轮廓等信息。
动作特征是视频本质,常常通过关键帧、光流场、轮廓等信息来描述。
2.2 视频句子级分段技术句子级分段技术是对视频中内容进行分类的实用方法,它可以有效地提高视频分析的效率。
分段技术可以基于视频外部因素,如视频字幕、特定颜色的标记,也可以基于视频内部因素,如镜头变换、故事情节、物品变化等。
通过这种方法,可以根据视频内容的分类制定出更加精细的推荐策略。
2. 3 视频探索技术视频探索技术是一种综合技术,它包括了多种视频剪辑和纪录制作的技巧。
视频探索技术一般使用随机特征的方法来宽容处理。
这种方法能够提高视频分析的效率和准确性。
第三章推荐算法研究3.1 推荐算法基础现有的视频推荐算法通常涉及以下几个常见的问题:数据预处理、用户建模、推荐撰写和算法评估。
数据预处理属于数据采集和数据预处理领域,它主要关注的是收集和处理跨平台协作的数据。
用户建模通常涉及内容模型和个人模型两个方向。
针对内容模型,推荐算法需要将视频分割为一些小片段,每个小片段都是基于特定领域或特定主题的。
个人建模则涉及用户的特定关注领域、兴趣爱好以及偏好等方面。
推荐撰写则根据用户关注的领域、个人建模以及当前的需求,将匹配度最高的推荐内容呈现给用户。
基于深度学习的视频摘要技术研究
基于深度学习的视频摘要技术研究一、绪论随着互联网技术的快速发展,视频成为人们日常生活不可或缺的娱乐和学习方式。
在视频产量迅速增加的同时,也给用户带来了以观看时间为代价的信息浪费。
因此,如何高效地摘要视频成为一个亟待解决的问题。
本文旨在探讨基于深度学习的视频摘要技术,以此提供有助于视频管理和利用的处理方式。
二、视频摘要技术视频摘要技术是视频内容理解与分析的重要一环。
视频摘要的目的是从海量的视频中提取有意义的信息,同时减少信息冗余和观看时间。
目前,视频摘要技术主要有基于内容的摘要和基于用户的摘要两种方式。
基于内容的摘要:基于内容的摘要是指根据视频文本、音频、图像等元素,提取重要内容,组成视频摘要。
在基于内容的摘要中,需要对视频的各个元素进行分析和处理。
该方法能够有效地提取视频中的信息,并且更适合应用于静态的场景和机器生成的视频。
基于用户的摘要:基于用户的摘要是指利用用户观看行为数据,提取他们所感兴趣的视频片段。
该方法需要根据用户的兴趣和行为进行定制化的处理。
该方法更适用于动态场景,如直播、用户生成的视频等。
三、深度学习技术深度学习是机器学习的分支,其基本原理是构建多层神经网络结构来模拟人脑对复杂问题的处理方式。
深度学习技术具有强大的特征提取和处理能力,被广泛应用于语音识别、图像分类等领域。
在视频摘要中,深度学习技术主要应用于视频内容理解和表示。
通过对视频进行分帧、采样和编码等处理,建立视频的特征表示模型。
同时,结合视频场景、音频、文本等元素,进行特征提取和分析,识别视频中的显著内容。
四、基于深度学习的视频摘要技术基于深度学习的视频摘要技术是目前最为先进的视频处理方式,其主要思想是通过深度神经网络自适应地学习和提取视频的特征,从而生成摘要。
下面介绍两种基于深度学习的视频摘要技术。
1. 基于卷积神经网络的视频摘要技术基于卷积神经网络的视频摘要技术是一种直接基于视频像素进行处理的方式。
该方式通过卷积神经网络对视频中的每一帧进行特征提取和编码,同时结合多层感知机网络实现视频信息整合和重构。
基于深度学习的视频摘要与关键帧提取算法研究
基于深度学习的视频摘要与关键帧提取算法研究摘要:随着互联网的迅猛发展,视频数据成为人们获取信息和娱乐的重要来源。
然而,随着视频数量的不断增加,人们需要更快速和有效地处理和浏览这些视频内容。
视频摘要和关键帧提取作为视频内容分析和检索的重要技术,能够提供视频的概要信息和代表性帧,帮助用户快速了解和检索视频内容。
本文将基于深度学习的视频摘要与关键帧提取算法进行详细研究和探讨。
首先,我们将介绍视频摘要与关键帧提取的概念和应用领域。
然后,将介绍传统的视频摘要和关键帧提取算法以及其存在的问题和局限性。
接着,我们将详细介绍基于深度学习的视频摘要与关键帧提取算法的原理和方法,并分析其优势和挑战。
最后,将针对该算法进行实验验证,并对未来研究方向进行展望。
关键词:深度学习、视频摘要、关键帧提取、概要信息、代表性帧1. 引言随着数字技术和互联网的高速发展,用户可以方便地拍摄、共享和传播各种视频内容。
然而,海量的视频数据给人们带来了处理和浏览视频内容的难题。
视频摘要和关键帧提取作为视频内容分析和检索的重要技术,为用户提供了更快速和有效获取视频信息的方法。
2. 视频摘要与关键帧提取的概念和应用领域视频摘要是从视频中提取出包含概要信息的视频片段,用于快速浏览和了解视频内容。
关键帧提取是从视频中选择一些代表性的静态图像帧,用于代表整个视频。
视频摘要和关键帧提取在许多应用领域得到了广泛的应用,如视频检索、视频摘要浏览、视频摘要生成等。
3. 传统的视频摘要和关键帧提取算法传统的视频摘要和关键帧提取算法主要基于图像处理和机器学习技术。
常用的算法包括基于视觉特征的聚类算法、基于机器学习的分类算法和基于视觉显著性的算法。
然而,这些传统算法通常需要手工设计特征,并且在处理复杂的视频场景时效果不佳。
4. 基于深度学习的视频摘要与关键帧提取算法深度学习在计算机视觉领域取得了巨大的突破,为视频摘要和关键帧提取算法的发展提供了新的思路。
基于深度学习的视频摘要与关键帧提取算法能够自动学习视频的高级语义特征,并提供更准确和鲁棒的结果。
视频内容识别与推荐算法优化研究
视频内容识别与推荐算法优化研究第一章引言视频内容的快速发展和大规模产出给用户带来了丰富多样的选择,但也给用户带来了信息过载问题。
如何根据用户的兴趣,精准识别视频内容,以及优化推荐算法,成为推荐系统领域的研究热点。
本文将对视频内容识别与推荐算法进行深入研究与优化。
第二章视频内容识别技术2.1 视频特征提取在视频内容识别中,特征提取是十分重要的一步。
常见的视频特征包括视觉特征、音频特征和语义特征。
视觉特征主要通过图像处理技术提取,包括颜色直方图、纹理特征和形状特征等。
音频特征则通过音频处理技术提取,如音频频谱、MFCC系数等。
而语义特征则通过文本处理技术提取,如关键词提取和主题模型等。
2.2 视频内容分类视频内容分类是将视频按照不同的类别进行归类,为之后的推荐过程提供基础。
常见的视频内容分类方法包括基于机器学习的分类方法和基于深度学习的分类方法。
机器学习方法主要通过构建特征向量,训练分类器来实现视频分类。
而深度学习方法则采用神经网络架构,通过训练大规模数据集来进行视频分类。
2.3 视频内容识别算法评估视频内容识别算法的评估是为了衡量算法性能和效果的一项重要工作。
评估指标主要包括准确率、召回率、精确率等。
同时,还可以采用交叉验证方法和多种算法对比分析的方式进行算法评估。
第三章视频推荐算法优化3.1 用户兴趣建模用户兴趣建模是指根据用户的历史行为和偏好,对用户的兴趣进行建模和挖掘。
常用的用户兴趣建模方法包括基于协同过滤的方法和基于内容的方法。
基于协同过滤的方法主要通过分析用户的行为数据,寻找与该用户兴趣相似的其他用户,从而进行推荐。
而基于内容的方法则是通过分析视频的特征和标签,计算视频与用户兴趣的匹配程度,进行推荐。
3.2 推荐算法改进推荐算法的改进是为了提高推荐系统的准确性和个性化程度。
常见的推荐算法改进方法包括基于矩阵分解的方法、基于深度学习的方法和基于增强学习的方法。
基于矩阵分解的方法通过将用户-视频评分矩阵分解为两个低秩矩阵,从而提高推荐的准确性。
视频内容分析的算法研究
视频内容分析的算法研究第一章介绍在现代社会中,人们过着日趋数字化的生活,各种计算机技术被广泛应用。
随着网络技术的飞速发展,视频技术成为了人们获取信息的重要途径。
视频内容分析技术作为可视分析领域的一个重要研究方向,给人们的工作和生活带来了很多便利和乐趣。
视频内容分析技术是将计算机视觉、模式识别和机器学习等领域中的技术运用到视频内容解析、分析和理解的过程中。
它可以提供从普通的视频数据中提取特征、对视频进行解析和分类、对视频内容进行理解和分析的功能。
除此之外,视频内容分析还可以支持图像检索、视频监管、多媒体交互等诸多应用,并且有着广泛的应用前景。
本文主要探讨视频内容分析中所应用的算法研究。
第二章视频特征提取算法视频特征提取算法是视频内容分析的重要一环,其作用是从视频数据中提取出相关的特征,以便于后续的分析和推理。
视频特征提取算法的发展可以追溯到20世纪80年代,当时主要是针对黑白图像开展的。
而随着彩色图像的出现,视频特征提取算法的研究也逐渐得到了深入和广泛的应用。
视频特征提取算法目前主要有以下几种:1.颜色特征提取算法颜色特征提取算法是将颜色作为特征来提取的算法。
这种算法通过提取图像中的颜色直方图等信息,来对图像进行分类和快速搜索。
由于颜色直方图的计算速度快,同时对图像的颜色信息有很好的反映,因此被广泛应用在视频内容分析中。
2.空间特征提取算法空间特征提取算法是针对图像中空间位置的信息进行提取的算法。
这种算法可以提取出图像中物体的大小、位置、形状、轮廓等信息,这些信息有助于图像的分类和识别,同时也为机器视觉的研究提供了重要的数据。
3.纹理特征提取算法纹理特征提取算法是针对图像的纹理信息进行提取的算法。
这种算法可以提取出图像中物体表面的纹理、斑点、条纹等特征,可以作为图像分类和识别的重要依据之一。
第三章视频分类算法在视频内容分析中,视频分类算法是一项重要的技术。
其目的是通过对视频中的内容进行分类,以便于对视频信息进行检索和管理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、 视频摘要概述
定义 视频摘型是以自动或半自动的方式,利用计算机技术来分析和处理新闻、广 告、 监控录像等数字视频数据的结构和内容, 从原始的媒体数据中提取有代表性、 有意义的部分,将它们以某种方式合并生成紧凑的、简明扼要的、用户可读的、 能充分表达视频内容的缩略形式。 目的 可以让用户快速、 方便的了解整个视频的内容,以决定是否详细观看这段视 频,同时,还可以用于视频数据库的索引、查询等,通过它可以快捷地在庞大的 数据库中找到用户所需要的视频。 表现形式 主要分为两种:静态的视频概要(Video Summary)和动态的缩略视频(Video Skimming)。其中视频概要是提供快速方便的浏览方式,而缩略视频是视频内容 的浓缩。具体的表现形式如下图所示
图 1 视频摘要分类示意图
基本步骤
视频切割
视频内容提取
重要度评判
合成摘要
摘要表现
算法分类 1) 简单的生成算法 这种方法是基于时间对视频进行采样, 即每隔一定的时间从视频帧序列中抽 取一个代表帧或者一个片段来形成摘要。此方法从操作上很容易实现,但从效果 上来看很不可靠,完全没有基于视频的内容。 2) 基于视觉信息的生成方法 根据视频中颜色、纹理、形状、运动方向和强度等视觉信息,基于模式识别 的思想, 应用各种视频和图像处理技术, 进行镜头探测、 关键帧提取、 场景聚类、 运动特征提取等一系列的操作,最终生成具有代表性的关键帧序列或缩略视频。 这种方法完全基于视觉特征,而忽略了音频、字幕等信息,对表现原视频有一定 的影响,但相对简单的采样生成算法来说,在效果上有了很明显的提高。 3) 融合多特征的生成方法 这种方法在基于视觉信息方法的基础上融入了其它媒体提供的信息如音频、 字幕等, 来更加准确的判断视频片段的重要程度,然后根据重要度来提取视频摘 要。例如,采用人脸识别技术来探测新闻中重要人物的出现,采用音频处理技术 来探测体育视频中的精彩片段等。目前,很多的视频摘要算法都是基于这种思想 的,是研究的热点。 4) 基于视频句法语义的生成方法 此方法从视频的句法结构分析入手,探寻镜头与镜头之间、场景与场景之间 的结构规则,进而从中分析出所表现的情感和氛围,并以此为基础,将视频的句 法语义尽可能完整的保存到摘要当中。 主要的算法集中在对视频切割和视频内容提取(关键帧序列提取)的分析和 操作上,下面将对这两部分所涉及的常用算法做概要总结。
其基本思路是, 将第一帧作为关键帧,然后将其后面的图像帧按顺序与这一帧作 比较,当第 I 帧与前一关键帧的帧差特征信息距离超过阈值 P 后,则将第 I 帧关 键帧,重复此过程,直至最后一帧。这种方法相对比较简单,但所提取出来的关 键帧不一定具有很好的代表意义,而且当有镜头运动或视频内容变化较为频繁、 剧烈时,容易选取过多的关键帧。 基于压缩视频流提取的方法 直接利用压缩视频数据中的某些特征来进行分析和处理,通常利用 MPEG 压缩视频流中已有的离散余弦变换(DCT)的 DC 系数和运动矢量(MV)来提取关键 帧,其优点是无需对视频进行解压,降低了计算的复杂性,其缺点是在镜头渐变 的情况下该种方法鲁棒性不强。 例如, 可以 MPEG 视频压缩域, 综合利用了 MPEG 视频流的各种运动特征(包括匹配度、匹配度差、运动强度差、I 帧集中度等)进 行模糊推理来提取关键帧。 基于支持向量机(SVM)的视频关键帧提取算法 首先在镜头关键帧的基础上,利用支持向量机(SVM,suppOrt vectOr machi ne) 对镜头关键帧分类, 得到视频中镜头的语义概念, 根据语义概念将镜头聚类, 即同样语义概念的镜头为一类。然后,根据不同语义类中镜头的“重要性”决定 从该类中选取哪个镜头的关键帧作为视频摘要的构成帧。所谓“重要性”是指该 类中每个镜头包含的帧数占该类镜头总帧数的比例(越多越重要) ,只在“重要” 的镜头中选择作为视频摘要的关键帧。最后,将不同语义类中选取的关键帧根据 时间顺序排序,构成静态浏览型的视频摘要。 基于聚类的方法 这种方法将视频帧看作特征空间中的点, 并且认为聚类的代表点可以作为视 频关键帧。聚类可以是基于视频片段的也可以是基于镜头的,一般包括下面 4 步: 1) 数据预处理 目的在于使聚类过程更加快速高效。 2) 聚类 其基本思想是,先确定初始聚类中心,再根据当前帧与各类心的 距离或相似度判断当前帧归为哪类,或是作为新的类别。 3) 去冗余 由于聚类输出可能有噪声干扰,或者聚类本身的意义不大,这 些聚类中的关键帧并没有归到最终关键帧序列中。 4) 提取关键帧 最常见直观的方法是选择距离聚类中心点最近的帧作为聚 类的代表帧。 基于聚类的方法提取关键帧具有良好的性能, 这是因为它非常符合视频的特 点,即对于大多数视频,持续时间较长,重复出现次数较多的画面一般是比较重 要的。 基于规则的方法 基于规则的方法与上面的方法有所不同, 其主要提取那些人们认为重要的帧 这类方法。通过提取帧附近的运动模式以及内容特征(如包含人脸的帧或空间复 杂度高的帧),根据一定的规则建立模型,计算帧的重要度,然后按照重要度进 行排序,形成关键帧摘要。目前这一方法处于研究阶段,实际效果并不好,局限 性较大。
4、 视频摘要的新方向——基于语义的研究
基于语义的研究特别是涉及情感等抽象语义等, 虽然 Picard 教授 1997 年出 版了专著 Affective Computing”(情感计算),但是目前的人工智能技术基本上基
于逻辑推理和计算理论, 从哲学的方法论角度是基于理性主义的,而情感计算是 基于感性思维, 目前的人工智能技术很难形式化感性思维。同时情感计算是一个 多学科交叉的崭新的研究领域,包括传感技术、人工智能、认知心理学、脑神经 学及本体论等,因此基于情感类抽象语义的视频摘要将是以后研究的热点之一。
G B It ,t 1 ItR ,t 1 I t ,t 1 I t ,t 1
然后对每个帧间交互量 I t ,t 1 ,计算其滑动窗口内交互信息量的均值 I ,将
I / I t ,t 1 的比值与给定的阈值进行比较,从而判断是否在此帧处检测到了场景边
界。 基于离散余弦变换系数(DCT)的切分方法 由于频域中的变换系数是与像素紧密相关的,因此,DCT 系数可以用于压 缩视频序列中的镜头边界检测, 从而进行场景切分。具体做法是对从压缩视频文 件中选取出的 I 帧, 做出里面各个 8×8 块中的第一 DCT 系数的直方图 H ( I k , j ) , 其中 I k 代表第 k 个 I 帧, j 代表该帧共 N 个块中的第 j 块。采用 2 检验法比较相 连 I 帧的 DCT 系数直方图的各个统计值,如果测度 D 超过了给定的阈值就认为 发生了场景切换。其中
2、 视频切割算法概述
在视频切割中,场景边界是一个很重要的概念,视频摘要中,最主要的一个 步骤是找场景边界,以便对视频文件进行准确的场景切分。 一个完整的视频包含 3 种典型的信息:视觉信息、音频信息和文本信息.视
频中的视觉信息主要包括颜色、 纹理和运动等信息.根据生成摘要所用信息类型 的多少, 镜头检测和代表帧提取方法分为单模和多模 2 种类型.单模的代表帧提 取仅利用视觉、音频和文本中的一种信息.对于基于视觉的单模方法,当从一个 场景变换到另外一个场景的时候,相邻的图像帧之间的背景、人物、环境等都会 发生明显变化,而这些都会具体体现在图像的颜色分布上。因此,要判断两幅图 像之间的相似性, 可以根据图像的颜色属性来找出场景边界。具体的算法主要有 下面几种: 基于交互信息量的切分方法 对于连续的两帧图像,分别利用下式独立计算出其三个 RGB 分量的交互信 息量:
I tR ,t 1 p AB (a, b)*log
a 0 b 0 L 1 L 1
pAB (a, b) pA (a)* pB (b)
其中, pA (a) 和 pB (b) 分别为图像 A 、 B 的概率密度函数, pAB (a, b) 是图像 A 、 B 的联合概率密度。再计算总的交互信息量:
5、 结束语
目前,视频摘要研究领域仍存在一些问题和不足。首先,没有一种方法普遍 适用于所有的视频类型, 每种方法都具有其自身的特点,针对不同领域的视频事 件, 我们往往需要选取不同的算法,而且使用某一种单一的算法或利用某一类单 一的信息很难取得理想的效果, 从而有时必须结合不同算法的特点,综合利用视 频中的各类信息;其次,摘要的研究缺乏一个统一的、全面的评估标准,一个有 效的评估方法的存在是保证这一领域进步的关键, 因为只有确定了哪种视频摘要 方法好,才能不断改进、不断完善;最后,目前条件下,计算机视觉及人工智能 领域的发展还远远没有达到完全自动理解和获取视频语义内容的程度,即存在 “语义鸿沟”问题,而这个方面恰恰是视频摘要的关键问题,今后的视频摘要系 统必然要从语义的角度去分析理解视频。
2
据划分为更精细的频带。其中 LH j 频带是先将上级低频 LL j 1 在水平方向低通滤 波后, 再经垂直方向高通滤波而得到, 包含了更多垂直方向的高频信号。 而 LL j ,
频带主要是原图像水平方向的高频成分, HH j 频带是图像中对角线方向高频信息 的体现, LL j 是图像在经过 j 级分解后得到的图像低频信号。采用这些图像的低 频信号和图像在各个尺度各个方向上的高频信息可以实现视频场景的检测。 基于运动矢量的压缩视频场景切分方法 由于同一镜头内各帧之间的运动矢量通常是连续的,而且在 MPEG 数据流 中,规则编码本身含有运动数据,因此,对于 MPEG 压缩视频文件来说,也可 以通过运动矢量的变化来检测镜头边界,对场景进行切分。运动矢量的估计有两 种方法: (1)传统的基于块的运动估计,这种方法在基于块的编码方法中已经证 明是有效的; (2)基于点的运动估计,这种方法主要在基于网格的编码技术中使 用,即估计关键点的运动矢量。 基于 HSV 颜色模型的场景切分算法。 在基于 RGB 颜色模型直方图的场景切分算法中,存在着一些缺点,比如上 面提到的两幅不同图像的颜色直方图却有可能相同, 而采用将图像分割成多个小 块, 分别计算各个小块的直方图,再计算两幅图像的直方图这种方法的计算量太 大,严重影响了算法的效率。此时便可运用 HSV 颜色模型来解决这一问题。 在基于 HSV 颜色模型的场景切分算法中, 首先将图像帧的 RGB 转换为相对 应的 HSV 值,然后对 H 、 S 、 V 进行非等间隔量化,再合成为一维特征矢量。 计算视频前后两帧图像的一维特征矢量直方图,求出它们的相似度,从而判断出 是否发生了场景切换。