基于内容的多媒体检索
多媒体数据库及基于内容检索

多媒体数据库的软件环境
文件管理系统
– Windows 的文件管理器或资源管理器; – 图形、图像浏览工具软件; – 文件系统方式一般只适用于小的项目管理或较特殊的数据对象, 所表示的对象及相互之间逻辑关系比较简单,如管理单一媒体信 息;
建立特定的逻辑目录
传统的字符、数值数据库管理系统
– 把文件管理系统和传统的字符、数值数据库管理系统结合起来; – 由文件管理系统来建立和管理非常规数据(音频、视频、图形等 ),把数据文件的全文件名作为一个字符串数据纳入传统的数据 库系统进行管理。
第六章多媒体数据库 及基于内容检索
信息量爆炸式增长
数据库系统
数据库作为一种独立的应用领域已得
到了计算机界的认可,数据库已和计 算机、网络一起成为用户应用系统的 三大支柱。 数据库系统(DBS)由四个要素组成:用 户、数据库、数据库管理系统(DBMS )以及支持它的 硬件和软件。DBMS 是管理数据库的系统软件,它是DBS 中最主要的成分。
多媒体数据库的基本功能
多媒体数据库系统除必须满足物理数据独立性和逻辑数据
独立性外,还应满足媒体数据独立性。
– 物理数据独立性是指物理数据组织(存储模式)改变时,不影响 概念数据组织(逻辑模式); – 逻辑数据独立性是指概念数据组织改变时,不影响用户程序使用 的视图(外模式); – 媒体数据独立性是指在多媒体数据库管理系统的设计和实现时, 要求系统能保持各种媒体的独立性和透明性,即用户的操作可最 大限度地忽视各种媒体的差别,而不受具体媒体影响和约束;同 时要求他不受媒体变换的影响,实现复杂数据的统一管理。 – 由于多媒体数据库的数据种类繁多,语义关联丰富,内部结构表 示各异,故各种模式及映像比传统数据库复杂得多,涉及的数据 量也大得多,要真正做到物理数据独立性、逻辑数据独立性和媒 体数据独立性并非易事。
信息检索的革命 --基于内容的多媒体信息检索

基于内容的视频检索常用关键技术
---- 目前人们普遍认为视频结构的模型化或形式化是解决基于内容视频检索问题的关键,为此需要解决以下关键技术。
---- 1.关键帧抽取与镜头分割
---- 文本索引使用关键词作为标识句子、段落、文档的指针,同理,在视频流信息中,关键帧起着与关键词类似的作用。人们常用关键帧来标识场景、故事等高层语义单元。比帧高级一些的视频基本单元是镜头,通常视频流中的镜头由在时间上连续的视频帧组成,它代表一个场景中在时间上和空间上连续的动作,对应着摄像机的一次纪录起停操作。镜头之间可存在多种类型的过渡方式,最常见的是切变(Cut),表现为在相邻2帧间发生突变性的镜头转换。此外,还存在一些较复杂的过渡方式,如淡入、淡出等。
国内外已开发出的原型系统
---- 1.QBIC系统
---- IBM Almaden研究中心研究开发的,是基于内容检索系统的典型代表。QBIC系统允许使用例子图像、用户构建的草图和图画、选择的颜色和纹理模式、镜头和目标运动和其他图形信息等,对大型图像和视频数据库进行查询。
---- 2.Photobook系统
---- 3.形状特征提取
---- 一般说来,形状的表示可分为基于边界的和基于区域2类,前者使用形状的外部边界,而后者使用整个区域。
---- 4.相关反馈
---- 仅仅基于图像低层特征很难给出令人满意的结果,主要原因是图像低层特征和高层语义间存在着很大的差距。为了解决这个问题,一方面需要研究出更好更有效的图像表示方法,另一方面我们可以通过人机交互的方式来捕捉和建立低层特征和高层语义之间的关联,这就是所谓的相关反馈技术。相关反馈技术最初用于传统的文本检索系统中,它的基本思想是,在检索过程中,系统根据用户的查询要求返回检索结果,用户可以对检索结果进行评价和标记,并将这些信息反馈给系统,系统则根据这些反馈信息进行学习,并返回新的查询结果,从而使得检索结果更加满足用户的要求。1998年Rui Yong在MARS系统中首次将相关反馈应用于基于内容的图像检索中,自此采用相关反馈技术进行检索的研究开始多起来。基于内容检索中的相关反馈技术大致可分为4种类型: 参数调整方法、聚类分析方法、概率学习方法和神经网络方法。
基于内容的多媒体检索技术综述

基于内容的多媒体检索技术综述摘要本文通过分析基于内容的多媒体信息检索技术的特点,阐述了基于内容的多媒体信息检索的图像检索技术、视频检索技术以及其发展趋势。
关键词多媒体信息检索技术;图像检索;视频检索1关于基于内容的多媒体信息检索技术所谓基于内容的信息检索,是对文本、图像、音频、视频等媒体对象进行内容语义的分析和特征的提取,并基于这些特征进行相似性匹配的信息检索技术。
它与传统数据库基于关键词的检索方式相比,具有如下特点:1)突破了关键词检索基于文本特征的局限,直接从媒体内容中提取特征线索,使检索更加接近媒体对象。
2)提取特征的方法多种多样。
3)人机交互式检索。
通过人机交互的方式来捕捉和建立多媒体信息低层特征和高层语义之间的关联,即所谓相关反馈技术。
其目的是在检索过程中根据用户的查询要求返回一组检索结果,用户可以对检索结果进行评价和标记,然后反馈给系统,系统根据这些反馈信息进行学习,再返回新的查询结果,从而使检索结果更接近用户的要求。
4)相似性匹配检索。
基于内容的检索是按照一定的匹配算法将需求特征与特征库中的特征元数据进行相似性匹配,满足一定相似性的一组初始结果按照相似度大小排列,提供给用户。
这与关键词的精确匹配算法有明显不同。
5)逐步求精的检索过程。
用户通过浏览初始结果,可以从中挑选相似结果,或者选择其中一个结果作为示例,进行特征的调整,并重新进行相似性匹配,经过多次循环后不断缩小查询范围,做到逐步求精,最终得到较为理想的查询结果。
2基于内容的图像检索基于内容的图像检索技术是通过分析图像的内容,提取其颜色、形状、纹理等可视特征,建立特征索引,存储于特征库中;在检索时,用户只需把自己对图像的模糊印象描述出来,就可以通过多次的近似匹配,在大容量图像库中查询到所需图像。
2.1基于颜色特征的检索基于颜色特征的检索算法中通常用颜色直方图来表示图像的颜色特征。
直方图能较好地反映图像中各颜色的频率分布,横轴表示颜色等级,纵轴表示在一个颜色等级上,具有该颜色的像素在整幅图像中所占的比例。
基于内容的多媒体检索技术

基于内容的多媒体检索技术摘要:基于内容检索是多媒体研究中的新兴热点,会逐渐在很多领域中得到广泛的应用,本文主要介绍了基于内容的多媒体信息检索的概念、特点、查询和检索过程、基于内容的检索、基于视频的检索以及基于内容的多媒体信息检索的研究方向。
关键词:基于内容的检索;多媒体;图像检索;视频检索1.引言多媒体技术和Internet的发展将人们带入巨大的多媒体信息海洋,并进一步导致了超大型多媒体信息库的产生,光凭关键词是很难做到对多媒体信息的描述和检索的,这就需要有一种针对多媒体的有效的检索方式。
如何有效的帮助人们快速、准确地找到所需要的多媒体信息,成了多媒体信息库所要解决的核心问题。
2.多媒体检索技术原理与方法多多媒体检索是一种基于内容特征的检索(CBR:content-based retrieval)。
所谓基于内容的检索是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。
基于内容的检索突破了传统的基于文本检索技术的局限,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。
在这一检索过程中,它主要以图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法为部分基础技术,是多种技术的合成。
与传统的信息检索相比,CBR有如下特点:(1)相似性检索:CBR采用一种近似匹配(或局部匹配)的方法和技术逐步求精来获得查询和检索结果,摒弃了传统的精确匹配技术,避免了因采用传统检索方法所带来的不确定性。
(2)直接从内容中提取信息线索:CBR直接对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。
(3)满足用户多层次的检索要求:CBR检索系统通常由媒体库、特征库和知识库组成。
媒体库包含多媒体数据,如文本、图像、音频、视频等;特征库包含用户输入的特征和预处理自动提取的内容特征;知识库包含领域知识和通用知识,其中的知识表达可以更换,以适应各种不同领域的应用要求。
基于内容的多媒体信息检索技术在广电海量媒体内容管理中的应用

l =I 1 .  ̄-n = z-: 。 i !
lc Z A V
在检 索界面中 ,提供下列查询功能 : 1) 文本关键 词查询 ; 2) 样本图像查询 ; 3) 关键帧查询 ;
个 集群 管理子 系统 ,它负 责对各个 服务 器 的状 态进 行监 控 ,
将采集到 的数据上载到 选定 的服 务器。服务器将 收到的视频 数据存储 到磁盘 ,并作 内容分析 、处 理 ,生成相应 的索引数
据 库。浏览检 索服务根据 索引从视频 数据库 中提取 出用户需 要的视频片段。
音进行识 别的知识等 。如何有效地 获取 、管理 和维护这 些知 识 是 非常重要的 ,需 要通过大量 的前期 训练、人工 交互 、自
4) 闻标题查询等。 新
下载 功能是指 用户将感兴 趣的节 目片段从服 务器传送 到 客户端存储。
12系统架构 . 系统硬件结构组成框 图如 图 2所示。 根 据输入节 目套数和 归档时 间要 求的不 同,可 以配备 的 服 务器数量 为 1 1 ,存储 空间变化范 围为 5 0 ~ T 。整 ~0 0 GB 5 B 个 系统 可以配备的采集工作站数量为 1 在 4台服务器 内实现 镜像备份 ,所 以任何一
台服务器暂 时停止工作都不会对系统造成影 响。
整个 系统 的工 作 框 图 如 图 3所 示 。
所 有 的服务 器处于 集群工作 方式 ,所 有 的采 集终 端也处 于并行工作方式。采集终端根据当前服务器信息和负载状态 ,
套数 为 1 8 。 - 0
内容 生成就是 将视频 节 目内容 和特 定的数据 增值业务 内
容结合起来 ,形成新的内容 。
4 浏 览 与 检 索 引擎
多媒体数据库及基于内容检索

多媒体数据库及基于内容检索在当今数字化信息爆炸的时代,多媒体数据如图片、音频、视频等在我们的日常生活和工作中无处不在。
为了有效地管理和利用这些海量的多媒体信息,多媒体数据库应运而生。
同时,基于内容的检索技术也成为了从多媒体数据库中快速准确获取所需信息的关键手段。
多媒体数据库是一种能够存储、管理和处理多媒体数据的数据库系统。
与传统的关系型数据库不同,多媒体数据库需要处理的数据类型更为复杂多样,包括图像、音频、视频、文本等。
这些数据不仅具有大容量、高维度的特点,还存在着语义丰富、结构复杂等问题。
因此,多媒体数据库在数据模型、存储结构、索引机制等方面都有着独特的设计和实现方式。
在数据模型方面,多媒体数据库通常采用面向对象的数据模型或者扩展的关系模型来描述多媒体数据的复杂结构和语义关系。
例如,对于图像数据,可以将其表示为对象,包含图像的属性(如分辨率、色彩模式等)、图像的内容特征(如颜色直方图、纹理特征等)以及与其他数据的关联关系。
存储结构方面,由于多媒体数据的大容量特点,传统的磁盘存储方式可能无法满足性能要求。
因此,多媒体数据库常常采用分布式存储、缓存技术、数据压缩等手段来提高数据的存储和访问效率。
索引机制对于多媒体数据库的性能至关重要。
针对不同类型的多媒体数据,需要设计专门的索引结构。
例如,对于图像数据,可以基于颜色、形状、纹理等特征建立索引;对于音频数据,可以基于频率、时长、节奏等特征建立索引;对于视频数据,可以基于关键帧、镜头切换、运动轨迹等特征建立索引。
基于内容的检索是多媒体数据库中的核心技术之一,它允许用户根据多媒体数据的内容特征而非仅仅是元数据(如文件名、创建时间等)来进行检索。
基于内容检索的基本思想是首先对多媒体数据进行特征提取,然后将提取的特征与用户输入的查询特征进行匹配,从而找到相关的多媒体数据。
在特征提取方面,需要根据不同类型的多媒体数据采用不同的方法。
对于图像数据,可以提取颜色、形状、纹理等特征;对于音频数据,可以提取频谱、音色、节奏等特征;对于视频数据,可以提取关键帧特征、镜头特征、运动特征等。
基于内容的多媒体信息检索

般 包 括 图像 信 息 、音 频 信 息 和 视 频 进 行 ,费 时 费 力 , 且 缺 乏 客 观 性 ,故
信 息 等 。 由于 多 媒 体 数 据 在 组 织 结 构 检索 结 果存 在 不稳 定性 。 和 表 达 形 式 上 都 与 传 统 的 文 字 数 据 不 同 ,所 以 如 何 从 庞 大 的 信 息 集 合 中快
摘 要 :多媒 体 信 息 检 索 已 经成 为 生 活和 工 作 中不 可 或缺 的
一
2 多媒体检索技术概 述
2 . 1多 需
求 向量 ,并 将 需 求 向量 与 索 引 库 中 的
部 分 ,基 于 内 容 的 多媒 体 检 索 ,
内容 的检 索 图像 特征 提取 匹配
技 术
确 性 却可 以大 大 提高 。
频 的媒 体 特 征 主 要包 括 镜 头 、场景 、 镜 头 的运 动等 。
2 . 2基 于文水 的 多媒体检索
基 于 文 本 的 检 索 是 目前 网络 检 索 系统 中 的 主 流 方 式 。它 的 实 现 方 式 是
图 像 噪 声 以及 颜 色 分 布 不 均 匀 对 图像 方 图 。我 们 在 这 个 过 程 中 常 使 用 的方 元 , 纹 理 就 是 纹 理 元 规 律 性 分 布 的 结 特征 提 取造 成 的影 响 。 ( 3)特 征 提取 法 包 括 颜 色 直 方 图 、颜 色 矩 、颜 色集 、 果 。 纹 理 特 征 具 有 旋 转 不 变 性 ,且 抗 颜 色聚 合 向量 、颜 色相 关 图等 。 ( 1)颜 色直 方 图 噪 能 力强 ,但 受 图 像 分 辨 率 的影 响 较
基于内容的检索技术与多媒体数据库

计 算机 与 Байду номын сангаас络
基 于内 窖昀 植 索 技 术 与多 媳 傩 数据 库
华 东师 范大 学教 育信 息技术 学 系 上 海农林 职业技 术 学院应 用外语 系 张翠 玉
[ 摘 要] 本文主要讨论 了 多媒体数据库的检索技术 中, 在 围绕图像、 视频 、 音频等 多 媒体信息 , 实现对多媒体数据库基于内容的检索。 [ 关键词 ] 多媒体 基于 内容的检 索 视频 音频 查询接 口 多媒体是将计算机 、 电视机 、 录像机 、 录音机 和游 戏机 等技术融 为 体 , 电脑与用户之间可以相互交流的操作环境 。 形成 它可以接收外部 图像 、 声音 、 录像及各种 媒体信息 , 经计算机加 工处 理后以图片 、 文字 、 声音 、 动画等 多种方 式输 出 , 实现输入输 出方式 的多元 化 , 改变 了计算 机只能输入输 出文字 、 数据 的局限 , 计算 机开始 能说会 唱起来 。在计算 机和通信领域 , 我们所指的信息 的正 文、 图形 、 声音 、 图像 、 画, 可以 动 都 称为媒体 。 从计算机和通信设备处理信息的角度来看 , 我们可以将 自 然 界和人类社会原始信息存在 的形式——数据 、 文字 、 有声的语言 、 音响 、 绘 画、 动画 、 图像( 静态 的照片和动态 的电影 、 电视和录像 ) , 等 归结为三 种最基本的媒体 :声 、图 、 。传统 的计算机 只能够处理单媒体—— 文 “ ” 电视能够传播声 、 文集成信息 , 文 , 图、 但它不是多媒体系统 。通过 电 视, 我们只能单向被 动地接受信息 , 不能双 向地 、 主动地处理信息 , 没有 所谓的交互性。可视电话虽然有交互性 , 但我们仅仅能够听到声音 , 见 到谈话人 的形象 , 也不是 多媒体 。所谓多媒体 , 是指能够 同时采集 、 处 理、 编辑 、 存储 和展示两个或 以上不 同类型信息媒体的技术 , 这些 信息 媒体包括文字 、 声音 、 图形 、 图像 、 动画和活动影像等。 多媒 体数据包含有 图像 、 视频 、 音频等十分丰富的信息内容 , 有着 : 数据量大 、 数据类型多 、 数据类型差别大 、 输入和输出复杂等特点 。 多媒 体数据大多具有难 以用符号描述的特征 , 如图像中的颜 色分布 , 视频中 的运动 、 音频 中的音调等 , 由于它们属 于非格式化数据 , 以对其 进行 所 查询和处理 就相 当困难 , 即基于内容 的检索 问题。 多媒体 数据库 M BM h nd a bs 是建立多媒体应用软件 系 D ( u i ei D t ae i a a ) 统最重要 的工具 。 它是数据库技术与多媒体技术结合 的产物。 多媒 体数 据库不是对现有的数据进行界面上的包装 ,而是从 多媒体数据 与信 息 本身的特性 出发 , 考虑将其 引入到数据库中之后而带来 的有关问题。多 媒体数据库从本质上来说 , 要解 决三个 难题 。第一是 信息媒体 的多样 化, 不仅仅是数值数据和字符数据 , 要扩 大到多媒体数据 的存储 、 组织 、 使用和管理 。 第二要解决 多媒体数据集成或表现集成 , 实现多媒体 数据 之间的交叉调用和融合 , 成粒度越细 , 集 多媒体一体 化表现才越强 , 应 用 的价值也才越大。第 三是多媒体数据与人之 间的交互性。 随着互联网的发展 , 对多媒体数据的检索要求越来越多。在传统 的 数据库检索 中, 一般采用 的是基于标识符 、 属性 、 字等形式的检索 关键 方 法, 这些方法只与数据类 型和数据结构有关 , 不需要对 内容作任何分 析。这种传统的基于结构化 的关 系数据库检索方式并不适合非结构化 的多媒体数据的检索 , 为多媒体数据的检索提 出了新的要求。 这就 多媒 体数据库在其应用中并不满足 于这些简单 的检索方式 ,而需要分析媒 体 的语 义内容 , 得到更深 的检索层次 。如 “ 查找包含人脸的所有 图像 ” , 这种检 索就涉及到图像 的内容 , 它很难用一般 的形式进行描述。 概括地 说: 涉及媒体 内容和语义理解 的检索都可以归纳为基于内容的检索 。 基 于内容检索 , 就是从多媒体数据 中提取 出特定 的信息线索 , 然后 根据这些线索从大量的数据库 中, 检索 出具有相似特征 的多媒体数据 。 基于内容 的检索是一门新 的信息检索技术 。它 以认知科学 、 用户模型 、 模式识别 、数据库管理 系统 、信息检索等领域 的研究方法和技术为基 础, 研究新的媒体数据 的表示 与数据存储模式 、 有效 可靠 的查询方法 、 智 能查 匐接 口等。 基 于内容 的检 索是对媒 体对象 的内容及 上下文语 义环境 进行检 二 索, 如 像 中的颜色 、 纹理 、 形状 , 视频中的镜头 、 场景 、 头的运动 , 镜 声 音 中的音调 、 响度 、 音色等 。基 于内容 的检索 突破 了传统 的基于文本检 索技术 的局 限 , 直接对 图像 、 视频 、 频 内容进 行分析 , 音 抽取特 征和语 义, J 利月 这些内容特征建立索引并进行检索 。在这一检索过程 中, 它主 要 以图像 处理 、 模式识别 、 计算 机视觉 、 图像理解等学科 中的一些方法 为部分基础技术 , 多种技术的合成。 是 、 与传统的信息检索相 比, 基于内容的检索有如下特点 : f 从媒体 内容中提取信息线索 。基于 内容 的检索突破 了传统 的基 1 ) 于关键词 检索的局限 , 直接对 图像 、 频 、 视 音频进行分析 , 取特征 , 抽 使 得检索更加媒体对象。 f1 2提取特征的方法多种多样 。 以图像 的提取为例 , 可以提取形状特 征、 颜色特征 、 轮廓特征等 。 f) 3人机交互进行。 一般地人类对 于特征 比较敏感 , 能迅速分辨 出目 标 的轮廓 、 音乐的旋律等 , 但对 于大量的对象 , 一方 面难 以记 住这些特 征, 另一方面人工从 大量数据 中查找 目 标效率非常低。因此 , 使用基于 内容检索 的系统时 , 与计算机相互配合 , 人 进行启发式检索是一种有效
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于内容的多媒体检索摘要对基于内容的多媒体检索的有关概念、特点进行介绍,基于内容的分析方法的提出,在压缩域上直接对MPEG音频信号进行分析,达到多媒体实时分析检索目的。
算法分为三步:首先利用压缩域特征对音频信号进行分割,然后应用分层方法把分割出来的音频片段粗分成音乐、语音和其它三个基本类别;由于话者身份是语音信号中的重要检索线索,最后利用隐马尔可夫链实现了与文本无关的话者识别,并用识别出来的话者身份对语音信号和其相应的视频进行标注。
关键词音频检索概念多媒体基于内容的检索压缩域隐马尔可夫链话者识别多媒体检索引言随着计算机应用技术的发展与互联网速度的提高,用户可以访问到的文本、音频和视频等多媒体信息不断增加。
这样,计算机用户在处理信息时所面临的主要问题已经从早期的信息匮乏转变为从海量信息中快速合理检索出需要信息。
于是,从90年代初开始,基于内容的图像(视频)检索成为多媒体领域研究的热点之一[1][2]。
在基于内容的图像(视频)检索中,颜色、纹理、形状和运动等视觉特征被提取出来表征图像(视频)内容所蕴涵的语义,从而实现图像(视频)数据的查询与管理。
基于内容的多媒体检索原理与特点多媒体检索是一种基于内容特征的检索(CBR:content-based retrieval)。
所谓基于内容的检索是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。
基于内容的检索突破了传统的基于文本检索技术的局限,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。
在这一检索过程中,它主要以图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法为部分基础技术,是多种技术的合成。
与传统的信息检索相比,CBR有如下特点:(1) 相似性检索:CBR采用一种近似匹配(或局部匹配)的方法和技术逐步求精来获得查询和检索结果,摒弃了传统的精确匹配技术,避免了因采用传统检索方法所带来的不确定性。
(2) 直接从内容中提取信息线索:CBR直接对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。
(3) 满足用户多层次的检索要求:CBR检索系统通常由媒体库、特征库和知识库组成。
媒体库包含多媒体数据,如文本、图像、音频、视频等;特征库包含用户输入的特征和预处理自动提取的内容特征;知识库包含领域知识和通用知识,其中的知识表达可以更换,以适应各种不同领域的应用要求。
(4) 大型数据库(集)的快速检索:CBR往往拥有数量巨大、种类繁多的多媒体数据库,能够实现对多媒体信息的快速检索。
基于内容分析方法的提出我们知道视频、音频都是按时间顺序来组织的,传统方法查找其中某个片断都是通过快进或快到等顺序来浏览内容查找,这种方法不仅要求用户注意力高度集中,而且特别浪费时间。
由于视频、音频内容包含复杂丰富的信息数据,对视频、音频检索已成为实际应用中一个难题,而基于内容分析方法是目前视频、音频检索主要发展趋势。
如何解决多媒体信息内容描述问题,目前主要是采用基于内容分析视频处理与检索方法,这种方法是近年来随着多媒体数据处理技术发展而提出的。
基于内容分析的方法是从另一个角度来认识多媒体信息,从早期基本颜色检索,到综合利用多种多媒体特征进行检索。
如:颜色、纹理、形状、场景、镜头、帧等特征信息。
目前该技术已经发展到实用阶段,其中多媒体内容描述接口MPEG-7是目前被广泛接受的一种国际标准,其核心就是基于多媒体内容分析。
MPEG序列媒体标准是目前最为广泛应用的视/音频媒体标准,目前广泛应用的主要有MPEG-I、MPEG-II、MPEG-4等,它们都是对数字运动图像及伴音编码进行压缩的一种国际标准,其中MPEG-4采用按照具有一定时间关系和空间关系的对象来进行视、音频编码的处理方式。
而MPEG-7是在MPEG-4基础上发展起来,MPEG-7重点是对视音频信息内容进行不同程度描述与定义,而与多媒体信息的编码和存储方式无关。
由于音频也蕴含了大量的语义信息,近年来,基于内容的音频检索[3]也受到越来越多的关注,其主要思想是通过提取音频流中的时域(频域)特征来描述音频内容。
由于多媒体本质是由文本,视频和音频等多种媒质交互融合而成的,它们之间存在或多或少的语义关联,一种媒质和另外一种媒质可以表示同一语义,媒质之间可以相互索引,如[4]中通过音频分类实现为视频数据建立索引。
但是,无论是基于内容的图像(视频)检索或是基于内容的音频检索,目前还是基于视觉或听觉感知特征相似度比较的检索,而我们对多媒体内容的描述是基于其所蕴涵的语义信息的。
因此,将多媒体数据流分类成预先定义的语义模型是多媒体检索面临的挑战[5]。
语义概念模型可以分为三类:一是高级语义,这种语义是不同时间和空间几个多媒体事件高度抽象概念化的结果,如“厄尔尼诺气候的形成”,它需要探讨人脑的思维机制;二是中级语义,这种语义是高级语义中所涉及的人或事件的分别描述,不涉及几个事件的交叉,如“某个主持人某类新闻报导”或“某场足球比赛”;最后是低级语义,它是利用视觉或听觉信息对多媒体数据进行初步分类,如“音乐”、“语音”或“海滩”等。
对多媒体数据进行语义标注实现了多媒体从无结构到结构化的过程,可以有效组织多媒体数据流,方便检索。
另外,随着网络技术的普及,对多媒体数据(特别是音频数据)进行实时分析也成为了需要[6]。
传统多媒体检索中提取的特征基本上是基于非压缩域的,随着多媒体应用技术的发展,MPEG凭借其易于传输存储的优点而成为多媒体数据压缩通用标准[7]。
用非压缩域方法来对MPEG数据流进行语义标注时,必须先解码,才能提取特征和对特征分析,造成运算量无谓增大,不能保证实时效果。
同时,MPEG对音频部分的编码结合了听觉心理学,编码时就考虑了人的听觉感知特性,所以直接在MPEG压缩域上提取特征,可以使这些感知特性不会丢失,保证对音频信息的正确理解。
在音频数据流中,说话人是非常重要的语义信息,如不同的节目主持人会报导不同内容的新闻节目(体育,天气预报和时事等)。
通过对讲话人语音的分析,自动确认出话者身份,既可以用话者身份对音频进行中级语义标注,也可以对其相应的视频信息流进行分类,实现不同媒质之间的索引。
基于此,本文提出了一种直接在压缩域上进行多媒体分析的方法:首先,MPEG数据流被分成视频和音频两部分,然后对压缩域音频流进行分割与粗分,并且对识别出来的语音片段中的话者身份进行确认;最后用确认出来的话者身份对相应的语音音频和视频进行标注(如图一)。
图一压缩域特征多媒体检索分类流程压缩域音频特征提取所谓音频特征就是用来表征原始音频信息的数据。
根据特征空间的不同,音频特征可以分为时域、频域和时频三类:时域特征包括短时能量、过零率和线性预测系数等;频域特征包括线性预测(LPC)倒谱系数和MFCC 等;时频特征包括短时傅立叶变换和小波系数等。
近年来,为了更真实反映原始音频数据流首先被耳蜗处理,然后才在大脑处形成“音频场景”的事实[10],仿照人的听觉感知模型[11],一些特征被提取出来。
于是,根据是否使用感知模型,音频特征可以分为物理和感知两类。
物理特征包括短时能量、过零率、基本频率等,它来源于音频信号本身;感知特征包括音调和音高等,它依赖于人的听觉模型。
要指出的是,有些时频特征也属于感知特征,如小波变换每层分解相当于一个恒Q 滤波器,符合人耳听觉感知特性。
MPEG 音频压缩利用了“心理声学模型(psychoacoustics model )”,在MPEG 压缩领域上直接提取特征,可以保留这些感知特性,更好象人的听觉感知系统一样,实现对音频语义内容的理解。
首先把MPEG 数据流分解成视频和音频两部分。
其中音频流数据是MPEG -2 Layer III ,采样频率为22050Hz 。
按照传统语音处理中对信号处理分成短时“帧”的要求,音频数据被分割成大约为20毫秒的帧序列(每一帧有576个采样值)。
32,..2,1,18)][(][1812==∑=i i S i M t t对于每一帧,首先求出每一个子带矢量值的均方根 ,其中 是32维的子带矢量, 也是一个32维的矢量。
表征了这一帧的特性,由此可以得到以下的具体特征:(1)质心(Centroid ):∑∑===321321][][i i i M i iM C ,指一个矢量的平衡点,质心反映了在压缩域上音频信号的基本频率带;(2)衰减截止频率(Rolloff ):)][85.0][arg(3211∑∑====i R i i M i M R ,指音频信号能量衰减3分贝时的截止频率。
由于人耳对音频信号强弱变化相当敏感,衰减截止频率其实就是自适应的听觉阈值,它体现了心理声学中的听觉掩饰特性;(3)频谱流量(Spectral Flux ):指相邻两帧的 矢量正规化后以2为模的差分,频谱流量体现了音频信号的动态特征;(4)均方根( ):32)][(3212∑==i i M RMS ,用来衡量这一帧音频信号强度。
音频场景的切换通常伴随着音量变化,因此 在分割中是十分重要的一个指标。
由于音频信号的非平稳特性,为了更好表征音频的时序变化,上述四个特征的统计信息也被提取出来作为音频特征:实验中,使用40帧为一个窗口(大约1秒),对每一帧,计算其前一个窗口中所有帧的质心,衰减截止频率和频谱流量的均值和方差,并且计算均方根低于某一阈值的比例,得到七个具有统计意义的特征。
这样,对于每一帧,总共提取了11个特征。
每个音频数据流的前40帧统计特征值是这个音频流所有对应统计特征的平均值。
这11个特征反映了音频的静态和动态特性,符合心理声学模型,构成了压缩域上音频信号的描述算子,被用来进行音频的分割、粗分和识别。
音频信号分割与粗分研究表明,虽然音频信号特征随时间变化剧烈,但是对于同一音频类而言,其特征之间的距离变化大致有一定规律的,通过选取好的窗口距离可以体现出这种规律性来[12][13]。
利用前面提取的11个特征,实验中实现了如下的音频分割算法:(1)读入MPEG 音频流,对每一帧求出特征矢量 , 是11维, 表示时间(帧数);(2)求出前后相邻特征向量 和 之间的对数化欧氏距离))(log(1112)1(∑=+-=i i t ti t f fd ,其中 表示第 帧中的第 个特征;(3)对于得到的 序列,求出时刻 前后窗口长度为 的 均值的差||11∑∑+=-=-+=k t ti i t k t i i t d d k df ;这个过程叫窗口化(4)如果 在某一时刻值大于阈值 ,则判定在该时刻特征矢量发生了跃变,因此发生了音频信号的转换,于是音频流从此处分割。