基于随机访问的多视点视频编码模式评价模型

合集下载

多视点视频编码中随机访问解码路径的联合计算方法

的所有码流传输至解码端．由于传输了大量解码端不需要处理的码流，上述方法浪费了大量的网络带
皇
宽．因此，在传输码流前要预先计算出所需传输的码流，即计算出解码路径，以有效地减少带宽需求．文
％
献『采用附加帧信息的方法实现了一个基于递归的５１
算法，大大减少了所需传输的码流，但计算出的解码
图１典型ＭＶＣ预测结构
ＦｉｒＴｙｃｌＭＶＣｐｅｉｔｏｔｕｔｒｇｕｅ１ｐｉａｒｄｃｉｎｓｒｃｕｅ
路径并不是最优的．此后，文献『提出了帧等级的概６１
Ｄ：０９９ｊｓｎ０５—２７２１．．１ＯＩ１．６／．ｓ．５９．１４０２３ｉ２８００
多视点视频编码中随机访问解码路径的联合计算方法
程明明１安平，王平张兆杨，，
１海大学通信与信息工程学院，上海２０７．上００２２．新型显示技术及应用集成教育部重点实验室，上海２０７００２
由多个相机同时采集获得的多视点视频数据在ＦＶ（由视点电视）和３ＤＶ（维电视）Ｔ自Ｔ三上有着广泛的应用［２区别于传统的二维电１Ｊ－．
ｉｇＭＶ技术是未来视频通信领域中的一项关键ｎ，Ｃ）
４６０
应
用
科
学
学
报
第２９苍
用户发出随机剀换请求至获得所需码流的总时问，

基于视差估计的多视点视频编码研究的开题报告

基于视差估计的多视点视频编码研究的开题报告
1. 研究背景
多视点视频编码技术是一种新兴的视觉技术，能够提供更好的观看
体验以及更广阔的应用领域。

它可以利用多个相机拍摄同一个场景的不
同视角，生成具有立体感的视频，让观众可以自由地选择自己想看的角度。

多视点视频编码技术的发展和应用，需要解决众多复杂的技术问题，其中视差估计是多视点视频编码中的重要环节。

视差是指同一时刻拍摄同一个场景的不同相机之间的视角差异。

视
差估计的目的是通过计算视差，将多个视角的视频帧对齐。

视差估计算
法的精度和速度都是关键的技术指标，影响到多视点视频编码的效率和
质量。

2. 研究内容
本研究的主要内容是基于视差估计的多视点视频编码研究。

具体包
括以下几个方面：
（1）对现有的多视点视频编码算法进行总结和分析，包括基于深度学习的方法、基于视差场的方法和基于3D模型的方法等；
（2）对视差估计算法进行研究和实现，探索基于光流和基于深度传感器的视差估计算法；
（3）提出一种新的多视点视频编码算法，将优秀的视差估计算法应用到编码过程中，提高编码效率和质量；
（4）进行实验验证，比较多种视差估计算法和多视点视频编码算法的性能和效果。

3. 研究意义
本研究可以有以下几个方面的意义：
（1）为多视点视频编码技术的发展提供了基础研究支撑，为其应用领域拓展奠定基础；
（2）提高多视点视频编码的效率和质量，在网络传输和存储等方面都能够得到更好的应用和推广；
（3）对视差估计算法进行深入研究和评估，为后续的视觉算法研究提供参考和借鉴；
（4）为视觉传感和计算机视觉领域的进一步发展和应用做出贡献。

基于视觉几何的多视点视频编码研究的开题报告

基于视觉几何的多视点视频编码研究的开题报告一、研究背景及意义随着视频技术的不断发展，多视点视频逐渐成为了存在于虚拟现实（VR）和增强现实（AR）等领域的基石，其能够提供更加真实、逼真的场景体验，成为了现代多媒体技术研究的热点之一，具有高度的研究和应用价值。

目前国内外已有许多对多视点视频编码的研究，但是多视点视频编码仍存在许多普遍而严重的问题，包括编码效率和视频质量等问题。

因此，本研究将围绕多视点视频编码，基于视觉几何进行深入探讨，力求为多视点视频领域的进展做出贡献。

二、研究内容与方法本研究以多视点视频编码为研究的重心，采用视觉几何技术，研究多视点视频的特性及其与传统视频的差异，尝试探索视觉几何技术在多视点视频编码中的应用，主要研究方向如下：1. 研究基于视觉几何的多视点视频编码算法通过对多视点视频的场景了解和多视点视频相机数组特性的研究，可以实现对场景的合理划分和多视点视频的压缩和编码。

2. 研究多视点视频的场景信息抽取和处理通过挖掘多视点视频的场景信息，结合视觉几何技术进行校准和优化，形成更加真实逼真的场景体验。

3. 研究多视点视频的质量评估方法建立科学可靠的多视点视频质量评估体系，对研究成果进行客观、科学的评估。

三、预期成果本研究预期通过视觉几何技术在多视点视频编码中的应用，取得以下预期成果：1. 综合多视点视频编码算法和视觉几何技术的特性，实现对多视点视频的高效压缩和编码。

2. 构建多视点视频场景信息抽取和处理方法，实现多视点视频的场景还原和增强。

3. 创新性地探究多视点视频的质量评估方法，实现对多视点视频的质量可视化展示和科学评估。

四、研究计划研究任务及时间安排：任务名称时间安排开题报告撰写与提交 2周多视点视频编码算法研究 8周多视点视频场景信息抽取和处理 8周多视点视频质量评估方法研究 8周研究总结和论文撰写 4周五、参考文献[1] Liang Y, Chi M. Multiview Video Coding with HighEfficiency[C]// 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017.[2] Lai Y, Wang C. Visual Analysis of Multiview 3D Video Using Deep Networks[J]. IEEE Transactions on Image Processing, 2018,27(2):559-571.[3] Yang Y, Liu Y, Zhao Y. An integrated format conversion approach for multi-view video coding[C]//2017 Seventh International Conference on Information Science and Technology (ICIST). IEEE, 2017.[4] Zhihong Zhang, Kai-Sheng Ma. Highly Efficient Multiview Video Coding Using Intermediate-View Based Interpolation and Skip-DomainMotion Prediction. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 28(4):966-979.。

一种多视点视频系统中随机访问的解码路径计算新方法

一种多视点视频系统中随机访问的解码路径计算新方法贺人龙;蒋刚毅;郁梅;符冉迪【期刊名称】《中国图象图形学报》【年(卷),期】2009(014)004【摘要】在多视点视频系统中,用户端的随机访问性能是表征交互能力的一个重要指标.当用户进行随机访问时,需要快速确定相应的解码路径,以快速有效地获得相应视点与时刻的图像帧.针对H.264多视点视频系统中随机访问效率不高这个情况,分析了传统多视点视频系统随机访问解码路径的计算方法,讨论了其中存在的非最优解码路径问题,提出帧等级矩阵的概念.然后,提出针对HBP(hierarchical B pictures)这种具有代表性的多视点视频编码预测结构的解码路径计算快速算法.实验结果表明,所提算法能获得较优解码路径,从而有效地提高随机访问性能,降低解码复杂度.【总页数】6页(P636-641)【作者】贺人龙;蒋刚毅;郁梅;符冉迪【作者单位】宁波大学信息科学与工程学院,宁波,315211;南京大学软件新技术国家重点实验室,南京,210093;宁波大学信息科学与工程学院,宁波,315211;南京大学软件新技术国家重点实验室,南京,210093;宁波大学信息科学与工程学院,宁波,315211;宁波大学信息科学与工程学院,宁波,315211【正文语种】中文【中图分类】TP391.41【相关文献】1.多视点视频编码中随机访问解码路径的联合计算方法 [J], 程明明;安平;王平;张兆杨2.一种识别低压电力线载波通信系统中随机脉冲噪声的新方法 [J], 丁永平;党丽;刘超;苏醒3.视频监控系统中的一种信息存储新方法 [J], 濮正国;李正明;钱小荣4.视频监控系统中的一种信息存储新方法 [J], 濮正国;李正明;钱小荣5.在机床主运动系统CAD中确定计算转速的一种新方法 [J], 阎树田因版权原因，仅展示原文概要，查看原文内容请购买。

支持空域随机访问的多视点视频编码方法

Ｊｌｕｙ，２００８
支持空域随机访问的多视点视频编码方法
刘延伟黄庆明 ’
（国科学院研究生院中北京
季向阳霍龙社高文 ”
北京１０４００９）北京１０７）０８１
（国科学院计算技术研究所数字媒体研究中心中
ｃｄｃＡｎｎｄｐｎｄｎｓａｅｔｍｅｕｃｉｇｓｉｓｐｏｏｓｄｏｉｔｈｓｏｅｆｎｔｒｆａｏｅ．ｉｅｅｅｔｐｃ —ｉｃｂｅｏｄｎｉｆｒｔｒｐｅｔｌｍｉｔｅｃｐｏｉｅ —ｒｍｅｐｅｉｔｏｉｌｘｉｅｒｒｎｚｎｇＧＯＰａｔｔｏｎｎｔｍｅａｎｐｃｉｅｉｎｓ，ｗｈｃａａｅｓｔｅｒｄｃｉｎｖａｆｅｂｌｅｏｇａｉｉｐｒｉｉｓｉｉｄｓａｅｄｍｎｓｏｉｈｇｕｒｎｔｅｈｉｄｅｅｄｎｔｄｃｄｎｇｏａｈｃｅＡｓａｒｓｔａｏａｃｓｆｓｅｉｉｅｉｎｓｉｈｏｎｐｎｅｅｏｉｆｅｃｕｂ．ｅｕｌ，ｒｎｄｍｃｅｓｏｐｃｆｃｒｇｏｎｔｅｃｍｐｒｓｅｅｓｄｄｔｆａｐｃｕｒａｃｅｅａｅ．Ｔｈｏｌｃｒｏｒｎｅｂｅｗｅｎｆｌｆａｏｐｅｓｏｎｄａａｏｉｔｅｃｎｂｅａｃｌｒｔｄｅｃｎｆｉｔｏｆｐｅｆｍａｃｔｅｕｌｒｍｅｃｍｒｓｉｎａ —

一种基于多参考块的多视点视频编码方案

一种基于多参考块的多视点视频编码方案
潘峰;马力妮;杜小钰
【期刊名称】《北京信息科技大学学报（自然科学版）》
【年(卷),期】2008(023)003
【摘要】为了能获得更加优良的视频压缩性能和图像效果,新一代视频编码标准H.264提出了许多新的视频编码技术,其中多参考帧技术已经被证实有优秀的压缩效果.结合H.264标准中多参考预测特性的基础上,提出一种基于多参考宏块匹配的多视点视频编码方案,通过将相邻I/P帧对的残差与预定义的阈值比较,自适应地选取B帧作为参考帧.该方案采用H.264/AVC的JM编码器下实现,取得了预期的测试结果.实验表明,该方案在兼顾随机访问性能的同时,实现了较高的编码效率,尤其适合视点间相关性较高的运动图像序列.
【总页数】3页(P53-55)
【作者】潘峰;马力妮;杜小钰
【作者单位】北京信息科技大学,计算机学院,北京,100192;北京信息科技大学,计算机学院,北京,100192;北京信息科技大学,计算机学院,北京,100192
【正文语种】中文
【中图分类】TP312
【相关文献】
1.多视点视差估计中基于图像块特征矢量和相似尺度的参考视点选择方法 [J], 郁梅;董海涛;蒋刚毅;王让定
2.一种多视点视频编码的宏块模式快速选择新算法 [J], 彭宗举;郁梅;蒋刚毅;杨铀
3.基于H.264标准的多视点视频编码方案的研究 [J], 刘超;马力妮;宋雄亮
4.一种自适应选取参考帧的多视点视频编码方案 [J], 马力妮;杜小钰;潘峰
5.基于MPEG4多重辅助部件的多视点视频编码方案 [J], 张虎;孙立峰;钟玉琢因版权原因，仅展示原文概要，查看原文内容请购买。

多视点视频编码(3D)

像的采样值。视差矢(DV‘ disparityvector) 指的是场景中同一点在各视点中投影位置之间的相对偏差。根据DV的定义，在获得准确DV信息后可以有效地进行视点间采样点预测。 2)视点间运动信息预测多个摄像机拍摄同一场景时，场景中某一运动物体在各视点的投影的运动特性具有很强的相似性，利用此特性可进一步提高MVC编码效率。运动跳过模式(motion skip mode)正是基于这种运动相似性提出的。
能的公共测试平台）基于GDV的运动跳过模式可获0.017~0.452dB的编码增益，基于精细粒度匹配的运动跳过模式可获得0.076~0.721dB的编码增益。因能获得较高编码增益，这两项技术都被接收到JMVM中。 2、补偿视点间差异性提高MVC编码效率的技术以上介绍的两类方法适用于视点间相关性很强的序列。但在实际应用中，由于场景的光照条件、拍摄角度、摄像机参数不一致等原因，场景中同一物体在各摄像机上的投影存在一定的差异。
能需求，如随机访问性能、初始解码时延、编解码复杂度等。该类预测结构为了满足某些特定的需求，往往以牺牲编码效率为代价。二、提高MVC编码效率的技术预测结构一经确定后，如何有效进行视点间预测来提高编码效率是MVC研究的一个主要 MVC 内容。根据所使用方法的不同，视点间预测技术大致可分为两类：利用现有视点间相关性提高MVC编码效率的技术和补偿视点间差异性提高MVC编码效率的技术。
关于MVC扩展的高层语法主要有以下4个方面：一是在序列参数集中添加语法元素，用来说明视点的数目以及定义各视点之间的预测关系；二是扩展网络抽象层单元(NALU)的语法元素，添加当前NALU属于哪个视点，是否做视点间参考图像等信息；三是设计适合MVC的参考图像管理机制，包括参考图像标记、参考图像列表初始化以及参考图像重排序等；四是扩展H.264/AVC 附加增强信息(SEI supplemental enhancement information)，使其能够支MVC中所定义的各项功能需求，如视点可分级性、支持观看部分视点、并行处理等。

一种基于全局视差的多视点视频快速编码方法

一种基于全局视差的多视点视频快速编码方法
陈思利;吴庆睿
【期刊名称】《成都电子机械高等专科学校学报》
【年(卷),期】2010(013)003
【摘要】针对多视点视频编码复杂度较高的问题,本文探讨了一种基于全局视差的多视点视频快速编码方法.通过全局视差获取相邻视点参考宏块的编码信息,根据视点间编码信息的相关性,预测当前编码宏块的编码模式、参考帧,以及视差/运动联合估计的搜索范围.实验结果表明,本文采用的快速编码方法计算复杂度低,几乎不改变图像编码质量,并且有效减少了多视点视频的编码复杂度.
【总页数】7页(P22-28)
【作者】陈思利;吴庆睿
【作者单位】成都电子机械高等专科学校通信工程系,成都610031;成都电子机械高等专科学校通信工程系,成都610031
【正文语种】中文
【中图分类】TN911.73
【相关文献】
1.多视点视频编码中的运动和视差估计快速算法 [J], 邓智玭;贾克斌;陈锐霖;伏长虹;萧允治
2.基于全局运动矢量的多视点视频编码方法 [J], 张前进;徐向民;吴睿
3.一种基于MPEG-2的立体视频编码中的视差匹配快速算法 [J], 朱仲杰;蒋刚毅;郁梅;吴训威
4.一种基于虚拟视点合成的快速深度图编码方法 [J], 杨家辉;郁梅
5.一种基于H.264的立体视频编码中的视差估计快速算法 [J], 徐彬;郁梅;叶锡恩;蒋刚毅
因版权原因，仅展示原文概要，查看原文内容请购买。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@Journal of Software, Vol.19, No.9, September 2008, pp.2313−2321 DOI: 10.3724/SP.J.1001.2008.02313 Tel/Fax: +86-10-62562563© 2008 by Journal of Software. All rights reserved.∗基于随机访问的多视点视频编码模式评价模型杨铀1,2,3, 蒋刚毅1,2,3+, 郁梅1,2,4, 曹德侠51(中国科学院计算技术研究所,北京 100190)2(中国科学院研究生院,北京 100049)3(宁波大学信息科学与工程学院,浙江宁波 315211)4(北京大学视听信息处理国家重点实验室,北京 100871)5(中国矿业大学理学院,江苏徐州 221008)A Random Access Based Evaluation Model for Multiview Video Coding SchemesYANG You1,2,3, JIANG Gang-Yi1,2,3+, YU Mei1,2,4, CAO De-Xia51(Institute of Computing Technology, The Chinese Academy of Sciences, Beijing 100190, China)2(Graduate University, The Chinese Academy of Sciences, Beijing 100049, China)3(Faculty of Information Science and Engineering, Ningbo University, Ningbo 315211, China)4(National Key Laboratory of Machine Perception, Peking University, Beijing 100871, China)5(College of Sciences, China University of Mining and Technology, Xuzhou 221008, China)+ Corresponding author: E-mail: jianggangyi@Yang Y, Jiang GY, Yu M, Cao DX. A random access based evaluation model for multiview video codingschemes. Journal of Software, 2008,19(9):2313−2321. /1000-9825/19/2313.htmAbstract: In this paper, evaluation function of MVC (multiview video coding) random accessibility for decoderand server is first proposed based on the methods from random graph theory and hyper-space. Furthermore, anon-linear multi-purpose programming model for MVC performance evaluation is also proposed according to theconstraints from practical network bandwidth, restrictions of interaction and other problems. Based on this model,optimal coding strategies for different MVC schemes under variant performance constraints are discussed. It isfound that random accessibility of MVC scheme can be improved via this non-linear multi-purpose programmingmodel.Key words: multiview video coding; mathematical model; random graph theory; interactive service; randomaccess摘要: 运用随机图论、超空间等方法,首先提出了针对编码预测结构的随机访问性能评价函数,对解码端和服务器端的随机访问支持代价进行评价.进而根据实际应用中的带宽、交互限制等多种目标建立了编码策略评价的多目∗ Supported by the National Natural Science Foundation of China under Grant No.60472100 (国家自然科学基金); the NSFC/KOSEFJoint Research Project under Grant No.60472100 (中韩国家基金合作研究项目); the Key Project of the Ministry of Education of Chinaunder Grant No.206059 (国家教育部科学技术研究重点项目); the Program for New Century Excellent Talents in University of Chinaunder Grant No.NCET-06-0537 (新世纪优秀人才支持计划)Received 2006-04-21; Accepted 2007-05-232314 Journal of Software软件学报 V ol.19, No.9, September 2008标非线性数学模型,对编码策略在多种性能参数约束条件下如何实现最优策略进行了讨论.利用该非线性多目标规划模型对多视点视频编码策略进行了优化设计,可以获得较好的随机访问性能.关键词: 多视点视频编码;数学模型;随机图论;交互式服务;随机访问中图法分类号: TP391文献标识码: A具有交互性的多媒体技术将使人们能够在许多方面由被动观赏转化为主动欣赏.多视点视频技术作为交互式多媒体技术中的一个重要的研究领域,将在虚拟现实系统、数字电视、远程教育、远程工业控制、三维视频会议系统等诸多方面得到直接的应用[1].作为一般单视点视频的拓展,多视点视频的形成是通过多台摄像机同时多角度的拍摄而产生的.与传统的单视点视频相比,多视点视频需要处理大量的视频数据,在运动估计和视差估计算法上也比单视点视频要复杂.多视点视频由于其应用前景广泛而引起了研究人员的关注,MPEG (moving picture expert group)和JVT(joint video team)正联手对三维音、视频中的多视点视频进行标准化制定工作.作为用户可控制能力和可参与性的一项重要指标,MPEG把允许用户在多视点视频的时间和视点轴上任意切换访问作为一项基本研究内容和要求放在对多视点进行研究的提案中[2].对于从时间轴上支持用户的随机访问,多视点视频解码器必须能够在最短的时间内以最小的解码代价满足用户在单独一个视点内观看任意时刻的一帧,这与单视点视频的随机访问相同;而对于从视点轴上支持用户的随机访问,则是以最小的解码代价满足用户观看任意一个视点的视频.对于用户而言,看似简单的这两个要求在研究上却困难重重:首先,由于多视点视频的数据量庞大,多视点视频编码(multiview video coding,简称MVC)往往是以提高压缩比率为目标而进行的.各种压缩方法的提出使得压缩性能得到了一定的满足,但编码端的高压缩比往往意味着帧间依赖关系密切,从而导致解码端随机访问性能会明显降低[3,4];其次,研究人员对如何量化地衡量随机访问性能没有形成统一意见.一些以研究系统性能为目标的多视点视频播放实验系统提出了各自的衡量方法,文献[5]提出,在基于光线空间系统以帧的平均处理时间来衡量,文献[6]则以服务器端的平均处理器荷载来衡量,等等.这些方法从直观上能对随机访问性能进行一定程度的评价,但是所得到的参数对于不同的多视点视频序列和测试环境会发生不可预料的变化.因此,仅以这些参数描述随机访问性能是不可行的.文献[7]提出了利用最差随机访问性能来评价GOP(group of pictures)整体随机访问性能的方法,该方法是一种无差别的评价方法,但其评价参数仅衡量GOP的最差随机访问性能,不利于对MVC预测结构中的帧间关系进行整体、全面的评价.考虑到随机访问性能的描述参数应符合MPEG的要求,即以解码帧数为参数进行衡量,这样,对于不同的环境和视频序列,其差别仅为线性的常数倍数关系,从而达到无类别普适性的评价.鉴于此,本文提出了随机访问评价函数,对解码端和服务器端为支持用户的随机访问所需要付出的代价进行评价,进而建立了对多视点视频编码策略进行评价的多目标非线性数学模型.该模型能够对多视点视频编码方案的随机访问性能进行先验性评价,从而允许编码端根据不同的应用环境决定采用何种视频编码方案.1 单帧随机访问与荷载性能评价函数设n表示视点个数,m表示单一视点内的帧数,m1表示一个GOP内单一视点内的帧数.定义1[8]. 图G=(V,E)为一个二元组,其中,V为点集,E为边集.一条边e ij∈E当且仅当顶点v i和v j之间有边相连,其中,v i,v j∈V.点集V的势被称为图G的阶数,边集E的势被称为图G的大小.所有与顶点v i∈V相连的顶点构成v i的邻域,并记做N(v i),同时,N(v i)的势称为v i的度.将所有顶点度数相等的图称为正则图.对一个n阶图而言,如果任意顶点的度都是n−1,则该图为n阶完全图.对边上赋予方向的图称为有向图.对边上赋予权重的图称为带权图.定义2[9]. 随机图G=(V,E,Ω)为一个三元组,其中,以V为点集、E为边集的图G,其边集定义在概率空间Ω中,即P(e ij∈E)=p ij(0<p ij<1,∑p ij=1).当G是一个带权有向图时,则G是一个随机的带权有向图.用P表示G中的路.定义3[9]. 用有限顶点集V={v i|1≤i≤n×m}表示多视点视频序列中将要被处理的帧,则超空间H=(V,E),其中,杨铀等:基于随机访问的多视点视频编码模式评价模型2315E =(E i ),i ∈I ,E i 为具有视差-运动估计关系的顶点子集,I 是H 的指标集. 用户在由多视点视频序列所构成的超空间中接受视频服务,在未知视频内容的情况下,其对超空间中任意一帧的访问概率是相等的.令X f 为单帧的访问代价随机变量,以x i 表示在解码端为了显示第i 帧所需要预先解码的帧数,以p i 表示用户访问第i 帧的概率,则得到用户访问超空间中任意一帧的平均解码代价为[8]11()n m f i i i E X x p ×==∑ (1)式中,p i =1/n ×m 1.x i 的值由多视点视频编码时所采用的编码策略所决定.利用公式(1)可以对多视点编码策略在解码端支持用户随机访问单帧的随机访问性能进行评价.此外,若以X m 表示支持单帧访问的内存消耗随机变量,以x i 表示服务器端为了支持随机访问而需要开辟内存空间时,用E (X m )表示服务器端支持用户访问超空间中任意一帧所需要开辟的平均内存空间大小,则E (X m )也可以采用公式(1)进行计算.2 交互模式下随机访问与荷载性能评价函数2.1 复杂交互模式的定义用户在终端显示设备上接收并观看多视点视频,会在一定程度上发生与视频服务器之间的交互,如改变视点、快进快退操作等.文献[6]定义了3种交互式操作,即任意视点切换、固定视点切换、连续视点切换.从多视点视频显示系统实现的角度,这3种交互模式易于实现,而用户却会由于交互模式过于简单而受到诸多限制.为了适应复杂的用户交互情况,本文在此基础上进一步定义了3种复杂的交互模式.定义4. 用V i T j 表示第i 视点第j 时刻的帧,其中,1≤i ≤n 且1≤j ≤m 1,定义下列3种复杂交互模式:(1) 相邻视点切换模式:在以正常速度播放仍在继续的同时,允许用户从当前视点切换到左或者右相邻的视点进行观看,在连续切换过程中允许非单一方向,即如果当前帧为V i T j ,则下一帧为V i ±1T j +1.(2) 任意视点切换模式:用户在正常的观看模式或者暂停模式下,可以在各个视点之间(允许非相邻视点)进行任意切换,即如果当前帧为V i T j ,则下一帧为V i ±k T j +1,其中,1≤i ±k ≤n .(3) 空间任意切换模式:允许用户在整个多视点视频超空间中从当前帧跳转到任意指定的帧进行观看,跳转过程不论视点或时间距离.相邻视点切换模式和任意视点切换模式如图1所示.对于空间任意切换模式,即在允许用户进行(1)和(2)两种交互模式的同时,还允许用户进行任意的快进、快退操作,并且在快进快退的同时,也允许进行视点切换.若以图G 的形式表示,则该模式对应的图为n ×m 阶完全图K n ×m .从图论分析的角度,无向图即为每对顶点之间同时连接着正向与反向边,因此,可以在有限的超空间中把无向图拆分成正向有向图和反向有向图.从图论分析的角度,在用户进行快进或者正常观看模式时,则可以采用正向有向图进行分析;反之,在用户进行快退或者逆向观看模式时,则可以采用反向有向图进行分析.而无论正向或者反向有向图,由备选帧所构成的超空间在图论上都是等价的.因此,只需要分析一种方向的有向图即可.所以,为了方便起见,本文只分析正向有向图的情况.从上面的3种交互模式的定义中可以看出,空间任意切换模式包含了任意视点切换模式,而任意视点切换模式又包含了相邻视点切换模式.空间任意切换模式包含了用户交互模式的任意情况,是最复杂的用户与服务器之间的交互模式.然而,无论是哪种交互模式,其分析方法在图论意义下都是相同的.在由多视点视频的一个GOP 构成的超空间中,用户在观看的过程中对帧的访问属于概率空间Ω中的一个随机事件.为了方便起见,本文在GOP 开始之前和结束之后分别加入了一个虚拟的起点和终点,如图1所示的Start Point 和End Point.于是,用户从起点开始至终点所观看的这些帧都可以构成有向随机图G 当中的一条随机有向路,对GOP 的随机访问性能评价将建立在G 的基础上.MPEG 工作文档中指出,性能优劣应以衡量解码帧的数量为宜[2].采用衡量解码帧的数量可以避开运行测试环境和条件的不同而带来的差异,在不同环境下的测量结果最多只会相差一个常数倍,因此能够体现无类别的评价,所以是可靠的.2316Journal of Software 软件学报 V ol.19, No.9, September 2008(a) Neighbor view switch interactive mode (b) Random view switch interactive mode (a) 相邻视点切换交互模式 (b) 任意视点切换交互模式Fig.1 Two interactive modes between multiview video server and client图1 两种常用的多视点视频服务器和用户之间的交互模式2.2 复杂交互模式下的随机访问性能评价函数在未知视频内容的情况下,用户在观看由n 个视点构成的多视点视频节目时,其选择任意一个视点进行观看的概率是等概率事件,即P (选择一个视点)=1/n .在正常观看模式条件下,即相邻视点切换和任意视点切换的交互模式下,用户保持在单一视点内进行观看的概率应比切换到相邻视点进行观看的概率要大,切换到更远视点进行观看的概率比切换到相邻视点的概率要小.在统计意义下,不失一般性,可以假设用户在观看的过程中进行视点切换的概率服从N (0,1)分布.而对于不服从N (0,1)分布的随机变量X ~N (µ,σ2),可以通过式(2)进行转换:~(0,1)X N µσ− (2) 在图2所示的4种情况中,每个图的每条边上均赋有概率值,表示从箭尾的当前帧切换到箭头所指的下一帧的概率.对于从起点开始用户访问8个视点的第一时刻的帧属于等概率事件,因此访问概率为1/8.除此之外,本文设定保持单视点观看的概率为0.6,切换到其他视点的概率为0.2.对于不同的应用实例,这个切换的概率是不同的,具体依据实际需要而定,或者通过大量的用户测试进行统计确定.从当前帧选择如何切换是一个概率空间中的随机事件,而从当前帧引出的边构成了概率空间中的所有事件,所以其概率之和应为1,这是符合概率空间要求的.进一步地,由起点至终点所构成的随机有向路也构成了用户进行切换选择观看多视点视频这一事件的概率空间,而这个事件的概率空间为1,是进行理论研究的基本要求.End point Start point T i m e Spatial/Viewpoint杨铀等:基于随机访问的多视点视频编码模式评价模型2317(a) All I frame MVC scheme (b) Simulcast MVC scheme(a) 全I帧MVC策略(b) Simulcast MVC策略[10](c) KS_IBP MVC scheme (d) MVC_HBP MVC scheme(c) KS_IBP MVC策略[10](d) MVC_HBP MVC策略[10]Fig.2 Several MVC schemes图2 几种常用的多视点视频编码策略定理1. 由有向随机图G构成的多视点视频超空间构成了用户以某种交互模式进行观看的所有路径,而用2318 Journal of Software 软件学报 V ol.19, No.9, September 2008 户进行切换选择的随机事件则构成了从起点到终点的随机路径的概率空间Ω.这个概率空间一定满足p (Ω)=1.证明:以N (v (i ,j ))表示随机图G 中顶点v (i ,j )的邻域,其中,下标j 表示视点坐标,i 表示时间坐标.以p (i ,j ),k 表示从当前帧v (i ,j )切换到下一帧v (i +1,k )的概率,其中,k ∈N (v (i ,j )).由动态规划及概率论可以得到下面的递推方程:,1,(,),(,)i j i k i j k k N i j p p p +∈=∑,其中,p m ,1=1,j ∈[1,n ],i ∈[0,m ].通过简单的计算可以得到p start point =1,即从起点至终点所有的路所构成的概率空间,其概率为p (Ω)=1. □从上面的证明过程可知,若能够得到所有的从当前帧切换到下一帧的解码帧数,则可以计算出整个概率空间的解码帧数学期望,即得到这个超空间的随机访问解码帧期望代价.为了便于分析,本文对一个GOP 进行了分析.由于一个GOP 也能对应一个超空间,对其分析与对整个多视点视频超空间进行分析是等价的.对于一个GOP 而言,其组织结构和预测模式决定了从当前帧切换到下一帧的解码帧数.如图2所示,由于GOP 的组织结构和预测模式不同,从当前帧切换到下一帧的解码帧数各不相同.图中每条边带有两个参数:一个是从当前帧切换到下一帧的概率;另一个是从当前帧切换到下一帧的预解码帧数.如果能够计算出所有从起点至终点的随机路径其对应的解码帧代价,则可以对这种GOP 组织结构的随机访问性能做出一个正确的评价.随机访问性能评价函数:若以P 表示G 中的路,则P 出现在G 中的概率为ij ij e P p ∈=∏P P ,而其解码代价为ij ij e W w ∈=∑P P ,其中,w ij 表示边e ij 上的解码代价.在此基础上,建立GOP 的随机访问性能评价函数为 0,0()()ij ij ij ij e e F E E P W w p Ω∈∈∈∈∈⎛⎞⎜⎟====×⎜⎟⎝⎠∑∑∑∑∏P P P P P P P P G G G (3) F 0,0表示从起点至终点的期望解码帧数,即支持用户交互的期望解码帧数.这个期望值反映的是该编码结构支持用户进行随机访问的性能.值得注意的是,建立在概率空间Ω基础上的式(3)是一个普适性评价公式,与交互模式和GOP 结构无关.因此,只要确定了交互模式和GOP 结构,即意味着式(3)中的w ij 和p ij 得到确定,即可使用式(3)进行随机访问性能的评价.以图2所示的相邻视点切换的交互模式为例,设定用户在当前帧观看同一视点的下一帧的概率为0.6,切换到左右相邻视点的概率为0.2,于是得到图2中的带权有向图.图中各边的权重w 由视频编码策略所决定.通过式(3)可以得到用户以交互式的方法从起点至终点随机访问的性能,见表 1.为了能够方便地在几种规模不同的GOP 之间进行比较,表中还列出了F 0,0相对于该GOP 规模的相对比.显然,由于F 0,0或者F 0,0/m 1值表示的是支持随机访问的解码帧代价,所以其值越小,该GOP 的组织结构以及预测模式对随机访问的性能就越好.类似地,当权重w 表示服务器端为了支持用户的复杂交互而需要开辟的内存空间时,若以F m −0,0表示开辟内存空间期望的大小,则F m −0,0也可以通过式(3)进行计算.本文所讨论的9种编码策略所对应的F m −0,0结果见表1.Table 1 Random accessibility of several MVC schemes and SP improved MVC schemes 表1 几种多视点视频编码策略以及SP 改进多视点视频编码策略的随机访问性能GOP structure F 0,0 F 0,0/m 1 F m −0,0 F m −0,0/m 1E (X m ) E (X f ) All I frame 9 1 0 0 1 0Tree mode 7.75 1.94 3.75 0.94 3.5 2.5Simulcast 17 1.89 12.05 1.34 3.67 2.67 Transposed 23 4.60 18.20 3.64 13 12Improved transposed 23 4.60 18.58 3.72 13 12KS_PIP 19.61 2.18 13.22 1.47 7.22 6.22KS_IPP 22.95 2.55 16.62 1.85 8.75 7.75KS_IBP 22.1 2.46 15.7 1.74 6.53 5.53MVC_HBP 27.79 3.09 21.99 2.44 9.31 8.31SP transposed structure (1) 15 3.00 10.77 2.15 5 4SP transposed structure (2) 13.93 2.79 9.86 1.97 5.64 4.64SP improved transposed structure 13.42 2.69 9.70 1.94 6.28 5.28表1分别用F 0,0,F m -0,0,E (X f )和E (X m )表示GOP 随机访问性能、GOP 支持随机访问内存大小、随机访问单杨铀等:基于随机访问的多视点视频编码模式评价模型 2319 帧性能和随机访问单帧内存消耗大小,用F 0,0/m 1和F m −0,0/m 1表示相对GOP 随机访问性能和相对GOP 支持随机访问内存大小.由表1可见,全I 帧GOP 结构对随机访问评价的各项参数表现均为最优的,串联GOP 结构则是相对最差的.然而,采用全I 帧GOP 结构对多视点视频进行编码是不现实的,其中最主要的问题在于该编码方式受到通信带宽的限制.同时,Simulcast 编码结构[10]与MPEG 早期对立体视频进行编码的方案相似,但是,由于这种编码方案没有考虑帧间的视差关系而导致压缩比率不高.考虑到编码效率的需求,则必须增加视点间的预测依赖关系.MVC_HBP 结构虽然随机访问性能比较差,但其编码性能是最优的.KS_IPP,KS_IBP,KS_PIP [10]的随机访问性能较MVC_HBP 要好,但其编码性能却又相对较差.因此,各编码结构在不同的条件下具有各自的优缺点.如何在实际应用中选择合适的多视点编码方案,平衡实际当中的各种需求,选择出具有优良性能的编码方案使之得到应用等各种问题,就成为了人们需要进一步考虑的对象.3 多视点视频编码策略评价模型由图2以及表1的计算结果可以发现:(1) 当用户交互模式以及访问概率确定后,决定随机访问性能优劣的参数只有w ,说明编码策略的帧间依赖关系会对随机访问性能产生直接的影响;(2) 决定w 大小的是多视点视频GOP 的预测结构,即编码过程中所采用的预测模式和编码策略.一般情况下,w 的大小与对应的预测模式所产生的比特率成反比关系.现有的多视点系统要求编码端在保证视频质量的基础上实现高压缩比,即得到好的率失真性能;而在解码端,要求用户在使用过程中能够实现低延迟的交互式观看.这两种要求本质上是一对矛盾体,因为高压缩比往往意味着帧间依赖关系密切,从而使权变量w 增大,进而导致随机访问性能低下;随机访问性能高的方案往往在带宽上受到很大的限制.如何在这一对矛盾中找到平衡是一个值得研究的问题.预测模式的选择对随机访问性能的优劣起着至关重要的作用,而预测模式的选择又与实际应用背景要求的通信带宽直接相关.同时,也需要考虑客户端的随机访问性能以及服务器端支持随机访问所付出的代价.根据这些相互制约的条件,得到用于分析多视点视频编码策略优劣的评价模型.多视点视频编码策略评价模型:设E (X m ),E (X m ),F 0,0,F m −0,0分别表示某编码策略对应的单帧随机访问参数和复杂随机访问性能参数,设B ,F ,F m ,E f ,E m 分别表示实际应用中的带宽、复杂随机访问以及单帧随机访问的限制, ()B w G 表示指定编码策略所产生的码率.i s −,i s +分别为对应于各个随机访问性能参数,对应于性能限制约束条件的正、负偏差变量,且有0i i s s +−×=.根据多目标非线性数学模型的基本建模过程可知,若希望编码策略对应的单帧随机访问参数、复杂随机访问性能参数和码率都能满足事先规定的所有目标,则多视点视频编码策略的评价模型可以表达为 12345110,0220,0334455min ()s.t.()()()1,0,0m m f f m mz s s s s s B w s s B F s s F F s s F E X s s E E X s s E w N s s +++++−+−+−+−−+−+−+=++++⎧+−=⎪+−=⎪⎪+−=⎨⎪+−=⎪⎪+−=⎩∈≥≥≥ (4)目标方程仅由偏差变量组成,则说明该模型如果最优解存在,则最优值一定为0.由于有偏差变量的限制,所以该模型的意义为:只要编码策略能够满足所有的约束条件,则该策略即为本模型的最优解.显然,该模型的最优解若存在,则必定不唯一.由于在交互模式确定之后,即用户进行切换的概率确定之后,编码策略是否为最优解仅与权重w G 有关,因此,该模型中需要深入讨论的变量仅为权重w G .上述多视点视频编码策略评价模型除了对视频编码策略进行评价之外,还可以作为多视点视频编码端进行预测模型策略选择的一个工具.如全I 帧GOP 编码结构虽然具有最小的随机访问代价,但是由于其在绝大多数情况下不满足评价模型(4)的约束方程()B w B ≤G ,所以不可能被选为编码模型进行使用.2320 Journal of Software软件学报 V ol.19, No.9, September 2008 4 多视点视频编码策略评价模型的应用为了提高多视点视频的随机访问性能,比较常用的做法是在编码的过程中对适当位置的帧进行SP(switch prediction)帧编码,以方便用户在这个位置进行视点切换[11].如何确定在加入SP帧的同时不突破实际带宽的限制并达到较好的随机访问性能,又成为人们的一个研究课题.在这里,采用多视点视频编码策略评价模型可以对编码策略中SP帧的摆放位置进行设计,在实验之前就对该模型是否值得继续研究做出一个先验性的判断.从表1可以看出,串行结构和改进的串行结构虽然具有易于编码实现的优点,但是其随机访问性能很差.对其进行SP帧改造,如图3所示.改造后的各个评价结果见表1.可以发现,改造后的结果对随机访问性能有了极大的提高.下面只需对其进行码率控制和优化设计,即可在一些带宽限制不高的环境中加以采用.(a) SP transposed structure (1) (b) SP transposed structure (2) (c) SP improved transpose structure(a) SP串行结构(1) (b) SP串行结构(2) (c) SP改进的串行结构Fig.3 SP frame design for transposed and improved transposed MVC structures图3 对串行结构和改进的串行结构进行SP帧设计5 结论多视点视频编码是近些年来视频处理领域中的一个研究热点.多视点视频编码在追求高率失真效果的同时,还需要同时兼顾到解码端的随机访问、与用户的交互等性能.本文首先定义了3种复杂的用户与服务器交互模式,利用随机图论、超空间理论、动态规划以及概率分析的相关理论知识,得到了对解码端支持用户随机访问性能进行评价的随机访问评价函数.用此函数可以对不同的GOP组织结构进行无类别的评价,所得结果可以在相对性能的条件下进行比较.利用解码帧的期望数进行随机访问性能的评价,当出现不同的运行环境和条件时,它们之间的差异只会相差常数倍.在本文的实验阶段选取了9种比较特殊和处于研究热点的MVC编码方案进行了讨论.同时,利用所提出的评价函数再加上相关的制约条件,就得到非线性多目标的多视点视频编码策略评价模型.利用这个评价模型,可以得到客观评价指标,并对不同的预测模型进行筛选,或进行先验性的优化设计.实验与设计结果表明,在事先不进行编码的情况下,即可针对不同的实际应用情况对MVC编码方案进行优化和筛选,达到事半功倍的效果.References:[1] ISO/IEC JTC1/SC29/WG11. Applications and requirements for 3DAV. Doc. N5877, Trondheim, 2003.[2] ISO/IEC JTC1/SC29/WG11. Requirements on MVC v.4. MPEG 2005/N7282, 2005.。