视频流关键技术的研究进展

合集下载

面向三维视频的虚拟视点合成技术研究进展

相较于二维平面多媒体服务，三维（Three-Dimension，3D）立体多媒体服务能给观众带来身临其镜的真实感，极大地引起用户的关注。

近几年来，裸眼立体视频、虚拟现实等3D多媒体服务已走入家庭。

3D多媒体技术是人类通过左眼和右眼分别获得具有视差信息的左右视点场景信息，并在大脑中相互融合得到具有立体感的三维信息。

在3D视频技术中，人们利用双目摄像机分别对同一场景进行拍摄，然后再依靠计算机视觉技术获得立体视频图像。

但如何依靠计算机视觉技术获得更高质量的3D视频图像是研究者的主要目标。

在3D视频中，自由视点视频（Free-Viewpoint Video，FVV）技术是一个非常重要的发展方向，该视频格式是由视频信息加深度信息组成。

在解码端通过虚拟视点绘制技术合成不同视角的视频图像，可广泛应用于虚拟现实和3D视频信号处理过程中。

为了能够获取任意视点条件下所能观察到的图像，最原始的方法是在不同视点处均设置摄像机采集图像。

然而无论使用多少部摄像机同时对某个事物进行摄录，最终都无法获取任意视点所观察的图像。

但依靠视点合成技术可以根据已拍摄的图像近似绘制出未知视点处的图像，从而极大地减少了拍摄相机的布置数。

然而当前绘制技术会产生空洞、伪影、偏移等缺陷，严重影响了用户体验质量。

1虚拟视点合成技术虚拟视点绘制方法根据实现手段和辅助工具可划分为基于模型绘制（Model Based Rendering，MBR）、基于几何图形绘制（Graph Based Rendering，GBR）和基于图像绘制（Image Based Rendering，IBR）三种方法。

而基于深度图像绘制（Depth Image Based Rendering，DIBR）是一种基于参考视点的纹理图和其相应的深度图，通过3D映射方程绘制虚拟视点图像的合成方法[1-2]。

由于绘制速度快，复杂度比一般绘制方法低，因面向三维视频的虚拟视点合成技术研究进展张博文，周洋，殷海兵杭州电子科技大学通信工程学院，杭州310018摘要：基于深度图像的虚拟视点合成技术是三维视频信息处理、虚拟现实和计算机图形学领域的新兴交叉技术。

视频传输中的码率控制技术研究进展_毕迎春

第13卷第12期2008年12月中国图象图形学报Journa l o f I m age and G raphicsV o.l 13,N o .12D ec .,2008基金项目:国家自然科学基金项目(60372071);辽宁省自然科学基金项目(20032105,20072156);辽宁省高等学校优秀人才支持计划(RC-04-11);辽宁省教育厅科学技术研究项目(20060486);南京邮电学院图像处理与图像通信江苏省重点实验室开放基金项目(Z K207008)收稿日期:2007-02-05;改回日期:2007-10-23第一作者简介:毕迎春(1982~ ),女。

辽宁师范大学计算机软件与理论专业硕士研究生。

主要研究方向为多媒体信息处理、算法分析与设计。

E-m ai:l bych888@163.co m视频传输中的码率控制技术研究进展毕迎春1)王相海1),2)1)(辽宁师范大学计算机与信息技术学院,大连 116029) 2)(南京大学计算机软件新技术国家重点实验室,南京 210093)摘要码率控制技术对提高和平滑解码视频质量起着至关重要的作用。

近年来各种视频编码标准和应用都对码率控制技术进行了大量的研究,如基于H.261和H.263的视频会议,基于M PEG-1和M PEG-2的媒体存储,以及最新的基于M PEG-4视频对象编码。

首先对码率控制问题进行了基本描述,然后介绍了标准中的经典码率控制技术,接着将目前的码率控制技术归纳为3类:基于DCT 视频编码器的码率控制技术、基于小波视频编码器的码率控制技术和精细粒度可分级视频编码的码率分配算法,并对这三类码率控制方法的发展进行了概括性阐述与比较性研究,讨论了各种算法的基本思想及其优缺点,最后对视频传输中的码率控制技术的未来发展趋势进行了展望。

关键词视频传输率失真码率控制缓冲器中图法分类号:TP391 文献标识码:A 文章编号:1006-8961(2008)12-2251-09Research Progress on Rate Control Technology in V i deo Trans m issionBI Y i n g -chun 1),WANG X iang -hai1),2)1)(Colle g e of Compu ter and Informa tion Tec hn ology,L i aoning N or m al Universit y ,Da li an 116029)2)(S tate K e y Labora tory for N ove lS oft w are T ec hnology ,Nanjing Un iversit y,Nanjing 210093)Abstrac t R ate contro l sche m e plays an i m po rtant ro l e i n i m prov i ng and s m ooth i ng the decoding v i deo quality .O ve r theyears ,rate contro l techn i ques have been stud i ed v ery i n tensively f o r va ri ous standards and appli cations ,such as v i deo conferenc i ng w ith H.261and H.263,storage m edia w ith M PEG-1and M PEG-2,and t he recent v i deo object cod i ng w ith M PEG-4.T h i s paper fi rstl y descr i bed the basis o f rate contro l prob l em .A nd secondly c lassic rate con tro l technology i n the standard w as i ntroduced .Th ird l y we su mm ed up t he present techn i ques as t hree k i nds :rate contro l technique based on DCT video code r ,rate control techn i que based on w ave let v ideo coder and rate all ocation o f F i ne G ranular Scalab le v i deo coding .Then w e genera lly d iscussed and co m pared the three k i nds of m ethods inc l udi ng t he co re idea and t he advantages and d i sadvantages o f every a l go rith m o f each k i nd of techn i ques .F ina lly ,t he state o f art and possi b l e new d irections o f ra te contro lw ere stated .K eywords v ideo trans m iss i on ,rate -d i stortion ,rate contro ,l bu ffer1 引言随着视频编码技术在媒体存储、视频点播、监控系统等诸多领域中越来越多的广泛应用,一系列视频编码标准被提出并应用于实际,像ISO /I EC 的M PEG-1/2/4,I T U-T 的H.261,H.263,H.263++以及M PEG-4AVC /H.264等,这些标准对码流的语法结构进行了规定,而码率控制的具体算法则大多是开放的,码率控制算法的性能直接影响视频通信的质量[1],作为提高视频编码图像质量的一项关键技术,码率控制技术的发展已引起人们的广泛关注。

分布式视频编码关键技术及研究进展

Ａｂｔａｔｓｒｃ：Ｆｒｔｉｌｈｓｐｐｒｉｔｏｕｅａｉｒｃｐｅｏｓｙ，ｔｉａｅｎｒｄｃｄｂｓｃｐｎｉｌｆＤＶＣｓｈｍｅＳｃｎｌｉｃｅ．ｅｏｄｙ，ｌｔｄｔｅｄｖｌｐｎｎｒｃｎｖｉｅｈｅｅｏｍｅｔｉｅｅｔｆｅｓｉｙａｓｅｏｔｄｔｅｓｓｅｄａｒｍｎｃｉｖｍｅｔｏｅｅａｒｉｇｔａｎｔｉｆｌ．Ｆｎｌ，ｆｒａｔｄｔｅｔｎｆｅｒ，ｒｐｒｅｙｔｍｉｇａａｄａｈｅｅｎｓｆｓｖｒｌｗｏｋｎｅｍｓｉｈｓｉｄｈｅｉａｙｏｅｃｓｈｅｄｏｌｅｒｔｅＤＶＣｔｃｎｑｅｆｒｃｓｄ，ｉｈｉｈｅｏｅｏｎｓｏｉａｅｎｘｅｔｄａｆｕｓｐｌａｉｎｉｆｒｔｎｓｃ — ｈｅｈｉｕｏｅａｔｅｈｇｌｔｄｓｍｅｋｙｐｉｔｆｈｓｒａａｄｅｐｃｅｏｒｈａｐｉｔｉｏｍａｉｅｕｇｔｌｉｃｏｎｎｏｉｎｎｏｉｇｆｒｒｂｓｉｅｒｎｍｉｓｏｙｔｍｓｒｙａｄｅｃｄｎｏｏｕｔｖｄｏｔａｓｓｉｎｓｓｅ．ｔ
码流，收该码流的手机仅需使用传统的视频对于视频点播和直播等应用是非常适合的。因为在这
些应用中终端的任务只是进行复杂度较低的视频解码。相反，另外一些应用系统需要低复杂度编码器，如在军用无线视频传

基于GStreamer的远程视频监控系统的关键技术研究

一
器端组成，客户端向服务器端转发多媒体流，则服务器端接收转
发而来的多媒体流。本文就基于Ｇｔａｅ流媒体应用框架下Ｓｒｍｒｅ的远程视频监控系统开发的关键技术进行讨论。
的数据交换，因此很容易利用已有的各种插件 “ 组装 ” 出一个
所以，方案采取的是基于Ｇｔａｒ媒体应用开发框架本Ｓｒｍｅ流ｅ
ＤｒｃＳｏｉｔｈｗ是微软公司开发的能够让软件开发者对媒体文ｅ
０引言
网络摄像机即Ｉａｅ，ＰＣｍｒ是视频监控领域的发展趋势，ａ也是当前视频监控领域的热点。用户访问网络摄像机时只需网络摄像机的ＩＰ地址，这样，在互联网中就会遇到一个严重的问题，由于目前互联网还没有过度到Ｉｖ而ＩｖＰ６，Ｐ４的地址已经接近枯竭，可能再赋予每一台网络摄像机一个Ｉ不Ｐ地址，因此在网络浏览器中直接监视其影像还是有困难的。虽然网络摄像机是发展的趋势，但在现实生活中，模拟摄像机还是占了很大一部分份额。从互联网的一端访问摄像机时，直接访问也是不可行的。因此，Ｉｔｒｅ没有过渡到Ｉｖ在ｎｅｎｔＰ６之前，网络摄像机还没有完全替代模拟摄像机之前，业的远程视频监控系统软件还是专必须的。由于前述的问题，远程视频监控系统由客户端和服务
” ｊｅｘｖｄｏ／－
ｉｈｔｇ＝４５２，ｆａｎａｅｒｒｅｒｔ

几种码率控制技术研究进展

日子术技
几种码率控制技术研究进展
刘媛周燕中国传媒大学
摘要：码率控制技术对提高和平滑解码
视频质量起着至关重要的作用近年来各种视频编码标准和应用都对码率控削技术进行大量的研究，基于Ｈ．６乖Ｈ．６钧视频｛ｔ２１２３
会议，基ＴＭＰＧ－和ＭＰＧ２Ｅ１Ｅ－的媒体存储，以厦最新的基于ＭＰＧ一视频对Ｅ４象编码拳文首先对码率控静问题进行了基本描述然ｊ后介绍了目前的三类码率控削技术：基于Ｄ视频编码器的码率控制技术、基于小波ｆ
（）５低比特率下的实际通信应用的码率控而且可以避免视频质量的过火波动。这里主要于解码的比特数成正比。它把增强层可用的比是针对在Ｃ信道下传输压缩码流时的码率特数平均地分给各帧。由于这种方法没有考制算法ＲＢ在通信网络上设计多媒体应用的主要挑控制技术现状的研究。虑各帧图像的率失真特性。使得接收端解码的战是如何传输最小的多媒体流给用户ｆ。视频４】２码率控制问题基本描述视频质量存在很大波动【。３】６未来展望会议、在线点播等实际通信应用都要求低码率码率控制是视频编码的重要组成部分。确定合适的编码参数以便在某固定信道下具有低延迟及低复杂度的码率控制技术。基般来讲，它的实现过程包括比特分配、量化最ｆ化的方法已经存在于大量的文亡系数计算和缓冲器控制等部分。比特流经常要码率下获得最优的解码视频质量是人们设计码于拉格朗日Ｊ通过有限带宽的通信信道进行传输，而编码器率控制算法的根本宗旨。尽管已经出现了许多献中，但这些算法的复杂度一般都很高。简化会产生可变码流，所以有必要在编码器和信道有效的码率控制方案，但人们对于视频编码图这些算法复杂度，使其适应实时低比特率下的之间设置视频缓冲器来平滑编码过程中的比特像质量的要求却越来越高，使得码率控制方法实时通信应用，具有很高的理论和商业价值。

视频流媒体技术中的关键技术

视频流媒体技术中的关键技术随着互联网的普及和带宽的增加，视频流媒体技术逐渐成为网络传输中的新宠。

视频流媒体技术的主要优势在于实时性和交互性，这极大地满足了用户对于高质量视频内容的需求。

视频流媒体技术涉及到多个关键技术，本文将从网络协议、编解码、流媒体服务器等几个方面对这些技术进行介绍。

1. 网络协议网络协议是视频流媒体技术的基础，它决定了视频流的传输方式及效率。

常用的网络协议有UDP和TCP协议。

UDP协议具有不可靠和无序的特点，但具有高速和低延迟等优点，通常用于直播等实时性要求较高的场合。

TCP协议具有可靠和有序的特点，但由于数据包的确认等机制，会引入较多的延迟和占用较多的带宽，通常用于视频点播等实时性要求不那么严格的场合。

另外，视频流媒体技术在传输过程中还需要采用QoS（Quality of Service）技术对网络带宽、延迟、丢包等进行控制，确保传输效果的稳定性和可靠性。

2. 编解码视频流媒体技术中的另一个关键技术是编解码技术。

视频数据的产生和传输过程中，需要进行编码和解码处理。

编码将视频信号转换为数字信号，压缩传输中的数据，减小传输时间和网络带宽，常见的编码技术有H.264、H.265等；解码则是将数字信号还原为视频信号，以实现正常的观看体验。

编解码技术的发展，不仅提高了视频流媒体技术的性能和效率，也推动了制造商对硬件解码能力的不断提升，为用户带来更好的观看体验。

3. 流媒体服务器流媒体服务器是视频流媒体技术中的核心组成部分，它负责对视频流的接收、分发和转发。

流媒体服务器需要具备高效且稳定的流量管理能力、支持多种视频编解码标准和协议，同时还需要支持各种终端设备的访问和流媒体客户端的交互。

常见的流媒体服务器软件有NGINX、Wowza等，它们能够满足大部分的视频流媒体需求，同时还能够灵活地进行二次开发、拓展。

4. CDN随着用户对于视频流媒体技术的需求不断增长，环境因素、网络瓶颈等问题也然而出现。

基于深度学习的视频处理技术的研究进展

基于深度学习的视频处理技术的研究进展随着科技的不断进步和人们对视频内容需求的不断增长，基于深度学习的视频处理技术已经成为了当前最为热门的研究领域之一。

通过大量的数据训练和算法优化，深度学习已经在许多领域中取得了令人称赞的成果，基于其强大的自学习能力和优异的泛化能力，也被广泛应用于视频处理领域。

一、视频超分辨率重建技术视频超分辨率重建技术是一种将低分辨率的视频图像重建成高分辨率视频的技术。

该技术利用深度学习的超分辨率算法，能够直接从低分辨率视频中学习到高分辨率视频，实现低分辨率视频向高分辨率视频的转化，为实现高质量视频传输和播放提供了可能。

二、视频去模糊技术视频模糊是指由于相机手持晃动或拍摄对象运动等原因导致的视频图像失真现象。

深度学习技术可以利用大量的样本数据进行建模和训练，从而实现对视频模糊的降噪和去模糊，使得视频图像更加清晰。

三、视频自动剪辑技术随着人们观看视频的习惯不断发生变化，人们对于视频剪辑的需求也变得更加多样化。

利用深度学习技术能够自动分析视频中每帧的内容，抽取出关键帧，在不影响视频剧情连续性和节奏的前提下，对视频进行自动化编辑和剪辑，从而大大提高了视频制作的效率。

四、视频语义分割技术传统的图像分割技术需要手动指定目标区域，而视频语义分割技术则是通过深度学习的方法对视频图像进行分析，自动识别和提取出视频中不同的对象区域，并对每个对象进行区分，从而实现对视频进行语义分割。

该技术应用于诸如智能监控、自动驾驶等领域，具有重要的应用价值。

五、视频轨迹预测技术对于许多领域而言，视频中对象的行动轨迹预测是非常关键的一个问题。

基于深度学习的视频轨迹预测技术能够从视频中自动学习每个对象的运动规律，对将要出现的运动轨迹进行准确的预测和矫正。

该技术在智能交通、智能安防等领域得到广泛应用。

综上所述，基于深度学习的视频处理技术具有广泛的应用前景和发展空间。

虽然目前该技术在实践中还面临着许多挑战和问题，但是相信在未来的不久之后，该技术一定能够有更多的应用场景和出色的表现。

千兆级视频流实时处理关键技术研究

千兆级视频流实时处理关键技术研究尹诚;黄小仙;尹达一【摘要】机载遥感系统图像具有数据量巨大、传输速率高、存储时间长等特点.为保证数据传输稳定,解决图像数据传输过程中的丢帧问题,针对目前常见的各种图像数据存储和显示的软硬件实现手段进行分析比较,设计了一种稳定的基于GigEVision协议的千兆级视频流实时处理系统.重点介绍了系统的软硬件构架和视频处理模块StreamPix的开发途径.实验表明该系统能对视频图像进行实时显示和存储,丢帧率为零,图像回放清晰,效果优良.%Based on the airborne monitoring systems having the following features, huge amounts of image da ta , high transfer rate, long storage time and so on, in order to ensure stable data transmission and solve the problem of the frames dropping during the transmission process, a stable system based on GigE Vision protocol is designedto real-time process gigabit-level video stream, by anglicizing and comparing the software and software and hardware architecture implementation of the system. The system hardware selection and the module's design of StreamPix for the video process are introduced . Experiments show that the system can display and store the high-definition ima ges real-time. Leakage frame rate is 0. The playback of video is clear and fluent.【期刊名称】《科学技术与工程》【年(卷),期】2012(012)009【总页数】6页(P2053-2057,2073)【关键词】千兆级;视频流;StreamPix;GigEVision【作者】尹诚;黄小仙;尹达一【作者单位】中国科学院上海技术物理研究所,上海200083;中国科学院研究生院,北京100039;中国科学院上海技术物理研究所,上海200083;中国科学院上海技术物理研究所,上海200083【正文语种】中文【中图分类】TN919.85机载数字遥感技术的发展对高速数据处理的需求越来越高，特别是对视频实时处理系统［1］提出了采集速率高［2］、存储速度高［3，4］、丢帧率低、图像质量高等要求。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

视频流关键技术的研究进展卓　力,沈兰荪,朱　青(北京工业大学信号与信息处理研究室,北京100022) 摘　要:　视频流是在因特网上进行视频信息传送的主流方式.为了在因特网上传输高质量的视频流,需要采取相应的传输机制.本文从视频流传输框架出发,系统讨论了当前视频流关键技术的研究进展,分析了各种技术的特点,并指出进一步发展的前景.关键词:　因特网;流媒体;视频流;阻塞控制;差错控制中图分类号:　T N915101 文献标识码:　A 文章编号:　037222112(2002)0821213206Re search Advance s in K ey Technology of Video StreamingZH UO Li ,SHE N Lan 2sun ,ZH U Qing(Signal and Information Processing Lab ,Beijing Polytechnic Univer sity ,Beijing 100022,China )Abstract :　Video streaming is the mainstream manners in delivery of video content over the Internet.T o deliver high quality video streaming over the Internet ,suitable transmission mechanism must be adopted.S tarting from introduction to video streaming deliv 2ery framew ork ,research advances in key technology of video streaming are summarized.The characteristics of techniques are analyzed and prospect is als o pointed out.K ey words :　internet ;streaming media ;video streaming ;congestion control ;error control1　引言目前,因特网已经发展成为一个跨区域、跨国界、跨文化的信息传输平台,网络多媒体化成为因特网的发展趋势.在网络上传输多媒体信息时,可以采用下载(D ownload )和流式(Sreaming )传输两种方案.音/视频数据文件一般都比较大,由于网络带宽的限制,下载需要很长的时间,需要的存储容量很大.为了解决这些问题,一种遵守特定网络协议的流式媒体(S treaming media )技术应运而生.流式媒体技术是一种新的传送时间连续的数据和音/视频媒体的技术.流式传输时,用户不必等到整个文件全部下载完毕,只需经过几秒或十数秒的启动延时即可进行观看.当音/视频等媒体在客户端播放时,文件的剩余部分继续下载,用户不需要存储文件就可以边下载边连续、不中断地播放.这样流式传输不仅使启动延时大大缩短,还不需要太大的缓存容量[1～5].在流式媒体中,视频流(Video sreaming )技术是最为重要的.本文从视频流的传输框架出发,讨论了视频流的关键技术及应用前景.2　视频流传输系统框架及其特点根据因特网上视频流业务的特点可以将视频流分为两种传输模式[1～3]:直播(Live streaming )和点播(On 2demand stream 2ing ).点播与直播之间最大的区别在于视频编码器是否实时地对视频信息进行编码.点播是将编码后的视频码流存储起来,编码离线进行,而直播需要编码器实时地对视频信息进行编码.点播可以支持快进/快退/停止/回放等VCR (Video Cas 2sette Recording )功能,而直播一般难以具有这样的功能.点播和直播可以采用单播(Unicast )和组播(Multicast )两种传输机制,两种机制的视频流传输框架如图1所示.图1　视频流传输框架收稿日期:2002201210;修回日期:2002204215基金项目:国家自然科学基金(N o.90104013);国家“863”计划(N o.2001AA121061)第8期2002年8月电子学报ACT A E LECTRONICA SINICA V ol.30　N o.8Aug.　2002 由图1可以看出,单播是在客户端与服务器之间建立一个单独的数据通道,服务器送出的数据包只能传送给一个用户.组播是适用于会议电视的一种传输模式,服务器将连续的数据流同时发送给多个用户,多个用户共享同一信息.显然,点播更适合采用单播机制进行传送,服务器应不同用户的点播要求将不同的视频内容传输给用户,而直播则适合采用组播机制.组播减少了网络上传输信息包的总量,大大提高了网络的利用效率,降低了成本.但传输的稳定性和灵活性还有待于进一步提高.单播虽然会造成服务器负载过重、网络利用率低等问题,却是方式灵活、适用性好的一种传播机制.设计视频流系统时,应考虑以下特点[6～10]:(1)当前的因特网是为了传输数据而设计的,并不适合传输连续的流媒体.因特网是一个异构、时变、缺乏Q oS控制的网络,虽然传输效率高,但带宽波动大,易发生丢包现象.网络提供尽力而为服务,很难满足用户个性化的Q oS(Quality of Service)需要.(2)视频流基于服务器2客户模型传输.与传统的传输模型不同,视频编码器通过服务器与信道相连,视频信息预先以某一速率进行编码,编码器无法根据信道的状况调整编码速率.(3)在视频流系统中,每个用户的连接速率、终端的处理速度与显示能力、Q oS需求等存在很大的差异,解码器不一定象传统的方式那样将接收到的信息全部解码,而是根据实际情况动态调整.(4)视频流服务器同时为多个客户服务,服务器只能针对每个客户进行简单的处理.如果现有的用户用完了服务器的带宽,则会存在新用户难以接入等问题.为了能在因特网上为用户提供连续、流畅的高质量视频服务,必须针对用户的异构性、因特网和视频业务的特点研究相应的机制,满足不同用户对Q oS的个性化需求.这些研究涉及视频流的编解码技术、Q oS控制机制、网络传输协议的设计、用户端的误码恢复/隐藏以及缓存器的设计等.3　视频流编解码技术视频流技术的特点要求视频流的压缩技术不仅是高效的,还必须是码率可调整的,即视频数据只压缩一次,但可以以多个帧率、空间分辨率或视频质量进行解码,从而仅用一个码率可调整的码流就可以支持所有的用户.针对视频流发展的需求,2000年MPEG24标准增补了视频流应用框架,提出了可精细扩展编码方法(FG S,Fine G ranu2 larity Scalability).经过多次实验,DCT系数的比特平面编码因为实现复杂度低、性能优等特点被MPEG24选定为FG S编码机制.MPEG24FG S采用的是一种混合分层/嵌入式编码策略.压缩后的码流包括一个基本层和一个增强层,基本层采用非可扩展的基于DCT变换的运动补偿混合编码方法,对原始图像与基本层重建图像之间的残差图像采用DCT系数的比特平面编码方法来得到增强层的码流.增强层码流可以在任意处截断,从而获得对码流速率的连续控制,这就是被称作“可精细扩展”的原因[11].FG S编码方法实现简单,可以在编码速率、显示分辨率、内容、解码复杂度、抗误码等方面提供灵活的自适应和可扩展性,具有很强的带宽自适应能力和抗误码性能.但还存在以下问题:(1)编码效率低于不可扩展的编码方法.这是由于非可扩展编码与FG S编码的出发点不同,前者的目的是在给定的编码速率下使编码的失真最小,而后者的目的是为了可精细地调整编码速率.为了避免因为接收不到增强层的信息而造成的误码扩散问题,FG S预测时采用的是一种“开环”增强层的预测方式,预测时没有利用高质量的增强层信息.(2)FG S方法在编码时确定帧尺寸、帧率、解压缩的质量,在图像质量和编码效率之间达到均衡,并没有考虑实际可用的传输带宽、网络丢包率、用户爱好以及接收端的部分解码等问题,造成接收端得到的视频质量并非最优.目前MPEG24FG S支持质量(S NR)可扩展,而不支持时间可扩展,无法进行时间分辨率的调整.为此,M ihaela等[12]提出了一种混合时间2S NR的FG S编码方案,采用一个FG S增强层就可以调整质量和时间分辨率,扩展了增强层的码率范围. Wu等[13]提出的渐进可精细扩展方法PFG S(Progressive Fine G ranularity Scalability)针对FG S方法编码效率不高的缺点,利用多个增强层进行预测以减少预测误差,提高了编码效率,但同时运算复杂度也会相应地提高.近来,人们在把对FG S的研究集中在提高增强层视频的视觉质量方面,包括频率加权、对感兴趣区有选择地增强以提高视觉质量、提高增强层的抗误码能力等.4　VCR功能的支持在实际应用中,用户希望能够实现对多媒体信息的有效、快速的浏览,这其中的关键是能为用户提供VCR功能,如快进、快退、停止、随机存取等,要实现这些功能需要更多的网络带宽以及解码复杂度的提高.随着新MPEG国际标准的不断推出,许多视频流应用都采用MPEG格式对视频信息进行压缩.因此,不少学者对MPEG码流支持VCR功能进行了深入的研究.MPEG标准采用的是基于I2P2B帧结构的运动补偿预测编码机制,如果要对P 帧解码,则需要首先对前面的I/P帧进行解码,而要对B帧解码,则前后的P帧都要先解码.这种I2P2B帧结构便于实现快进等前向播放功能,但要实现后向播放功能则难度很大.一种实现后向播放功能的方法是将整个G OP解码后存储在一个大的缓存器中,然后再反向播放.但这需要用户端有极大的缓存器来存储解码帧,因此虽然实现简单但在实际应用中并不可行.Chen等[14]提出的方法是在客户端将P帧转换成I帧,切断I帧和P帧之间的相关性.在进行帧类型转换和帧顺序重排后,采用交换运动矢量的办法进行新I2B码流的反向播放.但将P帧转换成I帧时会造成解码复杂度高、存储空间大等问题.Wee等[15]提出的方法将I2P2B格式的码流分成两部分:I2 P帧部分和B帧部分.采用码间转换的方法将I2P帧转换成反4121 电子学报2002年向帧顺序的I2P码流,然后根据原有I2P帧的前向运动矢量估计新I2P码流的反向运动矢量,降低了转换过程中的运算复杂度.对于B帧,采用一种用于反向播放的运动矢量交换机制,但是这种码间转换过程所需的计算量仍然很大,还会因为运动矢量估计的误差造成误码扩散.以上这些方法都没有完全解决因为支持VCR功能而造成的网络流量增加和解码复杂度增大等问题.Om oigui等[16]提出的解决快进问题的方法是存储多个具有不同时间分辨率的压缩码流,然后根据用户的要求发送某一个具有适当的时间分辨率的码流.这种方法不会造成网络流量过大的问题,但是由于存储的码流数目有限,快进的速度受到一定的限制. Lin等[17]在服务器上采用双向码流结构来解决反向播放的问题,并基于这种结构,提出了一种服务器端的帧选择机制来减小所需的网络带宽和解码器复杂度.采用误差补偿机制来减少由于码流切换而造成的误码扩散问题,最终实现用MPEG24视频流系统提供全部的VCR功能.5　Q oS控制机制 Q oS控制机制有基于网络的和基于终端系统(end system)两种.基于网络的方法是由网络中的路由器、交换机等提供Q oS支持,比如路由器发生阻塞时不再是随机丢包,而是根据服务的优先级或包中信息的重要程度有选择地丢包等[18].I2 ETF先后制定了支持一定Q oS的因特网服务模型,如IntServ、DiffServ等.虽然采用这些服务模型可以提供一定的Q oS保证,但由于网络带宽波动问题依然存在,还需要调度控制、排队等其他复杂的管理措施.通常基于网络的方法成本比较高,目前的因特网还无法在很大范围内支持这类方法.基于终端系统的方法是由服务器和客户端采取QOS控制措施来提高视频质量,而不需要网络的参与,可以适应于现有的和未来的网络.QOS控制机制可以分为两类:阻塞控制(C ongestion control)和差错控制(Error control)[19].下面进一步详细讨论.6　阻塞控制技术因特网的网络带宽是时变的.视频流传输速率高于网络带宽时会发生阻塞,造成突发的丢包和延时过大.但如果视频流传输速率低于网络可用带宽,就无法有效地利用网络资源.因此,阻塞控制技术的关键在于准确地估计网络带宽,通过使视频流的传输速率与网络带宽匹配来防止阻塞的发生.现有的T CP协议通过重传来保证数据的可靠传输,不适合视频流的传输需求.但目前因特网上的主要流量是基于T CP协议的,采用的阻塞控制技术必须具有T CP友好的特性,即一个新的视频流加入时不应该影响其他T CP流的正常传输[7-20].阻塞控制机制包括对网络可用带宽的估计、码率匹配两个方面.611　网络可用带宽的估计目前采用的网络带宽估计方法包括基于码率的方法和基于窗口的方法.基于码率的方法根据网络的反馈信息来控制传输速率,往往依据AI M D(Additive Increase Multiplicative De2crease)准则或采用基于T CP模型的公式来估计网络带宽. 1988年Jacobs on[21]提出的AI M D算法被T CP阻塞控制机制采用成为一种常用的带宽估计方法,这是一种“试探”(probe)的算法:网络没有丢包时则加性增加传输速率,一旦网络发生了丢包,则乘性降低传输速率.AI M D算法具有一定的鲁棒性,对阻塞反应灵敏,但即使是网络带宽不发生变化,也会由于周期性的信道状况检测而造成传输速率的波动,造成视频传输质量的下降.Raze等[22]基于AI M D算法提出了RAP算法,这是一种端到端的基于码率自适应的阻塞控制机制,利用每个包的ACK 估计回程时间和丢包率.可以用于实时的视频流传输,并具有T CP友好性能.R ohit等[23]提出的LI M D/H算法利用过去的丢包信息区分丢包发生的原因,并对丢包区别处理,既对阻塞反应灵敏,又能平缓调整传输速率.基于T CP模型的公式法是通过对T CP流量的大量分析,推导出利用回程时间、丢包率来估计网络带宽的公式[2].这种方法可以平缓调整传输速率,但过分依赖对回程时间和丢包率的估计,对网络动态变化的反应比较慢.基于窗口的方法通过调节拥塞窗口的尺寸大小来控制传输速率.与T CP采用的控制机制类似,根据接收端的ACK信息,依据AI M D准则调整阻塞控制窗口的大小,控制网络的流量,避免阻塞的发生[2].以上这些阻塞控制算法都深受现有的T CP阻塞控制机制的影响,过分强调具有T CP友好的特性,不能有效利用网络的资源.因此如何根据因特网的特点和采用的协议设计高效、快速的阻塞控制算法仍是值得研究的问题.612　码率匹配码率匹配是使视频码流的传输速率与网络可用带宽适配.目前采用的技术主要包括码率转换、动态码率切换和可扩展编码等[1,4,7].码率转换方法是指编码器预先以某一固定速率对视频内容进行编码,服务器通过有选择地丢帧、丢DCT高频系数以及重新量化等方式来调整编码速率.采用这种方法只能调整有限的码率范围,而且算法复杂度高,需要服务器参与复杂的处理.动态码率切换技术是指对同一视频内容采用多个码率进行编码,服务器根据客户的信道状况反馈信息选择最匹配的编码速率进行传输.这种方法需要用到多个速率的码流,占用的存储资源大.客户端解码时同步困难,码率调整的范围有限.可扩展编码方法被认为是可用于视频流以解决因特网异构特性的编码方法,服务器根据网络带宽的具体状况决定是否传输增强层、传几个增强层,服务器参与的处理比较少[4].在解码端,增强层要么根本不可用,要么作为一个整体被解码,因此采用可扩展编码方法获得的视频质量是不连续的,呈阶梯状变化.如果只有一个或两个增强层可用,那么码率调整的程度有限.如果有多个增强层可用,则编码开销增大,编码效率降低.前面讨论的FG S编码方法是可扩展编码方法中的一种,5121第　8　期卓　力:视频流关键技术的研究进展但不是采用多个增强层来获得中间质量,而是可以获得对码率的连续调整,解码质量与解码比特数成正比.服务器只需要根据网络带宽对增强层码流截断,参与的处理很少,因而在视频流应用中得到了越来越多的应用[6,8].7　差错控制差错控制的目的是为了解决丢包问题,这包括应用层和传输层的差错控制.应用层的差错控制包括从视频压缩角度考虑的抗丢包能力以及客户端的丢包检测与恢复,传输层的差错控制包括打包算法的设计以及FEC等.711　信源编码的抗丢包能力目前H.263,MPEG24标准中所采用的多种抗误码技术如重同步标记、数据分割以及数据恢复等针对无线信道的误码控制,对因特网的丢包恢复并不适合.具有抗丢包能力的视频编码方法往往利用码流中的冗余信息来有效地抗丢包,这涉及多描述编码和最优模式选择.多描述编码的基本思想是对同一视频内容采用多种方式进行描述,每一种描述都可以获得可接受的视频质量,多个描述方式结合起来可以使视频质量得到增强.这种方法虽然压缩效率低,但传输时不需要采取很强的保护措施就可以有效地抗丢包[23].多描述编码的效率和计算复杂度等问题还有待于进一步的解决.Zhang等[24]研究了在传统的率失真框架下如何自动选择Intra编码宏块的数目和位置,在给定了丢包率和编码速率的情况下可以获得最小的全局失真.这种方法是在给定的条件下通过编码模式选择使重建视频与原始视频的失真达到最小,而没有充分考虑网络的具体状况和客户端的误码恢复能力.Wu等[25]提出的端到端的全局率失真最优模式选择方法则综合考虑了信源端的量化、打包、信道特性、接收端的误码隐藏能力等因素,获得了更好的性能.C ote等[26]把率失真最优问题应用到可扩展视频编码中,基于可扩展编码和优先级传输原理提出了一种视频通信框架.这种方法综合考虑了信道状况、信道编码的误码恢复能力、解码器的差错恢复/隐藏能力等各种因素,为每一层的每个编码块选择编码模式,可以在给定的码率下使接收端重建的失真最小.712　客户端的误码恢复与隐藏误码恢复与隐藏技术是在发生了丢包的情况下,由接收端采取的一种“后处理”技术.视频信息不同于一般数据(或文本)信息,它具有极强的空间和时间相关性.因此可以充分利用这一特性,寻找一些相关的数据来代替误码数据,使误码不被人眼觉察出来.Wang等[27]对接收端的误码恢复与隐藏技术作了很好的总结,但最大平滑恢复、凸集投影等方法比较适合于AT M网络和无线环境,并不适合因特网上的视频流应用.时间/空间插值法是两种常用的误码恢复技术,时间插值法适合于I NTER编码模式下的误码恢复,比如由前一重建帧代替发生了误码的当前帧;由前一重建帧中相应位置处的块代替受损块;由前一重建帧中由运动矢量确定的块代替受损块等都属于这类方法[28].空间插值法适合于I NTRA模式下的误码恢复,利用受损块周围的像素插值来恢复误码.时间、空间插值还可以结合起来使用,以最大限度地提高重建视频的质量.713　打包机制设计打包机制时要综合考虑传输效率、抗丢包能力等因素,打包过程可以提供一种重同步的方法,增强系统的抗丢包能力.Zhu等[29]在打包前将相邻几个图像块的信息作适当交织,在发生了误码的情况下比较容易恢复出原始的视频信号. Le等[30]研究了MPEG24码流的打包方法,每个包采用固定尺寸,一个宏块可以打成两个数据包,这样数据包之间就会具有一定的相关性,因此这种方法的抗丢包能力差.Turletti等[31]提出了一个宏块一个数据包的打包算法,与Le的方法相比增强了抗误码能力,但传输效率低.Zhu等[32]采用一个G OB一个包的打包算法,提高了传输效率.Wu等[33]则利用MPEG24的VOP特性设计了一个混合层的打包算法,在传输效率高的同时也提高了抗误码能力.M ichael等[9]则对基于“G OB”或“S lice”结构的多种打包算法进行了深入的研究,并给出了比较结果.这些打包算法包括一个数据包可以包括1个、2个甚至多个G OB,一个帧的数据可以放在一个数据包中,奇数行的G OB交织后放在一个数据包中、偶数行的G OB交织后放在一个数据包中等.实验表明,数据包的尺寸小可以有效地抗丢包,但传输效率低.714　FECFEC通过给压缩后的视频码流加上一定的冗余信息来有效抗误码,是视频流传输时经常采取的差错控制机制,主要包括信道FEC编码、基于信源编码的FEC以及信源/信道联合编码[8,28,34,35]等.因特网上的信道编码主要采用块编码的形式,如RS (Reed2S olom on)码.先将视频码流的每个分段打成K个包,通过对这K个包中数据块的线性无关组合产生N(NΕ1)个冗余块,这样共得到M=K+N个包块.用户只要正确接收M 个包中的任意K个包(但必须至少接收K个包,否则接收到的数据包全部作废)就可以完全恢复一个分段.因此,客户端可以根据自己的处理能力选择一定数目的包进行解码,从而适应客户端异构性的特点.但用户必须至少接收到K个包后才能开始解码,因此增加了解码延时.基于信源编码的FEC 这样加冗余信息:第N个包中不仅包括码流信息还包括第N -1个包的冗余信息,如果N-1包丢失,则根据第N个包中的冗余信息恢复丢失的数据.以上这两种都是基于信源/信道分离理论的编码技术,无法根据信道的状况来调节编码速率,不适用于因特网这类时变的传输信道.信源/信道联合编码则在给定网络可用带宽的情况下,通过最优地分配信源和信道编码速率,使视频传输失真达到最小[35].随着可扩展编码技术的发展,人们开始研究根据视频信息的重要性程度、客户定义的优先级以及网络的丢包率高低等来决定所采取的不等错误保护措施[8～10,35],不等的错误保护与可扩展编码相结合可以看作是一种可以有效抗丢包的信源/信道联合编码方案.R ohit等[23]将FEC与多描6121 电子学报2002年述编码相结合,Alexander等[10]则将FEC与基于SPIHT算法的可扩展编码方法相结合,在因特网上进行视频流传输均取得了很好的效果.FG S方法与不等的错误保护结合这是当前视频流传输技术的一个研究热点[6,8,12].研究结果表明,这种方法具有很强的抗丢包能力.与其他方法相比,可以将PS NR提高5dB左右.8　缓存器的设计视频流传输的实现需要缓存.因特网以包传输为基础进行异步传输,对于一个数据量很大的视频文件来说,在传输中会被分解为许多包.由于网络的带宽是动态变化的,各个包选择的路由不尽相同,到达客户端的延时也不一样.为此,需要使用缓存器来弥补延时波动的影响,保证视频播放的连续、流畅地进行.Hayder等设计了一种传输-解码缓存模型,与基本层的重传相结合,可以保证解码的流畅进行.9　视频流传输中采用的协议在因特网上传输视频流时需要相应的传输协议,所涉及的协议包括:网络层的IP协议,传输层的T CP/UDP,RTP/RT CP 协议,以及会话层的RTSP,SIP协议等[36].IP提供了在因特网上传送UDP/T CP数据包的公共平台,UDP/T CP是用于传送RTP/RT CP/RTSP/SIP数据包的低层传输协议,这些协议结合起来可以提供因特网上的视频流服务.T CP可以通过重传丢失的数据包而提供可靠的传输,利用阻塞控制来防止网络阻塞.由于T CP反复重传会引入过大的延时,因此在因特网上传输视频流时往往采用UDP协议.但UDP不能保证数据包的可靠传输,需要利用上层的RTP协议来检测是否丢包.RTP/RT CP运行在T CP/UDP协议之上.RTP是用于因特网上的多媒体数据的传输协议,可以为实时应用提供时间信息和流同步.RTP本身并不能为顺序传送数据包提供可靠的传输机制,也不提供流量控制或拥塞控制.RT CP是监视RTP 包传送的控制协议,可以给发送端提供QOS反馈,和RTP配合使用,能以有效的反馈和最小的开销使传输效率最佳化.RTSP在位于RTP/RT C之上,是控制流媒体在因特网上传输的协议.它可以提供VCR功能,还可以建立、控制服务器和客户端之间的连续视频/音频流.SIP是会话控制协议,可以建立或终止与一个或多个用户的会话.与RTSP不同的是,SIP 支持用户的移动.10　结束语以宽带为基础,视频流不仅可以用于视频点播、数字图书馆等多媒体业务,还能用于一些对实时性要求很高的场合,如实况转播新闻、球赛、重要会议等.另外,视频流技术还可以用于远程监控、安全监督以及互动视频节目等方面.作为多媒体与网络领域的交叉学科,流式媒体的应用与研究得到了迅速的发展.它衍生出了适合流式传输的网络通信技术,多媒体数据采集技术、数据压缩技术和存储技术等基础技术,流式媒体已经发展成为一个产业.可以预见,流式媒体将成为未来因特网应用的主流,并将推动因特网整体架构的革新.参考文献:[1]　Jian Lu.S ignal processing for internet video stream ing:A review[A].Proceedings of SPIE Image and Video C ommunications and Processing[C].San Jose,CA US A:2000.1-14.[2]　Dapeng Li,et al.S tream ing video over the internet:Approaches and di2rections[J].IEEE T rans on Circuits and Systems F or Video T echnolo2 gy,2001,11(1):1-20.[3]　G reg ory J C onklin,et al.Video coding for stream ing media delivery onthe internet[J].IEEE T rans Circuits and Systems F or Video T echnolo2 gy,2001,11(3):269-281.[4]　Reza Rejaje,et yered quality adaptation for internet video stream2ing[J].IEEE Journal Selected Areas in C ommunications,2000,18(12):2530-2543.[5]　Jane Hunter,et al.A review of video stream ing over the internet[DB/O L],.au.2001-05.[6]　Hayder Radha,et al.Scalable internet video using MPEG24[J].S ignalProcessing Image C ommunication,1999,15:95-126.[7]　Reza Rejaje,et al.Architectural consideration for playback of qualityadaptive video over the internet[DB/O L],http://w w w.citeseer.nj..2001-06.[8]　U horn,et al.R obust internet video transm ission based on scalable cod2ing and unequal error protection[J].IEEE T rans Image Processing,1999,15:77-94.[9]　M ichael G allant.Rate2distortion optim ized layered coding with unequalerror protection for robust internet video[J].IEEE T rans Circuits andSystems for Video T echnology,2001,11(3):357-372.[10]　Alexander E M ohr.Unequal loss protection:G raceful degradation of im2age quality over packet erasure channels through forward error correc2tion[J].IEEE Journal Selected Areas in C ommunications,2000,18(6):819-828.[11]　W eiping Li.Overview of fine granularity scalability in MPEG24videostandard[J].IEEE T rans Circuits and Systems F or Video T echnology,2001,11(3):301-317.[12]　M ihaela van der Schaar.A hybrid tem poral2S NR fine2granular scalabili2ty for internet video[J].IEEE T rans Circuits and Systems F or VideoT echnology,2001,11(3):318-331.[13]　Wu Feng,et al.A framew ork for efficient progressive fine granularityscalable video coding[J].IEEE T rans Circuits and Systems F or VideoT echnology,2001,11(3):332-344.[14]　Chen M S,et al.D ownload and stream conversion:Supporting interac2tive play out of videos in a client station[A].IEEE C on f MultimediaC om puting and Systems[C].W ashington:1995.73-80.[15]　W ee SJ,et al.C om pressed2domain reverse play of MPEGvideo streams[A].Proc SPIE C on f Multimedia Systems and applications[C].Boston,M A US A:1999.237-248.[16]　Om oigui N,et al.T ime2com pression:System concerns,usage,and bene2fits[A].Proc AC M SIG HI C on f[C].New Y ork US A:1999.136-143.[17]　Chia2wen Lin,et al.MPEG video stream ing with VCR functionality7121第　8　期卓　力:视频流关键技术的研究进展。