浅谈视频会议系统的同步技术

科技信息2008年第26期

SCIENCE &TECHNO LO GY INFORMATION 1.视频会议系统的简介

视频会议系统视指两个或两个以上不同地方的个人或群体通过传输线路及多媒体设备,将声音、影像及文件资料相互传送,是一种集通讯、计算机技术、多媒体技术于一体的远程异地通信方式。近几年来,随着通信技术和互联网技术的飞速发展,视频会议的应用范围越来越广泛,从专业领域到普通用户拓展。如何实现视频会议系统的视音频同步问题显的尤为重要。下面就对视音频的同步进行分析。

2.视音频同步的研究分析

在视频会议中,音频和视频数据都要如图1-1所示的处理过程。

图1-1视音频数据的处理过程

经过以上多个环节的处理,同一时间捕捉的视、音频信号到了接收终端回放时,往往己经不同步了,而这样就失去视频会议系统实时

性的意义,因此,视音频同步的程度也是衡量视频会议质量的一项重要指标。

同步又分为媒体内同步和媒体间同步,这里我们重点研究媒体间同步。以下简称同步。

同步要求可以用服务质量表达,所需的服务质量取决于媒体和应用。为了描述同步要求,实现相关控制机制,定义了相应的服务质量(Qo S)参数。音频和视频的相关信息单元的时间差称为偏移(skew 。)人

体对抖动和偏移的测量结果表明,如果抖动和偏移限制在一个合适的范围内,人们认为媒体是同步的。文献[47,48]给出了两个相关媒体同步的Qo S,并可以对两个相关媒体的QoS 定义一个可以接受的同步边界。研究表明,当偏移在-80ms(音频滞后视频)到+80ms(音频超前视频)之间时,多数观众都不会感到偏移的存在,这就是同步区域;当偏移在-160ms 到+160m s 之外时,几乎所有观众都对播映不满意,这一区域称为不同步区域;在同步区域和不同步区域之间的是临界区域,当偏移在这个区域时,观众离播映点越近,播映的视频信号和音频信号的分辨率越高,观众越容易感到偏移。

引起视、音频不同步的原因大致可分为两种:一种是终端处理数据引起的,发送端在处理采样,编码,打包等模块和接收端在处理拆包,解压,回放等模块时,由于音频和视频的数据量以及编码算法各不同而引起的时间差;另一种是网络传输时延,网络传输时延是受到网络的实时传输带宽、传输距离和网络节点的处理速度等众多因素的影响,尤其是在网络阻塞时,不能保证数据量大的视频信息的连续传输,从而引起视频流和音频流的不同步。

对于媒体间同步性能的度量,H.L iu 提出了一个关于媒体连续性的二阶测度,称为均方根误差RM SE(ro ot m ean square erro r)

σav =(Ma

m =1

![(P a (m

)-P v (n))-(G a (m)-G v (n))]2

/M a)1

其中G (n),P (n)是视频流中第n 个媒体单元(M U)的产生时间和播放时间,G (),()是音频流中第个M U 的产生时间和播放时

间,这里假设音频流中第m 个M U 的产生时间与视频流中第n 个MU 的产生时间最接近。M a 是音频流是M U 的总数目。该值用于度量视音频相关信息单元的平均偏移。

此外,媒体失步程度可用同步相位失真SPD(sy nch ronizatio n phase distortio n )来表示。SPD 定义为两个强相关对象,也即两个时间上最邻近的对象与其原始时间间隔相比,发生的时间间隔变化。其媒体间

D av =(P a (m)-P v (n))-(G a (m)-G v (n))

其中,符号定义同RM SE 中符号定义。

3.本系统中视音频同步的算法设计

3.1算法的设计思想

针对引起视音频不同步的原因,同步的解决也相应分为发送端的采集编码同步和接收端的回放同步。其中接收端的回放同步是至关重要的。直接影响到播放质量。

(1)发送端的采集编码同步控制方案虽然视频采集与音频采集在理论上是同时开始的,但由于系统执行的有序性,视频与音频的采集起始时刻一定不相同,这样就导致编码的开始时刻也不相同,对此,系统采取的方法是:先启动视频采集线程,再马上启动音频采集线程,而后记录下视频采集时间T v 与音频采集时间T a 的差△t,再根据视频采集速率G v (fpm s )和音频采集速率G a (fpms)计算出应丢弃的视频帧数△tG v ,而后启动视频和音频编码线程,视频编码时先丢弃△tG v 帧后再

开始编码。本系统中视频码率为29.97帧/秒,音频帧大小为10毫秒。封装好的视频RT P 包和音频RTP 包分别放于发送端的视频发送缓存和音频发送缓存中,同时发送序列号相同的视频包的音频包。(2)接收端的同步控制方案接收端以正常语音播放时间为基准,将语音流做为主媒体,通过调整视频播放速率实现媒体间的同步控制。通信开始后,接收端将接收到的视音频数据存入相应的缓存队列,进行解码,然后将解码后得到的数据分别放入各自的播放缓冲,准备播放。当音频数据达到音频播放缓冲区的二分之一高度时,同时启动视音频播放,与此同时记录当前的系统时间,以后每30毫秒判断一次同步情况,对视频播放的频率做出相应调整,调整算法在下节介绍。

3.2同步调整算法的具体设计

以音频流为主流,根据音视频帧采集时间对视频播放进行调整。算法中将使用到以下物理量和符号:

S A :音频帧的大小,根据G.711标准,为10毫秒;

f s :视频采集速率,此处据H.261标准,为29.97帧/秒;

N T :根据音频播放时间求得的视频目标显示帧序号;N C :接收端当前正在显示的视频帧序号;N B :上一个调整帧的帧序号;

f m :同步调整期间视频帧的播放帧速;t T :将要播放的视频帧的目标播放时间;T B :上一次调整的时间;

n a :相邻两次调整期间音频的播放帧数;

t n :当前时间;

以音频流的播放为基准,可求出系统当前应该播放的视频帧序号:N T =N B +S A ×n a ×f s /1000

将其与当前播放帧的序号进行比较,判断视音频是否同步,判断的依据和调整的方法是:

情况1,N T -N C ≤2,此时视音频处于同步状态,不改变视频播放时间。

情况2,2

情况3,N T N ≥5,此时视音频不同步,处于失步状态,需改变视频播放时间。

浅谈视频会议系统的同步技术

潘燕燕郑瑾

(福建交通职业技术学院信息技术与工程系

福建福州350007)

【摘

要】本文对视频会议的系统同步技术进行分析,给出了媒体间同步算法。

【关键词】视频会议系统,

同步

○I T 技术论坛○6v v a m P a m m -C 2