一种H.264 帧内预测模式判决算法及VLSI 实现体系

合集下载

H.264帧内预测模式快速判定算法研究

２０１３牟第１１期
文章编号：１００９— ２５５２（２０１３）１１— ０１６９— ０４中图分类号：ＴｔＢ９１．４１文献标识码：Ａ
Ｈ．２６４帧内预测模式快速判定算法研究
周黎明，李东新，薛东伟
ａｎｄｂｉｔｒａｔｅｃｈａｎｇｅｄｌｉｔｔｌｅ．Ｋｅｙｗｏｒｄｓ：Ｈ．２６４ｓｔａｎｄａｒｄ；ｉｎｔｒａｐｒｅｄｉｃｔｉｏｎ；ｔｅｘｔｕｒｅｄｉｒｅｃｉｔｏｎ；ｃｅｎｔｅｒｏｆｍａｓｓｃｏｒｄｉｎａｔｅｓ
（河海大学计算机与信息学院，南京２１１１００）
摘要：帧内预测作为Ｈ．２６４中提高编码效率的重要部分，其采用了率失真优化技术（ＲＤＯ）进行预测模式的选择，但同时编码复杂度和计算量也明显增加。为此，提出一种快速判定算法。该算法利用区域图像的质心坐标对区域图像的平坦性和方向性进行判断，算法通过判断宏块的
ａｃｃｏｒｄｉｎｇｔｏｔｈｅｔｅｘｔｕｒｅｄｉｒｅｃｔｉｏｎｏｆ４ ×４ｂｌｏｃｋｓ，ｄｅｔｅｒｍｉｎｅｓｔｈｅｐｒｅｄｉｃｉｔｏｎｍｏｄｅｓｅｔ，ｒｅｄｕｃｅｓｈｅｔａｌｇｏｒｉｔｈｍｃｏｍｐｌｅｘｉｔｙ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｗｉｔｈｔｈｅＨ．２６４ｃｏｄｅｃｓｔａｎｄａｒｄｒｅｆｅｒｅｎｃｅ，

H.264AVC分数运动估计改进及VLSI实现

H.264A VC分数运动估计改进及VLSI实现
摘要：目前H.264／Avc采用的分数运动估计算法是先进行1／2像素插值，再进行1／4像素插值，这样会造成存储访问量增大，因此对此进行改进，提出了一种新的用于H.264分数运动估计的vLsI结构，改进分数运动估计的迭代顺序为1／2像素插值和1／4像素插值同时进行，设计出一种具有更高并行性的VLSI结构。

在0.18umcMos工艺下作了逻辑综合和仿真，相比于现有结构，这种结构能够提高系统的数据吞吐率和处理能力，降低存储访问带宽需求和系统的整体功耗。

关键词：H.264／A VC：分数运动估计；像素插值；并行性；VLSI结构
中图分类号：TP37
文献标识码：A
文章编号：1009-3044(2010)29-8238-03。

翻译：一种快速的H.264帧内预测算法

一种快速的H.264帧内预测算法摘要：无线混合编码视频通道是非常有挑战性的。

高效的编码和压缩技术必须符合QoS（服务质量）服务的要求。

H.264这种来自ITU-T的最新的编码和压缩标准，提供了灵活的架构且目前压缩增益高达50%。

在H.264中，帧内预测是在空间域进行控制的。

目前有两种类型的帧内预测量度：Intra_16 x16和Intra_4x4。

分别支持四、九模式，其复杂性和计算量大大增加。

适用于H.264的快速模式选择算法帧内预测将在本文说明。

该算法在预计每一个宏块使用宏功能之前进行编码，然后选择的预测模式部分。

实验结果表明，提出的快速算法可以达到先前计算量的30％至60％，而减少维持类似的H.264的PSNR和比特率性能编码器。

关键词: H.264;服务质量;帧内预测;混合编码;一、简介宽带无线网络的快速增殖是令人鼓舞的，无线服务供应商提供除语音和数据服务的低比特率视频服务。

在无线视频通信平台是一个非常具有挑战性的任务，由于带宽无线连接是有限的、时变信道的无线手持设备和电池功率有限的特性。

当采用复杂的视频编码和压缩技术以支持无线视频时，这些问题将变得更加严峻。

联合视频组的ITU - T的VCEG（联合核查小组）（视频编码专家组）和国际标准组织IEC的MPEG（运动图像专家组）已建立了一个新的标准[1]，这是众所周知的H.264也就是MPEG - 4的第10部分：A VC（高级视频编码），自然视频编码图像。

H.264具有编码效率比起以前成功的编码标准有很大的优势。

它可以分别在相同的重建图像质量[2]方面比MPEG - 2，H.263+ +和MPEG - 4节省64.46％，48.80％和38.62％的比特率，但高编码效率需要繁重的计算。

据估计，H.264编码器复杂度约为MPEG - 4的5〜10倍，并且H.264的解码复杂度为MPEG - 4的2〜4倍。

其编码的高度复杂性限制了H.264在实时视频通信领域的应用。

一种新的H.264帧内预测快速算法

维普资讯
镣救瀑
一
ＥＣ（ＣＥＵＭＴＥＮＹＩＴ）电子测量技术ＨＩＲ１ＭＳＥＮＴＯ）ＥＮＡＲＥ（Ｃ（
种新的Ｈ２４帧内预测快速算法．６
杜博方向忠
（上海交通大学图像通信与信息处理研究所上海２０３）０００
来．２４以前的压缩标准相比，算法复杂度和计Ｈ．６与在分析Ｈ．６编码器的结构可知，２４多种预测模式ቤተ መጻሕፍቲ ባይዱ的帧内
算量上也急剧增加。编码的是Ｈ．６２４中很耗费时间的一个部分，内编码已经帧
可能的模式。对代价函数的简化．般基于ＳＴ和一ＡＤ
码过程中帧内预测模式判别的优化具有重要的意义。本文主要针对Ｐ帧的帧内编码进行优化，出一种基于时域提和空域联合的最佳帧内预测模式的选择算法，大限度地最提前排除一部分不可能的预测模式，免不必要的代价函避数计算。实验结果表明，算法对ＩＰＰ序列编码能减少本ＰＰ约３的的编码时间。不降低率失真性能的前提下使编５在
～
ｌ帧内预测模式快速算法的研究
１１减少帧内预测模式复杂度的方法．
对帧内预测模式的优化。要集中在２个方面：主一足对代价函数的简化。择比ＲＯ计算量更小的代价函数；选Ｄ
二是减少待选预测模式数．于一定的分析。先排除不基预

H.264帧内预测模式快速判决算法

Ｋｅｒ：２６ｉｔａｐｅｉｔｎｍｏｅ；ｌｏｔｍｙｗｏｄｓＨ．４；ｎｒｒｄｃｉｄａｇｒｈｏｉ
数字信号具有抗干扰能力强、易于加密等特点，
的３倍和２倍。因此，究和开发面向Ｈ．６研２４的快速算法从而降低编码复杂度、高编码速度，提对于Ｈ．６／Ｖ２４ＡＣ视频编码标准能否得到广泛普及，以及进一步研究、发展视频压缩和通信技术具有十分重
Ｈ．６２４帧内预测模式快速判决算法
周云艳
（山学院信息工程学院，徽黄山２５２）黄安４０１
摘要：Ｈ．６在２４视频编解码标准中，帧内预测是利用周围像素预测当前块来降低空间冗余，能极大地提高Ｈ２的．６４
第２５卷第１期
２０１１伍
山
东
轻
工
业
学
院
学
报
Ｖｏ．５Ｎｏ．１２１
２月
ＪＵＮＬＯＲＡＯＦＳＡＤＯＧＯＹＥＨＮＣＵＩＥＳＴＨＮＮＰＬＴＣＩＮＶＲ１Ｙ
Ｆｂｅ．
２１０１
文章编号：０４４８（０１０－５－１０－０２１）１０４０２０５
（ｏｌｅｏＩｆｒａｏｎｉｅｒｇＨａｇｈｎＵｉｒｉ，ｕｎｓａ４０１Ｃｉ）ＣｌｇｆｎｏｍｔｎＥｇｎｅｉ，ｕｎｓａｎｖｓｙＨａｇｈｎ２５２，ｈｎｅｉｎｅｔａ

H.264中的一种快速帧内预测判决算法

【ｂｔａｔｈｕｈｒｇｅａｆｔｎａｐｅｉｉｒｈｅｉｕｉｇＳＴｎｐｔｌｃｒｌｉｎＩｃｌａｏｄｕｎｃｓｒＤｃｓＡｓｃ】ＴｅａｔｏｓｉｓｉｔｒｄｃｏａｔｍｔｓＡＤａｄｓａａｏｅａｏ．ｔａｖｉｎｅｅｓｙＲｏｔｒｖａｒｔｎｉｃｎｉｒｔｌａ，
下还不能满足实际应用的要求，所以在不改变Ｈ２４．／６
ＡＣＶ标准码流结构和维持原有码率的情况下，找到简单
可行的算法替代原有的复杂算法，提高其编码速度就成
为当前的研究热点。下面将首先利用图像的ＳＴＳｍＡＤ（ｕ
ａｄａｃｒｉｇｙｒｄｃｈｏｌｘｔｆｉｔｒｄｃｉｎｇｅｔ．ＣｍｐｒｄｗｔｅＨ．６ｎｏｅＭ８ｅｐｒｎａｅｕ￣ｓｏｎｃｏｄｎｌｅｕｅｔｅｃｍｐｅｉｏｎｒｐｉｔｒａｙｏａｅｉｔ２４ｅｃｄｒＪ６，ｘｅｉｔｒｓｌｈｗｙａｅｏｌｈｈｍｅｌFra bibliotek非常相似。
校验模型Ｊ６给出了一种全搜索的算法，Ｍ８翻它先以色度模式数为外循环，后依次扫描亮度的所有模式。然这
内预测算法充分利用图像的空间相关性，用图像块周围
的像素来进行帧内预测【Ｉ】，提高了编码效率，从而减少了
种算法能够扫描到所有模式，因此编码质量最高，运算量
维普资讯
数字电器ｓ数字硬频

基于H.264高清实时解码器运动矢量预测的VLSI设计与实现

基于H.264高清实时解码器运动矢量预测的VLSI设计与实现数字视频技术目前广泛应用于网络视频会议、高性能视频信息传输、高清视频电影播放以及互联网等领域。

自2003年以来，国际ITU-T的视频编码专家组(Video Coding Expert Group, VCEG)和国际标准化ISO运动图像专家组(MovingPicture Expert Group, MPEG)，组成联合视频组JVT共同编写的H.264视频编码标准，自公布以来，其具有的高性能的压缩效率，受到了业界的万众瞩目。

H.264/AVC作为新一代的视频编解码标准，相比于前一代H.264和MPEG-4来说实现了许多关键技术上的改进，其中包括多个参考图像的运动估计、亮度1/4像素点的插值运算、不同模式下的运动矢量预测和多种形式的熵编码，所以，H.264视频编码标准与以前视频编码标准相比较具有更高的压缩性、质量性和适应性。

本文在深入研究H.264/AVC视频编码标准协议的基础上，针对基于H.264高清视频解码器的运动矢量预测单元提出VLSI的解决方案。

在该方案中提出采用参考像素读取与预测运算二级流水并行处理结构，提高了电路的运算速度，减小插值运算的时钟周期数。

控制和空间预测运算电路的内部设计中，采用逐级的控制方式，利用控制信号对空间预测运算电路中相应的数据运算单元进行控制，对相关单元的工作状态进行管理，以达到降低电路功耗的目的。

最后，本文采用硬件描述语言Verilog HDL对电路进行RTL寄存器传输级建模，并利用Modelsim对预测电路进行模块级仿真，系统级验证采用硬件运算结果与JVT发布的软件模型JM10.1解码运算的结果进行比较的验证方式，得到软硬协调一致的结果，采用SMIC180nm CMOS工艺库，利用Design Compiler对预测电路进行逻辑综合，结果满足设计要求。

H.264高清视频帧内预测技术的VLSI设计与实现的开题报告

H.264高清视频帧内预测技术的VLSI设计与实现的
开题报告
本次开题报告旨在探讨H.264高清视频帧内预测技术的VLSI设计与实现。

H.264是一种常用的视频编码标准，其帧内预测技术可以大大减少视频压缩的数据量，提高视觉效果和传输速度。

本文将以VLSI设计和实现为主线，介绍H.264帧内预测技术的原理和实现方法。

具体的研究内
容包括：
1. H.264编码标准概述。

H.264是当前最常用的视频编码标准之一，具有高压缩比、高质量和低码率等优点。

本部分将介绍H.264的基本概
念和编码流程。

2. H.264帧内预测技术原理。

帧内预测是H.264压缩的重要技术之一，其可以通过前一帧或当前帧中已经编码的像素预测未来的像素值，
从而减少数据量。

本部分将介绍常用的帧内预测算法和原理。

3. H.264帧内预测技术VLSI设计与实现。

本部分将介绍H.264帧内预测技术的VLSI设计和实现方法。

具体包括设计流程、设计考虑因素、性能分析等。

4. 实验与分析。

本部分将进行实验和分析，从性能、功耗、面积等
方面评估H.264帧内预测技术的VLSI设计和实现效果。

本论文预计通过对H.264高清视频帧内预测技术的VLSI设计与实现研究，探索高清视频编码的优化方法，提高视频编码的质量和效率。

同时，本论文的研究结果可应用于视频编码芯片的设计和开发中，具有重
要的实际应用价值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一种H 1264帧内预测模式判决算法及VLSI 实现体系黄　凯,秦　兴,严晓浪,葛海通(浙江大学超大规模集成电路设计研究所,浙江杭州310027) 摘　要:　17种预测模式和率失真优化模式判决极大的增加了H.264帧内编码器硬件设计的复杂度.目前的模式判决快速算法能大量减少模式判决的复杂度,但却不易于硬件实现.本文在S obel 边缘检测模式判决算法的基础上,提出了一种面向V LSI 实现的模式判决优化算法.该算法通过修改16×16宏块部分像素的S obel 边缘检测算子来减少存储器读取次数,优化预测模式区域的范围来减少硬件设计复杂度,并采用变换后残差绝对值和(S AT D )来简化编码代价判决运算.实验结果表明,采用该算法的帧内硬件编码器可以在确保编码质量的前提下,显著降低硬件实现复杂度和提高编码器效率.关键词:　H 1264;帧内编码;模式判决;V LSI 实现中图分类号:　T N919181 文献标识码:　A 文章编号:　037222112(2007)022*******A H 1264Intra Prediction Mode Decision Algorithm and V LSI ImplementationH UANG K ai ,QI N X ing ,Y AN X iao 2lang ,GE Hai 2tong(Institute o f VLSI Design ,Zhejiang University ,Hangzhou ,Zhejiang 310027,China )Abstract :　The complexity of H.264hardware intra encoder is remarkable due to 17prediction modes and Rate 2distortion op 2timization mode decision.Although reduce coding complexity greatly ,most of current intra prediction mode decision algorithms are hard to implement in hardware.A new mode decision algorithm for VLSI implementation is proposed based on Sobel edge detection mode decision algorithm.Our algorithm decreases memory bandwidth by modifying Sobel edge detector of part pixels ,reduces hard 2ware design complexity by optimizing mode region range ,and simplifies cost computations of each prediction mode by using SATD.The results of experiment and hardware design show that our algorithm can greatly reduce the complexity of hardware implementa 2tion and significantly improve the efficiency of coder while coding quality is decreased slightly.K ey words :　H 1264;intra 2frame code ;mode decision ;VLSI implementation1　引言 H 1264/AVC 是-种高性能的视频编码标准,与MPEG 24、H 1263和MPEG 22相比,H 1264/AVC 在码率上相应减少了39%、49%和64%[1,2].凭借高效的编码性能,H 1264/AVC 已经在高清电视(H DT V )、存储媒体、无线多媒体应用等方面显示出了巨大的应用潜力.帧内预测是H 1264/AVC 编码标准的一种基本预测方式.与J PEG 2000DWT 5/3编码标准相比,H 1264/AVC 帧内编码的PS NR (Pear S ignal 2to 2N oise Ratio )增加了0152110dB [4].H 1264/AVC 帧内预测总共有17种预测模式:9种4×4亮度预测模式、4种16×16亮度预测模式和4种8×8色度预测模式[3].对于每个16×16的宏模块(4∶2∶0图像),编码器必须完成144次亮度的4×4预测模式运算、4次亮度的16×16预测模式运算和4次色度的8×8预测模式运算,而每种预测模式背后是大量复杂的率失真优化(RDO ,Rate Distortion Optimization )运算.在实时帧内编码器工作时,用于预测模式生成和选择的时间占总运算时间的77%[4].因此,可以通过快速模式判决算法来减少这部分运算量,从而提高编码器的效率.2　当前帧内模式判决算法的问题现有的帧内预测编码模式判决的优化算法主要体现在两个方面:一个是简化RDO 算法来减少运算工作量[4,8];另一个是通过预处理来减少预测模式的种类[5,6,9].简化RDO 算法一般采用S AT D (Sum of Abs olute T rans formed Differences )或S AD (Sum of Abs olute Differences )来替换RDO 中的失真运算.通过预处理来减少预测模式种类指的是利用局部相关性或其他周围信息来分辨各种预测模式的概率,从而滤除概率小的预测模式.基于空间和转换域特征(Joint S patial and T rans form D o 2main )的快速H 1264帧内预测模式判决[5]和S obel 边缘检测(Edge Detection )快速帧内模式判决[6]是两种典型的部分预测模式搜索算法.S obel 边缘检测模式判决算法的优化效果非常好(在减少65%的运算量时,PS NR 和比特流几乎没有变化)[10].下面将详细介绍该算法.f ≈|G x |+|G y |(1)α(x ,y )=tan -1G yG x(2)G x =(Z 7+2Z 8+Z 9)-(Z 1+2Z 2+Z 3)(3)G y =(Z 3+2Z 6+Z 9)-(Z 1+2Z 4+Z 7)(4)Amp (D i ,j )=|Gx i ,j |+|Gy i ,j |(5)Ang (D i ,j )=180°π×arctan Gy i ,j Gx i ,j,|Ang (D i ,j )|<90°(6)Histo (k )=∑(m ,n )∈S ET (k )Amp (D m ,n )(7)收稿日期:2006202207;修回日期:2006205210第2期2007年2月电子学报ACT A E LECTRONICA SINICA V ol.35　N o.2Feb.　2007S ET(k)∈{{i0,j0},{(i1,j1)},…,{(i u,j u)},…,{(i8,j8)}|Ang(D iu ,ju)∈a u}(8)G x=Z6-Z5(9)G y=Z8-Z5(10)G x=Z5-Z4(11)G y=Z8-Z5(12)G x=Z5-Z4(13)G y=Z5-Z2(14)G x=Z6-Z5(15)G y=Z5-Z2(16)边缘检测用于寻找图像中能量强度变化快的地方,公式(1)和(2)是边缘检测基本公式[7]. f 是当前像素的边缘矢量强度值,而α(x,y)是其边缘矢量方向.G x和G y分别是f(x,y)对x和y的一阶导数.S obel边缘检测算子(公式(3)和(4))被用来近似像素图1(a)中Z5的G x和G y,这就是基于S obel算子的边缘检测算法[7].所有帧内预测模式(除DC预测模式)具有很强的方向性.因此文献[6]提出可以将整个360度空间分为8个区域,每个区域对应4种预测模式.如公式(5)和(6)所示,通过基于S obel算子的边缘检测算法得到4×4模块中每个像素边缘矢量方向Ang(D i,j)及其强度值Amp(D i,j).又如公式(7)和(8)所示,根据Ang(D i,j)可以确定该角度处于哪个区域a u,将同一个区域的像素编为一个组(S ET(k)).然后,相同组的边缘矢量强度值Amp(D i,j)求和得到Histo(k).最后比较各个组的Histo(k),确定哪个区域是最优的模式选择区域.根据该区域可以得到最优可能较大的4种预测模式,从而滤除其他预测模式.文献[6]中的算法的优点在于大量减少预测模式的种类,从而减少模式预测时间,提高编码器的性能.但S obel边界检测模式判决算法有三点不利于硬件实现.(1)增加了约40%的像素读取次数.根据前面对S obel边界检测模式判决算法的介绍可知:在处理一个16×16的宏块时,除了读取其本身的256个像素外还要获取其周围的68个像素,这将带来额外的存储器读取.假设数据总线是32位,而每个像素8位,如果不考虑总线和存储器的响应时间(laten2 cy),那么需要64个总线周期取到16×16宏块256个像素数据.但由于宏块左边和右边的36个周围像素地址不连续,所以只能单个读取.因此需要44个时钟周期去取得额外68个周围像素.(2)Ang(D i,j)是arctan函数运算的结果,不易于硬件实现.(3)由于采用RDO来计算每种预测模式的编码代价(cost),所以导致硬件设计复杂度过高.因此,S obel边缘检测模式判决算法不适合用于硬件实现.3　基于V LSI实现的模式判决算法311　算法介绍针对上面所提到的三个硬件实现问题,本文从四个方面对S obel边缘检测模式判决算法进行了相应的改进.(1)所有16×16模块的边缘像素不再采用公式(3)和(4)计算G x和G y,而是如图1所示,在A,B,C,D四个不同区域分别采用公式(9)和(10)、(11)和(12)、(13)和(14)、(15)和(16)代替原公式.这样可以避免读取额外的68个相邻像素.因为区域E(15×15=225个像素)在16×16宏块的内部,所以仍采用原公式.(2)采用正切函数近似值来避免用硬件实现arctan函数.由于arctanG yG x函数在(-90°,90°)之间是随G yG x的递增而递增的,所以对于一定的G yG x值,可以明确知道它处于哪个角度范围.根据这个角度范围,就可以知道该像素的属于哪个模式选择区域.这样,就将比较角度的工作转为比较正切函数值.如图2所示,对于4×4预测模式(I4M B),整个360°角度空间被分成8个区域.根据图中各个区域(region)的角度,就可以得到其对应的正切函数值.但这些值都是较为复杂的小数,比如1313°的正切函数值约是0123639,在硬件上很不容易实现.在实验中发现当该数值取0125近似时,编码的结果几乎不会受任何影响.因此通过实验,就可以得到了各个角度相对应的正切函数近似值,从而各个模式选择区域的范围也就确定了.表1　I4M B模式区域范围和预测模式的概率排序Region Range P ossibility(high to low)0(-∞,-4]or(4,+∞)057341681(20.25,0.25]168340573(0.7,1.4]378014564(-1.4,-0.7]456013785(24,21.4]045671386(20.7,20.25]614580377(1.4,4]703581488(0.25,0.7]81367045表2　I16M B模式区域范围和预测模式的概率排序Region Range P ossibility(high to low)0(-∞,-4]or(4,+∞)0131(20.25,0.25]1033(24,20.25]or(0.25,4]301 对于某个模式预测区域,根据各种预测模式角度离该区802 电子学报2007年域中心角度的距离可以判断其最优可能性(possibility)大小.如图2所示,对于区域1来说,预测模式1刚好在其区域中心,所以最优可能性最大.其次,预测模式6和8离区域中心最近,所以这两种模式的最优可能性应该比除模式1外其它预测模式更大.由统计可知,一般模式号越小则最优可能性越大[6],所以模式6比模式8的最优可能性大.按照这个规则,可以得到表1中各个区域的预测模式概率顺序.因为模式2 (DC预测)是没有方向性的,所以无法将其排入预测模式概率顺序中去.但是考虑到图像的边界宏块或块,以及各区域初选边缘矢量强度Amp(D i,j)相等的特殊情况,本文算法将模式2作为一种必需的候选模式.(3)采用新的16×16预测模式(I16M B)区域范围值来加快模式判决和简化硬件实现.如图2所示,与文献[6]算法不同,本文算法将I16M B的区域0和区域1的范围相对减小(与I4M B的区域0和区域1的范围值相同),而区域3的范围相对增大(与I4M B区域3、4、5、6、7、8总范围相同).通过上述范围值的修改,在完成一个16×16模块的I4M B模式预测模式区域计算的同时,也可以得到I16M B预测模式区域.I16M B预测模式概率顺序如表2所示.在硬件实现上,本文算法可以不用关心I16M B的范围比较,只需有三个寄存器(对应I16M B三个预测区域)累加各像素的边缘矢量强度.在完成256个像素的边缘检测算法后,就可以同时得到16个I4M B区域和1个I16M B预测区域.在本文算法中,只有最优可能性较大的4种4×4预测模式和2种16×16预测模式才会被用于帧内模式选择,这样比全搜索减少50%以上的预测模式判决工作量.(4)本文算法采用了与文献[4]相同的编码代价算法:失真用基于DCT变换的S AT D表示,而比特流则用预测模式的比特数代替.文献[4]的实验证明:与RDO算法相比,图像质量下降不会超过013dB.312　实验结果和分析实验工作是基于JM918参考软件基础上完成的.本文选择M obile、F oreman、M other三种不同复杂度的CIF格式测试序列.编码参数为:采用C AV LC熵编码;没有采用RDO;编码帧数为30;编码序列是全I帧;量化参数分别是:22,28,32,38;通过修改JM918参考软件分别实现文献[6]中算法和本文算法,可以得到两个算法相应的编码结果.31211　不同候选预测模式个数的结果比较由于文献[6]的算法与本文算法有较多不同,因此文献[6]中的实验结果并不能直接用于本文算法.通过实验,可以得到三种测试序列的4×4预测模式个数与编码性能关系图.从图3中可以看出:在相同比特流时与全搜索算法相比,模式个数为2的编码图像质量下降了015dB到018dB,而模式个数为4和模式个数为6的编码图像质量与全搜索的结果非常近似.模式个数为4的算法可以比模式个数为6的算法减少了三分之一的工作量,所以4×4预测模式个数为4才是最佳选择.它在显著减少预测模式个数的同时,几乎不会影响到编码的性能. 31212　与其它模式判决算法比较为准确比较JM918、文献[6]的算法、本文算法的编码性能,对于JM918参考软件(全搜索)和文献[6]的算法(s obel边缘检测),本文分别采用了高复杂度的RDO和低复杂度的S AT D来计算编码代价.表3和表5是基于RDO的实验结果,而表4和表6是基于S AT D的实验结果.比较表3和表5中的数据可以发现:对于图像较为复杂的M obile测试序列,本文算法与JM918参考软件PSNR相差最大(012dB～0157dB),而另外两个图像较为简单的F oreman 和M other测试序列的PSNR差值相对较小(0102dB～0123dB).从表中还可以发现:QP值越大时,PSNR值相差就越大,比特流相差也越大.再比较表4和表6中的数据可以发现:不论是对图像复杂度较高的F oreman测试序列还是复杂度较低的F oreman和M other测试序列,JM9.8参考软件、本文算法的PSNR值相差不大(不超过0.05dB).而文献[6]的算法与本文算法编码后的PSNR值几乎相同(最大差值不超过0101dB).文献[6]中算法得到的每帧比特流值最多比JM918参考软件的每帧比特流值高了014～119%,而本文算法得到的每帧比特流值和文献[6]算法结果几乎没有差别.902第　2　期黄　凯:一种H1264帧内预测模式判决算法及V LSI实现体系从上面的分析可以看出:在编码性能上,本文算法与基于S AT D的JM9.8和文献[6]相差不多,但比基于RDO的JM9.8和文献[6]下降了相对较多.主要原因是采用S AT D取代RDO 才导致的性能下降.但是由于S AT D的计算量仅是RDO的7%[8],这可以极大的减少硬件设计复杂度.实验说明:本文算法在提高编码器效率的同时,只会轻微降低图像编码质量.表3　JM918(RDO)、文献[6]算法(RDO)、本文算法(S AT D)的P SNR值比较(dB)QPF oreman M obile M otherJM9.8[6]中算法本文算法JM9.8[6]中算法本文算法JM9.8[6]中算法本文算法2241.7241.6641.5341.1340.9540.6043.4943.4343.26 2837.6637.6337.5835.6735.5435.2639.6539.6239.60 3235.1835.1535.1132.0731.9531.7337.1037.0737.06 3831.7031.6831.6827.1727.1026.9733.6033.5733.57表4　JM9.8(S AT D)、文献[6]算法(S AT D)、本文算法(S AT D)的P SNR值比较(dB)QPF oreman M obile M otherJM9.8[6]中算法本文算法JM9.8[6]中算法本文算法JM9.8[6]中算法本文算法2241.5641.5341.5340.6140.6040.6043.2943.2643.26 2837.6037.5837.5835.2835.2635.2639.6239.6039.60 3235.1235.1235.1131.7431.7331.7337.1137.0737.06 3831.6931.6831.6827.0026.9826.9733.6233.5733.57表5　JM9.8(RDO)、文献[6]算法(RDO)、本文算法(S AT D)的比特流值比较(kbit/f)QPF oreman M obile M otherJM9.8[6]中算法本文算法JM9.8[6]中算法本文算法JM9.8[6]中算法本文算法22129.01129.37130.71333.3335.76339.2275.8977.0377.98 2866.9067.6368.88219.42221.70224.3340.8341.842.76 3243.4944.1245.06159.11161.13163.1226.9627.6728.46 3823.4923.9324.6590.0391.8793.3714.2614.7415.39表6　JM9.8(S AT D)、文献[6]算法(S AT D)、本文算法(S AT D)的比特流值比较(kbit/f)QPF oreman M obile M otherJM9.8[6]中算法本文算法JM9.8[6]中算法本文算法JM9.8[6]中算法本文算法22127.3129.8130.71337.29338.93339.2276.8177.8177.98 2868.0568.768.88222.23223.75224.3341.7742.7042.76 3244.3544.9545.06161.01162.93163.1227.7528.4128.46 3824.1724.6324.6591.5593.2593.3714.9915.3715.394　V LSI硬件实现本文算法的ASIC电路可以并行处理4个像素的s obel算子、边缘检测处理和模式区域处理工作.如图4所示,电路由4像素G x/G y产生器(42pixel G x/G y)、4×4缓存(4×4pipe)、边缘检测处理(E DP)、模式区域边缘检测强度处理和比较、计数器和其他控制逻辑组成.70个时钟周期可以得到一个16×16宏块的I4M B和I16M B的最佳预测模式区域.411　4像素G x/G y产生器由公式(3)和(4)可以知道,每个像素的s obel算子G x和G y 由周围的8个像素决定.当计算Z5的G x时,必须用到Z1、Z4、Z7、Z3、Z6、Z9六个像素的值,需要3次减法和2次加法.如果每个像素都单独计算G x和G y,那么完成S DT V视频编码(720×480,30fps)的s obel算子计算需要约62208000次减法(3×2×720×480×30)和41472000次加法,这是非常大的运算量.但是因为相邻像素的s obel算子存在相同运算,所以可以采用并行来减少运算量.如图5所示,4个像素的G x计算只需要6次减法和4次加法,这样运算量可以减少一半.只需10个加法器就可以完成4个像素的s obel算子并行计算.412　边缘检测处理(E DP)边缘检测处理模块主要根据像素的S obel算子G x和G y 来确定边缘检测矢量(AMP)和角度的范围(M ode Region).如图6所示,通过G x和G y的绝对值可以求得表1中模式范围边界值所需的6种关系比较.比如判断G y∶G x是否大于1.4,只需比较|G y|的5倍和|G x|的7倍大小即可.图6中的sel0、sel1、sel2、sel3、sel4和G x、G y的符号值可以确定出该像素边缘检查矢量角度(Ang)所在的模式区域.413　4×4缓存在实现4个像素并行计算s obel算子时,存在一个问题:无法并行计算同一列的G x和G y.为取得高效的并行性来加快处理速度,只有采用4×4缓存来存储16个像素的G x值.012 电子学报2007年在完成4×4块的4列像素的G x后,4×4块的第一行G y将与缓存中的第一行像素的G x作为EDP模块的输入,完成边缘检测处理.414　V LSI设计电路结果和分析本文采用S MIC的0118工艺完成了电路的物理实现.在最坏的条件下,该电路可以工作在150MH.电路各个模块的门数如表7所示.从表中可以看出4×4缓存(4×4Pipe)和模式区域处理(MRP)两模块共占总门数的一半以上,而G x和E DP 模块都相对较小,这也就说明并行处理导致的面积增加是有限的.4个像素并行处理既利于I4M B模式表7　各模块门数统计和总面积M oduleG ate C ountC omb N oncomb T otal 42p G x&G y9020902 E DP(×4)192(×4)0192(×4) 4×4Pipe77015142284MRP181513883203C om p113001130Others8874581345T otal627233609632 T otal area0132mm×0132mm处理,也不会明显增加电路面积.图4中的电路可以作为预处理单元来用于一般的H1264帧内编码器.比如,它可以用于文献[4]的硬件视频编码器(总门数是84985).由于减少了一半以上的预测模式,因此该编码器的帧内预测速度可以从原来的每个16×16宏块1300时钟周期减少到716时钟周期.当芯片工作在55M时,可以完成每秒21帧的720P H DT V(1280×720)编码和每秒56帧的S DT V (720×480)编码.5　结论本文通过对现有帧内编码预测模式判决算法的分析,在基于S obel边缘检测模式判决算法[6]的基础上,提出了面向硬件实现的优化算法.该算法立足于V LSI实现,不仅减少存储器带宽而且简化了编码器硬件实现.实验证明,本文的算法在对硬件设计优化和提高编码速度的同时,还确保了编码性能和编码器的面积.参考文献:[1]Thomas Wiegand,et al.Overview of the H1264/AVC videocoding standard[J].IEEE Transactions on circuits and systems for video technology,2003,13(7):657-673.[2]Anthony J och,et al.Performance comparison of video codingstandards using lagragian coder control[A].Proceedings of the 2002International Conference on Image Processing[C].New York,USA:ICIP,2002.501-504.[3]Iain E G Richardson.H1264and MPEG24Video CompressionVideo Coding for Next2Generation Multimedia[M].New York:J ohn Wiley&Sons,2003.[4]Yu2Wen Huang,et al.Analysis,fast algorithm,and VLSI archi2tecture design for H1264/AVC intra frame coder[J].IEEE Transactions on circuits and systems for video Technology, 2005,15(3):378-401.[5]K im Changsung,et al.Fast H1264intra prediction mode selec2tion using joint spatial and transform domain features[J].J our2 nal of Visual Communication and Image Representation,2005, 17(2):291-310.[6]Feng Pan,et al.Fast mode decision for intra prediction[A].J ointVideo Team(JVT)of ISO/IEC MPEG&ITU2T VCEG (ISO/IEC J TC1/SC29/WG11and ITU2T SG16Q.3)[C].7th meeting:Pattaya II,Thailand:JVT2G013,March2003.[7]Rafael C Gonzalez,Richard E Woods,Steven L Eddins.DigitalImage Processing Using MAT LAB[M].New Jersey:Prentice Hall,2002.[8]Hyungjoon K im,Yucel Altunbasak.Low2complexity macroblock mode selection for H1264/avc encoders[A].Proceed2 ings of the2004International Conference on Image Processing[C].Singapore:ICIP,2004.765-768.[9]Jeyun Lee,Byeungwoo Jeon.Fast mode decision for H1264[A].Proceedings of the2004IEEE International Conferenceon Multimedia and Expo[C].Taipei,Taiwan:ICME,2004.1131-1134.[10]Zhiping Lin.Verification of results for fast mod decision forintra prediction[A].J oint Video Team(JVT)of ISO/IEC MPEG&ITU2T VCEG(ISO/IEC J TC1/SC29/WG11and ITU2T SG16Q,6)[C].7th Meeting:Pattaya II,Thailand: JVT2G026,March2003.作者简介:黄　凯　男,1980年11月出生于江西上饶,现为浙江大学超大规模集成电路设计研究所博士研究生,研究方向:视频编解码和集成电路设计.E2mail:huangk@秦　兴　男,现为浙江大学超大规模集成电路设计研究所博士研究生,研究方向:多媒体处理算法及集成电路设计.严晓浪　男,浙江大学电气工程学院教授,博士生导师,研究方向:集成电路设计和布图技术.112第　2　期黄　凯:一种H1264帧内预测模式判决算法及V LSI实现体系。