视频编码国际标准共122页文档

合集下载

视频编码国际标准PPT文档共122页

45、法律的制定是为了保证每一个人自由发挥自己的才能，而不是为了束缚他的才能。—— 罗伯斯庇尔Fra bibliotek谢谢！
视频编码国际标准
41、实际上，我们想要的不是针对犯罪的法律，而是针对疯狂的法律。 ——马克·吐温 42、法律的力量应当跟随着公民，就像影子跟随着身体一样。— —贝卡利亚 43、法律和制度必须跟上人类思想进步。— —杰弗逊 44、人类受制于法律，法律受制于情理。— —托·富勒
51、天下之事常成于困约，而败于奢靡。——陆游 52、生命不等于是呼吸，生命是活动。——卢梭
53、伟大的事业，需要决心，能力，组织和责任感。 ——易卜生 54、唯书籍不朽。——乔特
55、为中华之崛起而读书。 ——周恩来

MPEGl和MPEG2数字视频编码标准

MPEGl和MPEG2数字视频编码标准本文的目的在于给出有关MPEGl和MPEG2视频编码算法及标准的概述、以及它们在视频通信中的作用。

论文的正文是这样安排的：首先回顾了与MPEG视频压缩标准有关的那些基本概念和技术：接着较详细地叙述了MPEGl和MPEG2的视频编码算法；最后的内容为标准中与其应用有关的一些特征。

MPEG视频压缩算法的基本原理一般说来，在帧内以及帧与帧之间，众多的视频序列均包含很大的统计冗余度和主观冗余度。

视频源码的最终目标是：通过挖掘统计冗余度和主观冗余度，来降低存储和传送视频信息所需的比特率；并采用嫡编码技术，以便编制出“最小信息组”一个实用的编码方案，是在编码特性(具有足够质量的高压缩)与实施复杂性之间的一种折衷。

对于MPEG压缩算法的开发来讲，计及到这些标准的寿命周期应考虑到现代超大规模集成电路技术的能力，这一点是最重要的。

根据应用的要求，我们也许会想到视频数据的“无损失”编码和“有损失”编码“无损失”编码的目的在于：在保持原图像质量(即解码后的图像质量等同于编码前的图像质量)情况下，来减少需要存储和传送的图像或视频数据。

与此相反，“有损失”编码技术(该技术跟MPEG—l和MPEG2视频标准未来的应用有关) 的目的是，去符合给定的存储和传送比特串。

重要的一些应用包括；利用限定的带宽或很窄的带宽，通过通信频道采传送视频信息；有效地存储视频信息。

在这些应用中，高的视频压缩是以降低视频质量的办法来实施的，即跟编码以前的原始图像相比，解码后的图像“客观”质量有所降低(也就是取原始图像和再现图像之间的均方差，作为评定客观图像质量的标准)频道的目标比特率越低；那么视频所必须进行的压缩率就越大，通常可察觉的编码人工产物也越多。

有损失编码技术的最终目的是：在指定的目标比特串条件下，获取最佳的图像标准。

这里应服从“客观”或“主观”上的最佳标准。

这里应该指出，图像的降级程度(指客观降低以及可察觉到的人工产物的数量)取决于压缩技术的复杂性——对于结构简单的画面和视频活动少的图像来讲，就是采用简单的压缩技术，也许能获得根本不带可察觉人工产物的良好的再现图像(A)MPEG 视频编码器源模式MPEG数字视频编码技术实质上是一种统计方法。

公共安全视频图像信息数据统一标识编码规则

附录A（规范性附录）统一标识编码规则A.1 统计用县以下区划代码编制规则A.1.1 代码组成□□□□□□1 2 3 4 5 6乡级代码村级代码图A.1 统计用县以下区划代码结构统计用县以下区划代码见图A.1，由6位代码组成，包括乡级代码和村级代码两部分，1～3位为乡级代码，4～6位为村级代码。

A.1.2 乡级代码编码方法凡民政部门确认的街道、镇、乡，按照国家标准《县级以下行政区划代码编制规则》（GB/T 10114—2003）编制，其乡级代码为001～399；民政部门未确认的开发区、工矿区、农场等类似乡级单位，乡级代码为400～599。

具体编码如下：—001～099 表示街道；—100～199 表示镇；—200～399 表示乡；—400～599表示类似乡级单位。

A.1.3 村级代码编码方法凡民政部门确认的村级单位，村级代码为001～399；民政部门未确认的园区、工矿区、农场等类似村级单位，村级代码为400～599（498、598除外）。

具体编码如下：—001～199 表示居民委员会；—200～399 表示村民委员会；—400～499 表示类似居民委员会（不含498代码）；—500～599 表示类似村民委员会（不含598代码）。

A.1.4 特殊情况的编码方法A.1.4.1 虚拟村级单位当乡级单位下未设（或未明确）村级单位时，则在该乡级单位下虚拟一个村级单位，其编码方法为：在街道、镇以及类似乡级单位的开发区、科技园区、工业园区、工矿区、高校园区、科研机构园区等区域下，虚拟村级单位的代码为498，名称为“××虚拟社区”；在乡以及类似乡级单位的农、林、牧、渔场和其他农业活动区域下，虚拟村级单位的代码为598，名称为“××虚拟生活区”。

A.1.4.2 县直辖村级单位县级单位直辖村级单位，其乡级代码统一编为198，在198代码下，再对所辖的村民委员会和居民委员会进行编码。

H.266VVC新一代通用视频编码国际标准

第４１卷第２期２０２１年４月㊀南京邮电大学学报（自然科学版）ＪｏｕｒｎａｌｏｆＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）㊀Ｖｏｌ．４１Ｎｏ．２Ａｐｒ２０２１ｄｏｉ：１０．１４１３２／ｊ．ｃｎｋｉ．１６７３⁃５４３９．２０２１．０２．００１Ｈ．２６６／ＶＶＣ：新一代通用视频编码国际标准朱秀昌，唐贵进（南京邮电大学江苏省图像处理与图像通信重点实验室，江苏南京㊀２１０００３）摘要：在２０１３年制定的Ｈ．２６５／ＨＥＶＣ视频编码标准获得成功后，新一代视频编码国际标准Ｈ．２６６／ＶＶＣ在ＩＴＵ⁃Ｔ的ＶＣＥＧ和ＩＳＯ／ＩＥＣ的ＭＰＥＧ通力合作下已于２０２０年７月完成㊂尽管ＶＶＣ视频编码层的结构仍然是传统的基于块的混合视频编码模式，但ＶＶＣ提供了多项先进的视频编码工具，较先前的ＨＥＶＣ标准，其压缩率大约提高了一倍㊂文中主要对ＶＶＣ标准中新编码技术的特点和性能进行综述㊂关键词：Ｈ．２６６／ＶＶＣ；ＨＥＶＣ；视频编码标准；联合视频专家组；视频压缩中图分类号：ＴＮ９１９．８㊀㊀文献标志码：Ａ㊀㊀文章编号：１６７３⁃５４３９（２０２１）０２⁃０００１⁃１１Ｈ．２６６／ＶＶＣ：ｖｅｒｓａｔｉｌｅｖｉｄｅｏｃｏｄｉｎｇｉｎｔｅｒｎａｔｉｏｎａｌｓｔａｎｄａｒｄＺＨＵＸｉｕｃｈａｎｇ，ＴＡＮＧＧｕｉｊｉｎＪｉａｎｇｓｕＰｒｏｖｉｎｃｅＫｅｙＬａｂｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ＆ＩｍａｇｅＣｏｍｍｕｎｉｃａｔｉｏｎ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｎａｎｊｉｎｇ２１０００３，Ｃｈｉｎａ()Ａｂｓｔｒａｃｔ：ＡｆｔｅｒｔｈｅｐｒｏｆｏｕｎｄｓｕｃｃｅｓｓｏｆｄｅｆｉｎｉｎｇＨ．２６５／ＨＥＶＣｖｉｄｅｏｃｏｄｉｎｇｓｔａｎｄａｒｄｉｎ２０１３，ｔｈｅｎｅｗｇｅｎｅｒａｔｉｏｎｖｉｄｅｏｃｏｄｉｎｇｉｎｔｅｒｎａｔｉｏｎａｌｓｔａｎｄａｒｄＨ．２６６／ＶＶＣｗａｓｃｏｌｌａｂｏｒａｔｉｖｅｌｙｆｉｎａｌｉｚｅｄｉｎＪｕｌｙ２０２０ｂｙｂｏｔｈｔｈｅＩＴＵ⁃ＴＶＣＥＧａｎｄＩＳＯ／ＩＥＣＭＰＥＧｏｒｇａｎｉｚａｔｉｏｎｓ．ＡｌｔｈｏｕｇｈｔｈｅｓｔｒｕｃｔｕｒｅｏｆＶＶＣｖｉｄｅｏｃｏｄｉｎｇｌａｙｅｒｉｓｃｏｎｖｅｎｔｉｏｎａｌｂｌｏｃｋ⁃ｂａｓｅｄｈｙｂｒｉｄｖｉｄｅｏｃｏｄｉｎｇｆｒａｍｅｗｏｒｋ，ＶＶＣｓｔｉｌｌｏｆｆｅｒｓｓｅｖｅｒａｌａｄｖａｎｃｅｄｖｉｄｅｏｃｏｄｉｎｇｔｏｏｌｓｃｏｍｐａｒｅｄｗｉｔｈｐｒｅｖｉｏｕｓｓｔａｎｄａｒｄｓ．Ｔｈｕｓ，ｔｈｅｃｏｍｐｒｅｓｓｉｏｎｒａｔｅｏｆＶＶＣｉｓａｂｏｕｔｄｏｕｂｌｅｔｈａｔｏｆＨＥＶＣ．Ｆｉｎａｌｌｙ，ｔｈｅｔｅｃｈｎｉｃａｌｆｅａｔｕｒｅｓａｎｄｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｔｈｅＶＶＣｓｔａｎｄａｒｄａｒｅｓｕｍｍａｒｉｚｅｄ．Ｋｅｙｗｏｒｄｓ：Ｈ．２６６／ＶＶＣ；ＨＥＶＣ；ｖｉｄｅｏｃｏｄｉｎｇｓｔａｎｄａｒｄｓ；ＪＶＥＴ；ｖｉｄｅｏｃｏｍｐｒｅｓｓｉｏｎ收稿日期：２０２１⁃０３⁃０４㊀㊀本刊网址：ｈｔｔｐ：ʊｎｙｚｒ．ｎｊｕｐｔ．ｅｄｕ．ｃｎ作者简介：朱秀昌，男，教授，博士生导师，ｚｈｕｘｃ＠ｎｊｕｐｔ．ｅｄｕ．ｃｎ引用本文：朱秀昌，唐贵进．Ｈ．２６６／ＶＶＣ：新一代通用视频编码国际标准［Ｊ］．南京邮电大学学报（自然科学版），２０２１，４１（２）：１－１１．㊀㊀视频信息压缩技术在过去３０余年以来的一系列视频编码国际标准中得到充分的体现㊂从２０世纪９０年代初的第一代视频编码标准Ｈ．２６１／ＭＰＥＧ⁃１［１］㊁Ｈ．２６２／ＭＰＥＧ⁃２起，到第二代视频编码标准Ｈ２６４／ＡＶＣ［２］，第三代视频编码标准Ｈ．２６５／ＨＥＶＣ［３－４］，每进化一代视频压缩的效率都大致提高一倍㊂ＨＥＶＣ第一版２０１３年发布７年后的今天，经两大国际标准化组织ＩＴＵ⁃Ｔ和ＩＳＯ／ＩＥＣ的有关部门通力合作，又完成了第四代视频编码标准，简称通用视频编码（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ，ＶＶＣ）标准，已于２０２０年７月发布第一版，其正式名称在ＩＴＵ⁃Ｔ为Ｈ２６６，在ＩＳＯ／ＩＥＣ为ＶＶＣ（２３０９０⁃３）［５］㊂ＶＶＣ比ＨＥＶＣ可以提高大约一倍的编码效率，也就是说编码相同可视质量的视频内容，大约只需要ＨＥＶＣ的５０％的比特，ＡＶＣ的２５％的比特㊂ＶＶＣ的出现能够减轻世界网络的负担，因为目前视频流量已经占到互联网流量的８０％左右，还有上升的趋势㊂此外，将通用（Ｖｅｒｓａｔｉｌｉｔｙ）这个词用作这个标准的标题，说明ＶＶＣ的目标是支持多种类型的网络视频应用，如超高清视频㊁高动态范围视频㊁ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）视频㊁３６０ʎ全景视频及屏幕内容等［６］㊂ＶＶＣ中的编码算法没有根本性的改进措施，它的技术手段和前面几代视频编码标准基本类似，仍然是在基于块的混合编码框架内，但几乎对编码的每个环节都进行了改进，挤压尚未除尽的信息冗余，达到总体编码效率提高一倍的要求㊂从ＩＴＵ⁃Ｔ和ＩＳＯ／ＩＥＴ联合制定视频标准Ｈ２６２／ＭＰＥＧ⁃２于１９９４年推出开始，历经Ｈ．２６４／ＡＶＣ㊁Ｈ．２６５／ＨＥＶＣ，到如今的Ｈ．２６６／ＶＶＣ，ＶＣＥＧ和ＭＰＥＧ的一个矢志不渝的目标为减半，即每推出新一代标准都要求码率减半㊂以此算来，压缩同样的视频内容，在同样的解码视频质量的要求下，ＶＶＣ的码率只有ＭＰＥＧ⁃２的１／８㊂２０１５年１０月，ＩＴＵ⁃Ｔ的ＶＣＥＧ和ＩＳＯ／ＩＥＣ的ＭＰＥＧ成立了联合视频探索小组（ＪｏｉｎｔＶｉｄｅｏＥｘｐｌｏｒａｔｉｏｎＴｅａｍ，ＪＶＥＴ），面向全球征集提案㊂２０１８年，新一代视频编码标准化工作正式开始，在同年ＪＶＥＴ的第１０次会议上，联合视频探索小组正式更名为联合视频专家组（ＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔｓＴｅａｍ，ＪＶＥＴ），简称仍然是ＪＶＥＴ，并决定将下一代视频编码标准正式命名为ＶＶＣ，在ＩＴＵ⁃Ｔ登记为Ｈ．２６６，在ＩＳＯ／ＩＥＣ登记为２３０９０⁃３［６］㊂ＶＶＣ标准对应的参考软件平台为ＶＴＭ（ＶＶＣＴｅｓｔＭｏｄｅｌ）［７］，目前最新版本是ＶＴＭ１１．２㊂制定ＶＶＣ有两个基本目标，其一为高压缩性能，定义一套视频编码技术，其压缩性能要远优于以往的同类标准；其二为宽应用领域，能够有效地用于比先前标准更广阔的范围㊂ＶＶＣ标准面向多种应用，如高清㊁超高清视频（ＵｌｔｒａＨｉｇｈＤｅｆｉｎｉｔｉｏｎＶｉｄｅｏ，ＵＨＤＶ），它们具有３８４０ˑ２１６０或７６２０ˑ４３２０图像分辨率，１０比特精度，高动态范围（ＨｉｇｈＤｙｎａｍｉｃＲａｎｇｅ，ＨＤＲ）和宽彩色ｇａｍｕｔ；再如沉浸式媒体（ＩｍｍｅｒｓｉｖｅＭｅｄｉａ），使用普通投影格式所投影的３６０ʎ全景视频（ＯｍｎｉｄｉｒｅｃｔｉｏｎａｌＶｉｄｅｏ）等㊂当然，ＶＶＣ同样支持先前标准中所设置的那些应用㊂本文后续部分将主要介绍ＶＣＣ所提供的新编码工具㊂从第１节到第６节共６个部分基本按照编码过程来介绍，包括图像分块㊁预测㊁变换㊁量化㊁熵编码和环路滤波等环节㊂最后是对ＶＶＣ现有成果的小结，对其后续工作和应用前景的简单说明㊂１㊀图像划分如图１所示，ＶＶＣ在编码原理和基本结构方面没有突破，仍沿用从Ｈ．２６１就开始的基于块的混合视频编码框架，即预测加变换的分块编码方式；ＶＶＣ在编码细节上和ＨＥＶＣ很接近，也包含帧内预测㊁帧间预测㊁运动估计与补偿㊁正交变换㊁量化㊁熵编码和环路滤波等模块㊂但是，和ＨＥＶＣ相比较，ＶＶＣ几乎在每一个编码环节上都采取了一项或多项改进措施，尽管每一项措施的效率提高并不显著，然而诸多措施的总体效果确使其编码效率比ＨＥＶＣ提高了一倍㊂当然，ＶＶＣ付出的代价就是编码复杂度也比ＨＥＶＣ提高了好几倍㊂图１㊀Ｈ．２６６／ＶＶＣ编码框图１．１㊀３种编码结构ＶＶＣ与ＨＥＶＣ一样，为了应对不同应用场合，设立了３种编码结构，即全帧内（ＡｌｌＩｎｔｒａ，ＡＩ）编码㊁低延迟（ＬｏｗＤｅｌａｙ，ＬＤ）编码和随机接入（ＲａｎｄｏｍＡｃｃｅｓｓ，ＲＡ）编码㊂在ＡＩ编码中，每一帧图像都是按帧内方式进行空间域预测编码，不使用时间参考帧㊂在ＬＤ编码中，只有第一帧图像按照帧内方式进行编码，并成为即时解码更新（ＩｎｓｔａｎｔａｎｅｏｕｓＤｅｃｏｄｉｎｇＲｅｆｒｅｓｈ，ＩＤＲ）帧，随后的各帧都作为普通Ｐ和Ｂ帧（ＧｅｎｅｒａｌｉｚｅｄＰａｎｄＢＰｉｃｔｕｒｅ，ＧＰＢ）进行编码，这主要是为交互式实时通信设计的㊂在ＲＡ编码中，主要是分层Ｂ帧结构（ＨｉｅｒａｒｃｈｉｃａｌＢＳｔｒｕｃｔｕｒｅ）帧，周期性地插入一廋随机访问（ＣｌｅａｎＲａｎｄｏｍＡｃｃｅｓｓ，ＣＲＡ）帧，成为编码视频流中的随机访问点（ＲａｎｄｏｍＡｃｃｅｓｓＰｏｉｎｔ，ＲＡＰ）㊂这些随机访问点可以独立解码，不需要参考码流中前面已经解码的图像帧㊂１．２㊀图像的条／片／子图像划分ＶＶＣ在编码时将每一帧图像都划分为相同尺寸㊁紧密排列的编码树单元（ＣｏｄｉｎｇＴｒｅｅＵｎｉｔ，ＣＴＵ），根据编码图像局部特征的不同，编码树单元又可以灵活地划分为更小的编码单元（ＣｏｄｉｎｇＵｎｉｔ，ＣＵ）㊂和ＨＥＶＣ基本相同，ＶＶＣ允许将图像帧划分为若干条（Ｓｌｉｃｅ），条由相邻的整数个ＣＴＵ组成㊂ＶＶＣ支持两种排列类型的Ｓｌｉｃｅ，顺序扫描Ｓｌｉｃｅ模式和矩２南京邮电大学学报（自然科学版）㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀２０２１年形Ｓｌｉｃｅ模式㊂ＶＶＣ中也允许用水平和垂直的若干条边界将图像帧划分为多个矩形区域，每个区域就是一个片（Ｔｉｌｅ），每一个片包含整数个ＣＴＵ㊂ＶＶＣ的Ｓｌｉｃｅ和Ｔｉｌｅ大体上和ＨＥＶＣ一致㊂和ＨＥＶＣ不同，ＶＶＣ还新增了矩形的子图像（Ｓｕｂｐｉｃｔｕｒｅ）划分［５］㊂一个子图像可包含一个或多个Ｓｌｉｃｅｓ，这些Ｓｌｉｃｅｓ共同覆盖图像的一个矩形区域㊂相应地，每个子图像的边界总是Ｓｌｉｃｅ的边界㊂图２是包含Ｓｕｐｐｉｃｔｕｒｅ的划分一例，一帧图像被划分为１８个Ｔｉｌｅｓ，其中１２个较大的Ｔｉｌｅｓ在左边，每个Ｔｉｌｅ覆盖一个４ˑ４ＣＴＵ的Ｓｌｉｃｅ；其余的６个较小的Ｔｉｌｅｓ在右边，每个覆盖２个２ˑ２ＣＴＵ的Ｓｌｉｃｅｓ，这样总共形成２４个Ｓｌｉｃｅｓ和２４个子图像（每个Ｓｌｉｃｅ就是一个子图像）㊂图２㊀包含ｓｕｂｐｉｃｔｕｒｅ的划分一例１．３㊀ＣＴＵ的多类型树划分在ＶＶＣ中为了适应４Ｋ㊁８Ｋ等高清㊁超高清视频编码的需要，将ＣＴＵ的最大尺寸扩大到１２８ˑ１２８，最小尺寸还是４ˑ４㊂ＣＴＵ可进一步分为若干编码单元（ＣＵ），最大的ＣＵ可等同于ＣＴＵ，最小的ＣＵ为４ˑ４㊂在ＨＥＶＣ中每个ＣＵ又可以划分为预测单元（ＰｒｅｄｉｃｔｉｏｎＵｎｉｔ，ＰＵ）和变换单元（ＴｒａｎｓｆｏｒｍＵｎｉｔ，ＴＵ），但在ＶＶＣ中将不再区分ＣＵ㊁ＰＵ和ＴＵ，大多数情况下三者统一为ＣＵ㊂不同于ＨＥＶＣ，ＶＶＣ的ＣＴＵ除了４叉树划分方式外，还引进了多类型树（Ｍｕｌｔｉ⁃ＴｙｐｅＴｒｅｅ，ＭＴＴ）划分，包括２叉树（ＢｉｎａｒｙＴｒｅｅ，ＢＴ）和３叉树（ＴｅｒｎａｒｙＴｒｅｅ，ＴＴ）［８］㊂一个ＣＴＵ首先按４叉树方式进行一次划分，４叉树的每个叶子节点既可以继续４叉树划分，也可以进一步按照多类型树方式进行划分：水平或垂直２叉树划分，水平或垂直３叉树划分，如图３所示㊂２叉树和３叉树划分可以交替并嵌套进行㊂但是需要注意，一旦采用了２叉树或者３叉树划分，就不再允许进行４叉树划分㊂图４中给出了一个６４ˑ６４的ＣＴＵ的４叉树和嵌套多类型树划分的示例，这种划分方式可以根据图像内容自适应进行，提升了划分灵活性㊂图３㊀多类型树划分模式图４㊀４叉树和嵌套多类型树划分示例前面介绍的是亮度ＣＴＵ的ＭＴＴ划分，对于图像的色度部分，考虑到同一位置的亮度和色度信号可能具有的不同特性，因而在ＶＶＣ中，Ｉ帧ＣＴＵ的亮度分量和色度分量的划分方式可以不同，这时亮度和色度分量各使用一个编码树表示㊂对于Ｐ帧和Ｂ帧，则同一个ＣＴＵ中的亮度和色度必须有相同的划分㊂由于色度信号的亚取样影响，色度信号在单独划分时禁止出现２ˑ２㊁２ˑ４或４ˑ２尺寸的色度块㊂至此可以看到，图像划分从单一㊁固定划分不断朝着多样㊁灵活的划分结构发展㊂１．４㊀图像格式对于输入视频和重建视频，ＶＶＣ支持ＩＴＵ⁃ＲＢＴ．６０１建议规定的４ʒ４ʒ４㊁４ʒ２ʒ２和４ʒ２ʒ０图像亮度（Ｙ）和色度（Ｃｂ和Ｃｒ）信号的取样结构；支持的ＩＴＵ⁃ＲＢＴ．２１００的宽色彩空间；最少支持１６级高动态范围（ＨＤＲ）视频，最高亮度可达１０００／４０００／１００００尼特㊂像素的最大比特数表示图像灰度分辨率，又称为比特深度（ＢｉｔＤｅｐｔｈ），其值通常为８比特，２５６个等级㊂这对于人眼的观赏已经足够了，但是对于编码处理或某些特殊应用场合，有时需要更高的比特深度㊂为此，ＶＶＣ支持８至１６比特深度的输入和输出视频，最常见是１０比特深度㊂ＶＶＣ支持视频的０１２０Ｈｚ可变帧率，以适应不同视频应用的需求㊂支持环绕立体视频或多角度视频编码，如３６０ʎ㊁１８０ʎ等全景视频㊂３第２期朱秀昌，等：Ｈ．２６６／ＶＶＣ：新一代通用视频编码国际标准至于尚存的隔行扫描（ＩｎｔｅｒｌａｃｅｄＳｃａｎｎｉｎｇ）视频，ＶＶＣ和ＨＥＶＣ一样，不再提供专门的工具，只是将隔行视频的一帧看作两个独立的场，对各个场数据分别进行编码，简化了编码器的实现㊂１．５㊀档次㊁水平和等级为了提供应用的灵活性，和ＨＥＶＣ一样，ＶＶＣ在附录Ａ中定义了编码的不同的档次（Ｐｒｏｆｉｌｅ）㊁水平（Ｌｅｖｅｌ）和等级（Ｔｉｅｒ）［５］㊂档次规定了视频编码采用什么编码工具和编码算法㊂ＶＶＣ档次规定了一套用于产生不同用途码流的编码工具或算法，共有４个主档次，即常规１０比特像素深度的Ｍａｉｎ１０，支持静止图像的Ｍａｉｎ１０ＳｔｉｌｌＰｉｃｔｕｒｅ，支持全取样的Ｍａｉｎ１０４ʒ４ʒ４，支持全取样静止图像的Ｍａｉｎ１０４ʒ４ʒ４ＳｔｉｌｌＰｉｃｔｕｒｅ㊂２个多层主档次，ＭｕｌｔｉｌａｙｅｒＭａｉｎ１０和ＭｕｌｔｉｌａｙｅｒＭａｉｎ１０４ʒ４ʒ４㊂档次的主要技术指标包括：像素的比特深度㊁色度采样方式和解码缓存的图像容量等㊂水平规定了某一档次㊁等级的编码参数，如采样率㊁码率㊁压缩率㊁缓冲区容量等㊂ＶＶＣ设置了１．０，２．０，２．１，３．０，３．１，４．０，４．１，５．０，５．１，５．２，６．０，６．１，６．２共１３个水平，一个水平实际上就是一套对编码比特流的一系列编码参数的限制，如视频采样格式㊁图像分辨率（如从１７６ˑ１４４到８１９２ˑ４３２０）㊁最大输出码率等㊂如果说一个解码器具备解某一水平码流的能力，则意味着该解码器具有解码等于和低于这一水平所有码流的能力㊂等级规定了每一水平的比特率的高低㊂对同一水平，按照最大码率和缓存容量要求的不同，ＶＶＣ设置了两个等级，高等级（ＨｉｇｈＴｉｅｒ）和主等级（ＭａｉｎＴｉｅｒ）㊂主等级可用于大多数场合，要求码率较低；高等级可用于有特殊要求的场合，包括５．０到６．２的６个水平，允许码率较高㊂２㊀帧内预测２．１㊀亮度分量的预测模式ＶＶＣ的帧内预测技术［９］的原理和ＨＥＶＣ类似，采用基于块的多方向帧内预测方式来消除图像的空间相关性，但是比ＨＥＶＣ预测方向更细㊁更灵活㊂如图５所示，ＶＶＣ为亮度预测块定义了６５种不同的基本帧内预测方向，相当于在ＨＥＶＣ帧内预测３３个方向的每两个方向中间增加一个方向，连同平面（Ｐｌａｎａｒ）和直流（ＤＣ）模式，共６７种预测模式㊂ＶＶＣ亮度帧内预测单元的尺寸从４ˑ４到６４ˑ６４，其中包含矩形单元㊂考虑到方便矩形帧内预测块的宽角度（Ｗｉｄｅ⁃Ａｎｇｌｅ）模式，ＶＶＣ的帧内预测在６５种方向的基础上分别增加了－１到－１４和６７到８０方向，共２８个方向，这样ＶＶＣ帧内预测编码总共有９３个方向㊂图５㊀帧内预测方向ＤＣ模式的编码块所有像素的预测值都等于其左侧和上方已编码的所有参考像素的平均值㊂Ｐｌａｎａｒ模式的预测值由待编码的亮度块的水平和垂直两个方向上的参考像素的线性内插产生，它们一般适用于图像的平坦区域㊂２．２㊀帧内子块划分ＶＶＣ的帧内子块划分（ＩｎｔｒａＳｕｂ⁃Ｐａｒｔｉｔｉｏｎｓ，ＩＳＰ）就是根据编码块的尺寸将亮度预测块在水平或垂直方向上分为２个或４个子块㊂ＶＶＣ规定每个帧内预测块至少要有１６个样点，因此４ˑ４块不再划分㊂允许ＩＳＰ划分的最小块尺寸是４ˑ８或８ˑ４，可划分为２个子块，如图６（ａ）所示；如果大于４ˑ８或８ˑ４则划分为４个子块，如图６（ｂ）所示㊂图６㊀帧内子块划分２．３㊀色度的跨分量线性模式ＨＥＶＣ色度块采用依附亮度块的简化预测，共有５种模式，即Ｐｌａｎａｒ㊁ＤＣ㊁水平方向㊁垂直方向和派生模式（ＤｅｒｉｖｅｄＭｏｄｅ，ＤＭ），ＤＭ直接复制对应亮度块的预测模式㊂ＶＶＣ色度分量除了沿用这５种预４南京邮电大学学报（自然科学版）㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀２０２１年测模式外，还考虑到亮度和色度之间的相关性，对色度分量增加了一种跨分量线性模型（Ｃｒｏｓｓ⁃ＣｏｍｐｏｎｅｎｔＬｉｎｅａｒＭｏｄｅｌ，ＣＣＬＭ）预测模式㊂在ＣＣＬＭ中，色度样值Ｃ（ｉ，ｊ）从同一个编码单元对应的已重建的亮度样值Ｌᶄ（ｉ，ｊ）通过线性模型预测得到，即Ｃ（ｉ，ｊ）＝α㊃Ｌᶄ（ｉ，ｊ）＋β，α和β为ＣＣＬＭ参数，可利用当前块左侧和上方相邻的像素通过计算得到㊂此外，还有单独使用左侧相邻像素预测的ＬＭ＿Ｌ模式；或者上方相邻像素预测的ＬＭ＿Ａ模式㊂这样，色度分量在５种传统帧内预测模式的基础上，新增了ＣＣＬＭ㊁ＬＭ＿Ａ和ＬＭ＿Ｌ三种模式，共有８种预测模式㊂２．４㊀多行参考帧内预测传统的帧内预测利用和当前块紧相邻的行和列的像素作为参考像素㊂如果当前块和参考行在内容上不连续，可能会导致较大的预测误差，为此ＶＶＣ新增了多行参考（ＭｕｌｔｉｐｌｅＲｅｆｅｒｅｎｃｅＬｉｎｅ，ＭＲＬ）帧内预测技术，将参考行从相邻参考行０扩展为参考行０㊁参考行１和参考行３［９－１０］㊂实际预测时从３行中选择预测误差最小的参考行作为最终预测使用的最佳参考行，如图７所示㊂图７中Ａ和Ｆ区域的已重建像素与当前块距离较远，有可能引入较大的误差，因此Ａ区域的像素由Ｂ区域距离最近的像素填充，Ｆ区域的像素由Ｅ区域距离最近的像素填充㊂图７㊀多行参考方式２．５㊀帧内预测模式的编码帧内预测时，编码器需要从多种预测模式中选择一种最佳模式使得编码效率最优㊂如果直接对预测模式信息进行编码，需要较多的编码比特㊂考虑到相邻块之间的帧内预测模式也存在空间相关性，即当前块的预测模式很有可能与相邻块的预模式一致，因此可以从相邻块的模式来预测当前块最可能的模式（ＭｏｓｔＰｒｏｂａｂｌｅＭｏｄｅ，ＭＰＭ）［１１］㊂当前块的预测模式被划分为ＭＰＭ和其余模式，然后对这两类模式分别编码，以提升编码效率㊂３㊀变换和量化视频压缩中的变换是将空间域的图像信号转换到频率域，大幅度解除了图像信号之间的相关性，为后续的量化压缩创造条件㊂因此，选择何种变换函数和采用什么量化方法就显得分外重要［１２－１３］㊂在ＨＥＶＣ中，对帧内预测生成的４ˑ４亮度残差块采用离散正弦变换（ＤｉｓｃｒｅｔｅＳｉｎｅＴｒａｎｓｆｏｒｍ，ＤＳＴ）方式，对于其他的残差块，则使用离散余弦变换（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ，ＤＣＴ）方式㊂通过残差４叉树（ＲｅｓｉｄｕａｌＱｕａｄＴｒｅｅ，ＲＱＴ）对变换块系数进行排序和量化㊂与ＨＥＶＣ不同，ＶＶＣ为了提高压缩性能，在变换环节提供了更多可供选择的变换函数和不可分离的二次变换，在量化环节采用了基于率失真优化的量化方式和简洁的系数排序方式㊂３．１㊀多变换选择ＶＶＣ将最大变块换尺寸扩展到６４ˑ６４，在ＨＥＶＣ的ＤＣＴ⁃２变换基础上，采用了多变换选择（ＭｕｌｔｉｐｌｅＴｒａｎｓｆｏｒｍＳｅｌｅｃｔｉｏｎ，ＭＴＳ）技术，增加了ＤＳＴ⁃７和ＤＣＴ⁃８两种变换函数，形成一组候选变换函数集，成为ＶＶＣ中的主变换（ＰｒｉｍａｒｙＴｒａｎｓｆｏｒｍ）㊂对于长或宽等于６４的大尺寸变换块，直接舍弃高频变换系数，仅保留低频变换系数㊂例如，对于长宽为ＭˑＮ的块，若Ｍ等于６４，只保留左边３２列系数，若Ｎ等于６４，只保留上方３２行系数㊂针对帧间预测的ＣＵ，ＶＶＣ还采用了子块变换（Ｓｕｂ⁃ＢｌｏｃｋＴｒａｎｓｆｏｒｍ，ＳＢＴ）技术㊂ＳＢＴ假设帧间预测残差分布的局部性，仅分布在残差块的局部１／２或１／４区域，从而降低变换系数的高频分量，减少标记残差块是否为０的编码代价，提高压缩性能㊂对不同的预测方式，编码器可以根据哪一种变换的编码效率最高来选择不同的变换方式㊂３．２㊀二次变换由于不可分离变换比可分离变换具有更好的去相关效果，ＶＶＣ采用了基于归零（Ｚｅｒｏ⁃Ｏｕｔ）的不可分离二次变换（Ｎｏｎ⁃ＳｅｐａｒａｂｌｅＳｅｃｏｎｄａｒｙＴｒａｎｓｆｏｒｍ，ＮＳＳＴ）技术㊂所谓二次变换，就是对主变换系数进行第二次变换，将信号从一个变换域转换至另外一个变换域后再进行量化㊁熵编码等操作，其目的是进一步提高变换效率㊂ＡＶＣ和ＨＥＶＣ都提供了自己的二次变换技术㊂ＶＶＣ采用了ＮＳＳＴ技术对高频系数采用归零方案，也就是仅保留二次变换的低频系数，高频系数假设为０，ＮＳＳＴ也因此被称作低频不５第２期朱秀昌，等：Ｈ．２６６／ＶＶＣ：新一代通用视频编码国际标准可分离二次变换（ＬｏｗＦｒｅｑｕｅｎｃｙＮｏｎ⁃ｓｅｐａｒａｂｌｅＳｅｃｏｎｄａｒｙＴｒａｎｓｆｏｒｍ，ＬＦＮＳＴ）㊂ＬＦＮＳＴ仅用于帧内编码的块，其变换集的选择与帧内预测模式有关㊂以１６ˑ１６预测残差块为例，仅对左上角的３个４ˑ４子块所包含的变换系数（拉成４８ˑ１的数据条）进行二次变换，因此一个ＬＦＮＳＴ变换核的大小为１６ˑ４８，变换的结果为１６个系数㊂３．３㊀率失真优化的量化普通量化是以量化失真最小为设计目标，但在视频编码中，编码比特率的高低也是非常重要的判断指标，两者并不完全一致㊂因此视频编码中的量化器设计需要权衡失真与比特率㊂对于一个变换系数，给出多个可选的量化值，用率失真优化准则选出最优的量化值，这就是率失真优化量化（ＲａｔｅＤｉｓｔｏｒｔｉｏｎＯｐｔｉｍｉｚｅｄＱｕａｎｔｉｚａｔｉｏｎ，ＲＤＯＱ）方法㊂ＶＶＣ在ＲＤＯＱ量化时，需遍历编码块内系数㊂如果当前ＣＵ每一个４ˑ４系数组（ＣｏｅｆｆｉｃｉｅｎｔＧｒｏｕｐ，ＣＧ）量化后是全零ＣＧ，那么只需发送全零标志；否则，需要传送ＣＧ中量化后的系数㊂和ＨＥＶＣ一样，ＶＶＣ也是标量量化方式，但最大量化参数（ＱＰ）从５１扩大为６３㊂ＶＶＣ采用了一种依赖性标量量化（ＤｅｐｅｎｄｅｎｔＳｃａｌａｒＱｕａｎｔｉｚａｔｉｏｎ，ＤＳＱ）方法，它定义了两个不同重建水平的标量量化器，系数的量化按照一定的规则自适应地在这两个标量量化器间转换㊂其本质在于，在同一个量化间隔中有两个输出量化值供选择，可以降低量化误差㊂与ＨＥＶＣ相同，ＶＶＣ也支持默认量化矩阵和用户自定义量化矩阵㊂使用量化矩阵的目的是对不同位置的系数采用不同的量化步长，以适应人眼的视觉特性，比如人眼对高频分量不敏感，就可以对高频系数使用更大的量化步长㊂３．４㊀系数组和扫描顺序在视频编码中，一般须将变换块中量化后的系数通过特定的扫描方式形成一维数据，然后对它进行熵编码㊂ＶＶＣ将ＷˑＨ的变换块量化后的变换系数值排列成一个ＷˑＨ的矩阵㊂为了保证对所有尺寸的块统一进行扫描处理，也为了增加变换块的编码效率，考虑到编码块中信号能量一般集中在水平或垂直方向的低频率处，因此将变换块的系数分为若干系数组（ＣＧ），对每个ＣＧ及ＣＧ内系数使用多扫描路径以统一的方式进行编码㊂由于ＶＶＣ也支持宽度和高度小于４的块，ＣＧ的形状取决于变换块尺寸㊂对于１ˑＮ或Ｎˑ１（Ｎȡ１６）的ＣＵ，ＣＧ的尺寸为１ˑ１６或１６ˑ１；对于２ˑＮ或Ｎˑ２（Ｎȡ８）的ＣＵ，ＣＧ的尺寸为２ˑ８或８ˑ２；其他ＣＵ的ＣＧ尺寸都是４ˑ４㊂ＣＧ的编码顺序为图８所示的反向对角扫描（ＲｅｖｅｒｓｅＤｉａｇｏｎａｌＳｃａｎ）顺序，和ＣＧ尺寸无关㊂图８中每个小方块表示一个ＣＧ㊂系数块的ＣＧ从右下到左上的对角顺序处理，这里每个对角方向都是朝左下方向进行㊂为了限制解码器复杂度的最差情况，ＶＶＣ将大变换块的高频系数强制置零㊂非零的量化指数只能表示在变换块的ｍａｘ（Ｗ，３２）ˑｍａｘ（Ｈ，３２）的左上角区域，而这一区域以外的ＣＧ就无需编码，从而也无需扫描，如图８（ｄ）所示㊂ＣＧ内部系数的扫描顺序由相同的对角扫描方式来定义，图８（ｂ）中的扫描也可表示４ˑ４ＣＧ中的系数值的扫描顺序㊂图８㊀ＣＧ的反向对角扫描示意４㊀熵编码输入视频在预测㊁变换和量化以后，还需对量化㊁扫描后的变换系数进行熵编码（ＥｎｔｒｏｐｙＣｏｄｉｎｇ），以获得进一步的信息压缩㊂在熵编码中常见的有较为简单的变长编码（如Ｈｕｆｆｍａｎ编码）和效率较高的算术编码两大类㊂如果将编码方式和编码的内容联系起来，则可获得更高的编码效率，这就是常见的上下文自适应变长编码（Ｃｏｎｔｅｘｔ⁃ＡｄａｐｔｉｖｅＶａｒｉａｂｌｅＬｅｎｇｔｈＣｏｄｉｎｇ，ＣＡＶＬＣ）和上下文自适应二进制算术编码（Ｃｏｎｔｅｘｔ⁃ＡｄａｐｔｉｖｅＢｉｎａｒｙＡｒｉｔｈｍｅｔｉｃＣｏｄｉｎｇ，ＣＡＢＡＣ）㊂这两类熵编码都是高效㊁无损的压缩方法㊂其中ＣＡＢＡＣ要胜过ＣＡＶＬＣ一筹，尤其是在高码率的情况下更是如此㊂ＶＶＣ和ＨＥＶＣ一样，熵编码采用的是ＣＡＢＡＣ，但在ＨＥＶＣ基础上有所改进㊂由于上下文自适应二进制算术编码（ＣＡＢＡＣ）较普通的变长编码的性能优越，在ＡＶＣ标准中是可选的两种熵编码方法之一，而在ＨＥＶＣ和ＶＶＣ中则成为唯一的熵编码方法㊂尽管和ＨＥＶＣ采用同样６南京邮电大学学报（自然科学版）㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀２０２１年的编码引擎，ＶＶＣ为常规编码模式设计了一种新的灵活㊁高效的编码引擎㊂编码引擎由两部分组成：概率估计和码字匹配㊂概率估计的目的在于确定下一个二进制符号其值为１的概率㊂这种估计是基于使用相同上下文的已编码符号值的历史，利用指数衰减窗口进行的㊂ＨＥＶＣ的编码引擎采用１２８状态单一有限状态机作为指数平滑估计器，虽然ＶＶＣ也采用这样的估计器，但有很大的不同：为了改进压缩性能，ＶＶＣ为每个上下文维持两个估计器，每个估计器有自己的衰减系数，实际用于编码的概率是两个估计器的平均值㊂在概率估计中，ＶＶＣ不使用状态机，而是由回归函数计算导出㊂实际上主要的差别在于ＶＶＣ为每个上下文导出的值表示一个实际概率（线性空间），而在ＨＥＶＣ中，它表示状态机的一种状态（对数空间）㊂至于码字匹配，当前的间隔被分为两个子间隔，每个子间隔对应二进制符号的值，０或１㊂每个子间隔的范围由当前间隔范围Ｒ和相对应的概率估计值相乘获得㊂在ＨＥＶＣ中，使用查表来近似这个乘法运算，以确定和最小概率符号（ＬｅａｓｔＰｒｏｂａｂｌｅＳｙｍｂｏｌ，ＬＰＳ）相关的子间隔范围ＲＬＰＳ㊂而在ＶＶＣ中，就直接使用乘法获得ＬＰＳ的子间隔范围㊂一旦ＲＬＰＳ确定后，ＨＥＶＣ和ＶＶＣ的编码引擎就以相同的方式工作了㊂５㊀帧间预测ＨＥＶＣ的帧间预测有３种模式：跳过（Ｓｋｉｐ）模式，无需预测残差，运动矢量从相邻块运动矢量得到，不需要编码运动参数；合并（Ｍｅｒｇｅ）模式，需要预测残差，当前块的运动参数由相邻块的运动参数得到，只需传递Ｍｅｒｇｅ模式的候选编号；普通帧间（Ｉｎｔｅｒ）模式，需预测残差，需进行运动估计获得运动矢量（ＭｏｔｉｏｎＶｅｃｔｏｒ，ＭＶ），并利相邻块得到运动矢量预测（ＭＶＰｒｅｄｉｃｔｉｏｎ，ＭＶＰ），ＭＶ和ＭＶＰ相减得到运动矢量差（ＭＶＤｉｆｆｅｒｅｎｃｅ，ＭＶＤ），需参考图像索引㊂ＶＶＣ在ＨＥＶＣ３种预测模式的基础上，对帧间预测工具作了多方面的扩展和新增㊂５．１㊀扩展Ｍｅｒｇｅ模式（１）扩展的Ｍｅｒｇｅ预测（ＥＭＰ）ＶＶＣ采用了扩展Ｍｅｒｇｅ预测（ＥｘｔｅｎｄｅｄＭｅｒｇｅＰｒｅｄｉｃｔｉｏｎ，ＥＭＰ）模式：增加了候选列表长度，由ＨＥＶＣ的５增加到现在的６；在列表构建过程中，首先检查空域各个邻编码块运动矢量预测（ＭＶＰ），接着检查时域候选块，检查过程与顺序都和ＨＥＶＣ相同㊂如果候选列表没有被填满，ＶＶＣ增加了一种填充候选的基于历史运动矢量预测（ＨｉｓｔｏｒｙｂａｓｅｄＭＶＰ，ＨＭＶＰ）方法［１４］，维护并更新一个ＨＭＶＰ列表，当编码完一个块后，将该块的运动参数作为一个新的候选添加到ＨＭＶＰ列表的末尾，按照先进先出的规则将最前面的候选用作填充㊂添加完ＨＭＶＰ候选后，将列表中的前４个候选ＭＶ，两两进行平均，再将平均值后有效的ＭＶ按一定顺序添加进Ｍｅｒｇｅ候选列表中㊂如果依然没有填满候选列表，则使用０运动矢量填满㊂这样候选列表的顺序为：空间域相邻块候选，时间域候选，历史候选，空间平均值候选，０运动矢量㊂当候选列表构造好了之后，编码器就要对候选列表中的每一个候选进行率失真代价的计算，以得到一个性能最优的候选㊂（２）带运动矢量差的Ｍｅｒｇｅ模式（ＭＭＶＤ）在ＨＥＶＣ中的Ｍｅｒｇｅ模式中，Ｍｅｒｇｅ列表中的ＭＶＰ直接用于当前ＣＵ的预测，ＶＶＣ的Ｍｅｒｇｅ模式和Ｓｋｉｐ模式中可引入带有ＭＶＤ的Ｍｅｒｇｅ模式（ＭｅｒｇｅｍｏｄｅｗｉｔｈＭＶＤ，ＭＭＶＤ），ＭＶＰ与ＭＶＤ相加，得到真实的运动矢量ＭＶ，用于当前ＣＵ的帧间预测，是否使用ＭＭＶＤ的标志需要传至解码端㊂采用ＭＭＶＤ模式时，选择普通Ｍｅｒｇｅ列表中的前两个候选ＭＶ作为初始运动矢量，然后对该ＭＶ进行扩展，一个ＭＶ要在４个方向以８种步长进行扩展，两个ＭＶ就有４ˑ８ˑ２＝６４种新的ＭＶ，对所有６４个扩展ＭＶ进行率失真代价比较，从中选择出最优的一个作为最终的ＭＶ传递至解码端㊂５．２㊀改进运动估计５．２．１㊀带有ＣＵ权重的双向预测（ＢＣＷ）对于一般双向预测块，最终的预测值Ｐｂｉ由两侧的两个运动矢量预测值Ｐ０和Ｐ１平均得到：即Ｐｂｉ＝（Ｐ０＋Ｐ１＋１）／２㊂实际应用中同一内容随着时间变化有可能会产生光线强弱变化或阴影等现象，导致不同帧之间场景很相似，但是明暗差别较大，而且局部内容也会产生类似的光线变化，采用简单的平均方式会使得帧间预测的误差较大㊂为此，ＶＶＣ提出了一种带有ＣＵ权重的双向预测（Ｂｉ⁃ｐｒｅｄｉｃｔｉｏｎｗｉｔｈＣＵ⁃ｌｅｖｅｌＷｅｉｇｈｔ，ＢＣＷ）方法，它不是简单地求均值，而是在ＣＵ层面对两个预测值进行加权求和：Ｐｂｉ＝（（８－ｗ）∗Ｐ０＋ｗ∗Ｐ１＋４）／８㊂加权系数ｗ的范围为｛－２，３，４，５，１０｝，低时延应用中的权重可从这５个系数中选取，其他应用则从｛３，４，５｝这３个系数７第２期朱秀昌，等：Ｈ．２６６／ＶＶＣ：新一代通用视频编码国际标准。

视频编码标准

视频编码标准H.264/AVCH.264/AVC 是ITU-T VCEG 和ISO/IEC MPEG 共同开发的视频处理标准，ITU-T作为标准建议H.264，ISO/IEC作为国际标准14496-10（MPEG-4 第10部分）高级视频编码（AVC）。

MPEG-2视频编码标准（又称为ITU-T H.262[2]）已有10年的历史了，由MPEG-1扩充而来，支持隔行扫描。

使用十分广泛，几乎用于所有的数字电视系统，适合标清和高清电视，适合各种媒体传输，包括卫星、有线、地面等，都能有效地传输。

然而，类似xDSL、UMTS（通用移动系统）技术只能提供较小的传输速率，甚至DVB-T，也没有足够的频段可用，提供的节目很有限，随着高清电视的引入，迫切需要高压缩比技术的出现。

应用于电信的视频编码经历了ITUT H.261、H.262（MPEG-2）、H.263、H.263+、H.263++，提供的服务从ISDN和T1/E1到PSTN、移动无线网和LAN/INTERNET网。

最近MPEG-4 第二部分进入了实用领域，提供了视频形状编码，目标是与MPEG-2一样获得广泛的数字电视应用。

1998年，视频编码专家组（VCEG-ITU-T SG16 Q.6）启动了H.26L工程，旨在研制出新的压缩标准，与以前的任何标准相比，效率要提高一倍，同时具有简单、直观的视频编码技术，网络友好的视频描述，适合交互和非交互式应用（广播、存储、流煤体）。

2001年12月，VCEG和运动图像专家组（MPEG-ISO/IEC JTC 1/SC 29/WG 11）组成了联合视频组（JVT，Joint Video Team），研究新的编码标准H.264/AVC，该标准于2003年3月正式获得批准。

视频的各种应用必须通过各种网络传送，这要求一个好的视频方案能处理各种应用和网络接口。

H.2 64/AVC为了解决这个问题，提供了很多灵活性和客户化特性。

(整理)多媒体技术06视频与编码标准

第6章视频与编码标准本章先了解电视技术的历史与发展，列出各种彩色电视制式，简介数字电视的概念与现状；再讲解视频信号的数字化，重点介绍视频编码标准。

6.1 电视电视(television远视)与动画一样也是利用人的视觉滞留原理工作的。

早期是黑白电视无线广播，后来是模拟彩色电视的无线广播、卫星广播和有线电视广播，现在正处于高清晰数字电视广播的发展阶段。

6.1.1 发展与简史●电视技术的发展⏹系统：黑白电视→彩色电视（无线→卫星→有线）→数字电视→高清晰电视⏹显示：阴极射线管CRT→背投/前投→液晶LCD→等离子PDP→薄膜电视OLED/表面传导电子发射显示器SED⏹存储播放：录像带/机VCR→VCD→DVD→BD/HD DVD●电视及其相关技术的发展历史⏹[1837年美国人S.F.B. Morse发明电磁式电报机]⏹[1844年S. Morse在美国国会资助下建成电报线路，开始有线电报通报]⏹[1860年代德国人P. 赖斯试验有线广播]⏹[1864年英国物理学家J.C. Maxwell创立电动力学]⏹[1876年美国人A.G. Bell发明有线电话]⏹[1877年美国发明家T.A. Edison发明留声机]⏹[1879年T.A. Edison发明白炽灯]⏹[1880年俄国人Ю. 阿霍罗维奇进行有线音乐广播]⏹[1883年T.A. Edison发现热电子发射现象（电子管原理）]⏹1884年德国工程师P.G. Nipkow发明螺盘旋转扫描器，用光电池把图像的系列光点转变为电脉冲，实现了最原始的电视传输和显示⏹[1887年H.R. Hertz证实电磁波的存在]⏹[1895年意大利人G.Marconi实现无线电报传送]⏹1897年电子束管(electron beam tube)即阴极射线管(CRT = Cathode-Ray Tube)问世，后来出现仪器示波管⏹[1904年英国人J.A. Fleming发明可用于检波的真空电子二极管]⏹[1906年美国发明家L.D. Forest发明可用于功放的真空电子三极管]⏹[1906年美国人R.A. Fessenden发明无线广播]⏹[1919年英国建成无线电广播电台，开始公众无线电广播]⏹[1920年代苏联开始城市有线广播，后来许多国家也建立了有线广播]⏹1923年美籍俄罗斯人（美国两院院士）V.K. Zworykin发明电视光电摄像管⏹1925年美国人C.F. Jenkins和1926年英国人J.L. Baird相继实现影像粗糙的机械扫描系统⏹1930年P.J.范思沃恩发明电子扫描系统⏹1930年RCA公司改进电子束显像管⏹1931年V.K. Zworykin发明电视显像管⏹1937年/1939年英国/美国开始黑白电视广播⏹[1947年J. Bardeen、W.H. Brattain和W.B. Shockley发明点接触晶体管]⏹1940年代末美国发明共用天线电视系统，后来逐步发展为有线电视（电缆电视cabletelevision）⏹1949年美国无线电公司研制成功荫罩式彩色显像管⏹[1952年中国开始在农村建立有线广播网]⏹1952年美国提出NTSC彩色电视制式⏹1954年美国正式开始彩色电视广播⏹[1957年苏联发射人造地球卫星]⏹[1958年美国发射用于通信的低轨试验卫星]⏹[1958年美国物理学家J. Kilby制成第一块集成电路]⏹1958年中国开始黑白电视广播⏹[1963年美国发射定点同步通信卫星]⏹1963年联邦德国提出PAL彩色电视制式⏹[1964年借助于点同步通信卫星实现通信与电视转播]⏹1964年美国无线电公司发现液晶光电效应，后来发展成液晶显示器(LCD = LiquidCrystal Display)⏹1966年美国人D.L.比泽和H.G.斯洛托夫发明等离子显示器PDP(plasma display panel) ⏹1966年法国提出SECAM彩色电视制式⏹1970年代初中国开始彩色电视广播，采用的PAL-D制式⏹1972年日本广播协会研究所提出模拟高清晰度电视HDTV的MUSE方案⏹1974年中国开始在高层建筑中安装和使用共用天线电视系统⏹1979年柯达公司Rochester实验室的邓青云（Ching W Tang汪根祥）发明小分子OLED(Organic Light Emitting Diode有机发光二极管/有机电激发光显示器) 薄膜电视，1987年英国剑桥大学博士生Jeremy Burroughes证明大分子的聚合物也有场致发光效应。

常见的视频编码技术和标准

622006 NO.11&12 记录媒体技术基础知识讲座[上接第15页]3. MPEG-4标准运动图像专家组MPEG于1999年2月正式公布了MPEG-4(ISO/IEC14496)标准第一版本，同年年底MPEG-4第二版亦告确定，并于2000年年初正式成为国际标准。

MPEG-4与MPEG-1和MPEG-2有很大的不同。

MPEG-4并不只是具体的压缩算法，它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体(WWW、资料获取与分散)等整合及压缩技术的需求而制定的国际标准。

MPEG-4标准将众多的多媒体应用集成于一个完整的框架内，旨在为多媒体通信及应用环境提供标准的算法及工具，从而建立一种在多媒体传输、存储、检索等应用领域普遍采用的统一的数据格式。

MPEG-4标准同以前编码标准的最显著差别在于它采用了基于对象的编码理念，即在编码时将一幅景物分成若干在时间和空间上相互联系的音视频对象，分别编码后经过复用传输到接收端，然后再对不同的对象分别解码，从而组合成所需要的视频和音频。

这样既方便我们对不同的对象采用不同的编码方法和表示方法，又有利于不同数据类型的融合，并且可以方便的实现对于各种对象的操作及编辑。

基于MPEG-4编码，我们可以将一个卡通人物放在真实的场景中，或者将真人置于一个虚拟的演播室里，还可以在互联网上方便的实现交互，根据自己的需要有选择的组合各种音视频以及图形文本对象。

下面简要介绍MPEG-4标准中采用的多项新技术。

(1) 形状编码形状信息的获得首先要对图形进行分析和分割，把各个代表不同内容的目标分割后再用形状表示。

形状信息通常用二值Alpha平面和灰度Alpha平面来表示，二值Alpha平面可用临近信息进行算术编码(CAE)；灰度Alpha平面可用运动补偿加DCT变换方式类似纹理编码一样进行编码。

和MPEG-1/2一样，MPEG-4选择了离散Fourier变换(DFT)用于图像压缩。

视频压缩编码标准.pptx

第14页/共72页
H.264/AVC的结构
图4 片的句法结构第15页/共72页
H.264/AVC的结构
片和片组
– 片组
片组是一个编码图象中若干MB的一个子集，它可包含一个或若干个片。 – 在一个片组中，每片的MB按光栅扫描次序被编码，如果每幅图象仅取一个片组，则该图象中所有的MB 均按光栅扫描次序被编码。 – 还有一种片组，叫灵活宏块次序（FMO），它可用灵活的方法，把编码MB序列映射到解码图象中MB 的分配用MB到片组之间的映射来确定，它表示每一个MB属于哪个片组。表1 为MB到片组的各种映射类型。
第34页/共72页
帧内预测
第35页/共72页
H.264/AVC
H.264/AVC编解码器 H.264/AVC的结构帧内预测帧间预测变换与量化
第36页/共72页
帧间预测
树状结构运动补偿
– 每个宏块（16×16像素）可以4种方式分割：一个 16×16，两个16×8，两个8×16，四个8×8。其运动补偿也相应有四种。而8×8分割还可以有四种方式的分割：一个8×8，两个4×8或两个8×4及4个 4×4。这种分割下的运动补偿则称为树状结构运动补偿。
第16页/共72页
H.264/AVC的结构
类型 0 1 2 3
4
5
6
表1 MB到片组的映射名称
描述
交错散乱前景和背景 Box－out
光栅扫描
手绢
显式
MB游程被依次分配给每一块组（图8）
每一片组中的MB被分散在整个图象中（图9）
例见图10
从帧的中心开始，产生一个箱子，其MB属于片组 0，其它MB属于片组（图11）
第21页/共72页

第6章视频编码标准

8.SAO滤波
4. 块划分结构

采用CU (Coding Unit)、PU(Prediction Unit)和TU(Transform Unit) 的块划分结构这三者之间的关系主要是以LCU为基本编码单元，在LCU递归划分为CU块，每个CU块可以划分成不同的PU块，同时也在CU的基础上可以进行TU块的递归划分
H.261
2.图象格式二种分辨率格式, 每个定义的宽高比都是 4:3。所谓公共中间格式（CIF，Common Intermediate Format）定义一个352行的亮度成分, 每个成分具有288像素。依照每个2:1:1的需求，色度成份是用176行进行子抽样，每个有 144像素。四等分CIF（QCIF，Quarter CIF）是所有成分分辨率的一半（即亮度为176 x 144个像素，其余为88 x 72个像素）。所有的 H.261 实现必须能够编码和解码 QCIF。CIF是可选择的。
6.1.3 H.264
1.概述 H.264是ITU-T视频编码专家组(VCEG)和 ISO/IEC活动图像编码专家组(MPEG)的联合视频组(JVT)开发的一个新的数字视频编码标准，它既是ITU-T的H.264，又是ISO/IEC的MPEG-4的第10部分。2002年6月JVT第5次会议通过了 H.264的FCD板。H.264的压缩率比MPEG-2高 2～3倍，1Mb/s速率的图像效果接近MPEG-2中 DVD的图像质量，是目前手机电视中最为理想的信源压缩编码标准。
第六章视频编码标准简介
6.1 H26X
6.2 MPEG-x
6.1 H.26X
6.1.1 H.261 1.概述

早期的ISDN应用主要是视频电话和视频会议系统。这些对话应用需要在实时中进行编码和解码。在 1984年, CCITT（ITU的前身）的研究组XV建立了一个专家委员会，为运动图片压缩拟订一个标准。在五年工作之後，产生了CCITT推荐标准H.261，称为在 px64Kbit/s 音视服务的视频编解码（Video CoDec for Audiovisual Services at px64Kbit/s），并在1990年12月得到接受。

视频编码国际标准

MPEG-2不仅接受逐行扫描视频，也可以接受隔行扫描视
频，高清晰度视频，提供可伸缩调节的位流，提供改进的量化和编码选项。
Logo §3.1 视频图像编码标准
五、MPEG-4 低于64kbps的低数据率，交互式多媒体应用标准； MPEG-4利用了人眼视觉特性，抓住了图像信息传输的本质，从轮廓、纹理思路出发，基于对内容的访问； AV对象（AVO，Audio Visual Object）是MPEG-4为支持基于内容编码而提出的重要概念；视音频已不再是图像帧的概念，而是一个个视听场景；把编码对象从图像帧到任意形状的视频对象，实现从基于像素的传统编码到基于对象和内容的现代编码。采用开放的编码系统，可随时加入新的编码算法模块，同时也可根据不同应用需求现场配臵解码器，以支持多种多媒体应用；
一、 H.261 H.261是用于视频会议和可视电话业务的以p×64kbps, p=1,…,30的速率在综合业务数字网（ISDN）上传送视频信号的压缩标准。
64kbps (p=1) 用于低端的可视电话业务，其中视频信号传输占用48 kbps的带宽，剩下的16 kbps用于音频信号； 384 kbps（p=6）或更高的速率用于高端的视频会议业务；在ISDN信道上最高传输率为19.2Mbps (p=30)，足以传送VHS质量的视频信号。
Logo §3.2 MPEG-1视频编码和解码
三、输入图像格式 MPEG-1输入视频信号采用源输入格式（SIF, Source Input Format），采用YCrCb色空间；采样格式4：2：0； MPEG-1最大的图像尺寸只能是352×288（对应25Hz帧频）。
Logo §3.2 MPEG-1视频编码和解码
数字电视原理与应用

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。