视频图像帧内编码

合集下载

视频编码技术-PPT

第3章视频编码技术
1.视频信号的数字化 2.视频文件格式 3.视频压缩编码原理 4.视频压缩标准
学习目标
掌握视频数字化方法了解视频文件格式掌握视频压缩编码原理（预测编码、变换编
码、统计编码原理）
理解视频压缩标准（ MPEG标准）
3.1 视频信号的数字化
1.视频相关的基本概念
所谓视频（video frequency ），连续的图像变化每秒超过24帧（frame）画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果，这样连续的画面叫做视频。即视频是由一系列单独的静止图像组成，其单位用帧或格来表示；
（1）本地影像视频格式
－MOV格式，美国Apple公司开发的一种视频格式，默认的播放器是苹果的QuickTime Player。具有较高的压缩比率和较完美的视频清晰度等特点，但其最大的特点还是跨平台性，即不仅能支持Mac OS，同样也能支持Windows系列。
Avid Media composer非线性编辑软件支持该格式。
同步信号
)
地(色度)
S-Video四芯插头（座）
地(亮度)
2.视频的采集及数字化
视频采集卡的接口
莲花接头
2.视频的采集及数字化
视频采集卡的接口 IEEE1394接口
IEEE1394是一种外部串行总线标准，800Mbps的高速。1394接口具有把一个输入信息源传来的数据向多个输出机器广播的功能，特别适用于家庭视听的连接。由于该接口具有等时间的传送功能，确保视听AV设备重播声音和图像数据质量，具有好的重播效果。
人眼在观察景物时，光信号传入大脑神经，需经过一段短暂的时间，光的作用结束后，视觉形象并不立即消失，而能继续保留其影像0.1-0.4秒左右，这种现象被称为视觉暂留现象。

音视频编码一些参数解析：码流、码率、比特率、帧速率、分辨率、高清的区别

⾳视频编码⼀些参数解析：码流、码率、⽐特率、帧速率、分辨率、⾼清的区别GOP/ 码流 /码率 / ⽐特率 / 帧速率 / 分辨率GOP(Group of picture)关键帧的周期，也就是两个IDR帧之间的距离，⼀个帧组的最⼤帧数，⼀般的⾼视频质量⽽⾔，每⼀秒视频⾄少需要使⽤ 1 个关键帧。

增加关键帧个数可改善质量，但是同时增加带宽和⽹络负载。

需要说明的是，通过提⾼GOP值来提⾼图像质量是有限度的，在遇到场景切换的情况时，H.264编码器会⾃动强制插⼊⼀个I帧，此时实际的GOP值被缩短了。

另⼀⽅⾯，在⼀个GOP中，P、B帧是由I帧预测得到的，当I帧的图像质量⽐较差时，会影响到⼀个GOP中后续P、B帧的图像质量，直到下⼀个GOP开始才有可能得以恢复，所以GOP值也不宜设置过⼤。

同时，由于P、B帧的复杂度⼤于I帧，所以过多的P、B帧会影响编码效率，使编码效率降低。

另外，过长的GOP还会影响Seek操作的响应速度，由于P、B帧是由前⾯的I或P帧预测得到的，所以Seek操作需要直接定位，解码某⼀个P或B帧时，需要先解码得到本GOP内的I帧及之前的N个预测帧才可以，GOP值越长，需要解码的预测帧就越多，seek响应的时间也越长。

CABAC/CAVLCH.264/AVC标准中两种熵编码⽅法，CABAC叫⾃适应⼆进制算数编码，CAVLC叫前后⾃适应可变长度编码，CABAC：是⼀种⽆损编码⽅式，画质好，X264就会舍弃⼀些较⼩的DCT系数，码率降低，可以将码率再降低10-15%（特别是在⾼码率情况下），会降低编码和解码的速速。

CAVLC将占⽤更少的CPU资源，但会影响压缩性能。

帧：当采样视频信号时，如果是通过逐⾏扫描，那么得到的信号就是⼀帧图像，通常帧频为25帧每秒（PAL制）、30帧每秒（NTSC 制）；场：当采样视频信号时，如果是通过隔⾏扫描（奇、偶数⾏），那么⼀帧图像就被分成了两场，通常场频为50Hz（PAL制）、60Hz（NTSC制）；帧频、场频的由来：最早由于抗⼲扰和滤波技术的限制，电视图像的场频通常与电⽹频率（交流电）相⼀致，于是根据各地交流电频率不同就有了欧洲和中国等PAL制的50Hz和北美等NTSC制的60Hz，但是现在并没有这样的限制了，帧频可以和场频⼀样，或者场频可以更⾼。

新一代的视频编码标准H.264

新一代的视频编码标准H.264文 / 摘要：H.264是国际电联最新通过的新一代甚低码率视频编码标准。

本文旨在阐述H.264视频编码标准的关键技术，并介绍了其在视频会议中的应用。

关键词：H.264 视频编码多帧预测视频会议一、引言ITU-T和ISO/IEC JTC1是目前国际上制定视频编码标准的正式组织，ITU-T的标准称之为建议，并命名为H.26x 系列，比如H.261、H.263等。

ISO/IEC的标准称为MPEG-x，比如MPEG-1、MPEG-2、MPEG-4等。

H.26x系列标准主要用于实时视频通信，比如视频会议、可视电话等；MPEG系列标准主要用于视频存储(DVD) 、视频广播和视频流媒体（如基于Internet、 DSL的视频，无线视频等等）。

除了联合开发H.262/MPEG-2标准外，大多数情况下，这两个组织独立制定相关标准。

自1997年，ITU-T VCEG与ISO/IEC MPEG再次合作，成立了Joint Video Team (JVT)，致力于开发新一代的视频编码标准H.264。

1998年1月，开始草案征集；1999年9月，完成了第一个草案；2001年5月，制定了其测试模式TML-8；2002年6月，JVT第5次会议通过了H.264的FCD板；2002年12月，ITU-T 在日本的会议上正式通过了H.264标准，并于2003年5月正式公布了该标准。

国际电信联盟将该系统命名为H.264/AVC，国际标准化组织和国际电工委员会将其称为14496-10/MPEG-4 AVC。

二、H.264标准概述H.264和以前的标准一样，也是DPCM加变换编码的混合编码模式。

但它采用“回归基本”的简洁设计，不用众多的选项，获得比H.263++好得多的压缩性能；加强了对各种信道的适应能力，采用“网络友好”的结构和语法，有利于对误码和丢包的处理；应用目标范围较宽，以满足不同速率、不同解析度以及不同传输（存储）场合的需求。

帧内编码和帧间编码

帧内编码和帧间编码
帧内编码：
帧内编码是指在一个完整的图像帧中，采用特定的编码算法，将图像数据压缩成比原始数据更小的数据量，从而节省存储空间和传输带宽的过程。

常用的帧内编码算法有JPEG （Joint Photographic Experts Group）、MPEG（Motion Picture Experts Group）等。

帧间编码：
帧间编码是指在一组图像帧中，采用特定的编码算法，将一帧图像和其前一帧图像之间的差异数据压缩成比原始数据更小的数据量，从而节省存储空间和传输带宽的过程。

常用的帧间编码算法有H.264（High Efficiency Video Coding）、H.265（High Efficiency Video Coding）等。

视频编码标准

视频编码标准H.264/AVCH.264/AVC 是ITU-T VCEG 和ISO/IEC MPEG 共同开发的视频处理标准，ITU-T作为标准建议H.264，ISO/IEC作为国际标准14496-10（MPEG-4 第10部分）高级视频编码（AVC）。

MPEG-2视频编码标准（又称为ITU-T H.262[2]）已有10年的历史了，由MPEG-1扩充而来，支持隔行扫描。

使用十分广泛，几乎用于所有的数字电视系统，适合标清和高清电视，适合各种媒体传输，包括卫星、有线、地面等，都能有效地传输。

然而，类似xDSL、UMTS（通用移动系统）技术只能提供较小的传输速率，甚至DVB-T，也没有足够的频段可用，提供的节目很有限，随着高清电视的引入，迫切需要高压缩比技术的出现。

应用于电信的视频编码经历了ITUT H.261、H.262（MPEG-2）、H.263、H.263+、H.263++，提供的服务从ISDN和T1/E1到PSTN、移动无线网和LAN/INTERNET网。

最近MPEG-4 第二部分进入了实用领域，提供了视频形状编码，目标是与MPEG-2一样获得广泛的数字电视应用。

1998年，视频编码专家组（VCEG-ITU-T SG16 Q.6）启动了H.26L工程，旨在研制出新的压缩标准，与以前的任何标准相比，效率要提高一倍，同时具有简单、直观的视频编码技术，网络友好的视频描述，适合交互和非交互式应用（广播、存储、流煤体）。

2001年12月，VCEG和运动图像专家组（MPEG-ISO/IEC JTC 1/SC 29/WG 11）组成了联合视频组（JVT，Joint Video Team），研究新的编码标准H.264/AVC，该标准于2003年3月正式获得批准。

视频的各种应用必须通过各种网络传送，这要求一个好的视频方案能处理各种应用和网络接口。

H.2 64/AVC为了解决这个问题，提供了很多灵活性和客户化特性。

绘声绘影中码率、帧数、分辨率、体积的基础编码知识

【绘声绘影新手必学】画质、码率、帧数、分辨率、体积的基础编码知识很多新手对这方面的概念都比较模糊，这是我在绘声绘影吧精品贴整理出来的，当然也加入一些自己的内容，在排版上也更加直观一些。

原文链接/p/1636481831?see_lz=1只要认真看完，基本就对这方面有个全面基础的了解了。

什么是视频编码率？可以简单的理解为，衡量文件体积大小的关键参数，表示每秒钟多少KB的参数。

观察会发现他的单位是Kbps，其实Kbps是Kbit/s的意思，8Kbit/s=1KB/s。

也就是说800Kbps意思就是每秒视频就要占用100KB磁盘空间（当然这里没有加上音频所占的体积）。

上面举例只是让你对视频编码率（以下简称为：码率）有一个具体的形象，其实不用自己算，WisMencoder都已经帮你算好了，就在软件的右下角显示了当前配置每小时和每分钟所需要占用的磁盘空间。

（只是理论值，实际压缩后的编码率可能有一定误差）所以你可以理解为压缩同一个视频，视频编码率越大，文件体积越大。

和画质的关系：文件体积大了，价值何在？可以认为：视频编码率越大，画质越好，马赛克越少。

什么是帧数？我们都知道电影是由一张张的图片组成的，播放电影时，一张张画面快速连续的出现。

这里其中的每张画面称之为“帧”。

帧数在WisMencoder的单位其实是fps，即全称应为每秒的帧数。

也就是每秒含有多少张画面。

显然，每秒含有的画面数越多，则画面显得越连续，越少，则画面越“卡”。

和画质的关系：帧数也与画质有关！在同一视频，同一码率的情况下，帧数越大，则画质越不好。

尤其是运动的画面。

因为每张画面会分担每秒有限的文件体积，如果画面越多，那么每张画面所能表现的内容就越有限。

什么是画面大小？这里的画面大小，单位是像素，而不是英寸和厘米。

这要弄清楚。

画面大小也称为分辨率。

每个像素就是一个点，640x480就表示该视频的每张画面是由宽640点，高480点组成的。

现在相机所说的像素也是这个概念，只不过相机所说的像素是宽和高的乘积值。

视频码率计算

视频码率计算编码率/⽐特率直接与⽂件体积有关。

且编码率与编码格式配合是否合适，直接关系到视频⽂件是否清晰。

在视频编码领域，⽐特率常翻译为编码率，单位是Kbps，例如800Kbps其中， 1K=1024 1M=1024Kb 为⽐特（bit）这个就是电脑⽂件⼤⼩的计量单位，1KB=8Kb，区分⼤⼩写，B代表字节(Byte) s 为秒（second） p 为每（per）以800kbps来编码表⽰经过编码后的数据每秒钟需要⽤800K⽐特来表⽰。

1MB=8Mb=1024KB=8192KbWindows系统⽂件⼤⼩经常⽤B(字节)为单位表⽰，但⽹络运营商则⽤b(⽐特)，也就是为什么2Mb速度宽带在电脑上显⽰速度最快只有约256KB的原因，⽹络运营商宣传⽹速的时候省略了计量单位。

完整的视频⽂件是由⾳频流与视频流2个部分组成的，⾳频和视频分别使⽤的是不同的编码率，因此⼀个视频⽂件的最终技术⼤⼩的编码率是⾳频编码率+视频编码率。

例如⼀个⾳频编码率为128Kbps，视频编码率为800Kbps的⽂件，其总编码率为928Kbps，意思是经过编码后的数据每秒钟需要⽤928K⽐特来表⽰。

了解了编码率的含义以后，根据视频播放时间长度，就不难了解和计算出最终⽂件的⼤⼩。

编码率也⾼，视频播放时间越长，⽂件体积就越⼤。

不是分辨率越⼤⽂件就越⼤，只是⼀般情况下，为了保证清晰度，较⾼的分辨率需要较⾼的编码率配合，所以使⼈产⽣分辨率越⼤的视频⽂件体积越⼤的感觉。

计算输出⽂件⼤⼩公式：（⾳频编码率（Kbit为单位）/8 + 视频编码率（Kbit为单位）/8）× 影⽚总长度（秒为单位）= ⽂件⼤⼩（MB为单位）这样以后⼤家就能精确的控制输出⽂件⼤⼩了。

例：有⼀个1.5⼩时（5400秒）的影⽚，希望转换后⽂件⼤⼩刚好为700M计算⽅法如下：700×8÷5400×1024≈1061Kbps 意思是只要⾳频编码率加上视频编码率之和为1061Kb，则1个半⼩时的影⽚转换后⽂件体积⼤⼩刚好为700M。

基于调色板模式的屏幕视频帧内编码快速算法

基于调色板模式的屏幕视频帧内编码快速算法王菲【摘要】基于HEVC的屏幕视频编码根据屏幕视频的特征,引入了调色板模式、基于Hash的块匹配算法等新技术.这些新技术虽然提升了编码的质量,但同时增加了编码器的复杂度.为降低屏幕视频编码器的复杂度,提出了一种基于调色板模式的屏幕视频帧内编码快速算法.该算法结合了屏幕视频的特征和帧内编码模式的空间相关性,有效地减少了帧内编码单元的模式搜索范围.该算法可以在保证视频编码质量的前提下,有效降低编码复杂度,减少编码时间.在屏幕内容编码的标准测试平台SCM5.4的实验结果显示,本算法可以降低21%的编码时间,同时只引起0.93%的BD-Rate的上升.【期刊名称】《微型机与应用》【年(卷),期】2017(036)002【总页数】3页(P34-36)【关键词】屏幕视频编码;调色板模式;帧内编码【作者】王菲【作者单位】同济大学电子与信息工程学院,上海201804【正文语种】中文【中图分类】TP37新一代视频压缩编码标准——高效视频编码技术(High Efficiency Video Coding，HEVC)，它将自然图像视频压缩效率相对于H.264/AVC提升了数倍。

近年来，随着视频会议、远程桌面共享等应用越来越广泛，人们对带有文字图表的图像等屏幕视频的需求量越来越大，传统的视频编码技术如HEVC、H.264/AVC等对自然图像视频处理固然有效，但是由于屏幕视频图像不同于自然视频图像的特点，如局部块颜色的数量有限、边缘锋利、色调不连续、没有可捕获的噪声等，如果使用传统的自然图像编码技术，极有可能降低屏幕视频编码效率。

基于HEVC视频压缩编码标准的屏幕视频编码标准(Screen Content Coding，SCC)仍在完善之中，但是SCC依旧沿用了HEVC的框架，即HEVC所采用的四叉树结构的编码单元(Coding Unit，CU)划分方式，并对每种尺寸的CU、预测单元(Prediction Unit，PU)或变换单元(Transform Unit，TU)通过计算率失真代价(Rate Distortion Cost，RD_Cost)得出最优尺寸。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

视频图像帧内编码
--国立华侨大学
一实验目的
1.了解多媒体通信中图像压缩技术
2.熟悉视频帧内压缩编码过程
3.掌握二维DCT变换算法
二实验原理
视频帧内编码有多种模式，最基本的是基于8×8块的DCT顺序编码，将一帧图像分为8×8的块，然后按照从左至右、自上而下的顺序，对块进行DCT、量化和熵编码。

其编、解码框图如下：
基于DCT的编码器
图1 基于DCT的顺序编码框图
DCT解码器
图2 基于DCT的顺序解压缩框图
视频帧内压缩编码算法的主要步骤：
1)正向离散余弦变换(DCT)。

2)量化(quantization)。

3)Z字形扫描(zigzag scan)。

4)使用差分脉冲编码调制(differential pulse code modulation，
DPCM)对直流系数(DC)进行编码。

5)使用行程长度编码(run-length encoding，RLE)对交流系数(AC)
进行编码。

6)熵编码(entropy coding)。

三实验过程
实验利用MATLAB仿真软件来实现
程序：I=imread('D:\p_large_iUNl_627c0001a3192d12.bmp')
figure(1),imshow(I);
title('原图像')
I=rgb2gray(I); %将真彩色RGB图像转换成灰度图像
figure(11),imshow(I);
title('灰度图像')
I=im2double(I);% double(I)是将I变成double类型的。

im2double(I)是将图象变成double类型的再归一化，比如对于8比特图象，就是将原来像素值除以255。

fun_1=@dct2;
A_1=blkproc(I,[8 8],fun_1);
figure(2),imshow(A_1);
title('离散余弦变换后的图像')
T=[0.3536 0.3536 0.3536 0.3536 0.3536 0.3536 0.3536 0.3536
0.4904 0.4157 0.2778 0.0975 -0.0975 -0.2778 -0.4157 -0.4904
0.4619 0.1913 -0.1913 -0.4619 -0.4619 -0.1913 0.1913 0.4619
0.4157 -0.0975 -0.4904 -0.2778 0.2778 0.4904 0.0975 -0.4157
0.3536 -0.3536 -0.3536 0.3536 0.3536 -0.3536 -0.3536 0.3536
0.2778 -0.4904 0.0975 0.4157 -0.4157 -0.0975 0.4904 -0.2778
0.1913 -0.4619 0.4619 -0.1913 -0.1913 0.4619 -0.4619 0.1913
0.0975 -0.2778 0.4157 -0.4904 0.4904 -0.4157 0.2778 -0.0975]
A_2=blkproc(A_1,[8 8],'x./P1',T);
figure(3),imshow(A_2);
title('量化后的图像')
A_3=blkproc(A_2,[8 8],'x.*P1',T);
figure(4),imshow(A_3);
title('逆量化后的图像')
fun_2=@idct2;
I_2=blkproc(A_3,[8 8],fun_2);
figure(5),imshow(I_2);
title('对逆量化的进行逆离散余弦变换');
E=I-I_2;
figure(6),imshow(E),colormap(hot);
title('误差图像')
B=blkproc(I,[8,8],'P1*x*P2',T,T')
%计算二维DCT，矩阵T及其转置是DCT函数P1*X*P2的参数
mask=[1 1 1 1 0 0 0 0
1 1 1 0 0 0 0 0
1 1 0 0 0 0 0 0
1 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 ]
%二值掩模，用来压缩DCT系数，只留下DCT系数中左上角的10个B2=blkproc(B,[8 8],'P1.*x',mask) %只保留DCT变换的10个系数
I2=blkproc(B2,[8 8],'P1*x*P2',T',T) %重构图像
figure
imshow(I2);
title('压缩图像');
inf1=imfinfo('D:\untitled.bmp') %显示图像信息
inf=imfinfo('D:\p_large_iUNl_627c0001a3192d12.bmp') %显示图像信息面的高度
其仿真结果如下：
1.输入图像
2. DCT变换后的频域图像
3、8×8的DCT变换后图像
4.压缩后的图像
5、误差图像
四、实验小结
DCT 将原始图像信息块转换成代表不同频率分量的系数集，这有两个优点：其一，信号常将其能量的大部分集中于频率域的一个小范围内，这样一来，描述不重要的分量只需要很少的比特数；其二，频率域分解映射了人类视觉系统的处理过程，并允许
后继的量化过程满足其灵敏度的要求。