各种音视频编解码学习详解 h264

合集下载

H264编解码协议详解

H264编解码协议详解H.264编解码协议，也被称为AVC（Advanced Video Coding），是一种广泛应用于视频压缩的标准。

它是一种基于帧的压缩算法，可以将高质量的视频数据以较低的比特率传输和存储。

以下是H.264编解码协议的详细解释：1.压缩结构H.264使用了多种技术来实现高效率的视频压缩。

它使用了预测编码、变换编码和熵编码等多种技术。

预测编码通过利用帧间和帧内的冗余性，对视频进行空间和时间上的预测。

变换编码则通过对预测误差进行离散余弦变换（DCT），在频域上进行编码。

最后，熵编码使用了熵编码表将变换后的数据进行进一步的压缩。

2.帧结构H264将视频数据划分为一系列的帧，每个帧包含了许多宏块（macroblock）。

其中，关键帧（I帧）是完全独立的帧，它包含了视频的全局信息。

预测帧（P帧）和双向预测帧（B帧）则通过对前一帧和前后一帧进行预测来进行编码。

P帧只依赖前一帧，而B帧则依赖前后两帧。

这种结构可以进一步提高视频压缩的效率。

3.量化参数H.264使用量化参数对预测误差进行编码。

量化参数决定了每个预测误差值的精度，较大的量化参数会导致更高的压缩率，但也会导致较大的失真。

编码器和解码器可以通过动态调整量化参数来平衡压缩率和失真。

4.帧间预测帧间预测是H.264压缩的核心技术之一、它通过对前后帧的像素进行比较，预测当前帧的像素值。

如果在帧间没有大的运动，那么预测误差就会较小，从而达到更好的压缩效果。

帧间预测有多种模式，包括帧间直接模式（inter-direct mode）、帧间双向模式（inter-bidirect mode）和帧间skip模式（inter-skip mode）等。

5.熵编码H.264使用了基于上下文的自适应变长编码（CAVLC）和基于上下文的自适应二进制算术编码（CABAC）两种熵编码技术。

CAVLC主要用于编码量化系数和运动矢量等数据，而CABAC主要用于编码预测模式和其他语法元素。

H264编码原理详解

H264编码原理详解前言•在日常生活中我们知道，电脑中的视频文件先要通过视频采集设备对物体进行采集，然后通过编码核心部件得到mp4,rmvb等格式进行保存。

有没有可能不经过上述核心编码部件采集之后直接进行显示呢？答案是可以的。

那为什么还要进行编码呢？答案是原始采集到的视频数据为YUV格式，这种格式不经过处理的话特别大，对于网络传输和永久保存非常不利，为了解决这个问题，就需要对原原始的视频数据进行压缩处理。

而H264则是目前一种流传广泛，成熟的视频压缩算法。

•先来看一个例子在学习H.264编码之前，我们先了解一下在手机相机拍摄视频的过程，如果Camera采集的YUV图像不做任何处理进行传输，那么每秒钟需要传输的数据量是多少？Camera采集的YUV图像通常为YUV420，根据YUV420的采样结构，YUV图像中的一个像素中Y、U、V分量所占比例为1：1/4：1/4，而一个Y分量占1个字节，也就是说对于YUV图像，它的一个像素的大小为(1+1/4+1/4)Y=3/2个字节。

如果直播时的帧率设置为30fps，当分辨率为1280x720，那么每秒需要传输的数据量为1280720(像素)30(帧)3/2(字节)=39.5MB；当分辨率为1920x720，那么每秒需要传输的数据量接近60MB，这对于手机的存储空间有很大考验，因此，我们就必须在拍摄形成视频文件保存在本地之前对采集的视频数据进行压缩编码。

H26X简介H261•目前国际上制定视频编解码技术的组织有两个，一个是“国际电联（ITU-T）”，它制定的标准有H.261、H.263、H.263+等，另一个是“国际标准化组织（ISO）”它制定的标准有MPEG-1、MPEG-2、MPEG-4等。

•H.261是1990年ITU-T制定的一个视频编码标准，属于视频编解码器。

设计的目的是能够在带宽为64kbps的倍数的综合业务数字网(ISDN forIntegrated Services Digital Network)上质量可接受的视频信号。

H_264的视频编码技术解析

（四）去除方块效应滤波器为了降低由Ｈ．２６４高压缩比产生的明显的块失真效
应，Ｈ．２６４采用了去除方块效应滤波器，所有宏块均按扫描顺序进行有条件的滤波。根据宏块中每一个块的位置和量化参数的不同，对每一条块边界设置不同的滤波强度，自适应的调整滤波效果。在宏块中按下面的顺序对４×４块的水平和竖直边界滤波。首先对亮度分量的４个垂直边界滤波，其次对亮度分量的４个水平边界滤波，再次对色度分量的２个垂直边界滤波，最后对色度分量的２个水平边界滤波。去除方块效应滤波器的滤波将影响临近块边界的至多３个像素。通过这种自适应调整强度的解块滤波，有效地改善解码图像的主观视觉质量。并且在编码器中用滤波的宏块做运动补偿时，可以减小预测残差，提高压缩效率。
工程与技术
ＥｎｇｉｎｅｅｒｉｎｇａｎｄＴｅｃｈｎｏｌｏｇｙ
ＶＣＬ中，运动补偿支持多种块的形状和尺寸，支持小数取样内插滤波，支持小至４×４的块尺寸和多参考帧图像。运动位移的精度通常为１／４，也支持１／８精度。它除了支持Ｉ帧、Ｂ帧和Ｐ帧外，还支持一种新的流间转换帧（Ｉｎｔｅｒ－ＳｔｒｅａｍＴｒａｎｓｉｔｉｏｎａｌＰｉｃｔｕｒｅｓ），称之为ＳＰ帧。在编码器预测环路采用了去方块效应滤波。
图２．Ｈ．２６４视频编码器结构框图（一）帧内预测
帧内预测是用邻近块的像素（当前块的左边和上边）做外推来实现对当前块的预测，预测块和实际块的残差被编码，以消除空间冗余。尤其是在变化平坦的区域，利用帧内预测可以大大提高编码效率。当块或宏块做帧内编码时，对于每个４×４的亮度块（除了边缘块特别处置以外），每个像素由它左上角的１７个最
（二）网络提取层（ＮＡＬ）网络提取层（ＮＡＬ）负责使用下层网络的分段格式来

H.264视频编码学习(精)

H.263
• H.263是ITU-T为低于64kb/s的窄带通信信道制定的视频编码标准。 • H.263与H.261的主要区别：（1）数据流层次结构的某些部分在H.263中是可选的，使得编解码可以配置成更低的数据率。（2）H.263的运动补偿使用半像素精度，而H.261则用全像素精度和环路滤波。（3）H.263采用无限制的运动向量以及基于语法的算术编码。（4）H.263除支持QCIF和CIF外，还支持SQCIF、4CIF和16CIF， SQCIF相当于QCIF一半的分辨率，而4CIF和16CIF分别为CIF的4倍和16倍。（5）采用事先预测和与MPEG中的P-B帧一样的帧预测方法。
对称编/解码和不对称编/解码 —对称：编码和解码占用相同的计算处理能力和时间，实时性好。 —不对称：与上相反，一般压缩慢，解压快。
第二章视频编码发展概况
ITU-T 与MPEG • ITU-T与ISO/IEC是制定视频编码标准的两大组织，ITU-T 的标准包括H.261、H.263、H.264，主要应用于实时视频通信领域，如会议电视；MPEG系列标准是由ISO/IEC制定的，主要应用于视频存储(DVD)、广播电视、因特网或无线网上的流媒体等。 • 值得注意的是两个组织也共同制定了一些标准，H.262标准等同于MPEG-2的视频编码标准，而最新的H.264标准则被纳入MPEG-4的第10部分。 • 注：本幻灯片以ITU-T视频编码标准概述发展过程。
H.264
• H.264是由ISO/IEC与ITU-T组成的联合视频组(JVT)制定的新一代视频压缩编码标准。 • H.264的特点：（1）在同等视觉条件下，压缩比更高。（2）对网络传输具有更好的支持功能，支持交互式应用所需的低延迟模式，支持随机帧索取，支持可变码率，支持多种分辨率。（3）对信道时延的适应性较强，既能用于低时延的实时业务（如会议电视），又可用于无时延限制的场合（如视频存储）。（4）具有较强的抗误码能力，可适应不同网络中的视频传输，网络亲和性好。（5）在编码器和解码器中的复杂度可分级设计，使图像质量和编码处理之间可分级，以适应不同复杂度的应用。

【知识点】H264,H265硬件编解码基础及码流分析

【知识点】H264,H265硬件编解码基础及码流分析前⾔⾳视频开发需要你懂得⾳视频中⼀些基本概念,针对编解码⽽⾔,我们必须提前懂得编解码器的⼀些特性,码流的结构,码流中⼀些重要信息如sps,pps,vps,start code以及基本的⼯作原理,⽽⼤多同学都只是⼀知半解,所以导致代码中的部分内容虽可以简单理解却不知其意,所以,在这⾥总结出了当前主流的H.264,H.265编码相关的原理,以供学习.1. 概览1.1. 为什么要编码众所周知,视频数据原始体积是巨⼤的,以720P 30fps的视频为例,⼀个像素⼤约3个字节,如下所得,每秒钟产⽣87MB,这样计算可得⼀分钟就将产⽣5.22GB。

数据量/每秒=1280*720*33*3/1024/1024=87MB因此,像这样体积重⼤的视频是⽆法在⽹络中直接传输的.⽽视频编码技术也就因运⽽⽣.关于视频编码原理的技术可以参考本⼈其他⽂章,这⾥不做过多描述.1.2. 编码技术经过很多年的开发迭代,已经有很多⼤⽜实现了视频编码技术,其中最主流的有H.264编码,以及新⼀代的H.265编码,⾕歌也开发了VP8,VP9编码技术.对移动端⽽⾔,苹果内部已经实现了如H.264,H.265编码,我们需要使⽤苹果提供的VideoToolbox框架来实现它.1.3. 编码分类软件编码(简称软编)：使⽤CPU进⾏编码。

硬件编码(简称硬编)：不使⽤CPU进⾏编码，使⽤显卡GPU,专⽤的DSP、FPGA、ASIC芯⽚等硬件进⾏编码。

优缺点软编：实现直接、简单，参数调整⽅便，升级易，但CPU负载重，性能较硬编码低，低码率下质量通常⽐硬编码要好⼀点。

硬编：性能⾼，低码率下通常质量低于硬编码器，但部分产品在GPU硬件平台移植了优秀的软编码算法（如X264）的，质量基本等同于软编码。

iOS系统中的硬编码苹果在iOS 8.0系统之前，没有开放系统的硬件编码解码功能，不过Mac OS系统⼀直有，被称为Video ToolBox的框架来处理硬件的编码和解码，终于在iOS 8.0后，苹果将该框架引⼊iOS系统。

视频编解码中的H

视频编解码中的H.264压缩技术视频编解码技术是修炼黑科技不可以绕过的坎，而H.264压缩技术则是其中最为重要的一环。

本文将从什么是H.264开始，逐步深入地介绍它的原理、优点、应用以及未来发展趋势。

一、H.264是什么H.264是一种视频编解码标准，也被称为AVC (Advanced Video Coding)。

由国际电信联盟-电信标准部门(ITUT)和国际标准组织(ISO)联合制定，被广泛应用于数字电视、蓝光光盘、网络视频传输以及移动设备等领域。

二、H.264的原理视频编解码器将原始视频数据编码成文件以便传输或存储，然后解码器将文件还原成原始视频数据。

H.264压缩技术的原理即是在传输或存储视频数据前通过对视频数据进行压缩，以减少传输或存储的带宽和容量，节省空间和成本。

H.264压缩技术的原理在于，利用该技术对视频数据进行逐帧压缩，减少冗余信息，把每一帧视频分割成一些较小的块，并逐个压缩这些块。

在编码时，H.264使用多种技术来减少数据的冗余，例如帧内预测、帧间预测、运动估计等方法。

还可以通过多帧平均来消除噪声，使画面更加清晰，同时保留细节。

三、H.264的优点1. 较高的压缩比例H.264压缩技术相对于先前的技术，具有更高的压缩比率，相同分辨率的视频可以在更小的带宽和存储空间下传输或存储，大大降低了传输和存储成本。

2. 更高的视频品质H.264压缩技术采用多种编码技巧来减少数据冗余，同时压缩视频时也能保证相对较高的视频品质。

经过H.264编码的视频，画面更加清晰，效果更加逼真。

3. 更多的应用场景由于H.264压缩技术具有较高的压缩比、优秀的视频品质以及可广泛适用于不同领域的特点，因此H.264在数字广播、数字视频录像机、视频会议、互联网视频等多个领域广泛应用。

四、H.264的应用1. 数字电视在数字电视领域，H.264已成为主流的视频编解码标准。

采用H.264压缩技术的数字电视信号，可以在有限的带宽下传输。

H.264讲解

帧内预测
图4
帧内预测 16×16亮度预测模式
– 宏块的全部16×16亮度成分可以整体预测，有4种预测模式，如表2和图5所示。
图5 16×16预测模式
帧内预测
表2 16×16预测模式
描模式
述
模式0（垂直）模式1（水平）模式2（DC）模式3（平面）
由上边像素推出相应像素值
由左边像素推出相应像素值
H.264/AVC编解码器 H.264解码器
– 由图 1 可知，由编码器的 NAL 输出一个压缩后的 H.264压缩比特流。由图2，经熵解码得到量化后的一组变换系数 X，再经反量化、反变换，得到残差 Dn’。利用从该比特流中解码出的头信息，解码器就产生一个预测块PRED，它和编码器中的原始PRED 是相同的。当该解码器产生的PRED与残差Dn’相加后，就产生 uFu’ ，再经滤波后，最后就得到滤波后的Fn’，这个Fn’就是最后的解码输出图像。
这样表示9中预测模式只需要8个值 (0 to 7)
帧内预测
帧间预测
树状结构运动补偿
– 每个宏块（16×16像素）可以4种方式分割：一个 16×16，两个16×8，两个8×16，四个8×8。其运动补偿也相应有四种。而8×8分割还可以有四种方式的分割：一个8×8，两个4×8或两个8×4及4个 4×4。这种分割下的运动补偿则称为树状结构运动补偿。
当A (或者 B）的预测模式不可用时，
prediction mode of A＝ 2.
例如 A 和 B块的预测模式分别为 3 和1
most probable mode for block C =1
帧内预测
编码器为每个4x4 块发送一个标记 flag,解码器按照如下方式解码 If flag==1, prediction mode=most_probable_mode If flag==0 If rem_intra4×4_pred_mode< most_probable_mode prediction mode=rem_intra4×4_pred_mode else prediction mode=rem_intra4×4_pred_mode+1

音视频编解码说明

1Base1.1 声音频率1.2 Frequency1.2.1人耳能听到的声音频率到底是多少振动的物体能使邻近的空气分子振动，这些分子又引起它们邻近的空气分子振动，从而产生声音(Sound)，声音以声波的形式传递，这种传递过程叫声辐射(Sound Radiation)。

由于分子振动产生的声波的方向与波传递的方向相同，所以是一种纵波(Iongitudinal wave)。

声波仅存在于声源周围的媒质中，没有空气的空间里不可能有声波。

声音不仅可在空气内传递，也可在水、土、金属等物体内传递。

声音在空气中的传播速度为340m/s(15℃时)。

声波在单位时间内的振动次数称为频率(frequency)，单位赫(Hz)。

人耳能够听到的声音的整个范围是20~20000Hz，一般把声音频率分为高频、中频和低频三个频带。

听觉好的成年人能听到的声音频率常在30~16000Hz之间，老年人则常在50~10000Hz之间。

声波在传播过程中，空气层的密部和疏部向前移动，如图1–1。

由于空气的固有弹性，上述那种疏密的压力变化将依次向四外传播，辐射出一系列有规则的波。

声波的波长(wave length)就是这一段路程的长，恰好排列波的一个密部和一个疏部。

波长与声源的振动频率和声音传播的速度有关。

知道了声波的传播速度和频率，就可以算出波长：C=l·f(式中，C为声波的传播速度m/s；l为声波的波长m；f为声波的频率Hz，)振动物体产生的声波，也就是空气里的压缩波，传到我们耳朵里就变成各种乐音、谐音或噪声。

在声音世界里除基音外，大量存在的是复合音，而频率与基音频率成整数倍的所有分音称为谐音(harmonic tone)，频率比基音高的所有分音统称泛音(over tone)，泛音的频率不必与基音成整数倍关系。

乐音内的各个音在频率上都有一定比例，例如，高8度的音的振动频率是基音的频率的2倍。

如果同时发出两个或两个以上的音，人耳可以听到悦耳的谐音(和声)，也可能听到刺耳的噪声。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

各种音视频编解码学习详解h264 ，mpeg4 ，aac 等所有音视频格式编解码学习笔记（一）：基本概念媒体业务是网络的主要业务之间。

尤其移动互联网业务的兴起，在运营商和应用开发商中，媒体业务份量极重，其中媒体的编解码服务涉及需求分析、应用开发、释放license收费等等。

最近因为项目的关系，需要理清媒体的codec，比较搞的是，在豆丁网上看运营商的规范标准，同一运营商同样的业务在不同文档中不同的要求，而且有些要求就我看来应当是历史的延续，也就是现在已经很少采用了。

所以豆丁上看不出所以然，从wiki上查。

中文的wiki信息量有限，很短，而wiki的英文内容内多，删减版也减肥得太过。

我在网上还看到一个山寨的中文wiki，长得很像，红色的，叫―天下维客‖。

wiki的中文还是很不错的，但是阅读后建议再阅读英文。

我对媒体codec做了一些整理和总结，资料来源于wiki，小部分来源于网络博客的收集。

网友资料我们将给出来源。

如果资料已经转手几趟就没办法，雁过留声，我们只能给出某个轨迹。

基本概念编解码编解码器（codec）指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。

这里指的变换既包括将信号或者数据流进行编码（通常是为了传输、存储或者加密）或者提取得到一个编码流的操作，也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。

编解码器经常用在视频会议和流媒体等应用中。

容器很多多媒体数据流需要同时包含音频数据和视频数据，这时通常会加入一些用于音频和视频数据同步的元数据，例如字幕。

这三种数据流可能会被不同的程序，进程或者硬件处理，但是当它们传输或者存储的时候，这三种数据通常是被封装在一起的。

通常这种封装是通过视频文件格式来实现的，例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式中有些只能使用某些编解码器，而更多可以以容器的方式使用各种编解码器。

FourCC全称Four-Character Codes，是由4个字符（4 bytes）组成，是一种独立标示视频数据流格式的四字节，在wav、a vi档案之中会有一段FourCC来描述这个AVI档案，是利用何种codec来编码的。

因此wav、avi大量存在等于―IDP3‖的FourCC。

视频是现在电脑中多媒体系统中的重要一环。

为了适应储存视频的需要，人们设定了不同的视频文件格式来把视频和音频放在一个文件中，以方便同时回放。

视频档实际上都是一个容器里面包裹着不同的轨道，使用的容器的格式关系到视频档的可扩展性。

参数介绍采样率采样率（也称为采样速度或者采样频率）定义了每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹（Hz）来表示。

采样频率的倒数叫作采样周期或采样时间，它是采样之间的时间间隔。

注意不要将采样率与比特率（bit rate，亦称―位速率‖）相混淆。

采样定理表明采样频率必须大于被采样信号带宽的两倍，另外一种等同的说法是奈奎斯特频率必须大于被采样信号的带宽。

如果信号的带宽是100Hz，那么为了避免混叠现象采样频率必须大于200Hz。

换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍，否则就不能从信号采样中恢复原始信号。

对于语音采样：∙8,000 Hz - 电话所用采样率, 对于人的说话已经足够∙11,025 Hz∙22,050 Hz - 无线电广播所用采样率∙32,000 Hz - miniDV 数码视频camcorder、DAT (LP mode)所用采样率∙44,100 Hz - 音频CD, 也常用于MPEG-1 音频（VCD, SVCD, MP3）所用采样率∙47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用PCM 录音机所用采样率∙48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率∙50,000 Hz - 二十世纪七十年代后期出现的3M 和Soundstream 开发的第一款商用数字录音机所用采样率∙50,400 Hz - 三菱X-80 数字录音机所用所用采样率∙96,000 或者192,000 Hz - DVD-Audio、一些LPCM DVD 音轨、Blu-ray Disc（蓝光盘）音轨、和HD-DVD （高清晰度DVD）音轨所用所用采样率∙ 2.8224 MHz - SACD、索尼和飞利浦联合开发的称为Direct Stream Digital 的1 位sigma-delta modulatio n 过程所用采样率。

在模拟视频中，采样率定义为帧频和场频，而不是概念上的像素时钟。

图像采样频率是传感器积分周期的循环速度。

由于积分周期远远小于重复所需时间，采样频率可能与采样时间的倒数不同。

∙50 Hz - PAL 视频∙60 / 1.001 Hz - NTSC 视频当模拟视频转换为数字视频的时候，出现另外一种不同的采样过程，这次是使用像素频率。

一些常见的像素采样率有：∙13.5 MHz - CCIR 601、D1 video分辨率分辨率，泛指量测或显示系统对细节的分辨能力。

此概念可以用时间、空间等领域的量测。

日常用语中之分辨率多用于图像的清晰度。

分辨率越高代表图像品质越好，越能表现出更多的细节。

但相对的，因为纪录的信息越多，文件也就会越大。

目前个人电脑里的图像，可以使用图像处理软件，调整图像的大小、编修照片等。

例如photoshop，或是photoimpact等软件。

图像分辨率：用以描述图像细节分辨能力，同样适用于数字图像、胶卷图像、及其他类型图像。

常用'线每毫米'、'线每英吋'等来衡量。

通常，―分辨率‖被表示成每一个方向上的像素数量，比如640x480等。

而在某些情况下，它也可以同时表示成―每英吋像素‖ （pixels per inch，ppi）以及图形的长度和宽度。

比如72ppi，和8x6英吋。

视频分辨率：各种电视规格分辨率比较视频的画面大小称为―分辨率‖。

数位视频以像素为度量单位，而类比视频以水平扫瞄线数量为度量单位。

标清电视频号分辨率为720/704/640x480i60（NTSC）或768/720x576i50（PAL/SECAM）。

新的高清电视（HDTV）分辨率可达1 920x1080p60，即每条水平扫瞄线有1920个像素，每个画面有1080条扫瞄线，以每秒钟60张画面的速度播放。

画面更新率fpsFrame rate中文常译为―画面更新率‖或―帧率‖，是指视频格式每秒钟播放的静态画面数量。

典型的画面更新率由早期的每秒6或8张（frame persecond，简称fps），至现今的每秒120张不等。

PAL (欧洲，亚洲，澳洲等地的电视广播格式) 与SECAM (法国，俄国，部分非洲等地的电视广播格式) 规定其更新率为25fps，而NTSC (美国，加拿大，日本等地的电视广播格式) 则规定其更新率为29.97 fps。

电影胶卷则是以稍慢的24fps在拍摄，这使得各国电视广播在播映电影时需要一些复杂的转换手续（参考Telecine转换）。

要达成最基本的视觉暂留效果大约需要10fps的速度。

压缩方法有损压缩和无损压缩在视频压缩中有损（Lossy ）和无损（Lossless）的概念与静态图像中基本类似。

无损压缩也即压缩前和解压缩后的数据完全一致。

多数的无损压缩都采用RLE行程编码算法。

有损压缩意味着解压缩后的数据与压缩前的数据不一致。

在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息，而且丢失的信息不可恢复。

几乎所有高压缩的算法都采用有损压缩，这样才能达到低数据率的目标。

丢失的数据率与压缩比有关，压缩比越小，丢失的数据越多，解压缩后的效果一般越差。

此外，某些有损压缩算法采用多次重复压缩的方式，这样还会引起额外的数据丢失。

∙无损格式，例如WAV，PCM，TTA，FLAC，AU，APE，TAK，WavPack(WV)∙有损格式，例如MP3，Windows Media Audio（WMA），Ogg Vorbis（OGG），AAC帧内压缩和帧间压缩帧内（Intraframe）压缩也称为空间压缩（Spatial compression）。

当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息，这实际上与静态图像压缩类似。

帧内一般采用有损压缩算法，由于帧内压缩时各个帧之间没有相互关系，所以压缩后的视频数据仍可以以帧为单位进行编辑。

帧内压缩一般达不到很高的压缩。

采用帧间（Interframe）压缩是基于许多视频或动画的连续前后两帧具有很大的相关性，或者说前后两帧信息变化很小的特点。

也即连续的视频其相邻帧之间具有冗余信息，根据这一特性，压缩相邻帧之间的冗余量就可以进一步提高压缩量，减小压缩比。

帧间压缩也称为时间压缩（Temporalcompression），它通过比较时间轴上不同帧之间的数据进行压缩。

帧间压缩一般是无损的。

帧差值（F rame differencing）算法是一种典型的时间压缩法，它通过比较本帧与相邻帧之间的差异，仅记录本帧与其相邻帧的差值，这样可以大大减少数据量。

对称编码和不对称编码对称性（symmetric）是压缩编码的一个关键特征。

对称意味着压缩和解压缩占用相同的计算处理能力和时间，对称算法适合于实时压缩和传送视频，如视频会议应用就以采用对称的压缩编码算法为好。

而在电子出版和其它多媒体应用中，一般是把视频预先压缩处理好，尔后再播放，因此可以采用不对称（asymmetric）编码。

不对称或非对称意味着压缩时需要花费大量的处理能力和时间，而解压缩时则能较好地实时回放，也即以不同的速度进行压缩和解压缩。

一般地说，压缩一段视频的时间比回放（解压缩）该视频的时间要多得多。

例如，压缩一段三分钟的视频片断可能需要10多分钟的时间，而该片断实时回放时间只有三分钟。

除wiki外的资料来源：/csyy/Using/200411/3142.html编解码学习笔记（二）：codec类型资料（港台将information翻译为资料）压缩是透过去除资料中的冗余资讯而达成。

就视讯资料而言，资料中的冗余资讯可以分成四类：时间上的冗余资讯（temporal redundancy）在视讯资料中，相邻的帧（frame）与帧之间通常有很强的关连性，这样的关连性即为时间上的冗余资讯。

这即是上一次学习中的帧间压缩。

空间上的冗余资讯（spatial redundancy）在同一张帧之中，相邻的像素之间通常有很强的关连性，这样的关连性即为空间上的冗余资讯。

这即是上一次学习中的帧内压缩。

统计上的冗余资讯（statistical redundancy）统计上的冗余资讯指的是欲编码的符号（symbol）的机率分布是不均匀（non-uniform）的。