音视频编码文档

合集下载

音视频编码格式汇总

一、音频编解码格式*MPEG Audio Layer 1/2*MPEG Audio Layer 3(MP3)*MPEG2 AAC*MPEG4 AAC*Windows Media audeo v1/v2/7/8/9*RealAudio cook/sipro(real media series)*RealAudio AAC/AACPlus(real media series)*QDesign Music 2(apple series)是QDesign 公司开发的用于高保真高压缩率的编码方式，类似于MP3，不过比MP3要先进。

支持流式播放.*Apple MPEG-4 AAC(apple series)*ogg(ogg vorbis音频)*AC3(DVD 专用音频编码)*DTS(DVD 专用音频编码)*APE(monkey’s 音频)*AU(sun 格式)*FLAC(fress lossless 音频)*M4A(mpeg-4音频)（苹果改用的名字，可以改成.mp4）*MP2(mpeg audio layer2音频)*WMA二、视频编解码格式*MPEG1(VCD)*MPEG2(DVD)*MPEG4(divx,xvid)*MPEG4 AVC/h.264*h.261*h.262*h.263*h.263+*h.263++*MPEG-4 v1/v2/v3(微软windows media系列)*Windows Media Video 7/8/9/10*Sorenson Video 3（用于QT5，成标准了）(apple series)*RealVideo G2(real media series)*RealVideo 8/9/10(real media series)*Apple MPEG-4(apple series)*Apple H.264(apple series)*flash video三、音视频文件格式首先要分清楚媒体文件和编码的区别：文件是既包括视频又包括音频、甚至还带有脚本的一个集合，也可以叫容器；文件当中的视频和音频的压缩算法才是具体的编码。

数字音视频编解码技术标准工作组文件

数字音视频编解码技术标准工作组文件©AVS N2265: 2016年03月19日来源:全体会议标题:AVS工作组第56次会议大会决议状态:全体大会确认目的：决议___________________________________________________ 1. 综合1.1 财务收支2015年度工作组财务收支情况：总收入.75元，总支出.23元，上年度余额242275.59元，2015年度余额212262.52元，累计经费结余454538.11元。

具体请见N2266。

1.2 2015年度“AVS产业技术创新奖”获得者2015年度A VS产业技术创新奖经专家评审委员会审查，评出1个个人奖，2个团队奖，2个单位奖。

个人奖获得者：董文辉。

团队奖获得者：A VS2-P2基准档次符合性测试团队、A VS2-HDR标准研究团队。

单位奖获得者：北京东华广信科技发展有限公司、四川九州电器股份有限公司。

1.3 组长任免音频组增加潘兴德为联合组长；音频组原联合组长王晓晨自然免职。

测试组增加潘兴德为联合组长；测试组原联合组长张涛自然免职。

2. 需求组本次会议纪要为N2267。

本次会议审议3份提案，采纳3份提案。

输出4份文档（N2267~N2270）。

与音频组、系统组讨论了虚拟现实音频编码的技术需求。

输出《A VS虚拟现实音频的技术需求V0.5》，第57次会议继续讨论完善。

征集虚拟现实音频的测试方案。

与视频组讨论了移动视频编码的技术需求。

输出《移动视频编码的技术需求（讨论稿）》，第57次会议继续讨论。

继续虚拟现实音频需求专题讨论组，召集人潘兴德、王晶。

©本文档和所包含技术信息的知识产权归提出者所有，仅供“数字音视频编解码技术标准工作组”工作范围内应用，并非公开发表，提出者保留申请专利或在公开出版物发表等相关权利。

对于侵犯上述权利的行为，文档提出者和“数字音视频编解码技术标准工作组”保留公开谴责或提出诉讼的权利。

数字音视频编解码技术标准工作组文件-AVS标准工作组

数字音视频编解码技术标准工作组文件©A VS N2067: 2014年06月14日来源: 全体会议标题: A VS工作组第49次会议大会决议状态: 全体大会确认目的：决议___________________________________________________1. 需求组本次会议纪要为N2068。

本次会议收到1份提案。

采纳1份提案。

输出2份文档（N2068、N2069）。

需求组与视频组讨论了A VS2三维视频编码、A VS2视频高动态范围和广色域编码的技术需求，以及A VS2的档次定义。

决定修订并输出《下一代A VS视频编码标准的技术需求V7.1》。

需求组与系统组、视频组讨论了A VS2监控视频随机访问的技术需求。

决定在A VS1系统层分别定义面向流式传输和监控视频文件的高效随机访问索引机制。

在2014年12月前完成相关技术工作。

需要对相关系统层标准报修订计划。

2. 系统组本次会议纪要为N2070。

本次会议收到2份提案。

采纳1份提案。

会议输出1份文档（N2070）。

讨论了AVS2监控档次压缩层、系统层以及文件格式。

在A VS1系统层分别定义面向流式传输和监控视频文件的高效随机访问索引机制。

2014年12月前完成相关技术工作。

需要对相关系统层标准报修订计划。

3. 视频组本次会议纪要为N2071。

本次会议审议60份提案。

采纳16份提案。

输出5份文档（N2071~N2075）。

本次会议形成A VS2-P2 CD2，面向广播电视（逐行、隔行）、监控、通信、图像编码等应用，包括基准和基准-10比特档次，编码效率进一步提高，估计增益为AI 0.3%，RA 3.5%，LD 5.0%。

视频组将于2014年7月21-31日在杭州召开A VS2-P2 CD2编辑会议，会议后输出N2073，交由工作组会员投票。

2014年8月中旬发布A VS2视频的性能测试数据。

形成A VS2-P2符合性测试WD0.2。

ffmpeg 编码格式

FFmpeg 是一个开源的跨平台音视频处理工具，可以用于录制、转换以及流式传输音视频。

FFmpeg支持多种编码格式，以下是一些常见的音视频编码格式：音频编码格式：1.AAC (Advanced Audio Coding):▪描述： AAC 是一种高级音频编码格式，广泛用于音频压缩。

▪FFmpeg 编码器：aac2.MP3 (MPEG Audio Layer III):▪描述： MP3 是一种常见的音频编码格式，用于有损音频压缩。

▪FFmpeg 编码器：libmp3lame3.Vorbis:▪描述： Vorbis 是一种开放、高质量的音频编码格式。

▪FFmpeg 编码器：libvorbis4.Opus:▪描述： Opus 是一种开放、高效的音频编码格式，支持低延迟的实时音频传输。

▪FFmpeg 编码器：libopus视频编码格式：1.H.264 (Advanced Video Coding):▪描述： H.264 是一种广泛使用的视频编码标准，提供高压缩比和良好的视频质量。

▪FFmpeg 编码器：libx2642.H.265 (High Efficiency Video Coding, HEVC):▪描述： H.265 是 H.264 的继任者，提供更高的压缩效率。

▪FFmpeg 编码器：libx2653.VP9:▪描述： VP9 是一种由 Google 开发的高效视频编码格式，广泛用于WebM 视频。

▪FFmpeg 编码器：libvpx-vp94.AV1:▪描述： AV1 是一种开放、免版税的视频编码格式，旨在提供比 VP9 更高的压缩效率。

▪FFmpeg 编码器：libaom-av1使用 FFmpeg 进行编码的基本示例：上述命令中的-c:v和-c:a选项分别指定了视频和音频的编码器。

你可以根据需要选择不同的编码器和参数。

请注意，具体的编码器支持取决于你所使用的 FFmpeg 版本和配置。

音视频流媒体常见视频文件的编码方式和封装格式介绍汇总

⾳视频流媒体常见视频⽂件的编码⽅式和封装格式介绍汇总常见的AVI、RMVB、MKV、ASF、WMV、MP4、3GP、FLV等⽂件其实只能算是⼀种封装标准。

⼀个完整的视频⽂件是由⾳频和视频2部分组成的。

H264、Xvid等就是视频编码格式，MP3、AAC等就是⾳频编码格式。

例如：将⼀个Xvid视频编码⽂件和⼀个MP3视频编码⽂件按AVI封装标准封装以后，就得到⼀个AVI后缀的视频⽂件，这个就是我们常见的AVI视频⽂件了。

由于很多种视频编码⽂件、⾳频编码⽂件都符合AVI封装要求，则意味着即使是AVI后缀，也可能⾥⾯的具体编码格式不同。

因此出现在⼀些设备上，同是AVI后缀⽂件，⼀些能正常播放，还有⼀些就⽆法播放。

同样的情况也存在于其他容器格式。

即使RMVB、WMV等也不例外。

部分技术先进的容器还可以同时封装多个视频、⾳频编码⽂件，甚⾄同时封装进字幕，如MKV封装格式。

MKV⽂件可以做到⼀个⽂件包括多语种发⾳、多语种字幕，适合不同⼈的需要。

例如：MKV⽂件只要制作的时候同时加⼊国语和粤语发⾳的⾳轨和对应的简体、繁体字幕，播放的时候，你可以独⽴选择国语或粤语发⾳，并根据⾃⼰需要选择简体或繁体字幕，也可以选择不显⽰字幕。

相当⽅便。

因此，视频转换需要设置的本质就是：A设置需要的视频编码、B设置需要的⾳频编码、C选择需要的容器封装。

⼀个完整的视频转换设置都⾄少包括了上⾯3个步骤。

常⽤的有Xvid，H264，MPEG1，MPEG2。

Xvid：与RMVB格式差不多的压缩率，通⽤性很强，特别是⽤于家⽤DVD和便携式MP4等设备。

H264：⾯前压缩率最⾼的视频压缩格式，与其他编码格式相⽐，同等画⾯质量，⽂件体积最⼩，远远超过RMVB编码格式，电脑都可以播放，部分便携式视频设备也⽀持，如苹果播放器。

PDA/PPC等设备也可以使⽤。

MPEG1：其实就是VCD编码格式。

MPEG2：DVD编码格式。

⽐MPEG1强，与MPEG1⼀样，已经落后的编码格式，压缩率都不⾼，编码后的⽂件体积⼤，多⽤于希望把⽹上下载的⽂件转换为VCD或DVD碟的时候。

avs2编码标准

avs2编码标准AVS2（Audio Video coding Standard 2），是中国自主研发的一种先进的音视频编码标准。

AVS2编码标准能够提供更高的压缩率和更好的视听品质，为音视频传输和存储领域的应用提供了更多可能性。

它是在AVS（Audio Video coding Standard）标准的基础上进行了改进和优化。

AVS2编码标准相比于AVS标准，在压缩率和性能方面有了显著的提升。

它采用了更严格的压缩算法和更先进的编码技术，能够在保证视听品质的同时，显著减少数据量。

这使得AVS2成为了处理高分辨率和高帧率视频的理想选择，为4K、8K甚至更高分辨率的视频提供了有力的支持。

AVS2编码标准的关键技术包括：1.预测技术：AVS2采用了更精确的运动估计和补偿技术，能够更好地捕捉视频中的运动信息。

通过对运动进行预测，可以减少视频数据中的冗余信息，进而提高压缩率。

2.变换和量化技术：AVS2采用了多种变换和量化方法，以更好地适应不同类型的视频内容。

通过将空域的视频信号转换为频域表示，可以进一步减少数据量。

同时，AVS2还引入了自适应量化技术，根据视频内容的特点动态调整量化参数，以提高编码效果。

3.熵编码技术：AVS2使用了一种高效的熵编码算法，能够将压缩后的视频数据进一步减少。

这种算法能够根据数据的统计特性，为不同的数据段分配不同长度的编码，以达到更好的压缩效果。

AVS2编码标准在实际应用中已经取得了广泛的成功。

它被应用于数字电视、视频监控、移动通信等领域，得到了业界的认可和推广。

AVS2编码标准还为中国在国际音视频编码领域的发展做出了重要贡献，提高了中国在标准化工作中的话语权和影响力。

另外，AVS2编码标准的开放性也为各类厂商和研究机构提供了良好的合作平台。

通过参与和贡献，各方可以共同推动AVS2标准的发展，并在实践中不断优化和改进。

这种开放的合作模式有助于加快技术创新和产业发展，为用户提供更高质量的音视频体验。

数字音视频编解码技术标准工作组文件-AVS标准工作组

数字音视频编解码技术标准工作组文件©A VS N2170: 2015年06月13日来源: 全体会议标题: A VS工作组第53次会议大会决议状态: 全体大会确认目的：决议___________________________________________________1. 需求组本次会议纪要为N2171。

本次会议审议11份提案，采纳5份提案。

输出6份文档（N2171~N2176）。

与视频组、测试组、产业联盟讨论了AVS2超高清视频的测试。

与系统组讨论了智能媒体传输的技术需求。

与视频组讨论了HDR视频编码、云图像编码、三维视频编码的技术需求以及视频编码的新技术。

与质量评价组讨论了视频监控图像质量评价的技术需求。

讨论了可穿戴多媒体数据标准。

继续HDR需求专题讨论组，召集人刘凌志。

继续云图像编码需求专题讨论组，召集人陈熙霖。

征集对《A VS云图像编码应用场景和标准化需求（讨论稿）》（N21xx）的意见。

设立A VS未来视频编码技术需求专题讨论组，召集人谷沉沉。

2. 系统组本次会议纪要为N2177。

本次会议审议2份提案。

输出4份文档（N2177~N2180）。

确定了AVS新的视频、音频基本流在传输流（17975.1）中的stream type标识。

2015年7月10日完成A VS2-P1 FCD，8月27日完成参考软件和验证系统。

3. 音频组本次会议纪要为N2181。

本次会议未收到提案。

输出1份文档（N2181）。

2015年7月3日提交更新后的A VS2-P3 FCD参考代码。

2015年7月10日完成专利分析报告更新。

2015年8月15日前征集用于符合性测试的A VS2-P3编解码器。

对于侵犯上述权利的行为，文档提出者和“数字音视频编解码技术标准工作组”保留公开谴责或提出诉讼的权利。

音视频编解码文件格式标准协议内容详解

音视频编解码: 文件格式与协议内容详解1. 引言音视频编解码是指将音频和视频信号进行压缩编码和解压缩解码的技术过程。

在现代多媒体应用中，音视频编解码技术被广泛应用于娱乐、通信、广告等领域。

而音视频的存储和传输则需要使用特定的文件格式和协议。

本文将详细介绍音视频编解码的文件格式与协议内容，讨论各种常见的音视频文件格式与协议，并对其进行一定的比较分析。

2. 音视频文件格式音视频文件格式定义了音视频数据在文件中的组织方式，包括文件头、音视频流的结构、元数据等信息的存储形式。

常见的音视频文件格式有几种：2.1 AVIAVI（Audio Video Interleave）是微软开发的音视频文件格式，使用了容器格式来封装音频和视频数据。

它可以支持多种编解码器，并且兼容性较好。

但是由于其较为简单的设计，不适合存储高质量的音视频数据。

MPEG（Moving Picture Experts Group）是一组制定音视频压缩标准的组织。

MPEG系列包括了多个不同的文件格式，如MPEG-1、MPEG-2、MPEG-4等。

其中，MPEG-2常用于DVD视频压缩，而MPEG-4则广泛应用于流媒体、网络传输等领域。

2.3 MP3MP3是一种常见的音频文件格式，作为一种有损压缩格式，它采用了MPEG-1 Audio Layer III音频编码。

MP3文件格式在音质和文件大小之间取得了很好的平衡，因此被广泛应用于音乐存储、传输等领域。

2.4 WAVWAV是一种无损音频文件格式，它采用了脉冲编码调制（PCM）来存储音频数据。

WAV文件格式广泛应用于音乐制作、音频处理等领域，因为它可以提供更高质量的音频数据。

3. 音视频协议音视频协议定义了音视频数据在网络传输过程中的规范和流程，以确保音视频数据能够正确地传输和播放。

常见的音视频协议有几种：RTP（Real-time Transport Protocol）是一种应用层协议，用于在IP网络输实时的音视频数据。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

音视频编码说明1音视频编码参数1.1音频编码参数音频编码格式采用AAC格式，其参数设置比较简单，主要设置参数如下：（1）音频样本格式的设置c->sample_fmt = AV_SAMPLE_FMT_S16;sample_fmt是一个enum类型，包含了多种样本格式，样本格式的设置应保持与Android应用层音频采样格式一致。

此处，我们设置为AV_SAMPLE_FMT_S16，Android应用层采样格式也是16位的ENCODING_PCM_16BIT格式。

（2）音频码率设置c->bit_rate = 64000;此参数为应用层提供参数接口，由应用层根据编码效果来设定。

此处参考值为64000。

（3）音频采样率设置c->sample_rate = 44100;此参数为应用层提供参数接口，由应用层获取实际机型可用的采样率来决定。

采样率越低，音频效果越差，反之，越好。

音频采样率一般有8000,44100, 47250, 48000, 47250,32000, 11025, 16000,22050等值，此处参考值为44100HZ，现在基本所有机器都支持44100采样，而且音频效果也很好。

（4）音频通道设置c->channels = 2;此参数为应用层提供参数接口，根据应用层需求来设置。

当设置1时为单声道模式，设置2时为立体声道模式。

此处参考值为2.1.2视频编码参数视频编码参数相对音频编码参数复杂，其中一些参数关系到视频编码的质量和编码速度，为此需要设置一套最优的参数以确保质量和速度达到一个平衡点。

（1）视频编码基本参数设置<1> DEC_ID_H264;视频编码格式采用H264格式。

<2> c->width = 480;c->height = 480;width和height两个参数为应用层提供参数接口，根据具体需求来设置编码后视频的大小，即最终视频的width和height。

应用层也可以考虑通过调节width和height的大小来改变视频编码的速度，例如480*320的大小比480*480的大小编码速度快很多。

此处默认是480*480大小。

<3> c->time_base.den = 15;c->time_base.num = 1;这两个参数决定视频播放帧率，即每秒播放多少帧的视频，time_base.num固定为1， time_base.den为应用层提供参数接口。

一般应用层录取视频帧率和播放视频帧率一致。

此参数的设置需要考虑到编码速度的问题，经过反复测试，15帧/s是一个比较合适的值。

<4> c->pix_fmt = AV_PIX_FMT_YUV420P;视频像素格式,采用AV_PIX_FMT_YUV420P格式。

(2)重要参数设置以上视频参数是必须设置的基本参数，以下介绍的参数将会直接影响到视频的质量和编码速度。

详细如下：<1> c->thread_count编码线程数，将帧分块，由不同的线程去完成。

此参数为应用层提供参数接口，大小需要根据设备CPU核心数来动态设定。

经过反复测试，此处大小设置为 thread_count=CPU核心数*1.5时编码速度达到比较好的水平。

<2> opt_set_funcs系列函数的利用opt_set_funcs系列函数有以下10个:int av_opt_set (void *obj, const char *name, const char *val, int search_flags);int av_opt_set_int(void *obj, const char *name, int64_t val, int search_flags);int av_opt_set_double(void *obj, const char *name,double val,int search_flags);int av_opt_set_q(void *obj, const char *name, AVRational val, int search_flags);int av_opt_set_bin (void *obj, const char *name, const uint8_t *val, int size, int search_flags);int av_opt_set_image_size(void*obj, const char*name, int w, int h, int search_flags); int av_opt_set_pixel_fmt (void *obj, const char *name, enum AVPixelFormat fmt, int search_flags);int av_opt_set_sample_fmt(void *obj, const char *name, enum AVSampleFormat fmt, intsearch_flags);int av_opt_set_video_rate(void *obj, const char *name, AVRational val, intsearch_flags);int av_opt_set_channel_layout(void *obj, const char *name, int64_t ch_layout, int search_flags);我们可以在ffmpeg源码库libavutil\opt.h查看函数的声明，目前只用到前两个av_opt_set、av_opt_set_int来设置x264里的一些编码参数。

av_opt_set(c->priv_data, "preset", "ultrafast", 0);通过preset参数可以设置编码速度的等级，preset的级别有ultrafast、superfast、veryfast、faster、fast、medium、slow、slower、veryslow、placebo，从快到慢。

其实，这里的每个参数都是由一组x264参数设置组合而成。

例如ultrafast参数是由以下参数设置组合的：- ultrafast:\n"" --no-8x8dct --aq-mode 0 --b-adapt 0\n"" --bframes 0 --no-cabac --no-deblock\n"" --no-mbtree --me dia --no-mixed-refs\n"" --partitions none --rc-lookahead 0 --ref 1\n"" --scenecut 0 --subme 0 --trellis 0\n""--no-weightb --weightp 0\n"这些参数可以在x264源码库里x264.c文件中查看到。

大部分参数的含义可以参看或者.preset参数为应用层也提供了参数接口，应用层根据编码速度和质量的进行选取合适的等级。

经过反复测试，设置为ultrafast这个值，再配合其他参数参考值能达到最优效果。

✧av_opt_set(c->priv_data, " x264opts", " force-cfr", 0);设置force_crf参数，此参数是设置tune参数zerolatency值中挖掘出来的。

Zerolatency参数也是由一组参数组合而成，能起到的作用是解决延迟问题，实现实时编码。

其组合参数如下： - zerolatency:\n"" --bframes 0 --force-cfr --no-mbtree\n"" --sync-lookahead 0 --sliced-threads\n"" --rc-lookahead 0\n"其中有的参数与ultrafast中的参数重复，经过反复测试，设置force_crf和设置tune值为zerolatency效果是一样的。

✧av_opt_set_int(c->priv_data, " qp", qpValue, 0);其中qpValue是一个int类型的值，qp表示固定量化因子，取值范围0到51。

经常取值在20-40之间，越小质量越好,要求的码率越高，0表示无损压缩。

此参数为应用层提供了参数接口，应用层根据视频质量和编码速度来选取合适的大小。

经过反复测试，取值25能达到质量和速度的平衡。

码率控制的方法有三种，出了qp控制方法外还有bitrate及crf 方法。

三种码率控制方法见下表1.表1.三种码率控制方法对比说明：起初使用的码率控制方法是bitrate固定码率的方法，其取值为W*h*15*2*0.07是参考doubango计算方法，其中w是视频图像的宽，h是视频图像的高，15是帧率，2是中等质量等级，0.07一个权重系数，经过反复测试取此值达到速度与质量平衡时的速度并不是非常满意，为了寻求更快的编码速度，测试了qp方法和crf方法。

测试crf方法采用默认值23时，速度比较慢，取值增大时质量也变得很差，因此没有找打一个好的平衡点，舍弃了此种方法。

最终选取了qp控制方法，当取值为25时，在1.2GHZ双核CPU测试手机（本文中提到的测试都是基于此设备的）上速度和质量达到预想效果,速度接近15帧/s。

在开发中，这三种码率控制的方法应该根据实际需求来选取。

1.3编码参数设置总结对于音频参数的设置比较简单，视频参数的设置比较难，主要是因为要考虑到视频编码速度的问题。

虽然之后的编码处理方面也会有些问题会影响编码速度，但是设置好了编码参数也就成功了一大半了。

这些参数的设置都要根据实际的需求来设置，在没有经验的情况下需要反复的测试，找到最合适的参数值。

2编码设置完编码参数和初始化其他工作后，就可以把采集的音视频数据进行编码了。

音频编码比较简单，在此不用介绍，下面主要介绍视频的编码工作。

2.1视频编码的需求视频编码的需求如下：a.将移动设备采集来的视频数据像素格式转变为AV_PIX_FMT_YUV420P类型的格式；b.对视频图像大小进行裁剪成目标图片大小；c.当设备由横屏变为竖屏录像时，需要对视频图像进行旋转操作；d.最后对处理好的视频数据进行真正的编码，并写入文件。

音视频编码文档

音视频编码格式汇总

数字音视频编解码技术标准工作组文件

数字音视频编解码技术标准工作组文件-AVS标准工作组

ffmpeg 编码格式

音视频流媒体常见视频文件的编码方式和封装格式介绍汇总

avs2编码标准

数字音视频编解码技术标准工作组文件-AVS标准工作组

音视频编解码 文件格式 标准协议内容详解

音视频编解码文件格式标准协议内容详解