语音频编码标准及发展趋势

语音频编码标准及发展趋势
语音频编码标准及发展趋势

语音频编码标准及发展趋势

黎家力

1 概述

本文首先介绍了语音编码和音频编码的基本概念及其之间的关系。然后详细介绍了当前国内外各标准化组织开展语音频编码标准研究的最新进展,其中重点分析了ITU-T和MPEG两个标准化组织在该领域的标准化情况。最后通过总结展望了语音频编码标准的发展趋势。

语音频编码标准是指对语音和音频信号进行信源压缩所采用的标准算法,压缩的目的是为了节省传输带宽或者存储空间。从信源的角度来分,分为语音和音频。通常将人耳可以听到的频率在20Hz到20kHz的声波称为音频信号。音频包括音乐、自然产生的声音(如风声、雨声、鸟叫声、机器声等)、彩铃声等。人的发音器官发出的声音频段在80Hz到3400Hz之间,人说话的信号频率在300Hz到3000Hz,人们通常将该频段的信号称为语音信号。语音编码标准只针对语音信号,目的在于用很高的压缩率来高效地处理语音信号;音频编码标准只针对音频信号,目的在于保持音频信号在一定的码率下尽量不失真。

语音和音频的编码标准有融合的趋势。最新的语音编码标准可以保持对语音的高效编码,同时采用带宽扩展的方法在高码率下可以接近音频的编码质量;最新的音频编码标准使用频带复制等技术,大大降低了压缩码率,使得中低码率下的编码效率接近传统的语音编码标准。

表1 数字音频等级

1

2 标准化组织

2.1 ITU-T

国际电信联盟(ITU)是世界各国政府的电信主管部门之间协调电信事务方面的一个国际组织,ITU-T是其属下的电信标准部门,负责通信相关标准的制定。

ITU-T已经标准化的语音频标准有:G.711、G.722、G.728、G.726、G.723.1、G.729、G.722.1、G.729.1等。目前ITU-T的第16研究组(SG16)负责语音频编码相关标准的制定,其中与语音频编码相关的有Q9、Q10两个研究课题。下面分别详细介绍:

2.1.1 Q9课题组

Q9课题主要讨论G.VBR的标准化。G.VBR标准的开发分为两个部分,一个针对窄带、宽带部分的开发,另一个是针对超宽带部分的开发。前者已经完成基线版本(Baseline codec)的选择阶段,Nokia和Voiceage公司联合提交的候选代码在4个候选编码器中成为优胜版本,其它各家基于该版本在其基础上进行优化,因此,该项目进入到融合阶段。而对于超宽带部分,还处于ToR指标讨论阶段。

G.VBR窄带、宽带部分的标准描述了一个8kbit/s-32kbit/s可伸缩的宽带(50Hz-7000Hz)音频/语音编码算法。它的码率总共分为5层。第一层为核心层,主要基于ACELP模型的编码技术,该层的速率为8kbit/s,第二层为ACELP 模型的增强层,速率为12kbit/s。前两层支持窄带和宽带信号的输入和输出。后面三层为基于MDCT技术的增强层,仅支持宽带信号的输入和输出。

由于该编码器的核采用的是ACELP模型,因此该标准和目前的3GPP标准中的AMR-WB 12.65kbps模式兼容。同时该标准还具备VAD/DTX技术。G.VBR的baseline codec帧长度是20ms、延时是54.75ms、运算复杂度还在优化中。默认情况下,编码器和解码器的采样率为16kHz。

2.1.2 Q10课题组

Q10课题的目标是维护和扩展现有的语音编码标准:

?维护:搜集语音编码标准的缺陷报告,评价它们的优点,制定操作者2

指导手册和改进现有标准;

?在异构网络(heterogeneous networks)的各种不同应用中,可能要考虑不同的附加特征,如丢包掩藏、语音激活检测VAD、非连续传输

DTX、舒适噪声生成CNG、同步、降低运算复杂度、比特率扩展、带宽

扩展等。

Q10课题在近年完成了较多的标准化项目,主要的标准化项目如表2所示。

表2 Q10近年完成的主要标准化项目列表

标准编号 描述 完成时间 G.722.1 Annex C G.722.1音频编解码器超宽带扩展 2005年4月 G.729 Appendix II G.729 Annex B在V oIP应用中的增强可选方案12005年7月 G.729 Appendix

III

G.729 Annex B在V oIP应用中的增强可选方案22005年7月 G.729.1 8-32kbit/s分层宽带语音音频编码器,基本层为G.7292006年4月 G.729.1 Annex A G.729.1在H.245中的使用2006年11月G.729.1 Annex B G.729.1编解码器的浮点版本参考软件2006年11月G.722 Appendix III G.722丢包补偿可选方案1 2006年11月G.722 Appendix IV G.722丢包补偿可选方案2 2006年11月

G.729.1 low delay G.729.1低时延模式,是对标准正文的补充,因此不是

Annex或Appendix

2007年7月

G.729.1是该课题组做的一个重要的语音频编码标准。它是由ETRI、FT、Siemens、Matsushita、Mindspeed和Voiceage共同完成的一个标准化项目。

G.729.1是在G.729上的宽带扩展,可以和G.729进行互操作。它提供了码率的高度可伸缩性,能够适应各种不同业务和不同网络的要求。嵌入式码流可根据需要截断,得到所需的码率,不需要带外信令。

G.729.1标准描述了一个8-32kbit/s可伸缩的宽带(50-7000Hz)音频/语音编码算法。它的码率总共分为12层。它能够在14-32kbit/s码率下对宽带信号进行编码。生成的嵌入式码流的码率伸缩步长为2kbit/s。在8kbit/s和12kbit/s码率下,G.729.1是一个窄带语音编解码器。在8kbit/s码率下,G.729.1码流能和G.729、G.729A、G.729B兼容。G.729A是G.729编码器的简化版本,G.729B是带VAD(活动话音检测)的静音压缩算法.两者结合可以有效地降低码率,同时保持很好的合成语音质量。

G.729.1的帧长度是20ms、延时是48.9375ms、运算复杂度为35.8 WMOPS。

3

默认情况下,编码器和解码器的采样率为16kHz。

G.729.1总体的编码算法是三级结构:在窄带(50-4000Hz)使用嵌入式CELP 编码(embedded Code-Excited Linear Predicive coding),在宽带(4000-7000 Hz)使用TD-BWE(Time-Domain Bandwidth Extension),在全带(50-7000 Hz)的增强是使用TDAC(Time-Domain Aliasing Cancellation)。

2007年7月,ITU-T有关会议讨论了G.729.1超宽带及立体声扩展的ToR,并且与Q9进行了联合会议。会议结论是Q9和Q10分别进行超宽带ToR讨论,然后考虑把两个ToR进行融合。

G.722.1是Q10课题组做的另外一个成功的语音频编码标准,其超宽带的标准G.722.1 Annex C已经完成标准化,目前正在进行G.722.1的全带扩展。参与的Polycom和爱立信都在资格阶段的主观测试中通过了所有基本性能指标,同时进入下一阶段。下一阶段是竞争阶段还是融合阶段还需要双方协商。

在Q10中新成立的项目还有G.711的宽带扩展项目,就是在兼容传统的G.711窄带标准的基础之上把频带扩展到宽带,该项目由NTT在2007年1月报告人会议上提出,目前资格阶段已经结束,所有候选方案都进入了下一阶段。

在2007年7月会议上,FT提出对G.722进行超宽带扩展的标准化。会议上讨论了ToR,并且决定在接下来的两次报告人会议上继续讨论。

2.2 MPEG

MPEG(Moving Picture Expert Group)由ISO(International Standard Organization)与IEC(International Electronic Committee)于1988年联合成立,致力于运动图像和伴音编码的标准化工作。目前已经推出MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21、MPEG-A、MPEG-B、MPEG-C、MPEG-D、MPEG-E 标准。其中MPEG-1、MPEG-2、MPEG-4均定义了相应的音视频编码标准,下面详细介绍。

2.2.1 MPEG-1 Audio(ISO-11172-3)

(1)编码器输入:采样率为32kHz、44.1kHz或48kHz,量化精度为16位的PCM编码的20-20kHz数字音频信号。

编码器输出:32-192 kbps单声道,64-384kbps双声道的MPEG-1格式的比特流。

4

5

(2)支持4种不同模式:

? 单通道;

? 双通道(二个独立的声音信号编码在一个比特流中);

? 立体声(左、右声道的信号编码在一个比特流中);

? 联合立体声(利用左、右声道信号的相关性,降低输出比特流的码率)。

(3)提供三个独立的压缩层次,见表3。 表3

分层

延迟时间(ms) 压缩方法 应用

Layer 1

19-50

MUSICAM 简化版本小型数字合式磁带 Layer 2

35-100 MUSICAM 数字音频广播,VCD 等 Layer 359-150 MUSICAM

与ASPEC 结合 ISDN 上的声音传输

(4)编码后的数据流支持循环冗余校验CRC(cyclic redundancy check)。

(5)支持在数据流中添加附加信息。

其中:

? MUSICAM(Masking pattern adapted Universal Subband Integrated

Coding And Multiplexing)掩蔽型自适应子带编码和复用技术是较为典型的基于心理声学模型的编码技术,如图1所示,它首先将输入数据通过时频变换转换到频域并划分为若干子带,通过心理声学模型计算每个子带上的掩蔽门限,接着根据量化误差小于掩蔽门限的准则确定比特分配方法,最后形成码流输出。

图1 MUSICAM 编码框图 图2 ASPEC 编码框图 ? ASPEC(Adaptive Spectral Perceptual Entropy Coding)

自适应谱感知熵编码技术也是一种基于心理声学模型的编码技术,如图2

所示,它首先将输入数据通过MDCT变换转换到频域。为消除变换过程中所产生的混叠噪声,还要对数字音频信号进行时域抗混叠处理。然后用掩蔽门限值去控制各频段的量化特性和编码位数,再进行霍夫曼编码输出。

2.2.2 MPEG-2 Audio(ISO-13818-3/ISO-13818-3)

ISO-13818-3在与MPEG-1 Audio兼容的基础上实现低码率和多声道扩展。它在包含5个全带宽声道和一个低频带扩展层(LFE)后其比特率可以达到1Mbit/s,其在低取样率16kHz、22.05kHz和24kHz的比特率可达到32~256kbps(第一层)和8~160kbps(第二层)。MPEG-2 Audio对MPEG-1 Audio的扩充包括:

?增加了16kHz、22.05kHz和24kHz采样频率;

?扩展了编码器的输出速率范围,由32-384 kbps扩展到8-640kbps;

?增加了声道数,支持5.1声道和7.1声道的环绕立体声声;

?MPEG-2还支持Dolby AC-3(Audio Code Number 3)编码。

ISO-13818-7是一个不考虑与MPEG-1 Audio兼容的高质量音频编码标准,它致力于定义一个可以获得更高质量的多声道音频标准,不考虑兼容性。定名为MEPG-2先进编码标准(MPEG-2 Advanced Audio Coding),简称MPEG-2 AAC。

MPEG-2 AAC与MPEG-1 audio采取了不同的标准化的方式,它将系统分解成一系列必须和可选的模块(工具),对模块进行定义。

(1)MPEG-2 AAC的性能

?采样频率:从8kHz到96kHz。

?编码器输入:单声道、立体声和多声道的声音。

?最多可支持:48个主声道、16个低频音效通道LFE(low frequency effects)、16个配音声道(也称为多语言声道)和16个数据流。

?在压缩比为11:1(即每个声道数据率为44.1×16/11= 64kbps),5声道的总码率为320。

?kbps的情况下,重建声音与原始声音之间几乎无区别。

?与MPEG-1 layerII相比,MPEG-2 AAC压缩率可提高1倍,且质量更好,与MPEG-1 layer III相比,在音质相同的条件下码率仅为原mp3码率

的70%。

(2)MPEG-2 AAC编码器的框架(Profiles)

6

7

图3给出了MPEG-2 AAC 编码器框图,根据使用算法模块(工具)的不同,MPEG2-AAC

编码器分为三个框架:

图3 MPEG-2 AAC 编码器框架

? Main Profile,除了增益控制工具之外,还使用了其它所有模块,能

提供最好的声音质量,但对存储容量和处理能力方面的要求比较高。 ? LC Profile(Low Complexity Profile),不使用预测模块,瞬时噪声

整形(TNS)滤波器的级数也有限,声音质量比Main Profile 质量低,但对存储容量和处理能力的要求明显降低。

? SSR Profile(Scalable Sampling Rate Profile),使用增益控制工

具,不使用预测模块,不使用声道耦合工具,TNS 滤波器的级数和带宽也都有限制。因此它比基本配置和低复杂性配置更简单,能用来支持

可调整的取样频率。

2.2.3 MPEG-4 Audio

MPEG-4 Audio不是一个或一小组编码方案,而是提供了大量的音频对象的编码工具,用来满足各种各样的应用需要。对于某一特定的应用,只有一部分音频的编码工具被采用。框架(Profiles)就是MPEG-4 Audio提供的工具集的一个子集,它针对特定的应用而确定要采用的编码工具。完整的工具集,包括从低码率语音编码到高质量声音编码或音乐合成。工具集中的工具可以组合成各种声音编码算法。

表4 MPEG Audio 11种框架关系

MPEG-4采用了对象的概念。不同的数据源被视作不同的对象,不同的对象

8

用不同的工具集进行处理。而数据的接收者不再是被动的,他可以对不同的对象进行自己的操作:删除、添加、移动等等。这种基于对象的操作方法是MPEG-4和MPEG-1、MPEG-2在本质上的不同。

相应地,MPEG-4音频对象可以分为两类:自然音频对象和合成音频对象。MPEG-4自然音频对象涵括了从2kbps到超过64kbps的各种传输质量的编码。MPEG-4定义了3种编码器:参数编码、CELP编码和时频编码来协调工作以在整个码率范围内都得到高质量的音频。自然音频对象的编码支持各种分级编码功能和错误恢复功能。合成音频对象包括结构音频(Structured Audio∶SA)和文语转换(Text To Speech∶TTS),与编解码关系不大,后面详细介绍自然音频对象。MPEG Audio中定义的音频对象(每个对象通过一组工具来实现)和11种框架(Profiles)之间的关系见表4。

其中MPEG-4 main audio profile兼容MPEG-2 AAC定义的三种类型。尤其值得一提的是AAC、SBR、参数立体声编解码(PS)构成的High Efficiency AAC V2 profile被3GPP选定为移动音频标准之一,称为Enhanced aacPlus。下面重点介绍MPEG-4中与语音频编码相关的对象。

2.2.

3.1 参数编码

参数编码包括两个对象:

?参数语音编码:谐波矢量激励编码(Harmonic vector excitation coding),简称HVXC。谐波矢量激励编码HVXC是一种极低码率的参数

语音信号编码器,它允许对语音信号以8khz采样,实现2~4kbit/s

的编码,它也可以采用可变比特技术使码率控制在1.2~1.7kbit/s。

它对于浊音和清音信号分别采用不同的激励信号进行编码。对于清音

信号片段来说,激励信号与在CELP时相似,通过一个码本索引和通过

幅度信息描述。相反,在浊音信号片段应用了谐波综合,它是将基音

和谐音的正弦振荡按照传输的基频进行综合。

?参数音频编码:谐波和特征线加噪声(Harmonic and Individual Lines plus Noise),简称HILN。谐波和特征线加噪声HILN编码工具允许对

音乐等非语音信号以8kHz或16kHz采样,实现码率4~16kbit/s的编

码。它的基本原理是对输入信号分析,依次提取3类参数:谐波线(用

该谐波成分的基频以及它的谐波部分的包络来描述),特征线(每个特

9

征线的频率和幅值),噪声(描述噪声谱的包络来描述)。最后量化后

传输。HILN也可以实现码率的可分级性,它采用扩展的码流传输附加

的正弦音成分,以改善信号的解码质量。

2.2.

3.2 线性码激励(CELP)编码

MPEG-4的CELP是一种自然语音编码工具,支持8kHz和16kHz采样。8kHz 时采样带宽为100~3800Hz,16kKz时采样带宽为50~7000Hz。包括语音端点检测(VAD)、不连续传输(DTX)单元和舒适噪音产生(CNG)模块。

CELP支持多码率编码,在8kHz采样时支持码率从 3.85kbit/s到12.2kbit/s变化,在16kHz采样时支持码率从10.9kbit/s到23.8kbit/s变化,最小的变化步长可以达到0.2kbit/s。

MPEG-4 CELP支持数据率可分级性,也称之为“嵌人编码”,它是通过把增强码流加入到核心码流来实现的。此时编码器产生一个所谓的基本比特流(“基本层”)和一个或多个扩展比特流(“增强层”)。根据可提供的传输容量,除了基本数据流外,解码器也可以对一个或多个扩展比特流进行解码。由于这些增强码流包括输入信号的细节特点或更高频带的成分,从而提高了解码信号的质量。

2.2.

3.3 MPEG-4 AAC

MPEG-4 AAC的三个对象:AAC Main、AAC LC、AAC SSR,分别向下兼容MPEG-2 AAC中的三个框架:Main Profile、LC Profile、SSR Profile。另外新增加以下对象或工具:

?AAC LTP(LongTerm Prediction);

?SBR(Spectral Band Replication);

?PS(Parametric Stereo);

?AAC Scalable;

?AAC-LD(Low Delay);

?ER(Error Resilience)。

2.2.

3.3.1 AAC LTP

AAC LTP对象是在MPEG-2 AAC的Main Profile或LC Profile中加入两个工具感性噪声置换(Perceptual Noise Substitution,PNS)和长期预测10

(LongTerm Prediction,LTP)组成。

?感性噪声置换(PNS),使在量化时完全放弃量化噪声类型的频率范围成为可能。在这个范围中,用在解码器中产生一个功率相同的噪声信

号代替。

?长期预测(LTP),用来替代MPEG-2 AAC中的相当复杂的带内预测。

2.2.

3.3.2 频带复制(SBR)

频带复制是有由Coding Technologies公司开发的新的语音编码增强工具,改善了在低码率下语音和音频编码器的表现,使得在压缩算法中高效地对音频中的高频部分编码成为可能。应用SBR技术,编码器只需要对低频部分进行处理,而其高频部分由SBR解码器来生成。与先前直接对高频编码不同的是,SBR 技术利用分析低频分量来重建高频分量。为了能够准确重建,一些引导信息以及低的码率被加载到编码后的码流中。这种高频分量的重建对于谐波和类噪声成分非常有效,并且他还允许进行时域和频域的修整。

2.2.

3.3.3 参数立体声(PS)

图4 参数立体声框架

参数立体声利用多声道间的主观听觉冗余来对立体声的数据进行压缩。如图4所示,左右声道的信号通过下混(DownMix)算法转变成下混单声道的信号进行AAC的编码。同时,参数立体声编码工具通过对左右声道的信号进行分析,得到若干描述声道间相关性的参数,并用很小的比特编码发送给解码器。解码

11

器通过这些参数来控制解码后的下混单声道信号,重构出立体声的信号。

2.2.

3.3.4 AAC的可分级编码(AAC Scalable)

AAC的可分级编码是建立在多级量化和编码的基础上,基本比特流的编码和解码与不分级的实际上没有发生变化。为了产生一个扩展的比特流,在编码器中精确计算基本解码器的量化误差信号,这种量化误差信号本身精细分级地量化和编码。提供给解码器的不仅有基本比特流,还有扩展的比特流。两种信号被解码并接着相加,以便得到一个输出信号。与基本解码器相比,呈现低的量化误差。具体的分级方式如下:

?比特率可分级:允许从一个码流中分解出另一个码率较低的码流,后者依然能代表原来信号的意思。分级过程既可以在传输期间进行也可

以在解码端进行。

?带宽可分级:这是码率可分级的特例,码流中的不同部分对应着信号频谱中的不同部分,因此在传输或解码期间可丢弃一部分频带(位流)。

?编码复杂度可分级:允许选择不同复杂度的编码器生成有效的有意义的位流。

?解码复杂度可分级:允许选择不同复杂度的解码器对给定的一个码流进行解码,声音质量与使用的编码器/解码器复杂度有关。

2.2.

3.3.5 低延时编码工具(AAC-LD)

语音会话和视频会话对分组延迟有较高的要求,一般至少要低于100ms,MPEG-AAC编码属于感知编码,感知编码的延时主要由帧长度延时、滤波器组延时、前向块切换延时和码流接收缓冲延时这四部分组成,并且这样的总体延时是和采样率成线形反比的。

对于一个48kHz采样64kbps码率的典型AAC编码:

帧延时:1024/48=21.33ms(1024个采样)

滤波器组延时:1024/48=21.33ms(1024个采样)

前向块切换延时:576/48=12ms(576个采样)

码流接收缓冲延时:74.7ms

总体延时:(1024+1024+576)/48ms+74.7ms=129.4ms

明显看出这时延时较大,为此MPEG推出了AAC-LD(low delay)以满足实12

13

时双工通信的需求。

AAC-LD 支持48kHz、44.1kHz、32kHz、24kHz、22.05kHz 采样。AAC-LD 的帧长度减小到AAC 的一半,为512或480个采样,同时其滤波器组的长度也减少到了512或480个采样;同时由于延时还取决于滤波器组的延时,所以AAC-LD 采用如图5所示的低交迭的Zero-Padded 窗函数来产生低交迭的子带滤波器组(图6)。图中LD:ZP win 是低延时零交迭窗,LD:Sin win 是低延时正弦窗,AAC:Sin long win 是AAC

中的长正弦窗。

5 零交迭窗

图6 滤波器组

AAC-LD 取消了在AAC 通用编码器中存在的前视、块切换和码流接收缓冲。这样一系列的改进使得AAC-LD 的延时能够控制在100ms 以下,其在64kbps 的典型延时低于60ms。表5为不同编码器在不同采样率,码率情况下的延时比较。

表5 编码器延时比较

编码器 码率(Kbps)采样率

(kHz) 延时(ms)

AAC-LD stereo 128 32 80

AAC-LD stereo 128 48 56

AAC-LD mono 64 32 74

AAC-LD mono 64 48 50

AAC stereo 128 48 172

Layer3 stereo128 48 326

Layer2 stereo128 24 398

G.7226416 2

2.2.

3.3.6 错误恢复工具(ER)

在MPEG-4音频标准中提出了差错保护模型,码流中的数据按照比特的差错灵敏度(ESC,error sensitivity categories)归类,对不同的级别采用不等错误保护(UEP,unequal error protection),然后对每个级别提供前向纠错编码(FEC,forward error correction codes)和循环冗余编码(CRC,cyclic redundancy codes)。上述码流经过交织后再使用一次前向纠错编码后输出。

MPEG-4还特别提供了针对AAC的差错恢复工具,以提高噪声信道下的净荷传输质量。AAC比特流的部分应用了改进的编码,分为:

?虚拟码本工具(VCB11,virtual codebooks tool),用来限制有差错的频谱成分的最大值。

?可逆变长编码工具(RVLC,Reversible Variable Length Coding tool),可用来取代AAC尺度因子的哈夫曼和DPCM编码,并使用对称码字对比

例因子进行前向和后向编码。

?霍夫曼码字重排工具 (HCR,Huffman codeword reordering),它设计一些位置固定的先验码字(PCW,priority codewords),可以独立于其

它非先验码字。其它非先验码字的位置由一套传播误差较小的算法确

定。

2.2.

3.3.7 MPEG-4 GA

在MPEG-4 AAC的基础之上加上变换域加权交织矢量编码TwinVQ(the transform-domain weighted interleaved vector quantization)和比特切片算术编码BSAC(bit-sliced arithmetic coding)两个工具,就构成了AAC的通用音频编码模型MPEG-4 GA(General Audio Coding),如图7。

14

图7 AAC通用语音编码流图

?TwinVQ的编码工具是用来提高音乐信号较低码率编码时的编码效率。

由于在16kb/s以下很低数据率时,AAC中的边信息对于传输的数据来说相对较大,这样会使编码效率降低。因此,TwinVQ的基本思想是在正常频谱中应用交错的矢量量化方法,该方法用来代替MPEG-4 AAC中使用的标量量化和霍夫曼编码的传统编码方法。MPEG-4标准化框架大

15

量的试听试验表明,MPEG-4 Twin VQ在每声道数据率低于16kb/s时,

可以提供高的编码效率,而对于高的数据率来说,可以使AAC的量化

和编码更有效。

?BSAC的编码工具用来实现码流的精细分级,它与AAC的区别是频谱数据和比例因子的无噪声编码(noiseless coding)模块(熵编码)。BSAC

的熵编码用算术编码算法实现,替代了AAC的Huffman编码算法。它

提供很好的颗粒伸缩性,提供每个声道1kbit/s,立体声2kbit/s的步

长。为了取得较好的伸缩性,它使用了一种比特切片的技术应用于频

谱数据。首先将量化后的频谱值按频带分类,每一类中的数据用二进

制来表示。对最高位首先处理,然后比特片采用算术编码方式得到最

小冗余度的熵编码。不同频率组的“比特切片”,以确定的方式被配置

为扩展比特流。由此可以确保随着用作提供给解码器的扩展比特流的

数量的增加,频谱分量的量化通过附加不太重要的比特而更精细,服

务质量会相应提高,随之解码信号的带宽也变宽。

2.3 3GPP

3GPP是积极倡导UMTS为主的第三代移动通信标准化组织,成立于1998年12月。它是一个合作伙伴组织,将许多电信标准实体(组织伙伴)连接到了一起。3GPP最初的工作范围是为第三代移动系统制定全球适用的技术规范和技术报告。目前欧洲ETSI、美国T1、日本TTC、ARIB和韩国TTA以及我国CCSA都作为组织伙伴(OP)积极参与了3GPP的各项活动。

3GPP已经标准化的语音频标准包括:GSM HR/FR/EFR、AMR-NB、AMR-WB、AMR-WB+、EAAC+等。主要应用于无线通讯和移动流媒体等。

2.4 3GPP2

3GPP2于1999年1月成立,由美国TIA、日本ARIB、TTC和韩国TTA四个标准化组织发起,中国通信标准化协会(CCSA)也是其组织伙伴。3GPP2是当前主要负责第三代移动通信cdma2000技术的标准组织。

3GPP2已经标准化的语音频标准包括:QCELP8k、QCELP16k、EVRC、4GV-NB、4GV-WB、VMR-WB、SMV等。主要应用于CDMA无线网络的通讯和移动流媒体等。

2.5 AVS

AVS是由中国科学院牵头,联合了国内多家著名高校和多媒体/通讯产业链16

的厂商组成的一个制定数字音视频编解码技术标准的国内标准工作组织。该组织当前已经和正在制定的音频标准有:

?AVS-P3:该标准的目标是为高分辨率高质量的数字音视频广播、数字存储媒体和面向互联网的流媒体等应用提供音频编解码标准。AVS-P3

的参考标准是MPEG-2 AAC,采用绕开AAC基本专利的技术路线。AVS-P3

完全拥有自主知识产权,可作为MPEG-2 AAC的替代标准使用。目前该

标准已经完成标准化,正在报批中。

?AVS-P10:该标准的目标是为迅速发展的移动音频应用提供音频编解码标准。AVS-P3的参考标准是AMR-WB+,采用绕开AMR-WB+的基本专利的

技术路线。2007年9月已完成AVS-P10的WD文档和参考代码。

?AVS-S:该标准的目标为市场前景广阔的安防监控产业,为其提供音频编解码标准。AVS-S的参考标准是AVS-P10,在此基础之上增加面向安

防监控的工具模块,如用于加密的数字水印算法;使得解码端可以根

据需要自由选择增强的面向对象的音频编码技术;对输入信号分类检

测和多模式编码,使得在给定码率前提下尽可能提高输出音频质量的

音频信号自适应编码技术。该标准目前正在制定中。

3 语音频编码的发展趋势

?应用各种带宽扩展技术,语音频编码标准发展的趋势是从窄带(8kHz 采样)到宽带(16kHz采样),再到超宽带(32kHz采样),最终发展到

全频带(48kHz采样),提高了编码的质量。从下面标准的发展过程我

们可以看出这个趋势:

G.729(窄带)-> G.729.1(宽带)-> G.729.1 SWB(超宽带)

AMR-NB(窄带)-> AMR-WB(宽带) -> AMR- WB +(超宽带)

G.722.1(宽带) -> G.722.1C(超宽带) -> G.722.1E(全频带)

?应用各种可分级语音编码技术,语音频编码标准发展从固定码率,到多速率,最终发展到更精细的可变比特率,更灵活地利用传输带宽。

下面标准的发展过程我们可以看出这个趋势:

G.711、G.729A(固定编码速率)->AMR-NB/WB、EVRC、G.722.1、AAC-LC

(多速率)->G.729.1、G.VBR、BSAC(可变比特率,最少步长到1kbit/s)?传统的音频编码标准通过各种降低延时和码率的技术,提高其对语音

17

18 的编码效率。AAC-LD 延时可以控制在60ms 以下,已经可以满足双向通话的需要;Enhanced aacPlus 在AAC 的框架上增加了频带复制(SBR)和参数立体声编码技术(Parametric Stereo),使得立体声的码率可以降到24kbit/s,可以满足无线的应用;正在进行中的AAC-ELD,为MPEG4-AAC 提供新类型,主要采用AAC-LD+SBR 技术,可以降低编码延时并且提高压缩效率。

? 最新的其他一些技术的发展如错误恢复、代数矢量量化、语音和音乐

检测、空间音频编码等技术从鲁棒性、编码效率、编码质量等各方面综合提高语音频编码标准的指标。

4 语音频编码的融合

上面提到的语音频编码的四个发展趋势导致了以下三大融合:

? 固网与无线的融合:语音频编码技术从固定码率和多速率向可变比特

率的演变,高码率的音频编码向低码率的演变,促进了固网(含IP)的语音频编码标准与无线网络的语音频编码标准的融合。

? 通讯与广播的融合:语音频编码技术从窄带和宽带向超宽带和全频带

扩展,高延时的音频编码向低延时的演变,促进了双向通讯与广播(含IPTV、移动流媒体、数字电视、手机电视)的语音频标准的融合。 ? 语音与音频的融合:随着语音编码的带宽扩展到超宽带甚至全频带;

音频编码把码率降到中低码率,延时的降低,语音和音乐检测算法的成熟,语音和音频编码标准的融合趋势越来越明显。

作者简介:

黎家力,1998年毕业于武汉大学,现就职于中兴通讯股份有限公司,

担任多媒体平台音频项目经理、主任工程师,中国通信标准化协会

(CCSA)信源编码工作组(WG3)副组长,主要从事音频算法的开发和

研究工作,先后为中兴通讯股份有限公司的多媒体终端产品、NGN 产品、GSM 产品、WCDMA 产品、CDMA 产品、手机产品和流媒体产品实现了多个语音/音频声码器和多种语音处理算法,具有丰富的产品研发经验。

7种常见的音频格式简析

7种常见的音频格式简析 (MP3,WMA,WAV,APE,FLAC,OGG,AAC) MP3全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer Ⅲ),是当今最为流行的一种数字音频编码和有损压缩格式,在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。它设计用来大幅度地降低音频数据量,而对于大多数用户来说重放的音质与最初的不压缩音频相比感觉不到很大的下降。 简单地说,MP3就是一种音频压缩技术,由于这种压缩方式的全称叫MPEG Audio Layer3,所以人们把它简称为MP3。MP3是利用MPEG Audio Layer 3 的技术,将音乐以1:10 甚至1:12 的压缩率,压缩成容量较小的文件。换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度,而且还可以较好的保持了原来的音质。另外,正是因为MP3体积小,音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小,这样每首歌的大小只有3-4兆字节。使用MP3播放器对MP3文件进行实时的解压缩(解码),这样,高品质的MP3音乐就播放出来了。 ● MP3格式特点 MP3是一个有损数据压缩格式,它丢弃掉脉冲编码调制(PCM)音频数据中对人类听觉不重要的数据(类似于JPEG是一个有损图像压缩),从而达到了小得多的文件大小(其在较大的压缩率以及基本保持低音频部分不失真的情况下,以牺牲声音文件中

12kHz到16kHz的高音频部分来实现小文件)。 MP3音频可以按照不同的位速进行压缩,提供了在数据大小和声音质量之间进行权衡的一个范围。另外,MP3格式使用了混合的转换机制将时域信号转换成频域信号。例如,我们平时在网上见到的一些低质的MP3有64kbps,但好的也有320kbps的,两者声音差距也相当明显。 WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质。一般使用Windows Media Audio编码格式的文件以WMA作为扩展名,一些使用Windows Media Audio 编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。 ● 优点 WMA 7之后的WMA支持证书加密,未经许可(即未获得许可证书),即使是非法拷贝到本地,也是无法收听的。同时,微软公司开始时宣称的:同文件比MP3体积小一倍而音质不变,也得到了兑现。事实上,这个说法,仅仅适用于低比特率的情况,另外,微软公司在WMA 9大幅改进了其引擎,实际上几乎可以在同文件同音质下比MP3体积少1/3左右,因此非常适合用于网络串流媒体及行

文件分类及编码规则

SMF-A001001-01 文件级别二级文件生效日期2013-08-15 审批及颁发: 部门签名日期起草质量保证部 质量保证部 主审 质量总监 会审生产管理负责人 批准质量管理负责人 颁发质量保证部 分发: Copy-1 Copy-2 Copy-3 Copy-4 Copy-5 质量保证部质量控制部设备部技术部销售部Copy-6 Copy-7 Copy-8 Copy-9 Copy-10 行政人事部财务部安全环保部企管部注册部Copy-11 Copy-12 Copy-13 Copy-14 Copy-15 科技项目部采购部仓储部生产部一车间Copy-16 Copy-17 Copy-18 Copy-19 Copy-20 二车间三车间六车间七车间八车间Copy-21 Copy-22 九车间十车间 文件再审记录: 第几次再审审核情况审核人/日期批准人/日期第次再审 第次再审 第次再审 一、目的

SMF-A001001-01 文件级别二级文件生效日期2013-08-15 依照GMP要求,确立文件分类与编码规则,便于文件管理和追溯。 二、范围 适用于文件分类与编码管理。 三、职责 1 质量保证部负责文件体系的分类及编码规则,对各文件进行赋码。 2 各部门负责按照原则对文件进行分类管理;各部门起草文件时必须严格遵循文件编码的规 定。 四、术语 无 五、内容 1 文件分类 1.1 一级文件:阐明公司内某一体系的方针,描述体系的文件。主要包括:质量方针、质量管理手册、质量责任制、质量目标。 1.2 二级文件:主要描述为实施体系要素所涉及到的各职能部门的活动,或为完成某项活动而规定的方法。包括: a)技术标准:包括工艺规程、质量标准、方案、报告等。 b)管理标准:包括计划、管理制度、清单、目录等,描述公司各主要过程的管理活动。 c)工作标准:包括部门职责、职务说明书。 d)工厂主文件。 1.3 三级文件:标准操作规程(SOP),描述各管理环节的操作要素和工作流程、具体的操作方法和步骤。 1.4 四级文件:记录、表格、合格证、图纸、标签、证书等。 2 文件编码 2.1 文件分类编码应遵循以下原则:

各种主流音频编码格式介绍

一、PCM编码 PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程,我们不需要关心PCM最终编码采用的是什么计算方式,我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 二、W A VE 这是一种古老的音频文件格式,由微软开发。W A V是一种文件格式,符合PIFF Resource Interchange File Format规范。所有的W A V都有一个文件头,这个文件头音频流的编码参数。WA V对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为W AV的音频流进行编码。很多朋友没有这个概念,我们拿A VI做个示范,因为A VI和WAV在文件结构上是非常相似的,不过A VI多了一个视频流而已。我们接触到的A VI 有很多种,因此我们经常需要安装一些Decode才能观看一些A VI,我们接触到比较多的DivX 就是一种视频编码,A VI可以采用DivX编码来压缩视频流,当然也可以使用其他的编码压缩。同样,W AV也可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的W A V,但这不表示W A V只能使用PCM编码,MP3编码同样也可以运用在W A V中,和A VI一样,只要安装好了相应的Decode,就可以欣赏这些W A V了。 在Windows平台下,基于PCM编码的W A V是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,W A V也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的W A V被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。 三、MP3编码 MP3作为目前最为普及的音频压缩格式,为大家所大量接受,各种与MP3相关的软件产品层出不穷,而且更多的硬件产品也开始支持MP3,我们能够买到的VCD/DVD播放机都很多都能够支持MP3,还有更多的便携的MP3播放器等等,虽然几大音乐商极其反感这种开放的格式,但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了,他是MPEG(MPEG:Moving Picture Experts Group)Audio Layer-3的简称,是MPEG1的衍生编码方案,1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质,在当年硬盘天价的日子里,MP3迅速被用户接受,随着网络的普及,MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的,由于缺乏对声音和人耳听觉的研究,早期的mp3编码器几乎全是以粗暴方式来编码,音质破坏严重。随着新技术的不断导入,mp3编码技术一次一次的被改良,其中有2次重大技术上的改进。 VBR:MP3格式的文件有一个有意思的特征,就是可以边读边放,这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放,读到哪里播放到哪

【编号规则】工程信息编码标准

QB ****公司企业标准 信息分类和编码 第3分册工程信息分类和编码 (初稿) 20XX-XX-XX 发布 20XX -XX -XX 发行 *****有限责任公司 发 布 ICS XXX 备案号XXX

目次 前言 (3) 引言 (4) 1范围 (5) 2规范性引用文件 (5) 3术语和定义 (5) 4分类原则和方法 (6) 4.1基本原则 (6) 4.2分类对象的层面划分 (6) 4.3工程信息分类 (7) 4.4工程信息整体框架 (8) 5编码方法 (9) 5.1基本原则 (9) 5.2码值 (9) 5.3代码组结构和层次 (10) 5.3.1交互定位码 (10) 5.3.2项目编码 (10) 5.3.3管理属性编码 (11) 5.3.4设计属性编码 (11) 5.3.5合同属性编码 (12) 5.3.6档案属性编码 (12) 5.3.7采购、财务、招标信息属性编码 (13) 5.3.8非项目信息编码 (13) 6分类与代码表 (14) 6.1非项目信息分类标识码(30301) (14) 6.2省电网公司及直属单位编码(30302) (14) 6.3工程项目建设管理单位代码(30303) (15) 6.4项目属性代码(30304) (18) 6.5综合指标(30305) (19) 6.6立项时间(30306) (20) 6.7批次项目标识码(30307) (21) 6.8信息属性码分类(30308) (21) 6.9项目阶段代码((30309) (22) 6.10工作分解代码(30310) (22) 6.11信息创建部门代码(30311) (23) 6.12设计资料分类代码(30314) (24) 6.13设计阶段代码(30315) (24) 6.14类目代码(30316) (25)

最新文件分类及编码规则汇编

审批及颁发: 部门签名日期起草质量保证部 主审 质量保证部 质量总监 会审生产管理负责人 批准质量管理负责人 颁发质量保证部 分发: Copy-1 Copy-2 Copy-3 Copy-4 Copy-5 质量保证部质量控制部设备部技术部销售部Copy-6 Copy-7 Copy-8 Copy-9 Copy-10 行政人事部财务部安全环保部企管部注册部Copy-11 Copy-12 Copy-13 Copy-14 Copy-15 科技项目部采购部仓储部生产部一车间Copy-16 Copy-17 Copy-18 Copy-19 Copy-20 二车间三车间六车间七车间八车间Copy-21 Copy-22 九车间十车间 文件再审记录: 第几次再审审核情况审核人/日期批准人/日期 第次再审 第次再审 第次再审 一、目的 依照GMP要求,确立文件分类与编码规则,便于文件管理和追溯。

二、范围 适用于文件分类与编码管理。 三、职责 1 质量保证部负责文件体系的分类及编码规则,对各文件进行赋码。 2 各部门负责按照原则对文件进行分类管理;各部门起草文件时必须严格遵循文件编码的规 定。 四、术语 无 五、内容 1 文件分类 1.1 一级文件:阐明公司内某一体系的方针,描述体系的文件。主要包括:质量方针、质量管理手册、质量责任制、质量目标。 1.2 二级文件:主要描述为实施体系要素所涉及到的各职能部门的活动,或为完成某项活动而规定的方法。包括: a)技术标准:包括工艺规程、质量标准、方案、报告等。 b)管理标准:包括计划、管理制度、清单、目录等,描述公司各主要过程的管理活动。 c)工作标准:包括部门职责、职务说明书。 d)工厂主文件。 1.3 三级文件:标准操作规程(SOP),描述各管理环节的操作要素和工作流程、具体的操作方法和步骤。 1.4 四级文件:记录、表格、合格证、图纸、标签、证书等。 2 文件编码 2.1 文件分类编码应遵循以下原则: 2.1.1 系统性:统一分类,统一编码。按照文件分类建立编码系统,由质量保证部建立公司管理文件的分类和编码系统。 2.1.2 准确性:文件与编码一一对应,做到一文一码,一旦某文件终止使用,则该文件编码随即作废,不得再次使用。

音频的编解码

音频编码解码基本概念介绍 对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。 语音编码技术又分为三类:波形编码、参数编码以及混合编码。 波形编码:波形编码是在时域上进行处理,力图使重建的语音波形保持原始语音信号的形状,它将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,缺点是压缩比偏低。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点,通过为小信号分配小的量化阶,为大信号分配大的量阶来减少总量化误差。我们最常用的G.711标准用的就是这个技术。自适应差分编码是利用过去的语音来预测当前的语音,只对它们的差进行编码,从而大大减少了编码数据的动态范围,节省了码率。自适应量化技术是根据量化数据的动态范围来动态调整量阶,使得量阶与量化数据相匹配。G.726标准中应用了这两项技术,G.722标准把语音分成高低两个子带,然后在每个子带中分别应用这两项技术。 参数编码:广泛应用于军事领域。利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号。它只能收敛到模型约束的最好质量上,力图使重建语音信号具有尽可能高的可懂性,而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。这种编码技术的优点是压缩比高,但重建音频信号的质量较差,自然度低,适用于窄带信道的语音通讯,如军事通讯、航空通讯等。美国的军方标准LPC-10,就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。MPEG-4标准中的HVXC声码器用的也是参数编码技术,当它在无声信号片段时,激励信号与在CELP时相似,都是通过一个码本索引和通过幅度信息描述;在发声信号片段时则应用了谐波综合,它是将基音和谐音的正弦振荡按照传输的基频进行综合。 混合编码:将上述两种编码方法结合起来,采用混合编码的方法,可以在较低的数码率上得到较高的音质。它的特点是它工作在非常低的比特率(4~16 kbps)。混合编码器采用合成分析技术。

信息分类与编码

上海亚东国际货运有限公司(企业标准) 信息分类与编码 (草案) 日期:2011年10月

目录 1、前言 2、范围 3、规范性应用文件 4、术语和定义 5、分类 6、编码 7、分类对象表示 8、分类编码表

1、前言 本标准由亚东总部办公会议提出,归口到亚东总部信息管理部。 标准起草部门:总经办、办公室、人力资源部、信息管理部。 标准起草人:劳渝声、张正良、孙海龙、沈锡鹤 2、范围 本标准规定了亚东物流信息的分类、编码及分类代码。 本标准适用于总部各级管理部门、分子公司以及相关单位对于物流信息的管理及应用。 3、规范性引用文件 下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的国标文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,亚东总部鼓励各部门及子分公司根据本标准使用这些国标文件的最新版本。凡是不注日期的引用国标文件,其最新版本适用于本标准。 GB/T 10113-2003 分类与编码通用术语 GB/T 23831-2009 物流信息分类与代码 4、术语和定义 下列术语和定义适用于本标准。 4.1 类 category 具有某种共同属性(或特征)的实物或概念的集合。 【引自GB/T 10113-2003,2.1.1】 4.2 分类 classification 按照选定的属性(或特征)区分分类对象(3.4),将具有某种共同属性(或特征)的分类对象(3.4)集合在一起的过程。 【引自GB/T 10113-2003,2.1.2】 4.3 信息分类 information classifying

把具有某种共同属性或特征的信息归并在一起,把具有不同属性或特征的信息区别开来的过程。 【引自GB/T 10113-2003,2.1.3】 4.4 分类对象 objects of classification 被分类(3.2)的事物或概念。 【引自GB/T 10113-2003,2.1.4】 4.5 线分类法 method of linear classification 将分类对象(3.4)按选定的若干属性(或特征),逐次地分为若干层级,每个层级又分为若干类目。同一分支的同层级类目之间构成并列关系,不同层级类目之间构成隶属关系。 【引自GB/T 10113-2003,2.1.5】 4.6 层次码 layer code 能反映编码对象为隶属关系的代码。 【引自GB/T 10113-2003,2.2.22】 5、分类 5.1 原则 本标准按物流信息的业务管理及应用所反映的属性分类,遵循以下原则:5.1.1科学性 选择物流信息最稳定本质属性或特征作为分类的基础和依据。 5.1.2系统性 将选定的物流信息的属性或特征按一定的排列顺序予以系统化,形成一个科学合理的分类体系。 5.1.3可扩延性 设置收容类目,并且在建立物流信息分类体系和代码编码中充分考虑今后的信息分类与代码的扩充、延拓和细化。 5.1.4兼容性 与相关标准的相关内容相兼容。

GMP文件分类与编码管理规程03

装订线 1.目的 建立文件分类与编码管理规程,便于文件的分类、查阅、存档和使用。 2.范围 适用于公司所有GMP文件。 3.责任 各部门GMP文件起草者、审核者、批准者对本规程的实施负责。 4.内容 4.1.编码原则 书面文件应统一采用以下格式(表格、记录、标签、账、卡除外)。 4.1.1.系统性:统一分类和编码,按照文件系统建立编码系统。 4.1.2.准确性:文件与编码一一对应,做到一文一码,一旦文件撤销,此文件编码也随之作废,不 得再次使用。 4.1.3.可追踪性:制订编码系统时,必须考虑到可随时查询文件的演变历史。 4.1.4.识别性:制订编码系统时,必须考虑到其编码能便于识别文件的文本和类别。 4.1. 5.相关一致性:文件一旦经过修订,必须给予新的版本号。 4.1.6.发展性:制订编码系统规定时,要考虑公司将来的发展及管理手段的改进。 4.2.文件系统的组成与分类 4.2.1.文件系统的组成。 GMP文件按其属性分为标准性文件和记录两大类。标准性文件可分为:管理规程 (SMP) 、技术标准(STP)和操作规程(SOP)。 4.2.1.1.管理规程(SMP):是指经批准用于行使生产、计划、指挥控制等管理职能而制订的书面要求, 为一般的管理制度、标准、程序等。 4.2.1.2.技术标准(STP):包括产品生产工艺,物料(原料、辅料、包装材料)与产品(中间产品、 成品)的质量标准。 4.2.1.3.操作规程(SOP):是指经批准用以指示操作的通用性文件或管理方法。如按工艺流程制订生 产操作的标准规程,主要设备、检验仪器、检验方法的标准操作规程等。 4.2.1.4.记录(SOR):括生产操作记录(批生产记录、批包装记录、生产操作记录)、质量管理记 录、物料管理记录、设备管理记录及各种台帐、凭证等。 4.2.2.文件系统的分类 按照《药品生产质量管理规范》(GMP)(2010年修订)的相关规定,将公司文件分为13大类,即:1.文件管理、2.机构与人员、3.厂房与设施、4.设备、5.物料与产品、6.卫生、7.确认与验证、8.生产管理、9.质量管理、10.投诉与不良反应、11.委托生产与检验、12.产品发运与召回、13.自检。 4.3.文件编码系统的组成 文件编码系统由前缀Q/HZYY(“海州药业”的管理文件);后面由四部分组成: 第一部分文件属性类别代码,由SMP、SOP、STP和SOR四部分组成(详见4.5)。 第二部分文件管理类别代码,含2位汉语拼音字母(详见4.6)。 第三部分文件编号,含4位阿拉伯数字(详见4.7)。 第四部分文件版本号,含2位阿拉伯数字(详见4.8)。

音视频编码技术

音视频编码技术报告 姓名: 学号: 学院(系):电子与信息工程学院 专业: 电子与通信工程 题目: 基于DCT变换的图像压缩技术的仿真

1.引言 在信息世界迅猛发展的今天, 人们对计算机实时处理图像信息的要求越来越高。如何在保证图像质量的前提下, 同时兼顾实时性和高效性成了一个值得关注的问题。于是, 对图像信息进行一定的压缩处理成为了一个不可或缺的环节。图像压缩是关于用最少的数据量来表示尽可能多的原图像的信息的一个过程。 本文主要研究基于DCT 变换的有损压缩编码技术。离散余弦变换, 简称DCT , 是一种实数域变换, 其变换核为余弦函数, 计算速度快。DCT 除了具有一般的正交变换性质外, 它的变换阵的基向量能很好地描述人类语音信号和图像 信号的相关特征。因此, 在对语音信号、图像信号的变换中,DCT 变换被认为是一种准最佳变换。近年颁布的一系列视频压缩编码的国际标准建议中, 都把DCT 作为其中的一个基本处理模块。而且对于具有一阶马尔柯夫过程的随机信 号,DCT 十分接近于Karhunen -Loeve 变换, 也就是说它是一种最佳近似变换。 2.图像压缩编码的简介 从信息论的角度看,图像是一个信源。描述信源的数据是信息量和信息量冗余之和。数据压缩实际上就是减少这些冗余量。图像编码压缩的方法目前有很多,其分类方法根据出发点不同而有差异。根据解压重建后的图像和原始图像之间是否具有误差(对原图像的保真程度),图像编码压缩分为无误差(亦称无失真、无损、信息保持)编码和有误差(有失真或有损)编码两大类。 无损压缩(冗余度压缩、可逆压缩):是一种在解码时可以精确地恢复原图像,没有任何损失的编码方法,但是压缩比不大,通常只能获得1~5倍的压缩比。用于要求重建后图像严格地和原始图像保持相同的场合,例如复制、保存十分珍贵的历史、文物图像等。 有损压缩(不可逆压缩):只能对原始图像进行近似的重建,而不能精确复原,适合大数工用于存储数字化了的模拟数据。压缩比大,但有信息损失,本文采用有损压缩。 DCT图像压缩编码可以概括成图2.1的框图。 图2.1 DCT压缩编码过程简化 3.DCT变换 最小均方误差下得到的最佳正交变化是K-L变换,而离散余弦变换(DCT)是仅次于K-L变换的次最佳变换,目前已获得广泛应用。离散预先变换DCT用于图像压缩操作中的基本思路是,将图像分为8×8的子块或16×16的子块,并对每一个子块进行单独的DCT变换,然后对变换结果进行量化、编码。

多媒体技术 音频编码基础和标准

2.3 音频编码基础和标准 2.3.1 音频编码基础 2.3.2 音频编码标准

2.3.1 音频编码基础 一、压缩编码的必要性 二、音频编码基础 三、音频编码的分类

多媒体音频数据的存储和传输中,必须 压缩数据。利用音频编码压缩数据。 高质量音频采样数据率(每秒比特数): 信号类型频率范围 (H Z ) 采样率(KH Z )量化精度(位)数据率(位/秒)电话话音 200~34008864k 高质量音频 20~20K 44.116705.6k 压缩编码数据率: 信号类型数据率 (位/秒) 压缩编码标准数据率(位/秒)数据率(字节/分钟)IP 电话话音 64k G.723 5.3k 40K 705.6k 44.1128k 960k

数据压缩造成音频质量的下降、计算量的增加。人们在实施数据压缩时,要在音频质量、数据量、计算复杂度三方面进行综合考虑。 各领域的专家致力于算法的研究,众多的企业致力于芯片和产品的研制,国际标准化组织也先后推出一系列建议。 高质量高效率的音频压缩技术广泛地用于多媒体应用、音像制品、数字广播、数字电视等领域。

音频编码基础 从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析结果,语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。另外由于语音主要是给人听的,所以考虑了人的听觉机理,也能对语音信号实行压缩。 1、时域信息的冗余度 2、频域信息的冗余度 3、人的听觉感知机理

1、时域信息的冗余度 幅度的非均匀分布 一般语音中小幅度样本比大幅度样本出现的概率要高,并且通话中必然会有间隙,更会出现大量低电平样本。因此.语音信号取样值的幅度分布是非均匀的,可以采用非均匀量化对其编码。样本间的相关 对语音波形的分析表明,取样数据的最大相关性存在于邻近样本之间,并且取样速率越高,样本间相关性越强。根据相关性,可利用N阶差 分编码技术,进行有效的数据压缩。

MP3编码格式

MP3 编码格式 MP3是MPEG-1 Audio Layer 3的简称,是当今比较流行的一种数字音频编码和有损压缩格式(有Layer 3,也必然有Layer1和Layer2,也就是MP1和MP2,但不在本文讨论范围之内)。MP3技术的应该可以用来大幅度的降低音频文件存储所需要的空间。它丢掉脉冲编码调制(PCM)音频数据中对人类听觉不重要得数据,从而达到了较高的压缩比(高达12:1-10:1)。简单地说,MP3在编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成有较高压缩比的MP3文件,并使压缩后的文件在回放时也能够达到比较接近原音源的效果。 MP3的音频质量取决于它的Bitrate和Sampling frequency,以及编码器质量。MP3的典型速度介于每秒128到320kb之间。采样频率也有44.1,48和32 kHz三种频率,比较常见的是采用CD采样频率——44.1kHz。常用的编码器是LAME,它完全遵循LGPL的MP3编码器,有着良好的速度和音质。 一.概述: MP3 文件是由帧(frame)构成的,帧是MP3 文件最小的组成单位。MP3的全称应为MPEG1 Layer-3 音频 文件,MPEG(Moving Picture Experts Group) 在汉语中译为活动图像专家组,特指活动影音压缩标准,MPEG 音频文件是MPEG1 标准中的声音部分,也叫MPEG 音频层,它根据压缩质量和编码复杂程度划分为三层,即 Layer-1、Layer2、Layer3,且分别对应MP1、MP2、MP3 这三种声音文件,并根据不同的用途,使用不同层 次的编码。MPEG 音频编码的层次越高,编码器越复杂,压缩率也越高,MP1 和MP2 的压缩率分别为4:1 和 6:1-8:1,而MP3 的压缩率则高达10:1-12:1,也就是说,一分钟CD 音质的音乐,未经压缩需要10MB 的存储空间,而经过MP3 压缩编码后只有1MB 左右。不过MP3 对音频信号采用的是有损压缩方式,为了降 低声音失真度,MP3采取了“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉 噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3 文件,并使压 缩后的文件在回放时能够达到比较接近原音源的声音效果。 二.整个MP3文件结构: MP3 文件大体分为三部分:TAG_V2(ID3V2),Frame, TAG_V1(ID3V1) ID3V2 包含了作者,作曲,专辑等信息,长度不固定,扩展了ID3V1 的信息量。 Frame 一系列的帧,个数由文件大小和帧长决定

信息技术服务分类代码解读

《信息技术服务分类与代码》解读 刘宏 2017-03-09 《信息技术服务分类与代码》标准为信息技术服务分类提供了分类方案,为信息技术服务体系的建立和维护提供了依据。目前公司的业务基本上是按照《信息技术服务分类与代码》进行分类,因此本文介绍了《信息技术服务分类与代码》主要内容。 信息技术服务需求包括纵横两个维度的内容,一是横向的由管理体系、人员、信息资源、技术支撑等组成的信息化体系要素,二是纵向的系统生命周期过程,即系统的概念、开发、生产、使用、支持、退役等六个阶段。 应对需方信息技术服务需求的各项内容,在供方层面产生了八项信息技术服务业务,包括咨询服务、培训服务、数据处理服务、软件开发和部署服务、测试服务、集成服务、IT运维服务和租赁服务。这八种信息技术服务应对需方信息技术服务需求全部要素的同时,也涵盖了系统生命周期过程的全部六个阶段。 运营 图 1 信息技术服务框架图 图1中,八类信息技术服务业务与信息技术服务需求的基本对应关系如下: 1)咨询服务,包括规划、设计、管理咨询、监理、评估认证和技术培训等,应对于 需方信息技术服务需求中的管理体系、人员、信息资源,以及技术支撑中的概念 和开发等阶段。 2)设计与开发服务,包括硬件、软件等设计开发,应对于需方技术支撑需求中的设

计开发阶段。 3)系统集成试试服务,包括基础环境、硬件、软件、安全等集成实施,以及集成实 施管理等,应对于需方技术支撑需求中的集成实施阶段。 4)运行维护服务,包括基础环境、硬件、软件、安全等运行维护服务,以及运行维 护管理等,应对于需方技术支撑需求中的运行维护阶段。 5)数据处理和存储服务,包括数据加工处理、存储等,应对于需方的信息资源需 求。 6)运营服务,包括软件、平台基础设施等运营服务,应对于需方的租用服务需求; 7)数字内容服务,包括数字动漫、游戏设计、地理信息等内容的加工与整合,应对 于需方的数字内容服务需求。 8)呼叫中心服务,包括业务咨询、信息查询、数据查询等信息服务,应对于需方的 信息服务需求; 在《信息技术服务分类与代码》标准编制中对信息技术服务框架的中的信息技术服务分类进行了调整。表1是目前使用的信息技术服务分类。 特别注意的是在2010年前,由于认知上的失误,将“系统运行与维护”定义为“IT服务”,即所谓“大IT服务(覆盖IT全生命周期阶段的服务)”与“小IT服务(覆盖系统运行与维护阶段的服务)之争。基于《信息技术服务分类与代码》标准,目前公司的业务都属于信息技术服务范围内。公司目前个别业务单元名称冠以“IT服务”(其核心业务为“系统平台运行维护”等),在国内进行业务沟通与交流时可能存在一定的误解,需要特别关注。 信息技术服务的分类与代码内容如下: 表1 信息技术服务分类与代码

(整理)文件编制格式及编码规则1

A CFC 第一次发布 版本状态修订编制人审核人批准人批准日期中核动力设备有限公司南京分公司 文件编码 文件名称: 部门文件编制格式及编 码规则管理规定 文件类型文件分类技密级别所属专业 发布单位质量管理部 编制部门部门内部标识码适用范围 质量管理部xxxxxxxx 中核动力设备有限公司南京分公司

版权说明: 此文件内容属中核动力设备有限公司南京分公司所有,未经同意不得引用、复制、借阅、发表。 修改页 版本状态修改章节

目录 1.目的 (5) 2.适用范围 (5)

3.参考文件 (5) 4.程序管理 (5) 5.职责 (5) 5.1质量管理部 (5) 5.2综合管理部 (6) 5.3文件编制部门 (6) 6.详细描述 (6) 6.1文件的编制格式 (6) 6.2文件编码规则 (11) 6.3文件内部标识码编码规则 (11) 7.附录 (12)

1.目的 为了便于文件的管理和控制,统一中核动力设备有限公司南京分公司(以下简称南京分公司)各部门文件格式、标识,规范化、标准化管理生产管理活动中的每份文件,特制定本规定。 2.适用范围 本程序适用于南京分公司各部门产生的所有与生产活动有关的管理性、技术性文件(另有规定文件除外),包括但不限于部门制度、程序、规程、工艺技术文件等。其它文件可参考使用。 3.参考文件 1)Q/SQY·G08-0000-2012/A 《质量手册》 2)QP/SQY.G08-3000-2012/A 《民用核安全机械设备制造质量保证大纲》 3)Q/SQY·G08-401-2012/A 《文件控制管理程序》 4.程序管理 本程序由质量管理部编制、修订和解释,并具有以下签名: 编制:编制人; 审核:质量管理部负责人; 批准:主管经理。 5.职责 5.1质量管理部 1)负责文件编制格式及编码的统一管理; 2)负责文件符合性的审查; 3)负责对文件编码进行准确性检查; 4)负责范围内文件内部标识码流水号的管理。

音频基本知识

音频基本知识 第一部分 模拟声音-数字声音原理 第二部分 音频压缩编码 第三部分 和弦铃声格式 第四部分 单声道、立体声和环绕声 第五部分 3D环绕声技术 第六部分数字音频格式和数字音频接口 第一部分 模拟声音-数字声音原理 一、模拟声音数字化原理 声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。 图1 模拟声音数字化的过程 声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。 声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f s)是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。 ?采样频率 采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k 次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。 ?量化精度 光有频率信息是不够的,我们还必须纪录声音的幅度。量化位数越高,能表示的幅度的等级数越多。例如,每个声音样本用3bit表示,测得的声音样本值是在0~8的范围里。我们常见的CD位16bit的采样精度,即音量等级有2的16次方个。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。 ?压缩编码 经过采样、量化得到的PCM数据就是数字音频信号了,可直接在计算机中传输和存储。但是这些数据的体积太庞大了!为了便于存储和传输,就需要进一步压缩,就出现了各种压缩算法,将PCM转换为MP3,AAC,WMA等格式。 常见的用于语音(Voice)的编码有:EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码,AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有:MP3、AAC、AAC+、WMA等 二、问题 1、为什么要使用音频压缩技术? 我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比: PCM音频:一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码CD文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率,即176.4KB/s。这表示存储一秒钟PCM编码的音频信号,需要176.4KB的空间。 MP3音频:将这个WAV文件压缩成普通的MP3,44.1KHz,128Kbps的码率,它的数据速率为128Kbps/8=16KB/s。如下表所示: 比特率 存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系 采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频

中国石化信息分类编码标准-设备分类标准与编码

中国石化信息分类编码标准 Q/SH005-01-2006 设备分类标准与编码 (2006年试用版) 不作为正式发布 先由相关企业试用 2006年- 8月制订 2006年- 10月试用

目录 Q/SH005-01-2006 (1) 前言 (3) 设备分类标准及编码说明 (4) 一、编制目的 (4) 二、编制依据 (4) 三、适用范围 (4) 四、编码对象 (4) 五、术语定义 (4) 六、设备分类标准制定原则 (5) 七、设备分类标准说明 (5) 八、编码规则 (5) (一)编码规则 (5) (二)代码表结构 (6) 九、油品销售企业《设备分类标准》填报说明 (6)

前言 本标准内容包括:中国石化设备分类与编码 本标准由中国石化信息标准化领导小组提出并归口管理 本标准起草单位:中国石化股份有限公司生产经营管理部 中国石化股份有限公司信息部 石化盈科信息技术有限责任公司 本标准主要起草人: 本标准负责单位:中国石化股份有限公司设备编码组 本标准由中国石化信息标准化领导小组办公室组织专家审核

设备分类标准与编码说明 一、编制目的 本标准编制的目的是为了统一规范设备分类,统一编码,满足石化总部及上、中、下游设备管理和ERP集中建设的需要。 二、编制依据 1、中国石化23大类《设备分类与编码》(2002年版) 2、《石油天然气行业设备分类与编码》(第四版) 3、油品销售EAM分类 三、适用范围 “设备分类标准及编码”适用于中国石化股份公司本部及所属单位。 四、编码对象 设备分类编码对象为28大类1037小类的设备分类。 五、术语定义 1、工业管道系指企业、事业单位所属的用于输送工艺介质的工艺管道、公用工程管道及其他辅助管道。 2、公用管道系指城市或乡镇范围内的用于公用事业或民用的燃气管道和热力管道。 3、长输管道系指产地、储存库、使用单位间的用于输送商品介质的管道。

文件分类整理的原则和方法

公司文件的分类 A、一级分类:按照各部门所产生的不同性质的文件分为十个部门,以各部门的字母来代表(公司编号表) 企管部:QGB 总经理办公室: 人力资源部: 市场管理部: 项目发展部: 证券投资部: 法律事务部: 信息资源管理中心: 审计部: 发展策划部: 招标管理部: 党工部: 采购部: 科技管理部: 财务部: 保卫部: 管理方法: 1、按照公司领导分管部门,将各部门所产生的报告、请示等文件,均递交至总经办,总经办也将采取专人负责各高管,对口将各部门文件产生文件,统一进行编号、登记、传递,以此方式达到工作对口负责、专人检查落实的目的。 B、二级分类:按照文件类型划分: 一级类目:公司所有资产证据类(A表示) A1:合同、协议 A2:公司章程、验资报告、账号、授权书、许可证、资产移交等 二级类目:公文类( B) B1:令、决定、议案:适用于对重要事项或者重大行动作出安排,如:各级人民政府的下发的强制性行政措施、本公司董事会决议、股东会会议纪要等 B2:公告;通告;通报:使用与宣布或公布重要事项或应当遵守获证周知的事项,如:上级机构下发的法定事项、社会公告、表彰先进、批评错误、规章制度等 B3:请示、皮肤:适用于向上级机关请示指示、批准,答复下级机关的请示事项B4:报告、意见:适用于想上级机关汇报工作,,对重要问题提出见解和处理办

法 B5:通知、函:适用于批转下级的公文,传达要求下级机关办理和需要有关单位周知或者执行的事项,不相隶属的单位之间商洽工作、询问和问题,如:任免人员等 B6:会议纪要:适用于记载、传达会议情况和议定事项 三级类目:普通文件类(C),其他一般性文件 四级类目:非文本载体的文件(D),如照片、软盘及其他声像资料等 按照文件受控类型主要分为受控文档与非受控文档,各类资产证据、秘密文件的原件原则上均属于受控文档,复印件原则上均属于非受控文档,在受控文件的编号前加K表示,不加均默认为非受控证件 C、三级分类:按照文件年度划分,以年月的数字代号表示,如0310代表2003年10月 D、四级分类:文件的原件Manuscript、复印件Copy分别以英文的第一个字母代表,如原件用M表示、复印件用C表示 以上为一般情况,有项目文件存在的情况下,项目文件单独存放,若项目多,种类也多,则按照项目分类。

音频编码及常用格式

音频编码及常用格式 音频编码标准发展现状 国际电信联盟(ITU)主要负责研究和制定与通信相关的标准,作为主要通信业务的电话通信业务中使用的语音编码标准均是由ITU负责完成的。其中用于固定网络电话业务使用的语音编码标准如ITU-T G.711等主要在ITU-T SG 15完成,并广泛应用于全球的电话通信系统之中。目前,随着Internet网络及其应用的快速发展,在2005到2008研究期内,ITU-T将研究和制定变速率语音编码标准的工作转移到主要负责研究和制定多媒体通信系统、终端标准的SG16中进行。 在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器(相应于64Kb/s的比特率)。该量化器所采用的技术在1972年由CCITT (ITU-T的前身)标准化为G.711。在1983年,CCIT规定了32Kb/s的语音编码标准G.721,其目标是在通用电话网络上的应用(标准修正后称为G.726)。这个编码器价格虽低但却提供了高质量的语音。至于数字蜂窝电话的语音编码标准,在欧洲,TCH-HS是欧洲电信标准研究所(ETSI)的一部分,由他们负责制定数字蜂窝标准。在北美,这项工作是由电信工业联盟(TIA)负责执行。在日本,由无线系统开发和研究中心(称为RCR)组织这些标准化的工作。此外,国际海事卫星协会(Inmarsat)是管理地球上同步通信卫星的组织,也已经制定了一系列的卫星电话应用标准。 音频编码标准发展现状 音频编码标准主要由ISO的MPEG组来完成。MPEG1是世界上第一个高保真音频数据压缩标准。MPEG1是针对最多两声道的音频而开发的。但随着技术的不断进步和生活水准的不断提高,有的立体声形式已经不能满足听众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。目前有两种主要的多声道编码方案:MUSICAM环绕声和杜比AC-3。MPEG2音频编码标准采用的就是MUSICAM环绕声方案,它是MPEG2音频编码的核心,是基于人耳听觉感知特性的子带编码算法。而美国的HDTV伴音则采用的是杜比AC-3方案。MPEG2规定了两种音频压缩编码算法,一种称为MPEG2后向兼容多声道音频编码标准,简称MPEG2BC;另一种是称为高级音频编码标准,简称MPEG2AAC,因为它与MPEG1不兼容,也称MPEG NBC。MPEG4的目标是提供未来的交互多媒体应用,它具有高度的灵活性和可扩展性。与以前的音频标准相比,MPEG4增加了许多新的关于合成内容及场景描述等领域的工作。MPEG4将以前发展良好但相互独立的高质量音频编码、计算机音乐及合成语音等第一次合并在一起,并在诸多领域内给予高度的灵活性。

相关文档
最新文档