语音压缩编码的发展和应用

语音压缩编码的发展和应用
语音压缩编码的发展和应用

语音压缩编码的发展和应用

摘要:为了满足数字通信及其它商业应用的需求,语音压缩编码技术得到了迅速发展。介绍了目前语音压缩编码技术的研究进展,主要包括连续可变斜率增量调制(CVSD)、小波分析、多脉冲激励线性预测编码、散布脉冲码激励线性预测(DP-CELP)、多重脉冲散布非均匀代数码本激励线性预测(MPD-USACELP)、波形内插(WI)、线谱对(频率)(LSP)的量化。对以上算法进行了分析比较,总结了它们的特点和适用范围,并介绍了其中一些算法在DSP上的实时实现。

关键词:语音压缩编码:线性预测(LP);波形内插;DSP;语音编码 ;波形编码 ;参数编码 ;混合编码 ;编码标准

Abstract: In order to satisfy demands of the digital communication and other commercial apphcations,

the speech compression technology has been developed rapidly. The present research progress in speech

compression techn ology is introduced in this paper including CVSD,wavelet an alysis an d its application

to speech coding, MPLPC, DP—CELP, MPD-USACELP,、Ⅳ1 an d quan tification of LSF.Th ese algorithms

are an alyzed an d compared.Th eir characteristics an d applicable scopes are summarized. Some algorithms

apphed to DSP are also introduced.

Key words:Speech compression coding;LP;waveform interpolation;DSP;voice coding;waveform coding;parametric coding;hybrid coding;Coding Standard

前言:近30 年来, 通信技术一直在发生着深刻的变化, 编码技术日臻完善,高质量、低速率的语音编码算法纷纷出现, 各国相继成立了一些国际通信标准化组织, 及时地制定专门的通信编码标准, 语音编码技术的发展也体现在这些不断制定的标准中。由于实现方式的不同, 语音压缩编码技术种类很多, 一直向着高质低速方向发展, 并出现了不少令人振奋的成果。

随着信息技术的发展, 信道资源显得更加宝贵, 为了在有限的信道内进行更多的信息传输, 必须对语音信号进行压缩。语音信号能够压缩的基本依据是语音信号中存在的冗余和人类的听觉感知机理。语音信号存在多种多样的冗余, 可分别从时间域和频率域描述。从时间域分析: 幅度的非均匀分布, 即语音中的小幅度样本出现的概率高, 信息主要集中在低功率上;采样数据间的相关, 相邻的语音信号间有很强的相关性, 研究表明, 当采样率为8 kHz 时, 相邻样值之间的相关系数大于0.85, 如果采样率提高, 相关性将更强; 周期间的相关, 浊音语音段具有准周期性, 反映在波形上出现图形的重复, 即信息冗余; 语音间隙, 实际语音通信中, 存在通话间隙, 通话分析表明, 全双工话路的典型效率约为通话时间的40%, 即静止系数为0.6;长时自相关, 除了本间、同期间的相关外, 在较长的时间间隔上, 语音信号也存在相关, 统计表明, 8 kHz 采样时的平均相关系数高达0.9。从频率域分析: 非均匀的长时功率谱密度, 从相当长的时间内统计平均, 语音信号的功率谱呈现强烈的非平坦性, 这说明语音信号对给定的

频段利用的不充分, 存在固定的冗余度; 语音特有的短时功率谱密度, 语音信号的短时功率潜在某些频率上出现峰值, 而在另一些频率上出现谷值, 这些峰值频率是能量较大的频率, 称为共振峰( Formant) , 语音特征主要由前3 个共振峰频率决定, 随着频率的增高, 对整个功率谱的影响会快速递减。语音压缩的第二个依据是人的听觉生理和心理特性对语音的感知,其影响主要表现在: 第一, 人的听觉系统( Human Auditory System, HAS)对声音具有掩蔽效应( Mask Effect) , 即一个强的声音能够抑制另一个同时存在相对较弱的声音, 利用这一性质可以抑制与信号同时存在的量化噪声。第二, 对不同频段的声音的敏感程度不同。人的听觉对低频端比较敏感, 而对高频端不太敏感, 这主要是因为浊音的周期和共振峰在这里。第三, 人耳对语音信号的相位变化不敏感。人耳的听觉不像人的视觉对感知的信号相位那样敏感, 一定程度的相位失真对听觉来说是可以容忍的。人耳听不到或感知极不灵敏的语音信号都可以认为是冗余, 可以利用这些特性进行语音数据压缩。语音压缩编码的目的是用尽可能低的数码率获得尽可能好的合成语音质量, 同时又使要编码过程的计算代价尽可能小。降低数码率的实质就是压缩频带宽度, 数码率低意味着算法的复杂度增加, 延迟变大。所以语音压缩编码算法的研究一直在这个矛盾中向前发展。

语音压缩编码的发展及应用近10 多年来, 语音编码技术取得了突飞猛进的发展, 出现了多个国际标准和区域标准, 已具备了比较完善的理论和技术体系, 随着高速信号处理器的诞生, 使多种算法复杂、计算量很大的编码技术的实时化变得容易起来, 语音压缩编码进入了实用阶段。目前语音编码主要分为三类: 波形编码、参数编码和混合编码。

1.波形编码最早的语音编码系统采用波形编码方法, 这种方法主要是基于语音信号的波形, 力图使合成语音与原始语音的波形误差最小。由于语音信号的全部信息都蕴含在原始波形里, 所以这种方法编码后的合成语音质量非常好, 且适应能力强, 抗信道干扰性能好。所采用的压缩方法一般是基于各种有效的数学变换, 通过将波形从一个域变换为另一个更易于提取特征参数的域来达到对变换后的参数进行量化编码的目的, 在数学上, 这实质上是一个曲线拟合或数据近似的问题。主要的有以下的编码器: 脉冲编码调制( PCM) 、自适应增量调制( ADM) 、自适应差分编码( ADPCM) 、自适应预测编码( APC) 、自适应子带编码( ASBC) 、自适应变换编码( ATC) 。波形编码的性能和压缩比特率决定于所用的变换方法的性能, 由于语音波形的动态范围很大, 目前所用的变换算子的作用又有限, 因此, 波形编码的比特率不能压得很低, 一般在16 kb/s 以上, 再往下, 性能就下降很快。新近蓬勃发展的小波变换, 尽管具有分层的思想、“显微镜”的功能、与图像的视觉感知相吻合, 但用于语音编码效果不理想, 因为与人的听觉感知不相吻合。国际电报电话咨询委员会CCITT( 现已并入国际电信联盟ITU) 于1972 年制定的G.711 64 kb/s 的脉冲编码调制( PCM) 和ITU 在1984 年公布的G.721 32 kb/s 自适应差分脉冲编码调制( ADPCM) 编码器标准等都属于这一类编码器。

2.参数编码参数编码始于1939 年美国人Homer Dudey 发明的声码器, 它是根据语音信号的特征参数来编码, 所以又叫“声码器技术”。这种编码方法是通过对人的发声生理过程的研究, 建立一个模拟其发声的数字模型来达到提取其特征参数进行量化编码的目的, 它力图使合成语音具有尽可能的可懂性, 保持原语音的语意, 而合成语音的波形与原始语音的波形可能有相当大的差别。由于它是以滤波器为主来构造语音产生模型, 发送的只是滤波器的参数和相关的特征

值, 可以将比特率压得很低, 但合成语音质量不是很好。这种方法在低数率声码器中普遍采用。主要声码器有通道声码器、共振峰声码器、同态声码器、线性预测( LPC) 声码器等。其中LPC 声码器是以线性组合模型均方误差最小意义下逼近原始波形的方法提取参数, 较好地解决了编码速率和语音质量的问题, 以其成熟的算法和参数的精确估计成为研究的主流, 并已走向实用。美国政府1980 年公布的2.4 kb/s 线性预测编码算法LPC- 10 就是采用的这种方法。1986 年, 美国第三代保密电话装置采用了2.4 kb/s 的LPC- 10e( LPC- 10 的增强型) 作为话音处理方法。

3.混合编码 20 世纪80 年代后期, 综合波形编码和参数编码的混合编码算法成为主流, 这种算法也假定了一个语音产生模型, 但同时又使用与波形编码相匹配的技术将模型参数编码, 吸收了两者的优点。所谓混合编码有两层含义: 激励的混合, 达到更精确的表示残差信号; 编码方式的混合, 综合波形编码和参数编码的优点, 从而获得更高的质量。根据这种方法进行编码的有1982 年Bishnu S. Atal 和Joel R. Remde 提出的多脉冲激励线性预测编码( MPLPC) , 码率在9.6 kb/s ~16 kb/s 范围内, 1985 年Ed.F.Deprettere 和Peter Kroon 首先提出的规则脉冲激励语音编码( RPE- LPC) ,1985 年Manfred R. Schroeder 和Bishnu S. Aral 提出了用矢量量化技术对激励信号进行编码的码激励线性预测编码( CELP) , 在

4.8 kb/s~16 kb/s 范围内可获得质量相当高的合成语音。近年来码激励线性预测( CELP) 编码作为一种优秀的中、低速率方案得到了很好的重视和研究, 在降低复杂度、增强CELP 性能、提高语音质量等方面取得了许多新的进展。1989 年,Motorola 的8 kb/s 矢量和激励线性预测编码( VSELP) 成为北美第一种数字蜂窝移动通信网的语音编码标准, 与美国政府标准4.8kb/s CELP 语音编码器基本相同。美国政府制定了FS- 1016 4.8 kb/s 的CELP 保密电话网的标准之后, 提出了制定半速率2.4 kb/s 声码器的新课题。CCITT 从1988 年开始研究符合进入公用网要求的16 kb/s 语音压缩编码标准, 并对该速率的算法提出一些具体要求。经过一年多的工作,CCITT 最终选定了由AT&T 实验室提出的16 kb/s 低延迟线性预测编码方案, 并经过进一步的研究和优化, 于1992 和1993 分别通过了浮点和定点

算法的G.728 协议, 即低延迟码激励线性预测算法LD- CELP。LD- CELP算法的特点是语音短时语音谱预测、长时语音谱预测、增益因子预测等参数不是从语音中直接提取, 而是采用了后向自适应算法, 即从量化后的语音信号中提取LPC 参数及增益系数。传送的信息只是激励矢量, 这就压缩了传输比特率。LD- CELP 可应用于可视电话伴音、存储和转发系统、数字移动无线通信、数字语音插空设备、语音信息录音和分组语音等领域。CCITT 在20 世纪80 年代末就提出要建立一个8 kb/s 高质量、低延迟的编码方案。但是由于要求过高, 很长时间没有人能够提供满足要求的编码方案。CCITT 不得不在1991 年降低了要求, 把原来要求5 ms 延时降为16 ms, 并综合了日本NTT 和加拿大Sherbrooke University 的科学家们提出的算法, 于1995 年11 月在ITU- TSG 15 全会上通过了CSACELP 算法的8 kb/s 的建议G.729。CS- ACELP 算法基于CELP 编码模型, 采用了共扼结构和代数码本技术。它的主要技术指标是: 在无误码的条件下, 语音的质量不得比32 kb/s 自适应差分脉冲编码调制的质量差;另外在3%帧删除的情况下, 对比无误码的32 kb/s 自适应差分脉冲编码调制( ADPCM) , 其平均评价得分( MOS) 降低少于0.5。该算法主要是由编码器和解码器两部分组成。CS- ACELP 语音编码属于低速率语音编码, 因而较好地解决了通信过程中带宽不足的问题。

CS- ACELP 在略微提高复杂度的同时, 大大降低了编码速率, 同时保证了语音质量; CS- ACELP 的自适应码本和LSP第一阶段量化参数的比特信息对误码比较敏感, 这样, 根据信息对误码的敏感程度对不同信息进行分组并采用不同的保护方法可以大大提高系统的抗误码性能, 在解码端根据帧的校验位可以判断本帧有无误码,如果有, 解码器将基于前面已经解的信息对当前帧进行重建, 通过这些措施, 使得在误码率较高时, 仍可以获得较高的编码质量。CS- ACELP 语音编码可以广泛地应用于个人通信、分组语音通信( 如IP Phone) 、数字卫星通信、高质量移动无线通信、存储和检索、微波接力通信以及未来的综合业务数字通信网( ISDN) 。CELP 编码方案在4.8 kb/s ~16 kb/s 速率上取得了很大成功, 但是,当速率低于4.8 kb/s 时, 编码器性能会很快下降。

语音编码技术的进展对通信新业务的发展有极为明显的影响, 例如IP 电话业务、实时长途翻译业务、交换机的人工智能接口等。因此, 国际电信联盟( ITU) 第15 组提出了许多急需制定的话音编码标准的建议, 以推动通信网的发展。由于VLSI 的发展, 实现这一技术的代价已从在昂贵的信道中采用, 发展到一般信道中都可接受的水平, 因此, 编码技术日益受到重视。数字移动通信和个人通信( PCN) 是深受人们重视的通信手段, 其重要问题之一是压缩语音编码速率, 形成面向对象的语音编码技术。是对标准语音编码器的比较, 对几种编码器的比特率、MOS 值、复杂性( 以G.711 为基准) 和时延大小及前视时间进行比较。低码率、低延迟话音编码算法是21 世纪通信、计算机网络、视频电话会议和远程教学系统等诸多应用领域的关键性核心技术。1992 年国际电信联盟( ITU) 向全世界征集延迟低于5 ms、音质与PCM相当、速率低于8 kb/s 的话音编码方案。目前这一目标仍未实现, G.728 虽然延迟5 样点( 0.625 ms ) 符合要求, 速度却为16kb/s; G.729 虽然速率为8 kb/s 但延迟是80 样点( 15 ms) 。

在现代数字通信中, 为提高信道利用率, 如何用尽可能少的比特数来对语音信号进行编码已越来越受到重视。在短短10 年中就产生了3个国际标准、2 个地区标准和2 个国家标准, 足见语音压缩编码的研究发展之快, 其在国际标准化工作中堪称为最活跃的研究领域。就语音编码的现状而言, 64 kb/s, 32 kb/s, 16 kb/s 和8 kb/s 的技术已经标准化和产品化, 已具备比较完善的理论和技术体系, 并进入实用阶段。

在实际的语音通信中,有些信道难以扩宽且质量很差;有些信道正被广泛使用,短期内难以更新;有些昂贵的信道,每压缩一个比特都意味着节省开支_l_。因此,语音压缩编码无疑在语音通信及人类信息交流中占有举足轻重的地位。根据语音编码速率的不同,可以划分为以下的编码算法:高速率编码16kb/s~64kb /s、中速率编码4.8kb/s~16kb/s、低速率编码2.4kb/s~4.8kb/s、极低速率编码即小于2.4kb/s。本文按此分类方法,将文章中涉及到的语音压缩编码方法分为中高速率编码、低速率编码与极低速率编码三类。

对于中高速率的语音压缩编码而言,高速率编码主要以波形编码为主,其适应能力强、语音质量好,但编码速率较高。中速率编码以混合编码为主,基于语音产生模型的假定并采用了分析合成技术,同时又利用语音的时间波形信息,增强了重建语音的自然度。低速率及极低速率编码以参数编码为主,通过建立语音信号的产生模型,提取代表语音信号特征的参数来编码。

中高速率编码连续可变斜率增量调制(CVSD)CVSD f Confinuous~ Variable Slope Delta Modulation)针对输入信号振幅的变化率,调节量化步长的增量值。当输入信号的振幅变化率增大时.增量值也相应地增大;当输入信号的振幅变化

率减小时,增量值也相应地减小。利用TI公司的TMS320VC5509定点DSP芯片实现多路全双工16kbps CVSD语音编解码的方案,并基于摩托罗拉公司的MPC800提出了利用嵌入式系统扩展DSP应用的方法。与其它编码方式相比,CVSD有如下突出特点:(1)较高的抗误码能力;(2)算法简单,硬件实现容易;(3)单路应用时无须采取码元与码组同步措施等。因此.它是一种在卫星通信、移动通信和军事通信等领域应用非常广泛的波形编码方式。基于小波分析的语音编码方法小波在时域频域同时具有良好的局部特性,并且它的基具有多样性,使得它优于傅立叶分析,更适合于语音。它不仅可以单独的处理语音,还可以和其它理论结合用于语音压缩。小波技术与离散余弦变换(DCT)结合:离散余弦变换系数能较好地体现语音信号能量在频域中集中分布的特性。可以重构出高质量的话音.如果采用矢量量化(VQ)的方法直接对离散余弦变换的系数进行编码,运算量较大。可以利用小波变换的多分辨分析特性.对离散余弦变换系数进行离散进小波变换后.再对其小波系数进行编码。其优点为:(1)编码算法简单;(2)可方便灵活地控制各频率段的位数分配,满足不同编码质量的要求;(3)在16kbps数据率时。可实现与原话音质量相同的重构语音。多脉冲激励线性预测编码(MPLPC)的改进原始的MPLPC方法中,LP滤波器的阶数和激励脉冲的个数都是固定的。对其改进算法使用了可变阶数滤波器的语音编码方法。主要思想是:对于不同的语音帧使用不同阶数的线性预测滤波器,只要低阶滤波器满足要求就不使用高阶滤波器。由于各语音帧滤波器阶数不同,使用的编码位数也不同。为了使整个语音传输速率基本恒定,对于滤波器阶数较低的语音帧,可以相应地增加激励脉冲的个数或增加各脉冲的比特数。用MATLAB对改进MPLPC方法进行模拟,结果表明,此方法可以在6kb/s以下的速率上得到有一定自然度的合成语音,比同速率下的原始多脉冲激励方法有明显改善。但此方法在有噪声和失真的信道上传输的情况需要进一步实验,每帧激励脉冲个数的最佳值需要进一步研究。

低速率编码散布脉冲码激励线性预测(DP.CELP)码激励线性预测(CELP)算法是最近20年来语音编码中最为成功的一项技术。但是当速率降至4kb/s以下时,为了提高量化效率,必须增加激励矢量的长度,这时还用很少的符号脉冲来描述激励信号就会导致语音质量的急剧下降,这就是传统的CELP算法在4kb/s速率以下质量难以提高的根本原因。为了解决传统CELP算法在4 kb/s速率以下质量难以提高的问题,文献『5]提出了一种散布脉冲CELP(DP.CELP)语音编码算法。激励矢量由特殊结构的代数码书与固定形式的散布脉冲的卷积获得,在不增加代数码书搜索复杂度的前提下,较好地解决了传统代数码书中符号脉冲不足带来的缺陷,有效地改善了重建语音质量非正式的主观听力测试表明.这种4kb /s DP。CELP语音编码算法的合成语音质量非常接近G723.1中6.3kb/s语音编码器。可产生高质量的合成语音在此算法的基础上,开发了一种基于TMS320vC5410定点DSP的实时低速率语音压缩系统,将低比特率语音编码算法应用于实际的语音处理系统。为了降低运算复杂度,算法程序使用DSP汇编语言实现。根据C5410定点DSP的指令集特性。以及算法自身的特点,对整个算法进行了2次整体优化和若干次的局部优化,达到了实时实现的要求。由此,产生出了性价比极高的语音编解码系统,在数字存储、多媒体通信等领域有着广泛的应用前景。多重脉冲散布非均匀代数码本激励线性预测(MPD—USACELP)由于CELP 算法在4kb/s速率以下质量难以提高,在编码器和解码器中分别引入了不同的脉冲散布技术.从而达到了利用较少比特提供高质量激励的目的。根据理想代数码本脉冲在子帧中各位置的概率分布规律,提出了新的非均匀结构代数码本,提

高了代数码本的效率,并且引入了基音预加重技术优化了自适应码本搜索。经主观听音和计算机模拟测试,最后形成的3.35kb/s多重脉冲散布非均匀代数码本激励线性预测(MPD.USACELP)语音编码算法的质量达到了北美IS-54标准8 kb /s算法的水平。

极低速率编码波形内插(Ⅵ )算法的改进波形内插语音编码在2kb/s 4kb/s的速率上表现出良好性能,并产生了高质量合成语音。但是这种编码算法的计算复杂度非常高。很难在实际中应用.因此在保持语音质量的前提下。降低Ⅵ模型的计算复杂度势在必行。基本的Ⅵ编码算法需要在编、解码端都要进行复杂的特征波形(CW)对齐,以保证提取的CW和合成的CW 在相位上一致,这使得实时实现整个算法变得非常困难。为了减少这种复杂度,提出一种在编码端去除对齐过程,译码端采用三次B样条的插值模型。通过对慢渐变波形只量化低频分量。而快渐变波形用正交多项式拟合,实现了变维矢量到定维矢量的转换,进一步降低了算法的复杂度。DRT测试结果表明,此2 kb/s语音编码方法能获得高可懂度的重建语音。在Ⅵ模型的原理的基础上,针对模型中占主要计算量的2个模块(特征波形的表示和对齐)进行了相应的改进。原Ⅵ模型中的特征波形使用了离散傅里叶级数表示,CW对齐也是通过频域傅氏级数实现的,CW 的表达和对齐都没有使用快速算法。在改进算法中,先对时域的CW 尾部补0,使它的长度为2的整次幂,然后作快速傅里叶变换得到CW 的频域表示。因为时域补0起到了对原频域做插值的作用,并不改变原频谱形状。所以再利用三次B样条插值技术,就可以得到相应的傅氏级数;对于CW 对齐则先将它的周期延拓为2的整次幂。再利用圆周相关定理通过FFT计算出对齐所需要的位移。改进后的算法相对独立没有影响原编码器其它模块,在保持高质量重建语音的前提下使复杂度大幅下降,更易于在单片DSP芯片上实现。奇异值分解的波形内插(SVD—wI)算法波形内插算法中,针对奇异值分解(Singu-larValue Decomposition,简称SVD)理论用于特征波形的分解时,算法延时长、计算复杂和高比特量化参数的问题,提出了一种新颖的基于奇异值分解的特征波形的分解与量化模型。基于降低运算复杂度的考虑,利用语音信号的感知特性,根据所含频率成分的不同,将特征波形的幅度谱分成基本矩阵、过渡矩阵和补充矩阵三个矩阵。并各自采用不同的量化方法;由于特征波形谐波数是时变的,将三个矩阵分为三种组合模式表示特征波形幅度谱,提高了特征波形的表示精度。合成端可以根据不同的精度要求重建语音。这种方法比传统的Ⅵ语音编码器减少了一帧延时,主观测试表明,SVD一Ⅵ编码器的重建语音质量要好于2.4kb/s混合激励线性预测(MELP)编码器。线谱对(频率)的量化算法线性预测是许多低速率语音编码方案的核心技术。为降低编码速率,选用高效的线性预测系数编码方法至关重要。线谱对(1ine spectrum pair,简称LSP)即线谱频率(1ine spectrum frequency,简称LSF)是线性预测系数的等价参数。因此,研究高效率的LSP参数量化方法对低速率语音编码算法的研究具有极其重要的意义。在极低速率的声码器算法研究中。为了实现对LSP参数的高质量低速率量化,提出了一种新的量化算法,称作P-RS—MSMQ(Pattern-basedResidual split Multi—Stage Matrix Quantization)。此算法在多帧联合矩阵量化的框架下,提出了以下几点新的策略:(1)基于超级帧模式的均值去除和基于超级帧模式转移的帧间预测;(2)将预测余量矩阵分裂成子矩阵,并对各子矩阵分别进行多级矩阵量化;(3)对多帧联合量化引入新的加权策略等。通过这些措施,有效的提高了量化性能,能够在极低的编码速率下获得高质量的量化效果并且大大降低了量化码本的存贮量和运算量。提高了算法的

实用性。此算法已经成功地实现了高质量的1.2kb/s和600 b/s语音编码算法。因此,它可以广泛应用于极低速率语音编码算法中。为了降低线谱频率(LSF)参数矢量量化器的搜索复杂度和码字存储单元,利用LSF参数的帧内和帧间相关性,设计了一种LSF参数的预测式多级分裂矢量量化器。该量化器对LSF参数的预测残差矢量进行两级矢量量化。其中第2级的误差矢量分裂成2个维数分别为4和6的子矢量进行矢量量化,采用瞬时联合多级矢量量化器设计算法设计码本,应用M-L树搜索算法搜索码字。降低了搜索复杂度和码字存储单元,同时保持了高效的量化性能。

本文介绍了当前语音压缩编码的研究现状。将这些方法按照编码速率进行了分类。其中。小波分析本身是一门交叉学科,小波分析与其它理论的综合运用是今后语音处理技术发展的必然趋势:编码速率在4kb/s以下时,为提高码激励线性预测的语音质量,对其算法的改进无疑成为当前的研究热点:作为最有潜力的波形内插语音编码算法。其今后究的重点为:与其它低速率语音编码技术更为合理的相互补充;特征波形提取和对齐问题:特征波形分解问题;特征波形量化问题;相位恢复问题。总体来看,高质量的极低速率编码算法更受到人们的青睐,不仅是目前的研究热点,而且是未来的发展方向。另外,将性能好的算法进行优化和改进,从而在DSP上实时实现则是另一个发展方向。

参考文献

[ 1] 张刚, 张雪英.语音处理与编码[ M] .北京: 兵器工业出版社, 2000. [ 2] 王炳锡.语音编码[ M] .西安: 西安电子科技大学出版社, 2002.

[ 3] 鲍长春.码激励线性预测语音编码快速算法和评价[ J] .电子科学学

刊, 1995( 1) : 71- 80.

[ 4] 于增贵.低速语音编码的最新成果[ J] .通信技术, 1996( 4) : 55- 64. [ 5] 郭莉, 郭丽红.极低速语音编码的新发展与应用[ J] .电声技术, 2005 [ 6]苏桃,浅谈语音压缩编码的发展和应用

[ 7]语音压缩编码技术研究进展时磊,尚秋峰,李健宇华北电力大学.河北保定071003

数字音频基础知识

第一章数字音频基础知识 主要内容 ?声音基础知识 ?认识数字音频 ?数字音频专业知识 第1节声音基础知识 1.1 声音的产生 ?声音是由振动产生的。物体振动停止,发声也停止。当振动波传到人耳时,人便听到了声音。 ?人能听到的声音,包括语音、音乐和其它声音(环境声、音效声、自然声等),可以分为乐音和噪音。 ?乐音是由规则的振动产生的,只包含有限的某些特定频率,具有确定的波形。 ?噪音是由不规则的振动产生的,它包含有一定范围内的各种音频的声振动,没有确定的波形。 1.2 声音的传播 ?声音靠介质传播,真空不能传声。 ?介质:能够传播声音的物质。 ?声音在所有介质中都以声波形式传播。 ?音速 ?声音在每秒内传播的距离叫音速。 ?声音在固体、液体中比在气体中传播得快。 ?15oC 时空气中的声速为340m/s 。 1.3 声音的感知 ?外界传来的声音引起鼓膜振动经听小骨及其他组织传给听觉神经,听觉神经再把信号传给大脑,这样人就听到了声音。 ?双耳效应的应用:立体声 ?人耳能感受到(听觉)的频率范围约为20Hz~ 20kHz,称此频率范围内的声音为可听声(audible sound)或音频(audio),频率<20Hz声音为次声,频率>20kHz声音为超声。 ?人的发音器官发出的声音(人声)的频率大约是80Hz~3400Hz。人说话的声音(话音voice / 语音speech)的频率通常为300Hz~3000 Hz(带宽约3kHz)。 ?传统乐器的发声范围为16Hz (C2)~7kHz(a5),如钢琴的为27.5Hz (A2)~4186Hz(c5)。 1.4 声音的三要素 ?声音具有三个要素: 音调、响度(音量/音强)和音色 ?人们就是根据声音的三要素来区分声音。 音调(pitch ) ?音调:声音的高低(高音、低音),由―频率‖(frequency)决定,频率越高音调越高。 ?声音的频率是指每秒中声音信号变化的次数,用Hz 表示。例如,20Hz 表示声音信号在1 秒钟内周期性地变化20 次。?高音:音色强劲有力,富于英雄气概。擅于表现强烈的感情。 ?低音:音色深沉浑厚,擅于表现庄严雄伟和苍劲沉着的感情。 响度(loudness ) ?响度:又称音量、音强,指人主观上感觉声音的大小,由―振幅‖(amplitude)和人离声源的距离决定,振幅越大响度越大,人和声源的距离越小,响度越大。(单位:分贝dB) 音色(music quality) ?音色:又称音品,由发声物体本身材料、结构决定。 ?每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音,都是由音色不同造成的。 1.5 声道

音频的编解码

音频编码解码基本概念介绍 对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。 语音编码技术又分为三类:波形编码、参数编码以及混合编码。 波形编码:波形编码是在时域上进行处理,力图使重建的语音波形保持原始语音信号的形状,它将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,缺点是压缩比偏低。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点,通过为小信号分配小的量化阶,为大信号分配大的量阶来减少总量化误差。我们最常用的G.711标准用的就是这个技术。自适应差分编码是利用过去的语音来预测当前的语音,只对它们的差进行编码,从而大大减少了编码数据的动态范围,节省了码率。自适应量化技术是根据量化数据的动态范围来动态调整量阶,使得量阶与量化数据相匹配。G.726标准中应用了这两项技术,G.722标准把语音分成高低两个子带,然后在每个子带中分别应用这两项技术。 参数编码:广泛应用于军事领域。利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号。它只能收敛到模型约束的最好质量上,力图使重建语音信号具有尽可能高的可懂性,而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。这种编码技术的优点是压缩比高,但重建音频信号的质量较差,自然度低,适用于窄带信道的语音通讯,如军事通讯、航空通讯等。美国的军方标准LPC-10,就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。MPEG-4标准中的HVXC声码器用的也是参数编码技术,当它在无声信号片段时,激励信号与在CELP时相似,都是通过一个码本索引和通过幅度信息描述;在发声信号片段时则应用了谐波综合,它是将基音和谐音的正弦振荡按照传输的基频进行综合。 混合编码:将上述两种编码方法结合起来,采用混合编码的方法,可以在较低的数码率上得到较高的音质。它的特点是它工作在非常低的比特率(4~16 kbps)。混合编码器采用合成分析技术。

语音编码技术及其在通信系统中的应用

多媒体技术基础期末论文 题目:语音压缩编码及其在通信系统中的应用 专业:通信工程 姓名:张娴 学号: 1 2 3 0 7 1 3 0 4 4 9

2016年5月24日 在现代通信中,随着科学技术的迅速发展,图像、数据等非话音信息在通信信息总量中所占的比例大大提高,而且这种提高的趋势仍然会继续下去。比如说,以前的手机基本上只可以打电话,发短信,不能接收文件,不能观看视频,但是现在的3G手机甚至4G手机,可以看视频,接发文件,还有很多的应用软件。语音信号所占的传输比例的确是大大减小。但是,到目前为止,在大多数通信系统中,传输最多的信息仍然是语音信号。比如说我们经常打电话,用语音发微信,听音乐,看视频等等。在可以预见的未来通信中,尽管语音信号在通信信息总量中所占的比例会有所下降,但仍然会是传输最多的信息。 语音信号是模拟信号,不能直接在数字通信系统中传输,必须先进行模/数转换再进行数/模转换,这种转换就称为语音编译码(简称语音编码),其作用是将语音模拟信号转换为数字信号,到了接收端,再将收到的语音数字信号还原为语音模拟信号。可见,语音编码技术在数字通信中具有十分重要的作用,随着计算机技术与超大规模集成电路技术的飞速发展和广泛应用,信号的数字处理、数字传输和数字存储日益显示出巨大的优越性。数字化技术的应用范围迅速扩大到各个科学技术领域,渗透到工农业生产和社会生活的各个方面。因此,尽量减少信号占有带宽、持续时间和存储容积,以节省信号在传输、处理和存储中的开销,具有巨大的经济价值。所以,语音编码技术,尤其是语音压缩编码技术(编码速率在16kbit/s以下),近年来受到人们的广泛关注和重视,有着极为迫切的客观需求。正是在这种强大的客观需求推动下,近二十几年来,随着计算

音视频基础知识考核题

网络音视频基础知识考核题 1.以下哪一项不是视频文件封装格式?C a)AVI b)MP4 c)AVC d)MPEG-TS 2.以下哪一项不是音视频编码格式?B a)Window Media Video Codec 9 b)MPEG-PS c)HE-AAC d)MPEG-2 3.以下哪一项为Flash Media Encoder录制文件格式?D a)MP4 b)M4V c)MOV d)F4V 4.Adobe Flash Player不支持以下哪种音视频格式?D a)MP4:AVC+AAC b)3GP:AVC+AMR-NB c)FLV:H263+MP3 d)MOV: AVC+AAC 5.Apple手持终端(iphone,ipod,ipad)本地播放器支持以下哪种视频编码?B a)H.264+MP3 b)H.264+AAC c)OnVP6+MP3 d)H.263+AAC 6.以下哪一项不属于H.264视频编码标准框架(Profile)?D a)Baseline Profile b)Main Profile c)High Profile d)MEI Profile 7.视频关键帧又称?A a)I Frame b) B Frame c)P Frame d) A Frame 8.如果设置视频编码帧速率为29.97fps,需要每秒2个关键帧,则每隔多少帧需设置一个 关键帧?A a)10 b)15 c)20 d)30 9.以下哪套编码设置是Flash Media Encoder不支持的?D a)H.264+MP3,350K+32K,15fps,22050,320x240 b)H.264+MP3,350K+32K,15fps,22050,320x240 H.264+MP3,500K+64K,25fps,44100,480x320 c)H.264+MP3,500K+64K,25fps,44100,480x320 H.264+MP3,800K+64K,25fps,44100,640x480 d)ONVP6+MP3,300K+32K,12fps,22050,480x320 ONVP6+MP3,400K+32K,12fps,22050,320x240 ONVP6+MP3,500K+32K,12fps,22050,240x180

数字音频技术_MP3_的压缩编码原理与制作方法

第4卷第2期2004年6月 长沙航空职业技术学院学报 CHAN GSHA AERONAU TICAL VOCA TIONAL AND TECHN ICAL COLL EGE JOURNAL Vol.4No.2 J un.2004 收稿日期:2004-03-20 作者简介:张晓婷(1964-),女,上海市人,讲师,主要从事计算机教学与研究。 数字音频技术(MP3)的压缩编码原理与制作方法 张晓婷 (珠海市工业学校,广东珠海 519015) 摘要:本文从音频压缩理论的角度,阐述MP3音频格式、压缩编码原理,同时介绍专业制作 MP3的方法。 关键词:MP3音频格式;压缩编码原理;制作经验与技巧中图分类号:TN919.3+11 文献标识码:A 文章编号:1671-9654(2004)02-051-06 Compression Coding Principle and F acture of Digital Audio Frequency T echnique (MP 3) ZHAN G Xiao 2ting (Zhuhai Indust ry School ,Zhuhai Guangdong 519015) Abstract : From the perspective of Audio Compression Theory ,the paper discusses format of audio Frequency tech 2 nique (MP3)and compression coding principle and also introduces the facture of audio Frequency technique (MP3). K ey w ords : Fomat of audio Frequency technique (MP3);compression coding principle ;facture 一、引言 数字技术的出现与应用为人类带来了深远的影响,特别是互联网的普及,使数字音频技术得到更为广泛的应用,并具有良好的市场前景。与之相关的数字音频压缩技术也得到了充分的发展,一些著名的研究机构和公司都致力于开发专利技术和产品。其中,MP3便是目前为止开发得最为成功的数字音频压缩技术之一。 二、MP3简介 (一)数字音频MP3的格式 MP3音频格式诞生于20世纪80年代,全名MPEG Audio layer 3,是MPEG (Moving PicturesEx 2pert Group 运动图像专家组)当初和影像压缩格式同时开发的音频压缩格式,是MPEG 21标准中的第三个层次,是综合了MPEG Audio layer 2和ASPEC 优点的混合压缩技术,音频质量好,主要用于MP3音频压缩,典型的码流为每通道64Kbit/s 。 (二)数字音频MP3压缩的优点 使用数字音频MP3压缩方式的处理,能增加更多的存储空间。由于MP3的压缩比约在十到十二倍之间,一分钟的CD 音乐经MP3压缩后,只需要一兆左右的存储空间,即一张光盘可以存储六百五十分钟到七百五十分钟的音乐;MP3典型的码流是每通道64Kbit/s ,只有CD 音乐每通道大约十分之一的码流,非常适合网上传输。更重要的是,即使压缩比如此惊人,音乐的品质依然较好,这主要是利用了人类听觉掩蔽效应(Masking Effect )的缘故。MP3具有容量小、数码化、制作简单、传输方便、成本低廉等特点,虽历经14余年,仍然是网上最流行的音乐格式之一。 三、MP3压缩编码原理在MPEG 21的音频压缩中,采样频率可分为32、44.1和48KHz ,可支持的声道有单声道(mono 2phonic )、双—单声道(dual 2monophonic )、立体声模式 ? 15?

音频基础知识

音频,英文是AUDIO,也许你会在录像机或VCD的背板上看到过AUDIO输出或输入口。这样我们可以很通俗地解释音频,只要是我们听得见的声音,就可以作为音频信号进行传输。有关音频的物理属性由于过于专业,请大家参考其他资料。自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。 一、音频基本概念 1、什么是采样率和采样大小(位/bit)。 声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。 2、有损和无损 根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。 3、为什么要使用音频压缩技术 要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有

音频、视频压缩有哪些技术标准

音频、视频压缩有哪些技术标准? 视频压缩技术有:MPEG-4、H263、H263+、H264等 MPEG-4视频编码技术介绍 MPEG是“Moving Picture Experts Group”的简称,在它之前的标准叫做JPEG,即“Joint Photographic Experts Group”。当人们用到常见的“.jpg”格式时,实际上正在使用JPEG的标准。JPEG规范了现代视频压缩的基础,而MPEG把JPEG 标准扩展到了运动图象。 MPEG-4视频编码标准支持MPEG-1、MPEG-2中的大多数功能,它包含了H.263的核心设计,并增加了优先特性和各种各样创造性的新特性。它提供不同的视频标准源格式、码率、帧频下矩形图像的有效编码,同时也支持基于内容的图像编码。采纳了基于对象(Object-Based)的编码、基于模型(Model-based)的编码等第二代编码技术是MPEG-4标准的主要特征。 MPEG4与MPEG1、MPEG2的比较 从上表可以看出,MPEG1和MPEG2主要应用于固定媒体,比如 VCD 和 DVD ,而对于网络传输,MPEG4具有无可比拟的优势。 H.263/H.263+/H.264视频编码技术介绍 1.H.263视频编码标准 1.H.263是最早用于低码率视频编码的ITU-T标准,随后出现的第二 版(H.263+)及H.263++增加了许多选项,使其具有更广泛的适用性。 H.263是ITU-T为低于64kb/s的窄带通信信道制定的视频编码标准。 它是在H.261基础上发展起来的,其标准输入图像格式可以是

S-QCIF、QCIF、CIF、4CIF或者16CIF的彩色4∶2∶0亚取样图像。 H.263与H.261相比采用了半象素的运动补偿,并增加了4种有效的 压缩编码模式。 2.H.263+视频压缩标准 1.ITU-T在H.263发布后又修订发布了H.263标准的版本2,非正式 地命名为H.263+标准。它在保证原H.263标准核心句法和语义不变 的基础上,增加了若干选项以提高压缩效率或改善某方面的功能。原 H.263标准限制了其应用的图像输入格式,仅允许5种视频源格式。 H.263+标准允许更大范围的图像输入格式,自定义图像的尺寸,从而 拓宽了标准使用的范围,使之可以处理基于视窗的计算机图像、更高 帧频的图像序列及宽屏图像。为提高压缩效率,H.263+采用先进的帧 内编码模式;增强的PB-帧模式改进了H.263的不足,增强了帧间预 测的效果;去块效应滤波器不仅提高了压缩效率,而且提供重建图像 的主观质量。为适应网络传输,H.263+增加了时间分级、信噪比和空 间分级,对在噪声信道和存在大量包丢失的网络中传送视频信号很有 意义;另外,片结构模式、参考帧选择模式增强了视频传输的抗误码 能力。 3.H.264视频压缩标准 1.H.264是由ISO/IEC与ITU-T组成的联合视频组(JVT)制定的新一 代视频压缩编码标准。对信道时延的适应性较强,既可工作于低时延 模式以满足实时业务,如会议电视等;又可工作于无时延限制的场合, 如视频存储等。 2.提高网络适应性,采用“网络友好”的结构和语法,加强对误码和 丢包的处理,提高解码器的差错恢复能力。 3.在编/解码器中采用复杂度可分级设计,在图像质量和编码处理之 间可分级,以适应不同复杂度的应用。 4.相对于先期的视频压缩标准,H.264引入了很多先进的技术,包括 4×4整数变换、空域内的帧内预测、1/4象素精度的运动估计、多参 考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比, 同时大大提高了算法的复杂度。 G.7xx系列典型语音压缩标准介绍 G.7xx 是一组 ITU-T 标准,用于视频压缩和解压过程。它主要用于电话方面。在电话学中,有两个主要的算法,分别定义在 mu-law 算法(美国使用)和 a-law 算法(欧洲及世界其他国家使用),两者都是对数关系,但对于计算机的处理来说,后者的设计更为简单。 国际电信联盟G系列典型语音压缩标准的参数比较:

大学程序设计基础实验报告 (2)

**大学程序设计基础实验报告 实验名称:实验三分支结构 实验目的: 1、掌握IF-ELSE语句使用。 2、掌握ELSE-IF语句使用。 3、熟悉SWITCH语句使用。 实验内容: 在本地电脑中新建一个文件夹,用于存放C程序,文件夹的名字要求是“学号姓名-实验序号”,如E:\ 1920115555张三-03。启动C-Free,完成如下各题。 1、编程题:输入参数a,b,c,求一元二次方程ax2+bx+c=0的根(①a、b、c都为0,②a 和b为0,c不为0,③a为0,b不为0,c任意,④a不为0,且a、b、c满足b2-4ac ≥0,⑤a不为0,且a、b、c满足b2-4ac<0)。 2、编程题:输入职工的月薪salary,计算并输出应缴纳的个人所得税tax。tax=rate * (salary –850),rate的计算方式如下: 当salary <= 850,则rate = 0; 当850 < salary <= 1350,则rate = 5%; 当1350 < salary <= 2850,则rate = 10%; 当2850 < salary <= 5850,则rate = 15%; 当salary > 5850,则rate = 20%;。 3、编程题:根据输入的3个边长a、b、c,判断它们是否能构成三角形,若能构成三 角形,则进一步判断此三角形是哪种类型的三角形(等边三角形、等腰三角形、直角三角形和一般三角形。等腰直角算作等腰)。 4、编程题:输入一个形式如“操作数运算符操作数”的表达式,对2个整数进行乘、 除或求余运算。【请分别用if语句和switch语句实现此题功能】 上交作业的方法: 1.将程序代码及注释和运行程序的窗口复制到实验结果下方对应的题号上,并把这 次实验上机操作中遇到的问题及解决方法、心得等填好完成实验报告。 2.保存以上所有按要求已调试通过,并形成.c(或.cpp)和.exe文件到以自己的“学 号姓名-03”命名的文件夹中,并将以自己的“学号姓名”命名的文件夹压缩后上 交到ftp://10.172.250.252:1161中的“作业上传”文件夹下的“报告上交02”文件 夹下的子文件夹“源文件压缩上交”中,同时把以“学号姓名-03”命名的word 文档上交到“报告上交03”文件夹下的另一子文件夹“word文件上交”中。 特别提醒:每次上传的文件名一定要是“学号姓名-实验序号. doc”(如1720115555张

数字语音处理(精华版)

1·语音信号处理的三大分支:语音合成(说),语音编码(压缩),语音识别(听),语音增强。2·语音是怎样生成的:空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。 3·浊音:发音时声带振动的音称为浊音,它能量高,过零率低。 为周期性斜三角脉冲。清音:声带不振动,能量低过零率高非周期脉冲,可用随机白噪声激励。 4·掩蔽效应:一个声音的听感觉感受受同时存在的另一个声音的影响的现象。 掩蔽效应的应用:它指人耳只对最明显的声音反应敏感,对于不敏感的反应较不敏感,应用此原理人们发明了MP3等压缩的数字音乐格式,只突出记录人耳较为敏感的中频段声音,大大压缩了存储空间。 5·听觉机理:(1)外耳:机械振动,(2)中耳:限幅放大,(3)内耳:耳蜗。 6·语音信号数字模型:1)激励模型、2)声道模型、3)辐射模型。 7·语音生成系统的传递函数: ) ( )z( ) ( ) (z R V z G z H= 8·模型局限性及解决办法: 声道的传输函数具有全极点的性质,这对于元音和大多数辅音来说是比较符合实际的,但对于鼻音和阻塞音来说由于出现了零点,这种模型就不够准确了,一种解决办法是在V(z)中引入若干个零点但这样将使模型复杂化,另一种是适当提高阶数P,使得全极点模型能更好的逼近具有此种零点的传输函数。9·预加重含义:加入一阶高通滤波器。10·预加重处理目的:目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率11·预加重处理技术:一般通过传递函数为: z1 1 H(z)- - =α的一阶FIR高通数字滤波器来实现预加重。 12·短时平均能量主要用途: 1)可以作为区分浊音和清音的特征参 数2)在信噪比较高的情况下短时能量 还可以作为区分有声和无声的依据3) 可以作为辅助的特征参数用于语音识 别中。 13常用的窗有两种:一种是矩形窗, 窗函数如下: ? ? ?- ≤ ≤ = 其他 ,0 1 ,1 ) ( N n n ω 可简化为: ∑ - - = - - = n N n m n m x m x z )1 ( |)] 1 ( sgn[ )] ( sgn[ | 2 1 π 另一种是汉明窗,窗函数: ? ? ?≤ ≤ - - = 其他 ,0 )] 1 /( 2[ cos 46 .0 54 .0N n N nπ ω 14·过零率:单位时间内过零的次数。 浊音:过零率低能量高,清音:过零率 高能量高。 15·端点检测目的:从包含语音的一段 信号中确定出语音的起点及结束点。 16·自相关函数: 时域离散确定信号: ∑+∞ -∞ = + = m k m x M x) ( ) ( ) R(k 时域离散随机信号: ∑ - = + + = N N m k m x m x N ) ( ) ( 1 2 1 ) R(k 自相关函数性质:1)对称性: R(K)=R(-K)2)在K=0处为最大值, 即对于所有K来说 )0( |) ( |R K R≤3)对于确定信 号,R(0)对应于能量对于随机信号R (0)对应于平均功率。 17·浊音和清音的短时自相关函数有以 下特点:1)短时自相关函数可以很明显 的反映出浊音信号的周期性 2)清音的短时自相关函数没有周期性, 也不具有明显突出的峰值,其性质类似 于噪声。3)不同的窗对短时自相关函 数结果有一定影响。 18·短时自相关函数(求峰值)两个峰 值之间的距离为周期。短时平均幅度差 函数(求谷值)两个谷值之间的距离为 周期。 19·采用双限门比较的两极判决法:第 一级判决:1)先根据语音短时能量的轮 廓选取一个较高的门限T1进行一次粗 判:语音起止点位于该门限与短时能量 包络交点所对应的时间间隔之外。 2)根据背景噪声的平均能量确定一个 较低的门限T2,并从A点往左、从B 点往右搜索,分别找到短时能量包络与 门限T2相交的两个点C和D,于是CD 段就是双门限方法根据短时能量所判 定的语音段。第二级判决: 以短时平均过零率为标准,从C点往左 和D点往右搜索,找到短时平均过零 率低于某个门限T3的两点E和F,这 便是语音段的起止点。门限T3是由背 景噪声的平均过零率所确定的。 20·当n固定时,它们就是序列 ) ) (m x( m - n ω的傅里叶变 换或离散傅里叶变换。当ω或K固定 时,它们就是一个卷积,相当于滤波器 的运算。 21·基音周期估值的两种方法:第一种 方法:先对语音信号进行低通滤波,在 进行自相关计算。第二种方法,先对语 音信号进行中心削波处理,在进行自相 关计算。 判别基音周期的方法:1·短时自相关 函数法。2·短时平均幅度差函数。 22·线性预测编码就是利用过去的样值 对新样值进行预测,然后将样值的实际 值与预测值相减,得到一个误差信号, 显然误差信号的动态范围远小于原始 语音信号的动态范围,对误差信号的进 行量化编码,可大大减少量化所需的比 特数,使编码速率降低。

语音压缩芯片CT8022的使用方法

语音压缩芯片CT8022的使用方法 来源:单片机与嵌入式系统ic网作者:郝绒华郄锦辉等 CT8022是DSPG公司开发的可实现多种压缩算法的专用DSP芯片。它可接受外部串行A /D提供的64/128kbits/s的8bit A/μ数据或16bit线性数据,并实现全/半双工压缩和解压,以将其压缩为由主机通过命令字决定的格式。可压缩为8.5/6.3/5.3/4.8/4.1kbits/s的数据。当压缩为6.3/5.3kbits/s时,符合ITU-G.723.1标准。C T8022内建有实时回音抵消和自动增益控制电路。当发送端与接收端抽样时钟不同步时,系统可自动添加或删除帧。另外,CT8022还提供了DTMF信号和呼叫继续音的产生和检测功能。可应用于H.323和H.324多媒体可视电话/视频会议等系统,也可用于实现数字数据/语音同传(DSVD)技术。 1 引脚说明 CT8022有128条管脚,分为6类。 (1)主机接口引脚 HSTDB0~7:主机数据总线。 HSTAB0~3:主机地址线。其中HSTAB0用来选择16位控制字的高8位或低8位,当为0时选择低8位,为1时选择高8位。 HSTRDN:主机读允许信号。允许主机从由HSTAB1~3译码后所选择的主机接口寄存器中读出数据。 HSTWRN:主机写允许信号。允许主机向由HSTAB1~3译码后所选择的主机接口寄存器中写入数据。 HSTCSN:主机接口选中信号。在对CT8022读写时,该引脚与HSTRDN,HSTWRN和HSTAB 0~3共同作用。当HSTCSN有效时,HSTAB0~3应保持不变。在DMA方式时,此信号应置为无效。

数据结构实验报告记录文件压缩

数据结构实验报告记录文件压缩

————————————————————————————————作者:————————————————————————————————日期:

数据结构与程序设计实验 实验报告 课程名称数据结构与程序设计实验课程编号0906550 实验项目名称文件压缩 学号年级 姓名专业计算机科学与技术学生所在学院计算机学院指导教师杨静 实验室名称地点21B276 哈尔滨工程大学

实验报告四 实验课名称:数据结构与程序设计实验 实验名称:文件压缩 班级:学号:姓名:时间:2016.04.21 一、问题描述 哈夫曼编码是一种常用的数据压缩技术,对数据文件进行哈夫曼编码可大大缩短文件的传输长度,提高信道利用率及传输效率。要求采用哈夫曼编码原理,统计文本文件中字符出现的词频,以词频作为权值,对文件进行哈夫曼编码以达到压缩文件的目的,再用哈夫曼编码进行译码解压缩。 统计待压缩的文本文件中各字符的词频,以词频为权值建立哈夫曼树, 并将该哈夫曼树保存到文件HufTree.dat 中。 根据哈夫曼树(保存在HufTree.dat 中)对每个字符进行哈夫曼编码,并 将字符编码保存到HufCode.txt 文件中。 压缩:根据哈夫曼编码,将源文件进行编码得到压缩文件CodeFile.dat。 解压:将CodeFile.dat 文件利用哈夫曼树译码解压,恢复为源文件。 二、数据结构设计 由于哈夫曼树中没有度为1的结点,则一棵树有n个叶子结点的哈夫曼树共有2n-1个结点,可以存储在一个大小为2n-1的一维数组中,而且对每个结点而言,即需知双亲结点的信息,又需知孩子结点的信息,由此可采用如下数据结构。 1.使用结构体数组统计词频,并存储: typedef struct Node{ int weight; //叶子结点的权值 char c; //叶子结点 int num; //叶子结点的二进制码的长度 }LeafNode[N]; 2.使用结构体数组存储哈夫曼树: typedef struct{ unsigned int weight;//权值 unsigned int parent, LChild, RChild; }HTNode,Huffman[M+1]; //huffman树 3.使用字符指针数组存储哈夫曼编码表: typedef char *HuffmanCode[2*M]; //haffman编码表 三、算法设计 1.读取文件,获得字符串 void read_file(char const *file_name, char *ch){ FILE *in_file = Fopen(file_name, "r"); unsigned int flag = fread(ch, sizeof(char), N, in_file); if(flag == 0){ printf("%s读取失败\n", file_name); fflush(stdout); } printf("读入的字符串是: %s\n\n", ch); Fclose(in_file); int len = strlen(ch);

GSM数字移动通信系统语音信源编解码技术

GSM数字移动通信系统语音信源编解码技术 王红军1,钟子发1,陈润洁2 (1电子工程学院,安徽合肥230037; 2合肥通用所,安徽合肥230031) 摘要:依据GSM协议,介绍了GSM系统所采用的语音信源RPE-LTP(规则码激励长期预测)编码技术,详细阐述了相应的信源解码模型和解码算法,并在工程实现中对算法性能进行了大量的测试,验证了解码模型的可行性和算法的有效性。 关键词:GSM;信源编码;信源解码;RPE-LTP 一、引言 GSM(Global System for Mobile Communication)数字移动通信系统中的核心问题是有效性、可靠性和安全性。 信源编码解决的是有效性。由于移动通信属于无线通信,在无线通信中有效性的要求更加突出,这是因为无线信道的频率资源是有限的。提高移动通信的有效性可以在不同的层次来实现,本文着重讨论在物理层的实现技术。 信源编码是产生信源数据的源头,利用信源的统计特性,解除信源的相关性,去掉信源多余的冗余信息,以达到压缩信源信息率,提高系统有效性的目的。 在GSM移动通信系统中,语音信源编码是为了保障语音通信的有效性。本文在完成对语音编解码分析的基础上,工程实现了语音解码技术,技术的突破点就在于解码算法的实际工程应用。 二、GSM语音信源编码技术分析[1,2] GSM数字移动通信系统采用13kbit/s RPE-LTP语音编码技术,包括预处理、线性预测编码(LPC)分析、短时分析滤波、长时预测和规则码激励编码等5个主要部分,如图1所示。

1预处理 首先用8k H z采样频率对输入的模拟语音信号进行采样得到离散话语音信号 S 0(n),滤除S (n)中的直流分量,得到S 0f (n);其次采用一阶有限冲激响应(FIR)滤波 器进行高频预加重,得到信号S(n),加重的目的是加强语音谱中的高频共振峰,使语音短时谱及线性预测LPC分析中余数谱变得更平坦,从而提高谱参数估值的精确性。 2LPC分析 将信号S(n)的每160个样点(20ms)分为一帧,每帧计算出8个LPC反射系数r(i),i=1,2,…,8。计算步骤为先计算出9个自相关系数ACF(i): 最后对LAR进行量化得到LAR c ,一方面作为边信息送到解码器,另一方面作为对它解码,恢复出量化后的反射系数r′(i),以供短时分析滤波时使用。 3短时分析滤波 信号S(n)经过格型滤波器,滤除语音信号样点之间的短时相关性,产生短时LP 余量信号d(n):

JAVA聊天室课程设计报告(含源代码压缩文件)

南京晓庄学院 《JAVA程序设计》 课程设计报告 Java聊天室的设计与实现题 目 姓名:戴佳伟 学号:14552019 班级:14软件工程3班 指导教 王峥 师: 完成时间2016.10.7 成绩: 信息工程学院 2016年6月

目录 1引言.............................. . (3) 1.1 java 聊天室开发背景.................................... (3) 1.1java 聊天室开发的目的和意义........ (3) 1.2完成的主要工作.................... (4) 2 需求分析和总体设计................ (5) 2.1 需求分析与设计思路................ (5) 2.1.1 关键技术说明 .................................... . (5) 2.1.2 需求分析..................... ....................... 6 2.1.3 java 聊天室设计方案与思路 (6) 2.1.4 java 聊天室目录结构说明....... (7) 2.2 java 聊天室功能结构 .................................... (8) 3 详细设计.......................... (10) 3.1 java 聊天室模块实现 .................................... (10) 3.1.1 XX 模块实现.................. ..................... 10 4 java 聊天室运行结果.................................... (13) 5课程设计总结...................... .. (15)

音频基本知识

音频基本知识 第一部分 模拟声音-数字声音原理 第二部分 音频压缩编码 第三部分 和弦铃声格式 第四部分 单声道、立体声和环绕声 第五部分 3D环绕声技术 第六部分数字音频格式和数字音频接口 第一部分 模拟声音-数字声音原理 一、模拟声音数字化原理 声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。 图1 模拟声音数字化的过程 声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。 声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f s)是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。 ?采样频率 采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k 次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。 ?量化精度 光有频率信息是不够的,我们还必须纪录声音的幅度。量化位数越高,能表示的幅度的等级数越多。例如,每个声音样本用3bit表示,测得的声音样本值是在0~8的范围里。我们常见的CD位16bit的采样精度,即音量等级有2的16次方个。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。 ?压缩编码 经过采样、量化得到的PCM数据就是数字音频信号了,可直接在计算机中传输和存储。但是这些数据的体积太庞大了!为了便于存储和传输,就需要进一步压缩,就出现了各种压缩算法,将PCM转换为MP3,AAC,WMA等格式。 常见的用于语音(Voice)的编码有:EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码,AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有:MP3、AAC、AAC+、WMA等 二、问题 1、为什么要使用音频压缩技术? 我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比: PCM音频:一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码CD文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率,即176.4KB/s。这表示存储一秒钟PCM编码的音频信号,需要176.4KB的空间。 MP3音频:将这个WAV文件压缩成普通的MP3,44.1KHz,128Kbps的码率,它的数据速率为128Kbps/8=16KB/s。如下表所示: 比特率 存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系 采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频

文件压缩与解压实验报告

院系:计算机学院 实验课程:实验3 实验项目:文本压缩与解压 指导老师: 开课时间:2010 ~ 2011年度第 1学期专业: 班级: 学生: 学号:

一、需求分析 1.本程序能够实现将一段由大写字母组成的内容转为哈弗曼编码的编码功能以及将哈弗曼编码翻译为字符的译码功能。 2.友好的图形用户界面,直观明了,每一个操作都有相应的提示,用户只需按着提示去做,便能轻松实现编码以及译码的效果,编码及译码结果都被保存成txt 文档格式,方便用户查看。 3.本程序拥有极大的提升空间,虽然现在只能实现对大写字母的译码以及编码,但通过改进鉴别的算法,即能够实现小写字母乃至其他特殊符号等的编码。 4.本程序可用于加密、解密,压缩后文本的大小将被减小,更方便传输 5.程序的执行命令包括: 1)初始化 2)编码 3)译码 4)印代码文件 5)印哈弗曼树 6)退出 6.测试数据 (1)THIS PROGRAM IS MY FAVOURITE (2)THIS IS MY FAVOURITE PROGRAM BUT THE REPORT IS NOT 二、概要设计 为实现上述功能,应有哈弗曼结点,故需要一个抽象数据类型。 1.哈弗曼结点抽象数据类型定义为: ADT HaffTree{ 数据对象:HaffNode* ht,HaffCode* hc 基本操作: Haffman(int w[],int n) 操作结果:构造哈弗曼树及哈弗曼编码,字符集权值存在数组w,大小为n setdep() setdep(int p,int l) 操作结果:利用递归,p为哈弗曼节点序号,l为哈弗曼节点深度setloc() 操作结果:设置哈弗曼节点坐标,用以输出到界面 setloc2() 操作结果:设置哈弗曼节点坐标,用以输出到文本,默认状态下不启用 } ADT HaffTree 2.本程序包含4个模块 1)主程序模块: 接受用户要求,分别选择执行①初始化②编码③译码④印代码文件⑤印哈弗曼树⑥退出 2)哈弗曼树单元模块——建立哈弗曼树 3)哈弗曼编码单元模块——进行哈弗曼编码、译码 4)响应用户操作,输出内容到界面或文本 各模块之间的关系如下:

相关文档
最新文档