低速声码器的发展概况

合集下载

一种600b／s甚低速率声码器的研究

（放军理工大学通信工程学院．南京２００解１０７）
摘
要：为了满足短波窄带数字保密通信的需要，本文提出并实现了一种速率为６０／０ｂｓ的甚低速语音编码算法该算
法基于先进的混合激励低速语音编码技术，通过对模型结构及参数编解码等方面的改进，６０／的速率上获得了比较满意在０ｂｓ
编码以其低速率、良好的编码质量，在多媒体通信中越来越
ＭＥＰ为基础，Ａ．．Ｃｅ等人通过改变帧长、矢量量化ＬＶＭｃｒｅ
以及减少传输比特的方法实现了１ｋ／４１ｋ／】．ｂｓ】．ｂｓ的低速７【和６语音编码．ＴＷａｇ等人用矢量量化和帧间参数内插技术实．ｎ
现了１ｋ／．ｂｓ编码算法＿。但在更低速率下．语音参数编码２６］没有相关文献报道。因此，研究１２ｂｓ以下甚低速率语音．／ｋ
受到重视。２０世纪９０年代以来，语音编码研究主要集中在
ｒｓｌｆｂｅｔｅｑａｔｓａｄｉｆｒｌｓｂｅｔｅｌｔｉｇｔｓｓｏｔａｔｅｎｅｉｉｉｔｄａｉｕａｏｆｅａｏｉｍｅｅｕｔｏｊｉｕｉｔｔｏｍａｕｊｉｓｎｎｔｈｗｔｈｔｌｇｂｌｙａｒｃｌｎｏｇｒｈａｓｏｃｖｌｙｅｎｎｃｖｉｅｅｈｉｌｉｎｔｔｉｈｔｌｔｒ
的合成语音。客观音质测试和非正式主观试听结果表明，算法合成语音的可懂度和清晰度与传统的２４ｂｓ性预测．／线ｋ语音编码算法相当。该算法已经在单片ＤＳＰ芯片ＴＳ２ＶＣ４６上实时实现：Ｍ３０５１ＬＣ１Ｐ

甚低速声码器的历史和发展-数据采集与处理

一种基于EEMD域统计模型的话音激活检测算法1吴其前2张雄伟1解放军理工大学通信工程学院南京2100072解放军理工大学指挥自动化学院南京210007摘要：该文提出了一种基于EEMD域统计模型的话音激活检测算法。

算法首先利用总体平均经验模态分解（Ensemble Empirical Mode Decomposition，EEMD）对带噪语音进行分解，得到信号的本征模式函数（Intrinsic Mode Function，IMF）分量，选择与原信号的相关性最高的两个分量相加组成主分量；然后对主分量进行频域分解，引入统计模型，求出EEMD 域特征参数；最后利用噪声与语音的EEMD域特征参数的不同来进行语音激活检测。

实验结果表明，在不同信噪比情况下，本文算法性能优于目前常用的V AD算法，特别在噪声强度大时体现出明显的优势。

关键词：话音激活检测；经验模式分解；总体平均经验模式分解；EEMD域统计模型中图分类号：TN 912.3 文献标示码：文章编号：A V oice Activity Detection Algorithm Based on EnsembleEmpirical Mode Decomposition Domain Statistical Model1Wu Qi-qian, 2Zhang Xiong-wei1Institute of Communication Engineering, PLA Univ. of Sci. & Tech., Nanjing, 210007 2Institute of Command Automation, PLA Univ. of Sci. & Tech., Nanjing, 210007 Abstract: A Voice Activity Detection algorithm based on ensemble empirical mode decomposition domain statistical model is presented in this paper.The noisy speech is decomposed into Intrinsic Mode Function (IMF) components by using EEMD method. Two IMF components with the higher correlation with original speech are added to calculate statistical model characteristic parameter.The decision of the speech/noise is made by comparing characteristic parameter with threshold. The proposed V AD algorithm is tested on speech signals under various noise conditions with several SNRs. The results of experiments show that the proposed V AD algorithm outperforms some standard V AD algorithms, especially under low SNR noisy condition.Key words: Voice Activity Detection (V AD); Empirical Mode Decomposition (EMD); Ensemble Empirical Mode Decomposition (EEMD); EEMD domain statistical model引言话音激活检测（V oice Activity Detection, V AD）是一种重要的语音信号处理技术，其有效性直接影响语音处理系统的性能，如语音编码中编码速率控制、语音识别系统的识别率等。

pdt对讲机声码器

pdt对讲机声码器对于PDT（专业数字通信技术）对讲机声码器的功能和特点，这篇文章将从以下几个方面进行讨论。

一、什么是PDT对讲机声码器？PDT对讲机声码器是一种专门用于PDT对讲机的重要部件。

它负责将声音信号转化为数字信号，并通过数字通信网络进行传输。

声码器的主要作用是将人声转化为可压缩、可传输的数字音频数据，确保语音信息的高效传输和保真。

二、PDT对讲机声码器的特点1. 高效传输：PDT对讲机声码器采用高效的音频压缩算法，能够将声音信号压缩至最小，并保持语音质量的同时进行传输。

这种特点使得PDT对讲机在有限的网络带宽下实现清晰、稳定的语音通信。

2. 抗干扰能力强：PDT对讲机声码器采用先进的数字信号处理技术，能够对环境噪声进行降噪处理，并抑制背景杂音，从而提高语音信号的清晰度和可辨度。

即使在嘈杂的环境中，对讲机用户仍然能够清晰地传递语音信息。

3. 低功耗设计：PDT对讲机声码器采用了低功耗的设计方案，能够在相对较低的电量下保持长时间的通信。

这使得PDT对讲机在工作时间上得到有效延长，提高了用户的使用体验。

4. 多功能支持：PDT对讲机声码器还支持多种功能，如语音激活（VOX）功能、组呼/单呼功能、低功耗模式等。

这些功能丰富了对讲机的使用方式，能够满足不同领域和场景的通信需求。

三、PDT对讲机声码器的应用领域1. 公共安全领域：PDT对讲机声码器在公安、消防、交通等领域有广泛的应用。

其高效的语音传输和抗干扰能力，确保了紧急情况下的高效通信和指挥。

2. 企事业单位：PDT对讲机声码器在企事业单位的工作通信中也得到应用。

员工可以通过对讲机进行实时语音交流，提高工作效率和协作能力。

3. 物流、运输行业：PDT对讲机声码器可以在物流、运输行业中用于车队调度、货物追踪等方面的通信需求。

其高效稳定的语音传输能力为企业提供了便利和效益。

4. 建筑工地、工矿企业：PDT对讲机声码器在建筑工地和工矿企业的安全监控中起到了重要作用。

语音编码技术的应用与发展

语音编码技术的应用与发展语音编码技术的应用与发展隐匿 2001/08/01语音数字化的技术基本可以分为两大类：第一类方法是在尽可能遵循波形的前提下，将模拟波形进行数字化编码；第二类方法是对模拟波形进行一定处理，但仅对语音和收听过程中能时候到的语音进行编码。

其中语音编码的三种最常用的技术是脉冲编码调制（PCM）、差分PCM（DPCM）和增量调制（DM）。

通常，公共交换电话网中的数字电话都采用这三种技术。

第二类语音数字化方法主要与用于窄带传输系统或有限容量的数字设备的语音编码器有关。

采用该数字化技术的设备一般被称为声码器，声码器技术现在开始展开应用，特别是用于帧中继和IP上的语音。

除压缩编码技术外，人们还应用许多其它节省带宽的技术来减少语音所占带宽，优化网络资源。

ATM和帧中继网中的静音抑制技术可将连接中的静音数据消除，但并不影响其它信息数据的发送。

语音活动检测（SAD）技术可以用来动态的跟踪噪音电平，并为这个噪音电平设置一个享用的语音检测阀值，这样就使得语音／静音检测器可以动态匹配用户的背景噪声环境，并将静音抑制的可听度降到最小。

为了置换掉网络中的音频信号，这些信号不再穿过网络，舒适的背景声音在网络的任一端被集成到信道中，以确保话路两端的语音质量和自然声音的连接。

语音编码技术的类别语音编码方法归纳起来可以分成三大类：波形编码、信源编码、混合编码。

1．波形编码波形编码比较简单，编码前采样定理对模拟语音信号进行量化，然后进行幅度量化，再进行二进制编码。

解码器作数／模变换后再由低通滤波器恢复出现原始的模拟语音波形，这就是最简单的脉冲编码调制（PCM），也称为线性PCM。

可以通过非线性量化，前后样值的差分、自适应预测等方法实现数据压缩。

波形编码的目标是让解码器恢复出的模拟信号在波形上尽量与编码前原始波形相一致，也即失真要最小。

波形编码的方法简单，数码率较高，在64kbit/s至32kbit/s 之间音质优良，当数码率低于32kbit/s的时候音质明显降低，16 kbit/s时音质非常差。

一种基于MELP模型600bps声码器的设计

一种基于MELP模型600bps声码器的设计石乔林;韦凯;吴辉【摘要】The paper describes a 600bps speech coder based on MELP (enhanced mixed excitation linear prediction) algorithm. Consecutive three speech frames are grouped into super-frame and are jointly quantized by utilizing inter-frame redundancy in coder. The LSF vector is quantized with multi-mode predictive and multistage matrix quantization that handle mode transition by predictive coefficient and different mode in super-frames. The efficiency of the quantization is improved by joint quantization of pitch and gain. All of that make the quality of the synthetic voice better ever at 600bps.% 基于增强型混合激励线性预测(MELPe)模型，设计了一款600bps低速率语音编码器。

该编码器在保持MELPe算法特征的同时，利用相邻帧的帧间冗余，把连续的三帧构成一个超帧，对超帧采用多模式预测和多级矩阵量化技术进行联合量化。

同时针对超帧的不同模式，通过预测系数对相邻超帧的模式转换进行处理，实现线谱对参数(LSF)的矢量量化。

最后对基音周期与增益参数进行联合量化，进一步提高量化效率，完成一款在600bps下仍具有较好合成语音质量的语音编码器的设计。

基于AMBE-2000的低速声码器设计与实现

ＡＥ２０芯片电路可以被视为２ＭＢ一００个独立的部分，即编码器和译码器。编码器接收采样率为８ｓｓｋｐ的话音数据流，以较并高的速率输出数据流到传输通道上。相反，码器接收从传输译通道上传送的数据流合成出８ｓｓｋｐ话音数据流。ＡＢ一００ＭＥ２０基本工作原理如图１所示。
音数据送入信道，发送给接收端，接收端收到的语音数据必须加
上数据帧头后才能送给译码器进行译码。
在本系统中，ＡＥ２０设置为主动帧模式。在整个系将ＭＢ一００
统工作之前，要对ＡＥ２０进行复位，ＭＢ一００复位时间不少于５，０８在复位信号出现上升沿９ｍ后，５ｓ电路才开始处理ＴＶ２ＡＣ０Ｌ３０Ｉ１芯片的语音信号。在本系统中，采用高性能和低噪声的３６８放大器，通过可调电位器，调整输出语音信号的增益。在系统工作时，首先将模拟话音信号经放大器放大后送入到Ａ／Ｄ芯片中，行Ａ／进Ｄ变换，到较高的信噪比。得ＴＶ２ＡＣ０Ｌ３０Ｉ１芯片输出的是８ｓｓｋｐ的语音采集信号，通过硬件管脚ＲＴ＿Ｅ可以选择ＡＥ２０的信息速率，ＭＢ一００ＡＥＳＬＭＢ一００将ＡＥ２０
接下来的１帧数据删除，即第４帧数据不再传输。因此总的数９据量就没有增加，这样就可以以１０ｂｓ０ｐ的速率传输数据了。２
３接收端系统原理。天线接收到的是１０ｂｓ．０ｐ的语音数据２信息和同步位信息的总和。每帧语音数据后有ｌｉ的同步数ｂｔ

低速率编解码方法的综述

2.4kbps低速率编解码方法的发展和现状刘俊（武汉科技大学信息科学与工程学院）摘要：低速率（2.4kbps）的编解码算法自1976年问世以来至今先后经过了LPC-10声码器、LPC-10e 声码器与MELP声码器。

从前者到后者无论是从算法还是语音的合成质量上都有了很明显的改进。

本文就是具体着手于这三种声码器的改进入手的。

关键词：语音编码；声码器；线性预测；混合激励；The Development of Low Bit Rate Speech Coding methodsLIU JUN（Information science and Engineering academe in Wuhan University of Science and Technology）Abstract：Low bit rate speech coding methods has come through LPC-10 V ocoder, LPC-10e V ocoder and MELP Vocoder since 1976. From the former to the latter, there are very obvious improvements in the algorithm and the pronunciation synthesis quality. This article focuses on these three V ocoders’ improvements. Key words: speech coding; V ocoder; Linear Prediction; Mixed Excitation;1 引言随着我国通信市场发展步伐的加快，语音传输这一通信传输服务得到了迅速的发展。

低速率的语音传输能够降低价格、维持高品质，同时能够提供保密功能。

按语音编码的类型可以分为波形编码与参数编码，其中语音波形编码的编码质量较好，其技术实现也较为简单，因而是最早得到广泛应用的语音编码技术。

语音信号处理作业2

语音信号处理的发展历程及发展趋势201105028摘要：文章简要介绍了语音信号处理这一分支学科形成和发展的历史过程.指出了它在现代信息科学技术中的地位和作用.介绍了语音信号处理在应用领域的一些重要课题,如语音的低速率编码,语音的规则合成和文-语转换系统,语音识别和人-机语音对话等,这些仍然是当前研究的热点.文章最后展望了语音信号处理的发展前景,指出在这个领域还有很多难题等待人们去研究探索.关键词语音信号处理,语音低速编码,语音识别发展历程声学是物理学的一个分支学科,而语言声学又是声学的一个分支学科.它主要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,听觉器官的特性(如听阈、掩蔽、临界带宽、听力损失等),听觉器官的数学模型,语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等),语音的清晰度和可懂度等.当今通信和广播的发展非常迅速,而语言通信和语言广播仍然是最重要的部分,语言声学则是这些技术科学的基础.语言声学的发展和电子学、计算机科学有着非常密切的关系.在它发展的过程中,有过几次飞跃.第一次飞跃是1907年电子管的发明和1920年无线电广播的出现.因为有了电子管放大器,很微弱的声音也可以放大,而且可以定量测量.从而使电声学和语言声学的一些研究成果,扩展到通信和广播部门.第二次飞跃应该是在20世纪70年代初,由于电子计算机和数字信号处理的发展,人们发现:声音信号特别是语音信号,可以通过模数转换器(A/D)采样和量化,它们转换为数字信号后,能够送进计算机.这样就可以用数字计算方法,对语音信号进行处理和加工.例如频谱分析可以用傅里叶变换或快速傅里叶变换(FFT)实现,数字滤波器可以用差分方程实现.在这个基础上,逐渐形成了一门新学科)))语音信号处理.它的发展很快,在通信、自动控制等领域,解决了很多用传统方法难以解决的问题.在信息科学中占有很重要的地位.语音信号处理在信息科学中的地位和作用众所周知,语音在人类社会中起了非常重要的作用.在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字.近年来,普通电话、移动电话和互联网已经普及到家庭.在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献.再进一步,可以预料到的口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机(例如输入为汉语,输出为英语,或者相反),已经不是梦想而是提到日程上的研究工作了.人们早就希望用语音指挥机器,机器的执行情况也能用语音回答.这在某些领域已经部分地实现了.目前计算机芯片的集成度和运算能力,每18个月就提高一倍,而成本又不断降低,因此,它已经广泛地应用于在社会生产和生活的各个方面.然而计算机接收信息的外围设备和主机相比,要逊色得多.能说能听的计算机还不能普遍使用.也就是说:语音识别、语音理解和语音合成等课题,还有很多理论问题和技术问题没有解决,需要继续深入研究.科学家们深入研究后认为,要解决人-机语音对话这样的难题,做出真正实用的语音机器,必须开展跨学科的研究,如声学、语言学、语音学、生理学、数字信号处理、人工智能和计算机科学等.要真正赋予微电脑以语言功能,必须彻底了解语言是如何产生、感知,以及人类的语言通信是如何进行的?图1给出了从语言产生到语音感知全过程中的几个重要环节.从图1可以看到,要使这个问题得到满意的解决,需要深入研究人类发声器官和听觉器官机理,建立能反映客观真实情况的物理模型和数学模型.图1人类语音通信的过程语音信号所包含的信息量[1,2]语音信号中到底包含了多少信息量,需要多少比特才能够无失真地表示它们,这对于语音编码、语音合成和语音识别的研究都是很有用的.但是这也是一个很复杂的问题,它涉及到对于信号失真的评价.下面列举了三种评价,其中两种是由弗累雷格(F lanagan)给出的,另一种是由约翰斯登(Johnston)提出的.它们是建立在下面三种不同的失真评价上:(1)语音信号的信噪比;(2)接收语音信号时,信号由听觉外围处理以后,人们在主观上能够感觉到的失真;(3)人在接收语音信号时,不正确接收音素的数目和正确接收音素数目的比值.在所有的三种情况下,所得到的比特率是首先选择能够接受的失真等级,然后,计算该失真等级所需的比特率.在测量音素失真的情况下(第三种),可以把接受的失真级设置为零.如果所有的音素都能正确传送,就是所期望的最好性能.假设相邻的音素之间不出现相关,则平均信息速率很容易计算.按照仙农(Shannon)的信息理论,每一个符号需要的平均比特数为I=-2()log i ii p p (1)式中pi 为每一个符号i 的概率,英语有42个音素(符号),汉语的音素有48个,其中辅音22个,单元音13个,复元音13个.在正常情况下,谈话速率大约是每秒钟10个音素.使用音素出现的相对概率表,能够计算出每一个符号的信息量大约是5bit,得到的全部信息速率大约是50bit/s.请注意,自然的静寂也包含在这个比特速率内.而系统仅仅传送音素序列,缺少发音人声音的个性特征(也就是声带的形状和对声道的描述).在另一方面,相邻音素之间的相关也被忽视了.考虑到这些音素后,把这一估计作为语音信息所需要的比特率低限,或者人们感知语音信号的最低要求,还是有一些道理的.其次,把语音信号的信噪比作为失真评价(第一种),在不考虑编码器结构的情况下,可以得到语音信号信息速率的高限.在具有电话带宽的信号中,估计最大信息速率时,必须要考虑合理的噪声等级.令P是信号的平均功率,W是信号的带宽,G是附加的噪声信号功率,假设附加的噪声信号是高斯白噪声,令C表示最大的信息速率,由仙农的理论,对于包含了附加噪声G的信号,C可由下式计算.2(1)log pc wG=+ (2) 在上式中,如果语音信号的带宽为3.5kHz,信噪比(SNR)为30dB,则它所包含的最大信息速率为35kb/s.这是语音所需要的信息速率的上限.在上面的公式中,对于语音信号所存在的短期相关和长期相关,都没有考虑.而信号中所存在的结构性相关,就意味着冗余度.它能够在传输之前除去,从而降低信息速率.下面所讨论的估计,要包括人的感知和理解.声音信号由人的听觉器官处理以后,它的信息率就降低了.声音信号的某些特点,会由于人听觉系统的掩蔽效应而不能被注意到.例如在一个特有频率上的低幅度纯音,可以被一个靠近该频率更响的纯音掩蔽.在除去了人们在感觉上不能区分的特点以后,再来考虑信号的信息速率是恰当的.如果把理解失真评价的阈值也设置到零(不能听到失真).则首先计算语音信号的傅里叶变换,然后按频带进行计算,要求的量化器步长应该使量化噪声在掩蔽阈值以下.掩蔽阈值和频带宽度都是建立在听觉系统知识的基础上,所得到的信息速率估计称为理解熵.对于电话带宽的语音,理解熵估计大约为10kb/s.这是对于连续语音的,相当于执行透明的语音编码所需的平均速率.上面讨论表明,人的感知和理解在语音处理中有很重要的作用.语音信号的中、低速率编码[1,5,6]按照语音产生的简化模型,可以构成低速率的语音编码器(又称声码器).最早的模拟声码器和以后的数字声码器LPC-10、LPC-10e都是根据这个模型设计的.激励源使用二元激励,在同一时间只能用一种激励方式,即白噪声或脉冲串.声道传输函数可用一组带通滤波器模拟,在更多的情况下,是把声门脉冲形状、嘴辐射和声道等因素结合起来,用一个全极点滤波器模拟.因为人的发声器官是机械系统,运动缓慢,传送这些慢变化的控制参量,可以用速率比较低的数码.它和传送波形所需要的数码相比,能够压缩许多倍,不但节约了频带,而且有利于保密.在第二次世界大战中,美国和德国都使用过这种保密电话.随着电子技术的进步,这种声码器经过精心设计和不断优化,在 2.4kbit/s的速率下,可以产生完全可懂的语音.美国军方和北大西洋公约组织一直用作保密电话.但音质和自然度很差,其原因是二元激励模型有局限性,不符合客观实际情况.科学家们经过深入研究,提出了合成-分析法(AbS),比较满意地解决了这个问题.AbS方法并不是惟一的用于语音编码,而是估计和验证领域的通用技术.它的基本概念如下:首先,假设产生信号模型的方式如图3所示.这个模型受一些参量控制,改变这些参量就能够产生不同的观测信号.要使所表示的模型和真正的信号模型有同样的形式,能够使用一个试探程序或误差程序,采用有规则的方法改变模型参量,从而可以找到一组参量,它所产生的合成信号,能够以最小误差与真正的信号相匹配(假设模型开始就是有效的).因此,当计算到这样的匹配时,模型的参量就可以认为是真正信号的参量.图2使用合成-分析法的语音编码方框图(采用AbS-LPC编码方案)AbS-LPC方案(使用合成―分析法的线性预测编码)的基本操作如下:(1)将LPC和音调滤波器(时-变滤波器)的内容,初始化到预定的值(通常是置到零或低量级无规噪声).(2)缓冲一帧语音样品,在该帧上使用LPC分析算法,计算出一组LPC系数.(3)使用计算得到的LPC系数,构成一个反滤波器,计算非量化的残差信号.(4)为了有效地分析激励信号,把分析帧再分为整数子帧.对于每一个子帧:(i)计算音调滤波器(长期预测器)的参量,也就是延迟S和与它联系的标量因子 .(ii)按照图2中的级联滤波器,则最优的辅助激励可以按照合成语音和原始语音之间的最小误差方法确定.(5)最后的合成语音,是由最优辅助激励通过具有初始存储内容的级联滤波器产生的(初始存储内容是从以前子帧合成过程中残留下来的).这种方案运算量很大,但话音质量好,数码率也可以做得很低(16k)4.8kbit/s).它有多种类型.例如多脉冲激励线性预测编码器(MPE-LPC)、规则脉冲激励线性预测编码器(RPE-LPC)、码激励线性预测编码器(CELP)等.多带激励线性预测编码器,也使用合成-分析法(AbS),改进了二元激励.它能够在2.4kbit/s的速率下,得到较好的语音质量.所有这些语音编码器都能够在单一DSP(数字信号处理器)芯片上实现.由于DSP芯片的运算能力不断增强,而价格又逐年降低,它不仅用于保密通信,而且广泛用于卫星通信、移动通信、短波通信和网络电话等很多方面.语音的规则合成和文-语转换系统[3,7]语音的规则合成是通过语音学规则产生语音的机器.该系统内存储了较小的语音单位(如音素、双音素、半音节和音节)的声学参数,以及由音素组成音节,再由音节组成词和句子的各种规则.当输入文字时,该系统利用规则自动地将它们转换为连续的语音.目前,汉语合成技术大体上可以分为两类:时域合成或称语音的波形合成这种方案通常以音节为合成单位.汉语共有1280多个单音节,可以从引导句中截取,经过适当的数据压缩后,构成一个汉语合成音节库.使用时,根据要求的信息,从语音库中取出音节的波形数据,串接或编辑到一起,再经过重音、韵律、持续时间等修正,就可以输出连续的合成语音.20世纪80年代末,提出了基音同步叠加算法(PSOLA算法),使得在波形数据的编辑过程中,能够方便地改变音调、重音、持续时间等物理特征,从而在组成词和句子时,能够方便地加入相应的规则,并转换为自然的、连续的语音.这种语音合成技术,占用计算机的存储量较大,但合成语音清晰自然,目前使用比较广泛.频域合成或语音的参量合成仍以单音节、半音节为基本合成单元,首先从引导句中截取这些单音节、半音节的波形,并进行分析,计算出它们的物理特征参数.主要的特征参数有:控制音强的幅度、控制音高(音调)的基频、控制音色的频谱(可以使用短时傅里叶变换或线性预测系数等).线性预测系数也可以转换为共振峰频率和带宽,这样从语音学的观点考虑,更为直观.这些参数经过编码压缩后,组成语音合成的参数库.使用时,根据要求的信息,从参数库中取出相应的特征参数,经过编辑和连接,并加入语音合成所需要的规则,顺序送入到语音合成器.在合成器里,这些参数控制着电子发声器官的相应部分,能够产生连续的语音.这种合成技术所需要的存储器容量较小,但运算比较复杂.为了改进合成语音的质量,也可以使用音调同步重叠相加的方法.由于可以控制的参数比较多,而且和实验语音学联系紧密,也有很好的发展前景.目前的语音质量正在不断地得到改善.文-语转换系统是上述语音合成系统的进一步发展.它输入的文字串是通常的文本字串,系统中的文本分析器根据发音词典,将输入的文字串分解为带有属性标记的词和相应的读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定重音等级、语句结构、语调、以及各种停顿等.这样,文字串就转换为发出声音的代码串,合成系统就可以据此合成出具有抑、扬、顿、挫和不同语气的语句.目前,这种系统已经被广泛地应用于社会生活的各个方面.例如自动报时、自动报气象、电话咨询系统,以及用电话转发电子邮件等.然而,人类的语音交流是涉及语言学、社会学、心理学、生理学等领域的复杂处理过程.要使文-语转换系统能和播音员一样,具有情感并有很高的自然度,仍然是非常困难的问题.它要求计算机对所朗读的文本,要有正确的理解.这就要求计算机内要有一个丰富的知识库,还要有相当强的智能.这是目前还没有解决的问题,有待今后深入研究.语音识别和人-机语音对话[6]语音识别包括发音人识别和语音识别两大类:发音人识别要从一群发音人中,找出预知他(她)声音的某一特定人.它又分为与文本有关和与文本无关两种,前者要求发音人所说的文本是预先指定的,而后者要求文本是任意的和不受任何限制的,很显然,后者的难度更大.语音识别有多种分类方法:按照词汇量的大小可划分为:小词汇语音识别(词数通常小于100);中等词汇语音识别(词数在100到500之间);大词汇语音识别(词数在500以上).目前已经做到好几万词汇.按照发音的方式,可分为孤立词语音识别和连续语音识别.孤立词识别是指发音者每次只说一个词或一条命令,它在词汇表中作为一个独立的识别单元,由识别系统来识别.连续语音识别是指发音人按照正常自然的发音方式发音,由识别系统来识别.按照服务对象可划分为:依赖于发音人和不依赖于发音人两种,即特定人工作方式和非特定人工作方式.凡识别系统只针对一个用户,即按照某一个特定发音人的特征而设计的,称为特定人工作方式.识别系统是根据很多发音人的共有特征设计的,允许任何人使用,则称为非特定人工作方式.这些分类方法也可组合起来,形成多种语音识别系统.很显然,特定人、小词汇、孤立词语音识别系统是最简单的方式,比较容易实现.而非特定人、大词汇、连续语音识别则很复杂,虽然,目前国内有很多大学和研究所开发了可供表演的样机,美国IBM公司还推出了汉语连续语音识别软件.但是都还存在很多问题,没有得到推广和普及,未取得商业上的成功.特定人、小词汇、孤立词语音识别系统大都采用简单的模板匹配原理.在训练阶段,用户将词汇表中的每一个词依次说一遍,并将它的特征矢量序列存入模板库中.识别时,将输入语音的特征矢量,依次与模板库中的每一个模板作相似度比较,相似度最高者就是识别的结果.但由于发音人在训练时和识别时,他们的说话速度不会完全一致,使得识别率难以提高,而使用动态时间伸缩算法(简称DTW算法),可以动态调整说话速度,从而找到最佳的模式匹配,使识别率提高.这种系统的识别率能达到98%以上,目前已经在一些自控装置、机器人等领域中应用.非特定人、大词汇、连续语音识别系统的原理如图3所示.在预处理单元中,除了反混叠滤波器、模数转换器、自动增益控制外,还包括自动分段和识别基元选择.对于汉语,识别基元可用音素即声母-韵母,或者使用考虑了受前后发音影响的声母-韵母变体.一般地说,有限词汇量的识别基元应该选得大一些,而无限词汇量的识别基元应该选得小一些.声学参数可用倒谱系数,或者使用模拟人耳听觉特性的MEL谱,还需要加上能量、过零率、音调等特征.测度估计通常使用隐马尔柯夫模型(HMM).连续发音时,每一个音节甚至每一个音素都会受前后发音的影响,使得它的物理特征发生很大变化.再者,人们的发声器官都会有一些差异,不同音人发出同一声音的物理特征,会有一些不同.这对于人的听觉器官来说,分辨语音信号的共性和个性,听懂和理解都能满意解决.但对计算机来说,却是很难的课题.目前最广泛使用的算法是隐马尔柯夫模型(HMM).马尔柯夫过程是一个双重的随机过程,人的语言过程就是这样一种双重随机过程.语言本身是一个可观察的随机序列,它是由大脑(不可观察的)根据语言需要和语法知识(状态选择)所发音素(或音节、词、句)的参数流.所以语音信号的模型可以用马尔柯夫模型来描述.马尔柯夫模型定义为K=F(A,B,P).在这三个模型参数中,P是事件(语音的参数流,可表示为矢量序列)的初始概率分布,B是某状态下事件的概率分布,它就是外界观察到的事件符号的概率,A是状态转移概率的分布.图3非特定人、大词汇、连续语音识别系统的原理图使用HMM作语音识别时,假设要识别的音素(或音节、词)有V个,为每一个音素(或音节、词)设计一个HMM模型.先用VQ技术设计一个尺寸为M(M为观察的符号数)的码本,然后用该音素(或音节、词)多次发音的语音数据,对它进行训练,得到最优的模型参数.与此同时,用最佳准则得到状态数为N的状态转移序列.最后,对实际要识别的语音信号用上面训练所得到的模型进行评估,吻合概率最大的那个音素(或音节、词)就是识别的结果.结论和展望本文简要介绍了‘语音信号处理’这一分支学科的形成过程.并指出了它在现代信息科学中的地位.有一些基础的理论问题和技术问题还在继续研究和发展中.在信息科学的应用领域,例如语音的低速率编码,语音的规则合成和文-语转换系统,语音识别和人-机语音对话等,仍然是当前研究的热点.有的已经解决了,有的只是部分解决了,还有很多难题等待我们去研究探索.这些难题是:(1)听觉器官的物理模型和数学表示,目前还没有一套权威的理论和成熟算法.虽然有多种设计,但实验结果都不够充分.特别是从听觉前端处理器所得到的波形特征,经过更高一级的处理,最后的信息速率只有50 bit/s,这是人们理解和感知语音信号的最低限度.而这一过程在人脑中是怎样完成的?目前还不太清楚.它是一个非常复杂的问题,需要进一步研究探索.(2)语音识别的子课题很多,其中最难的是非特定人、大词汇量、连续语音识别.近年来这个课题已经取得很大的进展.世界上有很多权威实验室推出了可供表演的识别系统,有些公司还推出了商品.但是由于不同人的发音差别很大,再加上环境噪声等影响,系统的正确识别率和顽健性离实际使用还有很大距离.目前,人们所期望的口呼打字机或听写机还没有得到推广.(3)语音的规则合成和文-语转换系统,已经取得了一批可以实用的成果.然而要使它能和优秀的播音员一样,具有不同风格、情感、很高的自然度,仍然是非常困难的问题.关键技术是如何根据一段文章的语境和语义,自动生成计算机可以识别的韵律符号.这涉及到机器对自然语音的理解,目前还在研究中.(4)语音增强包括从强噪声中提取语音信号,或者从几个人同时说话的混合波形中,分离出各自的语音信号,这类研究虽然理论上有一些算法,但效果均不理想,还没有达到可以实用的水平。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一九八一年, 美国麻省理工学院Lincoln实验室R.J.Mcaulay提出了一种采用自适应子带振峰分析的低速声码器。该分析技术通过将二阶频谱与已测得频谱的单个子带适配来避免共振峰跟踪所固有的某些问题, 综合采用高质量的通道声码器进行, 所以调制器的增益由有声语言的共振峰分析包络抽样或无声语言的低阶LPC包络抽样来调整。根据固定带宽准则, 只传输三个谐振段的每个段的频率和增益, 再加上对数编码和帧充填法, 便获得了800bps的可懂声码器语言。更仔细地分配6个传输参数的比特数, 还能获得更低的比特率。例如Flanagan就建议可用4比特编码第一和第二共振峰, 而第三共振峰只需3比特。他还觉得3比特足够编码共振峰幅度, 因此, 基音和有无声判决用6比特, 帧充填控制用3比特, 则用28比特编码有声语言谱就应当是能办到的, 在帧速率为25Hz时就相当于只有700bps的速率。如果采用更加先进的帧充填插入算法, 则可以获得更低的速率。
以矢量量化技术为主、再结合其它的高效编码技术研制成低速声码器的例子很多, 这一研究工作也非常活跃。如IEEE的会员和高级研究员D.Y.Wong、B.H.Juang和A.H.Gray.Jr等在在一九八二年研制成一种800bps的矢量量化线性预测声码器。他们应用最新形成的LPC矢量量化理论使LPC系数编码的比特率下降到原来的四分之一, 同时应用分支搜索技术分离有声/ 无声码书获得了较好的算法效率。此外, 他们还利用差分编码技术将基音和增益参数的比特率降低了三分之一。
峰线声码器可用于无线（尤其是HF）和有线通信。借助于相应的调制解调器, 便可在交换网电话线路上作全双工通信。
一九八二年五月在巴黎IEEE的ASSP国标年会上,西德赫兹通信技术研究所croix和B.Makel提出了一种比特率极低的声码器方案。该声码器以标准LPC声码器为基础, 由4~5节变长管组成声管模型, 采用带附加近似的自相关分析法计算变长声管模型的参数, 取得了极好的效果。非正式收听测试证明,1000bps的声码语言质量儿乎与标准的2400bpsLPC声码器的话音相同, 但这个结果仅限于某个人讲话或某个句子。
在七十年代后期, 以A.H.Gray Jr.、R.M.Gray和J.D.Markel为首的一些电信研究专家在高效编码LPC参数方面作出了重大突破。在这以前, 系数都被变换为其它的“ 空间” 以去掉其相关性, 然后分别量化。这里说所的重大突破就是将表征特定声音的频谱紧紧地集为一组来实现, 以便用较少的频谱来表征一般人发那个声音的所有可能方式。由于在任何口语中都只有有限数量的声音或音素, 所以可用有限数量的频谱来表征语言中的所有声音。他们发现, 用大约1000种不同频谱或等效的1000个LPC系数矢量就能构成所有成年讲话人的一组有代表性的频谱。
在利用矢量量化进行LPC分析过程中, 首先实施一般的LPC分析, 然后将输入语言的LPC矢量与码书中的表值进行比较, 频谱距离量度规定了输入LPC矢量和码书表值之间的差值, 选择与原始矢量频谱距离最小的表值作为输出矢量。若采用10系数和10比特的码书的分析, 这就意味着可用10 比特来量化频谱,平均每个系数仅1比特。
声码器技术的发展
学院：
班级：
姓名：
学号：
指导教师：
摘要
语音编解码技术的迅速发展，使中低速率语音编码技术广泛应用于现代移动通信。声码器特别适用于以低比特率为首要条件的通信场合,较典型的应用包括标准电话信道上的保密语言传输和小型化数字存贮器中的语言存贮。在某些长距离无线通信中,人们宁可使用声码器而不愿意用目前音质低劣的模拟传输系统。目前,质量令人满意的实用语言编码器的比特率下限为2400bps,这个比特率是由线性预测编码和通道话音编码获得的。现在正在进行大量的研究工作,其目的是要获得低于2400bps的比特率而又要使语言质量不下降或下降很少。这个研究课题是一个既基本又具有实用价值的课题。声码器正向着速率更低、语音质量更好，延时更短，算法更复杂，抗干扰能力更强，带宽要求更小的方向发展。本文主要介绍国外声码器的发展概况、若干种低速声码器的技术原理和结果,并推测未来的工作。
一九七六年底, 美国海军研究实验室G.S.Kang和D.C.Coulter等研制成了一种线性预测共振峰声码器。它可以600bps的速率传输语言, 这个数据率还不到原始语言脉码调制传输率的百分之一。这项研究工作是在迫切需要极低速话音数字化装置以满足当时海军某些话音通信需要的前提进行的。600bps系统的综合语言较原始语言有某些损失, 但其清晰度之高却足以允许在某些特定的军用通信场合下使用该系统。
有一种方法, 刚提出来的时候叫做“ 模式匹配声码器” , 后来又称作“ 矢量量化”, 就是在谱形参数组合的全部可能范围内仅仅选择极小部分。在通道声码器、LPC声码器和共振峰声码器中, 谱形参数所确定的多维空间占据极不均匀, 大部分空间根本未利用。根据某种恰当的准则, 选择最接近有限数量的存贮谱形的目前输入,便可能用大约每帧10~12比特而不是每帧40比特来较好地确定谱形。通道声码器和LPC声码器的这种类型的系统已在实验室里证明可采用400~800bps的数字速率。
2）参数组压缩：只要新参数组对于量化并不比原参数组更敏感,则采用比较节省的参数组便能压缩比特率。另外,采用比较好的模型如共振峰模型,或应用某些变换Karhunen-Loeve变换,可以获得较少的参数组。
3）改进的量化技术：在以低比特率语言传输为目的而广泛开展语言分析技术研究的同时,量化问题也受到了一定程度的重视。量化问题的研究大体上局限于单独地量化每个参数的技术。基本的量化理论、模式匹配的若干研究以及最近对于LPC矢量量化的研究都证明参数矢量量化具有奇迹般地降低比特率的潜力。
其它如一九八一年TI公司(得克萨斯仪器公司)的Knn-Shan Lin和Ying L.Tsui经过对LPC反射系数特性的仔细研究, 揭示了利用高效参数编码及最佳化帧重复进一步压缩数据率的可能性。他们在探讨中使用了利用对数面积比距离量度的经改进的成本函数及能量加权函数,并在保持频谱失真不超出预定门限值灼同时利用动态规划法使帧长度最大。利用TI公司的TMS 5100或TMS 5200实施方案, 便可以800~850bps的速率获得高质量的语言。再如一九八年TRW公司国防和空间系统研究组的T.E.Carter、D.M.Dlugos及D.C.Le Doux等研制成了一种800bps的实时话音编码系统。该系统由TRW公司生产的微程控话音处理器（采用11K字存贮器）实现,DRT和其它的测试结果表明其可懂度和清晰度都令人满意, 完全可以用于话音通信。这种低数据率是通过一种高编码2400bps的LPC参数的算法获得的, 这种新的算法运用了其它类型通信系统所常见的若干数据压缩方案以获取所需的数据率, 这些方案包括自适应DPCM、K.L.变换、统计最住量化和动态比特分配等。其未来的工作应是进一步改进算法, 提高性能, 其最大的潜力可能在于用各种比特分配方案进行试验。由于要实施系统,对基本2400bpsLPC算法也还须进行若干改进。这些都会直接反映到800bps语言的质量之中。
关键字：声码器发展、线性预测编码、低比特率
一、引言
自首次成功地尝试建造一台能够模拟人声的机器以来,已经大约有两百年了。两百年中中人们曾建造了各种各样的这类机器,成功的情况也各不相同,年轻时的贝尔和他的兄弟就曾致力于建造一台这样的机器,但取得实质性的进展却是电子系统问世之后的事。1939年纽约世界博览会上,一项叫做“语言合成器”（Voder）的发明引起了轰动。这个语言合成器实质上是一台电子器件,它通过完全的电子方式分析人类的语言,然后又把它综合出来。该系统后来称之为“声码器”（话音编码器）,声码器标志了语言编码新纪元的开始,声码器这个名词也一直沿用至今而作为一大类系统的属名。近年来,声码器的研究变得日益重要了,这在很大程度上取决于数字化技术和语言编码的大规模应用。
七十年代初, 大家都公认共振峰声码器概念由于其低比特率编码而颇具吸引力,但也有它的实际困难。除有通道声码器的基音跟踪和有无声判决间题之外, 共振峰声码器还有恰当的共振峰跟踪、共振峰识别、静止期后的共振峰跟踪搜索及综合, 特别是辅音产生的综合等题, 这样就使得声码器的潜在用户转而对这种低比特率的话音编码方法持怀疑态度。Moye可作为这种怀疑者的例子, 他说:“虽然这种说法肯定要受到挑战, 但人们却可以说从实用数字语言传输观点来看,共振峰分析行不通。” 其它人如日本的电子和通信工程研究所的Y.Kato等也表明了类似的观点。
法国也进行了Байду номын сангаас速音码器的研究。一九七五年法国的Thomson-CSF公司电信部当年的《Thomson-CSF评论》第七卷第四期上报道, 他们研制成一种叫做“Ciphon”的声码器, 即峰线声码器。这种声码器与其说是试图模拟声源的生理特性, 还不如说是致力于模拟人耳并辨别“ 清晰的声学特性” 。它有两个主要特性:
七十年代初还报道有另外三种比较有代表性的极低速话音数字化装置, 碰巧它们的速率均为600bps。一是Flanagan在1970年实验论证的一种以600bps速率工作的共振峰跟踪声码器, 他用唱片表演了他的成果。由于试验句子包括了所有的元音、双元音和流音，所以这是600bps话音数字化装置的一个非常有限的试验论证。虽然如此, 但其综合语言却非常清晰, 表明共振峰声码法在话音分析综合方面具有潜力。第二种600bps的话音数字化装置则是由空军剑桥研究实验室Caldwell Smith等研制成的, 该装置采用模式匹配技术把通道声码器的输出分类, 系广泛的研究和开发工作的结果。其单一讲话人诊断韵律试验(DRT)的清晰度得分92%, 这对于600bps的话音编码系统可谓是一个非常高的得分。第三种600bps的系统则是Melpar公司所研制共振峰声码器的一种修正型。
这些频谱应当是什么呢?确定的方法之一就是利用实时数据, 把它们分成若干组, 然后把这些组的重心作为有代表意义的频谱。如果有足够多的组, 则每一组代表一个单一的性质不同的声音。通常为易于计算起见, 人们从几何形状出发,找出最好的两个频谱, 然后最好的4个,然后最好的8个等等, 所得的重心称为1比特, 2比特, 3比特等的码书。