几种语音端点检测方法简介

合集下载

端点检测（VAD）技术

端点检测（VAD）技术端点检测是语音识别和语音处理的一个基本环节，也是语音识别研究的一个热点领域。

技术的主要目的是从输入的语音中对语音和非语音进行区分，主要功能可以有：1.自动打断。

2.去掉语音中的静音成分。

3.获取输入语音中有效语音。

4.去除噪声，对语音进行增强。

目前，端点检测技术主要是根据语音的一些时域或频域特征进行区分。

一，时域参数时域参数端点检测是根据时域中的特征参数进行区分，一般如果信噪比较高的时候，效果至少90%以上。

1.时域能量大小。

2.时域平均过零率。

3.短时相关性分析。

相关性分析主要是利用语音的相关性比噪声强，噪声之间的相关性呈现下降的趋势，但因为噪声种类太多，因此只针对少量、特定噪声。

4.能量变化率。

也有人用这个，没有实验过。

5.对数能量。

6.子带能量。

实验表明，这个效果会比单纯的能量要好。

7.GMM假设检验。

8.其它。

其它也有一些，都是从自适应、噪声能量估计、信噪比估计等角度出发。

二，频域参数频域参数的抗噪性会比时域要好，但计算的cost也要高，下列技术是主流1.谱熵。

谱熵在频域与时域较量时，是比较优秀的，鲁棒性明显好于时域。

2.频域子带。

这种方法对于自适应类的算法来说，是比较优秀的，因为可以通过子带选择和设计，改变噪声的估计。

3.自适应子波。

这种算法通过子波的自适应，可以使得每一个相关帧的子波数和设计都不一样，如选择16个子带，选取频谱分布在250至3.5K之间，且能量不超过该帧总能量90%的子带，此时能够较好的消除噪声对端点的影响。

4.基频。

有人这样尝试，通过基频的检测，来表达声音是否真的存在，这类算法的鲁棒性很强，但对于轻音就会面临比较大的风险了。

5.其它。

自适应等思路。

三，时域和频域结合参数这类算法通过把时域和频域相结合的思路来设计算法，也是主流，因为时域计算快，可以快速检测，而频域更能表达噪声的特征。

1.自适应能量子带的谱熵检测。

把能量划分子带，结合谱熵。

一般单一的谱熵不能很好的表达噪声在帧内的加性能量噪声。

语音信号端点检测方法研究

征，并把这个参数称之为 “ 带方差 ” 由于系统频。
是变时的，所以．实际计算的是短时频带方差，它
的实质就是计算某一帧信号的各频带能量之间的方
测翻。由于采集声音信号的最初的短时段为无语音段，仅有均匀分布的噪声信号，因此可以用已知为 “ 静态”的最初几帧（一般为１Ｏ帧）信号计算过零
ｉ（）１，），ｏ，）Ｌ，（｝（
Ｚ＝ｉＩ，ｃ２ｆ】Ｔｍｎ【ｚ＋￣ｚ，Ｆｃ其中，为经验值，一般取２；ｃ尼分别为根５ｚ和ｃ据所取最初ｌ０帧样值算得的过零率的 “ 均值”和
其中的分量（）定义为中心频率为的滤波器的输出能量。它可以根据一帧信号通过一带通滤波器
摘
要：介绍了语音信号的３种端点检测方法，即能量过零率检测方法、基于频带方差的检测方法和
语音短时信息熵检测方法，并对３种方法的优缺点进行分析。
关键词：音识别；点检测；音信号处理语端语中图分类号：Ｎ９２３Ｔ１．４文献标志码：Ａ
来计算，也可以计算一帧信号的Ｆ，然后把某几兀’
个频率分组组合而得。对于数字信号，最低频是０，
最高频是１７，余各中心频率按一定规则从０到ｎ。其
递增。
收稿日期：０８０ — ５修回日期：０８０ — ６２０ — ８１；２０ — ９１
作者简介：志霞（９９，，张１７一）女山西原平人。２０年９月就０６

噪声背景下语音端点检测方法的研究

噪声背景下语音端点检测方法的研究摘要:在实际环境中,并没有完全纯净的语音信号,一段语音信号往往都伴有噪声信号,所以研究在背景噪声环境中的语音端点检测更为重要。

常用的短时过零率法、短时能量法以及双门限法都存在着一个共同的问题,即对信噪比要求较高。

为了解决这一问题我们提出了一改进算法,即基于谱减法思想的语音端点检测的方法,有效的提高检测的正确率。

关键词:端点检测噪声短时能量短时过零率谱减法1、引言语音端点检测是指用计算机数字处理技术来找出语音信号中的字或词等的起点和终点这俩个端点。

作为语音识别的前端,准确的端点检测可以提高识别的准确率。

语音端点检测的困难在于一段信号中的无声段或者录制一段语音段的前后人为呼吸等产生的杂音、语音开始处的弱摩擦音或弱爆破音以及终点处的鼻音,这些使得语音的端点需要综合利用语音的各种信号特征,从而确保定位的精确性,避免包含噪音信号和丢失语音信号。

常用语音端点检测法有短时过零率法、短时能量法以及双门限法。

但是对于信噪比要求较高,所以本文提出了一种基于谱减法思想的语音端点检测算法,提高语音端点检测的正确率。

2、语音端点检测方法常用方法中的短时能量法,语音和噪声的区别可以体现在它们的能量上,语音段的能量与噪声段能量相比,要大于噪声段的能量,因此可以以此为依据进行检测;短时过零率法,短时过零率可以区别语音是清音还是浊音[1,2],因此它可以从背景噪声中找出语音信号;传统双门限比较法,首先为短时能量和过零率分别确定两个门限,较低的门限对信号的变化比较敏感,较高的门限是用来确定进入语音段。

当低门限被超过时,未必是语音的开始而很有可能是由很小的噪声所引起的波动,但当高门限被超过并且在接下来的时间段内一直超过低门限时,则意味着语音信号的开始[3]。

但是上述三种方法在低信噪比时检测效果就不是很理想了。

因此我们提出了一种改进算法。

3、基于谱减法思想的语音端点检测算法的研究3.1 谱减法概述由于语音生成模型是低速率语音编码的基础,当语音受到噪声干扰时,提取的模型参数将很不准确,重建的语音质量急剧恶化。

语音端点检测的常用方法及改进

２１基于短时能量或短时平均幅度的检测方法．
语音和噪声、音和浊音它们的主要区别在能量上，清语音段的能量比噪声段的大，音的能量比清音的大。浊语
音段的能量是噪声段能量叠加语音声波能量的和。统检传
维普资讯
第２卷第３期ｌ
２００８年６月
高等函授学报（自然科学版）
ＪｕｎｌｏｉｈｒＣｏｒｓｏｄｎｅＥｄｃｔｏＮａｕａｃｅｃｓｏｒａｆＨｇｅｒｅｐｎｅｃｕａｉｎ（ｔｒｌｉｎｅ）Ｓ
区分开。短时能量的定义为：
一
（ｐｅｈＲｃｇｉｏ）术。音识别技术是一门交叉学Ｓｅｃｅｏｎｔｎ技ｉ语科，及语言学、音学、字信号处理、式识别、息涉语数模信
论、理学以及人工智能等领域［心。在许多包含语音识别的系统中，语声应答系统、如说话人识别系统和语音识别系统等［都要求首先对系统的，
们的优劣和几种对它们的改进方法。后提出了利用图像处理技术中的边缘检测技术进行语音端最
点检测的思路。～
关键词：音处理；端点检测；时能量；平均过零率；图像处理；边缘检测语短

端点检测——精选推荐

端点检测语⾳信号处理实验⼀：端点检测姓名：XXX 学号：XXXX 班级：XX⼀、实验⽬的：理解语⾳信号时域特征和倒谱特征求解⽅法及其应⽤。

⼆、实验原理与步骤：任务⼀：语⾳端点检测。

语⾳端点检测就是指从包含语⾳的⼀段信号中确定出语⾳的起始点和结束点。

正确的端点检测对于语⾳识别和语⾳编码系统都有重要的意义。

采⽤双门限⽐较法的两级判决法，具体如下第⼀级判决：1. 先根据语⾳短时能量的轮廓选取⼀个较⾼的门限T1，进⾏⼀次粗判：语⾳起⽌点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)。

2. 根据背景噪声的平均能量(⽤平均幅度做做看)确定⼀个较低的门限T2，并从A点往左、从B点往右搜索，分别找到短时能量包络与门限T2相交的两个点C和D，于是CD段就是⽤双门限⽅法根据短时能量所判定的语⾳段。

第⼆级判决：以短时平均过零率为标准，从C点往左和从D点往右搜索，找到短时平均过零率低于某个门限T3的两点E和F，这便是语⾳段的起⽌点。

门限T3是由背景噪声的平均过零率所确定的。

注意：门限T2，T3都是由背景噪声特性确定的，因此，在进⾏起⽌点判决前，T1，T2，T3，三个门限值的确定还应当通过多次实验。

任务⼆：利⽤倒谱⽅法求出⾃⼰的基⾳周期。

三、实验仪器：Cooledit、Matlab软件四、实验代码：取端点流程图⼀：clc,clear[x,fs,nbits]=wavread('fighting.wav'); %x为0~N-1即1~Nx = x / max(abs(x)); %幅度归⼀化到[-1,1]%参数设置FrameLen = 240; %帧长，每帧的采样点inc = 80; %帧移对应的点数T1 = 10; %短时能量阈值,语⾳段T2 = 5; %短时能量阈值,过渡段T3 = 1; %过零率阈值,起⽌点minsilence = 6; %⽆声的长度来判断语⾳是否结束silence = 0; %⽤于⽆声的长度计数minlen = 15; %判断是语⾳的最⼩长度state = 0; %记录语⾳段状态0 = 静⾳,1 = 语⾳段,2 = 结束段count = 0; %语⾳序列的长度%计算短时能量shot_engery = sum((abs(enframe(x, FrameLen,inc))).^2, 2);%计算过零率tmp1 = enframe(x(1:end-1), FrameLen,inc);%tmp1为⼆维数组=帧数*每帧的采样点FrameLen tmp2 = enframe(x(2:end) , FrameLen,inc);%signs = (tmp1.*tmp2)<0;%signs为⼀维数组，符合的置1，否则置0zcr = sum(signs,2);%开始端点检测,找出A,B点for n=1:length(zcr)if state == 0 % 0 = 静⾳，1 = 可能开始if shot_engery(n) > T1 % 确信进⼊语⾳段x1 = max(n-count-1,1); % 记录语⾳段的起始点state = 2; silence = 0;count = count + 1;elseif shot_engery(n) > T2|| zcr(n) > T3 %只要满⾜⼀个条件,可能处于过渡段status = 1;count = count + 1;x2 = max(n-count-1,1);else % 静⾳状态state = 0; count = 0;endendif state = =2 % 1 = 语⾳段if shot_engery(n) > T2 % 保持在语⾳段count = count + 1;elseif zcr(n) > T3 %保持在语⾳段x3 = max(n-count-1,1);else % 语⾳将结束silence = silence+1;if silence < minsilence %静⾳还不够长，尚未结束count = count + 1;elseif count < minlen % 语⾳段长度太短，认为是噪声state = 0;silence = 0;count = 0;else % 语⾳结束state = 3;endendendif state = =3 % 2 = 结束段break;endendx1,x2,x3 %A、C、E坐标x11 = x1 + count -1 %B坐标x22 = x2 + count -1 %D坐标x33 = x3 + count -1 %F坐标%画图subplot(3,1,1)plot(x)axis([1 length(x) -1 1])%标定横纵坐标title('原始语⾳信号','fontsize',17);xlabel('样点数'); ylabel('Speech');line([x3*inc x3*inc], [-1 1], 'Color', 'red'); %画竖线line([x33*inc x33*inc], [-1 1], 'Color', 'red');subplot(3,1,2)plot(shot_engery);axis([1 length(shot_engery) 0 max(shot_engery)])title('短时能量','fontsize',17);xlabel('帧数'); ylabel('Energy');line([x1 x1], [min(shot_engery),T1], 'Color', 'red'); %画竖线line([x11 x11], [min(shot_engery),T1], 'Color', 'red'); % line([x2 x2], [min(shot_engery),T2], 'Color', 'red'); %line([x22 x22], [min(shot_engery),T2], 'Color', 'red'); %line([1 length(zcr)], [T1,T1], 'Color', 'red', 'linestyle', ':'); %画横线line([1 length(zcr)], [T2,T2], 'Color', 'red', 'linestyle', ':'); % text(x1,-5,'A'); %标写A、B、C、Dtext(x11-5,-5,'B');text(x2-10,-5,'C');text(x22-5,-5,'D');subplot(3,1,3)plot(zcr);axis([1 length(zcr) 0 max(zcr)])title('过零率','fontsize',17);xlabel('帧数'); ylabel('ZCR');line([x3 x3], [min(zcr),max(zcr)], 'Color', 'red'); %画竖线line([x33 x33], [min(zcr),max(zcr)], 'Color', 'red'); %line([1 length(zcr)], [T3,T3], 'Color', 'red', 'linestyle', ':'); %画横线text(x3-10,-3,'E起点'); %标写E、Ftext(x33-40,-3,'F终点');运⾏结果与分析：x1 = 650，x11 = 734，x2 = 646，x22 = 752，x3 = 643，x33 = 763得出的值x3<x2 <x1="" <x11<="" x22<="" x33="" ,基本符合要求<="" p="" bdsfid="194">。

语音端点检测方法探析

【关键词】复杂噪声环境语音端点检测方法
１端点检测系统结构框架
端点检测系统结构框架主要是由噪声估
—
－一语音激活喇决
ＪＬ
哭箔果
吾音激活检测
计模块、包络确定延时模块、和端点检测模块这三个模块构成，而前端处理和门限过零率这两个模块是辅助，模块。如图ｌ所示为端点检
均指用来表示，均方差用。来表示），其归化的均方差可以用ｐ来表示，那么ｆ（）
估计就可以确定阈值。该模块的计算步骤是：要充分利用滤波器组把每一帧的信号进行分频，最终分成很多个子带，这样就可以在每一
个子带上分别计算信号的能量、估计噪声能量和子带信躁比的计算，然后再分别将噪声的估计值和自带信噪比求和，这样就可以根据噪声
＝
【ｌ，（ √
）］ｅｘｐ［一（Ｅ／｜ｌ・１）２／２，由此公以后的每个分析窗内都要对模型进行校正。将按照一定的时长对输入信号进行分帧，并且还
式可知，能量分布随着的变小会分布的更加集中，也就是说能量序列的波动就会变得更加平缓。Ｅｐ（ｉ）是Ｅｘ（ｉ）中仅有的一个稳定因素，
即
图２：端点检测模块框图
ｓ。＝（１善ｒｉ）－￡Ｉ】２｝，在初始化
而Ｅ订的分布也在进行着十分缓慢地变化，
因此，为了更好地跟踪Ｅｎ（ｉ）的分布状况，在第ｉ个分析窗作为例子进行分析，将前ｒ帧的归一化均方差和信号的能量均值￡ｉ计算出来，下面我们就将｝ｌ和在两种不同的情况在

语音端点检测比例法 -回复

语音端点检测比例法-回复什么是语音端点检测比例法？语音端点检测比例法是一种常用的语音处理技术，旨在识别连续音频中的语音和非语音部分，并确定语音起始和终止点。

在许多语音处理应用中，如语音识别、语音合成和语音增强等，准确确定语音的位置非常重要。

而语音端点检测比例法就是为了完成这项任务而设计的。

语音端点检测比例法的基本原理是通过对连续音频信号的能量变化进行分析，找出能量显著增加的区域，即语音开始的位置。

当信号内的相对能量大于某个阈值时，可以认为该区域为语音。

而当连续一段时间内的相对能量小于阈值时，可以认为语音结束。

一般来说，语音信号的能量变化较为平缓，而非语音信号（如静音、噪声等）的能量变化较小。

因此，通过设置合适的阈值，语音端点检测比例法可以有效地区分语音和非语音部分。

以下是语音端点检测比例法的一般步骤：1. 预处理：首先，对原始音频进行预处理，如去除噪声、滤波、标准化等。

这一步旨在提高语音信号的质量，使后续的分析更加准确。

2. 分帧：将预处理后的音频信号分成多个帧，通常每帧长度为20-30毫秒。

这样可以保证每个帧内的信号基本稳定，便于后续能量计算。

3. 能量计算：对每个帧内的信号进行能量计算，可以采用能量计算公式：E = ∑x(n) ^2，其中x(n)代表第n个样本点的振幅。

通过累加每个样本点的平方值，得到该帧的能量。

4. 确定阈值：根据经验或统计分析，确定能量阈值。

阈值的设置要综合考虑语音信号的特性以及实际应用的要求。

通常可以通过计算整个语音信号的能量平均值和标准差，以及考虑到信号的动态变化，适当设置一个合适的能量阈值。

5. 端点判断：对于每一帧的能量值，与阈值进行比较。

如果能量值大于阈值，可以认为该帧内含有语音；如果能量值小于阈值，可以认为该帧为非语音。

根据相邻帧的语音非语音情况，可以进一步确定语音的起始和终止点。

6. 后处理：对端点进行后处理，如去除短时静音区域、合并相邻的语音段等。

这一步旨在优化端点的准确性和平滑性，以提高后续语音处理算法的性能。

本科毕业论文-—语音端点检测算法的研究及matla程序仿真与实现

摘要摘要语音端点检测是指从一段语音信号中准确的找出语音信号的起始点和结束点，它的目的是为了使有效的语音信号和无用的噪声信号得以分离，因此在语音识别、语音增强、语音编码、回声抵消等系统中得到广泛应用。

目前端点检测方法大体上可以分成两类，一类是基于阈值的方法，该方法根据语音信号和噪声信号的不同特征，提取每一段语音信号的特征，然后把这些特征值与设定的阈值进行比较，从而达到语音端点检测的目的，该方法原理简单，运算方便，所以被人们广泛使用，本文主要对基于阀值的方法进行研究。

另一类方法是基于模式识别的方法，需要估计语音信号和噪声信号的模型参数来进行检测。

由于基于模式识别的方法自身复杂度高，运算量大，因此很难被人们应用到实时语音信号系统中去。

端点检测在语音信号处理中占有十分重要的地位，直接影响着系统的性能。

本文首先对语音信号进行简单的时域分析，其次利用短时能量和过零率算法、倒谱算法、谱熵算法进行语音端点检测，并对这几种算法进行端点检测，并进行实验分析。

本文首先分别用各算法对原始语音信号进行端点检测，并对各算法检测结果进行分析和比较。

其次再对语音信号加噪，对不同信噪比值进行端点检测，分析比较各算法在不同信噪比下的端点检测结果，实验结果表明谱熵算法语音端点检测结果比其他两种方法好。

关键词语音端点检测；语音信号处理；短时能量和过零率；倒谱；谱熵IAbstractEndpoint detection is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and un-useful noise. So, in the speech recognition system, speech enhancement, speech coding, echo cancellation and other systems are widely used.In Current the endpoint detection can be roughly divided into two categories, one is based on the threshold method based on the different characteristics of speech signal and the noise signals, a voice signal for each extracted feature, and then set the values of these thresholds compare with the values to achieve the endpoint detection purposes, This method is simple, it convenient operation, it is widely used, the main in this paper is based on the method of threshold method. Another method is based on the method of pattern recognition , it needs to estimate the speech signal and the noise signal model parameters were detected. Because is based on the method of pattern recognition and high self-complexity, a large amount of computation, so it is difficult to be use in real-time voice signal system for people.The Endpoint detection is take a very important position in the speech recognition, it directly affects the performance of the system. In this article first domain analysis in simple speech signal time, than dual threshold algorithm, cepstrum algorithm, spectral entropy algorithm for endpoint detection, and these types of endpoint detection algorithms, and experimental analysis points. Firstly, the algorithm were used to the original speech signal detection, and the algorithm to analyze and compare results. Secondly, the speech signal and then adding noise, SNR values for different endpoint detection, analysis and comparison of various algorithms under different SNR endpoint detection results, experimental results show that the spectral entropy of speech endpoint detectionIIalgorithm results better than the other two methods.Keywords voice activity detection;Signal processing; Average energy use of short-term and short-time average zero-crossing rat; cepstrum; spectral entropyIII毕业设计（论文）原创性声明和使用授权说明原创性声明本人郑重承诺：所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

３基于小波变换的端点检测方法、定声音的端点的。而且双门限方法不具备抗噪能力。利用小波变换进行语音端点检测的算法为：基于自相关极大值的检测法能够很准确地检测出（）１首先，将语音数据进行（６／分帧处理，帧语音的端点，将纯高斯噪声段和含语音信号段分辨出１ｍｓ帧）分来。当信嗓比比较高时，运用能量端点检测方法可以分后各段帧数据Ｘ（、： … …ｘ（）其中，括（ｍｓＸ（ｍ）ｍ）ｍ，包４）辨出含语音信号段与纯高斯噪声段，如输入信嗓比为的帧移数据处理。
福建电
脑
２１０１年第１期１
号和高斯白噪声信号的自相关函数准显然，如果信号ｘ主要由背景白噪声组成，么，（ｍ）那由于噪声的 “ 谱性质，个能量序列应该近似为一白” 这个常数序列，方差近似为零。如果信号ｘｍ主要由语其（）音组成，么，个能量序列是一个数值变化的序列，那这其方差不会近似为零。如果信号ｘ主要由白色噪声（ｍ１（Ｉ）带嗓语罾籽一化自榴关高斯自噪声期一化自相关和语音组成，么，不论白色噪声能量有多大，那由于语西数经过低通滤波后的波澎疆荫藏经蛙低遁滤波后的波形躅音的存在，个能量序列依然是一个数值变化的序列，这图１带嗓语音和高斯白嗓声的归一化自相关函数经过其方差不会近似为零。低通滤波后的波形图（）４根据上述思想，计算每帧小波变换后的语音数通过上面两个波形图的观察．可以得出这样的推据Ｘ（）ｍ的方差，果方差大于门限值 ‘ 那么即认为这如Ｐ，论：带嗓语音信号的归一化自相关函数经过低通滤波帧之后的语音数据为有效的语音数据，记为起始
一
在语音合成、编码等系统中，高效的端点检测也直接影在端点检测中，如果所处理的语音信号是非平稳响甚至决定着系统的主要性能。因此，端点检测的效的随机过程ｓ）可以采用短时自相关函数，的定义（，ｎ它率、质量在语音处理系统中显得至关重要，泛开展端为广ｌ＿１－１Ｎ点检测实现手段方面的研究，有一定的现实意义［２１。Ｒ（ｗ）（＋）１双门限检测法、
量的低门限或者过零率的值大于过零率的低门限．那值。而高斯白噪声信号的自相关函数却不具有准周期么语音处于过渡段，否则，音仍就处于静音段。语性，它的归一化自相关函数的能量在零点之外较为平（）４当语音信号在语音段时，断如果短时能量的均和分散。从图１中我们可以清晰地看到带嗓语音信判
它的归一化自相关函数定义为
Ｒ＝／０（尽（））如（）
这里之所以要将自相关函数归一化是为了在语音端点检测过程中不用考虑信号绝对能量的大小所带来的影响。我们知道语音是由浊音和清音两部分组成的。浊音语音是０１ｍｓ～０内可以被看作为一个准周期信号，
的端点检测方法。阐述其优缺点。
【关键词】语音端点检测、：过零率、小波变换、自相关极大值
端点检测是语音识别中非常重要的一步。所谓语值大于短时能量的低门限或者短时过零率的值大于短音端点检测。就是从一段给定的语音信号中找出语音时过零率的低门限，那么语音信号仍然处于语音段。的起始点和结束点。在语音识别系统中，确、效的正有（）５如果静音长度小于设置的最大静音长度，么那进行端点检测不仅可以减少计算量和缩短处理时间，就表明语音还尚未结束，还在语音段，如果语音的长度而且能排除无声段的噪声干扰、提高语音识别的正确小于最小噪声长度，么认为语音太短，时是噪声，那此否则语音就进入结束段。率。研究表明【即使是在安静的环境下，１］，语音识别系统同时判断语音处于静音段；２基于自相关极大值的语音端点检测方法、半以上的错误可能主要来源于端点检测。除此之外，
－
一
，
语音端点检测方法可采用测试信号的短时能量或短时对数能量、联合过零率等特征参数．采用双门限并
判定法来检测语音端点，即利用过零率检测清音，短用时能量检测浊音，者配合。两首先为短时能量和过零率分别确定两个门限。一个是较低的门限数值较小，信对号的变化比较敏感，容易超过；很另一个是比较高的门限，数值较大。低门限被超过未必是语音的开始，可有能是很短的噪声引起的，门限被超过并且接下来的自高定义时间段内的语音超过低门限，意味着信号开始圈。算法过程如下：
２１０１年第１期ｌ
福建电
脑
６７
几种语音端点检测方法简介
邢亚从
（苏州市职业大学江苏苏州２５０）１００
【摘要】语音的端点检测在语音的编码、：语音识别、音增强、话人识别中起着非常重要的作用，语说直接影响着后续工作的正确率。本文在双门限检测法的基础上，介绍了基于自相关极大值和基于小波变换
５Ｂ。当信噪比降低为一ｄ后，时传统的检测方法ｄ时５Ｂ此已完全失效，而运用此方法仍能有效地检测出含噪语 ∑ ）音段的端点。２０Ｏ —一基于小波变换的检测法检测的声音数据虽然检测但０Ｂ左其中‘ 端点检测的门限值，为实验测量的标准的精度很高，是检测的速度是很慢的。一个５Ｋｐ为右的语音数据（约说话人只说了３大 —５个字）在一台，值，０２０为经验门限值。根据统计可知：大多数语音绝Ｐ．Ｇ０得数据的能量分布在２￣０～０００之间，因此取ＣＵ为２４的电脑上检测。到完整的检测结果大００８０００约需要５秒。果这段语音数据再大一些的，测速度如检ｃ＝０００。￣５０（）上述数据进行小波变换，换结果为Ｘ（）会变得更慢。所以这个算法只能在实验室的情况下进３对变ｍ、行端点检测。Ｘ（）： ……ｘ（）ｍｍ。如果ｘｍ是背景噪声信号，这些小（）则（）２估计端点检测的门限值：
一
后的最大值可以间接地反映信号的准周期性的程度。帧。如果在起始帧存在的前提下，（）Ｘｍ的方差小于‘，ｐ那带噪语音信号和纯噪声信号的归一化自相关函数最大么认为这一帧为结束帧。值都为１但带噪语音信号具有准周期性。当带噪语音５总结，、的归一化自相关函数通过低通滤波器之后．由于它的本文介绍了端点检测的三种方法：门限检测法、双能量较为集中，因此低通滤波之后所得的最大值就较基于自相关极大值的检测法和基于小波变换的检测大。反之高斯白噪声的归一化自相关函数的能量较分法。过分析，门限结合了短时能量和短时过零率的通双散．因此低通滤波之后所得的最大值就较小。因此可以优点，其精确度和误检率都有了进一步的改善。但是，双通过统计该最大值的方法来确定一个阈值用于区分带其中还是有很多不足的地方：门限的误检率还是很高，因为在时域范围内数据的很多特征是无法准确决噪语音信号和高斯白噪声。
而清音信号接近于随机噪声。由于语音的绝大部分能量都集中在浊音语音部分，因此语音可以在１— ｓ０２０ｍ内被看作为一个准周期信号，那么它的归一化自相关（）开始阶段要做预加重和分帧的处理，１在讲语音函数也呈准周期性，而高斯白噪声信号的归一化自相信号分成一帧一帧的，分帧处理有利于对语音信号进关函数的分布较为平均和分散，不具有准周期性。行准确的分析，且能够提高识别率，时再分别求出并这为了突出带噪语音信号的归一化自相关函数的准每帧的短时能量和短时过零率。周期性和高斯白噪声信号的归一化自相关函数分散（）２接着要设置初始化参数，比如最大静音长度，这性．以利用一个低通滤波器除去波形上的高频毛刺。可是一个经验值，来判断语音段是否结束，文中是根这样我们就可以清晰地看到带噪语音信号自相关函数用论据大量的语音样本的长短设置的一个经验值。外，另短所具有的准周期性。图ｌ）带噪语音信号的归一化ｆ为ａ时能量和短时过零率的门限也要设置初始值等。自相关函数经过低通滤波后的典型波形。图１１（为高ｂ（判断当语音在静音段或者是过渡段时，果语斯白噪声信号的归一化自相关函数经过低通滤波后的３）如音信号的短时能量值大于短时能量的高门限，或者语典型波形。我们看到带噪语音信号的自相关函数的能音信号的短时过零率大于短时过零率的高门限，那么量将集中在基音周期的各个整数倍点上，在这些点附就确认进入了语音段，如果短时能量的值大于短时能近将出现极大值，并且此函数在零点处必将出现最大