几种语音端点检测方法简介

合集下载

端点检测(VAD)技术

端点检测(VAD)技术

端点检测(VAD)技术端点检测是语音识别和语音处理的一个基本环节,也是语音识别研究的一个热点领域。

技术的主要目的是从输入的语音中对语音和非语音进行区分,主要功能可以有:1.自动打断。

2.去掉语音中的静音成分。

3.获取输入语音中有效语音。

4.去除噪声,对语音进行增强。

目前,端点检测技术主要是根据语音的一些时域或频域特征进行区分。

一,时域参数时域参数端点检测是根据时域中的特征参数进行区分,一般如果信噪比较高的时候,效果至少90%以上。

1.时域能量大小。

2.时域平均过零率。

3.短时相关性分析。

相关性分析主要是利用语音的相关性比噪声强,噪声之间的相关性呈现下降的趋势,但因为噪声种类太多,因此只针对少量、特定噪声。

4.能量变化率。

也有人用这个,没有实验过。

5.对数能量。

6.子带能量。

实验表明,这个效果会比单纯的能量要好。

7.GMM假设检验。

8.其它。

其它也有一些,都是从自适应、噪声能量估计、信噪比估计等角度出发。

二,频域参数频域参数的抗噪性会比时域要好,但计算的cost也要高,下列技术是主流1.谱熵。

谱熵在频域与时域较量时,是比较优秀的,鲁棒性明显好于时域。

2.频域子带。

这种方法对于自适应类的算法来说,是比较优秀的,因为可以通过子带选择和设计,改变噪声的估计。

3.自适应子波。

这种算法通过子波的自适应,可以使得每一个相关帧的子波数和设计都不一样,如选择16个子带,选取频谱分布在250至3.5K之间,且能量不超过该帧总能量90%的子带,此时能够较好的消除噪声对端点的影响。

4.基频。

有人这样尝试,通过基频的检测,来表达声音是否真的存在,这类算法的鲁棒性很强,但对于轻音就会面临比较大的风险了。

5.其它。

自适应等思路。

三,时域和频域结合参数这类算法通过把时域和频域相结合的思路来设计算法,也是主流,因为时域计算快,可以快速检测,而频域更能表达噪声的特征。

1.自适应能量子带的谱熵检测。

把能量划分子带,结合谱熵。

一般单一的谱熵不能很好的表达噪声在帧内的加性能量噪声。

语音信号端点检测方法研究

语音信号端点检测方法研究
征 ,并 把这 个 参 数称 之 为 “ 带 方 差 ” 由于 系 统 频 。
是变时的 ,所以.实际计算的是短时频带方差 ,它
的实质 就是 计算 某一 帧信 号 的各 频带 能量 之 间 的方
测翻 。由于采集声音信号的最初的短时段为无语音 段 ,仅有均匀分布的噪声信号 ,因此可 以用 已知为 “ 静态”的最初几帧 ( 一般为 1 O帧)信号计算过零
i( ) 1, ) , o , )L,( } (
Z = i I , c2 f 】 T mn【 z+  ̄z , F c 其 中, 为经验值 ,一般取 2 ; c 尼 分别为根 5 z和 c 据所取最初 l 0帧样值算得的过零率的 “ 均值”和
其中的分量 ( ) 定义为 中心频率为 的滤波器的 输出能量 。它可以根据一帧信号通过一带通滤波器

要: 介绍 了语音信 号的 3种端点检测方法 ,即能量过零率检 测方法、基 于频 带方差 的检测方法和
语 音 短 时信 息 熵检 测 方 法 ,并 对 3种 方 法 的优 缺 点 进 行 分析 。
关键 词 : 音 识 别 ; 点检 测 ; 音 信 号 处 理 语 端 语 中图 分 类 号 : N923 T 1. 4 文献 标 志 码 : A
来计算 ,也可以计算一帧信号的 F ,然后把某几 兀’
个频率分组组合而得。对于数字信号 ,最低频是 0 ,
最 高 频是 1 7 , 余 各 中心频 率 按 一 定 规 则 从 0到 n 。其
递增 。
收稿 日期 :0 8 0 — 5 修 回 日期 :0 8 0 — 6 20 — 8 1 ; 2 0 — 9 1
作 者简 介 : 志 霞 ( 9 9 , , 张 1 7 一)女 山西 原 平 人 。 20 年 9月就 06

噪声背景下语音端点检测方法的研究

噪声背景下语音端点检测方法的研究

噪声背景下语音端点检测方法的研究摘要:在实际环境中,并没有完全纯净的语音信号,一段语音信号往往都伴有噪声信号,所以研究在背景噪声环境中的语音端点检测更为重要。

常用的短时过零率法、短时能量法以及双门限法都存在着一个共同的问题,即对信噪比要求较高。

为了解决这一问题我们提出了一改进算法,即基于谱减法思想的语音端点检测的方法,有效的提高检测的正确率。

关键词:端点检测噪声短时能量短时过零率谱减法1、引言语音端点检测是指用计算机数字处理技术来找出语音信号中的字或词等的起点和终点这俩个端点。

作为语音识别的前端,准确的端点检测可以提高识别的准确率。

语音端点检测的困难在于一段信号中的无声段或者录制一段语音段的前后人为呼吸等产生的杂音、语音开始处的弱摩擦音或弱爆破音以及终点处的鼻音,这些使得语音的端点需要综合利用语音的各种信号特征,从而确保定位的精确性,避免包含噪音信号和丢失语音信号。

常用语音端点检测法有短时过零率法、短时能量法以及双门限法。

但是对于信噪比要求较高,所以本文提出了一种基于谱减法思想的语音端点检测算法,提高语音端点检测的正确率。

2、语音端点检测方法常用方法中的短时能量法,语音和噪声的区别可以体现在它们的能量上,语音段的能量与噪声段能量相比,要大于噪声段的能量,因此可以以此为依据进行检测;短时过零率法,短时过零率可以区别语音是清音还是浊音[1,2],因此它可以从背景噪声中找出语音信号;传统双门限比较法,首先为短时能量和过零率分别确定两个门限,较低的门限对信号的变化比较敏感,较高的门限是用来确定进入语音段。

当低门限被超过时,未必是语音的开始而很有可能是由很小的噪声所引起的波动,但当高门限被超过并且在接下来的时间段内一直超过低门限时,则意味着语音信号的开始[3]。

但是上述三种方法在低信噪比时检测效果就不是很理想了。

因此我们提出了一种改进算法。

3、基于谱减法思想的语音端点检测算法的研究3.1 谱减法概述由于语音生成模型是低速率语音编码的基础,当语音受到噪声干扰时,提取的模型参数将很不准确,重建的语音质量急剧恶化。

语音端点检测的常用方法及改进

语音端点检测的常用方法及改进
2 1基 于短 时 能 量 或 短 时 平 均 幅 度 的 检 测 方 法 .
语音和噪声 、 音和浊音 它们 的主要 区别在 能量 上 , 清 语 音 段 的 能 量 比噪 声 段 的 大 , 音 的 能 量 比 清 音 的 大 。 浊 语
音段 的 能 量 是 噪 声 段 能 量 叠 加 语 音 声 波 能 量 的 和 。 统 检 传
维普资讯
第 2 卷第 3期 l
20 0 8年 6月
高 等 函授学报 ( 自然 科 学 版 )
J u n lo ih rCo r s o d n e Ed c to N a u a ce c s o r a fH g e r e p n e c u a in( t r l in e ) S
区分开 。 短 时 能 量 的定 义 为 :

( p ehR cg io ) 术 。 音 识 别 技 术 是 一 门交 叉 学 S ec eo nt n 技 i 语 科 , 及 语 言 学 、 音 学 、 字 信 号 处 理 、 式 识 别 、 息 涉 语 数 模 信
论 、 理 学 以及 人 工 智 能 等领 域[ 心 。 在许 多 包 含 语 音 识 别 的 系 统 中 , 语 声 应 答 系 统 、 如 说 话 人 识 别 系 统 和 语 音 识 别 系 统 等 [ 都 要 求 首 先 对 系 统 的 ,
们 的 优 劣 和 几 种 对 它们 的 改进 方 法 。 后 提 出 了利 用 图像 处 理 技 术 中的 边 缘 检 测 技 术 进 行 语 音 端 最
点检 测 的 思路 。 ~
关 键 词 : 音 处 理 ;端 点检 测 ; 时 能量 ;平 均 过 零 率 ;图像 处 理 ;边缘 检 测 语 短

端点检测——精选推荐

端点检测——精选推荐

端点检测语⾳信号处理实验⼀:端点检测姓名:XXX 学号:XXXX 班级:XX⼀、实验⽬的:理解语⾳信号时域特征和倒谱特征求解⽅法及其应⽤。

⼆、实验原理与步骤:任务⼀:语⾳端点检测。

语⾳端点检测就是指从包含语⾳的⼀段信号中确定出语⾳的起始点和结束点。

正确的端点检测对于语⾳识别和语⾳编码系统都有重要的意义。

采⽤双门限⽐较法的两级判决法,具体如下第⼀级判决:1. 先根据语⾳短时能量的轮廓选取⼀个较⾼的门限T1,进⾏⼀次粗判:语⾳起⽌点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)。

2. 根据背景噪声的平均能量(⽤平均幅度做做看)确定⼀个较低的门限T2,并从A点往左、从B点往右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是⽤双门限⽅法根据短时能量所判定的语⾳段。

第⼆级判决:以短时平均过零率为标准,从C点往左和从D点往右搜索,找到短时平均过零率低于某个门限T3的两点E和F,这便是语⾳段的起⽌点。

门限T3是由背景噪声的平均过零率所确定的。

注意:门限T2,T3都是由背景噪声特性确定的,因此,在进⾏起⽌点判决前,T1,T2,T3,三个门限值的确定还应当通过多次实验。

任务⼆:利⽤倒谱⽅法求出⾃⼰的基⾳周期。

三、实验仪器:Cooledit、Matlab软件四、实验代码:取端点流程图⼀:clc,clear[x,fs,nbits]=wavread('fighting.wav'); %x为0~N-1即1~Nx = x / max(abs(x)); %幅度归⼀化到[-1,1]%参数设置FrameLen = 240; %帧长,每帧的采样点inc = 80; %帧移对应的点数T1 = 10; %短时能量阈值,语⾳段T2 = 5; %短时能量阈值,过渡段T3 = 1; %过零率阈值,起⽌点minsilence = 6; %⽆声的长度来判断语⾳是否结束silence = 0; %⽤于⽆声的长度计数minlen = 15; %判断是语⾳的最⼩长度state = 0; %记录语⾳段状态0 = 静⾳,1 = 语⾳段,2 = 结束段count = 0; %语⾳序列的长度%计算短时能量shot_engery = sum((abs(enframe(x, FrameLen,inc))).^2, 2);%计算过零率tmp1 = enframe(x(1:end-1), FrameLen,inc);%tmp1为⼆维数组=帧数*每帧的采样点FrameLen tmp2 = enframe(x(2:end) , FrameLen,inc);%signs = (tmp1.*tmp2)<0;%signs为⼀维数组,符合的置1,否则置0zcr = sum(signs,2);%开始端点检测,找出A,B点for n=1:length(zcr)if state == 0 % 0 = 静⾳,1 = 可能开始if shot_engery(n) > T1 % 确信进⼊语⾳段x1 = max(n-count-1,1); % 记录语⾳段的起始点state = 2; silence = 0;count = count + 1;elseif shot_engery(n) > T2|| zcr(n) > T3 %只要满⾜⼀个条件,可能处于过渡段status = 1;count = count + 1;x2 = max(n-count-1,1);else % 静⾳状态state = 0; count = 0;endendif state = =2 % 1 = 语⾳段if shot_engery(n) > T2 % 保持在语⾳段count = count + 1;elseif zcr(n) > T3 %保持在语⾳段x3 = max(n-count-1,1);else % 语⾳将结束silence = silence+1;if silence < minsilence %静⾳还不够长,尚未结束count = count + 1;elseif count < minlen % 语⾳段长度太短,认为是噪声state = 0;silence = 0;count = 0;else % 语⾳结束state = 3;endendendif state = =3 % 2 = 结束段break;endendx1,x2,x3 %A、C、E坐标x11 = x1 + count -1 %B坐标x22 = x2 + count -1 %D坐标x33 = x3 + count -1 %F坐标%画图subplot(3,1,1)plot(x)axis([1 length(x) -1 1])%标定横纵坐标title('原始语⾳信号','fontsize',17);xlabel('样点数'); ylabel('Speech');line([x3*inc x3*inc], [-1 1], 'Color', 'red'); %画竖线line([x33*inc x33*inc], [-1 1], 'Color', 'red');subplot(3,1,2)plot(shot_engery);axis([1 length(shot_engery) 0 max(shot_engery)])title('短时能量','fontsize',17);xlabel('帧数'); ylabel('Energy');line([x1 x1], [min(shot_engery),T1], 'Color', 'red'); %画竖线line([x11 x11], [min(shot_engery),T1], 'Color', 'red'); % line([x2 x2], [min(shot_engery),T2], 'Color', 'red'); %line([x22 x22], [min(shot_engery),T2], 'Color', 'red'); %line([1 length(zcr)], [T1,T1], 'Color', 'red', 'linestyle', ':'); %画横线line([1 length(zcr)], [T2,T2], 'Color', 'red', 'linestyle', ':'); % text(x1,-5,'A'); %标写A、B、C、Dtext(x11-5,-5,'B');text(x2-10,-5,'C');text(x22-5,-5,'D');subplot(3,1,3)plot(zcr);axis([1 length(zcr) 0 max(zcr)])title('过零率','fontsize',17);xlabel('帧数'); ylabel('ZCR');line([x3 x3], [min(zcr),max(zcr)], 'Color', 'red'); %画竖线line([x33 x33], [min(zcr),max(zcr)], 'Color', 'red'); %line([1 length(zcr)], [T3,T3], 'Color', 'red', 'linestyle', ':'); %画横线text(x3-10,-3,'E起点'); %标写E、Ftext(x33-40,-3,'F终点');运⾏结果与分析:x1 = 650,x11 = 734,x2 = 646,x22 = 752,x3 = 643,x33 = 763得出的值x3<x2 <x1="" <x11<="" x22<="" x33="" ,基本符合要求<="" p="" bdsfid="194">。

语音端点检测方法探析

语音端点检测方法探析

【 关键词 】复 杂噪声环境 语音端点检测 方法
1端点检测系统结构框架
端 点检 测系 统结 构框 架主 要是 由 噪声估

- 一 语 音 激 活 喇 决
J L
哭 箔 果
吾音激活检测
计模块 、包 络确 定延时模块、和端点检测模块 这三个模块 构成 ,而前端处理和 门限过零率这 两个模块是辅助 ,模块 。如图 l 所示为端点检
均指用 来表示 ,均方差用 。来表 示 ),其 归 化 的均 方差可 以用 p来表示 , 那么 f ( )
估计就可 以确定阈值 。该模块的计算步骤是 : 要充 分利 用滤波 器 组把每 一帧 的信 号进 行分 频,最终分成很多个子带 ,这样就可 以在每一
个子带上分别计算信号的能量、估计噪声能量 和子带信躁 比的计算 ,然后再分别将噪声 的估 计值和 自带信噪 比求和,这样就可 以根据噪声

【 l , ( √
) ] e x p [ 一 ( E / | l ・ 1 ) 2 / 2 ,由 此公 以后的每个分析 窗内都要对 模型进行校正 。将 按照一定的时长对输入信号进行分帧 ,并且还
式可 知,能量分布随着 的变小会分布 的更加 集 中,也就是说能量序列的波动就会变得 更加 平缓 。 E p ( i ) 是E x( i )中仅有 的一个 稳定因素,

图2 :端点检测模 块框图
s 。 = ( 1 善 r i ) - £ I 】 2 } , 在 初 始 化
而E 订的分 布也 在进 行着十 分缓慢 地变 化,
因此 ,为 了更好 地跟踪 E n ( i ) 的分布 状况 ,在 第i 个分 析窗作 为例子进 行分析 ,将 前 r 帧的 归一 化均 方差 和信 号 的能量 均值 £ i 计算 出 来 ,下面我们就将 } l 和 在两种不同的情况在

语音端点检测比例法 -回复

语音端点检测比例法 -回复

语音端点检测比例法-回复什么是语音端点检测比例法?语音端点检测比例法是一种常用的语音处理技术,旨在识别连续音频中的语音和非语音部分,并确定语音起始和终止点。

在许多语音处理应用中,如语音识别、语音合成和语音增强等,准确确定语音的位置非常重要。

而语音端点检测比例法就是为了完成这项任务而设计的。

语音端点检测比例法的基本原理是通过对连续音频信号的能量变化进行分析,找出能量显著增加的区域,即语音开始的位置。

当信号内的相对能量大于某个阈值时,可以认为该区域为语音。

而当连续一段时间内的相对能量小于阈值时,可以认为语音结束。

一般来说,语音信号的能量变化较为平缓,而非语音信号(如静音、噪声等)的能量变化较小。

因此,通过设置合适的阈值,语音端点检测比例法可以有效地区分语音和非语音部分。

以下是语音端点检测比例法的一般步骤:1. 预处理:首先,对原始音频进行预处理,如去除噪声、滤波、标准化等。

这一步旨在提高语音信号的质量,使后续的分析更加准确。

2. 分帧:将预处理后的音频信号分成多个帧,通常每帧长度为20-30毫秒。

这样可以保证每个帧内的信号基本稳定,便于后续能量计算。

3. 能量计算:对每个帧内的信号进行能量计算,可以采用能量计算公式:E = ∑x(n) ^2,其中x(n)代表第n个样本点的振幅。

通过累加每个样本点的平方值,得到该帧的能量。

4. 确定阈值:根据经验或统计分析,确定能量阈值。

阈值的设置要综合考虑语音信号的特性以及实际应用的要求。

通常可以通过计算整个语音信号的能量平均值和标准差,以及考虑到信号的动态变化,适当设置一个合适的能量阈值。

5. 端点判断:对于每一帧的能量值,与阈值进行比较。

如果能量值大于阈值,可以认为该帧内含有语音;如果能量值小于阈值,可以认为该帧为非语音。

根据相邻帧的语音非语音情况,可以进一步确定语音的起始和终止点。

6. 后处理:对端点进行后处理,如去除短时静音区域、合并相邻的语音段等。

这一步旨在优化端点的准确性和平滑性,以提高后续语音处理算法的性能。

本科毕业论文-—语音端点检测算法的研究及matla程序仿真与实现

本科毕业论文-—语音端点检测算法的研究及matla程序仿真与实现

摘要摘要语音端点检测是指从一段语音信号中准确的找出语音信号的起始点和结束点,它的目的是为了使有效的语音信号和无用的噪声信号得以分离,因此在语音识别、语音增强、语音编码、回声抵消等系统中得到广泛应用。

目前端点检测方法大体上可以分成两类,一类是基于阈值的方法,该方法根据语音信号和噪声信号的不同特征,提取每一段语音信号的特征,然后把这些特征值与设定的阈值进行比较,从而达到语音端点检测的目的,该方法原理简单,运算方便,所以被人们广泛使用,本文主要对基于阀值的方法进行研究。

另一类方法是基于模式识别的方法,需要估计语音信号和噪声信号的模型参数来进行检测。

由于基于模式识别的方法自身复杂度高,运算量大,因此很难被人们应用到实时语音信号系统中去。

端点检测在语音信号处理中占有十分重要的地位,直接影响着系统的性能。

本文首先对语音信号进行简单的时域分析,其次利用短时能量和过零率算法、倒谱算法、谱熵算法进行语音端点检测,并对这几种算法进行端点检测,并进行实验分析。

本文首先分别用各算法对原始语音信号进行端点检测,并对各算法检测结果进行分析和比较。

其次再对语音信号加噪,对不同信噪比值进行端点检测,分析比较各算法在不同信噪比下的端点检测结果,实验结果表明谱熵算法语音端点检测结果比其他两种方法好。

关键词语音端点检测;语音信号处理;短时能量和过零率;倒谱;谱熵IAbstractEndpoint detection is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and un-useful noise. So, in the speech recognition system, speech enhancement, speech coding, echo cancellation and other systems are widely used.In Current the endpoint detection can be roughly divided into two categories, one is based on the threshold method based on the different characteristics of speech signal and the noise signals, a voice signal for each extracted feature, and then set the values of these thresholds compare with the values to achieve the endpoint detection purposes, This method is simple, it convenient operation, it is widely used, the main in this paper is based on the method of threshold method. Another method is based on the method of pattern recognition , it needs to estimate the speech signal and the noise signal model parameters were detected. Because is based on the method of pattern recognition and high self-complexity, a large amount of computation, so it is difficult to be use in real-time voice signal system for people.The Endpoint detection is take a very important position in the speech recognition, it directly affects the performance of the system. In this article first domain analysis in simple speech signal time, than dual threshold algorithm, cepstrum algorithm, spectral entropy algorithm for endpoint detection, and these types of endpoint detection algorithms, and experimental analysis points. Firstly, the algorithm were used to the original speech signal detection, and the algorithm to analyze and compare results. Secondly, the speech signal and then adding noise, SNR values for different endpoint detection, analysis and comparison of various algorithms under different SNR endpoint detection results, experimental results show that the spectral entropy of speech endpoint detectionIIalgorithm results better than the other two methods.Keywords voice activity detection;Signal processing; Average energy use of short-term and short-time average zero-crossing rat; cepstrum; spectral entropyIII毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3 基 于小 波变 换的端点 检测 方法 、 定声 音 的端点 的 。而且 双 门限方法 不具 备抗 噪能力 。 利用小 波变换 进行语 音 端点检 测 的算法 为: 基 于 自相 关极 大值 的检 测法 能够 很 准确 地检 测 出 () 1首先, 将语 音数 据进行 (6 / 分 帧处 理, 帧 语音 的端 点 ,将 纯高 斯噪声 段 和含语 音 信号段 分 辨 出 1ms 帧) 分 来。 当信嗓 比 比较高 时 , 运用 能量 端点 检测方 法可 以分 后 各 段 帧数 据X( 、: … …x()其 中, 括 (ms X( m) m) m , 包 4 ) 辨 出含语 音信 号段与 纯高 斯噪声 段 ,如 输入 信嗓 比为 的帧移 数据处 理 。
福 建 电

21 0 1年第 1 期 1
号 和 高斯 白噪声信号 的 自相关 函数准显 然, 如果信 号x 主要 由背景 白噪声组 成, 么, ( m) 那 由于 噪声 的 “ 谱 性质 , 个 能 量序 列 应该 近 似 为 一 白” 这 个 常数序 列, 方差近 似为零 。如果信 号xm 主要 由语 其 () 音 组成 , 么, 个 能量 序列 是 一个 数值 变 化 的序 列 , 那 这 其方 差 不会 近 似 为零 。如果 信号 x 主要 由 白色 噪声 ( m1 ( I )带嗓语罾 籽一化 自榴关 高斯自噪 声期 一化 自相 关 和语 音 组成, 么,不论 白色 噪声能 量 有多 大, 那 由于语 西数经过低通滤波后的波澎疆 荫藏经蛙低遁滤波后的波形躅 音 的存 在, 个 能量序列 依然 是一 个 数值 变 化 的序列 , 这 图 1带 嗓 语音 和高 斯 白嗓声 的归 一 化 自相关 函数 经 过 其 方差不 会近 似为零 。 低 通滤 波 后 的波 形 图 () 4根据 上 述 思想 , 计算 每 帧 小 波 变换 后 的语 音 数 通 过 上 面两个 波形 图的观 察 .可以得 出这样 的推 据X( ) m 的方差 , 果方 差 大于 门 限值 ‘ 那 么即认 为 这 如 P , 论 :带嗓 语音 信号 的归一 化 自相关 函数经 过低 通 滤波 帧 之 后 的语 音 数 据 为 有 效 的 语 音 数 据 ,记 为 起 始

在语 音合 成 、 编码 等 系统 中 , 高效 的端 点检 测也 直 接 影 在端 点检 测 中 ,如果 所 处 理 的语 音 信号 是非 平稳 响甚 至决 定 着 系统 的主要 性 能 。因此 ,端 点检 测 的效 的随 机过 程 s )可 以采用 短 时 自相关 函数 , 的定义 (, n 它 率、 质量 在语 音 处理 系统 中显 得 至关重 要 , 泛开 展 端 为 广 l_ 1-1 N 点 检测 实现 手段 方 面 的研 究 , 有一定 的现 实意 义[ 2 1 。 R( w ) ( +) 1 双 门 限检测 法 、
量 的 低 门 限 或者 过 零 率 的值 大 于 过零 率 的低 门 限 . 那 值 。而 高斯 白噪声信 号 的 自相 关 函数却 不具 有准 周期 么语 音 处 于过渡 段 , 否则 , 音仍 就处 于静 音段 。 语 性 ,它 的归一 化 自相 关 函数 的能量 在零 点之 外较 为平 () 4 当语 音 信 号 在 语 音段 时 , 断 如 果 短 时 能 量 的 均 和分 散 。从 图 1中我 们 可 以清 晰地看 到带 嗓语 音信 判
它 的归一化 自相关 函数定义 为
R = / 0 ( 尽 () ) 如( )
这里 之所 以要 将 自相关 函数归 一化 是 为 了在 语 音 端点 检测过 程 中不 用考 虑 信号 绝对 能量 的大小 所带 来 的影 响 。 我们 知 道语音 是 由浊音 和清 音两部 分组成 的 。 浊音语 音是 0 1ms ~ 0 内可 以被看 作 为一 个准 周期信 号 ,
的端 点检 测方 法 。 阐述其优 缺 点。
【 关键 词 】 语音 端 点检测 、 : 过零 率 、 小波 变换 、 自相 关极 大值
端 点 检测 是 语 音识 别 中非 常 重要 的一步 。所谓 语 值 大于 短时能 量 的低 门限或 者短 时过零 率 的值大 于短 音端 点检 测 。就是 从 一段 给定 的语 音 信号 中找 出语 音 时 过零 率的低 门 限 , 那么语 音 信号仍 然处 于语 音段 。 的起 始点 和 结束点 。在语 音识 别 系统 中 , 确 、 效 的 正 有 () 5如果 静音 长 度 小 于设 置 的最 大 静 音长 度 , 么 那 进 行 端点 检 测 不 仅 可 以减 少计 算 量 和缩 短 处 理 时 间 , 就 表 明语 音还 尚未 结束 , 还在 语 音段 , 如果 语音 的长度 而且 能排 除 无声 段 的噪声 干 扰 、提高语 音 识别 的 正确 小 于 最小 噪 声 长度 , 么 认 为语 音 太 短 , 时 是 噪声 , 那 此 否则语 音就进 入结束段 。 率。 研究 表 明【 即使 是在 安静 的环境 下 , 1 ] , 语音 识别 系统 同时判 断语 音处 于静音 段 ; 2 基 于 自相关 极大值 的语 音端 点检测 方法 、 半 以上 的错误 可 能主要 来源 于端点 检测 。 除此 之外 ,



语 音 端 点 检测 方 法 可采用 测 试信 号 的短 时 能 量 或 短 时对数 能 量 、 联合 过零 率 等特征 参数 . 采 用双 门限 并
判定 法来 检 测语 音 端点 , 即利 用过 零率 检 测清 音 , 短 用 时 能量检 测 浊音 , 者配 合 。 两 首先 为短 时能量 和过 零 率 分 别确定 两 个 门限 。 一个 是较 低 的 门限数 值较 小 , 信 对 号 的变化 比较敏 感 , 容 易超 过 ; 很 另一 个是 比较 高 的门 限, 数值 较 大 。低 门限被 超过 未必 是语 音 的开 始 , 可 有 能是 很短 的噪声 引起 的 , 门限被 超过并且 接下 来 的 自 高 定义 时间段 内的语 音超过 低 门限 , 意味着信 号开始圈 。 算 法过 程 如下 :
21 0 1年第 1 期 l
福 建 电

6 7
几种语 音端点检测方法简 介
邢 亚 从
( 苏州 市职业 大 学 江 苏 苏州 2 50 ) 10 0
【 摘 要 】 语 音 的端 点检 测 在语 音 的 编码 、 : 语音 识 别 、 音 增强 、 话 人识 别 中起 着非 常重要 的作 用 , 语 说 直 接 影响 着后 续 工作的 正确 率。本 文在 双 门限检 测 法的基 础上 , 介绍 了基 于 自相 关极 大值和 基 于小波 变换
5B 。当信 噪 比降低 为一 d 后 , 时传统 的检测 方法 d时 5B 此 已完全 失效 ,而运用 此方法 仍 能有效 地 检测 出含 噪语 ∑ ) 音 段 的端点 。 20 O —一 基 于 小波 变换 的检 测 法检 测 的声音 数 据虽 然 检测 但 0 B左 其 中‘ 端点 检 测 的 门限值 , 为 实验 测 量 的标 准 的精度 很高, 是检测 的速 度是很 慢 的。一个5 K p 为 右的语 音数 据( 约说 话 人 只说 了3 大 —5个字) 在 一 台 , 值,0 20为经验 门限值 。根 据 统计可 知 : 大 多数 语 音 绝 P .G 0 得 数 据 的 能 量 分 布 在 2  ̄0 ~ 0 0 0 之 间 ,因 此 取 C U 为 2 4 的 电脑 上检 测 。 到 完 整 的检 测 结 果 大 0 0 80 00 约需要5秒 。 果这段 语音数 据再 大一些 的, 测速 度 如 检 c= 0 0 0 。  ̄5 0 () 上 述 数 据 进 行 小 波 变换 , 换 结 果 为X ( ) 会变 得更慢 。所 以这个 算法 只能 在实 验室 的情 况下 进 3对 变 m 、 行 端 点检测 。 X() : ……x () m m 。如果xm是 背景 噪声 信号 , 这些 小 () 则 () 2估计端 点检 测 的门限值 :

后 的最 大值 可 以 间接地 反 映 信号 的 准周 期性 的程 度 。 帧 。 如果在 起始 帧存在 的前提 下 , ( ) X m 的方差 小于‘, p 那 带 噪语音 信号 和纯 噪声 信号 的归 一化 自相关 函数 最大 么认 为这 一帧 为结束 帧。 值 都 为 1 但 带噪语 音信 号具 有准周 期性 。当带噪 语音 5 总 结 , 、 的归一化 自相关 函数 通过 低通 滤波 器之 后 .由于 它 的 本 文介 绍 了端 点检 测 的三种 方法 : 门限检 测 法 、 双 能量较 为集 中 ,因此 低通 滤波 之后 所得 的最 大值 就较 基 于 自相关 极 大值 的检 测 法 和 基 于 小 波 变 换 的 检 测 大。反 之高斯 白噪声 的 归一化 自相关 函数 的能量 较分 法 。 过分析 , 门限结合 了短时 能量 和短 时过零 率 的 通 双 散. 因此低 通 滤波之后 所得 的最 大值就 较小 。 因此 可 以 优点 , 其精 确度 和误检率 都有 了进一 步 的改善 。但 是, 双 通 过统计 该最 大值 的方法 来确 定一 个 阈值用 于 区分带 其 中还 是有 很 多不 足 的地 方: 门限 的误 检 率还 是 很 高, 因为在 时域 范 围 内数据 的很多 特 征是 无 法 准确 决 噪语 音 信号和 高斯 白噪声 。
而清 音信号 接近 于随 机 噪声 。 由于语音 的绝 大部分 能 量都集 中在 浊音语 音部 分 , 因此语 音可 以在 1— s 0 20m 内被看 作为 一个准 周期 信 号 ,那么 它 的归一化 自相关 () 开始 阶 段 要 做 预加 重 和 分 帧 的处 理 , 1在 讲语 音 函数 也呈准 周期性 ,而高 斯 白噪声 信号 的归 一化 自相 信号 分成 一 帧一 帧 的 ,分 帧 处理 有利 于对 语 音信 号 进 关 函数 的分 布较 为平 均和分 散 , 不具有 准周期性 。 行准 确 的分 析 , 且 能够 提高 识别 率 , 时再分 别 求 出 并 这 为 了突 出带 噪语 音 信号 的归一 化 自相 关 函数 的准 每帧 的短 时 能量 和短 时过零 率 。 周 期 性 和高 斯 白噪 声 信 号 的归 一 化 自相 关 函数 分 散 () 2接着 要设 置 初始 化 参数 , 比如 最 大静 音 长 度 , 这 性 . 以利用 一个低 通 滤 波器 除去 波形上 的高 频毛 刺 。 可 是一 个经 验值 , 来判 断语 音 段是 否结 束 , 文 中是 根 这样 我们就 可 以清 晰地 看 到带 噪语 音信 号 自相关 函数 用 论 据大 量 的语音 样本 的长短设 置 的一个 经验 值 。 外 , 另 短 所 具 有 的准周 期性 。图 l ) 带 噪语 音信 号 的归一 化 f为 a 时能 量和 短 时过零 率 的 门限也 要设 置初 始值 等 。 自相 关 函数经 过低 通滤 波 后 的典 型 波形 。 图 1 1 ( 为高 b ( 判 断 当语 音 在 静 音 段 或 者 是 过 渡段 时 , 果 语 斯 白噪声信 号 的归一 化 自相关 函数 经过 低通 滤波 后 的 3 ) 如 音 信号 的 短 时能量 值 大于 短 时能量 的高 门限 ,或 者语 典型波形。我们看到带噪语音信号的 自相关函数的能 音 信号 的短 时 过零 率 大 于短 时过零 率 的高 门 限 ,那 么 量将集 中在基 音周期 的各 个整 数倍 点上 ,在这些 点附 就 确认 进入 了语 音 段 ,如果 短 时能 量 的值 大 于短 时 能 近将 出现极 大值 ,并且 此 函数 在零 点处 必将 出现 最大
相关文档
最新文档