语音信号端点检测技术的研究

语音信号端点检测技术的研究
语音信号端点检测技术的研究

本科毕业设计(论文)

语音信号端点检测算法的研究

贾钟强

燕山大学

2013年6月

本科毕业设计(论文)

语音信号端点检测算法的研究

学院(系):里仁学院

专业:测控技术与仪器

学生姓名:贾钟强

学号:0912********

指导教师:王娜

答辩日期:2013年6月16日

燕山大学毕业设计(论文)任务书

摘要

语音端点检测的目的是从包含语音的一段信号中确定出语音的起点和终点,是语音信号处理的前端操作。在语音增强,语音编码,语音识别等领域得到广泛应用。语音端点检测方法有基于特征和基于模型两类,基于模型的方法比较复杂,对环境的适应能力差,而基于特征的方法相对简单且具有一定的抗噪能力,此方法要求找到某种能够区分语音和噪声的鲁棒性特征,本文针对基于特征的语音端点检测方法展开研究。

针对基于谱熵的检测算法在低信噪比下鲁棒性差的缺点,提出一种新的基于距离熵的检测算法,该算法利用熵和倒谱系数的鲁棒性改变概率密度的计算方法,对经过预处理的带噪信号进行一系列运算得到每一点的倒谱系数,根据倒谱系数获得欧式距离,由欧式距离构造概率密度函数,由概率密度数得到距离熵特征,最后利用距离熵采用双门限值进行语音和噪声的区分。

本文实验所使用的带噪信号由法国aurora2.0库的干净语音和Noisex92噪声库的噪声混合而成,并使用MATLAB工具进行仿真实验,实验结果表明,本文提出的两种端点检测算法具有一定的鲁棒性,在较低信噪比下仍能较好的区分语音和噪声。

关键词语音端点检测,特征,熵,短时能量,短时过零率

燕山大学本科生毕业设计(论文)

V oice activity detection is the purpose of a signal containing speech determines the start and end of the speech,the speech signal processing front-end operations. In speech enhancement,speech coding,speech recognition and other fields are widely used. Speech endpoint detection methods are based on two types of features and model-based,model-based approach is more complex,poor ability to adapt to the environment,and the feature-based approach is relatively simple and has a certain anti-noise ability,this method requires to find some able to distinguish speech and noise robustness characteristics,this paper,a feature-based speech endpoint detection method conduct research.

For detection algorithm based on spectral entropy at low SNR shortcomings of poor robustness,a new distance-based entropy detection algorithm,the algorithm uses the entropy and the robustness of cepstral probability density changes the method of calculating on pretreated with a series of operations to be noisy signal at each point cepstral coefficients obtained under cepstral Euclidean distance,Euclidean distance constructed by the probability density function of the number obtained by the distance entropy probability density characteristics,and finally the use of entropy using distance Two threshold value distinction between speech and noise.

This paper also presents a support vector machine based on multi-feature detection algorithm based on support vector machine detection algorithm for noisy signals are seeking SNR! Corrected zero-crossing rate and AMMM three characteristics,the three form a characteristic feature matrix,using partial band noise signal support vector machine for training,the trained SVM automatically distinguish between speech and noise.

This experiment used the noisy signal by the French auroraZ.0 library library clean speech and noise noise Noisex92 mixture and use MATLAB tools for simulation experiment results show that the proposed two kinds of endpoint detection algorithm has a certain degree of robustness at low SNR still better

distinguish between voice and noise.

Keywords V AD,Feature,EntroPy,Short-term energy

目录

摘要........................................................................................................................ I Abstract ................................................................................................................. II 第1章绪论. (1)

1.1语音端点检测研究背景 (1)

1.2语音端点检测研究意义 (2)

1.3语音端点检测研究动态 (4)

1.4本文组织结构 (5)

第2章语音信号处理基础 (7)

2.1 语音信号的数学模型 (7)

2.2语音端点检测预处理 (8)

2.2.1预滤波 (8)

2.2.2预加重 (8)

2.2.3分帧 (8)

2.2.4加窗 (9)

2.3语音信号的时域分析 (10)

2.3.1短时能量和短时幅度 (10)

2.3.2短时过零率 (10)

2.4语音信号的频域分析 (11)

2.4.1滤波器组法 (11)

2.4.2傅里叶变换法 (11)

2.5语音端点检测主要步骤 (13)

2.6影响语音端点检测的原因及噪声分类 (13)

2.6.1影响语音端点检测的原因 (13)

2.6.2噪声分类 (14)

2.7本章小结 (16)

第3章语音端点检测的相关算法 (17)

3.1基于短时能量的端点检测 (17)

3.2基于时频方差和的检测方法 (21)

3.3基于多特征的端点检测方法 (25)

3.3.1基于短时过零率和短时能量的端点检测方法 (25)

3.3.2基于谱减法的端点检测方法 (28)

3.4 本章小结 (32)

第4章基于距离熵的语音端点检测算法 (33)

4.1熵的基本介绍 (33)

4.2基于谱熵的端点检测方法 (33)

4.3基于距离熵的语音端点检测方法 (34)

4.3.1距离熵 (34)

4.3.2算法构架 (36)

4.4实验结果 (39)

4.5本章小结 (42)

结论 (43)

参考文献 (44)

致谢 (48)

附录1 开题报告

附录2 文献综述

附录3 中期报告

附录4 英文文献

附录5 英文翻译

第1章绪论

第1章绪论

1.1语音端点检测研究背景

语言是人类特有的功能,声音是人类常用的工具,通过声音传递信息是人类最重要、最有效、最准确、最方便的信息交换的方式。随着现代科学的蓬勃发展,人类社会越来越显示出信息社会的特点,犹如衣、食、住、行对于人类是必要的一样,通信和信息交换也成为了人类社会存在的必要条件,不但在人与人之间,而且在人与机器之间每时每刻都需要进行大量的信息交换,让计算机听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法,计算机越来越向便携化方向发展,计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚。在电子计算机和人工智能机器的广泛应用中,人们发现,人和机器之间最好的通讯方式是直接进行语言通讯,实现人机自由对话,赋予机器以听觉,辨别话音的内容或者辨别说话人的身份,使机器能够按照人的意志进行各种操作,把人类从繁重或危险的劳动中解脱出来。用现代手段研究语音处理技术,使人们能更加有效地产生。

语音技术的应用己经成为一个具有竞争性的高新技术产业,它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理,工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面[1]。语音处理内容涉及到计算机科学,模式识别,信号处理,生理学,语音学,心理学等学科,还涉及到信号和信息处理系统,通信和电子系统等具体应用领域,多媒体技术的发展,使语音技术逐渐在越来越多的场合中推广使用,语音信号处理技术发展迅速,其研究成果具有重要的学术及应用价值,涉及一系列前沿课题,语音信号处理与信息科学中最活跃的前沿科学密切联系,并且共同发展。例如,神经网络理论、模糊集理论、小波理论是当前热门的研究领域,这些领域的研究常常把语音处理任务作为一个应用实例,而语音处理研究者也从这些领域的研究进展中找到突破口,使语音处理技术研究取得进展。从技术角度讲,语音信号处理是信息高速公路、多媒体技术、办公自动化现代通信及智能系统等新兴

燕山本科生毕业设计(论文)

领域应用的核心技术之一。

经过几十年的努力,语音信号处理在语音识别、语音增强、语音编码、说话人识别、说话人情感识别、语音合成等方面取得了巨大的进步,然而,一旦这些技术应用在实际环境中,由于环境噪声、信道、说话人自身因素等方面的影响,性能急剧下降,因为在实际环境中没有完全纯净的语音信号,一般都会伴有噪声或其它干扰[2]。例如,办公室环境下,电脑风扇转动的声音,键盘敲打的声音等都是噪声,而语音信号处理系统的处理对象是有效语音信号,即排除了纯噪声段的语音信号段,语音端点检测的任务就是判断待处理信号是语音还是非语音,从输入信号中找到语音部分的起止点,端点检测是语音识别,语音增强以及语音编码等中的一个重要环节[3]。

1.2语音端点检测研究意义

语音端点检测最早的应用是在贝尔实验室开发的电话传输和转换系统中,用于通信信道的时间分配,通过语音端点检测实现在空闲的信道插入其它的话音信息,之后,各种各样的语音端点检测算法在自动语音识别,说话人确认,回声消除,语音编码和其他方面的应用中被提出来[4]。语音端点检测作为语音信号处理系统的前端操作,在语音信号处理领域中有着重要的意义。

从背景噪声中检测出语音信号是语音识别系统中必要的预处理过程,如图1-1,有效的端点检测技术不仅能减少系统的处理时间,提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后续的识别性能得以较大提高,实验统计数字表明,端点的偏离对语音识别最终准确性影响明显:30ms 内的偏移对应精确度下降2%,当超过90ms时,影响达到30%[5]。

图1-1 语音识别系统图

第1章绪论

在语音增强中,语音端点检测主要应用于基于单声道的语音增强技术中,此时,噪声源是不可接近的,背景噪声的特性只能从带噪语音中获得,使用有音无音检测技术分离出无音段,这时无音段主要的表现为噪声特性,然后再通过某种统计方法,即可获得对背景噪声特性的近似估计[6]。

对于语音编解码技术,降低比特率是其不断发展的目标和动力,因为比特率的降低不仅可以提高已经很拥挤的信道的利用率,而且能使同样的存储芯片存储更多的信息,减少手持设备的平均能量消耗,延长电池寿命。在人们通常的对话过程中,听起来连续的语音信号其实是由一系列的无音片断和有音片断组合起来的。在背景噪声存在的情况下,无音片断中主要以噪声为主,所携带的有用信息相对于有音片断要小得多,所以,如果能将无音片断检测出来,则可以使用相对较少的比特数来表示,而不会改变解码端的语音质量,从而降低语音编码的平均编码比特率。

在现代通信技术中,凡是涉及到语音通信的,都需要应用到语音端点检测这一技术,并且这一技术的重要性不仅体现在日常语音通信中,更体现在科研和国防建设上。在科研领域,如3G手机等通讯产品的研发上,这一技术是不容回避的问题,要求在不影响接收语音信号质量的前提下,尽可能地降低静音段的数据传输率,此时精确的端点检测就非常必要。另外,有关国家安全保密工作,常需对某些通信线路进行监控,在对众多的线路进行监控时,为了节约人力物力并且不遗漏可疑信息,语音端点检测起到了至关重要的作用。由此可见,语音端点检测技术已经成为语音信号处理领域的重要课题之一,具有重要的理论研究价值和广阔的应用前景[7]。

由上面的分析可知,在有噪声的背景下,语音端点的检测非常重要,准确的端点检测可以提高识别的准确率,并且提高系统的处理速度,用于语音增强中,可以进行准确的噪声模型估计,在语音编码中,可以降低编码的平均比特率并降低功耗。目前,语音端点检测在高信噪比环境下已经取得了较为满意的检测结果,能得出较高的准确率,但在低信噪比环境下检测的结果不够理想,并且实际环境中的检测性能急剧下降,实验室的研究结果与复杂的实用环境下的语音端点检测仍存在一定的差距,如何准确地检测出带噪语音的端点至今仍是一个难题[8]。

燕山本科生毕业设计(论文)

1.3语音端点检测研究动态

对语音端点检测的研究最早可以追溯到上个世纪的50年代。当时是在一个实时语音翻译系统中,为了解决语音段和无语音段的检测问题而提出来的"在语音识别和说话人识别中,背景噪声使得端点检测变得复杂,同时,长距离电话传输信道中还存在人顺嘴,呼吸等类似的噪声。最近几年,无线电话!免提式电话、IP电话越来越流行,这些通信设备大多工作于信噪比较低的环境中。传统的语音端点检测算法都是针对实验室安静环境,直到近年来,噪声环境下的语音端点检测才开始研究[9]。

语音端点的检测方法主要分为基于模型和基于特征两大类。基于模型的检测方法要分别对语音和噪声进行建模,根据检测到的某些特征分别计算出在噪声模型和语音模型两种条件下的概率,然后根据这两个模型下概率的大小做出有声和无声判决,这种方法的操作过程类似于语音识别中进行模式匹配。例如,假设待检测的语音帧为有用语音或者为噪声的概率均为50%,如果在噪声模型下计算出的概率为80%,而在语音模型下计算出的概率为20%,由于噪声模型下计算出的概率大于语音模型下计算得出的概率,则可得出,所检测的语音帧为噪声,反之,如果在噪声模型下计算出的概率为20%,而在语音模型下计算出的概率为80%,则可得出该帧为有用语音帧。使用隐马尔可夫模型进行语音端点检测就是基于模型的检测方法。基于模型的语音端点检测方法过程比较复杂,而且实际环境多变,噪声多种多样,建立的语音和噪声模型可能跟实际环境不匹配,对环境的适应能力较差,检测准确率低。由于基于模型的检测方法的复杂性和不稳定性,研究者们一般倾向于使用第二类方法,基于特征的端点检测方法主要是通过寻找能够区分语音和噪声的特征参数来进行判断。例如,Rabiner等人在1977年提出了一种基于LPC欧氏距离测度的端点检测方法。该算法是Rabiner等人[10]在解决信号输出的语音很难用一般的算法来区分无语音、静默音和语音而提出来的"其主要思路是:先对这三种语音各自进行训练,得到各自的频域特性,然后利用LPC的测度和能量的非线性组合来对这三种语音进行检测。LuLie等人[11]提出一种基于时域特征参数端点检测方法一一用短时能量变化率来进行端点检测。这种算法采用的不是短时能量而是短时能量的变化率,在信噪比较高的情况下,

第1章绪论

在噪声和语音的区分点区域,由于信号帧的变化较剧烈,该方法选取的参数是一个小于1的正数,而在噪声区间或者语音区间由于信号不同,帧间的能量较平稳,变化不大,参数为0值。此方法的优点是具有一定的鲁棒性,但仍然存在信噪比低时的失效问题。

近年来,通讯技术特别是移动通讯技术的飞速发展,对语音信号端点检测方法研究提供了十分现实的动力。为了提高实时通信中语音端点检测系统的性能,文献[12]提出了子带统计滤波器的方法,通过子带统计滤波器在频域分别对噪声和语音进行估计,再利用信噪比特征,根据设定的门限值进行语音和非语音的区分。文献[13]对所有子带的SNR进行融合,形成SAF(sum of activation function)函数,此算法充分利用频域特征,并减少对噪声的频域能量分布的依赖,当噪声是非固定的时候,该方法也能可靠的执行。文献[14]中使用UMP(uniformly most powerful)根据LRT(likelihood ratio test)得出新的决策规则,再利用高斯分布和UMP对带噪语音检测语音段和非语音段[15]。随着小波分析在信号处理领域的广泛应用,也有不少基于小波分析的语音端点检测算法被提出,例如,选择小波部分子带跟踪信号的能量变化以实现端点检测[16],小波变换模极大值应用于信号突变点的检测等。

语音信号处理是发展最为迅速的信息科学技术之一,人机通过语音交互越来越重要,而端点检测作为语音处理的前端操作起着无可替代的作用。越来越多的学者对语音端点检测技术进行研究,相继提出许多新的语音端点检测算法。目前的端点检测算法大多只针对语音的某一个特征进行检测[17],大量的文献调研与实际研究发现,现有的各种语音信号端点检测技术都存在各自的不足,在低信噪比下检测结果不是很令人满意,有待进一步深入研究。

1.4本文组织结构

本课题主要研究噪声环境下有用语音起点和终点的检测,以提高噪声环境下语音端点检测的准确率为主要目的,借助已有的短时过零率和短时能量以及谱熵技术等,并以此为基础,组合出鲁棒性比较强的特征向量,从而提高噪声环境下端点检测的性能,使其能够很好的应用在实际环境中。本文分别对基于熵的检测方法和基于灰色模型的检测方法进行改进,通过研究和实验提出了基于距离熵的端点检测方法和基于支持向量机的多特征端点检测方

燕山本科生毕业设计(论文)

法。论文组织结构如下所示。

第1章为绪论,主要介绍了语音端点检测的研究背景、研究意义和研究动态。

第2章介绍了语音信号处理的一些基础知识,包括语音信号的特点及语音产生的数学模型,语音端点检测技术中的一些重要的预处理和语音在时域和频域表现出来的几个主要特征,简单介绍了影响语音端点检测的主要因素。

第3章介绍了已有的几种语音端点检测算法。包括短时能量及过零率,频带方差检测法等,并分析了这几种算法的优缺点。

第4章介绍基于距离熵的语音端点检测方法,此方法对带噪语音信号进行一系列变换,得到倒谱系数,再根据倒谱系数计算欧式距离,最后利用欧式距离建立熵。

最后对本文工作进行总结,并展望了需要进一步研究的内容。

第2章语音信号处理基础

第2章语音信号处理基础

2.1 语音信号的数学模型

与发出声音有关的各个器官叫做发音器官,人的发音器官包括:肺、气管、喉、咽、鼻和口,这些器官共同形成一条形状复杂的管道。声音是从肺部呼出的直气流通过在喉至嘴唇的器官的各种作用而发出的。作用的方式有三种,第一种把从肺部呼出的直气流变成音源,即变成交流的断续流或者乱流;第二种是对音源起共振和反共振的作用,使它带有音色;第三种是从嘴唇或鼻孔向空间辐射的作用。语音生成系统分成三个部分,喉的部分称为声门,在声门(声带)以下,称为声门子系统,它负责产生激励振动,是激励系统。从声门到嘴唇的呼气通道是声道,是声道系统,声道的形状主要由嘴唇!颖和舌头的位置来决定,在说话的时候,声门处气流冲击声带产生振动,然后通过声道响应变成声音,由于发不同音时,声道的形状不同,所以能够听到不同的语音"语音从嘴唇辐射出去,所以嘴唇以外是辐射系统。通常对声道形状和发音系统作某些假设,例如假设声道是时变的具有不均匀截面积的声管。激励的情况不同发不同性质的音,激励大致分为两大类:浊音激励和清音激励。发浊音时声道受到声带振动的激励引起共振,产生间歇的类斜三角形脉冲,发清音时声道被阻碍形成湍流,可以把清音激励模拟成随机噪声[17]完整的语音信号的数学模型可以用三个子模型:激励模型、声道模型、辐射模型的串联来表示,如图(2-1)所示:

(2-1)

H z A U z V z R z

()*()()()

图2-1 语音识别系统图

燕山本科生毕业设计(论文)

2.2语音端点检测预处理

2.2.1预滤波

预滤波可以达到两个目标,第一,可以抑制输入信号各频域分量中频率超过FS/2的所有分量(FS 为采样频率),以防止混叠干扰;第二,预滤波可抑制50Hz 电源工频的干扰"预滤波器是一个带通滤波器,有上下截止频率FH 和FL ,对于绝大多数语音编译码FH 为3.4KHz ,FL 为60~100Hz ,采样率为FS 为8KHz 。

2.2.2预加重

由于语音信号的平均功率受声门激励和口鼻辐射的影响,高频端大约在80Hz 以上按6dB 倍频程跌落,所以当求语音信号频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分难求,因此要对语音信号进行预加重(Pre-emphasis)处理。预加重的中心思想是利用信号特性和噪声特性的差别来有效地对信号进行处理,目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重是通过具有6dB/倍频程的提升高频特性的数字滤波器来实现,它一般是一阶数字滤波器。

1()1H z z μ-=- (2-2)

μ值接近1,如果要恢复原信号,只要对预加重处理过的信号做去重处理便可以还原。

2.2.3分帧

语音信号从整体来看其特性及表征其本质特征的参数均是随时间变化的,但是它又具有短时平稳特性,在短时间内(一般为10ms~30ms 内)可以看作是一个近似不变的平稳过程。目前绝大多数的语音信号处理技术均是在短时的基础上对语音信号进行分帧处理,然后分别对每一帧提取特征参数段。为了使帧与帧之间平滑,保持连续性,一般采用交叠分帧的方法,使前一帧和后一帧具有相交部分,相交部分称为帧移,如图2-2,分帧时要对帧长和帧移的长度进行选择,如果采用较大的帧长,则帧数太少,计算量会小,系统处理的速度快,但容易增加端点检测的误差;如果采用较小的帧长,则帧数

第2章 语音信号处理基础

较多,计算量增加,系统处理的速度慢。一般每秒的帧数约为33~100帧,帧移一般取帧长的1/3~2/3。

图2-2 帧长和帧移示意图

2.2.4加窗

对语音信号进行分帧后要进行加窗操作,这是为了避免截断效应。因为直接分帧相当于对语音信号加了一个矩形窗,由于时域相乘对应频域卷积,而矩形窗的旁瓣较大,会因为在时域将信号截断而在频域引起频谱泄漏,即由于频域卷积而使能量泄漏到其它频率处,并且分帧的长度越短这种效应越明显。要克服这个问题,则要在分帧后对语音信号进行加窗。加窗前确定窗长N ,用一定的窗函数w(n)乘以信号s(n)从而形成加窗语音信号sw(n)。

在语音信号处理中最常用的两种窗函数是矩形窗和汉明窗,它们的表达式分别为:

(l)矩形窗

{1

0(1)0

()n N else w n ≤≤-= (2-3)

(2)汉明窗 {0.54

0.46cos[2/(1)]0(1)0()n N n N else w n π--≤≤-= (2-4)

N 表示窗长,窗函数的选择对于短时分析参数的特性影响很大。不同的短时分析方法以及求取不同的语音特征参数对窗函数的要求不同,可以根据实际需要选择合适的窗函数和窗长度。一般来说选取窗函数的标准是:在时域因为是语音波形乘以窗函数,所以要减小时域窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取的语音波形缓慢降为零,减小语音帧的截断效应;在频域要有较宽的带宽以及较小的边带最大值。汉明窗的主瓣宽度比矩形窗大一倍,带外衰减也比矩形窗大一倍多,矩形窗的谱

燕山本科生毕业设计(论文)

平滑性能较好,但损失了高频成分,使波形细节丢失。

当采样周期一定时,频率分辨率随着窗长的增加而减少,即频率分辨率得到提高,但时间分辨率降低,如果窗口过短,频率分辨率降低,时间分辨率提高。对于时域来说,如果N 很大,则相当于很窄的低通滤波器,语音通过时,反应波形细节的高频部分被阻碍,短时能量随时间变化很小,不能真实反应语音幅度变化;如果N 很小,滤波器的通带变宽,短时能量随时间急剧变化,不能得到平滑的能量函数,因此要合理的选择窗口长度,N 一般选择为100~300。

2.3语音信号的时域分析

语音信号分析主要从时域和频域两方面进行,语音信号的时域分析就是分析和提取语音信号的时域参数。时域分析是最早使用,也是应用最广泛的一种分析方法,因为,进行语音分析时,时域波形最先接触而且也最直观,表示语音信号物理意义明确,运算量少,容易实现,

语音信号的时域参数有短时能量,短时幅度,短时过零率,短时自相关函数,短时平均幅度差函数等,下面分别对这些时域参数进行简单介绍。

2.3.1短时能量和短时幅度

对语音信号进行分帧!加窗处理后,则可得到第n 帧语音信号()n x m 为:

()()()01n x m w m x n m m N =+≤≤- (2-5)

N 为帧长,则第n 帧语音信号()n x m 的短时能量En 为:

1

20()N n n m E x m -==∑ (2-6)

短时能量和短时幅度的主要用途有:

(l)可以有效区分浊音段和清音段,因为浊音的En 比清音大的多。

(2)可以区分声母和韵母的分界,有声和无声的分界,连字的分界。

(3)作为一种超音段信息,用于语音识别中。

2.3.2短时过零率

短时过零率是指一帧语音中语音信号波形穿过零电平的次数。对于连续

语音端点检测

目录 摘要........................................................................................ 错误!未定义书签。Abstract .................................................................................. 错误!未定义书签。第1章绪论.. 0 1.1课题背景 0 1.2语音端点检测现状 0 1.3相关工作 (2) 1.4本文主要研究内容 (3) 第2章语音信号时频域分析及预处理 (4) 2.1语音信号简述 (4) 2.2语音信号分析 (4) 2.2.1 时域分析 (5) 2.2.2 频域分析 (5) 2.3语音信号分析处理 (7) 2.3.1 预加重 (7) 2.3.2 加窗分帧 (8) 2.4本章小结 (9) 第3章语音端点检测算法研究 (10) 3.1语音端点检测 (10) 3.1.1 简述 (10) 3.1.2 语音端点检测原理 (10) 3.1.3 语音端点检测算法及实施方案 (12) 3.2基于短时能量和短时过零率的语音端点检测 (13) 3.2.1 短时平均能量 (14) 3.2.2 短时过零率 (16) 3.2.3 基于短时能量和短时过零率的双门限端点检测 (18) 3.2.4 双门限语音端点检测实验 (19) 3.3基于倒谱特征的语音端点检测 (20) 3.3.1 倒谱特征 (20) I

3.3.2 倒谱距离 (21) 3.3.3 倒谱距离的检测算法流程 (23) 3.3.4 基于倒谱特征的语音端点检测试验分析 (25) 3.4基于谱熵的语音端点检测 (26) 3.4.1 谱熵特征 (26) 3.4.2 基于谱熵的端点检测流程 (27) 3.4.4 基于谱熵特征的语音端点检测试验分析 (28) 3.5算法比较 (30) 3.6本章小结 (33) 结论.................................................................................... 错误!未定义书签。参考文献................................................................................ 错误!未定义书签。致谢.................................................................................... 错误!未定义书签。附录1..................................................................................... 错误!未定义书签。附录2..................................................................................... 错误!未定义书签。附录3..................................................................................... 错误!未定义书签。附录4..................................................................................... 错误!未定义书签。附录5..................................................................................... 错误!未定义书签。

基于能量和过零率的语音端点检测

课题:基于能量和过零率的语音端点检测姓名:陈启望简盛龙颜艳丹 专业:2008级电子科学与技术(2)班 指导老师:胡朝炜 国立华侨大学信息科学与工程学院

一、前言 在复杂的应用环境下,从信号流中分辨出语音信号和非语音信号,是语音处理的一个基本问题。端点检测就是从包含语音的一段信号中确定出语音的起始点和结束点。正确的端点检测对于语音识别和语音编码系统都有重要的意义,它可以使采用的数据真正是语音信号的数据,从而减少数据量和运算量并减少处理时间。 二.方案选择 判别语音段的起始点和终止点的问题主要归结为区别语音和噪声的问题。 ①短时能量——如果能够保证系统的输入信噪比很高(即使最低电平的语音的能量也比噪声能量要高),那么只要计算输入信号的短时能量就基本能够把语音段和噪声背景区别开来。但是,在实际应用中很难保证这么高的信噪比,仅仅根据能量来判断是比较粗糙的。 ②短时平均过零率——它是语音信号时域分析中的一种特征参数。它是指每帧内信号通过零值的次数。在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零。如果是正弦信号,其平均过零率就是信号频率的两倍除以采样频率,而采样频率是固定的。因此过零率在一定程度上可以反映信号的频率信息。语音信号不是简单的正弦序列,所以平均过零率的表示方法就不那么确切。 ③两级判决法——在用短时能量判断的同时,还需进一步利用短时平均过零率进行判断,因为清音比噪声的短时平均过零率比背景

噪声的平均过零率要高出高几倍。即基于能量和过零率的端点检测方法,也称双门限比较法。 综上所述,选择第三种方法,更加准确,实现的程序也不是很复杂。 三、方法的理论介绍 1.第一级判决 a.先根据语音短时能量的轮廓选取一个较高的门限T1,进行一个粗 判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)。 b.根据背景噪声的平均能量确定一个较低的门限T2,并从A点往左、 从B点往右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是用双门限方法根据短时能量锁判定的语音段。 2.第二级判决 以短时平均过零率为标准,从C点往左和从D点往右搜索,找到短时平均过零率低于某个门限T3的两点E和F,这便是语音段的起

语音信号处理答案

二、问答题(每题分,共分) 、语音信号处理主要研究哪几方面的内容? 语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一 种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法 和技术。 、语音识别的研究目标和计算机自动语音识别的任务是什么? 语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为 计算机可读的输入,例如按键、二进制编码或者字符序列。 计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。 、语音合成模型关键技术有哪些? 语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。 、语音压缩技术有哪些国际标准? 二、名词解释(每题分,共分) 端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。 共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。 语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。 码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义 公示,用最少的搜素和计算失真的运算量。 语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题分,共分) 、简述如何利用听觉掩蔽效应。 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声 音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者 说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为 掩蔽量(或称阈移)。 、简述时间窗长与频率分辨率的关系。 采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。 、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

微弱信号检测装置(实验报告)剖析

2012年TI杯四川省大学生电子设计竞赛 微弱信号检测装置(A题) 【本科组】

微弱信号检测装置(A题) 【本科组】 摘要:本设计是在强噪声背景下已知频率的微弱正弦波信号的幅度值,采用TI公司提供的LaunchPad MSP430G2553作为系统的数据采集芯片,实现微弱信号的检测并显示正弦信号的幅度值的功能。电路分为加法器、纯电阻分压网络、微弱信号检测电路、以及数码管显示电路组成。当所要检测到的微弱信号在强噪音环境下,系统同时接收到函数信号发生器产生的正弦信号模拟微弱信号和PC机音频播放器模拟的强噪声,送到音频放大器INA2134,让两个信号相加。再通过由电位器与固定电阻构成的纯电阻分压网络使其衰减系数可调(100倍以上),将衰减后的微弱信号通过微弱信号检测电路,检测电路能实现高输入阻抗、放大、带通滤波以及小信号峰值检测,检测到的电压峰值模拟信号送到MSP430G2553内部的10位AD 转换处理后在数码管上显示出来。本设计的优点在于超低功耗 关键词:微弱信号MSP430G2553 INA2134 一系统方案设计、比较与论证 根据本设计的要求,要完成微弱正弦信号的检测并显示幅度值,输入阻抗达到1MΩ以上,通频带在500Hz~2KHz。为实现此功能,本设计提出的方案如下图所示。其中图1是系统设计总流程图,图2是微弱信号检测电路子流程图。 图1系统设计总流程图 图2微弱信号检测电路子流程图

1 加法器设计的选择 方案一:采用通用的同相/反相加法器。通用的加法器外接较多的电阻,运算繁琐复杂,并且不一定能达到带宽大于1MHz,所以放弃此种方案。 方案二:采用TI公司的提供的INA2134音频放大器。音频放大器内部集成有电阻,可以直接利用,非常方便,并且带宽能够达到本设计要求,因此采用此方案。 2 纯电阻分压网络的方案论证 方案一:由两个固定阻值的电阻按100:1的比例实现分压,通过仿真效果非常好,理论上可以实现,但是用于实际电路中不能达到预想的衰减系数。分析:电阻的标称值与实际值有一定的误差,因此考虑其他的方案。 方案二:由一个电位器和一个固定的电阻组成的分压网络,通过改变电位器的阻值就可以改变其衰减系数。这样就可以避免衰减系数达不到或者更换元器件的情况,因此采用此方案。 3 微弱信号检测电路的方案论证 方案一:将纯电阻分压网络输出的电压通过反相比例放大电路。放大后的信号通过中心频率为1kHz的带通滤波器滤除噪声。再经过小信号峰值电路,检测出正弦信号的峰值。将输出的电压信号送给单片机进行A/D转换。此方案的电路结构相对简单。但是,输入阻抗不能满足大于等于1MΩ的条件,并且被测信号的频率只能限定在1kHz,不能实现500Hz~2KHz 可变的被测信号的检测。故根据题目的要求不采用此方案。 方案二:检测电路可以由电压跟随器、同相比例放大器、带通滤波电路以及小信号峰值检测电路组成。电压跟随器可以提高输入阻抗,输入电阻可以达到1MΩ以上,满足设计所需;采用同相比例放大器是为了放大在分压网络所衰减的放大倍数;带通滤波器为了选择500Hz~2KHz的微弱信号;最后通过小信号峰值检测电路把正弦信号的幅度值检测出来。这种方案满足本设计的要求切实可行,故采用此方案。 4 峰值数据采集芯片的方案论证 方案一:选用宏晶公司的STC89C52单片机作为。优点在于价格便宜,但是对于本设计而言,必须外接AD才能实现,电路复杂。

语音端点检测方法研究

语音端点检测方法研究1 沈红丽,曾毓敏,李平,王鹏 南京师范大学物理科学与技术学院,南京(210097) E-mail:orange.2009@https://www.360docs.net/doc/8f8528278.html, 摘要: 端点检测是语音识别中的一个重要环节。有效的端点检测技术不仅能减少系统的处理时间,增强系统处理的实时性,而且能排除无声段的噪声干扰,增强后续过程的识别性。可以说,语音信号的端点检测至今天为止仍是有待进一步深入的研究课题.鉴于此,本文介绍了语音端点算法的基本研究现状,接着讨论并比较了语音信号端点检测的方法,分析了各种方法的原理及优缺点,如经典的基于短时能量和过零率的检测方法,基于频带方差的检测方法,基于熵的检测方法,基于倒谱距离的检测方法等.并基于这些方法的分析,对端点检测方法做了进行了总结和展望,对语音信号的端点检测的进一步研究具有深远的意义。 关键词:语音信号;端点检测;噪声 中图分类号:TP206. 1 1. 引言 语音信号处理中的端点检测技术,是指从包含语音的一段信号中确定出语音信号的起始点及结束点。语音信号的端点检测是进行其它语音信号处理(如语音识别、讲话人识别等)重要且关键的第一步. 研究表明[1],即使在安静的环境中,语音识别系统一半以上的识别错误来自端点检测器。因此,作为语音识别系统的第一步,端点检测的关键性不容忽视,尤其是噪声环境下语音的端点检测,它的准确性很大程度上直接影响着后续的工作能否有效进行。 确定语音信号的起止点, 从而减小语音信号处理过程中的计算量, 是众多语音信号处理领域中一个基本而且重要的问题。有效的端点检测技术不仅能减少系统的处理时间,增强系统处理的实时性,而且能排除无声段的噪声干扰,增强后续过程的识别性。可以说,语音信号的端点检测至今天为止仍是有待进一步深入的研究课题。 2. 语音端点检测主要方法和分析 在很长一段时间里,语音端点检测算法主要是依据语音信号的时域特性[2].其采用的主要参数有短时能量、短时平均过零率等,即通常说的基于能量的端点检测方法。这些算法在实验室环境下具有良好的性能,但在噪声环境下,则无法达到其应有的效果。近年来,随着通信业的迅猛发展,又出现了很多的语音端点检测算法。它们主要是通过采用各种新的特征参数,以提高算法的抗噪声性能。如基于倒谱系数[3]、频带方差[4]、自相关相似距离[5] 、信息熵[6]等也逐渐的被应用到端点检测中。有时,还通过将信号的几种特征组合成为一个新的特征参数来进行端点检测。 2.1基于短时能量和短时平均过零率的检测方法 该方法也称为双门限比较法,它是在短时能量检测方法的基础上,加上短时平均过零率,利用能量和过零率作为特征来进行检测.在信噪比不是很低的情况下,根据语音信号的能量大于噪声噪声能量的假设,通过比较输入信号的能量与语音能量阈值的大小,可以对语音段和非语音段加以区分[7].输入每帧信号的能量可由下式得到[7-8]: 1本课题得到江苏省普通高校自然科学研究计划资助项目(项目批准号:07KJD510110)的资助。

基于Matlab的语音端点检测实验研究

浙江科技学院学报,第19卷第3期,2007年9月Jo ur na l of Zhejiang U niv ersity of Science and T echnolog y Vo l.19No.3,Sep.2007 收稿日期:2007 04 23 作者简介:张震宇(1976 ),男,浙江兰溪人,讲师,硕士,主要从事电子技术和语音信号处理的研究。 基于Matlab 的语音端点检测实验研究 张震宇 (浙江科技学院自动化与电气工程学院,杭州310023) 摘 要:端点检测在语音识别中占有十分重要的地位,直接影响着系统的性能。今借助于M atlab 这一功能强大的工具,成功地开展了语音端点检测的实验研究。首先简介端点检测涉及的几个基本概念,然后分析端点检测的基本方法,最后分别进行孤立字、孤立词的语音检测实验;重点阐述实验开展的具体过程,并给出部分关键源代码。实验取得了良好的效果。 关键词:端点检测;短时能量;过零率;M atlab 中图分类号:T P391.42 文献标识码:A 文章编号:1671 8798(2007)03 0197 05 Expe rime ntal Study on Speec h Endpoint Detection Base d on Matlab ZH ANG Zhen y u (Schoo l o f Automat ion and Electr ical Engineer ing,Zhejiang U niv ersity of Science and T echnolog y,H angzhou,310023,China) Abstract:Endpoint detection plays an important ro le in speech recog nition,w hich dir ectly af fects perform ance of the speech system.With M atlab,exper im ents to detect speech endpoint are developed successfully.Firstly ,several basic concepts are introduced briefly.T hen,the basic method for endpoint detection is analyzed.At last,2experiments for isolated wo rd are car ried out.T he detailed ex perim ent procedure is focused on and par t of key source codes is given,w hich gains favourable effect. Key words:endpo int detection;short term energy ;zer o crossing r ate(ZCR);M atlab 所谓端点检测,就是从一段给定的语音信号中找出语音的起始点和结束点。在语音识别系统中,正确、有效地进行端点检测不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰、提高语音识别的正确率。研究表明,即使是在安静的环境下,语音识别系统一半以上的错误可能主要来自端点检测 [1] 。除此之外,在语音合成、编码等系统 中,高效的端点检测也直接影响甚至决定着系统的主要性能。因此,端点检测的效率、质量在语音处理系统中显得至关重要,广泛开展端点检测实现手段方面的研究,有一定的现实意义。 笔者查阅了大量关于端点检测的文献资料,典型的如文献[2 5]等,发现大部分文献把重点放在理论分析层面上,集中研究了如何较好地改进检测方

基于MATLAB的语音端点检测

短时能量matlab实现: [x]=wavread('song1.wav'); x=x/max(abs(x)); figure; subplot(3,1,1); plot(x); axis([1 length(x) -1 1]); ylabel('Speech'); FrameLen=240; FrameInc=80; yframe=enframe(x,FrameLen,FrameInc); amp1=sum(abs(yframe),2); subplot(3,1,2); plot(amp1); axis([1 length(amp1) 0 max(amp1)]); ylabel('Amplitude'); legend('amp1=∑│x│'); amp2=sum(abs(yframe.*yframe),2); subplot(3,1,3); plot(amp2); axis([1 length(amp2) 0 max(amp2)]); ylabel('Energy'); legend('amp1=∑│x*x│'); 短时过零率matlab实现: [x]=wavread('song1.wav'); figure; subplot(3,1,1); plot(x); axis([1 length(x) -1 1]); ylabel('Speech'); FrameLen = 240; FrameInc = 80; amp = sum(abs(enframe(filter([1 -0.9375], 1, x), FrameLen, FrameInc)), 2); subplot(312) plot(amp); axis([1 length(amp) 0 max(amp)]) ylabel('Energy'); tmp1 = enframe(x(1:end-1), FrameLen, FrameInc); tmp2 = enframe(x(2:end) , FrameLen, FrameInc); signs = (tmp1.*tmp2)<0; diffs = (tmp1 -tmp2)>0.02; zcr = sum(signs.*diffs, 2); subplot(3,1,3); plot(zcr);

微弱信号检测装置(实验报告)

微弱信号检测装置 摘要:本设计是在强噪声背景下已知频率的微弱正弦波信号的幅度值,采用TI公司提供的LaunchPad MSP430G2553作为系统的数据采集芯片,实现微弱信号的检测并显示正弦信号的幅度值的功能。电路分为加法器、纯电阻分压网络、微弱信号检测电路、以及数码管显示电路组成。当所要检测到的微弱信号在强噪音环境下,系统同时接收到函数信号发生器产生的正弦信号模拟微弱信号和PC机音频播放器模拟的强噪声,送到音频放大器INA2134,让两个信号相加。再通过由电位器与固定电阻构成的纯电阻分压网络使其衰减系数可调(100倍以上),将衰减后的微弱信号通过微弱信号检测电路,检测电路能实现高输入阻抗、放大、带通滤波以及小信号峰值检测,检测到的电压峰值模拟信号送到MSP430G2553内部的10位AD 转换处理后在数码管上显示出来。本设计的优点在于超低功耗 关键词:微弱信号MSP430G2553 INA2134 一系统方案设计、比较与论证 根据本设计的要求,要完成微弱正弦信号的检测并显示幅度值,输入阻抗达到1MΩ以上,通频带在500Hz~2KHz。为实现此功能,本设计提出的方案如下图所示。其中图1是系统设计总流程图,图2是微弱信号检测电路子流程图。 图1系统设计总流程图 图2微弱信号检测电路子流程图 1 加法器设计的选择 方案一:采用通用的同相/反相加法器。通用的加法器外接较多的电阻,运算繁琐复杂,并且不一定能达到带宽大于1MHz,所以放弃此种方案。

方案二:采用TI公司的提供的INA2134音频放大器。音频放大器内部集成有电阻,可以直接利用,非常方便,并且带宽能够达到本设计要求,因此采用此方案。 2 纯电阻分压网络的方案论证 方案一:由两个固定阻值的电阻按100:1的比例实现分压,通过仿真效果非常好,理论上可以实现,但是用于实际电路中不能达到预想的衰减系数。分析:电阻的标称值与实际值有一定的误差,因此考虑其他的方案。 方案二:由一个电位器和一个固定的电阻组成的分压网络,通过改变电位器的阻值就可以改变其衰减系数。这样就可以避免衰减系数达不到或者更换元器件的情况,因此采用此方案。 3 微弱信号检测电路的方案论证 方案一:将纯电阻分压网络输出的电压通过反相比例放大电路。放大后的信号通过中心频率为1kHz的带通滤波器滤除噪声。再经过小信号峰值电路,检测出正弦信号的峰值。将输出的电压信号送给单片机进行A/D转换。此方案的电路结构相对简单。但是,输入阻抗不能满足大于等于1MΩ的条件,并且被测信号的频率只能限定在1kHz,不能实现500Hz~2KHz 可变的被测信号的检测。故根据题目的要求不采用此方案。 方案二:检测电路可以由电压跟随器、同相比例放大器、带通滤波电路以及小信号峰值检测电路组成。电压跟随器可以提高输入阻抗,输入电阻可以达到1MΩ以上,满足设计所需;采用同相比例放大器是为了放大在分压网络所衰减的放大倍数;带通滤波器为了选择500Hz~2KHz的微弱信号;最后通过小信号峰值检测电路把正弦信号的幅度值检测出来。这种方案满足本设计的要求切实可行,故采用此方案。 4 峰值数据采集芯片的方案论证 方案一:选用宏晶公司的STC89C52单片机作为。优点在于价格便宜,但是对于本设计而言,必须外接AD才能实现,电路复杂。 方案二:采用TI公司提供的MSP430G2553作为控制芯片。由于MSP430G2553资源配置丰富,内部集成了10位AD,可以直接使用,简化电路,程序实现简单。此外还有低功耗,以及性价比高等优点,所以采用该方案。 5 显示电路的方案设计 方案一:采用液晶显示器作为显示电路,液晶显示器显示内容较丰富,可以显示字母数

基于MATLAB的语音端点检测

[x]=wavread('song1.wav'); x=x/max(abs(x)); figure; subplot(3,1,1); plot(x); axis([1 length(x) -1 1]); ylabel('Speech'); FrameLen=240; FrameInc=80; yframe=enframe(x,FrameLen,FrameInc); amp1=sum(abs(yframe),2); subplot(3,1,2); plot(amp1); axis([1 length(amp1) 0 max(amp1)]); ylabel('Amplitude'); legend('amp1=∑│x│'); amp2=sum(abs(yframe.*yframe),2); subplot(3,1,3); plot(amp2);

axis([1 length(amp2) 0 max(amp2)]); ylabel('Energy'); legend('amp1=∑│x*x│'); [x]=wavread('song1.wav'); figure; subplot(3,1,1); plot(x); axis([1 length(x) -1 1]); ylabel('Speech'); FrameLen = 240; FrameInc = 80; amp = sum(abs(enframe(filter([1 -0.9375], 1, x), FrameLen, FrameInc)), 2); subplot(312) plot(amp); axis([1 length(amp) 0 max(amp)]) ylabel('Energy'); tmp1 = enframe(x(1:end-1), FrameLen, FrameInc); tmp2 = enframe(x(2:end) , FrameLen, FrameInc); signs = (tmp1.*tmp2)<0; diffs = (tmp1 -tmp2)>0.02; zcr = sum(signs.*diffs, 2); subplot(3,1,3); plot(zcr); axis([1 length(zcr) 0 max(zcr)]) ylabel('ZCR'); [x,fs,nbits]=wavread('song1.wav'); x = x / max(abs(x));%幅度归一化到[-1,1] %参数设置 FrameLen = 256; %帧长 inc = 90; %未重叠部分 amp1 = 10; %短时能量阈值 amp2 = 2; zcr1 = 10; %过零率阈值 zcr2 = 5; minsilence = 6; %用无声的长度来判断语音是否结束 minlen = 15; %判断是语音的最小长度 status = 0; %记录语音段的状态 count = 0; %语音序列的长度 silence = 0; %无声的长度 %计算过零率 tmp1 = enframe(x(1:end-1), FrameLen,inc);

语音信号处理实验

哈尔滨工程大学实验报告 班级:电信三班 学号:2013081416 姓名:刘世杰

语音信号处理实验 一、实验目的 1、掌握短时能量的求解方法、短时平均过零率的求解方法,对输入的语音信号进行端点检测。 2、掌握语音信号的Mel 倒谱特征(MFCC )的求解方法,语音信号的线性预测原理以及LPC 特征的求解方法。 3、掌握语音信号基频的概念,加深对基频刻画声调特征作用的理解,掌握语音信号基频特征的典型求解方法。 4、掌握MATLAB 相应的功能以及使用方法。 二、仪器设备 HP 计算机、MATLAB 软件 三、实验原理 (一)语音信号的短时分析 端点检测是语音信号处理过程中非常重要的一步,它的准确性直接影响到语音信号处理的速度和结果。本次实验利用短时过零率和短时能量相结合的语音端点检测算法利用短时过零率来检测清音,用短时能量来检测浊音,两者相配合便实现了信号信噪比较大情况下的端点检测。 先引入以下三个概念 1、短时能量计算 定义n 时刻某语言信号的短时平均能量En 为: ∑∑--=+∞∞--=-=n N n m m n w m x m n w m x En )1(22 )]()([)]()([ 式中N 为窗长,可见短时平均能量为一帧样点值的平方和。特殊地,当窗函数为矩形窗时,有∑--== n N n m m x En )1(2)( 2、短时过零率 过零就是指信号通过零值。过零率就是每秒内信号值通过零值的次数。 对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每个样本的改变符号的次数。对于语音信号,则是指在一帧语音中语音信号波形穿过横轴(零电平)的次数。可以用相邻两个取样改变符号的次数来计算。 如果窗的起点是n=0,短时过零率Z 为 波形穿过横轴(零电平)的次数

信号检测论有无法实验报告剖析

------------------------------------------------------------------------------- 实验报告信息栏 系别心理系年级 13级2班姓名魏晓芹同组成员杨思琪、张彤、韩永超 实验日期 2016年4月学号 120105510215 教师评定 ------------------------------------------------------------------------------- 信号检测论有无法实验报告 摘要本次实验采用信号检测论中的有无法,测定被试在不同先定概率下对呈现信号和刺激的击中率与虚报率,计算其辨别力d′和判定标准β,并绘制出ROC 曲线;检验信号呈现的先定概率发生变化时,被试的击中率、虚报率、辨别力d′和判定标准β是否会受到影响。结果显示:(1)被试在先定概率为0.2、0.5、0.8的条件下,击中率分别为0.8、0.92、0.8625,虚报率分别为0.5125、0.56、0.75,辨别力d′分别为0.592、1.254、0.406,判定标准β分别为0.70、0.38、0.71。 关键词信号检测论;有无法;先定概率;辨别力d′;判定标准β 1引言 传统心理物理学对阈限的理解是有限的,不能将个体客观的感受性和主观的动机、反应偏好等加以区分,从而使研究者渐渐陷入到了由阈限概念本身所引发的僵局之中。而在1954年,坦纳和斯韦茨等人首次应用的信号检测论,正好解决了这个问题。 信号检测论的研究对象是信息传播系统中信号的接收问题。在心理学中,它是借助于数学的形式描述“接收者”在某一观察时间内将掺有噪音的信号从噪音中辨别出来。 信号检测论应用于心理学中的基本原理是:将人的感官、中枢分析综合过程看作是一个信息处理系统,应用信号检测论中的一些概念、原理对它进行分析。信号检测论在心理学中具体应用时,常把刺激变量当作信号,把对刺激变量起干扰作用的因素当作噪音,这样就可以把人接收外界刺激时的分辨问题等效于一个在噪音中检测信号的问题,从而便可以应用信号检测论来处理心理学中的实验结果。 信号检测论的理论基础是统计决策。信号检测论本身就是一个以统计判定为根据的理论。它的基本原理是:根据某一观察到的事件,从两个可选择的方面选

语音信号基音检测算法研究

语音信号基音检测算法研究 摘要:本文对倒谱法做了改进,在用倒谱法进行基音检测分析时,提出了一种功率谱二次处理的二次谱减法,该方法克服了倒谱法基音检测的抗噪能力低的弱点,在相同噪声环境下能更加精确地检测出语音信号的基音周期。 关键词:语音信号基音检测倒谱法二次谱减法 1、引言 近年来,基于线性预测和分析频谱的Mel倒谱系数在处理包含情感的语音识别中取得了很大的进步,能否把此种方法应用到相应状态下的基音检测中去,值得广大学者研究。国外很多学者采用实时监控情感变化,并把影响修正基音的轨迹加以平滑或者动态改变窗的宽度,可以明显降低上述影响。基音检测一直是语音信号处理的一大难题,短时自相关函数法、短时平均幅度差函数法、倒谱法、小波变换法等传统的经典基音检测方法,都有各自的用场,但同时也有其相应的不足。其中任一种方法都不能作为通用的方法,但若在基音检测过程中,对预处理和后处理上进行一些改进,且突破传统的语音模型,并适当考虑说话人的个体特征及发音时的情感力度对基音检频带内谱包络测的影响,定能提高基音检测的准确性及健壮性。 本文以语音信号的基音检测为研究对象,着重分析自相关函数法p倒谱法的定义为,时间序列的z变换的模的对数的逆z变换,该序列的倒谱的傅里叶变换形式为。落实到具体实现时,采用DFT来近似傅里叶变换,根据传统语音产生的模型及语音信号的短时性。在其频域内,语音信号短时谱等于激励源的频谱与滤波器的频谱的乘积,浊音信号短时谱中包含的快变化周期性细致结构,则必会对应着周期性脉冲激励的基频以及各次谐波。语音的倒谱是将语音的短时谱取对数后再进行IDFT来得到,所以浊音信号的周期性激励如果反映在倒谱上,便是同样周期的冲激。藉此,我们可从得到的倒谱波形中估计出基音周期。一般我们把倒谱波形中第二个冲激,认为是对应激励源的基频,即基音周期。下面列举出一种倒谱法求基音周期的框图(见图1) 。 3、改进算法的基音检测 当用无噪声的语音信号时,采用倒谱法进行基音检测还是很理想的。但是有加性噪声存在时,对数功率谱中的低电平部分会被噪声填满,从而掩盖了基音谐波的周期性。这也意味着倒谱的输入不再是单纯的周期性成分,而导致倒谱中的基音峰值变宽,而且受到噪声的污染,最终导致倒谱检测方法的灵敏度也随之下降。为此,本文提出了如下改进方法(图2): 此方法避p本文以语音信号的基音检测为研究对像,对短时自相关函数、倒谱法、这两种基音检测的方法的原理进行了分析。在此基础上,深入研究了倒谱法基音检测的算法。通过实验仿真,发现这种测量方法的不足;最后对这种算法进行了改进,在用倒谱法进行基音检测分析时,提出了一种功率谱二次处理的二次谱减法,该方法克服了倒谱法基音检测的抗噪能力低的弱点,在噪声环境相同的情况下能更加准确的检测出语音信号的基音周期,从而有效提高算法在基音检测时的准确性和抗噪性。 参考文献 [1]胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2000:116.126. [2]韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2004,lO.39.

信号检测实验报告

Harbin Institute of Technology 匹配滤波器实验报告 课程名称:信号检测理论 院系:电子与信息工程学院 姓名:高亚豪 学号:14SD05003 授课教师:郑薇 哈尔滨工业大学

1. 实验目的 通过Matlab 编程实现对白噪声条件下的匹配滤波器的仿真,从而加深对匹配滤波器及其实现过程的理解。通过观察输入输出信号波形及频谱图,对匹配处理有一个更加直观的理解,同时验证匹配滤波器具有时间上的适应性。 2. 实验原理 对于一个观测信号()r t ,已知它或是干扰与噪声之和,或是单纯的干扰, 即 0()()()()a u t n t r t n t +?=?? 这里()r t ,()u t ,()n t 都是复包络,其中0a 是信号的复幅度,()u t 是确知的归一化信号的复包络,它们满足如下条件。 2|()|d 1u t t +∞ -∞=? 201||2 a E = 其中E 为信号的能量。()n t 是干扰的均值为0,方差为0N 的白噪声干扰。 使该信号通过一个线性滤波系统,有效地滤除干扰,使输出信号的信噪比在某一时刻0t 达到最大,以便判断信号的有无。该线性系统即为匹配滤波器。 以()h t 代表系统的脉冲响应,则在信号存在的条件下,滤波器的输出为 0000()()()d ()()d ()()d y t r t h a u t h n t h τττττττττ+∞+∞+∞ =-=-+-???

右边的第一项和第二项分别为滤波器输出的信号成分和噪声成分,即 00()()()d x t a u t h τττ+∞ =-? 0 ()()()d t n t h ?τττ+∞ =-? 则输出噪声成分的平均功率(统计平均)为 2 20E[|()|]=E[|()()d |]t n t h ?τττ+∞ -? **00*000200 =E[()(')]()(')d d '=2()(')(')d d ' 2|()|d n t n t h h N h h N h ττττττδττττττττ+∞+∞+∞+∞+∞ ---=?? ?? ? 而信号成分在0t 时刻的峰值功率为 22 20000|()||||()()d |x t a u t h τττ+∞ =-? 输出信号在0t 时刻的总功率为 22000E[|()|]E[|()()|]y t x t t ?=+ 22**0000002200E[|()||()|()()()()] |()|E[|()|] x t t x t t t x t x t t ????=+++=+ 上式中输出噪声成分的期望值为0,即0E[()]0t ?=,因此输出信号的功率 成分中只包含信号功率和噪声功率。 则该滤波器的输出信噪比为 222000022000|||()()d ||()|E[|()|]2|()|d a u t h x t t N h τττρ?ττ+∞ +∞-==?? 根据Schwartz 不等式有

语音端点检测方法研究

语音端点检测方法研究 文章在研究语音识别系统中端点检测基本算法的基础上,分别对利用双门限的端点检测方法、利用小波变换的端点检测方法、利用倒谱相关理论的端点检测方法原理进行了阐述和说明,并对几种端点检测方法的特点进行了分析。 标签:端点检测;双门限;小波变换;倒谱 1 概述 就一般情况下来讲,在语音通信过程当中,大多采用有线电话网的方式来进行,但是由于某些地区环境及场合需要等因素,则需要通过无线电台来作为通信方式。与此同时,在其实际应用过程中,整个通话过程由语音控制来实现。具体来讲,有线方说话时本地无线电台则处于发射状态,相对应来讲远端无线电台为接收状态,相反来讲,当有线方沉默的时候,无线电台工作状态发转。其中,语音端点检测方法和技术是关键,基于从某段语音信号当中来准确判断语音位置(起始点与终止点),从而有效地区分是否为语音信号这样的目的。该技术对于减少数据的采集量、降低或者排除噪声段的干扰以及提高系统识别性能等方面具有关键作用。 2 利用双门限进行语音端点检测 首先确定短时能量和短时过零率符合端点起点判定条件的帧,接着再根据短时过零率和短时能量符合端点终点判定条件的帧。除此之外,对于一些突发性噪声检测,比如由于门窗开关所引起的噪声,相对应来讲我们可以通过设置最短时间门限来进行判断。具体来讲,当处于静音这一语音信号端点检测段时,如数值比低门限还低,与此同时最短时间门限大于计时长度,那么我们基本上可以确定这是一段噪音。 双门限的检测算法结合了短时能量和短时过零率的优点,在得到的端点检测结果中,其精确度和浊音检测都能得到很好的保证。现在有很多的端点检测算法都是根据双门限的算法进行不同的改进,能使其各有优劣,从而适应于不同的情况和环境。 3 利用小波变换进行语音端点检测 小波变换属于时频分析的一种,具体来说是空间(时间)和频率的局部变换,因而能有效的从信号中提取信息。小波变换能将信号在时域中表现不了的特征在频域中表现出来。因此,利用小波变换的这一个特性,根据有效的说话人的声音数据和背景噪声数据的频谱存在明显差异的特征来进行端点检测。一般有效的说话人的声音数据的频谱分布范围很大,而且频率的值也很大。而背景噪声的频谱变化不大,而且值也较小。因此先将语音数据分帧,将分帧后的数据进行一次小波变换,再对小波变换后的数据计算方差,如果计算的结果大于一定的阈值,那

语音实验一端点检测

实验一语音信号端点检测 一、实验目的 1.学会MATLAB 的使用,掌握MATLAB 的程序设计方法; 2.掌握语音处理的基本概念、基本理论和基本方法; 3.掌握基于MATLAB 编程实现带噪语音信号端点检测; 4.学会用MATLAB 对信号进行分析和处理。 5. 学会利用短时过零率和短时能量,对语音信号的端点进行检测。 二、实验仪器设备及软件 HP D538、MATLAB 三、实验原理 端点检测是语音信号处理过程中非常重要的一步,它的准确性直接影响到语音信号处理的速度和结果。本次实验利用短时过零率和短时能量相结合的语音端点检测算法利用短时过零率来检测清音,用短时能量来检测浊音,两者相配合便实现了信号信噪比较大情况下的端点检测。 算法对于输入信号的检测过程可分为短时能量检测和短时过零率检测两个部分。算法以短时能量检测为主,短时过零率检测为辅。根据语音的统计特性,可以把语音段分为清音、浊音以及静音(包括背景噪声)三种。在本算法中,短时能量检测可以较好地区分出浊音和静音。对于清音,由于其能量较小,在短时能量检测中会因为低于能量门限而被误判为静音;短时过零率则可以从语音中区分出静音和清音。将两种检测结合起来,就可以检测出语音段(清音和浊音)及静音段 1、短时能量计算 定义n 时刻某语言信号的短时平均能量En 为: ∑∑--=+∞∞--=-=n N n m m n w m x m n w m x En )1(22 )]()([)]()([ 式中N 为窗长,可见短时平均能量为一帧样点值的平方和。特殊地,当窗函数为矩 形窗时,有∑--== n N n m m x En )1(2)( 2、短时过零率 过零就是指信号通过零值。过零率就是每秒内信号值通过零值的次数。

语音信号采集与简单处理

语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?????<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10)]1(sgn[)](sgn[21N m n n n m x m x Z

相关文档
最新文档