基于MATLAB的语音端点检测

合集下载

基于Matlab编写的语音端点检测

基于Matlab编写的语音端点检测专业：班级：姓名：指导教师：2011 年6月18 日一、实验目的1．学会MATLAB的使用，掌握MATLAB的程序设计方法；3．掌握语音处理的基本概念、基本理论和基本方法；4．掌握基于MATLAB编程实现带噪语音信号端点检测；5．学会用MATLAB对信号进行分析和处理。

二、实验内容简介：（1）采集一段语音信号，采样率为8KHZ，量化精度为16比特线性码；（2）分析帧长30ms（或10ms～50ms）；（3）利用公式分别计算这段语音信号的短时能量、短时平均幅度、短时过零率曲线；（4）利用（3）中的结果画出短时零能比曲线；(零能比: 即同一时间段内的过零率和能量的比值)（5）根据上述结果判断找出其中的一帧浊音信号和一帧清音信号，分别计算他们的短时自相关函数和平均幅度差函数；（6）调整能量门限，设置参数。

实现语音端点的检测。

三，实验心得这次的实验，,给我最大的收获就是培养了独立思考和动手的能力,还有就是实验的灵活性,总得来说就是在独立与创新这二个环节，我更加掌握MATLAB 的程序设计方法，进一步的了解了掌握基于MATLAB编程实现带噪语音信号端点检测的原理，这充分锻炼了我们独立的动手能力和独立的解决所遇到的问题，让我对这门课程又有了新的理解。

四．课程设计原理端点检测是语音信号处理过程中非常重要的一步，它的准确性直接影响到语音信号处理的速度和结果，因此端点检测方法的研究一直是语音信号处理中的热点。

本设计使用传统的短时能量和过零率相结合的语音端点检测算法利用短时过零率来检测清音．用短时能量来检测浊音，两者相配合便实现了信号信噪比较大情况下的端点检测。

算法对于输入信号的检测过程可分为短时能量检测和短时过零率检测两个部分。

算法以短时能量检测为主，短时过零率检测为辅。

根据语音的统计特性，可以把语音段分为清音、浊音以及静音（包括背景噪声）三种。

在本算法中，短时能量检测可以较好地区分出浊音和静音。

基于Matlab的语音识别系统的设计本科毕业设计

摘要语音识别主要是让机器听懂人说的话，即在各种情况下，准确地识别出语音的内容，从而根据其信息执行人的各种意图。

语音识别技术既是国际竞争的一项重要技术，也是每一个国家经济发展不可缺少的重要技术支撑。

本文基于语音信号产生的数学模型，从时域、频域出发对语音信号进行分析，论述了语音识别的基本理论。

在此基础上讨论了语音识别的五种算法：动态时间伸缩算法(Dynamic Time Warping，DTW)、基于规则的人工智能方法、人工神经网络(Artificial Neural Network，ANN)方法、隐马尔可夫(Hidden Markov Model，HMM)方法、HMM和ANN的混合模型。

重点是从理论上研究隐马尔可夫(HMM)模型算法，对经典的HMM模型算法进行改进。

语音识别算法有多种实现方案，本文采取的方法是利用Matlab强大的数学运算能力，实现孤立语音信号的识别。

Matlab 是一款功能强大的数学软件，它附带大量的信号处理工具箱为信号分析研究，特别是文中主要探讨的声波分析研究带来极大便利。

本文应用隐马尔科夫模型(HMM) 为识别算法，采用MFCC(MEL频率倒谱系数)为主要语音特征参数，建立了一个汉语数字语音识别系统，其中包括语音信号的预处理、特征参数的提取、识别模板的训练、识别匹配算法；同时，提出利用Matlab图形用户界面开发环境设计语音识别系统界面，设计简单，使用方便，系统界面友好。

经过统计，识别效果明显达到了预期目标。

关键词：语音识别算法；HMM模型；Matlab；GUIABSTRACTSpeech Recognition is designed to allow machines to understand what people say,and accurately identify the contents of voice to execute the intent of people.Speech recognition technology is not only an important internationally competed technology,but also an indispensable foundational technology for the national economic development.Based on the mathematical model from the speech signal,this paper analyze audio signal from the time domain,frequency domain proceeding,and discussed the basic theory of speech recognition technology.Five algorithm are discussed:Dynamic Time Warping(DTW)、Rule-based Artificial Intelligence,Artificial Neural Network(ANN),Hidden Markov Model(HMM),HMM combined with ANN.The focus is put in the theoretical studies of Hidden Markov(HMM) model algorithm,and the classical HMM algorithm is improved.Speech recognition algorithm is realized in various programs,this article taking the method is to use Matlab powerful mathematical operation ability to realize the recognition of speech signal isolation. Matlab is a powerful mathematic software with a mass of toolboxes dealing with signal processing. It gives a terrific shortcut to the research of signal processing,especially the wave analysis. We can characterize the sound with key parameters such as intensity, frequency etc. In this paper, hidden Markov model (HMM) recognition algorithm using MFCC (MELfrequency cepstral coefficients) as the main voice characteristic parameters, the establishment of a Chinese digital speech recognition system, including the preprocessing of the speech signal,the extraction of characteristic parameters the training of the recognition template,identifying matching algorithm;the same time,the use of Matlab graphical user interface development environment designed speech recognition system interface,is designed to be simple,easy to use,friendly interface. Besides,to have a simple exploration of the voice recognition is another target.After statistics,recognition result obviously is made out as the expected goal.Key words：Speech recognition algorithm；HMM model；Matlab；GUI目录一、前言 (1)1.1语音识别的发展历史 (1)1.2语音识别研究现状 (1)1.3语音识别系统的分类 (2)1.4语音识别系统的基本构成 (3)1.5语音识别技术难点 (3)1.6语音识别发展前景 (4)二、语音信号分析 (4)2.1语音学知识 (4)2.1.1音素和音节 (5)2.1.2汉语的声调 (5)2.1.3语音信号产生模型 (6)2.2语音信号数字化和预处理 (7)2.2.1数字化 (7)2.2.2预加重处理 (7)2.2.3防混叠滤波 (8)2.2.4加窗处理 (8)2.3语音信号的时域分析 (9)2.3.1短时能量分析 (9)2.3.2短时平均过零率 (11)2.3.3短时自相关函数和短时平均幅度差函数 (12)2.3.4语音端点检测 (13)2.4语音信号的频域分析 (14)2.4.1滤波器组法 (14)2.4.2傅立叶频谱分析 (14)2.5特征参数提取 (15)2.5.1 LPCC倒谱系数 (15)2.5.2 Mel频率倒谱系数 (16)三、语音识别主要算法 (17)3.1动态时间伸缩算法 (17)3.2基于规则的人工智能方法 (18)3.3人工神经网络方法 (19)3.4隐马尔可夫方法 (20)3.5 HMM和ANN的混合模型 (21)四、隐含马尔可夫模型算法 (23)4.1 HMM的基本理论和数学描述 (23)4.2 HMM的三个基本问题及解决算法 (24)4.3 HMM算法的改进 (31)4.4 HMM的结构和类型 (33)4.5 HMM算法实现的问题 (34)五、基于Matlab环境下的语音识别算法实现 (35)5.1识别系统平台介绍 (35)5.2在Matlab中HMM算法的实现 (36)5.2.1端点检测 (36)5.2.2特征参数提取 (36)5.2.3训练和识别 (37)5.3实验结论分析 (38)六、结束语 (39)6.1回顾 (39)6.2展望 (39)七、致谢 (40)参考文献 (40)一、前言1.1语音识别的发展历史作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。

基于MATLAB语音信号检测分析及处理

基于MATLAB语音信号检测分析及处理目录一、内容概述 (2)1. 研究背景与意义 (3)2. MATLAB在语音信号处理中的应用 (4)3. 论文研究内容及结构 (5)二、语音信号基础 (6)1. 语音信号概述 (8)2. 语音信号的特性 (9)3. 语音信号的表示方法 (10)三、MATLAB语音信号处理工具 (11)1. MATLAB语音工具箱介绍 (12)2. 常用函数及其功能介绍 (13)四、语音信号检测与分析 (15)1. 语音信号检测原理及方法 (16)2. 语音信号的频谱分析 (18)3. 语音信号的时频分析 (19)4. 语音信号的端点检测 (20)五、语音信号处理算法研究 (21)1. 预加重处理算法 (22)2. 分帧与加窗处理算法 (23)3. 预处理算法 (24)4. 特征提取算法 (25)5. 模式识别与分类算法 (26)六、语音信号处理实验设计与实现 (27)1. 实验目的与要求 (28)2. 实验环境与工具配置 (29)3. 实验内容与步骤 (30)4. 实验结果分析与讨论 (31)七、语音信号处理应用案例 (32)1. 语音识别系统应用案例 (33)2. 语音合成系统应用案例 (34)3. 语音情感识别应用案例 (35)4. 其他领域应用案例 (36)八、总结与展望 (38)1. 研究成果总结 (39)2. 研究不足与问题剖析 (40)3. 未来研究方向与展望 (41)一、内容概述语音信号捕捉与预处理：介绍如何使用MATLAB捕捉语音信号，包括从麦克风等输入设备获取原始语音数据，并对信号进行预处理，如去除噪声、增强语音质量等。

特征提取：详述如何从预处理后的语音信号中提取关键特征，如梅尔频率倒谱系数（MFCC）、线性预测编码（LPC）等，以便进行后续的模型训练或识别。

语音信号检测分析：探讨基于MATLAB的语音信号检测分析方法，包括端点检测、语音活动等检测算法的实现，以及基于统计模型、机器学习模型的语音信号分析。

基于MATLAB的汉语数字语音识别系统

张培玲，凌飞成
（河南理工大学电气学院，河南焦作４４０）５００
摘
要：应用动态时间规整（Ｔ为识别算法，用ＭＣ（Ｅ频率倒谱系数）ＤＷ）采ＦＣＭＬ为主要语音特征参数，建立了一个汉
语数字语音识别系统，中包括语音信号的预处理、其特征参数的提取、别模板的训练、别匹配算法；识识同时，出利提用ＭＡＬＢ图形用户界面开发环境设计语音识别系统界面，ＴＡ设计简单，用方便，使系统界面友好。
为了体现语音的动态特性及能量对语音区分的作用，在上述语音特征矢量中加人了一阶差分ＭＦＣ还Ｃ及其一阶能量和一阶差分能量，中能量参数用语音其
平均能量进行了归一化。
３训练与识别
路径不是随意选择的，因为任何一种语音的发音快慢都有可能变化，但是其各部分的先后次序不可能改变，因此所选的路径必定是从左下角出发，在右上角结束，
一
ｘｋｚ）／．（一ｎ（一（ｅＫ．ｉ ∑ ）
尸）ｘｋｌ（＝ｌ（。）．
。
（１）
（２）
其中，为５２ｌ点。然后再求信号能量谱，：即５根据（））４式进行频率弯折，在弯折后的频率轴上取等间隔滤波器组在频域对功率谱进行滤波．
４对加窗后的语音信号进行５２）１点离散傅立叶变
换（Ｆ，：ＤＴ）即
用过零率找到语音端点的相对精确位置，分解出每一个语音段。个实例见图２其中５，表示无声段，表示有声，段，示有声段结束后的无声部分。从图中可知有Ｈ表

matlab端点检测

% 0 = 静音, 1 = 可能开始静音,
Matlab端点检测 Matlab端点检测
if amp(n) > amp1 % 确信进入语音段 x1(end+1) = max(n-count-1,1); max(n-countstatus = 2; silence = 0; count = count + 1; elseif amp(n) > amp2 | ... % 可能处于语音段 zcr(n) > zcr2 zcr(n) status = 1; count = count + 1; else % 静音状态 status = 0; count = 0; if length(x1)~=length(x2) x2(end+1)=x1(end)+count-silence/2x2(end+1)=x1(end)+count-silence/2-1; end end
Байду номын сангаас
Matlab端点检测 Matlab端点检测
程序功能：从包含音的一段信号中找出语音的起始点及结束点。基本原理：整个端点检测可分为四段：静音段、过渡段、语音段、结束。使用一个变量表示当前状态。静音段，如果能量或过零率超过低门限，就开始标记起始点，进入过渡段。过渡段当两个参数值都回落到低门限以下，就将当前状态恢复到静音状态。而如果过渡段中两个参数中的任一个超过高门限，即被认为进入语音段。
Matlab端点检测 Matlab端点检测
%调整能量门限 amp1 = min(amp1, max(amp)/4); amp2 = min(amp2, max(amp)/8); 第四部分：端点检测 for n=1:length(zcr) n=1:length(zcr) goto = 0; switch status case {0,1}

matlab-端点检测程序(完全注释版)

端点检测程序第一部分：常数设置%常数设置FrameLen = 240;%指定帧长FrameInc = 80;%指定帧移，每一帧中未重叠的部分amp1 = 10; %初始短时能量高门限amp2 = 2; %初始短时能量低门限zcr1 = 10; %初始过零率高门限zcr2 = 5;%初始过零率低门限maxsilence = 8; % 8*10ms = 80ms%语音段中允许的最大静音长度，如果语音段中的静音帧数未超过此值，则认为语音还没结束；如果超过了该值，则对语音段长度count 进行判断，若count<minlen，则认为前面的语音段为噪音，舍弃，跳到静音状态0；若count>minlen，则认为语音段结束；minlen = 15;% 15*10ms = 150ms%语音段的最短长度，若语音段长度小于此值，则认为其为一段噪音status = 0; %初始状态为静音状态count = 0; %初始语音段长度为0silence = 0; %初始静音段长度为0第二部分：过零计算tmp1 = enframe(x(1:end-1), FrameLen, FrameInc);%分帧处理，tmp1和tmp2为分帧后形成的二维数组tmp2 = enframe(x(2:end) , FrameLen, FrameInc);%语音信号是一种典型的非平稳信号，但是语音信号具有短时平稳性,因此在处理中要对采样的语音信号进行分割成一帧一帧的短时语音序列。

分帧处理有利于对语音信号进行准确的分析并且能够提高识别率这时再分别求出每帧的短时能量和短时过零率signs = (tmp1.*tmp2)<0;%当 tmp1.*tmp <0 的时候，说明tmp1>0,tmp2<0 或tmp1<0,tmp2>0;即信号过零点。

diffs = (tmp1 -tmp2)>0.02;%当信号过零点，而tmp1与tmp2距离又过近（<0.02）的话就认为是噪音，舍去.zcr = sum(signs.*diffs, 2);%定义语音信号Xn(m)的过零率为Zn,则Zn=|)]1(sgn[)](sgn[|211∑-=--N m m Xn m Xn “第三部分：计算短时能量amp = sum(abs(enframe(filter([1 -0.9375], 1, x), FrameLen, FrameInc)),2);%过零率有两类重要的应用: 用于粗略地描述信号的频谱特性,就是用将为若干个通道, 对各通道进行短时平均过零率和短时能量的计算,即可粗略地估计频谱特性; 用于判别清音和浊音、有话和无话。

基于MATLAB的语音识别DTW算法设计

目录1概述 (2)1.1研究的目的和意义 (2)1.2国内外发展状况 (2)1.2.1国外研究历史及现状 (3)1.2.3国内研究历史及现状 (4)2语音识别系统的概述 (4)3 MA TLAB中的语音信号的采集 (4)3.1 wavrecord函数 (4)3.2 wavplay函数 (6)4语音信号的端点检测 (6)4.1语音信号端点检测的流程 (6)4.1.1短时能量 (8)4.1.2过零率的计算 (9)4.1.3双门限端点检测 (11)5语音识别参数提取 (12)5.1 MFCC的基本原理 (12)6特定人语音识别算法-DTW算法 (13)6.1DTW算法原理 (13)6.2DTW算法流程及实验结果 (15)7 GUI界面的设计 (16)7.1图形用户界面设计工具的启动 (16)7.3测试与分析 (18)总结 (20)致谢 (21)参考文献 (22)附件 (23)基于MATLAB的特定人语音识别算法设计摘要在高度发达的社会，语言是一种人类交流最方便的，最速度的信息，在高度发达的社会中，用数字化的方式举行语音的保存、传递、判别、加强和合成等是全部数字化通信过程中最基础、最重要的组成的一部分。

由于人类进入信息社会节奏加快, 语音信号处理方面的知识被越来越多的地方需要。

本设计主要在MATLAB平台下先语音信号的端点检测、预处理,然后提取特征参数，建立两个模块，一个为参考模块，一个为测试模块，然后通过动态时间归整技术（DTW）算法进行匹配，算出匹配结果。

最后在用户开发界面（GUI界面）直观地呈现出来。

本次设计录制0~10的数字做为参考库（model），测试库（test）中为需要测试及识别的语音，0的序号为11，1~9的数字以相应数字做为文件名的命名。

关键词：端点检测； MFCC特征提取；语音识别；DTW算法1概述1.1研究的目的和意义随着计算机技术和科技成果的的飞速发展，人们早已不再满足于让计算机做一些简单的科学计算和运算，而是向它提出了更高的要求，即要求我们的计算机向智能化方向发展，于是人们便开始了第五代计算机(即智能计算机)的研究。

使用Matlab进行实时语音处理与语音识别的实践指南

使用Matlab进行实时语音处理与语音识别的实践指南实时语音处理与语音识别是人工智能领域一个重要而复杂的研究方向。

而Matlab作为一种强大的科学计算软件，提供了丰富的工具箱和函数库，为语音处理与语音识别的研究和实践提供了极大的便利。

本文将介绍如何使用Matlab进行实时语音处理与语音识别并给出一些实践指南。

一、Matlab的语音处理工具箱Matlab的语音处理工具箱（Speech Processing Toolbox）是Matlab中专门用于语音信号的处理和分析的工具箱。

它提供了一系列函数和工具，包括语音信号的录制和播放、声音特征提取、声音增强和去噪、语音识别等。

在进行实时语音处理与语音识别之前，我们需要先安装并激活语音处理工具箱。

二、实时语音处理的基本步骤实时语音处理通常由以下几个基本步骤组成：声音录制、语音信号分帧、对每帧信号进行加窗处理、进行傅里叶变换得到频谱信息、对频谱信息进行处理和特征提取、进行语音识别。

1. 声音录制Matlab提供了`audiorecorder`函数来实现声音的录制功能。

下面是一个简单的示例代码：```fs = 44100; % 采样率nBits = 16; % 采样精度nChannels = 1; % 声道数recorder = audiorecorder(fs, nBits, nChannels);record(recorder);pause(5); % 录制5秒stop(recorder);y = getaudiodata(recorder); % 获取录音数据```2. 语音信号分帧语音信号在进行处理之前需要进行分帧处理，将连续的语音信号分成若干个小的时间窗口。

分帧的目的是提取局部语音特征，常用的窗口函数包括矩形窗、汉明窗等。

Matlab提供了`buffer`函数用于分帧处理。

示例代码如下：```frameSize = 256; % 窗口大小overlap = 128; % 帧之间的重叠部分frames = buffer(y, frameSize, overlap);```3. 加窗处理加窗处理是对每一帧信号进行加窗操作，以减少频谱泄漏。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

[x]=wavread('song1.wav');
x=x/max(abs(x));
figure;
subplot(3,1,1);
plot(x);
axis([1 length(x) -1 1]);
ylabel('Speech');
FrameLen=240;
FrameInc=80;
yframe=enframe(x,FrameLen,FrameInc);
amp1=sum(abs(yframe),2);
subplot(3,1,2);
plot(amp1);
axis([1 length(amp1) 0 max(amp1)]);
ylabel('Amplitude');
legend('amp1=∑│x│');
amp2=sum(abs(yframe.*yframe),2);
subplot(3,1,3);
plot(amp2);
axis([1 length(amp2) 0 max(amp2)]);
ylabel('Energy');
legend('amp1=∑│x*x│');
[x]=wavread('song1.wav');
figure;
subplot(3,1,1);
plot(x);
axis([1 length(x) -1 1]);
ylabel('Speech');
FrameLen = 240;
FrameInc = 80;
amp = sum(abs(enframe(filter([1 -0.9375], 1, x), FrameLen, FrameInc)), 2); subplot(312)
plot(amp);
axis([1 length(amp) 0 max(amp)])
ylabel('Energy');
tmp1 = enframe(x(1:end-1), FrameLen, FrameInc);
tmp2 = enframe(x(2:end) , FrameLen, FrameInc);
signs = (tmp1.*tmp2)<0;
diffs = (tmp1 -tmp2)>0.02;
zcr = sum(signs.*diffs, 2);
subplot(3,1,3);
plot(zcr);
axis([1 length(zcr) 0 max(zcr)])
ylabel('ZCR');
[x,fs,nbits]=wavread('song1.wav');
x = x / max(abs(x));%幅度归一化到[-1,1]
%参数设置
FrameLen = 256; %帧长
inc = 90; %未重叠部分
amp1 = 10; %短时能量阈值
amp2 = 2;
zcr1 = 10; %过零率阈值
zcr2 = 5;
minsilence = 6; %用无声的长度来判断语音是否结束
minlen = 15; %判断是语音的最小长度
status = 0; %记录语音段的状态
count = 0; %语音序列的长度
silence = 0; %无声的长度
%计算过零率
tmp1 = enframe(x(1:end-1), FrameLen,inc);
tmp2 = enframe(x(2:end) , FrameLen,inc);
signs = (tmp1.*tmp2)<0;
diffs = (tmp1 -tmp2)>0.02;
zcr = sum(signs.*diffs,2);
%计算短时能量
amp = sum((abs(enframe(filter([1 -0.9375], 1, x), FrameLen, inc))).^2, 2);
%调整能量门限
amp1 = min(amp1, max(amp)/4);
amp2 = min(amp2, max(amp)/8);
%开始端点检测
for n=1:length(zcr)
goto = 0;
switch status
case {0,1} % 0 = 静音, 1 = 可能开始if amp(n) > amp1 % 确信进入语音段
x1 = max(n-count-1,1); % 记录语音段的起始点
status = 2;
silence = 0;
count = count + 1;
elseif amp(n) > amp2 || zcr(n) > zcr2 % 可能处于语音段
status = 1;
count = count + 1;
else % 静音状态
status = 0;
count = 0;
end
case 2, % 2 = 语音段
if amp(n) > amp2 ||zcr(n) > zcr2 % 保持在语音段
count = count + 1;
else % 语音将结束
silence = silence+1;
if silence < minsilence % 静音还不够长，尚未结束
count = count + 1;
elseif count < minlen % 语音长度太短，认为是噪声
status = 0;
silence = 0;
count = 0;
else % 语音结束
status = 3;
end
end
case 3,
break;
end
end
count = count-silence/2;
x2 = x1 + count -1; %记录语音段结束点
subplot(3,1,1)
plot(x)
axis([1 length(x) -1 1])
ylabel('Speech');
line([x1*inc x1*inc], [-1 1], 'Color', 'red');
line([x2*inc x2*inc], [-1 1], 'Color', 'red');
subplot(3,1,2)
plot(amp);
axis([1 length(amp) 0 max(amp)])
ylabel('Energy');
line([x1 x1], [min(amp),max(amp)], 'Color', 'red');
line([x2 x2], [min(amp),max(amp)], 'Color', 'red');
subplot(3,1,3)
plot(zcr);
axis([1 length(zcr) 0 max(zcr)])
ylabel('ZCR');
line([x1 x1], [min(zcr),max(zcr)], 'Color', 'red');
line([x2 x2], [min(zcr),max(zcr)], 'Color', 'red');。