声音信号的特征检测

合集下载

声音信号检测原理

声音信号检测原理一、引言声音信号检测是指通过对声音信号的分析和处理，从中提取出有用的信息或判断特定的事件。

声音信号检测在很多领域都有广泛的应用，如语音识别、音频处理、音频压缩等。

本文将介绍声音信号检测的原理和相关技术。

二、声音信号的特点声音是由空气中分子的振动引起的，其特点是具有频率、幅度和相位等参数。

频率决定了声音的音调，幅度决定了声音的响度，相位则决定了声音的相位差。

声音信号在空气中以压缩波的形式传播，可以通过麦克风等设备转化为电信号。

三、声音信号的采集声音信号的采集是声音信号检测的第一步。

常用的采集设备是麦克风，其原理是将声音转换为电信号。

麦克风通过振动膜片产生电流，该电流的幅度和频率与声音信号的幅度和频率成正比。

采集到的声音信号经过放大和滤波等处理后，可以得到较为准确的声音信号。

四、声音信号的特征提取声音信号通常包含大量的信息，为了便于分析和处理，需要从中提取出有用的特征。

常用的特征包括频率特征、时域特征和能量特征等。

频率特征描述了声音信号的频率分布情况，时域特征描述了声音信号的波形特征，能量特征描述了声音信号的能量分布情况。

通过提取这些特征，可以对声音信号进行分类、识别或判断。

五、声音信号的分类和识别声音信号的分类和识别是声音信号检测的重要任务之一。

常见的声音信号分类包括语音分类、音乐分类和环境音分类等。

语音分类是指对不同的说话人或语音内容进行识别和分类，音乐分类是指对不同的音乐风格或乐器进行识别和分类，环境音分类是指对不同的环境声音进行识别和分类。

声音信号的识别通常使用机器学习和模式识别等技术，通过训练模型来实现对声音信号的自动识别。

六、声音信号的处理和增强声音信号处理是指对声音信号进行滤波、降噪、增益等处理，以改善声音质量或提取出特定的信息。

滤波可以去除噪声或不需要的频率分量，降噪可以减少背景噪声的干扰，增益可以提高声音信号的响度。

常见的声音信号处理技术包括数字滤波、谱减法、自适应滤波等。

声音信号的频谱分析与频率测量方法

声音信号的频谱分析与频率测量方法声音是我们日常生活中不可或缺的一部分，我们通过声音来交流、表达情感，甚至通过声音来判断事物的性质。

然而，声音是如何产生的？我们如何对声音进行分析和测量呢？本文将介绍声音信号的频谱分析与频率测量方法。

声音信号是由空气中的振动引起的，当物体振动时，会产生压力波，通过空气传播出去，我们就能听到声音。

声音信号可以通过振动的频率和振幅来描述，其中频率是指振动的周期性，而振幅则是指振动的强度。

频谱分析是一种将声音信号分解成不同频率成分的方法。

它可以帮助我们了解声音信号的频率分布情况，从而更好地理解声音的特性。

频谱分析的基本原理是将声音信号转换为频域表示，即将信号从时域转换为频域。

这可以通过傅里叶变换来实现。

傅里叶变换是一种将时域信号转换为频域信号的数学方法。

它将信号分解成一系列正弦波的叠加，每个正弦波都有不同的频率和振幅。

通过傅里叶变换，我们可以得到声音信号的频谱图，从而了解声音信号中不同频率成分的贡献程度。

频谱图通常以频率为横轴，振幅或能量为纵轴，通过不同的颜色或灰度表示不同频率成分的强度。

频谱图可以直观地展示声音信号的频率分布情况，帮助我们分析声音的特性。

例如，在音乐领域，频谱分析可以用来研究音乐的音色特点，判断乐器的类型等。

除了频谱分析，频率测量是对声音信号进行定量分析的重要方法。

频率是声音信号中最基本的特征之一，它决定了声音的音调高低。

频率测量可以通过多种方法实现，其中一种常用的方法是自相关法。

自相关法是一种基于信号自身的周期性特点进行频率测量的方法。

它通过计算信号与自身的延迟版本之间的相似程度来确定信号的周期性。

具体而言，自相关法将信号与其自身进行延迟，然后计算它们之间的相关性。

通过寻找最大相关性的延迟值，我们可以得到信号的主要频率成分。

除了自相关法，还有一些其他的频率测量方法，如峰值检测法、零交叉法等。

这些方法在不同的应用场景下有着各自的优势和适用性。

例如，峰值检测法适用于测量周期性信号的频率，而零交叉法适用于测量非周期性信号的频率。

声音信号的特征提取及其在语音识别中的应用

声音信号的特征提取及其在语音识别中的应用声音信号是一种复杂的信号，可以用于人与人之间的交流和信息的传递。

为了实现自然语言处理和语音识别等人工智能技术，需要对声音信号进行特征提取和分析。

本文将介绍声音信号的特征提取方法以及在语音识别中的应用。

一、声音信号的特征声音信号是一种时间变化的信号，包含了许多声音波形的成分。

为了对声音信号进行处理和分析，需要将其转换成数字信号。

在此基础上，可以进行频率分析、时域分析和小波分析等方式的信号特征提取。

1.1 时域特征时域特征是指在时间轴上进行的特征提取，包括时长、幅度、能量、变化率等等。

其中，时长和幅度是最基本的特征，它们通常用于刻画声音信号的基本特性。

能量和变化率则更多地体现了声音信号的动态特性，可以用于语音活动检测和说话人辨识等领域。

1.2 频域特征频域特征是指在频率轴上进行的特征提取，包括音调、共振、谐波、噪声等。

音调是指声音信号的基音频率，它是人声识别的重要特征。

共振则是指声音信号在声道内反射、混响的能力，可以用于说话人辨识。

谐波则是指声音信号的谐波谱，它可以用于语音音量和音色的分析。

1.3 小波特征小波特征是指通过小波变换提取的特征，主要包括频带能量、包络取样和最大音量等。

小波变换提供了一种有效的多分辨率分析方法，可以用于声音信号的分类和分析。

二、声音信号特征提取方法特征提取是指从原始信号中提取能够表现信号本质特征的指标和量化参数。

对于声音信号，特征提取是语音识别的基础。

现在常用的特征提取方法主要有短时傅里叶变换（STFT）、梅尔频率倒谱（MFCC）和线性预测编码（LPC）等。

2.1 短时傅里叶变换短时傅里叶变换是将信号分成许多小块，然后对每个小块进行傅里叶变换。

它可以提供声音信号的时频分布特征。

但是，短时傅里叶变换处理的是一组固定大小的样本，不能处理不同长度的语音信号。

2.2 梅尔频率倒谱梅尔频率倒谱是将信号在频率轴上进行均衡，并进行离散余弦变换后得到的特征组合。

声音信号特征参数的分析和提取方法

声音信号特征参数的分析和提取方法田雪阳;杨宇;刘子寒;李渊【摘要】The whole study is based on virtual instrument LabVIEW with the combination of MATLAB. This system processes and analyzes the voice signal collected by computer's sound card, then extracts the signal's characteristic parameters MFCC and save them in the computer. The parameters are designed through VQ algorithma to identify speaker.%在基于虚拟仪器LabVIEW的环境中,通过与MATLAB相结合设计一个语音识别登陆系统,对电脑声卡采集到的语音信号进行处理分析,提取声音的特征参数Mel倒谱系数并保存,然后通过矢量量化的模式匹配来进行身份确认.【期刊名称】《价值工程》【年(卷),期】2017(036)021【总页数】3页(P203-205)【关键词】语音识别;LabVIEW;MATLAB;Mel倒谱系数;矢量量化算法【作者】田雪阳;杨宇;刘子寒;李渊【作者单位】上海电机学院,上海201306;上海电机学院,上海201306;上海电机学院,上海201306;上海电机学院,上海201306【正文语种】中文【中图分类】TN912.3语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。

语音识别一般分两个步骤，第一步是训练阶段，是建立识别基本单元的声学模型以及进行文法分析的语言模型等；第二步是语音识别阶段，根据实际情况的要求采用一种语音识别的算法，采用语音分析方法分析出这种识别方法所要求的语音特征参数，按照一定的准则和测度与系统模型进行比较，通过判决得出识别结果。

论语音信号的特征提取和语音识别技术

论语音信号的特征提取和语音识别技术语音信号的特征提取和语音识别技术是语音处理领域中的重要研究方向，主要用于从语音信号中提取有效的特征，并将其应用于语音识别任务中。

一、语音信号的特征提取语音信号的特征提取旨在从原始语音信号中提取出能够最有效地进行区分和表示的信息。

常见的语音信号的特征提取方法包括：1.短时能量和过零率：短时能量描述了语音信号在短时时间内的能量大小，过零率描述了语音信号经过零点的频率，可以用于检测语音的活动性和边界。

2.声谱图：声谱图是将语音信号转换为频谱的一种可视化表示方法，在声谱图中可以看到声音在不同频率上的强度分布情况，可以用于语音信号的频域分析。

3.倒谱系数：倒谱系数是通过对语音信号的离散傅里叶变换（DFT）和对数运算得到的，倒谱系数描述了语音信号在倒谱域内的频谱特性，常用于语音识别中的声学特征表示。

4.线性预测系数：线性预测系数是通过对语音信号进行线性预测分析得到的，用于表示语音信号的谐波结构和共振峰，常用于语音识别中的声学特征表示。

5.梅尔频率倒谱系数：梅尔频率倒谱系数是在倒谱系数的基础上引入了梅尔滤波器组，在梅尔频率域内对语音信号进行分析和表示，更符合人类声音感知的特性。

语音识别技术是指将语音信号转换为对应的文本或命令的过程。

常见的语音识别技术包括：1.隐马尔可夫模型（HMM）：HMM是一种统计模型，用于描述语音信号与文本之间的关系。

它将语音信号的声学特征序列映射为文本的概率分布，通过最大似然估计和维特比算法来进行识别。

2.深度神经网络（DNN）：DNN是一种基于多层神经网络的机器学习模型，通过训练大量的语音数据来进行语音识别。

DNN在特征提取和模型训练方面都具有较好的性能。

3.循环神经网络（RNN）：RNN是一种具有记忆功能的神经网络，在语音识别中可用于处理序列数据，如语音信号的语音帧。

4.语言模型：语言模型是用来描述文本序列的概率分布模型，常用于语音识别中对候选文本进行评分和选择。

生物识别技术在声音识别中的教程(十)

生物识别技术在声音识别中的教程声音识别技术是一种通过分析和识别声音信号，来识别和确认人的身份或特征的技术。

在当今数字化社会中，声音识别技术得到了广泛的应用，包括语音助手、语音识别密码等。

而生物识别技术则是一种利用个体的生物特征来进行身份确认的技术，包括指纹识别、虹膜识别、声纹识别等。

本文将介绍生物识别技术在声音识别中的教程及应用。

一、声音信号的采集声音信号的采集是声音识别的第一步，它直接影响了后续的处理和识别效果。

在声音信号采集时，要选择一个相对安静的环境，避免背景噪音对信号的干扰。

同时，要保持一定的距离和角度，确保声音信号的清晰度和完整性。

现如今，智能手机、录音笔等设备都可以作为声音信号的采集工具，方便实用。

二、声音信号的预处理在采集到声音信号之后，需要进行一系列的预处理工作，以提高信号的质量和准确性。

预处理的步骤包括降噪、去除杂音、增强声音信号的清晰度等。

这些工作可以通过专业的声音处理软件来完成，也可以利用一些开源的声音处理库进行程序化处理。

三、声音信号的特征提取声音信号的特征提取是声音识别的核心环节，它通过对声音信号进行分析和提取，得到一系列能够代表声音特征的参数。

这些参数包括声音的频率、振幅、谱线等，它们能够反映出声音的共振特性和个体的声音特征。

在声音识别中，常用的特征提取方法包括短时傅立叶变换、梅尔频率倒谱系数等。

四、声音信号的模式识别声音信号的模式识别是利用生物识别技术对声音信号进行识别和确认的过程。

在模式识别中，需要建立一个声音特征库，将个体的声音特征存储起来。

当需要识别声音时，将采集到的声音信号与特征库中的声音特征进行比对，从而实现声音识别的目的。

五、生物识别技术在声音识别中的应用生物识别技术在声音识别中有着广泛的应用，包括语音助手、语音识别密码、语音支付等。

其中，语音助手是目前最为常见和普及的应用之一，它能够通过识别用户的声音指令，进行智能语音交互。

此外，语音识别密码也是一种安全性较高的身份确认方式，它结合了声音特征和生物特征，难以被模仿和盗用。

音频信号及音频分析

音频信号及音频分析音频信号是一种用来记录声音的信号。

它采用连续的模拟信号形式来表示声波的振动情况。

音频信号可以通过麦克风等设备捕捉到，经过放大和处理后可以用于各种应用，如音乐播放、语音识别和语音通信等。

音频分析是对音频信号进行处理和分析的过程。

它可以帮助我们了解音频信号的特征和结构，从而提取有用的信息和特征。

音频分析可以有多个方面的内容，比如时域分析、频域分析、频谱分析和波形分析等。

在音频分析中，时域分析是最基本的一种方法。

它是通过观察音频信号在时间上的变化来分析音频信号的特征。

时域分析可以用来提取音频信号的特征，比如音频信号的幅度、振幅、周期性和持续时间等。

通过时域分析，可以对音频信号进行去噪、降噪、回音消除等处理，以改善音频质量。

频域分析是另一种常用的音频分析方法。

它是通过将音频信号转换到频域来分析音频信号的特征。

频域分析可以用来提取音频信号的频率、频谱和频率分量等信息。

通过分析音频信号的频谱，可以了解音频信号的谐波结构、频率分布和音调等特征。

频域分析常用的方法包括傅里叶变换、快速傅里叶变换和功率谱估计等。

频谱分析是音频分析中的一个重要分支。

它是通过将音频信号的幅度和频率信息显示在频谱图上来进行分析的。

频谱分析可以帮助我们观察音频信号的频谱特征和频率分布情况。

通过频谱分析，可以实现音频信号的音频效果处理和音频特征提取等应用。

常用的频谱分析方法包括快速傅里叶变换和窗函数等。

波形分析是对音频信号的波形进行观察和分析的方法。

它通过观察音频信号的波形形状、振幅和周期等来了解音频信号的特征。

波形分析可以用来检测音频信号的失真、噪声和变形等问题。

常用的波形分析方法包括时域波形显示和波形比对等。

音频分析在音乐、语音和声音处理等领域中有着广泛的应用。

在音乐领域，音频分析可以用来进行音乐特征提取和音乐分类等任务。

在语音识别领域，音频分析可以用来提取语音特征和识别语音内容。

在声音处理领域，音频分析可以用来去除噪声、增强声音效果和实现声音混响等。

声音的特征提取方法

声音的特征提取方法声音是日常生活中不可或缺的一部分，每个人的声音都有其独特的特征。

声音的特征提取在语音识别、情感识别、人声合成等领域中有着重要的应用。

本文将介绍几种常见的声音特征提取方法。

1. 短时能量短时能量是指在一段时间内声音的能量大小。

通常以毫瓦为单位衡量。

计算方法为将声音分为若干个等长的时间段，然后计算每个时间段内声音信号的平方和，再取平均值。

通过计算短时能量，可以判断声音的强度和音频片段的节奏性。

2. 频谱特征频谱特征是指声音信号在频域上的特征。

常见的频谱特征有频率、幅度、相位等。

其中，频率是指声音信号中各个频率成分的大小；幅度是指声音信号各个频率成分的振幅大小；相位则是指各个频率成分相对于参考信号的相位差。

频谱特征的提取可以通过FFT（快速傅里叶变换）算法实现。

3. 梅尔频率倒谱系数梅尔频率倒谱系数（MFCC）是一种常用的声音特征提取方法。

它模拟人耳对声音的感知方式，将声音信号从时域转换到频域。

MFCC的提取过程可以分为以下几步：首先，将声音信号分帧；然后，对每一帧进行FFT变换，并计算出梅尔频率谱；接着，对梅尔频率谱进行离散余弦变换，得到MFCC系数。

MFCC系数可以用于声音识别、语音合成、情感识别等领域。

4. 过零率过零率是指声音信号在时域上穿过零点的次数。

过零率可以反映声音信号的频率和音调。

通常，过零率越高，声音的高音部分越多。

过零率可以用于声音识别、语音合成、音乐处理等领域。

5. 短时自相关函数短时自相关函数（STACF）是指声音信号在时域上的自相关性。

它可以反映声音信号的周期性和谐波结构。

计算方法为将声音分帧，并计算每一帧内各个时刻的自相关系数。

通过STACF，可以提取出声音的基频信息，用于声音合成和语音识别。

总结声音的特征提取是一项重要的任务，它可以帮助我们从声音信号中提取出有用的信息。

本文介绍了几种常见的声音特征提取方法，包括短时能量、频谱特征、MFCC、过零率以及STACF。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

摘要语言是人类最为重要的交流工具，它具有简易方便，准确自然等其他工具所无法替代的特点。

随着信息社会的迅速发展，计算机已经渗透进人类生活工作的每一个角落，因此人机交互显得尤其重要。

在人机交互的各种通信方式中，语音通信又是最好的交流方式，而声音信号的特征参数的精确度就会直接影响着语音通信的质量和准确度。

因此，声音信号的特征检测在语音信号处理中是一项非常重要的工作。

本文利用MATLAB软件检测声音信号的特征参数，以语音信号为主，首先讨论了声音信号的基本特性，包括声音信号的产生，传播，声学特性等等。

然后又分别讨论了声音信号在时域，变换域的特征参数。

最后详细研究了声音信号的特征参数的检测提取。

第一章声音信号的基本特征1.1声音信号的产生声音是一种波，它是由物体振动产生的，能被人耳听到，它的振动频率在20~20000Hz之间。

自然界中有各种各样的声音，如雷声，树叶被风吹时发出的“飒飒”声，大海波涛汹涌的翻滚声，机械工作时发出的声音等等。

语音也是声音的一种，它是由人的发声器官发出的，语音的振动频率最高可达15000Hz。

语音信号的产生过程分为如下几个阶段：首先，说话人在头脑中产生想要用语言表达的信息；然后将这些信息转换成语言编码，即将这些信息用其所包含的音素序列、韵律、响度。

基音周期的升降等表示出来。

一旦对这些信息编码完成后，说话人会用一些神经肌肉命令在适当的时候控制声带震动，并塑造声道的形状以便发出编码中指定的声音序列。

神经肌肉命令必须同时控制调音运动中涉及的各个部位：唇、腭、舌头以及控制气流进入鼻腔的软腭。

一旦产生了语音信号，并将这些信息传递到听者时，语音的感知过程也就开始了。

听者内耳的基底膜对语音信号进行动态的频谱分析，神经传感器将基底膜输出的频谱信号转换成对听觉神经的触动信号，这一过程和后面将要介绍的特征提取过程有些类似。

作用在听觉神经上的活动信号，在大脑更高层的中枢转化成语言编码，并由此产生具有语义的信息。

人类的语音是由人体发声器官在大脑控制下的生理运动产生的。

人的发声器官包括肺、气管、喉、咽、鼻腔和口腔等，如图1-1所示。

喉以上的部分称为声道，发出声音的不同会导致其形状的变化，所以听到的声音也不同；而喉（包括声带）的部分称为声门，呼吸时左右两声带打开，讲话时则合拢。

声带每开启和闭合一次的时间即振动周期称为音调周期或者基音周期，其倒数称为基因频率，简称基频。

基因频率取决于声带的尺寸和特性，也决定于它所受的张力。

声带振动的频率决定了声音频率的高低，频率快则音频高，频率慢则音调低。

基音的范围约为80-500Hz左右，它随发音人的性别、年龄及具体情况而定，老年男性偏低，小孩和青年女性偏高。

现在我们来讨论一下声音的产生过程。

其原理图如图1-2所示。

根据声带是否震动，语音又分为浊音和清音。

在发声的过程中，肺当声带处于收紧状态时，流经的气流使声带振动，这时产生的声音成为浊音，没有声带振动的音称为清音。

当声带处于松弛状态时，有两种方式能发出声音：一种方式是通过舌头，在声道的某一部分形成狭窄部位，也称为收紧点，当气流经过这个收紧点时会产生湍流，形成噪声型声音。

这时对应的收紧点的位置不同及声道形状的不同，形成不同的摩擦音。

另一种方式是声带处于松懈状态，利用舌头和嘴唇关闭声音，暂时阻止气流。

当气流压力非常高时，突然放开舌与唇，气流被突然释放产生短暂脉冲音。

对应于声道闭紧点的不同位置和声道的形状，形成不同的爆破音。

综上所述，声道是气流自声门之后最为重要的器官，它是一个具有分布参数系统的谐振腔，因而有许多谐振频率。

谐振频率由瞬态的声道外形所决定。

人在说话的时候舌和唇连续运动，使得声道发生外形和尺寸上的改变，随即改变了谐振频率。

谐振频率发生在c,n=1,2,3,...F n=(2n−1)4LC为声速，空气中c=340m/s。

L为声道长度，n表示谐振频率的序号。

这些谐振频率称为共振峰频率，简称为共振峰，它是声道的重要声学特性。

声道对于一个激励信号的响应，可以用一个含有多对极点的线性系统来近似描述。

每对极点都对应一个共振峰频率。

这个线性系统的频率响应特性称为共振峰特性，它决定信号频谱的总轮廓或者谱包络。

声音的频率特性也主要是由共振峰决定的。

其中共振峰特性和元音的音色密切相关。

1.2声音信号的特征1.2.1声音信号的基本特性声音是一种波，它具有以下几种物理特征：○1音质。

它是一种声音区别于其他声音的基本特征。

○2音调。

就是声音的高低。

音调取决于声波的频率，频率快音调就高，频率慢音调就低。

○3响度。

响度表示声音的强弱，它是由声波振动幅度决定的。

○4音长。

它表示声音的长短，是由发音持续时间的长短决定的。

除了有物理特征外，它还具有另一个重要的性质，这就是声音总是能表达一定的意义和思想内容。

而且不仅如此，它还能表达出一定的语气、情感。

因此，声音中所包含的信息是丰富多彩的。

我们平时说话的时候很自然地一次发出来的、有一个响亮的中心的、听的时候也很自然地感到是一个小的语音片段的，称为音节。

音节是构成语音的最小单位，是发声的最小单位。

而一个音节又是由一个或若干个音素构成，音素是语音的最小、最基本的组成单位。

各种音素组合到一起构成了不同的音节，各种音节组合到一起又构成了更大的单位——词，词是文章的基础，是有意义的语言的最小单位。

任何语音都有元音和辅音两种音素。

一个音节由元音和辅音构成。

元音是由声带的振动发出的声音，它是一个音节的主要部分。

每个元音的特点是由声道的形状和尺寸决定的。

所有元音都是浊音。

辅音则是由呼出的气流克服发音器官的阻碍而产生的。

发辅音时如果声带不振动，称为清辅音；发辅音时如果声带振动，则称为浊辅音。

1.2.2声音信号的时域波形及特性在进行声音信号数字化处理时，能最为直观的了解声音信号的方式便是看它的时域波形。

下面我们利用计算机声卡录音，看一下这段声音的时域波形。

要求采样频率为8kHz，每个采样点用16位进行量化，录音时间为1s，内容为“你好”。

图中横轴为时间，纵轴为信号的幅度。

从图1-3(a)中可以看出声音能量的起伏，以及声音信号随时间变化的过程。

图1-3（b）是将“好”的元音部分/ao/拉长后的形状。

图1-3（c）是“好”的辅音/h/的波形图。

图1-3（a ）语音信号“你好”的时域波形图1-3（b ）元音部分/ao/的波形010002000300040005000600070008000-2-1.5-1-0.50.511.54语音波形010002000300040005000600070008000-3-2.5-2-1.5-1-0.50.511.524语音波形图1-3（c ）辅音部分/h/的波形可以看出，元音/ao/的波形具有很强的准周期性并且有较强的振幅。

它的周期对应的就是基音频率。

而/h/的波形类似于白噪声，并且振幅也弱一些。

1.2.3声音信号的频域波形及特性前面我们所研究的时域波形虽然简单直观，但是对于一些复杂的声音信号，一些特性只有在频域中才能体现出来；并且频谱是表征语音特征的基本参数。

共振峰即是一个典型的频域参数，它决定了信号频谱的包络。

在声音的发音过程中，声道通常都处于运动状态，但是这个运动状态的时变过程同振动过程相比要缓慢得多，因此我们研究声音信号的时候都要假设其为一种短时平稳信号，一般都假定在10ms~30ms 之内是相对平稳的，但在长时间的周期中声音信号的特性会发生变化，这种变化的不同决定了声音的不同。

根据声音信号这种短时平稳的特点，在每一时刻都可以用该时刻附近的一短段语音信号分析得到一个频谱。

图1-4给出了“你好”的频谱特性。

010002000300040005000600070008000-2500-2000-1500-1000-5005001000150020002500语音波形图1-4 “你好”的频谱1.2.4语谱图前面的频谱分析只能反映出信号的频率变化，而不能表示信号的时间变化特性。

由于语音信号是一种短时平稳信号，可以在每个时刻用其附近的短时段语音信号分析得到一种频谱，将语音信号连续地进行这种频谱分析，可以得到一种二维图谱，横坐标表示时间，纵坐标表示频率，每个像素的灰度值大小反映相应时刻和相应频率的能量。

这种视频图称为语谱图。

能量功率谱的表达式为Px n,ω =12N+1|X n,ω |2其中，X(n, ω)= x k ω n −k e −j ωk ∞k=−∞; ω[n]是一个长度为2N+1的窗函数，X(n, ω)表示在时域以n 点为中心的一帧信号的傅里叶变换在ω处的大小。

在实际情况下，一般不用对每个可能的频率和时间计算相应的能量。

对于频率轴，一般计算2N+1点就足够；对于时间轴，取N 个点也足够了。

图1-5给出了一段语音的语谱图。

图中横轴表示时间，纵轴表示频率，颜色的深浅表示该处能量的大小，一般用能量的对数表示。

图1-5 一段语音的语谱图第二章声音信号的特征分析对于声音信号的分析所采用的主要技术是“短时分析技术”。

声音信号的特征是随时间变化的，是一个非稳态的过程。

但即便如此，由于发声时人的口腔肌肉运动频率相对于语音频率来讲是相对缓慢的，所以在一个短时间范围内，它的基本特征是可以被认为是保持不变的，那么我们就可以将其视为一个准稳态过程。

因此，对于一段较长的语音我们必须将其分为一段一段的“帧”进行处理，帧长一般取10ms~30ms。

对声音信号进行特征分析之前，首先需要对信号进行数字化处理，这一部分我们只做简单讨论。

2.1声音信号的数字化2.1.1采样与量化声音信号在时间和幅度上都是连续变化的模拟信号，如果想在计算机上对其处理必须先进行采样和量化，将它变成在时间和幅度上都离散的数字信号。

所谓采样，就是把模拟信号在时域上进行等间隔抽样，其中两相邻抽样点之间的间隔称为采样周期，倒数为采样频率。

根据奈奎斯特采样定理，采样频率必须大于声音信号最高频率的2倍，只有这样，在恢复信号的时候才能确保原始信号被完整地重构。

在实际语音信号处理中，采样频率一般为8kHz~10kHz.采样后的信号在时间上是离散的，但在幅度上仍然保持连续，所以要进行量化处理。

量化就是将信号的幅度分成若干个有限的区间，并且把同一区间的样本点都用一个幅度值表示，这个幅度值称为量化值。

量化有3种方式：零记忆量化、分组量化和序列量化。

其中零记忆量化是最简单的一种，它的输入-输出特性采用阶梯型函数的形式。

信号经过量化后，一定存在一个量化误差。

其定义为e n=x1(n)-x(n)式中，e(n)为量化误差；x1(n)为量化后的采样值，即量化的输出；x(n)为未量化的采样值，即量化的输入。

经过采样和量化后，一般还要对信号进行预加重。

其实质就是提升高频部分，使信号的频谱变得平坦，便于进行频谱分析或声道参数的分析。