用于孤立词识别的语音识别系统实验报告

合集下载

语音识别系统实习报告

实习报告语音识别系统一、实习背景和目的作为一名计算机科学专业的学生，我一直对人工智能领域充满浓厚兴趣。

在大学期间，我学习了关于机器学习和语音处理的相关知识。

为了将理论知识与实践相结合，我参加了为期三个月的语音识别系统实习项目。

本次实习旨在深入了解语音识别技术的工作原理，掌握相关算法和工具，并提高实际问题解决能力。

二、实习内容和过程在实习过程中，我主要参与了以下几个方面的工作：1. 学习语音识别基本原理：我首先学习了语音信号处理的基本概念，了解了语音信号的特性以及常见的预处理方法。

同时，我还学习了自动语音识别系统的基本组成，包括特征提取、模式匹配和语言解码等环节。

2. 熟悉语音识别相关工具：为了更好地进行实践操作，我熟悉了开源语音识别工具CMU Sphinx和Kaldi。

通过阅读相关文档和参考教程，我掌握了这些工具的基本使用方法和编程接口。

3. 数据采集与预处理：为了训练语音识别模型，我首先进行了数据采集工作。

通过从网络和开源数据集中获取语音样本，我整理了一个小型的语音数据库。

随后，我对这些语音数据进行了预处理，包括去噪、分段和特征提取等操作。

4. 构建语音识别模型：基于预处理后的数据，我利用CMU Sphinx和Kaldi分别构建了两个语音识别模型。

在构建过程中，我调整了模型参数，并使用交叉验证方法评估了模型的性能。

5. 模型优化与测试：通过对比分析两个模型的识别效果，我发现CMU Sphinx在一些噪声环境下的表现较差。

为了提高识别准确率，我对CMU Sphinx模型进行了优化，包括调整特征参数和模型结构。

同时，我还进行了测试实验，验证了优化后模型的性能。

6. 撰写实习报告：在整个实习过程中，我详细记录了所学习到的知识和技能，以及遇到的问题和解决方案。

在实习结束后，我将这些内容整理成一篇报告，以总结本次实习的经验和收获。

三、实习收获和体会通过本次实习，我收获颇丰。

首先，我深入了解了语音识别技术的基本原理和实际应用，为今后进一步研究奠定了基础。

孤立词语音识别中期报告

1 课题研究的背景及意义国外的语音识别研究工作可以追溯到20世纪50年代AT&T贝尔实验室开发的第一个能实现十个英文数字的语音识别系统。

我国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别十个元音。

直至1973年才由中国科学院声学所开始计算机语音识别。

1986年3月我国高科技发展计划(863计划)启动，国家863智能计算机专家组为语音识别技术研究专门立项，每两年举行一次专题会议。

现在我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势。

国内有不少语音识别系统已研制成功。

在孤立字大词汇量语音识别方面，最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。

在连续语音识别方面，91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。

在非特定人语音识别方面，有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。

随着信息产业的迅速发展，人们倾向于使用高效，快捷，方便的电子产品。

语音识别作为人机交互的一项关键领域，具备了实时，方便，快速等特点，在当今科学技术的发展上也有着日益重要的地位。

在一些特定的环境或是对于一些特定的人，语音识别可以带来很大的方便。

例如，驾驶员在高速行驶的汽车内电话拨号，飞行员在飞行过程中发出必要的命令等，都需要语音识别系统，另外语音识别也给失明者带来很大的帮助。

２课题任务探讨基于MATLAB的多个特定人孤立词语音识别的方法，期望在进行端点检测时，能进一步提高识别率。

该设计要求采用TW算法。

主要任务：1、理论分析，提出设计方案；2、语音采集；3、特征提取，形成训练集；4、特定人孤立词语音识别算法的程序实现。

３基本原理3.1语音识别的基本原理语音识别系统本质上是一种模式识别系统，因此它的基本结构与常规模式识别系统一样，包含有特征提取、模式匹配、参考模式库等三个基本单元。

孤立词语音识别算法性能研究与改进(1)

表#
%&’
阶数第一组
*$!
精简表示语音的特征序列中特征矢量的数目
在对两个语音特征序列进行匹配时，这两个序列各自的长
度（总帧数）将对计算速度具有极大影响，这在 123 计算中表现得尤其突出，由此可以想到，为了提高识别速度，可以从减少语音序列的总帧数方面着手。减少帧数的可行办法主要有两种，一是删除次要帧，二是相邻帧合并。根据语音识别理论，一段语音是由一个个不同状态组成，同一个状态内语音特征呈较平稳的形态，相邻帧距离较小，而在不同状态过渡的过程中，语音模式变化剧烈，相邻帧距离较大。研究表明，在语音识别中起主要作用的帧是处于不同状态过渡位置的帧 4,6。根据该结论可以尝试如下方法：先顺序求出一次语音的全部相邻特征矢量的距离，然后删除相邻帧间距较小的一部分特征帧，利用余下的相邻帧间距较大的帧进行识别。此外还可考虑用平均的方法把语音序列的相邻的若干帧合并为一帧，该方法在实验中取得了良好效果。
+
实验数据及结论
实验对象：打开、关闭、制冷、取暖、升 #+ 个两至三字词（
温、降温、强风、弱风、温度一、温度二、温度三、温度四、温度五、温度六），由两名男性青年发音作为测试集。其中一名男青年在噪音（说话声、音乐声、较大的空调噪声混合）大、中、小情况下对各语音各发 #! 遍，另一名男青年在噪音适中情况下对各语音发 #! 遍，每个词的前两次发音作为训练音，后 #" 次发音作为被识别音。被识别音按上述顺序分别构成第 #、 !、 *、 + 测试集，各由 #+" 个语音构成。其中 # 、 + 测试集以各种不同规律进行发音（轻、重、缓、急、先轻后重、先重后轻、先缓后急，先急后缓）， !、 * 测试集发音相对一致性较好。实验平台： &;;;+0" ， .+< 内存， =:<:>:-!+ 声卡和廉价微型麦克风。计算所使用的软件为 ?@ABC?D,) 操作系统和 <:2E

用于孤立词识别的语音识别系统实验报告

用于孤立词识别的语音识别系统实验报告语音是人际交流的最习惯、最自然的方式，它将成为让计算机智能化地与人通信，人机自然地交互的理想选择。

让说话代替键盘输入汉字，其技术基础是语音识别和理解。

语音识别将人发出的声音、音节、或短语转换成文字和符号，或给出响应执行控制，作出回答。

该系统用于数字0～9的识别，系统主要包括训练和识别两个阶段。

实现过程包括对原始语音进行预加重、分帧、加窗等处理，提取语音对应的特征参数。

在得到了特征参数的基础上，采用模式识别理论的模板匹配技术进行相似度度量，来进行训练和识别。

在进行相似度度量时，采用DTW 算法对特征参数序列重新进行时间的对准。

一、特征提取1、端点检测利用短时平均幅度和短时过零率进行端点检测，以确定语音有效范围的开始和结束位置。

首先利用短时平均幅度定位语音的大致位置。

做法为：（1）确定一个较高的阈值MH,短时平均幅度大于MH 的部分一定是语音段。

（2）分别沿这一语音段向两端搜索，大于某个阈值ML 的部分还是语音段，这样能较为准确地确定语音的起始点，将清音与无声段分开。

因为清音的过零率远远高于无声段，确定一个过零率的阈值Z min , 从ML 确定的语音段向前搜索不超过一帧的长度，短时过零率突然低于Zmin 三倍的点被认为是语音的起始点。

2、预加重对输入的原始语音进行预加重，其目的是为了对语音的高频部分进行加重，增加语音的高频分辨率。

假设在n 时刻的语音采样值为x(n),则经过预加重处理后的结果为：y(n)=x(n)+αx(n-1) α=0.983、分帧及加窗语音具有短时平稳的特点，通过对语音进行分帧操作，可以提取其短时特性，便于模型的建立。

帧长取为30ms ，帧移取为10ms ，然后将每帧信号用Hamming 窗相乘，以减小帧起始和结束处的信号不连续性。

Hamming 窗函数为： w(n)=0.54-0.46cos(12-N n π) (0≤n ≤N-1) 该系统中，hamming 窗的窗长N 取为240。

基于HMM的孤立词语音识别

j j

Markov链（, A）
状态序列 q1, q2, ..., qT
随机过程（B）
观察值序列 o1, o2, ..., oT
LOGO
HMM可解决的问题
4.HMM可解决的问题：
问题一：（前向后向算法）给定观察序列O=O1,O2,„OK,以及模型λ =(π ，A，B), 如何计算 P(O|λ )？即在λ 模型下观察到O=O1,O2,„OK结果的概率是多少。问题二：（Viterbi算法）给定观察序列O=O1,O2,„OK以及模型λ ,如何选择一个对应的状态序列S = s1,s2,„sT，使得S能够最为合理的解释观察序列O？即给定上述模型，若观察到上述序列，最可能的状态转换序列是什么？问题三：（Baum-Welch算法）如何调整模型λ =(π ，A，B)的参数,对于给定观测值O=O1,O2,„OT，使得P(O|λ )最大？即模型中的状态转移矩阵A、状态输出概率B和初始状态分布π 均未知，如何根据观察序列得到λ 模型？
中的某一个模板获得最佳匹配的过程。
示例：模板库：M0、M1、M2、M3、M4、M5、M6、M7、M8、M9
M3-M6-M9-M7
3-6-9-7
LOGO
HMM介绍
隐马尔科夫模型的介绍
隐马尔科夫模型(Hidden Markov Model, HMM)
HMM是一种统计分析模型，是在马尔可夫链的基础上发展起来的。
算量相对较大。
LOGO
马尔可夫链
1.马尔可夫链：
在已知系统目前的状态(现在)的条件下，一个过程的“将来”仅依赖 “现在”而与“过去”无关，这种过程称为无记忆的单随机过程（马尔可夫过程）。时间和状态都离散的马尔可夫过程称为马尔可夫链。设S是一个由有限个状态组成的集合，S={1, 2, 3, „,n-1, n}，可以把马尔可夫链看做小球随时间在n种状态跳动的过程。

孤立词语音识别系统的实现

孤立词语音识别系统的实现
引言
在孤立词语音识别中，最为简单有效的方法是采用动态时间规整(Dynamic Time Warping，DTW)算法，该算法解决了发音长短不一的模板匹配问题，是语音识别中出现最早、较为经典的一种算法。

用于孤立词识别，该算法较现在比较流行的HMM 算法在相同的环境条件下，识别效果相差不大，但HMM 算法要复杂的多，这主要体现在HMM 算法在训练阶段需要提供大量的
语音数据，通过反复计算才能得到模型参数，而DTW 算法的训练中几乎不需
要额外的计算。

所以在孤立词语音识别中，DTW 算法仍得到广泛的应用。

本
系统就采用了该算法。

系统概述
语音识别系统的典型实现方案如图1 所示。

输入的模拟语音信号首先要进行预处理，包括预滤波、采样和量化、加窗、断点检测、预加重等。

语音信号经过预处理后，接下来重要的一环就是特征参数提取，其目的是从语音波形中提取出随时间变化的语音特征序列。

然后建立声学模型，在识别的时候将输入的语音特征同声学模型进行比较，得到最佳的识别结果。

硬件构成系统构成
这里采用DSP 芯片为核心(图2)，系统包括直接双访问快速SRAM、一路AlDC／一路DAC 及相应的模拟信号放大器和抗混叠滤波器。

外部只需扩展FLASH 存储器、电源模块等少量电路即可构成完整系统应用。

系统主要功能模块构成
语音处理模块采用TI TMS320VC5402，其主要特点包括：采用改进的哈。

语音识别系统实习报告

一、实习背景随着人工智能技术的不断发展，语音识别技术逐渐成为我国信息技术领域的重要研究方向之一。

语音识别系统作为人工智能技术的重要组成部分，具有广泛的应用前景。

为了更好地了解语音识别系统的设计原理和应用场景，我参加了为期一个月的语音识别系统实习。

二、实习目标1. 熟悉语音识别系统的基本原理和关键技术；2. 掌握语音识别系统的开发流程和实验方法；3. 能够运用所学知识设计和实现一个简单的语音识别系统；4. 了解语音识别技术在实际应用中的优势和挑战。

三、实习内容1. 语音识别基本原理实习期间，我学习了语音识别的基本原理，包括声学模型、语言模型和声学模型。

声学模型用于将语音信号转换为声学特征，语言模型用于生成可能的词汇序列，声学模型则用于匹配声学特征和词汇序列。

2. 语音信号预处理在语音识别系统中，语音信号预处理是一个非常重要的环节。

实习期间，我学习了语音信号的预处理方法，包括静音检测、降噪、分帧和倒谱变换等。

3. 语音识别算法实习期间，我了解了多种语音识别算法，如隐马尔可夫模型（HMM）、支持向量机（SVM）和深度神经网络（DNN）等。

通过对这些算法的学习，我掌握了它们的原理和特点。

4. 实验设计与实现在实习过程中，我设计并实现了一个简单的语音识别系统。

该系统采用HMM算法进行语音识别，并使用Matlab进行编程实现。

系统主要包括以下步骤：（1）语音信号预处理：对采集到的语音信号进行降噪、分帧和倒谱变换等处理；（2）声学模型训练：根据预处理后的语音数据，训练声学模型；（3）语言模型训练：根据词汇表和声学模型，训练语言模型；（4）语音识别：将待识别语音信号输入系统，通过声学模型和语言模型进行匹配，得到识别结果。

5. 实验结果与分析在实验过程中，我收集了不同说话人、不同环境和不同语音内容的语音数据，对实验结果进行了分析。

结果表明，所设计的语音识别系统在大部分情况下能够实现较好的识别效果。

四、实习收获1. 理论知识：通过实习，我对语音识别系统的基本原理和关键技术有了更深入的了解，为今后的学习和研究打下了坚实的基础。

2012届语音信号处理课程设计报告孤立词识别资料

课程设计报告名称语音信号处理课程设计基于动态时间规整的小规模孤立词语音识别系统设计与开发指导教师李红莲设计起止日期2015-5-14 至 2015-6-14学院信息与通信工程专业电子信息工程学生姓名班级/学号成绩指导老师签字12级“语音信号处理课程设计”任务书摘要本论文主要阐述了语音识别系统开发的过程，采用了端点检测和特征参数提取的思路，主要的关注点是如何运用MEL频率倒谱系数(MFCC)的算法,也运用了动态时间规整(DTW)算法，以MATLAB 语言为编程语言，编程和获得语音识别算法。

笔者设计的语音识别算法的识别率相对较高，而以该算法为基础的语音识别系统可以达到设计的要求，所以其市场前景广阔。

关键词：语音识别系统；MFCC；DTW；孤立词识别AbstractThis paper mainly expounds the voice recognition system development process, using the endpoint detection and feature extraction of ideas, the main concern is how to use MEL Frequency Cepstral Coefficients (MFCC) algorithm, also used the Dynamic Time Warping (DTW) algorithm in MATLAB language programming language programming and access to speech recognition algorithm.The author design the speech recognition algorithm of the recognition rate is relatively high, and based on the algorithm of speech recognition system can meet the design requirements, so its wide prospect of market.Keywords: speech recognition system, MFCC,the DTW (dynamic time warping); isolated words recognition;目录12级“语音信号处理课程设计”任务书 (2)摘要 (3)Abstract (4)第一章概述 (6)1.1主要内容 (6)1.2要求 (6)1.3主要仪器设备 (6)1.4基本方法 (6)第二章信号特征参数MFCC提取 (7)第三章 DTW算法 (9)第四章实现过程及结果 (11)4.1 实现过程 (11)4.2 结果及分析 (11)结束语 (12)参考文献 (12)附录 (13)1、place_recgrnition (13)2、vad (13)3、mfcc (15)4、dtw (16)5、out (19)第一章概述21世纪，人类要不断地进行信息交流和传递，而在这一过程中，语音无疑是最为方便的工具和主要的交流媒介。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

用于孤立词识别的语音识别系统实验报告
语音是人际交流的最习惯、最自然的方式，它将成为让计算机智能化地与人通信，人机自然地交互的理想选择。

让说话代替键盘输入汉字，其技术基础是语音识别和理解。

语音识别将人发出的声音、音节、或短语转换成文字和符号，或给出响应执行控制，作出回答。

该系统用于数字0～9的识别，系统主要包括训练和识别两个阶段。

实现过程包括对原始语音进行预加重、分帧、加窗等处理，提取语音对应的特征参数。

在得到了特征参数的基础上，采用模式识别理论的模板匹配技术进行相似度度量，来进行训练和识别。

在进行相似度度量时，采用DTW 算法对特征参数序列重新进行时间的对准。

一、特征提取
1、端点检测
利用短时平均幅度和短时过零率进行端点检测，以确定语音有效范围
的开始和结束位置。

首先利用短时平均幅度定位语音的大致位置。

做法为：（1）确定一个
较高的阈值MH,短时平均幅度大于MH 的部分一定是语音段。

（2）分别沿这一语音段向两端搜索，大于某个阈值ML 的部分还是语音段，这样能较为准确地确定语音的起始点，将清音与无声段分开。

因为清音的过零率远远高于无声段，确定一个过零率的阈值Z min , 从ML 确定的语音段向前搜
索不超过一帧的长度，短时过零率突然低于Z
min 三倍的点被认为是语音的
起始点。

2、预加重
对输入的原始语音进行预加重，其目的是为了对语音的高频部分进行加重，增加语音的高频分辨率。

假设在n 时刻的语音采样值为x(n),则经过预加重处理后的结果为：
y(n)=x(n)+αx(n-1) α=0.98
3、分帧及加窗
语音具有短时平稳的特点，通过对语音进行分帧操作，可以提取其短时特性，便于模型的建立。

帧长取为30ms ，帧移取为10ms ，然后将每帧信号用Hamming 窗相乘，以减小帧起始和结束处的信号不连续性。

Hamming 窗函数为： w(n)=0.54-0.46cos(1
2-N n π) (0≤n ≤N-1) 该系统中，hamming 窗的窗长N 取为240。

设原始信号为s(n),加窗后为：
s w (n)=
∑∞
-∞=-m m n w m s )()( 4、特征参数的计算
人耳对不同频率的语音具有不同的感知能力，试验发现，在1000Hz 以下，感知能力与频率成线性关系，而在1000Hz 以上，感知能力则与频率成对数关系。

为了模拟人耳对不同频率语音的感知特性，人们提出了Mel 频率概念，其意义为：1Mel 为1000Hz 的音调感知程度的1/1000。

频率f
与Mel 频率的转换关系为：)10log()7001log(2595f B +⨯=
原始语音信号s （n ）经过预加重、分帧、加窗处理，得到每个语音帧的时域信号x （n ）。

将时域信号x （n ）后补若干0以形成长为N （程序中取N ＝512）的序列，然后经过快速傅立叶变换（FFT ）得到线形频谱X(k)，再将X （k ）通过Mel 频率滤波器组得到Mel 频谱。

其中Mel 频率滤波器组为在语音的频率范围内设置的若干个带通滤波器)(k H m ,0<=m<M,M 为滤波器的个数。

F(0)f(1) f(2) f(3) f(4) f(5) f(6)
通过Mel 滤波器组得到Mel 频谱
每个滤波器具有三角形滤波特性，其中心频率为f(m),当m 值小时相邻f(m)之间的间隔也小，随着m 的增加相邻f(m)的间隔逐渐变大。

其中关于)(k H m 和f(m)的计算公式在书上有详细的叙述，这里就不再叙述。

为了使结果和谱估计误差有更好的鲁棒性，对Mel 频谱取对数能量，
⎪⎭
⎫ ⎝⎛=∑-=1
02
)(|)(|ln )(N k m k k x m S H ，得到对数频谱S(m)。

程序中滤波器的个数M ＝26,最高频率fh ＝4000Hz ，最低频率fl ＝100Hz ，语音信号的采样频率fs ＝8000Hz 。

将对数频谱S （m ）经过离散余弦变换（DCT ）得到倒谱频域，即可得到Mel 频率倒谱系数（MFCC 参数）c （n ）：
C(n)=
∑-=1
0M m S （m ）cos(M m n )2/1(+π) (0≤m ≤M )
在实际的语音识别应用中，并不是取全部维数的MFCC 系数，试验表
明，通常取前12维的MFCC 系数即可。

二、训练和识别
训练。

用户输入若干次训练语音，然后用上面所述的方法提取各个数
字的特征参数，用模板匹配技术训练模板，得到每个数字的特征模板，放入特征模板库中。

识别。

为了进行相似度度量，将特征模板库中的各个模板称为参考模
板，将待识别的输入语音经过预处理以及特征提取以后得到的特征矢量序列称之为测试模板。

计算测试模板和参考模板之间的相似度，可以计算它们之间的失真，失真越小相似度越高。

对于特征矢量之间的失真度，有多种度量的方法，为了简单和便于处理，使用欧氏距离来进行度量。

在语音识别的过程中，进行相似度度量时，对用户语音进行训练或识
别时，即使每次尽量以同样的方式说同一个词汇，其持续时间的长度也会随机改变，而且每个词内部各个部分的相对时长也是随机变化的，因此，如果直接用特征矢量序列的模式来进行相似度的比较，其效果不可能是最佳的。

需要用DTW 算法对特征参数序列模式重新进行时间的对准来进行相似性的比较。

DTW 算法通过寻找一条通过测试模板和参考模板各个交叉点的帧失真度总和最小的路径，再向前回溯，即可得最佳路径。

识别过程中，将待识别数字的特征参数与每个参考模板进行比较，帧失真度最小的模板即识别为该模板中的数字。

三、界面
界面分识别和训练两个模块，训练时先选择所要训练的数字，再录音加入训练集。

识别时录入任意数字，即可进行识别。

通过录音按钮和暂停按钮控制录音，录音时均可显示波形。

使用Waveform 函数waveInOpen 、waveInPrepareHeader 、waveInAddBuffer 、waveOutOpen 、waveOutReset 等显示声音波形。

四、实验小结
在该系统中，采用了频域分析方法对语音信号进行分析，提取了可靠、量化、突出的特征。

对数字0～9的识别率可达80％以上。

对于语音波形相似的2和8、1和7较难识别，但是增加训练样本后，问题可得到改善。