基于概率神经网络的语音识别

合集下载

基于深度学习的语音识别技术研究

基于深度学习的语音识别技术研究随着人工智能技术的发展，语音识别技术也日渐成熟。

从最初的基于模板匹配的语音识别到后来的基于统计学习的语音识别，再到今天的基于深度学习的语音识别，语音识别技术已经不再是未来科技，而是已经进入了我们的日常生活。

一、基于深度学习的语音识别技术深度学习技术是人工智能领域的热门技术之一，因其在图像识别、语音识别、自然语言处理等领域的卓越表现而备受关注。

深度学习算法通过模拟人脑的神经元网络实现对输入数据的多层抽象表示和处理。

而在语音识别任务中，深度学习算法可以通过对音频信号的建模和自适应模型训练来有效降低语音识别的误识别率。

目前基于深度学习的语音识别技术主要包括深度神经网络（Deep Neural Networks, DNNs）、卷积神经网络（Convolutional Neural Networks, CNNs）、长短时记忆网络（Long Short-Term Memory, LSTM）等多种模型。

其中，DNNs是基于前馈神经网络实现的语音识别模型，通过多个隐层抽象输入特征，将输入的音频信号映射到语音单元上，通过输出层的激活函数可以得到对音频信号的识别结果。

CNNs则是通过卷积层和池化层实现特征的提取和降维，然后再使用全连接层实现的识别。

而LSTM则是基于循环神经网络实现的模型，对于长序列信号的记忆、建模和识别效果尤为出色。

二、深度学习技术的优点相对于传统语音识别算法，深度学习技术具有以下优点：1. 非线性特征提取: 传统语音信号的特征提取通常采用Mel频率倒谱系数（Mel-frequency cepstral coefficients, MFCCs）等算法，而深度学习技术可以通过多层的非线性变换实现更为复杂的特征提取。

2. 优秀的分类性能: 深度学习算法可以通过大规模数据训练和模型自适应调整，从而获得优秀的分类性能，尤其对于噪声干扰、口音变化等情况的适应能力更强。

3. 高效的训练方法: 深度学习算法可以使用反向传播算法实现模型训练，而且可以结合GPU等并行计算技术加速训练完成。

神经网络模型在语音识别中的应用

神经网络模型在语音识别中的应用随着人工智能技术的快速发展，神经网络模型在各个领域的应用也越来越广泛。

其中，语音识别作为一项关键技术，为我们提供了声音与文字之间的桥梁。

本文将重点探讨神经网络模型在语音识别中的应用。

一、语音识别的挑战和重要性语音识别是将人类语音信号转换为可理解的文本形式的技术。

在过去，由于语音信号的多样性以及背景噪音的干扰，语音识别一直是一个具有挑战性的任务。

然而，随着神经网络模型的引入，语音识别的准确性和性能得到了显著提升。

同时，语音识别的应用场景也越来越广泛，包括智能助理、语音交互系统、电话客服等。

二、传统方法和神经网络模型在介绍神经网络模型的应用之前，我们首先回顾一下传统的语音识别方法。

传统方法主要基于概率模型，如高斯混合模型（GMM）和隐马尔可夫模型（HMM）。

这些方法通过建模语音信号的声学特征和语言模型来进行识别，但是在复杂环境下的识别精度较低。

相比之下，神经网络模型能够更好地处理复杂的特征和模式。

神经网络模型通常由多个神经元层组成，每个神经元与前一层的神经元相连。

通过训练神经网络模型，可以使其自动学习特征和模式，并在语音信号中提取更高层次的特征。

三、神经网络模型在语音识别中的应用1. 端到端语音识别系统神经网络模型广泛应用于端到端语音识别系统中。

传统的语音识别系统包含多个模块，如声学特征提取、声学模型、语言模型等。

而端到端语音识别系统直接将语音信号作为输入，并输出对应的文本结果。

这种系统简化了流程，同时提高了准确性。

2. 循环神经网络循环神经网络（RNN）在语音识别中也扮演着重要角色。

RNN具有记忆能力，能够处理序列数据，因此非常适用于语音识别任务。

它可以捕捉序列特征之间的依赖关系，对于连续性较强的语音信号具有较好的建模能力。

3. 卷积神经网络卷积神经网络（CNN）在图像识别中表现出色，但同样可以应用于语音识别任务。

CNN主要用于处理语音信号的频谱图，能够从中学习到局部特征。

隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用一、引言隐马尔可夫模型（Hidden Markov Model，HMM）是一种基于概率统计的模型，由于其灵活性、通用性和有效性，使其成为自然语言处理、语音识别等领域中重要的工具之一。

语音识别是指通过计算机对语音信号进行处理和分析，从而转换成文本的过程。

本文将探讨隐马尔可夫模型在语音识别中的应用，以及其在该领域中的局限性和发展方向。

二、隐马尔可夫模型的原理隐马尔可夫模型是一种马尔可夫过程，其特点是其状态不是直接观察到的，而是通过观察到的输出来间接推断。

其由状态转移概率矩阵A、观测概率矩阵B和初始状态概率向量π三部分组成。

1.状态转移概率矩阵A状态转移概率矩阵A表示从一个状态转移到另一个状态的概率。

设隐马尔可夫模型中有N个状态，状态集合为{S1,S2,...,SN}，则状态转移概率矩阵A为：A=[aij]N×N其中，aij表示从Si转移到Sj的概率。

2.观测概率矩阵B观测概率矩阵B表示在某个状态下产生某个观测值的概率。

设观测值的集合为{O1,O2,...,OM}，则观测概率矩阵B为：B=[bj(k)]N×M其中，bj(k)表示在状态Sj下，观察到Ok的概率。

3.初始状态概率向量π初始状态概率向量π表示模型从某个状态开始的概率分布。

设初始状态的集合为{S1,S2,...,SN}，则π为：π=[π1,π2,...,πN]其中，πi表示从状态Si开始的初始概率。

三、隐马尔可夫模型在语音识别中的应用在语音识别中，隐马尔可夫模型被广泛应用，其主要应用场景包括：1.语音信号的建模在语音识别中，将语音信号建模为声学特征流是一个核心问题。

而声学特征流是通过将语音信号划分为小时间窗进行采样获得的。

在隐马尔可夫模型中，状态对应着声学特征流的各个时间窗，而观测值则对应着该时间窗的声学特征。

因此，通过隐马尔可夫模型对声学特征流进行建模，可以从语音信号中提取出关键的声学特征，并进行语音识别。

语音识别四种方法的特点

语音识别四种方法的特点
一、语音识别四种方法特点
1、基于模板的语音识别
基于模板的语音识别是一种以词库中的特定词语为基础的语音
识别技术，它只能识别特定的词语，不能够识别一些比较复杂的句子。

它的特点是：识别准确性高，识别率低，能够做到识别后及时反馈。

2、基于模型的语音识别
基于模型的语音识别是一种面向句子的语音识别技术，它基于一定的模型，不仅能够识别特定的词语，还能够识别比较复杂的句子语句，并且具有识别率高、识别准确率较低的特点。

3、基于统计的语音识别
基于统计的语音识别是一种基于大量数据的语音识别技术，它能够实现自动的语音识别，识别率高，可以识别环境中的噪声，但是它的识别准确率较低。

4、基于神经网络的语音识别
基于神经网络的语音识别是一种融合了基于模板的语音识别和
基于模型的语音识别技术，它能够识别特定的词语，也能够识别比较复杂的句子，具有较高的识别准确率和识别率。

基于听觉感知和概率神经网络的语音识别模型

ｔｒｓｔｅｏｔｅｒｃｇｉｏｏｋｂｔｉｅＮＮ．ｙｔａｎｎａｇｕｅｆｓｅｃａｌｓｓｅｃｉｅｔｃｔｎａａａｅｕｈｎｄｈｅｏｔｎｗｒｙｒｎｄＰｅｎｉａＢｉｉｇａｌｅｎｍｂｒｏｐｅｈｓｍｐｅ．ｐｅｈｄｎｉａｉｄｔｂｓｒｒｉｆｏ
１ＤｅａｔｎｆＰｙｉｓＳｈｏｆＳｉｎｅＳｚｏｉｅｓｔ，ｕｈｕ，ｉｎｓ１０６，ｉａ．ｐｒｍｅｔｏｈｓｃ，ｃｏｌｏｃｅｃ，ｕｈｕＵｎｖｒｉＳｚｏＪａｇｕ２５０Ｃｈｎｙ２Ｄｐｒｍｅｔｏｌｃｒｎ，ｃｏｌｏｎｏｍａｉｎ，ｕｈｕＵｎｖｒｉＳｚｏＪａｇｕ２５０Ｃｉａ．ｅａｔｎｆＥｅｔｏＳｈｆＩｆｒｔｏＳｚｏｉｅｓｔｕｈｕ，ｉｎｓ１０６，ｈｎｙ，
Ｋｅｒｓａｋｗａｅｅ；ｒｂｂｌｔｕａＮｅｗｒ（ＮＮ）ｆａｕｅａｓｒｃｉｎ；ｐｅｈｒｃｇｉｏｙｗｏｄ：ＢｖｌｔＰａｉｓｉＮｅｒｔｏｋＰｒｏｉｃｌ；ｅｔｒｂｔｔｓｅｃｏｔｎａｏｅｎｉ
维普资讯
３０
２０，３１）０７４（９
ＣｍｕｒＥｇｅｒｇａｄＡｐｉｔｎｏｐｔｎｉｅｉｎｐｌａｏｓ计算机工程与应用ｅｎｎｃｉ
基于听觉感知和概率神经网络的语音识别模型
ｉｃｎｔｃｅａｄｈｉｔｇａｅｒｃｇｉｏｓｓｅｓｏｓｒｔｄ，ｎｔｅｎｅｔｄｅｏｔｎｙｔｍｉｈｎｕｌＴｅｘｅｍｅｔｅｕｔｈｗｈｔｏａｎｗｔｔａｉｏａｕｒｎｉｓｅｂｉ．ｈｅｐｒｎｒｓｌｓｏｔａｔｔｉｓｃｍｐｒｇｉｉｈｒｄｔｎｌｉｗｙｏＬＣＣＤＷａｄａｓｆＰ／ＴｎＭＦ／Ｗ，ｉＣＣＤＴｈｍｅｏｃｎｎｒａｅｈｒｃｇｉｏｒｔｂ１．％ｔｓｈｔｄａｉｃｓｔｅｅｏｔｎａｅｙ４９ｅｎｉｒｃｇｉｏａｅｏ６９．ｅｏｎｔｎｒｔｆ９．％ｉａｄ０１，ｎｉａａｔｉｎ１．％ａｄｔｎｔｎｃａ

智能音箱中的语音识别技术实现方法

智能音箱中的语音识别技术实现方法智能音箱是一种集成人工智能技术的智能家居设备，它通过语音交互的方式与用户进行沟通和控制。

而语音识别技术则是智能音箱的核心功能之一，其实现方法对于提高用户体验和智能音箱的性能至关重要。

本文将介绍智能音箱中常用的语音识别技术实现方法，包括模式匹配、统计模型和深度学习。

一、模式匹配方法模式匹配是最早也是最简单的语音识别技术之一。

该方法是通过预先录制并存储一系列的语音模板，然后将输入语音与这些模板进行比较，找到最匹配的结果。

模式匹配方法的优点是实现简单，计算效率高，适用于较小词汇量和简单的语音识别任务。

然而，该方法的缺点是需要提前录制并存储大量语音模板，对系统的可扩展性有一定限制。

二、统计模型方法统计模型方法是一种基于概率统计的语音识别技术。

它通过建立一系列的概率统计模型，对输入语音进行分析和比较，然后选择最可能的识别结果。

常用的统计模型方法包括隐马尔可夫模型（Hidden Markov Model，HMM）和最大熵模型（Maximum Entropy Model，MEM）。

统计模型方法的优点是能够处理较大词汇量和复杂的语音识别任务，同时具有一定的可扩展性。

然而，该方法对训练数据的要求较高，需要大量的标注语音数据来建立准确的模型。

三、深度学习方法深度学习方法是近年来在语音识别领域取得重要突破的一种技术。

该方法基于深度神经网络（Deep Neural Network，DNN）或循环神经网络（Recurrent Neural Network，RNN）等深度学习模型，通过大规模的训练数据自动学习语音特征和模式。

与传统的方法相比，深度学习方法在语音识别领域取得了更好的性能和准确度，特别是在较大词汇量和复杂语境下。

然而，深度学习方法对于训练数据的要求较高，需要大量的标注语音数据和计算资源。

除了上述常用的语音识别技术实现方法外，还有一些辅助技术和优化方法可以有效提高智能音箱的语音识别性能。

基于深度信念网络的语音识别技术研究

基于深度信念网络的语音识别技术研究随着科技的不断发展，人们对于语音识别技术的需求也越来越高。

传统的语音识别技术存在一些问题，如语音背景噪声较大时容易出现错误，同时语音的变化也会导致误识别率的提高。

近年来，基于深度学习的信念网络技术得到了广泛的关注和研究，被应用于语音识别领域，其在语音信号预处理、分类、特征提取等方面都取得了显著的效果提升。

一、深度信念网络的基本原理深度信念网络（Deep Belief Network，DBN）是一种基于概率模型的深度学习模型，最初由Hinton等人提出。

它的关键在于利用训练数据对模型进行预训练，使得模型能够从数据中学习到有意义的特征，并且在后续分类任务中表现良好。

DBN由多个受限玻尔兹曼机（Restricted Boltzmann Machine，RBM）组成。

RBM是一种结构简单的无向图模型，每个节点表示一个二值变量，这些变量之间存在连接，并且这些连接有权。

RBM有两层节点：可见层（Visible Layer）和隐藏层（Hidden Layer）。

在训练时，利用对比散度算法（Contrastive Divergence，CD）对模型进行更新，从而找到最优权重矩阵。

二、基于深度信念网络的语音识别技术特点1.提高识别准确率基于深度信念网络的语音识别技术采用了自适应特征提取方法，通过利用大量数据对模型进行训练，使得模型具有更强的抗噪声能力和鲁棒性。

同时，深度信念网络在训练过程中采用逐层贪心算法（Greedy Layer-Wise Training）进行预训练，使得模型能够在分类任务中更好地表现。

2.语音识别速度更快基于深度信念网络的语音识别技术采用了多层识别模型，将输入的语音信号转化为高层次的语音表征，从而加快了分类速度。

同时，深度信念网络中每一层都可以进行特征压缩，使得模型的参数量大大减小，从而提高了识别速度。

3.识别范围更广深度信念网络在语音识别技术中还可用于语音合成、鉴别性语音训练、基于深度学习的说话人识别等多个领域，具有广泛的应用前景。

基于神经网络的智能语音识别系统

基于神经网络的智能语音识别系统我们生活中的方便程度越来越高，这归功于科技的不断发展进步。

智能语音识别技术的出现，为人们的日常生活带来了巨大的便利。

基于神经网络的智能语音识别系统，成为当今最先进、最有效的语音识别技术之一。

一、智能语音识别技术的基础智能语音识别技术是由语音输入和自然语言处理两个部分组成的。

语音输入是将听到的语言转换为信息的过程，自然语言处理则是根据语音输入生成有意义的指令和回答。

基于神经网络的智能语音识别系统，是应用神经网络技术来完成语音识别和自然语言处理的。

在神经网络中，人工神经元通过相互连接，形成了一张强大的网络，可以实现对语音信号的处理和特征提取。

二、神经网络的架构神经网络的构成包括三个层次：输入层、隐藏层和输出层。

输入层是接收语音信号的部分，隐藏层是进行特征提取和模式识别的部分，输出层则是生成人类可理解的文字或语音的部分。

神经网络的超参数和训练方式对语音识别的质量有很大的影响。

超参数包括神经元的数量、层数、激活函数等。

同时，训练方式也有很多种，例如直接优化目标函数、分段训练和多任务训练等，每一种训练方式都会有不同的效果。

三、智能语音识别技术的应用智能语音识别技术在日常生活中得到了广泛的应用，其中包括语音搜索、智能家居、车载语音识别等方面。

基于神经网络的智能语音识别系统，也成为了这些应用中的重要部分。

在语音搜索方面，基于神经网络的智能语音识别系统可以实现人机交互，让用户输入更加便捷。

智能家居系统则可以通过语音识别技术实现对家庭设备的控制，为居民提供带有智能化的居家生活。

车载语音识别系统也可以帮助人们在驾驶过程中完成人机交互，保证安全驾驶的同时提供高质量的交互体验。

四、智能语音识别技术的未来虽然现代智能语音识别技术已经取得了很大的进步，但是仍然存在着一些问题。

对于语音信号的噪声、口音和方言等问题，语音识别系统仍然有待进一步提升。

为此，我们需要不断地探索新的技术和方法，为智能语音识别技术的未来发展提供更多的可能性.对于基于神经网络的智能语音识别系统而言，我们还需要更多的关注相关研究和理论，以及不断探索更加高效的网络构架和训练方式。

基于卷积神经网络的语音识别技术研究

基于卷积神经网络的语音识别技术研究语音识别技术是人工智能的重要研究领域之一，其核心是自然语言处理。

目前，基于深度学习的语音识别技术已经被广泛应用于语音助手、智能家居、智能客服等领域。

其中，卷积神经网络(CNN)作为一种成功的深度学习架构，在语音识别中也发挥着非常重要的作用。

一、卷积神经网络的基本结构卷积神经网络由卷积层、池化层、全连接层等组成。

其中，卷积层是CNN的核心层次，用来提取语音信号中的特征特征，应用复杂的函数实现了从原始输入到特征提取的映射。

池化层用来对特征进行降维和抽样。

全连接层将特征提取出来的特征进行整合和分类。

整个CNN模型在训练过程中通过反向传播算法自动学习如何从语音信号中提取信息，从而实现了语音识别。

二、卷积神经网络的优点相比传统的语音识别方法，卷积神经网络具有以下优点：1.神经网络能够自动学习语音信号中的特征，避免了繁琐的人工特征提取过程。

2.卷积层的卷积核可以实现对语音信号的局部响应，提高了对信号变化的适应性。

3.卷积神经网络具有高度的灵活性，能够适应不同噪音水平和说话人口音的输入环境，并且模型参数也不需事先平衡。

三、卷积神经网络语音识别的研究问题和解决方案虽然卷积神经网络在语音识别领域具有良好的应用前景，但在实际应用中也存在一些问题。

主要问题如下：1.数据量问题：语音是一个高度动态的信号，需要大量的样本数据才能有效地训练模型。

目前，不同语种及不同口音的大规模数据集仍然是绝大多数研究所面临的难题。

2.语音噪声问题：噪声对语音识别的影响极大，尤其在实际应用环境中，噪声较多，因此如何对卷积神经网络进行优化以适应不同的噪音环境是一个很重要的问题。

3.实时性问题：语音识别在实际应用中需要达到实时性，即输入语音信号到输出文字结果的时延要达到可接受的范围。

如何快速适应语音信号的变化并实现实时性也是一个重要的问题。

针对以上问题，研究人员提出了以下解决方案：1.数据增强：通过降噪、语速变换、声道增强等技术，扩充数据的变化范围，提高模型的鲁棒性和分类效果。

神经网络在语音识别中的应用

神经网络在语音识别中的应用随着人工智能技术的快速发展，神经网络在各个领域的应用也越来越多。

在语音识别领域，神经网络的应用也是越来越普遍，因为它能够处理大量的声音数据，并识别出具有不同语音特征的人的语言。

本文将探讨神经网络在语音识别中的应用，并介绍这项技术的优势和局限性。

一、神经网络的基本原理在深入探讨神经网络在语音识别中的应用之前，我们需要了解一些基本概念。

神经网络是一种基于人脑神经细胞网络的数学模型，可以处理和学习大量的数据。

它由多个神经元组成，每个神经元接受一些输入并产生一个输出。

这个输出可以成为后续神经元的输入或到达网络中的输出。

神经网络可以通过学习输入与输出之间的关系，自动调整它自己的权值和参数，以提高其预测或分类的准确性。

二、神经网络在语音识别中的应用语音信号是一种复杂的波形声音，通常由语音信号的模式和声纹特征等多种因素组成。

神经网络具有很强的处理这种非线性信号的能力，因此在语音识别的过程中更具优势。

基于神经网络的语音识别算法通常分为以下几个步骤：1. 预处理神经网络在接收数据之前，需要进行一定的预处理。

预处理的主要目的是通过一些信号处理技术提取出语音中的关键特征，同时去除噪声和干扰信号。

其中常用的预处理方法包括离散傅里叶变换（DFT）、小波变换、自适应过滤和频率平滑等技术。

2. 特征提取预处理之后，我们就可以对语音信号进行特征提取。

特征提取的目的是将信号转换为神经网络可以处理的形式。

语音信号的特征提取通常包括 MFCC、梅尔频率倒谱系数、线性预测系数等。

其中，MFCC 是最常用的特征提取方法之一，它将语音信号转换为一个维度较低且不敏感于语音速度和发音的特征矢量。

3. 训练神经网络将语音信号转换为特征向量之后，我们就可以将这些向量用于训练神经网络。

训练的目的是通过大量的训练数据和标签来优化神经网络的参数和权值。

训练数据可以分为语音信号和对应的文本标签，即语音信号的文本转写。

通过反向传播算法，神经网络可以不断调整参数和权值，直到达到更高的分类精度。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、课题简介
语音识别是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术，其根本目的是设计出能识别出人类语音的机器，能和人类进行交流，通过交流来指挥机器人代替人类工作。

从技术上看，语音识别是一门多科学交叉的科学，集计算机、数字信号处理、人工只能、声学、语音学、通信、数理统计等多学科综合的技术，与图像识别技术相比，语音识别有着许多独特的优势：携带信息量大、处理响应快、无需专门训练、周边设备简单、应用领域广阔、经济效益可观等等，也正因为如此，语音识别长期以来一直是人们研究的热点，其研究成果已广泛应用于人类社会的各个领域。

本课题研究的是概率神经网络的语音识别，神经网络具有自学习、自适应、鲁棒性、容错性和推广能力，本课题就是利用这种优势来进行孤立词识别。

二、原理介绍
语音识别的基础是要能清楚语音的产生过程及语音信号的特征。

语音信号是十分复杂的非平稳信号，它不仅仅包含语义信息，还有语音特征信息，对其特征参数的研究是十分必要的。

一个完整的语音识别系统可大致分为三部分：（1）语音特征提取：其目的是从语音波形中提取出随时间变化的语音特征序列。

(2) 声学模型与模式匹配（识别算法）：声学模型通常将获取的语音特征通过学习算法产生，在识别时将输入的语音特征同声学模型( 模式) 进行匹配与比较，得到最佳的识别结果。

（3）语言模型与语言处理：语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。

本课题研究概率神经网络在语音识别中的应用，这个识别过程主要包括（1）将输入的孤立词进行预处理包括预加重，加窗，端点检测。

（2）进行特征提取，提取特征参数。

（3）将提取的特征进行概率神经网络的训练。

（4）进行模式识别，利用训练好的网络完成识别。

其中对信号加窗是为了避免短时语音段边缘的影响，端点检测是为了找到语音的起始位置，由于语音是不平稳的随机过程，其特征是随着时间变化的，但这种变化很缓慢，可以将语音信号分成一些相继的短段进行处理。

概率神经网络是属于前向型的神经网络结构的一种，概率神经网络主要的理论基础建立在于贝氏法则上，对于任意维度输出的分类应用问题上，可以快速且有效地解决关于输入向量大小的问题，由于网络结构上的优点，并没有限定一定是连续值或必须是二进制值，所以在解决不同形式的问题时多了许多的方便性，而且概率神经网络在面临因为系统外界环境因素改变，而需要加入新的分类数据时，仅需对新进的分类数据定义权值而无需像其它类型的网络结构那样改变全部的网络权值。

由于这一种网络的学习速度十分快速，严格来说学习所需的时间为零，因为其网络连结权值采取一次设定，只是直接从训练范例中加载所需数据，无迭代过程，所以对网络的训练是一个很重要的过程。

另外，在孤立词语音识别中，最为简单有效的方法是采用DTW算法，即动态时间归整算法，基于动态规划思想，解决了发音长短不一的模板匹配问题，是语音识别中出现较早、较为经典的一种算法，用于孤
立词识别。

由于对不同的汉语孤立词，或不同人说相同的汉语词语时，发音长短、清浊音比例等都是变化的(即输入汉语语音词组信号的帧数不同)，而大多数神经网络分类器的输入结构是固定的，利用神经网络进行汉语孤立词语音识别时，存在着时间规整这一难题，这就意味着必须设法从可变长度的输入语音信号中提取相同维数的特征矢量，才能满足分类器的使用要求。

为了解决时间规整问题，可以对语音信号进行线性时间规整，但这种方法可导致相同词组中的音素或类音素无法对准。

另外，有人提出采用非线性时间规整算法来解决时间对准问题，其中，动态时间规整(DTW)算法就是效果较好的一种非线性时间规整算法,其思路是采用动态规划技术，将一个复杂的全局最优化问题化为许多局部最优化问题，一步一步进行决策以寻找到最优路径，总的累计失真量最小时对应的路径就是最佳的时间规整函数。

将时间规整算法与神经网络相结合，就会组成一个混合级神经网络语音识别系统，在这个模型中，第一级是时间规整神经网络，其作用是从输入不等长的语音信号特征矢量序列中提取固定长度的特征矢量，然后馈入后一级网络完成语音识别任务。

三、课题研究内容
完成本课题分为以下几个步骤：研究语音预处理、特征提取方法并确定本课题算法，完成概率神经网络的孤立词识别；研究概率神经网络的特点及原理，利用Matlab实现语音预处理、特征提取及特征规划。

整体上，语音识别由几步构成：检测语音信号，语音分段，特征参数求取，神经网络学习，识别结果。

首先进行概率神经网络的孤立词识别，其步骤如下：
（1）对孤立词进行去噪、端点检测、预加重等预处理。

（2）提取特征参数MFCC并进行动态规整。

（3）使用Matlab语言程序，对概率神经神经网络进行训练。

（4）利用训练好的概率神经网络进行孤立词识别。

语音识别流程图（图1）如下：
图1. 语音识别流程框图
要实现特征提取必须经过以下几个过程：归一化mel滤波器组系数；设定dct(离散余弦变换)系数；归一化倒谱提升窗口；预加重滤波器；语音信号分帧；计算每帧的mfcc参数；计算差分系数；合并mfcc参
数和一阶差分mfcc参数；去除首位两帧（因为这两帧的一阶差分参数为0）。

要实现语音检测功能须经过以下几个过程：归一化幅度；设置参数数值；计算过零率；计算短时能量；调整能量门限；对端点进行检测，在这一过程中还要判别是否进入了语音段、语音是否结束。

其中概率神经网络的结构如下图：
图2. 概率神经网络结构图
输入层接收一个M维的向量x，并把它传给模式层的所有节点，模式层的节点根据他们的输出被分成不同的类，这些节点执行一个点乘运算的非线性(指数) 转换，即高斯函数；总和层节点合计特征层节点的输出来产生与每一类相对应的合成概率密度函数，即图中的后验概率计算；输出层用来执行一个具体的决策规则来产生输出。

在整个识别过程中，首先通过使用PC机中的录音机软件保存读元音{ a，o，e，i，u}的声音，然后对这些信号进行去除噪声和压缩信号等预处理，提取特征参数，然后就可以用来训练和测试PNN模型。

要用一个概率神经网络去对语音进行识别，可以把它转化为PNN的分类问题，即使每一个元音分别对应于一个类别，对于每一个输入，使用PNN系统将之分类，例如，对于一个输入，如果系统将之分到{a} 这一类，我们就认为这个输入就是拼音元音a，从而实现识别。

使用MA TLAB中的神经网络工具箱来实现对元音信号进行分类的PNN 模型，把收集到的信号分成两部分，一部分语音作为训练集，剩下的部分作为测试集。

实验结果列在下表中，从表中可以看到，对元音{a}的识别率是最高的，其他依次为{ o，e，i，u}。

本课题的主程序如下，其中包括五个调用子程序，分别为实现newpnn和sim函数功能证明的demopnn；分裂信号成重叠框架的enframe；实现特征提取的mfcc；判断矩阵的一个滤波器组melbankm；实现话音激活检测功能的vad。

其中包含的主要参数有滤波器组的滤波参数P，平滑参数spread，采样率Fs，测试识别所需时间t，汉宁滤波器在mel的范围n，汉明滤波器在mel的范围m，z表示高频和低频滤波器参数(逐渐减少到0)，表示最低过滤保持在1到0的频率和最高过滤保持在1到奈奎斯特频率的参数y，x是一个含有该滤波器组振幅的稀疏矩阵。

其中wavread函数读取wav格式音频，返回值x是音频的数据向量，fs 是采样频率，bits是每一个采样点的数据深度，即比特数。