基于深度神经网络的语音端点检测

合集下载

基于深度学习的语音识别技术研究

基于深度学习的语音识别技术研究随着人工智能技术的发展，语音识别技术也日渐成熟。

从最初的基于模板匹配的语音识别到后来的基于统计学习的语音识别，再到今天的基于深度学习的语音识别，语音识别技术已经不再是未来科技，而是已经进入了我们的日常生活。

一、基于深度学习的语音识别技术深度学习技术是人工智能领域的热门技术之一，因其在图像识别、语音识别、自然语言处理等领域的卓越表现而备受关注。

深度学习算法通过模拟人脑的神经元网络实现对输入数据的多层抽象表示和处理。

而在语音识别任务中，深度学习算法可以通过对音频信号的建模和自适应模型训练来有效降低语音识别的误识别率。

目前基于深度学习的语音识别技术主要包括深度神经网络（Deep Neural Networks, DNNs）、卷积神经网络（Convolutional Neural Networks, CNNs）、长短时记忆网络（Long Short-Term Memory, LSTM）等多种模型。

其中，DNNs是基于前馈神经网络实现的语音识别模型，通过多个隐层抽象输入特征，将输入的音频信号映射到语音单元上，通过输出层的激活函数可以得到对音频信号的识别结果。

CNNs则是通过卷积层和池化层实现特征的提取和降维，然后再使用全连接层实现的识别。

而LSTM则是基于循环神经网络实现的模型，对于长序列信号的记忆、建模和识别效果尤为出色。

二、深度学习技术的优点相对于传统语音识别算法，深度学习技术具有以下优点：1. 非线性特征提取: 传统语音信号的特征提取通常采用Mel频率倒谱系数（Mel-frequency cepstral coefficients, MFCCs）等算法，而深度学习技术可以通过多层的非线性变换实现更为复杂的特征提取。

2. 优秀的分类性能: 深度学习算法可以通过大规模数据训练和模型自适应调整，从而获得优秀的分类性能，尤其对于噪声干扰、口音变化等情况的适应能力更强。

3. 高效的训练方法: 深度学习算法可以使用反向传播算法实现模型训练，而且可以结合GPU等并行计算技术加速训练完成。

基于深度学习的语音识别技术

基于深度学习的语音识别技术在当今数字化的时代，语音识别技术正以前所未有的速度改变着我们与机器交互的方式。

从智能手机中的语音助手到智能音箱，从车载语音控制系统到语音转文字的应用，基于深度学习的语音识别技术正在逐步融入我们生活的方方面面。

那么，什么是基于深度学习的语音识别技术呢？简单来说，它是一种让计算机能够理解和处理人类语音的技术。

传统的语音识别方法往往依赖于复杂的特征提取和模式匹配算法，但深度学习的出现为这一领域带来了革命性的变化。

深度学习中的神经网络模型，就像是一个聪明的学生，通过大量的语音数据进行学习和训练。

这些数据包含了各种各样的语音样本，有不同的口音、语速、语调以及背景噪音。

神经网络在学习这些数据的过程中，逐渐掌握了语音的规律和特征，从而能够对新的语音输入进行准确的识别。

在这个过程中，数据的质量和数量至关重要。

高质量的数据能够帮助模型学习到更准确和有用的信息，而大量的数据则可以让模型更加全面地了解各种语音情况，提高其泛化能力。

就好比一个人只有见过足够多的例子，才能在遇到新问题时做出准确的判断。

为了让模型更好地学习，研究人员还采用了各种优化算法和技巧。

比如，调整网络的结构和参数，选择合适的激活函数，以及运用正则化方法来防止过拟合等。

这些努力都是为了让模型能够更高效、更准确地学习语音特征。

当语音输入到系统中时，首先会进行预处理，包括降噪、端点检测等操作。

然后，将处理后的语音信号转换为特征向量，这些特征向量就像是语音的“指纹”，包含了语音的关键信息。

接下来，深度学习模型会对这些特征向量进行分析和计算，尝试理解其中的含义，并将其转换为对应的文字输出。

基于深度学习的语音识别技术具有许多显著的优点。

首先，它的识别准确率得到了大幅提高。

相比传统方法，深度学习能够更好地处理复杂的语音情况，对各种口音和噪声具有更强的适应性。

其次，它的灵活性更高，可以很容易地适应新的语言和领域。

而且，随着技术的不断发展，语音识别的速度也越来越快，能够实现实时的语音交互。

基于神经网络的声音检测技术探究

基于神经网络的声音检测技术探究一、引言近年来，人工智能领域的快速发展带来了许多新型传感器、机器人等先进设备和应用系统，但其中最令人瞩目的要数基于神经网络的声音检测技术。

本文将通过对该技术进行深入分析和探究，展现其优势和应用前景。

二、神经网络简介神经网络，简称NN，是一种高度组织的信息处理体系，不同于传统的基于计算逻辑的程序算法，它更像是大规模的并行处理器，可为它输入的信息找到一种隐藏在数据中的潜在规律。

NN的设计理念源于人类大脑神经元之间的互连原理，即通过多个子节点传递信息，使信息在节点间留下了复杂的权重关系，从而构建了神经网络中的各层次。

NN的训练过程包括两个关键阶段——前向传导和反向传播。

前向传导，即前馈计算，是指将神经网络输入的信息沿特定的神经回路进行传播，以产生与之对应的输出。

反向传播，即误差反向传播，是指利用神经网络输出与实际结果之间的误差信息，通过学习率和梯度下降法调整神经网络中的连接权重。

三、基于神经网络的声音检测技术基于神经网络的声音检测技术是指将计算机视觉领域中的卷积神经网络(CNN)运用到声音信号中去，实现对声音的识别和分类。

CNN是一种具有层次性和局部感知能力的神经网络，通过对图像的分块处理和卷积核的滑动计算，提取出了图像特征，并将其用于图像分类、检测等任务中。

类比于声音检测，CNN的输入数据变成了语音信号，卷积核变成了滤波器，可以提取出多种声音的频率、语调、重音等特征，以进行语音识别或事件检测。

四、神经网络的优势声音检测技术的关键问题在于如何将声音信号中的有效信息提取出来，并将其用于分类或识别，这正是神经网络的优势所在。

相比传统的数字信号处理方法，基于神经网络的声音检测技术具有以下几个显著的优势：1、充分利用了数据的非线性信息，可提高模型的分类准确度；2、CNN模型在识别图像时的优良表现也为声音识别提供了思路和方法；3、与传统的数字信号处理方法相比，神经网络能够更好地处理噪声、失真等问题；4、具有相对较小的模型参数，能够较好地避免过拟合的风险；5、数据量大和变化多样的场景下被证明更容易捕获到句法和语义信息。

深度神经网络在语音识别技术中的应用研究

深度神经网络在语音识别技术中的应用研究近年来，深度学习已成为了人工智能领域的研究热点，被广泛应用于语音识别、图像识别等领域。

其中，深度神经网络（Deep Neural Networks，简称DNN）在语音识别技术中的应用研究颇受关注。

一、DNN的基本结构和工作原理深度神经网络是一种在结构上类似于生物神经网络的人工神经网络，由多个神经网络层次组成。

DNN的基本结构由输入层、中间层和输出层构成，其中中间层也被称为隐含层。

它可以处理大量数据，并在数据集中自动学习数据特征。

每个神经网络层次都包含一组神经元，用来对输入数据进行处理。

DNN的工作原理是通过学习复杂的数据集，获得对输入数据的深度理解，从而实现对数据有效特征的提取。

具体而言，DNN通过梯度下降算法不断优化权重和偏置，在反向传播过程中实现网络参数的学习与调整，从而提高网络的准确性和性能。

DNN通过不同层次的特征提取和抽象表示，能够处理极其复杂的深度学习模式，真正实现了人工智能领域的突破性进展。

二、DNN在语音识别技术中的应用DNN是一种非线性模型，具有高度的表达能力和学习能力。

在语音识别技术中，DNN被广泛应用于语音识别、语音生成和语音合成等领域。

具体应用包括：1. 语音识别DNN在语音识别领域中应用最为广泛。

在传统的语音识别系统中，主要利用高斯混合模型（GMM）和隐马尔科夫模型（HMM）进行语音信号的建模和识别。

然而，传统的GMM和HMM模型难以捕捉数据的高阶特征，因而在实际应用中效果不尽人意。

而DNN能够提取更加丰富的特征，并在模型训练过程中通过不断迭代优化参数，从而显著提升语音识别的准确率和性能。

2. 语音生成DNN还可用于语音生成方面，即通过机器学习技术生成与自然语言相近的语音。

在该领域，DNN主要用于建模语音信号的生成模型，能够生成更加真实的语音信号，并为后续的语音应用提供基础支撑。

3. 语音合成DNN还可用于语音合成方面，即通过机器学习和信号处理技术合成自然语言的语音。

silero vad原理

silero vad原理
Silero-VAD是一个开源的语音活性检测工具，专门用于语音信号处理。

它的原理是基于深度学习的语音端点检测方法，能够自动地识别出语音信号中的语音和非语音部分。

具体来说，Silero-VAD首先通过预加重、分帧、加窗等预处理步骤，将语音信号转化为适合神经网络处理的格式。

然后，利用深度学习技术，构建一个神经网络模型，该模型能够自动学习和识别语音信号的特征。

在训练过程中，模型会不断地优化和更新，以提高语音识别的准确率。

在语音活性检测过程中，Silero-VAD会根据神经网络模型输出的结果，自动地识别出语音信号中的语音和非语音部分。

同时，它还可以根据不同的环境和噪声情况，自适应地调整阈值，以实现更准确的语音活性检测。

总之，Silero-VAD的原理是基于深度学习的语音端点检测方法，通过神经网络自动学习和识别语音信号的特征，实现语音和非语音的自动分类。

基于深度神经网络的语音合成技术

基于深度神经网络的语音合成技术深度神经网络（Deep Neural Network，DNN）是一种通过构建多层神经元来模拟人脑神经网络的一种机器学习算法。

近年来，深度神经网络在各个领域取得了巨大的成功，尤其是在语音合成技术方面。

本文将介绍基于深度神经网络的语音合成技术及其应用。

一、深度神经网络的语音合成原理深度神经网络的语音合成技术是基于机器学习的方法，通过训练神经网络模型来学习声学特征和语音模型。

其基本原理如下：1. 数据预处理：首先，需要获取大量的音频数据进行训练。

这些音频数据需要进行预处理，包括音频采样、声学特征提取等步骤。

2. 特征提取：接下来，使用特征提取算法从音频数据中提取出一系列的声学特征，如梅尔频率倒谱系数（Mel-frequency Cepstral Coefficients，MFCC）等。

3. 训练模型：将提取的声学特征作为神经网络的输入，通过大量的训练数据对神经网络进行训练，使其学习到音频数据中的潜在模式和规律。

4. 语音合成：训练完成后，使用训练好的深度神经网络模型来合成语音。

通过输入文本（文本到语音合成，Text-To-Speech，TTS），神经网络模型可以生成相应的声学特征，然后将其转化为音频信号。

二、基于深度神经网络的语音合成技术的优势基于深度神经网络的语音合成技术相较于传统方法具有以下优势：1. 自然度高：深度神经网络可以模拟人脑神经网络的结构，能够更好地捕捉语音的声学特征和语义信息，因此生成的语音更为自然、流畅。

2. 灵活性强：深度神经网络可以根据不同的训练数据和模型结构进行灵活调整，可以适应不同语种、口音和语音风格的合成需求。

3. 学习能力强：深度神经网络具有很强的学习能力，通过大量的训练数据和迭代优化训练过程，可以不断提高语音合成的质量和准确性。

4. 实时性好：基于深度神经网络的语音合成技术可以实时生成语音，响应速度快，适用于各种实时系统和应用场景。

三、基于深度神经网络的语音合成技术的应用基于深度神经网络的语音合成技术在多个领域有广泛的应用，包括但不限于以下几个方面：1. 语音助手：如智能手机的语音助手、智能音箱等，基于深度神经网络的语音合成技术可以生成自然流畅的语音回应用户的指令和问题。

基于小波分析与神经网络的语音端点检测研究

的语音检测算法。
关键词：小波分析；神经网络；语音端点；粒子群优化算法
中图分类号：ＴＮ９１文献标识码：Ａ国家标准学科分类代码：５１０．４０４０
Ｒｅｓｅａｒｃｈｏｆｓｐｅｅｃｈｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｄｎｅｕｒａｌｎｅｔｗｏｒｋｓ
ｔｉｏｎｍｏｄｅｌｉｓｅｓｔａｂｌｉｓｈｅｄ，ａｎｄｔｈｅｓｉｍｕｌａｔｉｏｎｅｘｐｅｉｍｅｒｎｔｓａｒｅｃａｒｒｉｅｄｏｕｔ．ＴｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔＷＡ— ＩＭＰＳＯ— ＢＰｉｍ— ｐｒｏｖｅｓｔｈｅｓｐｅｅｃｈｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎｒａｔｅ，ｅｆｆｅｃｔｉｖｅｌｙｒｅｄｕｃｅｓｔｈｅｖｉｒｔｕｌａｄｅｔｅｃｔｉｏｎｒａｔｅａｎｄｍｉｓｓｉｎｇｒａｔｅ．Ｓｏｉｔｉｓａ
Ａｂｓｔｒａｃｔ：Ｉｎｔｈｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍ，ｔｈｅｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎｉｓａｎｉｍｐｏｒｔａｎｔａｓｐｅｃｔ．Ｉｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅｔｈｅｃｏｒｒｅｃｔｒａｔｅｏｆｓｐｅｅｃｈｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎｉｎａｖａｉｒｅｔｙｏｆｎｏｉｓｙｅｎｖｉｒｏｎｍｅｎｔｓ，ｔｈｅｐａｐｅｒｐｒｏｐｏｓｅｓａｖｏｉｃｅａｃｔｉｖｉｔｙｄｅ — ｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｗａｖｅｌｅｔａｎａｌｙｓｉｓａｎｄｎｅｕｒａｌｎｅｔｗｏｒｋｔｏｉｍｐｒｏｖｅｔｈｅｖｏｉｃｅｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎｒａｔｅ．Ｔｈｅ

基于深度学习的自动化语音识别系统

基于深度学习的自动化语音识别系统在当今数字化的时代，自动化语音识别系统正逐渐成为我们日常生活和工作中不可或缺的一部分。

从智能手机上的语音助手，到智能客服，再到语音转文字的应用，其广泛的应用场景为我们带来了极大的便利。

要理解自动化语音识别系统，首先得从其核心技术——深度学习谈起。

深度学习是一种基于人工神经网络的机器学习方法，它能够自动从大量的数据中学习到复杂的模式和特征。

在语音识别中，深度学习模型通过对海量的语音数据进行训练，学习到语音的声学特征、语言模式以及上下文信息等，从而能够准确地将输入的语音转换为文字。

在自动化语音识别系统中，数据的收集和预处理是至关重要的第一步。

为了让系统能够学习到各种不同的语音特征和语言表达方式，需要收集大量的语音样本，包括不同的口音、语速、语调、背景噪音等。

这些语音样本会经过一系列的预处理操作，例如降噪、分帧、端点检测等，以便提取出有用的声学特征，为后续的模型训练做好准备。

接下来就是模型的构建和训练。

常见的深度学习模型架构，如循环神经网络（RNN）、长短时记忆网络（LSTM）和门控循环单元（GRU）等，在语音识别中都有广泛的应用。

这些模型能够有效地处理语音这种具有时序性的数据，捕捉语音中的长期依赖关系。

在训练过程中，模型会不断调整参数，以最小化预测结果与真实标签之间的误差，从而逐渐提高识别准确率。

当模型训练完成后，还需要进行评估和优化。

评估指标通常包括准确率、召回率、F1 值等。

如果模型的性能不满足要求，就需要进一步分析原因，可能是数据不足、模型结构不合理或者训练参数设置不当等。

然后，根据分析结果对模型进行优化，例如增加数据量、调整模型结构或者采用更先进的训练算法。

然而，自动化语音识别系统在实际应用中仍然面临着一些挑战。

首先是环境噪音的影响。

在嘈杂的环境中，语音信号容易受到干扰，导致识别准确率下降。

其次是口音和方言的多样性。

不同地区的人们有着不同的口音和语言习惯，这对于模型的泛化能力提出了很高的要求。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于深度神经网络的语音端点检测殷实1,2，张之勇2，王东2，郑方2，李银国1（1.重庆邮电大学计算机科学与技术学院，重庆400065；2.清华大学语音和语言技术中心，北京100084）摘要：语音端点检测(voice activity detection, VAD)是在连续信号中检测出语音片段的技术，在语音编码、说话人识别、语音识别等领域具有广泛应用。

随着移动设备的普及，差异化噪声下的端点检测成为研究的热点与难点。

本文提出一种基于深度神经网络(deep neural network, DNN) 的端点检测方法。

这一方法利用DNN在表征复杂模式上的高度灵活性来学习各种语音和噪声模式，实现对语音片段更准确的检测。

实验结果表明，基于DNN的端点检测方法与基于能量、谱熵、基频等传统检测方法相比具有明显优势，特别是引入带噪训练技术后，该方法在高噪声环境下表现出优异的性能。

关键词：语音识别；端点检测；深度神经网络Deep neural network based voice activitydetectionYin Shi1,2, Zhang Zhiyong2, Wang Dong2,Zheng Fang2, Li Yinguo1(1. College of Computer Science and Technology,Chongqing University of Posts and Telecommunications, Chongqing 400065, China;2. Center for Speech and Language Technologies,Tsinghua University, Beijing 100084, China) Abstract：Voice activity detection (V AD), with the aim of detecting voice segments from continuous speech signals, has been applied in a wide range of applications such as speech coding, speaker recognition and speech recognition. With the popularity of mobile devices, V AD in heterogeneous noise situations has gained much interest. This paper proposes a novel V AD approach based on deep neural networks (DNN). The basic idea is to utilize the flexibility of DNNs in representing complex signal patterns to learn various speech and noise patterns, leading to more precise voice detection. Our experiments show that the DNN-based V AD approach is clearly superior to conventional approaches based on energy, entropy and pitch. Particularly, DNN models trained with noisy data show significant performance improvement in situations with strong noises. Key words: speech recognition, voice activity detection, deep neural network从音频流中检测出语音片端，即端点检测技术，对语音编码、说话人分离和识别、语音识别等具有重要意义。

一般而言，端点检测定义为从连续音频信号中检测出实际语音片段的起始点和终止点，从而提取出有效的语音片段，排除噪声等其他非语音信号的干扰，为后续语音处理系统提供可靠的语音数据；同时，语音端点检测去除了不必要的非语音片段，减少了后续语音处理系统的计算压力，有利于提高系统的响应速度。

一般来说，在低噪音条件下，端点检测相对容易，传统基于能量或谱熵的检测方法即可得到较高的检测精度。

然而，当语音信号受到噪声污染时，端点检测的困难显著提高。

特别是随着移动设备的普及，噪声变得更加差异化，检测起来也更为困难。

如音乐声、敲门声、背景说话声、咳嗽声等都和待检测的语音信号具有很高的混淆度。

在这种差异化复杂噪声环境下，传统的端点检测方法很难取得让人满意的效果[1]。

近年来，DNN在信号处理领域，特别是语音识别任务上取得了巨大成功，一些研究者也将目光转向了基于DNN的语音端点检测。

在文[2]中，作者利用DNN的学习能力，将多种V AD特征进行融合训练DNN模型，以此作为语音端点检测的判决模型，取得了很好的效果。

该研究的一个不足是各种V AD 特征需要人为设计，实现起来较为复杂，同时该模型没有提供一个较好的抗噪音方法。

事实上，DNN具有从原始数据中学习层次特征的能力，可以利用这一能力，在初级特征(FBank)上学习逐层学习高层特征，从而避免了人为设计特征的困难。

同时，DNN具有学习各种复杂信号模式的能力，因而可以基于同一模型学习多种差异性噪声特性，从而解决传统V AD方法对不同噪声需要分别设计区分性模型的困难。

本文依上述思路，探讨利用DNN模型进行端点检测的方法。

与文[2]不同的是，本文方法不依赖于人为设计的判决特征（如能量、过零率等），而是从FBank特征直接训练DNN模型。

同时，本文提出利用带噪训练方法增强DNN抗噪性能，进一步增强基于DNN的端点检测方法在噪声环境下的鲁棒性。

实验结果表明，基于DNN的端点检测方法与基于能量、谱熵、基频等传统检测方法相比具有明显优势，特别是引入带噪训练技术后，基于DNN的端点检测方法在高噪声环境下表现出优异的性能。

1 传统语音端点检测传统的端点检测算法主要包括两大类，一类是基于特征提取的端点检测算法，一类是基于模型匹配的端点检测算法。

基于特征提取的端点检测算法从语音信号中提取时域或频域上的特征参数，根据语音/非语音在这些特征参数上的不同分布规律，设定某一阈值或建立区分性模型来区分语音/非语音段。

比较有效的时域特征参数包括：短时能量、过零率[3]、自相关函数、基频等。

主要的频域特征参数有包括：LPC倒谱距离、频率方差、谱熵等。

本文选择三种常用的特征提取检测法作为对比系统，分别为基于能量的方法，基于谱熵的方法和基于基频的方法。

基于模型的端点检测算法是将语音信号端点检测问题转化成语音帧分类问题，通过建立语音/非语音帧的二分类模型实现语音段起止点检测[4]。

这一方法考虑了相邻语音帧之间的相关性以及误差的先验概率，因此能够比较正确的找到语音/非语音段的分界面。

然而，当前绝大数模型方法所采用的模型很难同时学习多种噪声特性，不同噪声往往互相干扰，且很难扩展到集外噪声。

本文提出的基于DNN 的端点检测法即属于模型检测法，同时解决了传统模型方法无法同时学习多种噪声的困难。

2基于DNN的语音端点检测DNN是一个包含多个隐藏层的神经网络。

神经网络在语音信号处理领域有广泛应用，例如在语音识别中，神经网络常被用来代替传统的高斯混合模型(Gaussian mixture model, GMM)来计算语音帧的状态输出概率。

然而，长期以来，神经网络只是作为替代方法存在，并没有表现出对传统方法的绝对优势。

直到最近几年，伴随着深度学习技术的兴起和DNN的出现，神经网络的优势才得以充分显现，并开始全面取代传统建模方法。

2.1 基于DNN的端点检测方法DNN模型的一个显著优势是其层次性学习能力。

基于其多层网络特性，DNN在较低层次上学习通用模式，在较高层次上学习复杂模式。

这一分层学习方法有利于更充分利用模型参数，同时也更符合人类的学习方式。

基于这一特性，可以利用DNN 从初级特征中学习语音/非语音的高级区分性特征（如能量、谱熵、基频等），而无需人为设计。

同时，DNN具有学习复杂分类任务的能力。

这一方面得益于DNN的多层非线性，另一方面得益于其区分性模型的本质。

这一特性，使得DNN能从大量数据中学习多种噪音模式而互不干扰。

本文提出基于DNN的端点检测方法，其基本思路是，利用DNN的分层学习能力和区分性建模能力，基于大规模标注的语音库，以音素区分性为学习目标，利用DNN从初级FBank特征中学习多种语音和非语音模式，实现帧层次上的语音/非语音判决，进而实现适用于差异化复杂噪声环境的端点检测。

具体而言，首先训练一个对音素（实际上是上下文相关音素的特定状态，见第3节实验设置）进行分类的DNN网络，其输入为某一语音帧的初级FBank特征，输出为该语音帧对应的音素。

本文使用一个训练好的语音识别系统得到语音帧和音素的对应。

该DNN网络可表示为一个由输入到输出的映射函数:θ→M Kf R R，其中M是输入的FBank特征向量维度，K是音素集的大小，θ表示网络中所有可变参数。

设输入FBank特征向量为∈MRx，对应的目标输出为{0,1}∈Ky，其中y仅在x所对应的音素所在维度取1，其余维度上取0。

DNN的优化目标函数定义为DNN输出结果与目标分类的交叉熵：()()11(){()}θ===-∑∑N Kn nkn kE lnfy x(1)其中，N表示训练样本数。

依(1)式对该DNN模型参数进行优化，即可得到音素区分模型。

对某一帧Fbank特征输入，依上述方法训练的DNN模型将输出该帧语音在音素集中每一个音素上的后验概率。

将所有非噪声/静音音素对应的输出加和，即可得到该帧为语音的概率，通过与某一设定阈值比较，即可判断该帧是否为语音。

2.2 DNN的加噪训练方法通过上节所述方法得到的DNN模型，在训练条件与测试条件相匹配时，通常可以取得较好的分类效果。

然而，当训练条件与测试条件不匹配时，例如训练数据是原始音频信号，而测试数据是含有噪声的音频信号，则会导致过拟合问题。

这是因为DNN 模型具有庞大的参数空间，可以学习语音信号中的很多细节，而这些细节在不匹配的测试集中并不存在，因此导致所学模型在测试集上产生偏差。

为提高DNN 模型对噪声的鲁棒性，本文提出带噪训练方法：在训练过程中，人为对训练数据加入不同信道、不同量级的噪声，使得这些噪声能够被DNN 所学习。