深层神经网络预训练的改进初始化方法

合集下载

神经网络模型的训练技巧与优化方法

神经网络模型的训练技巧与优化方法随着人工智能技术的不断发展，神经网络已成为解决复杂问题的一种主要方法。

神经网络的训练是指通过调整网络的参数，使其能够从训练数据中学习出合适的映射关系。

为了获得更好的训练效果，必须灵活运用一些训练技巧和优化方法。

本文将介绍一些常用的神经网络训练技巧与优化方法，帮助读者更好地掌握神经网络模型的训练过程。

1. 数据预处理在进行神经网络训练时，数据预处理是非常重要的一步。

首先，需要对数据进行归一化处理，将其转化为统一的数据范围，有助于提高神经网络的收敛速度。

其次，可以采用数据增强的方式，通过对原始数据进行旋转、平移、缩放等操作来扩充数据集的规模，提高模型的泛化能力。

2. 选择合适的激活函数激活函数在神经网络中起到了非常重要的作用，它能够引入非线性特性，增加网络的表达能力。

常见的激活函数包括sigmoid函数、ReLU函数、tanh函数等。

在选择激活函数时，需要根据具体的问题和网络结构来进行选择，以获得更好的训练效果和收敛速度。

3. 适当调整学习率学习率决定了神经网络参数的调整步长，过大的学习率可能导致模型发散，而过小的学习率则会让模型收敛速度过慢。

因此，在训练过程中，需要根据实际情况适当调整学习率，可以采用指数递减的方式或根据验证集的表现来动态调整学习率，以获得更好的训练效果。

4. 使用合适的损失函数损失函数用于衡量模型预测值与实际值之间的差异，是模型优化的关键。

根据具体的问题和任务类型，可以选择不同的损失函数，常见的有均方误差损失函数、交叉熵损失函数等。

在选择损失函数时，需要考虑问题的特点以及模型的训练目标，以获得更好的训练效果。

5. 批量归一化批量归一化是一种常用的网络优化方法，它可以加速神经网络的训练过程，提高模型的泛化能力。

批量归一化通过对每个小批量样本进行规范化处理，使得网络在学习的过程中更加稳定和可靠。

同时，批量归一化还可以缓解梯度消失和梯度爆炸等问题，有助于提高网络的训练效果。

深度学习技术中的参数初始化方法

深度学习技术中的参数初始化方法在深度学习中，参数初始化是一项重要而有挑战性的任务。

参数初始化的选择可以对模型的性能和收敛速度产生一定的影响。

在本文中，我们将探讨深度学习技术中常用的参数初始化方法，包括随机初始化、预训练初始化和Xavier/Glorot初始化。

1. 随机初始化随机初始化是深度学习中最常用的参数初始化方法之一。

在随机初始化中，模型的参数通过从均匀或正态分布中随机采样来进行初始化。

这种方法的优势在于可以避免参数值过于相似，从而增加模型的多样性。

然而，随机初始化也存在一些缺点，如可能导致不稳定性和梯度消失/爆炸等问题。

2. 预训练初始化预训练初始化是另一种常见的参数初始化方法，特别适用于深度神经网络。

在预训练初始化中，模型首先在一个较小的数据集上进行训练，然后使用这些学到的参数作为初始参数进一步训练。

这种方法可以帮助模型避免陷入局部最优点，并提高模型的泛化能力。

然而，预训练初始化需要大量的计算资源和时间，并且可能无法适应新的任务。

3. Xavier/Glorot初始化Xavier/Glorot初始化是一种常用的参数初始化方法，旨在解决梯度消失/爆炸的问题。

在这种方法中，参数的初始化值取决于输入层和输出层的神经元数量。

具体来说，Xavier/Glorot初始化将参数初始化为从均匀分布或正态分布中随机采样的值，其均值为0，方差为(1/(n_in + n_out))，其中n_in和n_out分别代表输入层和输出层的神经元数量。

这种方法可以有效地平衡了参数初始化的问题，并提高了模型的收敛速度和训练稳定性。

在实际应用中，选择适当的参数初始化方法可以对模型的性能产生重要的影响。

一般来说，对于浅层网络，随机初始化可能是比较合适的选择，因为浅层网络的参数数量相对较少。

而对于深层网络，Xavier/Glorot初始化通常能够取得更好的效果，因为它能够更好地平衡梯度消失/爆炸的问题。

此外，也有其他参数初始化方法被提出，如He初始化、LeCun初始化等。

kaiming 初始化使用方法

kaiming 初始化使用方法Kaiming 初始化使用方法简介Kaiming 初始化，也被称为 He 初始化，在深度学习领域被广泛应用于各类神经网络模型的参数初始化过程中。

它的主要目标是解决深层神经网络初始化时的梯度消失或梯度爆炸问题，使得网络的训练更加稳定和高效。

方法以下是几种常见的 Kaiming 初始化方法：1.全零初始化：将模型的所有参数都初始化为零。

虽然这种方法很简单，但对于深层网络而言，容易导致梯度消失问题。

2.随机初始化：将模型的参数使用均匀分布或高斯分布进行随机初始化。

这种方法可以缓解梯度消失问题，但不易控制参数的范围和分布。

3.Xavier 初始化：在全连接层中常用的一种权重初始化方法，通过根据上一层的神经元个数和下一层的神经元个数来计算权重的标准差，从而使得前向传播时每个神经元的激活值的方差相近。

但对于具有不同尺度分布的激活函数，可能会引入梯度消失问题。

4.Kaiming 初始化：针对具有修正线性单元（ReLU）激活函数的深层神经网络，通过将权重初始化为从均值为 0、方差为 2/n 的高斯分布中采样，其中 n 是上一层神经元的数量，来解决梯度消失问题。

该方法可以更好地适应修正线性单元的特性，提高网络的训练效果。

使用建议在使用 Kaiming 初始化时，有几个值得注意的建议：•Kaiming 初始化是针对具有修正线性单元（ReLU）激活函数的网络，对于其他类型的激活函数，建议使用其他初始化方法。

•Kaiming 初始化得到的权重分布在非线性范围内效果较好，如果在网络中使用了标准化、归一化等操作，可以考虑调整初始化方法。

•如果网络层数较少，简单的随机初始化可能已经足够，不一定需要使用 Kaiming 初始化。

总结Kaiming 初始化是一种解决深层神经网络初始化中梯度消失问题的有效方法。

它通过使用修正线性单元（ReLU）特定的初始化方法，使得网络能够更好地适应非线性激活函数，提高训练效果和稳定性。

优化卷积神经网络的初始化方法和策略

优化卷积神经网络的初始化方法和策略随着深度学习的快速发展，卷积神经网络（Convolutional Neural Networks，CNN）已成为图像识别、语音识别等领域的重要工具。

然而，CNN的训练过程往往需要大量的计算资源和时间，而且容易陷入局部最优解的困境。

为了解决这些问题，研究者们不断探索和优化CNN的初始化方法和策略。

一、传统的初始化方法在介绍优化方法之前，我们先回顾一下传统的初始化方法。

最常用的初始化方法是随机初始化，即将网络参数随机初始化为一个较小的值。

这种方法简单直接，但容易导致梯度消失或梯度爆炸的问题，使得网络训练困难。

另一种常用的初始化方法是Xavier初始化，它根据输入和输出的维度来确定参数的初始值，能够有效地缓解梯度消失和梯度爆炸问题。

二、优化的初始化方法为了进一步提高CNN的性能，研究者们提出了一系列优化的初始化方法。

其中一种方法是使用预训练模型进行初始化。

预训练模型是在大规模数据集上训练得到的模型，可以作为初始化的起点，加速网络的收敛速度。

另一种方法是使用自适应初始化方法，如He初始化。

He初始化根据激活函数的特点，将参数初始化为一个较小的随机值，能够更好地适应不同的网络结构和激活函数。

三、策略的优化方法除了初始化方法，策略的优化也对CNN的性能有着重要影响。

一种常见的策略是学习率衰减。

学习率衰减可以使得网络在训练初期更加稳定，避免参数更新过快导致的震荡现象，同时在训练后期减小学习率可以更好地收敛。

另一种策略是使用正则化方法，如L1正则化和L2正则化。

正则化方法可以有效地控制模型的复杂度，防止过拟合的发生。

四、深度网络的初始化方法对于深度网络，初始化方法尤为重要。

深度网络通常由多个卷积层和全连接层组成，其中每一层的参数都需要进行初始化。

传统的初始化方法往往无法满足深度网络的需求，因此需要使用更加复杂的初始化方法。

一种常用的方法是使用批量归一化（Batch Normalization）进行初始化。

深度学习中的参数初始化方法

深度学习中的参数初始化方法深度学习是机器学习领域中的重要分支，通过神经网络模型实现对复杂数据的自动学习和抽象。

在深度学习的过程中，参数初始化是一个至关重要的步骤。

良好的参数初始化方法能够帮助模型更好地收敛，并提高模型的性能和泛化能力。

本文将介绍一些常用的深度学习中的参数初始化方法。

1. 随机初始化随机初始化是最常用的参数初始化方法之一。

在随机初始化中，权重和偏置值被初始化为一个较小的随机值。

这样做的目的是为了打破对称性，避免出现所有神经元具有相同的权重或激活值。

随机初始化可以通过从均匀分布或正态分布中采样得到。

2. 零初始化零初始化是一种简单而直接的参数初始化方法。

在零初始化中，所有的权重和偏置值被设置为零。

然而，零初始化方法往往不是一个理想的选择，因为它会导致网络中所有神经元的输出相同。

这使得网络无法学习到有效的特征表示，从而影响模型的性能。

3. 常数初始化常数初始化是将所有的权重和偏置值初始化为固定的常数。

常数初始化方法的一个常见选择是将所有的权重和偏置值初始化为较小的正数或负数。

然而，常数初始化也存在一些问题。

如果选择的常数过大或过小，将导致梯度消失或梯度爆炸的问题，从而影响模型的训练效果。

4. Xavier初始化Xavier初始化是一种基于统计学原理的参数初始化方法。

在Xavier 初始化中，权重和偏置值根据输入和输出的维度进行初始化。

具体而言，权重值被初始化为均匀分布或正态分布中的一个较小的随机值，其方差与输入和输出维度相关。

这种方法可以有效地解决梯度消失和梯度爆炸问题，提高模型的训练效果。

5. He初始化He初始化是Xavier初始化的一种变种，在深度学习中更为常用。

He初始化是根据输入和输出的维度来初始化权重值，但与Xavier初始化不同的是，He初始化的方差与输入维度相关。

He初始化可以更好地适应ReLU等激活函数，在深度神经网络中表现出更好的性能。

6. 预训练模型初始化在深度学习中，预训练模型初始化是一种常用的方法。

神经网络的训练与优化方法

神经网络的训练与优化方法1.梯度下降（Gradient Descent）梯度下降是神经网络中最常用的优化方法之一、其基本原理是通过不断调整网络参数来降低损失函数的值。

具体而言，梯度下降通过计算参数梯度的负方向来更新参数，以减小损失函数的值。

这个过程可以看作是在参数空间中找到损失函数最小值的下降过程。

2.反向传播算法（Backpropagation）反向传播算法是训练神经网络的关键算法之一、它通过不断计算损失函数对每个参数的梯度来更新参数。

反向传播算法基于链式法则，通过递归计算每一层的梯度来得到整个网络的梯度。

反向传播算法为神经网络提供了高效的梯度计算方法，使得网络可以在大规模数据上进行训练。

3.正则化（Regularization）正则化是一种常用的优化方法，用于防止神经网络过拟合。

过拟合是指模型在训练集上表现很好，但在测试集或实际应用场景中表现较差。

正则化通过在损失函数中引入额外的项来控制网络的复杂程度。

常用的正则化方法包括L1正则化、L2正则化以及Dropout等。

4.优化器（Optimizers）优化器是神经网络训练中常用的工具，用于找到损失函数的最小值。

常见的优化器包括随机梯度下降（SGD）、动量优化器（Momentum）、Nesterov动量优化器、Adagrad、RMSProp和Adam等。

它们的目标都是在每次参数更新时调整学习率以提高训练效果，并加速收敛过程。

5.学习率调整（Learning Rate Adjustment）学习率是指网络在训练过程中每次参数更新的步长。

学习率的选择直接影响网络的训练速度和性能。

通常来说，学习率过大可能导致网络不稳定，学习率过小可能导致网络收敛过慢。

因此，一般会采用学习率衰减或自适应学习率的方法来调整学习率。

常见的学习率调整策略有固定衰减、指数衰减、余弦退火等。

6.批量训练（Batch Training）批量训练是指在训练过程中使用一定数量的样本进行参数更新。

神经网络中的权重初始化技巧与注意事项

神经网络中的权重初始化技巧与注意事项神经网络是一种受到生物神经元启发的计算模型，它可以模拟人脑的工作方式，用于解决复杂的模式识别和预测问题。

在神经网络中，权重是连接神经元之间的参数，它决定了不同神经元之间的连接强度，进而影响了神经网络的性能。

因此，权重初始化是神经网络训练中的一个重要环节，合适的权重初始化技巧可以加快神经网络的收敛速度，提高模型的泛化能力。

本文将就神经网络中的权重初始化技巧与注意事项进行探讨。

1. 随机初始化权重在神经网络训练之初，权重需要进行初始化。

一种常见的方法是随机初始化权重，即将权重参数设置为一个随机数值。

这种方法可以避免权重落入局部最优解的情况，有利于增加神经网络模型的多样性。

常见的随机初始化方法包括高斯分布、均匀分布等，通过调整分布的参数来控制权重的初始化范围。

2. Xavier初始化Xavier初始化是一种常用的权重初始化方法，它可以有效地加速神经网络的收敛速度。

Xavier初始化的思想是保持信号在传播过程中的方差不变。

在使用激活函数为tanh或sigmoid函数时，可以使用Xavier初始化方法。

Xavier初始化方法可以使得神经网络的输出保持在一个较小的范围内，有利于减少梯度消失或爆炸的问题。

3. He初始化He初始化是一种适用于ReLU激活函数的权重初始化方法。

由于ReLU函数在负半轴上的梯度为零，因此传统的Xavier初始化方法并不适用。

He初始化方法通过将权重初始化为均值为0，方差为2/n的高斯分布，来解决ReLU函数的梯度消失问题。

He初始化方法可以有效地提高神经网络的收敛速度和准确率。

4. 小心权重初始化过大或过小的问题在神经网络中，权重初始化过大或过小都会带来一些问题。

如果权重初始化过大，容易导致梯度爆炸的问题，这会导致收敛速度过快，甚至无法收敛。

相反，如果权重初始化过小，容易导致梯度消失的问题，这会导致模型无法学习到有效的特征表示。

因此，需要在权重初始化时注意控制权重的范围，避免出现过大或过小的情况。

神经网络的优化与改进

神经网络的优化与改进神经网络作为人工智能的核心技术，被广泛应用于图像识别、自然语言处理、语音识别等领域。

然而，在实际应用过程中，神经网络模型存在一些问题，如模型的复杂度、训练时间、可解释性不足等。

因此，神经网络的优化与改进一直是人工智能研究人员的重要方向之一。

一、深度学习中的优化方法使用梯度下降算法来调整神经网络的权重和偏置系数是一种常见的优化方法。

在深度学习中，梯度下降算法又分为批量梯度下降算法、随机梯度下降算法和小批量梯度下降算法。

批量梯度下降算法每次使用全部的训练样本来计算梯度，然后更新权重和偏置。

这种方法的优点是稳定，但训练时间长，需要大量的存储空间。

随机梯度下降算法则是随机选择一个训练样本计算梯度并更新权重和偏置，重复这个过程直到所有样本都被用于训练。

这种方法的优点是收敛速度快，但也容易陷入局部最优解。

小批量梯度下降算法则是在样本中选择一个较小的批次来计算梯度，然后更新权重和偏置。

这种方法结合了批量梯度下降算法和随机梯度下降算法的优点，通常被广泛采用。

二、神经网络的学习率调整方法学习率是控制模型更新步长的超参数，它决定了模型的收敛速度。

学习率过高会导致模型无法收敛或直接变成震荡状态，学习率过低则会导致模型收敛时间过长。

因此，调整学习率是优化神经网络的一个重要方法。

学习率衰减是一个常用的调整方法。

在训练过程中，随着模型逐渐收敛，学习率也应相应减小。

另外，自适应学习率算法也是一个有效的方法，如AdaGrad、RMSprop、Adam等。

这些算法能够根据梯度运行时的状态自动调整学习率，以更好地适应数据变化。

三、神经网络模型的正则化方法正则化是一种常见的降低模型复杂度的方法，可以有效地避免过拟合。

常用的正则化方法包括L1正则化、L2正则化和Dropout 方法。

L1正则化和L2正则化是通过在损失函数中加入正则项对权重进行约束的方法。

L1正则化将权重向量转化为具有稀疏性质的权重向量，可以有效地减少参数数量并提升模型的泛化能力。

优化AI模型训练过程的权重初始化技巧

优化AI模型训练过程的权重初始化技巧引言：在人工智能（AI）领域，深度学习神经网络已成为许多重要任务的核心。

然而，训练一个高效且准确的模型并非易事。

在深度学习中，权重初始化是模型性能成功训练的关键步骤之一。

合理的权重初始化可以加速收敛速度、减少过拟合，并使得模型具有更好的泛化能力。

本文将介绍一些优化AI模型训练过程中常用的权重初始化技巧。

一、随机初始化1. 均匀分布初始化：最简单和常见的方法是使用均匀分布来随机初始化权重。

通过设置上下限范围，可以保证每个权重都具有不同但相对合理的起始值。

2. 正态分布初始化：另一种常见的方法是使用正态分布来随机初始化权重。

通过设定均值和标准差，可以控制权重值接近0或较大数值。

二、专业化方法1. Xavier 初始化：Xavier 初始化可以根据激活函数类型自动调整权重参数范围。

对于sigmoid和tanh等激活函数，Xavier 初始化使用均匀分布；对于ReLU等线性激活函数，Xavier 初始化使用正态分布。

2. He 初始化：He 初始化是针对ReLU激活函数的一种专业化方法。

由于ReLU在负半轴上输出为0，He 初始化给予网络更多初始参数以适应这种特性，从而提高模型性能。

三、无监督预训练1. 自编码器预训练：自编码器是一种无监督学习技术，可以有效地初始化神经网络权重。

通过通过重建输入数据自身来最小化重建误差，在不需要类标签的情况下使网络学习到输入数据的有用表示。

2. 生成对抗网络（GAN）预训练：GAN 是一种生成模型，它由一个生成器和一个判别器组成。

通过让生成器和判别器之间进行对抗训练，GAN 可以从未标记样本中学习到更好的特征表示，并将其用作深度学习模型的初始化权重。

四、批标准化批标准化是一种常用且有效的技术，在神经网络中引入规范化层。

除了优化模型收敛速度和稳定性外，批标准化还可以作为一种权重初始化策略。

通过在每个批次中计算均值和方差来规范化特征，可以使得网络在初始化阶段更容易找到参数的合适范围。

深度神经网络优化训练策略提升效果

深度神经网络优化训练策略提升效果摘要：深度神经网络（Deep Neural Networks，DNNs）已成为计算机视觉、自然语言处理和强化学习等领域的核心技术。

然而，由于DNN模型的复杂性和参数量的巨大，其训练过程需要消耗大量时间和计算资源。

为了提高训练效果和减少资源消耗，研究人员提出了多种优化训练策略。

本文将探讨一些重要的策略，并介绍它们在提升深度神经网络训练效果方面的应用。

1. 数据增强数据增强是一种常见的训练策略，通过对原始数据进行变换和扩充，从而增加训练样本的多样性，提高模型的泛化能力。

常用的数据增强方法包括旋转、翻转、缩放和裁剪等。

此外，利用生成对抗网络（GANs）生成合成数据也被广泛应用于数据增强。

数据增强能够有效增加训练数据量，减轻过拟合问题，提升模型性能。

2. 正则化正则化是一种经典的训练策略，通过添加正则化项限制模型参数的大小，避免过度拟合。

常见的正则化方法包括L1正则化和L2正则化。

L1正则化可以使得部分参数变为0，达到特征选择的效果，而L2正则化会使得参数均衡分布。

正则化能够有效控制模型的复杂度，并提高模型的泛化能力。

3. 批归一化批归一化是一种广泛应用于深度神经网络的优化策略。

批归一化是在训练过程中对每个输入批次进行规范化，使得网络层输出具有相似的分布。

这样可以加速网络的收敛速度，有助于避免梯度消失和梯度爆炸问题。

批归一化还可以提高模型容错性，减轻对初始参数的敏感性，提升模型的训练效果。

4. 学习率调度学习率调度是一种调整模型学习率的方法，可以提高模型的收敛速度和准确率。

常见的学习率调度方法包括固定学习率、指数衰减学习率和余弦退化学习率等。

其中，指数衰减学习率通过指数函数减小学习率，能够较好地平衡训练的速度和准确度。

余弦退化学习率模拟了余弦函数的变化规律，能够提高网络的泛化能力。

5. 权重初始化权重初始化是深度神经网络中非常重要的一步。

良好的初始化方法可以加速模型的收敛，并避免梯度消失和梯度爆炸问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

预训练( Pre training) 的引入在一定程度上缓解了该问题带来的影响, 以无监督方式最大化训练数据的似然值, 可以使训练的参数对象值更接近 BP 算法寻找的全局最优区域[ 2] , 其实际的效果也令人
满意。在进行 BP 算法之前加入预训练的过程, 能够将系统识别率进一步提升[ 3] 。
第 53 卷
周佳俊, 欧智坚: 深层神经网络预训练的改进初始化方法
第7期
关系的引入, 决定神经网络能够将数据间的关系刻画
的更深刻, 文献[ 6] 中也提到了相同的观点。
因而, 通过初始化参数, 让神经网络的激励函数
更好地工作在非线性区间, 就可能加速网络对数据
的适应过程, 从而提高训练的收敛速度。式( 1) 表示的逻辑斯谛函数是神经网络中最常用的激励函数,
别为输入层和输出层的阈值向量。由于 I 和 O 各
自的内部分量都是相互独立的, 因而根据式( 2) 可以
求出已知向量 I 的情况下 O 中每个分量等于 1 的
概率, 由式( 3) 可知反之亦然。
896
在预训练的过程中, 根据式( 2) , 可以先将已有的输入向量进行一次前向传递, 即得到已知 I 时 O 的后验概率, 接下来利用此概率对其进行一次采样, 得到二进制的采样结果 O; 之后利用式( 3) , 将 O 作为输入数据反向传递, 得到已知 O 时 I 的后验概率并采样, 得到结果向量 ^I ; 再将 ^I 作为输入数据重复第一步的前向传递过程, 得到采样结果 O^ 。以上过程被称作对 I 和 O 的一次重建。
Foundation Item:The Nat ional Nat ural Science Foundation of China( No. 61075020) 通讯作者: zhoujiajun06@ gmail . com Corresponding author: zhouj iajun06@ gmail. com
1引言
近年来, 利用深层神经网络进行语音识别中的声学模型建模成为了热点问题, 其准确率已经超越了传统的混合高斯模型加隐含马尔科夫模型( Gaussian Mixture Model Hidden Markov Model, GMM HMM) 的建模方式[ 1] 。层数的增加能够提升网络的识别能力, 使之容纳更多的信息, 但同时也使 BP 算法( Back Propa gation Algorithm) 更容易陷入局部极小值中, 这是利用神经网络进行模型训练以来一直存在的问题。
2. 2 预训练
随着数据量的增加, 所使用的神经网络层数也不断上升, 从起初的只包含输入输出层发展到目前在语音识别领域最常使用的附加 4~ 6 个隐层。网络规模的扩大使识别能力随之提高, 但参数的不断增多也使 BP 算法容易陷入局部极值的缺点显得愈发突出。
为了解决这一问题, 文献[ 1] 提出了将神经网络的每相邻两层及其权值矩阵看作一个受限玻尔兹曼
利用原有数据和重建结果, 就可以对此 RBM 的权值和阈值进行梯度下降法的更新。设最大化的目
标函数为 L , 则权值、阈值的更新公式如下:
-
L Wij
=
E ( IiOj ) -
E ( ^I iO^ j )
( 4)
- L = E ( I i ) - E (^Ii )
( 5)
i
- L = E ( Oj ) - E( O^ j )
第 53 卷第 7 期 2013 年 7 月
电讯技术 Telecommunication Engineering
doi: 10. 3969/ j. issn. 1001- 893x. 2013. 07. 014
Vol. 53 No. 7 Jul. 2013
深层神经网络预训练的改进初始化方法
周佳俊 , 欧智坚
2 神经网络声学模型
2. 1 模型结构利用神经网络实现的声学模型结构如图 1 所
示, 输入层的每个节点对应从训练数据中提取出的
收稿日期: 2013- 04- 18; 修回日期: 2013- 05- 10 Received date: 2013- 04- 18; Revised dat e: 2013- 05- 10 基金项目: 国家自然科学基金资助项目( 61075020)
般的做法, 初始时的阈值可以设为 0, 因而 RBM 的
输出层第 j 个节点的总输入值为
N
! N etj = WijIi
( 8)
i
接下来, Netj 将成为逻辑斯谛函数的自变量。而根
据上述假设, I 服从标准正态分布, 且 I 中各节点之间相互独立, 考虑到权பைடு நூலகம்矩阵的各值均来自同一分
布因而方差相等, 则有
也是本文引用的所有文献都采用的传递方式。这里
有一个非常重要的前提条件, 目前语音识别领域使
用神经网络对声学模型进行构建时, 输入的数据会
在每一维上归一化到标准正态分布。因此输入层的
每个节点都是一个服从 N ( 0, 1) 分布的数据, 即式 ( 7) 中的 Ii 服从该分布。
由于阈值的作用与权值矩阵有所重叠, 按照一
图 2 为 Netj 值的 sigmoid 二阶导数及高斯分布函数图。
值计算出的二阶导数值期望最大, 即
D max= arg max E[ f D( Netj )
( N etj ) ]
( 10)
由于参数值的初始化对精度的要求并不高, 因
而此问题可以通过蒙特卡罗 ( Monte Carlo ) 方法解决。本文得出的该值近似在 D = 1. 392 左右。
O 均为二进制向量, 每个分量只能随机地取 0 或 1。
通过定义能量函数和联合概率分布, 可以计算得出
这两个向量对彼此的条件分布为
P( O= 1| I) = f ( IT W+ )
( 2)
P ( I = 1| O) = f ( OT WT + )
( 3)
式中, W 为权值矩阵, f 为逻辑斯谛函数, 和分
f (x)=
1 1+ e- x
( 1)
在模型训练的过程中, 输入层提供每一个语音
帧的特征向量, 同时在输出层提供该帧对应的类别
标注向量, 利用 BP 算法从后向前传递误差值, 对参
数进行逐层的更新。文献[ 4] 描述了经典的 BP 算法流程, 这里不再赘述。
图 1 利用神经网络实现的声学模型示意图 Fig. 1 Schematic diagram of acoustic model based on DNN
Abstract: Second derivative of activat ion funct ion is used to optimize weight initialization in deep neural network pre training phase within speech recognition tasks. By using the non linear region of activation function and independent variables Gaussian distribution, a method of finding the best variance is proposed in order to speed the training up. Comparison of convergence rates in different weight initialization at the same learning rate shows that this method can accelerate the speed of the pre training phase and enhance the efficiency of neural network training. Key words: speech recognition; deep neural network; pre training; init ialization; activation function
( 6)
i
式中, E 表示求期望, L 实际为训练数据在此网络下的似然值。
最后, 使用数据的重建误差描述训练的正确性
与进度, 该误差定义为
N
! E rec =
( Ii - ^I i ) 2
( 7)
i
其中, Ii 表示第 i 个输入节点的值, N 为输入节点的
个数。式( 7) 的值也就是输入数据和其本身重建数
据之间的误差平方和。随着训练的进行, 该误差会
逐渐下降直至稳定在一个较小的范围内。误差值随
数据量的下降曲线则反映了训练的速度, 在之后的实验部分, 就是利用了这一曲线的形状来比较收敛的快慢。
引用文献[ 2] 的说法, 预训练的过程实际是最大化了数据的似然值, 从而期望模型参数向着数据分布的方向靠拢, 从而使 BP 算法在已知数据分布的情况下, 最大化标注的后验概率时相对更容易。而根据文献[ 3] 的结果, 预训练可以将深层神经网络的识别准确率提高几个百分点。
( 清华大学电子工程系, 北京 100084)
摘要: 在基于神经网络的语音识别任务中, 提出根据激励函数二阶导数优化网络预训练阶段中权值初始化的方法。利用激励函数的非线性区域和自变量呈高斯分布的特性, 寻找权值分布的较优方差以提升训练速度。通过比较同一学习速率下不同初始化数值对收敛速度的影响, 发现此种方法可以加快预训练阶段的速度, 提升神经网络训练的效率。关键词: 语音识别; 深层神经网络; 预训练; 初始化; 激励函数中图分类号: TN912. 3 文献标志码: A 文章编号: 1001- 893X( 2013) 07- 0895- 04