深度学习中的正则化方法研究

合集下载

神经网络中的正则化方法

神经网络中的正则化方法神经网络在机器学习领域具有广泛的应用价值，在语音识别、图像分类、自然语言处理等方面都发挥了很好的作用。

即使得到了很好的训练结果，但仍然需要在正则化方面进行优化，以避免过拟合的问题，进而提升网络的泛化性能。

本文主要探讨神经网络中的正则化方法。

1. 正则化的概念在机器学习中，过拟合是指模型过于复杂，导致仅适用于训练集，而不能很好地适用于新的数据集。

因此，正则化的目的就是减少模型的复杂性，优化模型的拟合效果，提高其泛化性能。

2. 常用的正则化方法2.1 L1正则化L1正则化的主要思想是增加权值向量中非零元素的数量，使得它们更加稀疏。

这个想法的出发点是为了减少模型中冗余的特征，提高模型的效率和泛化性能。

L1正则化的损失函数为：L1(w) = ||w||1 = Σ|wi|其中，||w||1是权重向量的绝对值和，wi是权值向量中的第i个元素。

2.2 L2正则化L2正则化与L1正则化的主要区别在于，它增加了权值向量中各个元素的平方和，并使较大的元素权重下降，将较小的权重值向零收缩。

它在一定程度上防止了过拟合，提高了泛化性能。

L2正则化的损失函数为：L2(w) = ||w||2^2 = Σwi^2其中，||w||2是向量w的模长。

2.3 Dropout正则化Dropout是一种基于神经网络中的正则化方法，可以有效降低过拟合的风险。

它随机删除模型中一些神经元，并且随机选择一些神经元进行训练，使得每个神经元都会在多个模型中进行学习，从而防止过拟合。

通过Dropout，网络的每次迭代都基于不同的子集进行计算。

该方法已经被广泛地应用于深度学习中。

3. 正则化方法的参数在进行神经网络中的正则化方法的时候，需要设置一些参数。

对于L1和L2正则化，需要设置对应的惩罚系数λ，对于Dropout，需要设置丢失率p。

惩罚系数λ通常通过交叉验证进行设置。

通常情况下，λ越大，则惩罚越大，这会导致有界约束。

然而，在选择Dropout的参数时，并没有明显的标准方式。

多模态深度学习模型的过拟合与正则化

多模态深度学习模型的过拟合与正则化引言随着人工智能的快速发展和深度学习的广泛应用，多模态深度学习模型在计算机视觉、自然语言处理和语音识别等领域取得了显著的成果。

然而，随着模型复杂性的增加和数据规模的增长，过拟合问题逐渐成为多模态深度学习领域中一个重要且普遍存在的挑战。

本文将重点讨论多模态深度学习模型中过拟合问题以及正则化方法。

第一章过拟合问题1.1 过拟合定义过拟合是指在训练集上表现良好但在测试集上表现较差的现象。

当一个多模态深度学习模型过于复杂或者数据量不足时，容易导致过拟合问题。

1.2 过拟合原因分析导致过拟合问题的原因有很多，主要包括以下几点：（1）数据量不足：当训练数据较少时，很容易导致过拟合。

因为少量数据无法完整地反映整个数据分布。

（2）复杂模型：模型过于复杂时，容易过分拟合训练数据，忽略了数据中的噪声和波动。

（3）噪声数据：训练数据中存在噪声时，模型可能会过分拟合这些噪声数据，从而导致在测试集上的表现较差。

（4）特征选择不当：特征选择不当也可能导致过拟合。

如果选择了太多的特征或者选择了与目标任务无关的特征，模型容易出现过拟合问题。

1.3 过拟合问题对多模态深度学习的影响多模态深度学习在处理图像、语音和文本等不同类型的信息时具有优势。

然而，当训练集中存在较少样本或者复杂度较高时，多模态深度学习也容易出现过拟合问题。

这会导致在测试集上表现不佳，并且无法泛化到新样本。

第二章正则化方法为了解决多模态深度学习中的过拟合问题，研究人员提出了一系列正则化方法。

下面将介绍几种常用的正则化方法。

2.1 L1和L2正则化L1和L2正则化是常用且有效的正则化方法。

L1正则化通过在损失函数中添加L1范数惩罚项，使得模型的参数稀疏化，从而减少过拟合的可能性。

L2正则化通过在损失函数中添加L2范数惩罚项，使得模型的参数值尽可能小，从而减小参数间的相关性。

2.2 DropoutDropout是一种常用的正则化方法，通过在训练过程中随机将一部分神经元置为0来减少模型复杂度。

神经网络深度学习模型优化方法

神经网络深度学习模型优化方法在深度学习领域，神经网络模型的优化是一个关键的研究方向。

神经网络模型的优化方法直接影响着模型的收敛速度、准确度和泛化能力。

本文将介绍几种常用的神经网络深度学习模型优化方法，包括梯度下降法、动量法、自适应学习率方法和正则化方法。

1. 梯度下降法梯度下降法是最基本的神经网络优化算法之一。

它通过迭代优化来最小化损失函数。

梯度下降法的主要思想是沿着负梯度的方向更新模型的参数，以减少损失函数的值。

具体而言，梯度下降法可以分为批量梯度下降法（Batch Gradient Descent，BGD）、随机梯度下降法（Stochastic Gradient Descent，SGD）和小批量梯度下降法（Mini-batch Gradient Descent）。

批量梯度下降法是指在每一轮迭代中使用整个训练数据集来计算梯度并更新模型参数。

这种方法通常能够找到全局最优解，但计算效率较低，尤其在大规模数据集上。

随机梯度下降法则是每次迭代使用一个样本来计算梯度并更新参数。

虽然计算效率高，但可能会陷入局部最优解。

小批量梯度下降法结合了批量梯度下降法和随机梯度下降法的优点，即在每一轮迭代中使用一小部分样本来更新参数。

2. 动量法动量法是一种常用的优化算法，旨在加快神经网络模型的训练速度。

它引入了一个动量项，实现参数更新的动量积累效果。

动量法的关键思想是利用历史梯度信息来调整参数更新的方向，从而在更新过程中防止频繁变化。

具体而言，动量法利用当前梯度和历史梯度的加权平均来更新参数，其中权重即动量因子。

动量法的优点是可以帮助模型跳出局部最优解，并且在参数更新过程中减少震荡。

然而，过高的动量因子可能导致参数更新过大，从而错过最优解。

因此，在应用动量法时需要合理设置动量因子。

3. 自适应学习率方法梯度下降法中学习率的选择对模型的收敛速度和准确度有着重要影响。

固定学习率的方法很容易导致模型在训练初期收敛速度慢，而在后期容易陷入震荡。

深度学习模型中正则化方法对模型泛化能力影响评价

深度学习模型中正则化方法对模型泛化能力影响评价深度学习在过去几年中取得了显著的进展，并成为许多领域中最先进的技术。

然而，深度学习模型常常具有过拟合的问题，即在训练集上表现出色，但在测试集上的性能较差。

为了解决这个问题，正则化方法成为深度学习中常用的手段之一。

本文将评价深度学习模型中正则化方法对模型泛化能力的影响。

正则化方法的目标是通过约束模型的复杂度来避免过拟合。

在深度学习中，正则化方法可以通过添加正则化项来实现。

常用的正则化方法包括L1正则化和L2正则化。

L1正则化通过在损失函数中加入参数的绝对值和一个正则化参数的乘积，促使模型权重稀疏化，从而减少模型的复杂度。

L2正则化通过在损失函数中加入参数的平方和一个正则化参数的乘积，促使模型权重趋向于较小的值，进而减小模型的复杂度。

正则化方法对深度学习模型的泛化能力有着重要的影响。

首先，正则化方法可以帮助减少模型的过拟合风险。

在深度学习中，模型的参数数量庞大，模型过于复杂容易过拟合，而正则化方法的引入可以有效地减小模型的复杂度，提高模型的泛化能力。

例如，经过正则化处理的模型在测试集上的性能通常更好，即使模型在训练集上的准确率稍低，但泛化能力更强。

其次，正则化方法可以降低模型的方差。

方差是指模型在不同的训练集上的性能差异。

在深度学习中，数据集常常具有一定的不确定性，即使是在相同的训练集上多次训练同样的模型，模型的性能也可能有所不同。

正则化方法可以通过约束模型的复杂度，减少模型对训练数据的过于敏感，减小模型在不同训练集上的方差，从而提高模型的稳定性和泛化能力。

此外，正则化方法还可以帮助优化算法更快地收敛。

在深度学习中，模型的优化通常采用梯度下降等迭代算法。

过拟合会导致模型的优化过程变得困难，因为模型很难逃离局部极小值。

正则化方法通过减小模型的复杂度，使得优化问题更容易收敛到一个较好的解。

因此，正则化方法可以提高模型的训练速度和优化效果。

在实际应用中，选择适合的正则化方法需要综合考虑许多因素。

卷积神经网络中的正则化方法介绍

卷积神经网络中的正则化方法介绍卷积神经网络（Convolutional Neural Network, CNN）是一种在计算机视觉领域广泛应用的深度学习模型。

它通过模仿人类视觉系统的工作原理，能够自动地从图像中提取特征，并用于图像分类、目标检测等任务。

然而，由于CNN模型的复杂性和参数众多，往往容易出现过拟合的问题。

为了解决这个问题，研究人员提出了一系列的正则化方法。

一、L1和L2正则化L1和L2正则化是最常见的正则化方法之一。

它们通过在损失函数中添加正则化项，对模型的参数进行约束，以减小模型的复杂性。

L1正则化通过对参数的绝对值进行惩罚，可以使得部分参数变为0，从而实现特征选择的效果。

而L2正则化则通过对参数的平方进行惩罚，可以使得参数的值都变得较小，从而使得模型更加稳定。

二、Dropout正则化Dropout正则化是一种随机失活的正则化方法。

它通过在训练过程中随机地将一部分神经元的输出置为0，来减少神经元之间的依赖性。

这样一来，每个神经元都不能依赖于其他神经元的输出，从而强迫每个神经元都学习到有用的特征。

同时，Dropout还可以视为一种模型集成的方法，通过训练多个具有不同结构的子模型，并将它们的预测结果进行平均，来提高模型的泛化能力。

三、批量归一化批量归一化（Batch Normalization, BN）是一种通过规范化输入数据的方法来加速模型训练的技术。

在CNN中，每一层的输入都可以看作是一个mini-batch的数据，批量归一化通过对每个mini-batch的数据进行归一化，使得每个特征的均值为0，方差为1。

这样一来，可以使得模型的输入更加稳定，从而加速模型的训练过程。

此外，批量归一化还可以起到正则化的作用，减少模型的过拟合风险。

四、数据增强数据增强是一种通过对训练数据进行一系列随机变换来扩充数据集的方法。

这些随机变换包括平移、旋转、缩放、翻转等操作，可以生成更多样化的训练样本。

数据增强不仅可以增加训练数据的数量，还可以增加数据的多样性，从而提高模型的泛化能力。

深度学习中的正则化技术

正则化是深度学习中一种重要的技术，主要用于防止过拟合，增强模型的泛化能力。

在深度学习中，正则化通过在损失函数上添加一个惩罚项，来约束模型的复杂度，使得模型在训练过程中更加注重整体的性能，而不是仅仅关注某一层的输出结果。

以下是一些常见深度学习中正则化的方法：1. L1 正则化：L1 正则化是通过在损失函数上添加L1 正则项来约束模型中参数的数量。

这种方法有助于防止过拟合，同时增强模型的泛化能力。

当模型参数较多时，L1 正则化会增加模型的复杂度，使得模型更加鲁棒，不易受到噪声数据的影响。

2. L2 正则化：L2 正则化与L1 正则化类似，也是在损失函数上添加L2 正则项来约束模型中参数的范数。

这种方法有助于防止模型过拟合，同时也能增强模型的泛化能力。

与L1 正则化相比，L2 正则化对模型参数的约束更加宽松，因此更适合于处理大规模数据集。

3. Dropout：Dropout 是一种特殊的正则化技术，它通过在训练过程中有放回地随机丢弃一部分神经元或神经网络层，来防止过拟合。

在每个训练批次中，都随机选择一部分神经元或神经网络层进行训练和测试，这样可以使得模型更加鲁棒，不易受到个别样本或特征的影响。

4. Batch Normalization（批量标准化）：Batch Normalization 是另一种正则化技术，它通过对输入数据进行归一化和标准化处理，来增强模型的稳定性。

这种方法可以加快模型的收敛速度，提高模型的性能和泛化能力。

5. Weight decay（权重衰减）：权重衰减是一种简单有效的正则化方法，它通过在训练过程中添加权重衰减项来惩罚模型中某些权重较大的参数。

这种方法有助于减少过拟合的风险，同时也能增强模型的泛化能力。

在实际应用中，通常将多种正则化方法结合起来使用，以提高模型的性能和泛化能力。

例如，可以使用L1 和L2 正则化相结合的方法来约束模型中参数的数量和范数；也可以使用Dropout 和Batch Normalization 相结合的方法来增强模型的鲁棒性和稳定性。

深度学习模型的训练方法研究

深度学习模型的训练方法研究深度学习是一种在计算机科学领域中日益流行的机器学习技术，已经在图像识别、语音识别、自然语言处理和推荐系统等众多领域取得了显著的成果。

深度学习模型的训练是实现其优异性能的关键步骤。

在本文中，我们将重点探讨深度学习模型的训练方法，以帮助机器学习从业者更加高效地构建和优化深度学习模型。

首先，我们将介绍传统的深度学习模型的训练方法。

传统方法中，常用的训练算法包括随机梯度下降（SGD）和反向传播算法。

随机梯度下降是一种通过迭代更新模型参数，最小化损失函数的方法。

该方法通过计算每个训练样本的损失函数梯度，并利用梯度下降策略来逐步优化模型参数。

反向传播算法则是一种计算损失函数梯度的有效方式，通过将输出误差反向传递到网络的每一层，计算和调整每个参数对网络误差的贡献。

传统方法简单直观，易于实现，是深度学习模型训练的重要基础。

然而，传统方法在处理复杂问题时面临一些挑战。

首先，传统方法在训练大规模数据集时可能存在收敛速度慢、容易陷入局部最优等问题。

其次，传统方法对于具有非线性结构和高度复杂的神经网络模型的训练效果较差。

因此，研究人员提出了一系列改进的深度学习模型训练方法，以应对这些挑战。

一种改进的深度学习训练方法是基于正则化的方法。

正则化是一种通过限制模型参数大小或增加惩罚项来防止过拟合的技术。

在深度学习中，正则化方法包括L1和L2正则化。

L1正则化通过在损失函数中增加模型参数的绝对值之和来限制参数的大小。

L2正则化则是通过在损失函数中增加模型参数的平方和来限制参数的大小。

这些正则化方法使得模型的参数更加稀疏，降低了模型的复杂性，有助于提高模型的泛化能力。

另一种改进的深度学习训练方法是基于优化算法的方法。

优化算法的选择对于深度学习模型的训练非常重要。

常见的优化算法有Adam、Adagrad和RMSProp等。

Adam算法结合了梯度的一阶矩估计和二阶矩估计，有效地调整学习率，并在训练过程中自适应地更新模型参数。

深度学习中的正则化方法

深度学习中的正则化方法深度学习作为人工智能领域的重要分支，已经取得了巨大的突破和应用。

然而，深度学习模型往往具有大量的参数和复杂的结构，容易出现过拟合的问题。

为了解决这个问题，研究者们提出了各种正则化方法，有效地提高了深度学习模型的泛化能力。

本文将介绍几种主要的正则化方法，并探讨其原理和应用。

一、L1正则化（L1 Regularization）L1正则化是一种常用的特征选择方法，它通过在损失函数中引入参数的绝对值之和来限制模型的复杂度。

具体来说，对于深度学习模型中的每个权重参数w，L1正则化的目标是最小化损失函数与λ乘以|w|的和。

其中，λ是一个正则化参数，用来平衡训练误差和正则化项的重要性。

L1正则化的优点是可以产生稀疏的权重模型，使得模型更加简洁和可解释性，但同时也容易产生不可导的点，对于一些复杂的深度学习模型应用有一定的限制。

二、L2正则化（L2 Regularization）与L1正则化不同，L2正则化通过在损失函数中引入参数的平方和来平衡模型的复杂度。

具体来说，对于深度学习模型中的每个权重参数w，L2正则化的目标是最小化损失函数与λ乘以|w|^2的和。

与L1正则化相比，L2正则化不会产生稀疏的权重模型，但能够减小权重的幅度，使得模型更加平滑和鲁棒。

L2正则化也常被称为权重衰减（Weight Decay），通过减小权重的大小来控制模型的复杂度。

三、Dropout正则化Dropout正则化是一种广泛应用于深度学习模型的正则化方法，通过在训练过程中随机将部分神经元的输出置为0来减小模型的复杂度。

具体来说，每个神经元的输出被设置为0的概率为p，而被保留的概率为1-p。

这样做的好处是能够迫使网络学习到多个不同的子网络，从而提高模型的泛化能力。

在测试模型时，通常会将所有神经元的输出乘以p来保持一致性。

四、Batch NormalizationBatch Normalization是一种通过对每一层的输入进行归一化处理来加速训练和提高模型的泛化能力的方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

H= QΛQT 。解得：
= Wˆ Q ( L + α I )−1 LQTW *
(7)
由上面的情况可以看出，海森矩阵的特征值大小决定这权重的缩放程度。而海森矩阵的特征值表示的意义是该点附近特征向量方向上的凹凸性，特征值越大，对应的凸性越强。目标函数下降快的方向对应于训练样本的通用的特征方向，而下降的慢的方向则是会造成过拟合的特征方向。下面借助一张图来
下面是这两种情况的示意(图 7)：
Figure 7. At training time 图 7. 在训练时
Figure 8. At test time 图 8. 在测试时
将 Dropout 应用到神经网络中相当于从神经网络抽取一个稀疏网络。稀疏网络由所有 Dropout 存活的单元组成(见图 6)。一个有 n 个单元(隐藏层单元)的神经网络，可以看作是有 2n 个可能的神经网络的集合。
( ) 这些网络共享权重，因此参数的总数仍然是 O n2 或更少。对于每次训练集的输出，将对一个新的稀疏
DOI: 10.12677/csa.2020.106126
1226
计算机科学与应用
更形象的理解一下 L2 正则化的效果。
武国宁等
Figure 2. L2 regularization 图 2. L2 正则化
如图 2，最小化新的目标函数 J (w; X , y) ，需要让 α wT w 和 J (w; X , y) 都足够的小。在 wˆ 点处，两
参数 θ 的规模。选择不同的参数范数 Ω 会偏好不同的解法。
2.1. L函数添加正则项 Ω (θ ) = w 1 ，使权重更加靠近坐标轴。我们可以将
L1 参数正则化目标函数的二次近似分解成关于参数的求和：
( ) ( ) ∑ Jˆ (w;= X , y) J w*; X , y +
Regularization Methods in Deep Learning
Guoning Wu, Huifeng Hu, Mengmeng Yu
College of Science, China University of Petroleum-Beijing, Beijing
Received: May 27th, 2020; accepted: Jun. 5th, 2020; published: Jun. 12th, 2020
i
1 2
Hi,i
wi − wi*
2 +α
wi
(2)
其中 w*是最优的目标解，H 是海森矩阵。最小化近似代价函数的解析解是：
( ) = wi
sign
wi*
max
wi*
− α , 0 Hi,i
(3)
从这个解可以得到两种结果：若
wi*
≤
α Hi,i
， L1 正则化使得 wi 趋向 0；若
wi*
>
α Hi,i
最后本文构建了 784-1000-500-10 的深度前馈全连接神经网络，基于 L1，L2 和 Dropout 正则化进行 MNIST 手写体实验。
2. 正则化
一般正则化方法都是通过对目标函数 J 添加一个参数惩罚项 Ω (θ ) ，来限制神经网络模型的学习能力
[9]。我们将正则化的目标函数记为 J ：
摘要
带有百万个参数的神经网络在大量训练集的训练下，很容易产生过拟合现象。一些正则化方法被学者提出以期达到对参数的约束求解。本文总结了深度学习中的L1，L2和Dropout正则化方法。最后基于上述正则化方法，进行了MNIST手写体识别对比数值试验。
关键词
深度神经网络，过拟合，L1正则化，L2正则化，Dropout，MNIST
Abstract
The neural network with millions of parameters can easily be overfitting by large dataset. A wide range of regularization methods have been proposed. In this paper, L1, L2 and Dropout regularization methods are reviewed. Finally, MNIST handwriting recognition experiments using the above regularization methods are conducted for comparisons.
(5)
每次更新梯度前，都会先对权重向量乘以一个小于 1 的常数因子，这也就是 L2 正则化称被为权重衰减的
原因。记加入正则化项之后的最优解为 wˆ ，有：
( ) ∇w J (wˆ ; X , y) =α wˆ + H wˆ − w* = 0
(6)
其中可以通过特征分解将海森矩阵 H 分解成一个对角阵 Λ 和一组特征向量的标准正交基 Q，即
到平衡( wˆ 点为新的目标函数的最优解)。α 很大时， wˆ 直接等于 0；α 较小时， wˆ 被拉向 0。并且由于 L1 正则化项图像的特殊性， wˆ 很容易就会出现在坐标轴上，即 L1 正则化会让权重矩阵变得稀疏，使得网络复杂度降低，这也是为什么 L1 正则化能够防止过拟合。
Figure 1. L1 regularization 图 1. L1 正则化
步骤三：最后重复如下过程：恢复被删除的神经元，随机删除的神经元的参数不会更新，没有被删除的神经元的参数得到更新。再从隐藏层随机删除一部分神经元，并备份被删除神经元的参数。在划分的小的训练集执行完这个操做之后，按照随机梯度下降法更新没有被删除的神经元对应的参数 w 和 b。被删除的神经元的参数保持原来的结果。而在测试的时候，网络的神经单元一直存在，而权值要乘于 p。这样做是为了保证测试时的输出与训练时的输出期望相同。
武国宁等
步骤一：遍历网络所有的隐藏层，随机删除掉网络中隐藏层的部分神经元，输入层和输出层保持不变，如图 6 所示，在最简单的情况下，每个单元都以固定的概率 p 保留；
步骤二：接着，输入 x 通过图 3、图 4 所示的神经网络传播，然后反向传播。按照随机梯度下降法更新没有被删除的神经元对应的参数 w 和 b；
， L1 正则化使得 wi* 增
加了 α 。 Hi,i
DOI: 10.12677/csa.2020.106126
1225
计算机科学与应用
武国宁等
下面借助一张图来解释 L1 正则化的思想。如图 1 所示，坐标轴右上方的同心椭圆表示原始目标函数
J (w; X , y) 的等值线，中心点 w* 是没有正则化的原始最优解。图中(虚线)菱形表示 L1 正则化项的等值线。最小化新的目标函数 J (w; X , y) ，需要让 α w 1 和 J (w; X , y) 都尽可能小。在 wˆ 点处，这两个竞争目标达
2.2. L2 正则化
L2
参数正则化是通过向损失函数添加正则项
Ω (θ
)
= 1 w 2
2 2
，使权重更加接近原点。可以得到加入
L2
正则化项的总的目标函数的梯度为：
( ) ∇w J (w; X , y) =α w + H w − w*
(4)
使用梯度下降法更新权重，过程如下：
w ← (1− εα ) w − ε∇w J (w; X , y)
通过上面的分析我们发现，保留的相对完整往往是有助于减小目标函数方向上的参数 wi 。而无助于目标函数减小的方向上的参数会在训练中逐渐的衰减掉。这也就是说，在目标函数添加 L2 正则化项会使模型的参数倾向于比较小的值，针对参数减小了模型拟合各种函数的能力，从而减弱模型的过拟合现象。
2.3. Dropout
2
者达到平衡。 wˆ 点为新的目标函数的最优解。当正则化系数 α 越大时， wˆ 越接近零点；α 越小时， wˆ 越
接近 w* 。我们看到，目标函数 J (w; X , y) 的海森矩阵的 w2 方向上的特征值很小，由图 2，我们看到正则
化项将 w2 拉向零。再看，代价函数对于沿着 w1 所在方向的移动较为敏感,因为对应海森矩阵的特征值比较大，表现为高曲率。因此，权重衰减对 w1 所在方向影响较小。
Open Access
1. 引言
计算机通过多层次的网络结构，构建简单的“认知”来学习复杂的概念，这种方法被称为 AI 深度学习[1]。它的另外一种解释是一种以人工神经网络为架构，对数据进行表征学习的算法。在当前人工智能的发展中，深度学习起到了中流砥柱的作用。我们一般通过构建神经网络来进行深度学习。现如今已有
文章引用: 武国宁, 胡汇丰, 于萌萌. 深度学习中的正则化方法研究[J]. 计算机科学与应用, 2020, 10(6): 1224-1233. DOI: 10.12677/csa.2020.106126
武国宁等
Copyright © 2020 by author(s) and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). /licenses/by/4.0/
Keywords
DNN, Overfitting, L1 Regularization, L2 Regularization, Dropout, MNIST
深度学习中的正则化方法研究
武国宁，胡汇丰，于萌萌
中国石油大学(北京)，理学院数学系，北京
收稿日期：2020年5月27日；录用日期：2020年6月5日；发布日期：2020年6月12日
很多种深度学习的框架模型，例如深度神经网络(DNN) [2]、卷积神经网络(CNN) [3]、置信神经网络(DBN) [4]和递归神经网络(RNN) [5]。它们被应用在计算机视觉、自然语言处理、语音识别与生物信息学等领域并获得极好的效果[6] [7] [8]。