基于改进贝叶斯优化算法的CNN超参数优化方法

合集下载

深度学习模型中的超参数调优方法与技巧

深度学习模型中的超参数调优方法与技巧深度学习模型的性能很大程度上取决于超参数的选择。

超参数是在模型训练之前设定的，例如学习率、批大小、优化算法等。

在深度学习中，找到最佳的超参数组合对于模型的性能至关重要。

本文将详细介绍一些常用的超参数调优方法与技巧，以帮助提升深度学习模型的性能。

1. 网格搜索(Grid Search)网格搜索是一种简单但有效的超参数调优方法。

它通过在给定的超参数空间中进行穷举搜索，逐个尝试不同的超参数组合，并计算每个组合的性能指标。

然后，根据性能指标选择最佳的超参数组合。

2. 随机搜索(Random Search)与网格搜索不同，随机搜索是一种在超参数空间中随机选择超参数组合进行优化的方法。

这种方法的优势在于可以更快地搜索到较好的超参数组合。

通过设置足够的随机迭代次数，随机搜索通常可以达到与网格搜索相近甚至更好的结果。

3. 贝叶斯优化(Bayesian Optimization)贝叶斯优化是一种更高级的超参数调优方法，它利用贝叶斯推断的思想来优化超参数。

该方法通过不断地评估不同超参数组合的性能来调整模型，并基于以前的观测结果构建超参数性能模型，根据模型选择下一个待评估的超参数组合。

这种方法通常能够更快地找到最佳的超参数组合。

4. 早停(Early Stopping)早停是一种常用的调优技巧，在训练过程中根据验证集的性能来确定是否提前停止模型的训练。

当验证集的性能在一定次数内不再提升时，模型训练就会提前停止，以避免过拟合。

早停可以避免超参数调优过程中的过拟合问题，并提高模型的泛化能力。

5. 学习率调度(Learning Rate Scheduling)学习率是深度学习模型中的一个重要超参数，它控制着模型在训练过程中的权重调整速度。

学习率调度可以根据训练的不同阶段来动态调整学习率，以提高模型性能。

常用的学习率调度方法包括按固定步长降低、按指数衰减、按损失曲线形态降低等。

6. 批大小(Batch Size)选择批大小是指一次迭代所使用的训练样本数量。

人工智能开发技术中的自动调参与超参数优化方法

人工智能开发技术中的自动调参与超参数优化方法人工智能（Artificial Intelligence，简称AI）是近年来科技领域的热门话题，其应用场景越来越广泛，包括图像识别、自然语言处理、智能推荐等。

而在AI开发技术中，自动调参与超参数优化方法起到了至关重要的作用。

本文将从自动调参的意义、方法和发展趋势等方面进行探讨。

一、自动调参的意义与重要性在机器学习算法中，超参数是指在算法运行之前需要人为指定的参数，例如决策树算法中的树深度、学习率等。

不同的超参数取值会对算法的性能产生不同的影响，因此，合理地选择超参数是提高算法性能的关键。

然而，手动调节超参数耗时耗力且效果难以保证，而自动调参的出现解决了这一问题。

二、常用的自动调参方法1. 网格搜索(Grid Search)网格搜索是一种基于排列组合的超参数搜索方法。

它通过将不同超参数的所有可能取值进行穷举组合，然后分别对这些组合进行训练和评估，最终找到最佳的超参数组合。

尽管网格搜索的思想较为简单，但在超参数较多时，搜索空间会变得巨大，计算量巨大，因此效率较低。

2. 随机搜索(Random Search)相比于网格搜索，随机搜索在搜索超参数时采用了随机的方法。

它随机抽取超参数的取值，进行训练和评估，直到找到最佳的超参数组合。

相较于网格搜索，随机搜索能更快地找到较优的超参数组合。

3. 贝叶斯优化(Bayesian Optimization)贝叶斯优化是一种基于贝叶斯推断的超参数优化方法。

它通过构建模型来对目标函数进行拟合，然后根据已有模型来选择下一组超参数的取值，以此不断迭代，直到达到预设的迭代次数或找到最佳的超参数组合。

贝叶斯优化能够快速地收敛到最优解，适用于高维、复杂的问题。

三、自动调参的发展趋势1. 混合调参方法由于不同的自动调参方法各有优缺点，因此将多种调参方法结合起来，可以取长补短，提高调参的效果和效率。

例如，既可以使用网格搜索快速筛选出一些较好的超参数组合，然后再使用贝叶斯优化对这些组合进行深入搜索。

深度学习中的超参数调优技巧

深度学习（Deep Learning）是一种模拟人脑神经系统运行的机器学习方法，已经在各个领域取得了重大的突破。

然而，深度学习的模型通常具有大量的参数，而这些参数的选择直接影响着模型的性能和泛化能力。

因此，在深度学习中，我们需要进行超参数调优，以达到更好的效果和更高的准确率。

超参数是指在训练深度学习模型时需要手动设置的参数，例如学习率、批大小、权重衰减、迭代次数等。

合理的超参数选择可以显著提高模型的性能，从而达到更好的预测结果。

首先，一种常用的超参数调优技巧是网格搜索（Grid Search）。

网格搜索是一种穷举搜索的方法，通过在给定超参数范围内进行组合，来找到最佳的超参数组合。

虽然网格搜索方法可以保证找到最优解，但是计算复杂度较高，尤其当超参数数量较多时。

为了降低计算复杂度，我们可以使用随机搜索（Random Search）方法来进行超参数调优。

随机搜索是从给定的超参数空间中随机选择超参数组合进行训练和验证，可以显著减少计算量。

虽然随机搜索方法没有网格搜索那样保证找到最优解的能力，但是通常能够找到较好的超参数组合。

除了网格搜索和随机搜索，贝叶斯优化（Bayesian Optimization）也是一种常用的超参数调优方法。

贝叶斯优化通过建立高斯过程模型来对超参数空间进行建模和采样，并通过评估不同超参数组合的预测性能，来选择下一个待评估的超参数组合。

贝叶斯优化方法通常能够在有限的评估次数内找到较好的超参数组合。

除了上述提及的超参数调优技巧，还有一些其他的方法可以进一步优化深度学习模型的性能。

例如，使用自适应学习率算法，如Adagrad、Adam等，这些算法可以根据模型表现来自动调整学习率。

此外，还可以引入正则化方法来缓解过拟合问题，例如L1正则化和L2正则化等。

此外，还可以通过集成学习（Ensemble Learning）来提高深度学习模型的性能。

集成学习是通过训练多个独立的模型并将它们的预测结果进行组合，来提高模型的准确性和泛化能力。

朴素贝叶斯分类器的超参数调优方法(Ⅲ)

朴素贝叶斯分类器的超参数调优方法朴素贝叶斯分类器是一种基于概率和统计的分类方法，它假设各个特征之间是相互独立的。

在实际应用中，朴素贝叶斯分类器经常被用来处理文本分类等问题，但是在处理实际数据时，我们常常需要对分类器的超参数进行调优，以提高分类器的性能。

本文将介绍朴素贝叶斯分类器的超参数调优方法。

首先，我们需要了解朴素贝叶斯分类器的超参数。

朴素贝叶斯分类器有两个主要的超参数需要调优，分别是平滑参数和特征选择参数。

平滑参数是朴素贝叶斯分类器中的一个重要参数，它用来处理在训练数据中某些类别或特征的概率为零的情况。

常见的平滑参数包括拉普拉斯平滑和Lidstone平滑。

在实际应用中，我们需要通过交叉验证等方法来选择最适合的平滑参数。

特征选择参数是指在朴素贝叶斯分类器中选择哪些特征进行分类的参数。

在实际应用中，我们可能面对大量的特征，而其中只有一部分是对分类有用的。

因此，我们需要通过特征选择方法来选择最优的特征。

接下来，我们将介绍朴素贝叶斯分类器的超参数调优方法。

对于平滑参数的调优，我们可以通过网格搜索或者随机搜索的方法来选择最优的平滑参数。

网格搜索是一种穷举搜索的方法，它将所有可能的参数组合都尝试一遍，然后选择最优的参数组合。

而随机搜索则是通过随机地选择参数组合来进行搜索，一般来说，随机搜索可以在相对短的时间内找到较好的参数组合。

对于特征选择参数的调优，我们可以采用一些常见的特征选择方法，比如方差过滤、相关性过滤、互信息过滤等。

这些方法可以帮助我们在保留最重要的特征的同时，去除一些无用的特征，从而提高分类器的性能。

除了上述方法外，我们还可以尝试使用贝叶斯优化等方法来进行超参数的调优。

贝叶斯优化是一种基于贝叶斯理论的超参数优化方法，它通过不断地更新对参数的后验分布来选择最优的参数组合。

与网格搜索和随机搜索相比，贝叶斯优化在高维参数空间中的效果更好。

最后，我们需要注意的是，朴素贝叶斯分类器的超参数调优并不是一次性的事情，我们需要通过实验和不断地调整参数来寻找最优的参数组合。

贝叶斯优化算法高斯过程

贝叶斯优化算法高斯过程贝叶斯优化算法和高斯过程在机器学习中被广泛应用，用于优化复杂函数的参数。

本文将介绍贝叶斯优化算法和高斯过程的基本原理、应用场景以及其优点和局限性。

一、贝叶斯优化算法的原理贝叶斯优化算法是一种基于贝叶斯统计和序列模型的优化方法。

它通过建立一个先验模型和一个观测模型来推断待优化函数的最优解。

具体来说，它通过不断地选择下一个样本点进行评估来逐步优化函数的参数，直到找到全局最优解或达到一定的停止准则。

二、高斯过程的原理高斯过程是一种概率模型，用于对随机变量的概率分布进行建模。

它假设任意有限个变量的线性组合服从多元高斯分布。

在贝叶斯优化算法中，高斯过程被用来建立待优化函数的先验模型。

通过观测已有的样本点，可以利用高斯过程进行预测，从而选择下一个最有可能是最优解的样本点进行评估。

三、贝叶斯优化算法的应用场景贝叶斯优化算法在很多领域都有广泛的应用。

例如，在超参数优化中，可以使用贝叶斯优化算法来选择最优的超参数组合，从而提高模型的性能。

在自动化机器学习中，贝叶斯优化算法可以自动选择合适的模型和算法，并进行参数调优。

此外，贝叶斯优化算法还可以应用于网络流量优化、物理实验设计等领域。

四、高斯过程在贝叶斯优化中的优点高斯过程作为一种非参数模型，具有很强的灵活性和适应性。

它可以根据观测数据自适应地调整模型的复杂度，并能够提供对未知函数的预测和不确定性的估计。

同时，高斯过程还具有数学上的优良性质，如可微性和闭式解等，使得贝叶斯优化算法更加高效和稳定。

五、贝叶斯优化算法的局限性虽然贝叶斯优化算法在很多问题上表现出色，但它也存在一些局限性。

首先，贝叶斯优化算法对待优化函数的光滑性和凸性有一定的要求。

当函数具有峰值或存在多个局部最优解时，贝叶斯优化算法可能无法找到全局最优解。

其次，贝叶斯优化算法在高维空间中的表现较差，因为样本点的评估成本很高，导致算法的收敛速度较慢。

六、总结贝叶斯优化算法和高斯过程是一对强力组合，在机器学习中被广泛应用于优化复杂函数的参数。

神经网络中的超参数搜索与自动化调优技巧

神经网络中的超参数搜索与自动化调优技巧神经网络是一种强大的机器学习模型，但是其性能很大程度上取决于超参数的选择。

超参数是在模型训练之前需要手动设置的参数，包括学习率、批大小、网络层数等。

正确选择超参数可以提高模型的性能，但是这个过程通常是耗时且困难的。

因此，超参数搜索和自动化调优技巧成为了研究的热点。

1. 超参数搜索的挑战超参数搜索的挑战在于搜索空间庞大且不可知。

对于每个超参数，可能有多个可选值，而不同超参数之间的组合又会导致指数级的搜索空间。

传统的网格搜索和随机搜索方法在这种情况下效率低下。

因此，研究者们提出了一些自动化调优的技巧来解决这个问题。

2. 基于贝叶斯优化的超参数搜索贝叶斯优化是一种基于概率模型的优化方法，可以在有限的迭代次数内找到全局最优解。

在超参数搜索中，贝叶斯优化可以通过利用历史数据来估计不同超参数组合的性能，并选择具有最高期望性能的超参数进行下一次迭代。

这种方法可以高效地在大型搜索空间中找到最优解。

3. 强化学习与超参数搜索强化学习是一种通过试错的方式来优化决策策略的方法。

在超参数搜索中，可以将其看作是一个决策过程，每个超参数组合都是一个决策点。

强化学习算法可以通过不断尝试不同的超参数组合，并根据实际性能来更新决策策略，从而找到最优的超参数组合。

这种方法在搜索空间较大且不可知的情况下表现出色。

4. 自动化调优工具除了上述方法，还有一些自动化调优工具可以帮助研究者和工程师更轻松地进行超参数搜索。

例如，Google的AutoML工具可以自动搜索最佳超参数，并生成高性能的神经网络模型。

此外，还有一些开源工具如Hyperopt、Optuna等，提供了简单易用的接口和优化算法，帮助用户进行超参数搜索。

5. 结合领域知识的超参数搜索虽然自动化调优技术可以帮助我们在大型搜索空间中找到最优解，但是在某些情况下，结合领域知识可能更加有效。

领域知识可以帮助我们缩小搜索空间，提供一些合理的超参数范围，并减少搜索时间。

遗传算法与贝叶斯优化的结合在超参数调优中的应用

遗传算法与贝叶斯优化的结合在超参数调优中的应用引言：超参数调优是机器学习中非常重要的一环，它决定了模型的性能和泛化能力。

传统的超参数调优方法往往需要大量的计算资源和时间，而遗传算法和贝叶斯优化则成为了目前应用较为广泛的两种高效方法。

本文将探讨遗传算法与贝叶斯优化的结合在超参数调优中的应用，并分析其优势和不足之处。

一、遗传算法在超参数调优中的应用遗传算法是一种模拟生物进化过程的优化算法。

在超参数调优中，遗传算法通过模拟自然选择、交叉和变异等过程，不断优化超参数的取值，以找到最优解。

1.1 遗传算法的基本原理遗传算法的基本原理是通过模拟自然界的进化过程，通过选择、交叉和变异等操作，不断优化解的适应度。

在超参数调优中，我们可以将每个超参数的取值看作一个个体，将超参数的取值空间看作一个种群。

通过不断迭代，遗传算法可以找到适应度最高的个体，即最优解。

1.2 遗传算法在超参数调优中的应用遗传算法在超参数调优中广泛应用，其优势在于可以处理大规模的超参数空间，并且能够找到全局最优解。

通过不断迭代，遗传算法可以逐步优化超参数的取值，提高模型的性能。

二、贝叶斯优化在超参数调优中的应用贝叶斯优化是一种基于贝叶斯定理的优化方法，它通过建立一个高斯过程模型来估计目标函数的不确定性，并根据不确定性进行采样和优化。

2.1 贝叶斯优化的基本原理贝叶斯优化的基本原理是通过建立一个高斯过程模型来估计目标函数的不确定性，并根据不确定性进行采样和优化。

贝叶斯优化通过不断迭代，逐步收敛到最优解。

2.2 贝叶斯优化在超参数调优中的应用贝叶斯优化在超参数调优中的应用越来越广泛。

与遗传算法相比，贝叶斯优化能够更好地处理高维和非凸问题。

通过建立高斯过程模型，贝叶斯优化可以根据目标函数的不确定性进行采样和优化，从而找到最优解。

三、遗传算法与贝叶斯优化的结合遗传算法与贝叶斯优化的结合可以充分发挥两者的优势，提高超参数调优的效率和准确性。

3.1 遗传算法与贝叶斯优化的结合方法遗传算法与贝叶斯优化的结合可以通过两种方式实现。

贝叶斯优化参数拟合

贝叶斯优化参数拟合1 什么是贝叶斯优化贝叶斯优化（Bayesian Optimization）是一种基于贝叶斯思想的全局优化算法。

该算法在寻找最优化问题时，采用可调参数的概率模型进行建模，利用随机抽样来实现模型的更新和优化。

在机器学习和参数优化领域中，贝叶斯优化算法被广泛应用。

2 贝叶斯优化实现参数拟合的过程贝叶斯优化算法可以被用来解决参数拟合问题。

参数拟合问题是指在拟合数学模型时，需要调整模型参数的过程。

在这个过程中，调整参数时，往往会涉及到参数的取值范围、目标函数以及其他限制条件。

如何快速找到最优参数组合是参数拟合的核心问题，而贝叶斯优化算法能够提供一个高效且全局的求解方案。

下面我们来看具体实现过程：2.1 建立目标函数模型目标函数模型是参数拟合问题中的核心问题。

该模型应该描述原始的目标函数，紧随而来的是该函数在不同参数组合下的表现。

一般来说，我们可以从以下几个方面入手，来构建目标函数模型：- 采集数据。

通过实验来获取数据，并对数据进行处理，得到描述目标函数的数据集。

- 选择参数和参数取值范围。

参数的数量和参数取值范围的大小影响着参数搜索的复杂度，参数的个数越多，取值范围越大，搜索就越耗时。

因此，我们需要在参数空间内进行有限的搜索，来减少搜索空间的大小。

- 设计基本模型。

选择一种基本模型来描述目标函数。

例如，线性回归等。

- 对基本模型进行拓扑。

在上个步骤中，我们只是得到了一个函数。

而我们在优化过程中需要得到的是该函数的泛化能力。

因此我们需要把该函数进行进一步拓扑，以得到一个最佳的模型。

2.2 建立超参模型在目标函数模型的基础上，我们需要建立一个超参模型。

超参模型模拟了模型参数和参数取值在目标函数上的表现。

超参模型提供了调整目标函数模型参数的指导，而为了得到超参模型，需要采用贝叶斯模型进行拟合。

如何构建超参模型呢？以下是一些步骤的介绍：- 设计参数空间。

根据目标函数模型中的参数，构建一个参数空间。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

来量化。
2
改进的贝叶斯优化算法
2.1 高斯过程对于建模损失函数，高斯过程(GP)一直被认为是一种方便且强大的模型优化算法。在这里将采用 f :
N
GP 由的形式。
N
下列性质定义：任意有限的 N 个点 n n 1 在
上引起多
变量高斯分布。这些点中的第 n 个被认为是函数值 f n ，高斯分布的良好的边缘化特征使本文能够以闭合的形式计算边界和条件。所得到的函数分布的性质完全由均值函数 :
第 36 卷第 7 期优先出版
计算机应用研究 Application Research of Computers
Vol. 36 No. 7 Online Publication
基于改进贝叶斯优化算法的 CNN 超参数优化方法
邓帅 a, b
*
(北京工业大学 a. 北京未来网络科技高精尖创新中心; b. 北京市物联网软件与系统工程技术研究中心 , 北京 100124) 摘要：CNN 框架中，如何对其模型的超参数进行自动化获取一直是一个重要问题。提出一种基于改进的贝叶斯优化
基金项目：北京市自然科学基金资助项目（4122010）；国家自然科学基金资助项目（60773186）
作者简介：邓帅（1993-），男，河北黄骅人，硕士研究生，主要研究方向为物联网､深度学习（353007141@）．
优先出版
邓
帅：基于改进贝叶斯优化算法的 CNN 超参数优化方法
第 36 卷第 7 期
E f 和协方差函数 ( 核函数 ) k :
，，
k , E f

[7] f 决定。假设在输入集
1
贝叶斯优化算法介绍
化的函数评估；并且不确定这些优化算法得到的超参数对于具有不同数据模式或结构的域的 CNN 框架是否最优。本文基于 CNN 框架和已有贝叶斯优化算法，提出一种改进的贝叶斯优化算法对 CNN 超参数进行优化。该方法利用高斯过程对超参数进行建模，利用改进的马尔可夫链蒙特卡洛（improved Markov Chain Monte Carlo, IMCMC）算法加速训练高斯过程模型的训练，即计算高斯代理模型的超参数（长度尺度和协方差振幅等）。并使用改进的汤普森采样（ improved thompson sampling,ITS）方法作为采集函数获得下一个采样点并计算 loss 值，然后合并到历史观测集中。这个过程迭代直到获得一组性能良好的超参数。该方法可以在超参数空间不同的 CNN 框架下进行超参数优化。 MRBI 和 SVHN 利用 CIFAR-10、测试集对算法进行性能测试，说明了本文提出的方法获得的超参数比 TPE 和 GP EI MCMC 等同类的优化算法得到的超参数性能更好，更稳定。
—————————— 收稿日期：2018-01-10；修回日期：2018-03-06
Bergstra 等人[5]提出的 TPE 。（Tree-structured Parzen Estimator
Approach）算法和 Snoek 等人[6]提出的 GP EI MCMC 算法已经证明 EI 和 UCB 在许多黑盒函数的全局最优化的函数评估中是有效的。然而 CNN 超参数优化具有与其他黑盒优化问题相区别的特征。首先每一次对 CNN 超参数的评估可能需要一个可变的时间量，不清楚 EI 和 UCB 是否适用于 CNN 的超参数优
对于超参数的优化，可以将这种优化看做是反映泛化性能
G 1, , t 和观测集的输出 y L h , XV i

i 1 上调节 GP , k ，
t
其中 yn f n 带有一个独立同分布的高斯噪声
Hale Waihona Puke ~的未知黑盒函数的优化，并调用针对这些问题开发的算法。这些优化问题与作为训练过程一部分经常遇到低层次目标是不同的：这里函数评估（求值目标函数调用一次）代价很大，因为它们涉及到主要的机器学习算法的完成。在这种函数求值代价大的情况下，希望花费计算时间来更好的选择在哪里寻找最佳参数。在贝叶斯优化中，感兴趣的是在一些有界集合上找到函数 f 的最小值，本文将把它作为的一个子集。使得贝叶斯优化不同于其他程序的是它为 f 构造一个概率模型，然后利用这个模型来决定在哪里去评估函数，同时整合不确定性。基本的思路是使用 f 以前评估中可用的所有信息来学习目标函数的形态，而不是简单地依靠局部梯度和 Hessian 近似。这可以实现通过较少的评估就可以找到复杂非凸函数的最小值，代价是执行更多的计算以确定下一个采样点。因此分为了两个步骤：a）选择一个先验函数来表达关于被优化函数的假设，本文使用的高斯过程，因为其具有灵活易处理的特性；b）选择一个采集函数，用来从后验模型构造一个效用函数，来确定下一个采样点。将要优化的 CNN 的超参数看做是多维空间的点。超参数的贝叶斯优化通过在超参数的空间中对损失函数 f 进行一个高斯先验建模来执行。通过验证集 XV 可以观察到这种损失函数的一些噪声， f 表示为
Hyper-parameter optimization of CNN based on improved Bayesian optimization algorithm
Deng Shuaia, b
(a. Beijing Advanced Innovation Center for Future Internet Technology, b. Beijing Engineering Research Center for IoT Software & Systems, Beijing University of Technology, Beijing 100124, China) Abstract: In the framework of convolutional neural network (CNN) , how to obtain the hyper-parameters of its model automatically is an important and pressing research topic. In this paper, we proposed a hyper-parameter optimization method of CNN based on improved Bayesian optimization algorithm. This method uses the improved Thompson sampling method as the acquisition function. The improved Markov Chain Monte Carlo algorithm is used to accelerate the Gaussian surrogate model. The proposed method can be used to optimize hyper-parameters in frameworks of CNN with different hyper-parameter space. The performance of the algorithm was tested by using these testing sets: CIFAR-10, MRBI and SVHN. The experimental results show that the improved hyper-parameter optimization algorithm of CNN has better performance than the other algorithms. Key words: Bayesian optimization; convolutional neural networks; Gaussian process; hyper-parameter optimization 组合。由于 CNN 算法计算成本高，在传统的平台上可能需要数天时间来进行训练，所以重复的反复实验既是低效的，也不是彻底的。针对这种未知黑盒函数的优化，贝叶斯优化 [2]提供了一个有效的方法，并且已经被证明在许多具有挑战性的优化基准函数上优于其他的最先进的全局优化算法。对于连续函数，通常假定未知函数是从高斯过程（GP）采样的，并且在观察时保持该函数的后验分布。为了选择下一个实验的超参数，可以优化当前最好的结果或者高斯过程置信区间（UCB）的期望增量（EI）
算法的 CNN 超参数优化方法。该方法使用改进的汤普森采样方法作为采集函数，利用改进的马尔可夫链蒙特卡洛算法加速训练高斯代理模型。该方法可以在超参数空间不同的 CNN 框架下进行超参数优化。利用 CIFAR-10、MRBI 和 SVHN 测试集对算法进行性能测试，实验结果表明，改进后的 CNN 超参数优化算法比同类超参数优化算法具有更好的性能。关键词：贝叶斯优化；卷积神经网络；高斯过程；超参数优化中图分类号：TP183 doi: 10.3969/j.issn.1001-3695.2018.01.0021
[3,4]
0
引言
由于任何一个 CNN 模型都无法对所有数据集进行最佳泛
化，因此在将 CNN 应用于新数据集之前，必须先选择一组适当的超参数。CNN 的超参数包括层数，每层隐藏单元的数量，层的激活函数，层的内核大小，网络内这些层的配置等。为新数据集选择新的模型可能是一个耗时且繁琐的任务。被调整的超参数的数量以及每个新的超参数集合的评估时间使得它们在 CNN 模型中的优化尤其困难。超参数对不同 CNN 架构的影响的研究已经显示出复杂的关系，其中在简单 CNN 网络中提供巨大性能改进的超参数在更复杂的体系结构中并不具有相同的效果[1]。这些研究还表明，一个数据集上的结果可能不会转移到具有不同图像属性、先验概率分布、类别数量或训练示例数量的另一个数据集。由于没有明确的公式来选择一组正确的超参数，所以它们的选择通常取决于先前的经验和实验性错误的