神经网络极速学习方法研究

合集下载

如何最大限度地提升神经网络中的训练速度与性能

如何最大限度地提升神经网络中的训练速度与性能神经网络是一种模拟人脑神经元网络的计算模型，它具备强大的数据处理和学习能力。

然而，随着神经网络的规模和复杂度不断增加，训练速度和性能成为了制约其应用的瓶颈。

本文将探讨如何最大限度地提升神经网络中的训练速度与性能。

首先，我们可以从数据预处理入手。

数据预处理是神经网络训练的重要环节，它可以帮助网络更好地理解数据。

在进行数据预处理时，我们可以考虑以下几个方面。

首先，对数据进行归一化处理，将数据的取值范围缩放到合适的区间，有助于提升网络的稳定性和收敛速度。

其次，对数据进行降维处理，可以减少特征的维度，提高网络的训练速度。

最后，对数据进行增强处理，如随机旋转、平移、缩放等，可以增加数据的多样性，提高网络的泛化能力。

其次，我们可以考虑优化神经网络的结构。

神经网络的结构包括网络的层数、每层的神经元数量、激活函数的选择等。

在设计网络结构时，我们可以采用一些经典的结构，如卷积神经网络（CNN）、循环神经网络（RNN）等。

此外，我们还可以尝试一些新颖的结构，如残差网络（ResNet）、注意力机制（Attention）等。

通过选择合适的网络结构，可以提高网络的表达能力和学习能力，从而提升网络的性能。

除了优化网络结构，我们还可以考虑使用一些优化算法来加速网络的训练。

目前，常用的优化算法包括梯度下降法（Gradient Descent）、随机梯度下降法（Stochastic Gradient Descent）等。

这些算法可以通过更新网络参数来最小化损失函数，从而提升网络的性能。

此外，还有一些高级的优化算法，如动量法（Momentum）、自适应学习率算法（Adaptive Learning Rate）等，它们可以在训练过程中自动调整学习率，加快网络的收敛速度。

另外，硬件的选择也对神经网络的训练速度和性能有着重要影响。

目前，常用的硬件包括中央处理器（CPU）和图形处理器（GPU）。

卷积神经网络的训练加速技巧(Ⅰ)

卷积神经网络的训练加速技巧随着深度学习技术的发展，卷积神经网络（CNN）在图像识别、自然语言处理等领域取得了巨大成功。

然而，CNN训练过程中常常面临着计算复杂度高、训练时间长的问题。

为了加速CNN的训练过程，研究者们提出了许多技巧和方法。

本文将介绍一些常见的CNN训练加速技巧，帮助读者更好地理解和应用这些方法。

1. 数据预处理在进行CNN训练之前，对数据进行预处理是非常重要的。

数据预处理包括数据标准化、数据增强等操作。

通过数据标准化，可以将数据缩放到一个较小的范围内，有利于模型的训练和收敛。

数据增强可以通过对原始数据进行旋转、翻转、裁剪等操作，增加训练数据的多样性，有利于提高模型的泛化能力。

2. 批量归一化批量归一化（Batch Normalization）是一种常用的CNN加速训练的技巧。

通过对每个批次的输入进行标准化，可以加速收敛过程，减少训练时间。

此外，批量归一化还可以增强模型的稳定性，减少模型对初始参数设定的敏感度。

3. 学习率调整合适的学习率设置对CNN的训练至关重要。

学习率过大会导致模型震荡，学习率过小会导致模型收敛速度过慢。

因此，研究者们提出了许多学习率调整的方法，如学习率衰减、自适应学习率等。

通过合理地调整学习率，可以加速模型的收敛过程，提高训练效率。

4. 参数初始化良好的参数初始化对CNN的训练是非常重要的。

过大或者过小的权重初始化会导致模型无法收敛。

因此，研究者们提出了一些有效的参数初始化方法，如Xavier初始化、He初始化等。

这些方法可以有效地加速模型的收敛过程，减少训练时间。

5. 梯度裁剪梯度裁剪是一种常用的CNN训练加速技巧。

在反向传播过程中，梯度通常会出现过大的情况，导致模型不稳定。

通过对梯度进行裁剪，可以限制梯度的大小，减少模型的震荡，加快训练速度。

6. 并行计算随着硬件技术的发展，利用GPU进行并行计算已成为加速CNN训练的常用方法。

通过并行计算，可以大幅度提高训练速度，减少训练时间。

神经网络训练的技巧和方法(六)

神经网络训练是机器学习领域中的重要技术，它在语音识别、图像识别、自然语言处理等领域有着广泛的应用。

然而，神经网络训练并不是一件容易的事情，需要掌握一定的技巧和方法。

本文将探讨神经网络训练的技巧和方法，帮助读者更好地理解和应用这一技术。

数据预处理数据预处理是神经网络训练的第一步，也是至关重要的一步。

良好的数据预处理可以提高训练的效果。

首先，需要对数据进行标准化处理，使得数据分布在一个较小的范围内，这有助于加快训练速度。

其次，需要对数据进行归一化处理，将数据转化为均匀分布或正态分布，以减小特征之间的差异性。

此外，还需要对数据进行去噪处理，剔除一些噪声数据，以提高训练的准确性。

选择合适的神经网络结构在进行神经网络训练之前，需要选择合适的神经网络结构。

不同的任务和数据集需要不同的网络结构。

例如，对于图像识别任务，常用的网络结构包括LeNet、AlexNet、VGG、GoogLeNet和ResNet等。

而对于自然语言处理任务，常用的网络结构包括RNN、LSTM和Transformer等。

选择合适的网络结构可以提高训练的效果。

合适的损失函数和优化器选择合适的损失函数和优化器也是神经网络训练的关键。

不同的任务需要选择不同的损失函数，例如，对于分类任务，常用的损失函数包括交叉熵损失函数；对于回归任务，常用的损失函数包括均方误差损失函数。

而优化器的选择也很重要，常用的优化器包括SGD、Adam、RMSprop等。

选择合适的损失函数和优化器可以提高训练的效果，加快收敛速度。

超参数调优超参数的选择对神经网络训练也有着重要影响。

常见的超参数包括学习率、批大小、正则化参数等。

学习率是影响训练速度和效果的重要超参数，通常需要进行调优。

批大小也需要进行合理选择，过大的批大小可能导致收敛速度慢，过小的批大小可能导致收敛不稳定。

正则化参数也需要进行调优，以防止过拟合。

数据增强数据增强是提高神经网络训练效果的常用技巧。

通过对原始数据进行一些变换，可以生成更多的训练样本，从而提高网络的泛化能力。

神经网络结构中的加速与优化研究

神经网络结构中的加速与优化研究神经网络发展至今，已经广泛应用于图像处理、语音识别、自然语言处理等领域。

然而，随着神经网络规模的增大和复杂度的提高，模型运行速度缓慢成为了一大瓶颈。

于是，加速神经网络的研究便开始受到越来越多的关注。

首先，我们要了解神经网络加速的原理和方法。

加速神经网络的方法主要有：压缩神经网络、量化神经网络和硬件加速。

压缩神经网络是通过减少神经网络中的参数和层数来达到加速的目的。

具体的压缩方法有裁剪（Pruning）、量化（Quantization）、低秩分解（Low Rank Decomposition）和知识蒸馏（Knowledge Distillation）等。

量化神经网络是通过减少神经网络中参数的精度来减小内存占用。

常用的量化方法有定点量化和二值化。

定点量化是将参数从浮点数精度降低到整数精度，二值化则将参数限制在-1和1之间，最终达到降低内存占用和加速运行的目的。

硬件加速则是通过特定的硬件加速器来加速神经网络模型的运行。

常用的硬件加速器有GPU和ASIC等。

其次，新的模型结构也可以带来神经网络加速的效果。

常用的模型结构有卷积神经网络（CNN）、循环神经网络（RNN）和残差神经网络（ResNet）等。

在这些经典的模型结构基础上，研究者们通过对单元和模型结构进行重新设计来获得更好的性能。

除了上述方法外，还有一些参数调整和优化技巧可以提高神经网络的训练速度和测试速度。

其中，常用的有动量优化（Momentum Optimization）、自适应学习率（Adaptive Learning Rate）、权重初始化（Weight Initialization）和批量正则化（Batch Normalization）等。

在具体研究过程中，研究者通常采用并行计算技术和分布式计算技术来加速神经网络的训练和测试。

通过多个计算单元同时进行计算，可以大大提升计算效率。

最后，神经网络加速与优化研究不仅有科研意义，还有着广泛的现实应用价值。

神经网络极速学习方法研究进展

关键词：据挖掘；经网络；速学习机数神极
中图分类号：Ｐ８Ｔ１
文献标识码：Ａ
文章编号：０９３４（０１１ — ３８０１０ — ０４２１）０２６ — ４
ＳｒｅｆｔｅａｎｎｆＮｅｒｌｔｒｓｕｖｙｏｒｍｅＬｅｒｉｇｏｕａｗｏｋＥｘＮｅ
ｎｅｕｔｐｅｉｅａｏ；ａｌｏｔｏｋｒｍｅｅｓｎｅｄＯｂｅｅｍｉｄｂｔｒｔｏｅｄｓｍｌｉｌｔｒｔｎｓｌｆｔｎｅｗｒｐａａｔｒｅｔｅｄｔｒｎｅｙｉｅａｎ．Ｔｈｅｅｏｅｈｅｏｍｐｕｔｔｏａｏｐｅｔｎｉｈｅｉｒｆｒ，ｔｃａｉｎｃｍｌｘｉｙａｄｌ
ｓａｃｉｇｓａｅｗｉｃｅｓｒｍａｉａｙＥＭｓｏｅｔｅｒｉｇｉｅ，ｔｉｍｅｈｄｉｆｓｒａｇｒｈａｄｖｉｕｅｆｔｒｔｎｅｒｈｎｐｃｌｉｒａｅｄａｔｌ．Ｌｌｎｃｌｉｎ — ｍｅｌａｎｎａｈｓｉｄｔｏａｔｏｉｍｎｏｄａｎｍｂｒｏｅａｉｓｓｅｌｔｓｉｏａｄｔｅｌｃｎｍｕｎｈｏａｍｉｉｍ，ｔｈｓｂｔｒｇｎｒｉａｏ，ｏｕｔｅｓａｄｃｎｒｌｂｌ．ｔｏｆｒｎａａｓｔａｄｄｆｒｎｐｌａｉｎ，ｔｉｌｉａｅｔｅｅａｚｔｎｒｂｓｓｎｏｔａｉｔＢｕｒｄｅｅｔｄｔｅｓｎｉｅｅｔａｐｉｔｓｉｓｅｌｉｎｏｉｙｆｉｃｏｕｅｒｂｔａａｃａｓｃｔｎｏｅｒｓｏ．ＭｇｒｈｈｓｓｍｅｐｏｌｍｓｏｔｉｐｐｒｆｌｗｏｒｈｎｉｅｃｍｐｒｓｎａｄｓｄｆｏｈｄｔｌｓｆａｉｒｒｇｅｓｎＥＬａｏｉｍａｏｒｂｅ．Ｓｈｓａｅｏｌｏｉｉｏｉｌｔｏａｃｍｐｅｅｓｏａｏｎｖｉ

神经网络中的快速训练技巧分享

神经网络中的快速训练技巧分享随着人工智能的快速发展，神经网络成为了机器学习中不可或缺的一部分。

然而，神经网络的训练过程通常需要大量的时间和计算资源。

为了提高训练效率，研究者们提出了许多快速训练技巧。

本文将分享一些在神经网络训练中提高效率的技巧。

首先，我们来谈谈数据预处理。

数据预处理是神经网络训练的重要一环。

通过对数据进行归一化、标准化和去噪等操作，可以提高训练的稳定性和收敛速度。

例如，将输入数据的均值调整为零，标准差调整为一，可以使得网络更容易学习到有效的特征。

此外，通过去除数据中的噪声，可以减少网络对噪声的敏感性，提高泛化能力。

其次，我们来讨论一些优化算法。

优化算法是神经网络训练中最关键的一部分。

传统的梯度下降算法在处理大规模数据集时效率较低。

为了解决这个问题，研究者们提出了一系列的改进算法，如随机梯度下降（SGD）、动量法和自适应学习率算法等。

这些算法通过引入随机性、动量和自适应学习率等机制，可以加速网络的收敛速度和提高泛化能力。

除了优化算法，正则化技术也是提高网络训练效率的重要手段之一。

正则化技术通过对网络的复杂度进行约束，避免过拟合现象的发生。

常见的正则化技术包括L1和L2正则化、dropout和批标准化等。

L1和L2正则化通过在损失函数中引入正则化项，限制网络参数的大小，防止过拟合。

dropout技术通过随机丢弃一部分神经元，减少神经元之间的依赖关系，提高网络的泛化能力。

批标准化技术通过对每一层的输入进行标准化，加速网络的收敛速度和提高训练稳定性。

此外，网络结构的设计也对训练效率有着重要影响。

合理设计网络结构可以减少参数的数量，降低计算复杂度。

常见的网络结构设计技巧包括卷积神经网络（CNN）和残差网络（ResNet）等。

CNN通过共享权重和局部连接的方式，减少参数的数量，提高网络的计算效率。

ResNet通过引入残差模块，允许信息的直接传递，加速网络的收敛速度和提高网络的泛化能力。

最后，硬件的选择也会对训练效率产生影响。

神经网络的工作原理和学习方式

神经网络的工作原理和学习方式神经网络的名字来源于其类似人脑的工作原理。

神经元是人脑
的基本单位，各神经元间通过突触链接互相通信。

神经网络在其
基础上构建了数学模型，利用这些模型学习并执行任务。

神经网络由许多人工神经元构成，每个神经元接收多个输入和
一个权重，将其加权求和，然后通过一个激活函数输出结果。

其
中权重是网络学习过程中需要优化的参数。

神经网络的学习方式与人脑的学习方式类似，其目标是通过将
输入与输出映射关系来学习任务。

神经网络可以通过监督学习、
无监督学习和强化学习等多种方式进行训练。

在监督学习中，神经网络接收到一组输入，并将其映射到一组
输出。

对于每个输入，网络将预测输出，并与期望输出进行比较。

通过比较损失函数值，网络可以更新权重，并逐渐优化输出结果。

无监督学习是一种不依赖于标签的学习方式。

神经网络在此模
式下通过发掘输入数据中的隐式结构进行学习，从而获得特征提
取和数据降维等方面的优势。

强化学习是在一组环境状态下进行的，基于奖励信号的学习方式。

网络通过不断尝试不同的行动以获取最高的奖励值，并根据奖励情况调整其行动策略。

神经网络具有多种应用，被广泛应用于图像和语音识别、自然语言处理、游戏智能、机器人等领域。

例如，在语音识别中，神经网络通过学习声学特征和语言模型以提高语音识别的准确性。

总之，神经网络通过人脑类似的工作原理和多种学习方式实现了自主学习和任务执行。

在未来，神经网络将在更多的领域为人们创造更多的价值。

如何解决神经网络中的训练速度过慢问题

如何解决神经网络中的训练速度过慢问题神经网络是一种模拟人脑神经系统的计算模型，它通过模拟人脑神经元之间的连接和传递信号的方式来进行模式识别和学习。

然而，神经网络的训练过程通常需要大量的计算资源和时间，这导致了训练速度过慢的问题。

本文将探讨如何解决神经网络中的训练速度过慢问题。

一、优化算法选择神经网络的训练过程通常采用梯度下降算法来最小化损失函数。

然而，传统的梯度下降算法在处理大规模数据集时效率较低。

为了解决这个问题，研究者们提出了一系列的优化算法，如随机梯度下降（SGD）、动量法、自适应学习率方法等。

这些算法能够加速神经网络的训练过程，提高训练速度。

二、并行计算神经网络的训练过程中存在大量的矩阵运算和向量运算，这些运算可以通过并行计算来加速。

目前，各种并行计算技术已经得到广泛应用，包括多核CPU、GPU和分布式计算等。

通过合理地利用这些计算资源，可以显著提高神经网络的训练速度。

三、数据预处理神经网络的训练过程需要大量的数据，而且这些数据通常需要进行预处理，如归一化、去噪等。

在数据预处理阶段，可以采用一些技术来减少数据的维度和噪声，从而减少训练时间。

例如，可以使用主成分分析（PCA）来降低数据的维度，或者使用自动编码器来去除数据中的噪声。

四、模型压缩神经网络的模型通常非常庞大，这导致了训练过程中的计算负担过重。

为了解决这个问题，可以采用模型压缩的方法来减小模型的规模。

例如，可以使用剪枝算法来去除冗余的连接和神经元，或者使用量化方法来减少权重的位数。

这些方法可以在不显著降低模型性能的情况下减小模型的规模，从而提高训练速度。

五、迁移学习迁移学习是一种利用已训练好的模型来加速新模型训练的方法。

通过迁移学习，可以将已经训练好的模型的参数作为新模型的初始参数，从而减少训练时间。

此外，还可以利用已训练好的模型提取特征，并将这些特征用于新模型的训练。

这样可以避免从零开始训练模型，提高训练速度。

六、硬件优化除了算法和模型的优化，还可以通过硬件优化来提高神经网络的训练速度。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

３ＢＰ
由Ｒｕｍｅｌｈａｒｔ和ＭｃＣｌｅｌｌａｎｄ提出的ＢＰ神经网络模型是目前应用最广泛的模型之一嘲，ＢＰ训练方法是通过反向误差传播原理不断调整网络权值使得实际输出与期望输出之间的误差平方和达到最小或小于某个阈值．当日未知时，通常采用梯度下降法
万方数据Biblioteka ２期邓万宇等：神经网络极速学习方法研究
∑屈ｇ；（而）＝∑雎ｇ（口；·ｘｊ＋ｂｔ）一岛，ｊ＝ｌ，２，…，Ｎ
Ｉ
；
…
；
，
Ｌｇ（ａ『ｌ·ｘＮ＋６１）…ｇ（口贾‘ＸＮ＋ｂ席）ＪＮ×荷
卢一匪］费×。，Ｔ＝匪］Ｎ×。．
ａｒｇｍｉｎＥ（ｗ）＝ａｒｇｍｉｎＩＩ８ＩＩ２，
Ｗ＝（ｄ，６，，）
ｗ＝（４，６。，）
ｓ．ｔ．∑麒ｇ（口ｆ·ｘｊ＋ｂｆ）一屯＝岛，歹＝１，２，…，Ｎ
就转化为计算耶一Ｔ的最小二乘解问题．关于
ＥＬＭ的细节请参考文献Ｅ５］．与ＢＰ相比ＥＬＭ需要调整的参数只有隐含层
结点个数丙，目前虽没有精确估计Ｎ的方法，但Ｎ《Ｎ大大缩小了搜索范围，在实际应用中Ｎ可以通过交叉验证的方式确定．在标准ＵＣＩ数据集上的大量实验表明ＥＬＭ训练速度快，泛化性能良好，但
ＥＬＭ仍有一些缺点：（１）ＥＬＭ仅考虑经验风险，没有考虑到结构化
（４）过渡拟合．在有限样本上训练时，仅以训练误差最小为目标的训练可能导致过渡拟合．
４ＥＬＭ
为了解决以上问题，Ｈｕａｎｇ基于以下定理为ＳＬＦＮ提出了ＥＬＭ学习算法．
定理１［５］．对于任意Ｎ个不同样本（毛，ｔ。），其中而一［ｚｌｌ，Ｘｆ２，…，ｚ抽］ＴＥＲ”，ｔｆ＝Ｉｔｆｌ，ｔｆ２，…，ｔｆ。］Ｔ∈ Ｒ”，Ｎ个隐藏层结点和一个任意区间无限可导的激活函数ｇ：Ｒ—Ｒ，则ＳＬＦＮ在ａ；∈Ｒ“和ｂｉ∈Ｒ任意赋值的情况下，所形成的隐藏层矩阵Ｈ可逆，即方程组有精确解，代价函数Ｅ（ｗ）一０．
万方数据
２８０
计算机学报
２０１０钽
１引言
２ＳＬＦＮ的统一模型
单隐藏层前馈神经网络（Ｓｉｎｇｌｅ—ｈｉｄｄｅｎＬａｙｅｒＦｅｅｄｆｏｒｗａｒｄＮｅｕｒａｌＮｅｔｗｏｒｋ，ＳＬＦＮ）之所以能够在很多领域得到广泛应用，是因为它有很多优点：（１）具有很强的学习能力，能够逼近复杂非线性函数；（２）能够解决传统参数方法无法解决的问题．但另一方面缺乏快速学习方法，也使其很多时候无法满足实际需要．
定理２［５３．给定任意Ｎ个不同样本（毛，ｔ；），任意小误差Ｐ＞０，及在任意区间无限可导的激活函数ｇ：Ｒ—Ｒ，总存在一个包含Ｎ（Ｎ≤Ｎ）个隐藏层结点的ＳＬＦＮ，使得在矾∈Ｒ“和ｂ；∈Ｒ任意取值情况下，误差Ｅ（ｗ）≤巳
定理１和定理２的详细证明可参考文献［４—５，ｌｏ］．定理表明：只要隐含层结点数足够多，ＳＬＦＮ就能在输入权随机赋值情况下逼近任何连续函数．但为了使ＳＬＦＮ具有良好的泛化性能，通常丙《Ｎ．当输入权以随机赋值的方式确定后，所得隐藏层矩阵Ｈ便是一个确定的矩阵，因此训练ＳＬＦＮ
摘要单隐藏层前馈神经网络（Ｓｉｎｇｌｅ－ｈｉｄｄｅｎＬａｙｅｒＦｅｅｄｆｏｒｗａｒｄＮｅｕｒａｌＮｅｔｗｏｒｋ，ＳＩ。ＦＮ）已经在模式识别、自动控制及数据挖掘等领域取得了广泛的应用，但传统学习方法的速度远远不能满足实际的需要，成为制约其发展的主要瓶颈．产生这种情况的两个主要原因是：（１）传统的误差反向传播方法（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ，ＢＰ）主要基于梯度下降的思想，需要多次迭代；（２）网络的所有参数都需要在训练过程中迭代确定．因此算法的计算量和搜索空间很大．针对以上闻题，借鉴ＥＬＭ的一次学习思想并基于结构风险最小化理论提出一种快速学习方法（ＲＥＬＭ），避免了多次迭代和局部最小值，具有良好的泛化性、鲁棒性与可控性．实验表明ＲＥＬＭ综合性能优于ＥＬＭ、ＢＰ和ＳＶＭ．
ｂｅｔｔｅｒｇｅｎｅｒａｌｉｚａｔｉｏｎ，ｒｏｂｕｓｔｎｅｓｓａｎｄｃｏｎｔｒｏｌｌａｂｉｌｉｔｙｔｈａｎｔｈｅｏｒｉｇｉｎａｌＥＬＭ．Ａｄｄｉｔｉｏｎａｌｌｙ，ｅｘｐｅｒｉ— ｍｅｎｔａｌｒｅｓｕｌｔｓｈａｖｅｓｈｏｗｎｔｈａｔＲＥＬＭ’ｏｖｅｒａｌｌｐｅｒｆｏｒｍａｎｃｅｉＳａｌｓｏｂｅｔｔｅｒｔｈａｎＢＰａｎｄＳＶＭ．
ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＸｉｔａｎＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｘｉ＇ａｎ７１００４９）鼬（ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ。ｘｉｔａｎＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓ＆Ｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｘｉ＇ａｎ
风险，因此可能导致过度拟合问题；（２）ＥＬＭ直接计算最／１，，－－乘解，用户无法根据
数据集的特征进行微调，可控性差；（３）当数据集中存在离群点时，模型性能将会
受到很大影响，鲁棒性较差．为了克服这些缺点，我们把结构风险最小化理
论以及加权最小二乘法引入到ＥＬＭ中，提出一种正则极速学习机（ＲｅｇｕｌａｒｉｚｅｄＥｘｔｒｅｍｅＬｅａｒｎｉｎｇＭａｃｈｉｎｅ．ＲＥＬＭ）．
但是ＥＬＭ是基于经验风险最小化原理，这可能会导致过度拟合问题［６３．此外因为ＥＬＭ不考虑误差的权重，当数据集中存在离群点时，它的性能将会受到严重影响［７］．为了克服这些缺点，我们结合结构风险最小化理论以及加权最小二乘法对ＥＬＭ算法进行改进，使得ＥＬＭ在保持“快速”这一优势的前提下，泛化性能得到进一步的提高．
关键词极速学习机｝正则极速学习机；支持向量机；结构风险，神经网络ｆ最小二乘
中图法分类号ＴＰｌ８
ＤＯＩ号：１０．３７２４／ＳＰ．Ｊ．１０１６．２０１０．００２７９
ＲｅｓｅａｒｃｈｏｎＥｘｔｒｅｍｅＬｅａｒｎｉｎｇｏｆＮｅｕｒａｌＮｅｔｗｏｒｋｓ
ＤＥＮＧＷａｎ—Ｙｕ” ＺＨＥＮＧＱｉｎｇ—Ｈｕａｌ’ ＣＨＥＮＬｉｎ２’ＸＵＸｕｅ－Ｂｉｎｌ’ ＂（ＭｉｎｉｓｔｒｙｏｆＥｄｕｃａｔｉｏｎＫｅｙＬａｂｏｒａｔｏｒｙｆｏｒＩｎｔｅｌｌｉｇｅｎｔＮｅｔｗｏｒｋｓａｎｄＮｅｔｗｏｒｋＳｅｃｕｒｉｔｙ·
Ｋｅｙｗｏｒｄｓｅｘｔｒｅｍｅｌｅａｒｎｉｎｇｍａｃｈｉｎｅ；ｒｅｇｕｌａｒｉｚｅｄｅｘｔｒｅｍｅｌｅａｒｎｉｎｇｍａｃｈｉｎｅ；ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａ— ｃｈｉｎｅ；ｓｔｒｕｃｔｕｒａｌｒｉｓｋ；ｎｅｕｒａｌｎｅｔｗｏｒｋ；ｌｅａｓｔｓｑｕａｒｅ
收稿Ｅｔ期：２００９—０７－１５；最终修改稿收到日期：２００９－０９—２７．本课题得到国家自然科学基金（６０８２５２０２，６０８０３０７９，６０６３３０２０）、国家“八六三” 高技术研究发展计划项且基金（２００８ＡＡＯｌＺｌ３１），国家科技支撑计划项目（２００６ＢＡＫＩＩＢ０２，２００６ＢＡＪ０７８０６，２００８ＢＡＨ２６８０２，２００９ＢＡＨ５１８００），中国科学院复杂系统与智能研究科学重点实验室开放基金资助项目（２００８０１０１）和陕西省教育厅科学研究计划项目（０９ＪＫ７１７）资助．邓万字。男，１９７９年生，博士研究生，讲师，主要研究方向为机器学习、协作过滤、个性化服务．Ｅ－ｍａｉｌ：ｄｅｎｇｗａｎｙｕ＠１２６．ｃｏｍ．郑庆华，男，１９６９年生，博士，教授，博士生导师，主要研究领域为智能化学习理论、网络安全．Ｅ－ｍａｉｌ：ｑｈｚｈｅｎｇ＠ｘｊｔｕ．ｅｄｕ．ｅｎ．蓐琳，女，１９７７年生，硬士，讲师，主要研究方向为机器学习、协作过滤、个性化服务．许学斌，男，１９７４年生，硕士，工程师，主要研究方向为机器学习，模式识别．
第３３卷第２期２０１０年２月
计
算
机
学报
ＣＨＩＮＥＳＥＪｏＵＲＮＡＬ０ＦＣＯＭＰＵＴＥＲＳ
ｖ０１．３３Ｎｏ．２Ｆｅｂ．２０１０
神经网络极速学习方法研究
邓万宇＂郑庆华” 陈琳２’ 许学斌＂
”（西安交通大学电信学院计算机系智能网络与网络安全教育部重点实验室西安７１００４９）２’（西安邮电学院计算机科学与技术系西安７１００６１）
２８１
迭代调整ｗ：
矾＝巩＿１－７等，
其中呀代表学习速率．基于梯度下降法的ＢＰ存在以下缺点：（１）训练速度慢．因为需要多次的迭代，所以时
间消耗很长．（２）参数选择很敏感，必须选取合适的呀与ｗ
初值，才能取得理想的结果．若叩太小，算法收敛很慢，而刁太大，算法不太稳定甚至不再收敛；
（３）局部最小值．由于Ｅ（ｗ）非凸，因此在下降过程中可能会陷入局部最小点，无法达到全局最小‘９１；
对于ＳＬＦＮ的学习能力，很多文献分别从紧集（ｃｏｍｐａｃｔｉｎｐｕｔｓｅｔｓ）和有限集（ｉｎｆｉｎｉｔｅｉｎｐｕｔｓｅｔｓ）两种输入情况进行了深入讨论．Ｈｏｒｎｉｋ研究表明：如果激励函数连续、有界且不是常量函数，那么ＳＬＦＮ能够在紧集情况下逼近任何连续函数［１１；Ｌｅｓｈｎｏ在Ｈｏｒｎｉｋ基础上的进一步研究表明：使用非多项式激励函数的ＳＬＦＮ能够逼近任何连续函数［ｚ］．在实际应用中，神经网络的输入往往是有限集，对于有限集情况下ＳＬＦＮ的学习能力，Ｈｕａｎｇ和Ｂａｂｒｉ等进行了研究，结果表明：对于含有Ｎ个不同实例的有限集，一个具有非线性激励函数的ＳＬＦＮ最多只需ＪＶ个隐藏层结点，就可以无误差地逼近这Ｎ个实例睁“．这就是说，一个具有Ｎ个隐藏层结点的ＳＬＦＮ，即使输入权值随机取值，它也能够准确拟合Ｎ个不同的实例，更明确地讲就是：ＳＬＦＮ的学习能力只和隐藏层结点的数目有关，而和输入层的权值无关．虽然这一点对于提出一种新的学习算法很有启发，但并未引起研究者的注意，迭代调整的思想一直坚持到现在，很多算法都只是围绕这一思想进行技巧性的改进．不同于传统的学习方法，Ｈｕａｎｇ基于以上研究结论为ＳＬＦＮ提出了一种称为极速学习机（ＥｘｔｒｅｍｅＬｅａｒｎｉｎｇＭａｃｈｉｎｅ，ＥＬＭ）的学习方法［５］：设置合适的隐藏层结点数，为输入权和隐藏层偏差进行随机赋值，然后输出层权值通过最ｄｘＺ．乘法得到．整个过程一次完成，无需迭代，与ＢＰ相比速度显著提高（通常１０倍以上）．