人工神经网络泛化问题研究综述

第２５卷第１２期２００８年１２月

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｍ

Ｖ０１．２５Ｎｏ．１２

Ｄｅｃ．２００８人－ｒ－，，经网络泛化问题研究综述木

王恺８’６，杨巨峰８，王立４，史广顺８，王庆人８

（南开大学ａ．机器智能研究所；ｂ．国家环境保护城市空气颗粒物污染防治重点实验室，天津３０００７１）

摘要：从理论、方法（思想）和技术三个层次回顾了以往工作，讨论了模型复杂度、样本复杂度及两者之间关系的相关研究；在实际中，通过控制模型复杂度、调整样本等具体技术可以在一定程度上提高神经网络的泛化能力，但这些技术仍然存在一些问题没有解决。最后提出了对今后研究的展望。

关键词：人工神经网络；泛化问题；泛化能力

中图分类号：ＴＰｌ８３文献标志码：Ａ文章编号：１００１—３６９５（２００８）１２－３５２５—０６

Ｒｅｖｉｅｗｏｎｇｅｎｅｒａｌｉｚａｔｉｏｎｐｒｏｂｌｅｍｏｆａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ

ＷＡＮＧＫａｉ“。，ＹＡＮＧＪｕ－ｆｅｎ９４，ＷＡＮＧＬｉ‘，ＳＨＩＧｕａｎｇ—ｓｈｕｎ４，ＷＡＮＧＱｉｎｇ?ｒｅｎ‘

（口．１ｗｔ＃ｕｔｅ旷ＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｂ．ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＵｒｂａｎＡｍｂｉｅｎｔＡｉｒＰａｒｔｉｃｕｌａｔｅＭａｔｔｅｒＰｏｌｌｕｔｉｏｎＰｒｅｖｅｎｔｉｏｎ＆Ｃｏｎｔｒｏｌ，ＮａｎｋａｉＵｎｉｖｅｒｓｂｔｙ，Ｔｉａｎｊｉｎ３０００７１，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｈｉｓｐａｐｅｒｒｅｖｉｅｗｅｄｐｒｅｖｉｏｕｓｗｏｒｋｓｆｒｏｍｓｕｃｈａｓｐｅｃｔｓａｓｔｈｅｏｒｙ，ｍｅｔｈｏｄ（ｉｄｅａ）ａｎｄｔｅｃｈｎｉｑｕｅ，ａｎｄｄｉｓｃｕｓｓｅｄｔｈｅｍｏｄｅｌｃｏｍｐｌｅｘｉｔ），，ｔｈｅｓａｍｐｌｅｃｏｍｐｌｅｘｉｔｙａｎｄｔｈｅｉｒｒｅｌａｔｉｏｎｓｈｉｐ。ＰｏｉｎｔｅｄｏｕｔｔｈａｔｔｈｅｇｅｎｅｒａｌｉｚａｔｉｏｎｏｆｎｅｕｒＭｎｅｔｗｏｒｋｃｏｕｌｄｂｅｉｍｐｒｏｖｅｄｔｏａｃｅｒｔａｉｎｅｘｔｅｎｔｂｙｃｏｎｔｒｏｌｌｉｎｇｔｈｅｍｏｄｅｌｃｏｍｐｌｅｘｉｔｙｏｒａｄｊｕｓｔｉｎｇｓａｍｐｌｅ，ｈｕｔｔｈｅｒｅＷｅｒｅｓｔｉｌｌｓｏｍｅｐｒａｃｔｉｃａｌｐｒｏｂ－ｌｅｍｓｔｏｂｅｒｅｓｏｌｖｅｄ．Ａｔｔｈｅｅｎｄｏｆｔｈｉｓｐａｐｅｒ，ｐｒｅｓｅｎｔｅｄｔｈｅｐｒｏｓｐｅｃｔｆｏｒｆｕｒｔｈｅｒｒｅｓｅａｒｃｈ．

Ｋｅｙｗｏｒｄｓ：ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ（ＡＮＮ）；ｇｅｎｅｒａｌｉｚａｔｉｏｎｐｒｏｂｌｅｍ；ｇｅｎｅｒａｌｉｚａｔｉｏｎａｂｉｌｉｔｙ

人工神经网络（ＡＮＮ）是从功能、结构和运作方式三个方面模拟大脑而形成的系统。从功能上来看，ＡＮＮ具备学习功能、记忆功能和实践功能。学习功能使ＡＮＮ能够从周围环境中获取知识；记忆功能使ＡＮＮ能够存储获取到的知识；实践功能使ＡＮＮ能够利用现有知识指导机器处理实际问题。从结构上来看，ＡＮＮ的基本构成单元是类似于生物神经元的简单处理单元（称做人工神经元，简称神经元），它是一个多输入、单输出的线性或非线性元件。ＡＮＮ由大量神经元通过单向信号通道相互连接而成，利用神经元之间的连接强度（称做连接权重）以分布式方式存储知识，ＡＮＮ的具体结构决定了ＡＮＮ的学习能力和实践能力。从运作方式上来看，ＡＮＮ采用并行处理方式，可以进行快速计算。ＡＮＮ以其独特的结构和处理信息的方法，在自动控制、处理组合优化问题、模式识别、图像处理、传感器信号处理、机器人控制、信号处理、卫生保健、医疗、经济、化工、焊接、地理、数据挖掘、电力系统、交通、军事、矿业、农业和气象等许多实际应用领域中展现出了卓越性能。

一般意义上的机器学习过程是一个从有限的输入一输出样本集｛（置，ｄ；）｝恢复未知的输入一输出函数关系Ｙ＝八茗）的求逆过程。而现实中的问题由于往往不具有Ｈａｄａｍａｒｄ意义下的存在性、单一性及连续性（或称稳定性）…，是一个不适定（或称病态，即ｉｌｌ－ｐｏｓｅｄ）问题，即从一组训练集中可以重建无数个解。在处理这种问题的时候往往遵循Ｏｃｋｈａｍ’ｓＲａｚｏｒ原则（如无必要，勿增实体），选择能够满足一定正确性的最简单的解。

作为一种非参数模型，ＡＮＮ的一切信息只来自于训练集，其训练的结果也就更加不稳定，极容易产生泛化问题，出现过拟合（过学习、过训练）的现象，降低泛化能力。因此就如何避免泛化问题，研究者们展开了大量的研究。

１理论研究

ＡＮＮ的学习过程可以由偏差／方差分解说明嵋１，其损失函数可以分解为三部分，即汐（妒）＝ｂ［（ｄ一，（菇））２］／２＋（ｂｉａｓ２＋ｖａｔ）／２。其中，第一部分与学习过程无关，由样本集自身决定；ｂｉａｓ项表征了ＡＮＮ结构所能表示的函数集对未知函数的拟合能力，由网络复杂性决定；ｖａｒ项表征了样本集包含的关于未知函数的信息，由样本集复杂性和网络复杂性共同决定。根据偏差一方差分解理论，随着网络复杂性（与网络结构和可调权重规模有关）的增大，网络可以更好地拟合训练样本，得到更小的偏差，然而这可能会导致更高的方差。在实际应用中，偏差一方差分解理论表现为随着网络复杂性的增加，泛化误差（测试集上的误差率）与训练误差（训练集上的误差率）的变化趋势分为三个阶段：ａ）训练误差和泛化误差单调下降；ｂ）训练误差单调下降，而泛化误差变化比较复杂，此阶段网络泛化能力达到最强；ｃ）训练误差单调下降，而泛化误差单调上升，泛化能力逐渐减弱，此阶段出现过拟合现象。文献

收稿日期：２００８?０３—１４；修回日期：２００８?０５－２９基金项目：国家“８６３”计划资助项目（２００６ＡＡ０６２２２）；天津市自然科学基金资助项目（０５ＹＦＪＭＪＣＯｌ５００）

作者简介：王恺（１９７９－），男，天津人，讲师，博士，主要研究方向为人工神经网络、模式识别、图像处理、空气污染防治（ｗａ，ｃ，ｋａｉ—ｎｋｉｍｉ＠ｙａｈｏｏ．ｏＤＩｎ．ｃｎ）；杨巨峰（１９８０一），男，博士研究生，主要研究方向为模式识ｊ日、Ｗｅｂ信息检索等；王立（１９８０．），男。博士研究生，主要研究方向为人工神经网络、模式识别、信号处理等；史广顺（１９７８?），男，副教授，博士，主要研究方向为人工神经网络、图像处理、软件开发技术、自然语言理解：王庆人（１９４４．），男，教授。博导，主要研究方向为人工神经网络、文档图像处理、机器人学、计算机博弈、软件开发技术．

　万方数据