人工神经网络泛化问题研究综述

第25卷第12期2008年12月

计算机应用研究

ApplicationResearchofComputem

V01.25No.12

Dec.2008人-r-,,经网络泛化问题研究综述木

王恺8’6,杨巨峰8,王立4,史广顺8,王庆人8

(南开大学a.机器智能研究所;b.国家环境保护城市空气颗粒物污染防治重点实验室,天津300071)

摘要:从理论、方法(思想)和技术三个层次回顾了以往工作,讨论了模型复杂度、样本复杂度及两者之间关系的相关研究;在实际中,通过控制模型复杂度、调整样本等具体技术可以在一定程度上提高神经网络的泛化能力,但这些技术仍然存在一些问题没有解决。最后提出了对今后研究的展望。

关键词:人工神经网络;泛化问题;泛化能力

中图分类号:TPl83文献标志码:A文章编号:1001—3695(2008)12-3525—06

Reviewongeneralizationproblemofartificialneuralnetwork

WANGKai“。,YANGJu-fen94,WANGLi‘,SHIGuang—shun4,WANGQing?ren‘

(口.1wt#ute旷MachineIntelligence,b.KeyLaboratoryofUrbanAmbientAirParticulateMatterPollutionPrevention&Control,NankaiUniversbty,Tianjin300071,China)

Abstract:Thispaperreviewedpreviousworksfromsuchaspectsastheory,method(idea)andtechnique,anddiscussedthemodelcomplexit),,thesamplecomplexityandtheirrelationship。PointedoutthatthegeneralizationofneurMnetworkcouldbeimprovedtoacertainextentbycontrollingthemodelcomplexityoradjustingsample,hutthereWerestillsomepracticalprob-lemstoberesolved.Attheendofthispaper,presentedtheprospectforfurtherresearch.

Keywords:artificialneuralnetwork(ANN);generalizationproblem;generalizationability

人工神经网络(ANN)是从功能、结构和运作方式三个方面模拟大脑而形成的系统。从功能上来看,ANN具备学习功能、记忆功能和实践功能。学习功能使ANN能够从周围环境中获取知识;记忆功能使ANN能够存储获取到的知识;实践功能使ANN能够利用现有知识指导机器处理实际问题。从结构上来看,ANN的基本构成单元是类似于生物神经元的简单处理单元(称做人工神经元,简称神经元),它是一个多输入、单输出的线性或非线性元件。ANN由大量神经元通过单向信号通道相互连接而成,利用神经元之间的连接强度(称做连接权重)以分布式方式存储知识,ANN的具体结构决定了ANN的学习能力和实践能力。从运作方式上来看,ANN采用并行处理方式,可以进行快速计算。ANN以其独特的结构和处理信息的方法,在自动控制、处理组合优化问题、模式识别、图像处理、传感器信号处理、机器人控制、信号处理、卫生保健、医疗、经济、化工、焊接、地理、数据挖掘、电力系统、交通、军事、矿业、农业和气象等许多实际应用领域中展现出了卓越性能。

一般意义上的机器学习过程是一个从有限的输入一输出样本集{(置,d;)}恢复未知的输入一输出函数关系Y=八茗)的求逆过程。而现实中的问题由于往往不具有Hadamard意义下的存在性、单一性及连续性(或称稳定性)…,是一个不适定(或称病态,即ill-posed)问题,即从一组训练集中可以重建无数个解。在处理这种问题的时候往往遵循Ockham’sRazor原则(如无必要,勿增实体),选择能够满足一定正确性的最简单的解。

作为一种非参数模型,ANN的一切信息只来自于训练集,其训练的结果也就更加不稳定,极容易产生泛化问题,出现过拟合(过学习、过训练)的现象,降低泛化能力。因此就如何避免泛化问题,研究者们展开了大量的研究。

1理论研究

ANN的学习过程可以由偏差/方差分解说明嵋1,其损失函数可以分解为三部分,即汐(妒)=b[(d一,(菇))2]/2+(bias2+vat)/2。其中,第一部分与学习过程无关,由样本集自身决定;bias项表征了ANN结构所能表示的函数集对未知函数的拟合能力,由网络复杂性决定;var项表征了样本集包含的关于未知函数的信息,由样本集复杂性和网络复杂性共同决定。根据偏差一方差分解理论,随着网络复杂性(与网络结构和可调权重规模有关)的增大,网络可以更好地拟合训练样本,得到更小的偏差,然而这可能会导致更高的方差。在实际应用中,偏差一方差分解理论表现为随着网络复杂性的增加,泛化误差(测试集上的误差率)与训练误差(训练集上的误差率)的变化趋势分为三个阶段:a)训练误差和泛化误差单调下降;b)训练误差单调下降,而泛化误差变化比较复杂,此阶段网络泛化能力达到最强;c)训练误差单调下降,而泛化误差单调上升,泛化能力逐渐减弱,此阶段出现过拟合现象。文献

收稿日期:2008?03—14;修回日期:2008?05-29基金项目:国家“863”计划资助项目(2006AA06222);天津市自然科学基金资助项目(05YFJMJCOl500)

作者简介:王恺(1979-),男,天津人,讲师,博士,主要研究方向为人工神经网络、模式识别、图像处理、空气污染防治(wa,c,kai—nkimi@yahoo.oDIn.cn);杨巨峰(1980一),男,博士研究生,主要研究方向为模式识j日、Web信息检索等;王立(1980.),男。博士研究生,主要研究方向为人工神经网络、模式识别、信号处理等;史广顺(1978?),男,副教授,博士,主要研究方向为人工神经网络、图像处理、软件开发技术、自然语言理解:王庆人(1944.),男,教授。博导,主要研究方向为人工神经网络、文档图像处理、机器人学、计算机博弈、软件开发技术.

 万方数据

相关文档
最新文档