神经网络期末报告
神经网络报告

神经网络报告信计12 徐文豪模拟人大脑的运作方式建立模型去解决实际问题,提出第一个人工神经元模型的McCulloch 和Pitts 真是天才。
神经网络发展到现在功能已经非常强大,在模式识别、回归拟合和优化等方面都有着广泛的应用。
这篇报告较全面地介绍了几个神经网络分支的应用,但由于时间关系,实现主要是调用matlab 库和台湾林智仁教授的libsvm ,只有极少部分是自己的思路,这是一个遗憾,因为要深刻理解神经网络应该要实现理论的算法而不是熟悉调用方式。
1.多层前向网络字符识别Matlab 中prprob 用26个35维的向量存储了26个英文字母的形状信息(将每个字母看成75⨯的二值矩阵),字符识别所要解决的问题就是当这些字母向量加了一定的噪声之后,怎么判断加噪向量原本属于哪个字母。
1.1 多层前向网络简介简单来说多层前向网络可以用一个等式表示()()()(1)()()l l l l l Y f W Y θ-=- (1)其中()k Y 表示第l 层的输出,()l W 表示第l 层相对于第1l -层的权系数矩阵,()l θ表示第l 层的阈值向量,()l f 表示第l 层的激活函数。
从等式(1)可以看出,只要确定了各层的权系数矩阵和阈值向量,则整个多层前向网络就确定了。
因而,所谓用样本数据训练网络就是根据学习算法用样本输入输出确定W 和θ。
普遍使用的多层前向网络学习算法是由.D Rumelhart 于1986年提出的反向传播算法(Back Propagation Algorithm),即BP 算法。
为了便于算法的叙述,先假设网络层数为L ,即输入层为0层,输出层为L 层, 并定义第l 层相对于()l f 的净输入()l V 为()()(1)()l l l l V W Y θ-=-(2)设{(),()}x k t k 为第k 个训练样本,()y k 为网络对应于()x k 的实际输出定义平方误差(,)k F w θ为2()()k F t k y k =-(3)定义k F 对于()l V 的矩阵变量求导()l δ为()()(,)l k l F w Vθδ∂=∂ (4)设第l 层的神经元个数为l S 个。
神经网络 实验报告

神经网络实验报告神经网络实验报告引言:神经网络是一种模仿人脑神经元网络结构和功能的计算模型,它通过学习和训练来实现模式识别、分类和预测等任务。
本次实验旨在探索神经网络的基本原理和应用,并通过实践验证其效果。
一、神经网络的基本原理1.1 神经元模型神经元是神经网络的基本单元,它接收来自其他神经元的输入信号,并通过激活函数进行处理后输出。
我们采用的是Sigmoid函数作为激活函数,它能够将输入信号映射到0到1之间的值。
1.2 神经网络结构神经网络由输入层、隐藏层和输出层组成。
输入层接收外部输入的数据,隐藏层用于处理和提取特征,输出层给出最终的预测结果。
隐藏层的数量和每层神经元的数量是根据具体问题而定的。
1.3 反向传播算法反向传播算法是神经网络中最常用的训练算法,它通过计算误差和调整权重来不断优化网络的预测能力。
具体而言,它首先进行前向传播计算得到预测结果,然后计算误差,并通过链式法则将误差反向传播到每个神经元,最后根据误差调整权重。
二、实验设计2.1 数据集选择本次实验选择了一个手写数字识别的数据集,其中包含了大量的手写数字图片和对应的标签。
这个数据集是一个经典的机器学习数据集,可以用来评估神经网络的分类能力。
2.2 神经网络参数设置为了探究神经网络的性能和泛化能力,我们设置了不同的参数组合进行实验。
主要包括隐藏层数量、每层神经元数量、学习率和训练轮数等。
2.3 实验步骤首先,我们将数据集进行预处理,包括数据归一化和标签编码等。
然后,将数据集划分为训练集和测试集,用于训练和评估网络的性能。
接下来,根据不同的参数组合构建神经网络,并使用反向传播算法进行训练。
最后,通过测试集评估网络的分类准确率和损失函数值。
三、实验结果与分析3.1 参数优化我们通过对不同参数组合的实验进行比较,找到了在手写数字识别任务上表现最好的参数组合。
具体而言,我们发现增加隐藏层数量和神经元数量可以提高网络的分类准确率,但同时也会增加训练时间。
《神经网络》课程学习总结报告

《神经网络》课程学习总结报告李浩程柏林一、工作说明:程柏林和李浩讲授的内容是“双向异联想网络(BAM)”。
其中,1.程柏林完成的工作有:双向异联想网络(BAM)基本概念、网络结构及工作原理、学习规则等基本理论的介绍,以及用BAM网络实现对字符的识别程序仿真和介绍。
程序附后。
2.李浩完成的工作有双向异联想网络(BAM)应用举例、双向异联想网络(BAM)仿真及其说明、问题的讨论及解答。
程序附后。
二、未解决的问题:用外积和法设计的权矩阵,不能保证p对模式全部正确的联想。
若对记忆模式对加以限制(即要求p个记忆模式X k是两两正交的),则用外积和法设计的BAM网具有较好的联想能力。
在难以保证要识别的样本(或记忆模式)是正交的情况下,如何求权矩阵,并保证具有较好的联想能力?这个问题在用BAM网络实现对字符的识别程序仿真中得到体现。
我们做过尝试,用伪逆法求权矩阵,虽然能对未加干扰的字符全部进行识别,但对加有噪声的字符识别效果很差。
至于采用改变结构和其他算法的方法来求权矩阵,将是下一步要做的工作。
三、建议1.关于本课程的学习:我们认为教员的这种教学方式比较好,避免了为考试而学的观念,更多地考虑到学生学习的自主性,调动了学生的学习兴趣和积极性,并且培养了学生之间的协作精神。
另外对于第二阶段的学习,我们的感觉是:除了自己要讲授的内容外,其他学生所讲的内容自己学习得不好,不知其他学生的感觉如何?所以如何让一个人不仅对自己所讲的内容搞熟以外,对其他人讲的内容也要达到这个效果,这将是教员和学员实施这种教学方法下一步要考虑的问题之一。
建议:运用神经网络解决与所学专业如信号处理,模式识别等问题非常多,但从某些参考文献上看,涉及理论的较多,而从应用(具体地说用程序仿真实现的过程)上介绍较少,这就留给教员和学员(尤其是学员)一个探讨的领域,能否先由教员选择一些具体问题供学员参考,结合个人兴趣,分组实施。
2.对自己或他人的建议为了要讲好自己要讲的内容,所花费在这方面的时间就多些,并且对自己要讲的内容研究得透彻一些,如果把同样的时间和钻研的精神用在所有内容的学习上,我们想任何一门课程都应该学得更好一些。
神经网络技术报告

神经网络技术报告在当今科技飞速发展的时代,神经网络技术已经成为了一个备受关注的热门领域。
它在图像识别、语音处理、自然语言处理等众多领域都取得了显著的成果,为人类的生活和工作带来了极大的便利。
神经网络,简单来说,就是一种模仿人类大脑神经元网络结构和工作方式的计算模型。
它由大量的节点(也称为神经元)相互连接而成,通过对输入数据的处理和学习,能够自动提取特征、识别模式,并进行预测和决策。
神经网络的发展可以追溯到上世纪 40 年代,但其真正的崛起是在近年来计算机性能大幅提升和数据量急剧增加的背景下。
早期的神经网络模型相对简单,处理能力有限。
随着技术的不断进步,出现了多层神经网络,也就是我们常说的深度神经网络,其性能得到了极大的提升。
在神经网络的工作原理方面,它主要通过神经元之间的连接权重来对输入数据进行处理。
这些权重会在训练过程中不断调整,以使得网络的输出结果尽可能地接近预期的目标。
训练神经网络的过程就像是教一个孩子学习知识,通过不断地给它展示例子,并告诉它对错,它逐渐学会了如何正确地处理新的输入。
神经网络的类型多种多样,常见的有前馈神经网络、反馈神经网络和卷积神经网络等。
前馈神经网络是最简单的一种,数据从输入层经过中间的隐藏层,最终到达输出层,整个过程是单向的。
反馈神经网络则引入了反馈机制,使得网络能够处理具有时间序列特征的数据。
卷积神经网络则在图像处理领域表现出色,它通过卷积操作能够有效地提取图像的特征。
神经网络技术的应用广泛且深入。
在图像识别领域,它能够准确地识别出各种物体、人物和场景,为安防监控、自动驾驶等提供了关键的技术支持。
在语音处理方面,能够实现语音识别、语音合成等功能,让人们与计算机的交互更加自然和便捷。
自然语言处理也是神经网络的重要应用领域,它可以进行文本分类、情感分析、机器翻译等任务,大大提高了人们获取和处理信息的效率。
然而,神经网络技术也并非完美无缺。
其中一个重要的问题就是过拟合。
神经网络学习报告

神经网络学习报告——人工智能与神经网络的区别与联系(学位课)姓名:***学号:**********班级:研2-103导师:***人工智能与神经网络的区别与联系摘要:报告主要介绍了人工智能和神经网络的概念、历史、应用情况和发展方向,并比较了人工智能和神经网络,指出了它们的区别和联系。
报告最后对人工智能和神经网络未来做了一番点评。
关键词:人工智能人工神经网络并行分布处理Abstract:This article outline elaboration artificial intelligence(AI) and Artificial Neural Network(ANN)concept,development history,current research hot spot and practical application as well as future development tendency. the article compares the AI and ANN, points out the differences and relations between them. At last, this paper gives some presentation about the prospects of AI and ANN in the future.Keyword: Artificial Intelligence; Artificial Neural Network; paralleled distributed processing1 引言人类在很多方面已经成功的用机器来完成繁重和重复的体力工作,但人们也一直没有放弃让机器具有人类思维能力的努力。
电子计算机的出现,使这种梦想有了某些实现的可能性,特别是人工智能(Artificial Intelligence)技术的出现,使得人们又向思维机器的研究方向迈进了一步。
神经网络报告

神经网络实验报告一:算法描述:一)多层网络中的反向传播学习算法第一步:读取数据,先打开文件,然后依次读取行,用‘,’来分割此行,取出这行的65个数字,读取训练数据完毕。
其中部分(rawStr(lineCounter,1:65)=str2double(splitResult);)使用矩阵操作优化程序第二步:初始化神经网络,使矩阵的的值处在-0.5-0.5之间(以下为权值的部分截图)以下为初始化部分代码截图第三步:训练神经网络,也是本程序的核心。
以下是多层网络中的反向传播学习算法我们把这一部分分成4个步骤1)将结果值传递至隐层2)结果值传递至结果层3)将误差反向传递至隐层4)将误差反向传递至输入层这个算法的背后的思想是调整网络的权值,使得训练集的误差最小,其中我们使用了经典的误差度量方法---误差平方和最后将训练结果返回。
二)测试结果的程序测试的过程跟训练原理差不多,有三个步骤。
第一步:读取数据,这一步跟训练的代码没什么区别。
第二步:初始化神经网络,跟训练的程序也没什么变化。
第三步:对神经网络进行反向传播。
1)将结果值传递至隐层2)将结果值传递至结果层最后将识别的字跟结果对比,经过循环最终可以计算出识别率。
代码如下二,测试经过测试,不停修改隐层节点,学习速率以及误差阀值,最终得到如下几个结论。
1)当学习节点增加的时候,学习时间明显增加,训练的效果也相对好点,但是最终会收敛,本次验证试验大约10个隐节点收敛。
2)学习率的作用是不断调整权值阈值。
此值对训练效果的影响比较大,进过测试,取0.6的效果最好。
3)误差阀值对于结果的影响并没有那么大,也许是取值在0.01以下都可以吧。
4)我们的测试结果当取(70,0.5,0.0001)时,识别率达到93.94.以下是我们测试结果的部分测试的数据比较多,不在这里一一贴出。
三:问题初始化神经网络的时候,第一次使用了所有权值为0.5的做法,一测,全部数据的结果都为10%左右。
神经网络 读书报告

神经网络读书报告1. 导言神经网络是一种模仿生物神经系统的计算模型,通过对大量数据的学习与训练,能够在特定任务上表现出出色的性能。
本文将介绍神经网络的基本原理、应用领域以及相关的进展与挑战。
2. 神经网络的基本原理神经网络的基本组成单位是神经元,它通过输入信号与权重的加权和,经过激活函数的处理,将结果输出给下一层神经元。
多个神经元相互连接组成了神经网络,其中包括输入层、隐藏层和输出层。
通过反向传播算法,神经网络能够根据预期输出与实际输出的差距,不断调整权重和偏置,以提高预测准确性。
3. 神经网络的应用领域神经网络在各个领域都有广泛的应用。
以下是几个典型的应用领域:3.1 语音识别神经网络在语音识别中表现出色。
通过对大量语音样本的训练,神经网络能够学习到不同语音特征的表示,并能够准确地将语音信号转化为对应的文字信息。
3.2 图像识别神经网络在图像识别中具有出色的表现。
通过多层卷积神经网络的结构,神经网络能够提取图像的不同特征,并能够准确地分类和识别图像中的物体。
3.3 自然语言处理神经网络在自然语言处理中也有广泛的应用。
通过对大量文本数据的学习,神经网络能够理解自然语言的语义和语法,实现文本分类、情感分析等任务。
4. 神经网络的进展与挑战随着深度学习技术的发展,神经网络在各个领域取得了很大的进展。
然而,神经网络仍然面临一些挑战:4.1 训练样本不足神经网络需要大量的训练样本才能取得好的效果。
在某些领域,获取大量标注样本是非常困难的,这限制了神经网络的应用范围。
4.2 解释性差神经网络通常被视为“黑箱”模型,很难解释其预测结果的原因。
这在某些需要解释性强的领域,如医疗诊断和金融风险评估中,是一个挑战。
4.3 模型复杂性随着神经网络模型的不断发展,模型的复杂性也越来越高。
这给模型的训练和调整带来了挑战,同时也增加了模型的计算成本。
5. 结论神经网络作为一种强大的机器学习模型,在各个领域都有着广泛的应用。
神经网络课程报告

神经网络课程认识本学期我们对人工神经网络进行了学习,在学习的过程中,我们对什么是神经网络,神经网络的发展史,神经网络的特点和功能以及神经网络的应用领域等多方面知识都有所了解。
从开始的对人工神经网络的初步了解到最后模型的建立,我们对人工神经网络的认识不断加深。
神经网络作为自动控制及智能控制专业的一个重要分支,掌握一些与其相关的基础知识对今后的学习会有较大的帮助。
具体的人工神经网络中,我们主要学习了单层感知器、标准BP网络、改进型的BP网络、自组织竞争神经网络以及离散型Hopfield网络(即DHNN 网络)。
其中,我们重点学习了标准型BP网络。
在后面的编程训练中,我们也以标准BP网络为模型,设计了一个较为简单的实际型编程问题。
接下来谈谈具体的学习情况:在学习的过程中,我们首先学习了什么是人工神经网络。
这是一个非线性动力学系统,其特色在于信息的分布式存储和并行协同处理。
虽然单个神经元的结构极其简单,功能有限,但大量神经元构成的网络系统所能实现的行为却是极其丰富多彩的。
以数学和物理的方法以及信息处理的角度对人脑神经网络进行抽象,并建立某种简化的模型就是人工神经网络。
人工神经网络远不是人脑生物神经网络的真实写照,而只是对它的简化,抽象与模拟。
揭示人脑的奥妙不仅需要各学科的交叉和各领域专家的协作,还需要测试手段的进一步发展。
目前已经提出了上百种的神经网络模型,这种简化模型能放映出人脑的许多基本特征。
综合人工神经网络的来源,特点及各种解释,可以简单的表述为:人工神经网络是一种旨在模仿人脑结构及其功能的脑式智能信息处理系统。
神经网络的研究可以追溯到19世纪末期,其发展可分为启蒙时期,低潮时期,复兴时期及新时期四个阶段。
人工神经网络是基于对人脑组织结构,活动机制的初步认识提出的一种新型信息处理体系。
人工神经网络具有人脑的一些基本功能,也有其自身的一些特点。
结构特点:信息处理的并行性,信息储存的分布性,信息处理单元的互连性,结构的可塑性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学习报告——基于信息论的神经网络模型专业:计算数学班级:数学二班学号:*********姓名:***本报告主要分为两个部分,第一部分主要是对神经网络做一个整体的论述,阐述神经元的模型基理和特点,第二部分则是利用信息论的知识来研究神经元信号传递过程中,在有外界噪声的干扰下,如何保证信息最终能够达到最大输出。
第三部分列举了一个拟合图像的算例,用于对比不同算法对噪声的敏感程度。
1 神经网络概述1.1人工神经网络的概念人工神经网络(Artificial Neural Networks,ANNs),是人脑或自然神经网络对信息感知与处理等智能行为的抽象和模拟,是一种分布式并行处理系统,它具有自组织、自学习、自适应和非线性动态处理的特性。
可以实现人脑的概括、类比和推广能力,因而可以从大量数据中提取所需要的信息,通过联想记忆和推理等能力来获取所需要的数据。
目前,已经开发和应用的神经网络有30多种,比较典型的有以下几种:感知器(Perceptron),多层感知器(MLP),BP前向网络,Hopfield网络和竞争型(Kohonen)神经网络。
可以说人工神经网络就是模拟人思维的第二种方式。
1.2 人工神经网络的工作原理及特点人工神经网络是由大量的简单基本元件——神经元相互联接而成的自适应非线性动态系统。
每个神经元的结构和功能比较简单,但大量神经元组合产生的系统行为却非常复杂。
人工神经网络首先要以一定的学习准则进行学习,然后才能工作,它反映了人脑功能的若干基本特性,但并非生物系统的逼真描述,只是某种模仿、简化和抽象。
与数字计算机比较,人工神经网络在构成原理和功能特点等方面更加接近人脑,它不是按给定的程序一步一步地执行运算,而是能够自身适应环境、总结规律、完成某种运算、识别和过程控制。
人工神经网络吸取了生物神经网络的许多优点,因而有其固有的特点:(1)高度的并行性人工神经网络由许多相同的简单处理单元并列组合而成,虽然每个单元的结构和功能比较简单,但大量简单处理单元的并行行动,使其对信息的处理能力与效果惊人。
(2)高度的非线性全局作用当对系统对于设计人员来说,很透彻或者很清楚时,则一般利用数值分析,偏微分方程等数学工具建立精确的数学模型,但当对系统很复杂,或者系统未知,系统信息量很少时,建立精确的数学模型很困难时,神经网络的非线性映射能力则表现出优势,因为它不需要对系统进行透彻的了解,但是同时能达到输入与输出的映射关系,这就大大简化设计的难度。
(3)良好的容错性与联想记忆能力人工神经网络通过自身的网络结构能够实现对信息的记忆,所记忆的信息存储在神经元之间的权值中。
从单个权值中看不出所存储的信息内容,因而是分布式的存储方式。
这使得网络具有良好的容错性,并能进行聚类分析、特征提取、等模式信息处理工作:又宜于做模式分类、模式联想等模式识别工作。
(4)十分强的自适应、自学习功能人工神经网络可以通过训练和学习来获得网络的权值和结构,呈现出很强的自学习能力和对环境的自适应能力。
1.3人工神经元模型作为NN的基本单元的神经元模型,它有三个基本要素:(1)一组连接(对应于生物神经元的突触),连接强度由各连接上的权值来表示,权值为正表示激活,为负表示抑制。
(2)一个求和单元,用于求取各输入信号的加权和(线性组合)。
(3)一个非线性激活函数,起非线性映射作用并将神经元输出幅度限制在一定范围内(一般限制在(0,1)或(-1,1)之间)。
,如图1所示此外还有一个阈值k输入信号连接权阈值1x 2x px ky 图1 基本神经元模型图形中的各个作用可用数学式子表示:1,,()pk kj j k k k k k k j u w x v net u y v θϕ====-=∑式中12,,,p x x x 为输入信号,12,,,k k kpw w w 为神经元的权值,k u 为线性组合结果,k θ为阈值,()ϕ⋅为激活函数,k y 为神经元的输出。
2 基于信息论的神经网络模型2.1信息论简介信息论是通信的数学基础,它是随着通信技术的发展而形成和发展起来的一门新兴横断学科。
信息论创立标志是1948年Claude Shannon(香农)发表论文“A Mathematical Theory of Communication ”。
在这篇文章中香农创造性的采用概率论的方法来研究通信中的问题,并且对信息给予了科学的定量描述,第一次提出了信息熵的概念。
1928年,哈特莱(Hartley)首先提出了用对数度量信息的概念。
一个消息所含有的信息量用它的可能值的个数的对数来表示。
信息的度量方式主要有以下几种:1.自信息:一个事件(消息)本身所包含的信息量,它是由事件的不确定性决定的。
随机事件的自信息量()i I x 是该事件发生概率()i p x 的函数,并且应该满足以下公理化条件:(1)()i I x 是()i p x 的严格递减函数。
即概率越小,事件发生的不确定性越大,事件发生后所包含的自信息量越大。
(2)极限情况下当()0i p x =时,()i I x →∞;当()1i p x =时,()0i I x =。
(3)另外,从直观概念上讲,由两个相对独立的不同的消息所提供的 信息量应等于它们分别提供的信息量之和。
可以证明,满足以上公理化条件的函数形式是对数形式。
2.平均自信息(信息熵):随机变量X 的每一个可能取值的自信息()i I x 的统计平均值定义为随机变量X 的平均自信息量:()[()]log Ki k kk K H x E I x P P =-==-∑这里考虑离散随机变量X 从-K 取到+K 间2K+1个可能值,kx x =出现的概率为(),01,1Kk k k kk KP P x x P P=-==≤≤=∑()H x 是一个系统的不确定性的度量(1)当对某一k ,1k P =时,则取其他值的概率均为0,这时完全确定,即为0,(2)当取任何一个值得概率均相等时,不确定性最大,事实上,由柯西不等式()log Kk k k K P P =--≤∑等式成立的条件为,当且仅当1212log log log log KKKKP P P P P P P P ------=====时,等式成立,所以对于2K+1个可能值得随机变量来说0()log(21)H x K ≤≤+3.联合熵、条件熵、平均互信息若有两个随机变量x ,y ,它们的离散分布分别是,x y P P ,二者的联合分布为xy P ,则有联合熵和条件熵,,(,)log ,(|)log(,)()xy xy xy xy x yx yyP H x y P P H x y P H x y H y P =-=-=-∑∑其中条件熵表示观测到输出y 后输入x 中剩余的不确定性大小,由于信息熵是观 测到y 以前x 中的不确定性,所以条件熵满足0(|)()H x y H x ≤≤它们的二者之差就是x 与y 间的平均互信息,表示为(,)()(|)I x y H x H x y =-(,)H x y()H x ()H y 图2 互信息与条件熵的关系由图2可知(,)I x y 有如下性质: (1)对称性:(,)(,)I x y I y x =, (2)非负性:(,)0I x y ≥,(3)(,)()(|)()(|)I x y H y H y x H x H x y =-=-。
4.连续信源的微分熵(差熵)当x 为连续变量时,设其分布密度为()f x ,则可定义()()log ()h x f x f x dx+∞-∞=-⎰称为微分熵,它虽然已不能代表连续信源的平均不确定性,也不能代表连续信源输出的信息量,但依然满足可加性。
当x 为多维变量时,即用向量表示,()f x 为联合分布密度,则()()log ()h x f x f x dx+∞-∞=-⎰下面讨论最大微分熵问题: 求满足约束条件 ()1f x dx +∞-∞=⎰ 22()()x f x dx μσ+∞-∞-=⎰的分布密度()f x ,使得其微分熵达最大,其中μ为均值,2σ为方差。
根据拉格朗日乘数法可知,只有当积分 212()log ()()()()f x f x f x x f x dx λλμ+∞-∞⎡⎤-++-⎣⎦⎰为稳定时,微分熵达最大,即上述积分中的被积函数 212()log ()()()()f x f x f x x f x λλμ-++-对()f x 求导为零时,()h x 最大,所以求导得2121()log ()x f x λλμ-++-=对上式取自然对数,则其解为 2121()()x f x e λλμ-++-=将其代入约束条件得2111ln(2)2λπσ=-2212λσ=-所以22()2()x f x μσ--=可见这是一个正态分布,此时随机变量x 的微分熵为22()222()()2x x h x dx μσμσ--+∞-∞⎧⎫⎡⎤-⎪=--⎬⎢⎥⎣⎦⎪⎭⎰2222()()22221()2x x dx x dx μμσσμσ----+∞+∞-∞-∞=⋅+-⎰⎰22211ln(2)22πσσσ=+⋅211ln(2)2πσ⎡⎤=+⎣⎦ (2.1)2.2单个神经元受噪声干扰神经网络的一个最终目的是使得输入信号最大程度的从输出端输出,尽量减少传输过程中的信息损失,即使得当有噪声是x 与y 间的互信息最大,这就是所谓的信息最大保持原则,而且最大信息保持原则与学习规则无关,它可以看作是信息论中信道容量这一概念在神经网络中的体现,即对于固定的信道,总存在一种信源(某种输入概率分布),使信道平均传输一个符号接收端获得的信息量最大,也就是说对于每个固定信道都有一个最大的信息传输率,这个最大的信息传输率即为信道容量。
设输入x 是L 维的,单个神经元受噪声干扰时,输出为1Li i i y w x v==+∑ (2.2)其中v 为噪声,假定v 为高斯随机变量,方差为2v σ,均值为0。
输出y 也是高斯分布的随机变量,方差为2y σ,且噪声与输入不相关,即 [],0i i E vx ∀= 按照互信息的定义有(,)()(|)I y x h y h y x =- (2.3)从(2.2)可见,给定输入向量x 下y 的分布相当于一个常数叠加上一个高斯分布的随机变量v ,因此,条件熵是输出中所含有关v 的信息(而不是x 的),于是有(|)()h y x h v =(2.3)式变为(|)()()I y x h y h v =-由(2.1)式知21()1ln(2)2y h y πσ⎡⎤=+⎣⎦ 21()1ln(2)2v h v πσ⎡⎤=+⎣⎦ 所以221(|)ln 2y v I y x σσ⎛⎫= ⎪⎪⎝⎭其中比值22yv σσ可看作是输出的信噪比,此时,当噪声方差2v σ一定时,使输出方差2yσ达到最大即可,换句话说,这就相当于使平均互信息(,)I y x 最大,因此,在一定条件下,使单个神经元的输出的方差最大就能使输入与输出间的互信息最大,从而使得信息得以最多输出。