矩阵论在神经网络中的应用详解

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

矩阵论论文

论文题目:矩阵微分在BP神经网络中的应用

姓名: 崔义新

学号: 20140830

院(系、部): 数学与信息技术学院

专业: 数学

班级: 2014级数学研究生

导师: 花强

完成时间: 2015 年 6 月

摘要

矩阵微分是矩阵论中的一部分,是实数微分的扩展和推广.因此,矩阵微分具有与实数微分的相类似定义与性质.矩阵微分作为矩阵论中的基础部分,在许多领域都有应用,如矩阵函数求解,神经网络等等.

BP网络,即反向传播网络(Back-Propagation Network)是一种多层前向反馈神经网络,它是将W-H学习规则一般化,对非线性可微分函数进行权值训练的多层网络. 它使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小.在其向前传播的过程中利用了矩阵的乘法原理,反传的过程中则是利用最速下降法,即沿着误差性能函数的负梯度方向进行,因此利用了矩阵微分.

关键词:矩阵微分;BP神经网络;

前 言

矩阵微分(Matrix Differential)也称矩阵求导(Matrix Derivative),在机器学习、图像处理、

最优化等领域的公式推导过程中经常用到.本文将对各种形式下的矩阵微分进行详细的推导.

BP (Back Propagation )神经网络是1986年由Rumelhart 和McCelland 为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一.BP 网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程.它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小.BP 神经网络模型拓扑结构包括输入层(input )、隐层(hiddenlayer)和输出层(outputlayer).

BP (Back Propagation)神经网络,即误差反传误差反向传播算法的学习过程,由信息的正向传播和误差的反向传播两个过程组成.输入层各神经元负责接收来自外界的输入信息,并传递给中间层各神经元;中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层可以设计为单隐层或者多隐层结构;最后一个隐层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果.当实际输出与期望输出不符时,进入 误差的反向传播阶段. 误差通过输出层,按误差梯度下降的方式修正各层权值,向隐层、输入层逐层反传.周而复始的信息正向传播和 误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止.

1 矩阵的微分

1.1 相对于向量的微分的定义

定义1 对于n 维向量函数,设函数 12 ()(,,,)n f f x x x =X 是以向量X 为自变量的

数量函数,即以n 个变量 x i 为自变量的数量函数.

我们将列向量 1n f x f x ∂⎡⎤⎢⎥∂⎢⎥

⎢⎥⎢⎥∂⎢⎥⎢⎥∂⎣⎦

叫做数量函数f 对列向量X 的导数,

记作

1n f x df

f f d f x ∂⎡⎤

⎢⎥∂⎢⎥= = =∇⎢⎥⎢⎥

∂⎢⎥⎢⎥∂⎣⎦

grad X

12T n df f f f d x x x ⎡⎤

∂∂∂=⎢

⎥∂∂∂⎣⎦

X (1.1)

例1.求函数22

2

12 ()T n

f x x x =++

+X X X = 对X 的导数 解:根据定义

1112222n n n f x x x df d f x x x ∂⎡⎤

⎢⎥∂⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥= = = =⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥∂⎣⎦

⎣⎦⎢⎥⎢⎥∂⎣⎦

X X 即 ()2T d d =X X X X 1.2相对于矩阵的微分的定义

定义2设函数()f f =A 是以P×m 矩阵A 的P×m 元素i j a 为自变量的数量函数,简称以矩阵A 为自变量的数量函数.例如

()()[]()32

111211212223112122

111211112122111T

f a a a a a a a a a a a a a f a a =+++++++⎛⎫⎛⎫= ==

⎪⎪ ⎝⎭⎝⎭

a A a A 1112

2122

a a a a ⎛⎫ ⎪⎝⎭A =

定义:P×m 矩阵

1111()

m i j p m

p p m f f a a f d f a d f f a a ⎛⎫

∂∂

⎪∂∂ ⎪⎡⎤∂ ⎪==

⎢⎥∂ ⎪⎢⎥⎣⎦∂∂ ⎪ ⎪∂∂⎝

A A (1.2) 称为数量函数f 对矩阵A 的导数,记作

()

d f d A A

.

例2:求()T f A =X AX 对矩阵A 的导数,其中向量X 是定常的,A 是对称的.

解:[]1111222

121111212122122221222()x a a f x x x a x x a x x a x a a a x ⎡⎤⎛⎫ =+++ ⎪⎢⎥⎝⎭⎣⎦A =

根据定义有

[]211

121121122212221

22()T f f a a x x x x df x x f f x d x x x a a ∂∂⎛⎫

⎪⎡⎤∂∂ ⎡⎤ ⎪== =⎢⎥⎢⎥ ⎪∂∂ ⎢⎥⎣⎦⎣⎦ ⎪∂∂⎝⎭

A =XX A

()=T d

d T X A X X X A

相关文档
最新文档