常用矩阵微分公式
矩阵微分方程

定解问题(4.3)的解为 y (1, 0, 0, , 0) x(t ) (1, 0, 0, , 0)e x(0) y0 y0 ' At , 0)e ( n 1) y0
At
(1, 0, 0,
n阶常系数线性非齐次方 程的定解问题: y
(n) (i )
(n) (i )
a1 y
( n 1)
a2 y
(i ) 0
( n2)
an y 0 (4.3)
y (t )
t 0
y , i 0,1,, n 1
令x1 y, x2 y ' x '1 ,
x '1 x2 , x2 ' x3 , x 'n 1 xn ,
x1n (t , t0 ) x11 (t , t0 ) x12 (t , t0 ) x (t , t ) x (t , t ) x ( t , t ) 0 22 0 2n 0 21 xnn (t , t0 ) xn1 (t , t0 ) xn 2 (t , t0 ) dx(t ) 为方程组 A(t ) x (t )的转移矩阵,有时又称它为基本矩阵。 dt 显然 (t0 , t0 ) I n
dx(t ) 性质1 n阶方阵(t , t0 )是方程组 A(t ) x(t )的转移矩阵的 dt dx(t ) A(t ) x(t ) 充要条件是(t , t0 )是定解问题 dt 的解。 x(t ) |t t I n 0
dx(t ) 性质2 设(t , t0 )是方程组 A(t ) x(t )的转移矩阵, dt dx(t ) A(t ) x(t ) 则定解问题 dt x(t ) |t t x(t0 ) 0 的解为x(t ) (t , t0 ) x(t0 )。
常数矩阵微分方程基解矩阵的计算方法

常数矩阵微分方程基解矩阵的计算方法常数矩阵微分方程基解矩阵是指对于一个m阶常系数矩阵微分方程组x′(x)=xx(x),其中x(x)为x的函数,x为常数矩阵,基解矩阵是一组线性无关的解所构成的矩阵。
计算常数矩阵微分方程基解矩阵的方法主要有以下几种:常数变易法、指数矩阵法、特征值法。
一、常数变易法
使用常数变易法求解常数矩阵微分方程基解矩阵的步骤如下:
1.假设基解矩阵为x(x),则存在常数矩阵x,使得
x(x)=xx^xx。
2.对基解矩阵进行求导,并代入微分方程,得到
xxx(x)(x)=xx(x),其中x(x)(x)表示第n阶导数。
3.解出x(x)(x),得到x的表达式。
4.代入x=0时的初始条件,求解得到x的具体值。
5.将x代入基解矩阵的表达式中,得到基解矩阵。
二、指数矩阵法
使用指数矩阵法求解常数矩阵微分方程基解矩阵的步骤如下:
1.求解常数矩阵x的特征值和特征向量。
2.将特征值分别代入指数函数的表达式中,得到特征向量的指数函数形式。
3.将特征向量的指数函数形式构成的矩阵x和其逆矩阵x^(-1)代入基解矩阵的表达式中,得到基解矩阵。
三、特征值法
使用特征值法求解常数矩阵微分方程基解矩阵的步骤如下:
1.求解常数矩阵x的特征值和特征向量。
2.将特征向量的形式代入基解矩阵的表达式中,得到基解矩阵。
在实际计算中,选择哪种方法取决于方程的形式、矩阵的性质和计算的复杂程度。
以上三种方法均可得到常数矩阵微分方程的基解矩阵,计算方法相对较为简单,但对于高阶矩阵微分方程,计算工作量可能较大,需要根据具体情况选择合适的方法。
复矩阵微分

复矩阵微分
复矩阵微分(Differential of Complex Matrix)是对复数矩阵进行微分的过程。
复矩阵是由复数(包括实数和虚数)构成的矩阵。
假设我们有一个复数矩阵A,其元素可以表示为 A = [a_ij],其中a_ij 是复数。
复矩阵微分涉及对每个元素a_ij 进行微分操作。
复矩阵微分的一般规则如下:
1. 常数规则:如果A 是一个常数矩阵,则其微分为零,即dA/dx = 0。
2. 线性规则:如果A 和B 是两个复矩阵,c 是一个复数常数,则有以下线性规则:
- d(cA)/dx = c(dA/dx) (常数乘法规则)
- d(A + B)/dx = dA/dx + dB/dx (加法规则)
3. 乘法规则:如果A 和B 是两个复矩阵,C 是它们的乘积,则有以下乘法规则:
- d(AB)/dx = (dA/dx)B + A(dB/dx)
需要注意的是,对于复矩阵微分,每个元素都需要进行单独的微分操作。
对于实数矩阵的微分,可以将其看作是复矩阵微分的一种特殊情况,其中所有的复数部分都为实数,虚数部分为零。
复矩阵微分在许多领域中都有应用,包括信号处理、通信系统、量子力学等。
它们对于分析复数矩阵的性质和特征,以及解决相关问题非常有用。
矩阵微分方程

t
x(t) eAt x(0) eA(tv)Bu(v)dv
0
定解问题(4.5)的解为
t
y(t) (1,0, ,0)(eAt x(0) eA(tv)Bu(v)dv)
0
例 求常系数线性齐次微分方程组
dy1 (t ) dt
2 y1
2 y2
y3
dy2 (t) dt
y1
y2
y3
dy3 (t) dt
xnm (t0 )
定理 设定解问题为:
dx Ax; dt
x(t) t t0
x(t0 )
(4.1)
其中,x(t)是t的可微函数的n m矩阵,
x(t0 )是n m阶常数矩阵,A是给定的n阶 常数方阵, 则
(1)定解问题(4.1)的解为x(t) eA(tt0 ) x(t0 ), 并且这个解是唯一的;
因此,f ( A) g( A) (et tet )I tet A
1 t
et
t
t
2t 2t 1
2t
t
t
t 1
定解问题的解为y(t) eAt y(0) et
et
3et
T
.
4.2 线性时变系统的状态方程
1. 线性时变系统的转移矩阵
定义 设n阶方阵A(t)在[t0,t1]上连续, x(t)是 n m阶未知矩阵,则称
y1
2 y2
2 y3
y1(0) 1
在初始条件y
(0)
y2
(0)
1
下的解。
y3(0) 3
2 2 1
解
定解问题的解为y
(t
)
e
At
y(0),
其中A
1
1
矩阵微积分基础知识

矩阵微积分基础知识矩阵微积分是微积分的一个重要分支,它将微积分的概念和方法应用于矩阵和向量的运算中。
在矩阵微积分中,我们可以通过对矩阵进行微分和积分来研究矩阵的性质和变化规律。
本文将介绍矩阵微积分的基础知识,包括矩阵的导数、矩阵的积分和矩阵微分方程等内容。
一、矩阵的导数在矩阵微积分中,我们可以定义矩阵的导数。
对于一个矩阵函数f(X),其中X是一个矩阵,我们可以通过对f(X)的每个元素分别求导来得到矩阵的导数。
具体而言,如果f(X)的每个元素都是可导的,那么矩阵f(X)的导数就是一个与f(X)具有相同维度的矩阵,其中每个元素都是对应元素的导数。
例如,对于一个2×2的矩阵X = [x1 x2; x3 x4],我们可以定义一个矩阵函数f(X) = [x1^2 x2^2; x3^2 x4^2]。
那么矩阵f(X)的导数就是一个2×2的矩阵,其中每个元素都是对应元素的导数,即f'(X) = [2x1 2x2; 2x3 2x4]。
二、矩阵的积分与矩阵的导数类似,我们也可以定义矩阵的积分。
对于一个矩阵函数f(X),其中X是一个矩阵,我们可以通过对f(X)的每个元素分别积分来得到矩阵的积分。
具体而言,如果f(X)的每个元素都是可积的,那么矩阵f(X)的积分就是一个与f(X)具有相同维度的矩阵,其中每个元素都是对应元素的积分。
例如,对于一个2×2的矩阵X = [x1 x2; x3 x4],我们可以定义一个矩阵函数f(X) = [∫x1dx1 ∫x2dx2; ∫x3dx3 ∫x4dx4]。
那么矩阵f(X)的积分就是一个2×2的矩阵,其中每个元素都是对应元素的积分,即∫f(X)dX = [∫x1dx1 ∫x2dx2; ∫x3dx3 ∫x4dx4]。
三、矩阵微分方程矩阵微分方程是矩阵微积分中的一个重要概念。
它是描述矩阵函数与其导数之间关系的方程。
一般而言,矩阵微分方程可以分为常微分方程和偏微分方程两种类型。
矩阵微积分

矩阵微积分本文摘译自 Wikipedia。
在数学中,矩阵微积分是多元微积分的一种特殊表达形式。
它以向量或矩阵的形式将单个函数表示为多个变量,或将一个多元函数表示为单个变量,从而可以作为一个整体来处理,大大简化了多元函数极值、微分方程等问题的求解过程。
表示法在本文中,将采用如下所示的表示方法:•$ \mathbf A, \mathbf X, \mathbf Y $ 等:粗体的大写字母,表示一个矩阵;•$ \mathbf a, \mathbf x, \mathbf y $ 等:粗体的小写字母,表示一个向量;•$ a, x, y $ 等:斜体的小写字母,表示一个标量;•$ \mathbf X^T $:表示矩阵 $ \mathbf X $ 的转置;•$ \mathbf X^H $:表示矩阵 $ \mathbf X $ 的共轭转置;•$ | \mathbf X | $:表示方阵 $ \mathbf X $ 的行列式;•$ || \mathbf x || $:表示向量 $ \mathbf x $ 的范数;•$ \mathbf I $:表示单位矩阵。
向量微分向量-标量列向量函数 $ \mathbf y = \begin{bmatrix} y_1 & y_2 & \cdots & y_m \end{bmatrix}^T $ 对标量 $ x $ 的导数称为$ \mathbf y $ 的切向量,可以以分子记法表示为$ \frac{\partial \mathbf y}{\partial x} =\begin{bmatrix}\frac{\partial y_1}{\partial x}\newline \frac{\partial y_2}{\partial x} \newline\vdots \newline \frac{\partial y_m}{\partialx}\end{bmatrix}_{m \times 1} $若以分母记法则可以表示为$ \frac{\partial \mathbf y}{\partial x} =\begin{bmatrix}\frac{\partial y_1}{\partial x} &\frac{\partial y_2}{\partial x} & \cdots &\frac{\partial y_m}{\partial x}\end{bmatrix}_{1 \times m} $标量-向量标量函数 $ y $ 对列向量 $ \mathbf x = \begin{bmatrix} x_1 & x_2 & \cdots & x_n \end{bmatrix}^T $ 的导数可以以分子记法表示为$ \frac{\partial y}{\partial \mathbf x} =\begin{bmatrix}\frac{\partial y}{\partial x_1} &\frac{\partial y}{\partial x_2} & \cdots &\frac{\partial y}{\partial x_n}\end{bmatrix}_{1 \times n} $若以分母记法则可以表示为$ \frac{\partial y}{\partial \mathbf x} =\begin{bmatrix}\frac{\partial y}{\partial x_1}\newline \frac{\partial y}{\partial x_2} \newline\vdots \newline \frac{\partial y}{\partialx_n}\end{bmatrix}_{n \times 1} $向量-向量列向量函数 $ \mathbf y = \begin{bmatrix} y_1 & y_2 & \cdots & y_m \end{bmatrix}^T $ 对列向量 $ \mathbf x = \begin{bmatrix} x_1 & x_2 & \cdots & x_n\end{bmatrix}^T $ 的导数可以以分子记法表示为$ \frac{\partial \mathbf y}{\partial \mathbf x} =\begin{bmatrix}\frac{\partial y_1}{\partial x_1} &\frac{\partial y_1}{\partial x_2} & \cdots &\frac{\partial y_1}{\partial x_n}\newline\frac{\partial y_2}{\partial x_1} &\frac{\partial y_2}{\partial x_2} & \cdots &\frac{\partial y_2}{\partial x_n} \newline\vdots &\vdots & \ddots & \vdots \newline\frac{\partialy_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n}\newline\end{bmatrix}_{m \times n} $若以分母记法则可以表示为$ \frac{\partial \mathbf y}{\partial \mathbf x} =\begin{bmatrix}\frac{\partial y_1}{\partial x_1} &\frac{\partial y_2}{\partial x_1} & \cdots &\frac{\partial y_m}{\partial x_1}\newline\frac{\partial y_1}{\partial x_1} &\frac{\partial y_2}{\partial x_1} & \cdots &\frac{\partial y_m}{\partial x_1} \newline\vdots &\vdots & \ddots & \vdots \newline\frac{\partialy_1}{\partial x_1} & \frac{\partial y_2}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_1}\newline\end{bmatrix}_{n \times m} $矩阵微分矩阵-标量形状为 $ m \times n $ 的矩阵函数 $ \mathbf Y $ 对标量$ x $ 的导数称为 $ \mathbf Y $ 的切矩阵,可以以分子记法表示为$ \frac{\partial \mathbf Y}{\partial x} =\begin{bmatrix}\frac{\partial y_{11}}{\partial x} &\frac{\partial y_{12}}{\partial x} & \cdots &\frac{\partial y_{1n}}{\partial x}\newline\frac{\partial y_{21}}{\partial x} &\frac{\partial y_{22}}{\partial x} & \cdots &\frac{\partial y_{2n}}{\partial x} \newline\vdots &\vdots & \ddots & \vdots \newline\frac{\partialy_{m1}}{\partial x} & \frac{\partial y_{m2}}{\partial x} & \cdots & \frac{\partial y_{mn}}{\partial x}\newline\end{bmatrix}_{m \times n} $标量-矩阵标量函数 $ y $ 对形状为 $ p \times q $ 的矩阵$ \mathbf X $ 的导数可以分子记法表示为$ \frac{\partial y}{\partial \mathbf X} =\begin{bmatrix}\frac{\partial y}{\partial x_{11}} &\frac{\partial y}{\partial x_{21}} & \cdots &\frac{\partial y}{\partial x_{p1}}\newline\frac{\partial y}{\partial x_{12}} &\frac{\partial y}{\partial x_{22}} & \cdots &\frac{\partial y}{\partial x_{p2}} \newline\vdots &\vdots & \ddots & \vdots \newline\frac{\partialy}{\partial x_{1q}} & \frac{\partial y}{\partialx_{2q}} & \cdots & \frac{\partial y}{\partial x_{pq}} \newline\end{bmatrix}_{q \times p} $若以分母记法则可以表示为$ \frac{\partial y}{\partial \mathbf X} =\begin{bmatrix}\frac{\partial y}{\partial x_{11}} &\frac{\partial y}{\partial x_{12}} & \cdots &\frac{\partial y}{\partial x_{1q}}\newline\frac{\partial y}{\partial x_{21}} &\frac{\partial y}{\partial x_{22}} & \cdots &\frac{\partial y}{\partial x_{2q}} \newline\vdots &\vdots & \ddots & \vdots \newline\frac{\partialy}{\partial x_{p1}} & \frac{\partial y}{\partialx_{p2}} & \cdots & \frac{\partial y}{\partial x_{pq}} \newline\end{bmatrix}_{p \times q} $恒等式在下面的公式中,除非另有说明,默认要导出的复合函数的所有因子都不是导数变量的函数。
矩阵拉普拉斯变换公式

矩阵拉普拉斯变换公式
矩阵拉普拉斯变换是一种广泛应用于信号处理、控制系统和电路分析等领域的线性变换方法。
它将一个矩阵作为输入,经过变换得到一个新的矩阵作为输出。
在实际应用中,矩阵拉普拉斯变换可以用于求解线性微分方程、稳定性分析和控制系统设计等问题。
矩阵拉普拉斯变换的基本定义是:
对于一个 n×n 的实矩阵 A,其拉普拉斯变换 L(A) 定义为:
L(A) = ∫^∞ e^(-st) A dt
其中,s 是一个复数,e^(-st) 是指数函数。
矩阵拉普拉斯变换具有许多重要性质,包括线性性、时间平移性、复共轭性、微分性、积分性等。
这些性质使得矩阵拉普拉斯变换成为一个强大的工具,用于解决各种复杂的数学和工程问题。
在矩阵拉普拉斯变换中,最常用的公式是矩阵求逆公式。
它表达了一个矩阵的拉普拉斯变换和其逆矩阵的拉普拉斯变换之间的关系,即:
L(A^(-1)) = sL(A) - A(0)
其中,A^(-1) 是矩阵 A 的逆矩阵,A(0) 是矩阵 A 在 t=0 时的值。
矩阵拉普拉斯变换公式是一个非常重要的数学工具,它在各种领域中都得到广泛的应用。
通过使用矩阵拉普拉斯变换公式,可以简化问题的求解过程,提高计算的效率和准确度,从而为许多工程应用提供了更好的解决方案。
矩阵微分法

矩 阵 微 分 法在现代控制理论中,经常会遇到矩阵的微分(导数),如对表达式d d AB来说,由于A 和B 都可能是数量、向量或矩阵,可代表九种不同的导数。
除数量函数对数量变量的导数外,还剩下八种。
下面分别介绍八种导数的定义和运算公式。
一、 相对于数量变量的微分(自变量是数量变量,如时间t )定义1 对于n 维向量函数[]12()()()......()Tn t a t a t a t = a定义它对t 的导数为12()()()()Tn d a t d a t d a t d t dt dtdt dt ⎡⎤⎢⎥⎣⎦a ……… (1-1)定义2 对于n × m 维矩阵函数1112112()()()()()()()()n i j nm n n nn a t a t a t t a t a t a t a t ⎡⎤⎢⎥⎡⎤= =⎢⎥⎣⎦⎢⎥ ⎣⎦A定义它对t 的导数为1111212()()()()()()()()Tn i j n m n nn n da t da t da t dt dt dt da t d t dt dt da t da t da t dt dt dt ⎡⎤ ⎢⎥⎢⎥⎡⎤ =⎢⎥⎢⎥⎣⎦⎢⎥⎢⎥ ⎢⎥⎣⎦ A ………(1-2)我们不难看出,上述两个定义是一致的。
当矩阵A (t) 退化为向量a (t)时,定义2就变为定义1。
再退一步讲,当向量a (t) 退化为数量函数a (t)时,定义1就变为一般的导数定义。
这说明这样定义是合理的,是统一的。
根据上述的两个定义,我们还可以推出下列的运算公式{}()()()()d d t d t t t dt dt dt ±=±A B A B ………(1-3) {}()()()()()()d d t d t t t t t dt dt dt⋅=⋅+⋅A A A λλλ ………(1-4) (t )λ——为变量t 的数量函数{}()()()()()()d d t d t t t t t dt dt dt⋅=⋅+⋅A B A B B A ………(1-5) 这些公式都很容易证明,现证明最后一式(1-5),设矩阵A (t) 和B (t) 分别为n ×m 和m ×l 矩阵证:11121112()()()()()()()()()T n T n n nm n a t a t a t t t a t a t a t t ⎡⎤⎡⎤ ⎢⎥⎢⎥= = ⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦a A a[]111211212()()()()()()()()()()m m m b t b t b t t t t t b t b t b t ⎡⎤ ⎢⎥= = ⎢⎥⎢⎥ ⎣⎦B b b b1111()()()()()()()()()()()()T TTi j n T T n n t t t t t t t t t t t t ⎡⎤ ⎢⎥⎡⎤⋅= =⋅⎢⎥⎣⎦⎢⎥⎣⎦a b a b A B a b a b a b从而根据矩阵导数定义2,有[]()()()()()()()()()()()()Ti j n T j Ti j i n d d t t t t dt dtd t d t d t d t t t t t dtdt dt dt ⎡⎤⋅=⋅⎣⎦⎡⎤ =⋅+⋅=⋅+⋅⎢⎥⎣⎦A B a b b a A B b a B A证毕例1:求T X A X 对t 的导数,其中1()()n x t x t ⎡⎤⎢⎥= ⎢⎥⎢⎥⎣⎦ X 1111n n n n a a a a ⎡⎤⎢⎥= ⎢⎥⎢⎥⎣⎦A —— 对称常系数矩阵 解()[]()2d d d dt dt dtd d d dt dt dt ⋅⋅⋅=⋅+⋅ =⋅+⋅⋅ =⋅⋅+⋅⋅⋅⋅+⋅⋅ =+ = T X A X X A X A X X X A XA X X X A XA X X A X X A X X A X X AXX AX X AX T TT T T T T T T T T T +=()即2T T d ()dt=X A X X A X ………(1-6) 注:T XA X 和T X A X 都是数量函数且A 为对称阵,它们等于自己的转置。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
∂tr (WA) ∂tr ( AW ) = =A + AT − diag ( A) ∂W ∂W
5. W ∈ R
m×n
, A ∈ R m×n ∂tr (W T A) ∂tr ( AW T ) = = A ∂W ∂W
6. W ∈ R
m×n
∂tr (WW T ) ∂tr (W T W ) = = 2W ∂W ∂W
m×n
, x, y ∈ R
m×1
,则
∂xT AAT y = ( xyT + yxT ) A ∂A
(6)指数函数的梯度
∂ exp( xT Ay ) = xyT exp( xT Ay ) ∂A
3. 迹函数的梯度矩阵
2.1 迹和矩阵、向量的关系 1. 二次型
T = f ( x) x= Ax tr ( xT= Ax) tr ( AxxT ) T T T
1.2 运算法则 (1)线性法则:若 f ( x) 和 g ( x) 分别是向量 x 的实值函数, c1 和 c2 为实常数,则
∂ [ c1 f ( x) + c2 g ( x) ] ∂f ( x) ∂g ( x) = c1 + c2 ∂x ∂x ∂x
(2)乘积法则:若 f ( x) 和 g ( x) 分别是向量 x 的实值函数,则
(3) 若 A ∈ R
m×n
非奇异, x ∈ R
m×1
, y ∈ R n×1 ,则
∂xT A−1 y = − A−T xyT A−T , A-T = ( A−1 )T ∂A
(4) 若 A ∈ R
m×n
, x, y ∈ R
n×1
,则
∂xT AT Ay = A( xyT + yxT ) ∂A
(5) 若 A ∈ R
说明:二次型目标函数 x Ax 等于其核矩阵 A 和向量外积 xx 的乘积的迹( tr ( Axx ) )。 2. 矩阵和迹
A, A = AT A A,= A = A 2 tr ( AT = A) tr ( AAT )
2
3. 向量和迹
= xT y tr = ( xyT ) tr ( yxT )
说明:这个关系很重要,可以简单推导过程。 2.2 迹的梯度矩阵 1. W ∈ R
(1)
∂c = 0 , c 为常数。 ∂x
∂xT =I ∂x ∂xT x = 2 x (自己证的,不一定对) ∂x
证明:
(2)
(3)
∂xT x ∂xT y ∂yT x = + = y + y = 2 y = 2x ∂x ∂x ∂x
注:这里 y 是一个中间代换量。
注: (4)
∂xT x ∂xT Ix = ∂x ∂x
(4)链式法则:若 y ( x) 是 x 的向量值函数,则
∂f ( y ( x)) ∂yT ( x) ∂f ( y ) = ∂x ∂x ∂y
1.3 基本公式
x, y 为向量, x = [ x1 , x2 , , xn ] , y = [ y1 , y2 , , yn ] 。
A 和 y 为与 x 无关, A 为矩阵, I 为单位矩阵。
∂ [ f ( A) g ( A) ] ∂f ( A) ∂g ( A) = g ( A) + f ( A) ∂A ∂A ∂A
(3)商法则: g ( A) ≠ 0
∂ [ f ( A) / g ( A) ] ∂f ( A) ∂g ( A) 1 = − f ( A) g ( A) 2 ∂A ∂A ∂A g ( A)
(4)链式法则:若 y ( A) 是 A 的矩阵值函数,则
∂f ( y ( A)) ∂yT ( A) ∂f ( A) = ∂A ∂A ∂A
2.3 基本公式 (1) c 为常数,则 (2)若 A ∈ R
m×n
∂c = 0m×n 。 ∂A
, x ∈ R m×1 , y ∈ R n×1 ,则 ∂xT Ay = xyT ∂A
∂ [ f ( x) g ( x)] ∂f ( x) ∂g ( x) = g ( x) + f ( x) ∂x ∂x ∂x
(3)商法则: g ( x) ≠ 0
∂ [ f ( x) / g ( x)] ∂f ( x) ∂g ( x) 1 = − f ( x) g ( x) 2 ∂x ∂x ∂x g ( x)
向量梯度算子: ∇ x =
T
∂ ∂ ∂ , , , ∂xn ∂x1 ∂x2
m 维行实值向量函数 f ( x) = [ f1 ( x), f 2 ( x), , f m ( x) ]
∂f m ( x) ∂f1 ( x) ∂f 2 ( x) ∂x , ∂x , , ∂x 1 1 1 ∂f m ( x) ∂f1 ( x) ∂f 2 ( x) , , , ∂f ( x) ∂x2 ∂x2 = ∇ x f ( x) = ∂x2 ∂x ∂f1 ( x) , ∂f 2 ( x) , , ∂f m ( x) ∂xn ∂xn ∂xn
常用矩阵微分公式
1. 函数相对于实值向量的梯度
函数以实值向量为变元。 1.1 实值函数相对向量的梯度矩阵 实值函数 f ( x) 相对于 n × 1 行向量 x 的梯度为 n × 1 的行向量,定义为
∂f ( x) ∂f ( x) ∂f ( x) ∂f ( x) = , , , = ∇ x f ( x) ∂x ∂ x ∂ x ∂ x n 2 1
m×m
∂tr (W ) = Im ∂W
2. W ∈ R
m×m
可逆
∂tr (W −1 ) = −(W −2 )T ∂W
3. x, y ∈ R 的外积
m
∂tr ( xyT ) ∂tr ( yxT ) = = y ∂x ∂x
4. W ∈ R
m×n
, A ∈ R n×m
∂tr (WA) ∂tr ( AW ) = = AT ∂W ∂W
∂Ax = AT ∂x
T ∂ x, AT ∂Ax ∂ A , x ∂xT AT 证明: = = = = AT ∂x ∂x ∂x ∂x
注: Ax 可以被认为是一个向量函数。 (5) =
∂xT Ay ∂x
∂xT Ay Ay = ∂x ∂xT AT y = AT y ∂x = y) x (A
T T
(3) = 证明:
2.2 运算法则 (1)线性法则:若 f ( A) 和 g ( A) 分别是矩阵 A 的实值函数, c1 和 c2 为实常数,则
∂ [ c1 f ( A) + c2 g ( A) ] ∂f ( A) ∂g ( A) = c1 + c2 ∂A ∂A ∂A
(2)乘积法则:若 f ( A) 和 g ( A) 分别是矩阵 A 的实值函数,则
7. W ∈ R
m×m
∂tr (W 2 ) ∂tr (WW ) = = 2W T ∂W ∂W
略,关于迹还有好多公式,祥见张贤达的矩阵分析与应用。
T T
∂aT x ∂xT a a = a= , ∂x ∂x
2. 实值函数相对于实值矩阵的梯度
函数以实值矩阵为变元。 2.1 实值函数相对实值矩阵的梯度矩阵 实值函数 f ( A) 相对于 m × n 实矩阵 A 的梯度为一 m × n 矩) ∂f ( A) ∂f ( A) ∂A , ∂A , , ∂A 12 1n 11 ∂f ( A) ∂f ( A) ∂f ( A) , , , ∂f ( A) ∂A2 n = ∂A21 ∂A22 ∂A ∂f ( A) , ∂f ( A) , , ∂f ( A) ∂Amn ∂Am1 ∂Am 2
∂yT Ax ∂x
= yT Ax
= AT y, x
= x, AT y yT AT x
∂ ( xT Ax ) (4) = Ax + AT x ∂x
当 A 为对称阵时,有
T
∂ ( xT Ax ) ∂x
= 2 Ax
T
证明: x Ax 相当于复合函数的微分。 x 和 x 是与同一变量有关但不同的函数,对一 个变量求微分时另一个变量保持不变, 可以将保持不变的 x 替换成与无关的向量 y , 由 公式(2)和(3)即可得证。 注: x 不是相对于 x 的函数,而是相对于 x 的函数。 (5)若 n × 1 向量 a 是与 x 无关的常数向量,则