矩阵求导

合集下载

矩阵求导的链式法则

矩阵求导的链式法则矩阵求导是数学分析领域的重要分支，其应用涉及到物理、工程、计算机等众多领域。

在求解矩阵函数中，矩阵求导的链式法则是一个非常重要的技巧，它可以大大简化问题的求解过程，节省时间和精力。

链式法则是微积分中的基本规则之一。

在普通函数求导中，我们应用链式法则时，将函数分解成多个内部函数，然后逐个求导，并将结果相乘。

同样的，当我们需要求解矩阵函数的导数时，也可以使用链式法则来化简问题。

矩阵函数是指将一个或多个矩阵作为输入，得到一个矩阵输出的函数。

例如，f(X) = X^T X，其中 X 是一个列向量。

此时 f(X) 是关于 X 的函数。

要求这个函数的导数，我们需要用到矩阵求导的链式法则。

假设 f(X) 是一个矩阵函数，其中 X 是一个 n 行 m 列的矩阵，Y 是一个 p 行 q 列的矩阵。

根据链式法则，导数可以表示为：df(X) / dX = df(Y) / dY * dY / dX其中 df(Y) / dY 是一个 p 行 q 列的矩阵，dY / dX 是一个 qm 行 nm 列的矩阵。

这个公式的含义是，我们需要将函数 f(X) 分解成两个内部函数 f(Y) 和 Y(X)，其中 f(Y) = f(Y(X))。

然后，我们分别对这两个函数进行求导，通过相乘得到最终结果。

具体地，我们可以将这个过程看成以下几个步骤：1. 将矩阵函数 f(X) 分解成内部函数 f(Y) 和 Y(X)，其中 Y 是中间变量。

2. 对内部函数 f(Y) 进行求导，得到 df(Y) / dY。

3. 对中间变量 Y(X) 进行求导，得到 dY / dX。

4. 将 df(Y) / dY 和 dY / dX 相乘，得到 df(X) / dX，即函数f(X) 关于 X 的导数。

需要注意的是，矩阵求导的链式法则和普通函数求导的链式法则略有不同。

在矩阵求导中，我们需要使用矩阵乘法来计算两个链的乘积，而在普通函数求导中，我们则需要使用乘法法则来计算两个链的乘积。

矩阵求导的行列式法则

矩阵求导的行列式法则矩阵求导是数学中十分重要的一部分，它涉及到许多数学应用和实际问题的解决，如物理学、工程学、金融学等。

其中，在矩阵求导的过程中，行列式法则是一种常用的求导方法，下面我们将对行列式法则进行简要的介绍和应用。

一、行列式的定义在讲解行列式法则之前，我们先来了解一下行列式的定义。

行列式是一个数学概念，其可以用于描述矩阵的性质和变换。

在矩阵的行列式中，每个元素的所处行列的位置是有序的，若 i<j，则第 i 行元素在第 j 行元素的上面，而第 i 列元素在第 j 列元素的左侧。

行列式的数值即为其中元素的乘积和正负号的乘积之和。

以一个 3 阶矩阵为例，其行列式的计算方式表示如下：$D=\begin{vmatrix}a_{11}&a_{12}&a_{13}\\a_{21}&a_{22}&a _{23}\\a_{31}&a_{32}&a_{33}\end{vmatrix}=a_{11}a_{22}a_{33} +a_{12}a_{23}a_{31}+a_{13}a_{21}a_{32}-a_{11}a_{23}a_{32}-a_{12}a_{21}a_{33}-a_{13}a_{22}a_{31}$二、行列式法则在矩阵求导中，行列式法则是一种常用的求导方法，它可以依据行列式的定义计算矩阵函数的导数。

行列式法则将计算矩阵求导的问题转化为计算矩阵的行列式，具体公式如下：$\frac{\partial \det(\mathbf{X})}{\partial\mathbf{X}}=\det(\mathbf{X})(\mathbf{X}^{-1})^T$其中，$\mathbf{X}$ 为一个 $n\times n$ 矩阵，$\mathbf{X}^{-1}$ 表示 $\mathbf{X}$ 的逆矩阵，$T$ 表示转置。

该公式表明，在矩阵函数求导的过程中，其导数可以用原矩阵的逆矩阵和行列式的乘积来表示。

函数对矩阵求偏导公式

函数对矩阵求偏导公式矩阵是线性代数中的重要概念，它在各个领域都有广泛的应用。

对于一个函数而言，求其对矩阵的偏导数是一项常见的操作。

在本文中，我们将探讨如何使用函数对矩阵求偏导的公式。

在矩阵求导的过程中，我们需要注意矩阵的维度和元素的排列方式。

假设我们有一个函数 f(X)，其中 X 是一个 m×n 的矩阵。

我们想要求f 对 X 的偏导数，即∂f/∂X。

我们需要确定函数f 的表达式。

假设f(X) = g(X)h(X)，其中g(X) 和h(X) 分别是关于X 的函数。

在求偏导数时，我们可以使用链式法则。

根据链式法则，∂f/∂X = ∂g/∂X * h(X) + g(X) * ∂h/∂X。

这意味着我们需要分别对 g(X) 和 h(X) 求偏导数，并将它们乘以对应的部分。

接下来，我们将重点讨论如何求解∂g/∂X 和∂h/∂X。

对于函数g(X)，我们需要根据具体情况来确定如何进行求导。

如果g(X) 是一个标量函数，即结果是一个实数或复数，我们可以使用常规的微积分规则来求解。

例如，如果g(X) = aX + b，其中a 和 b 是常数，那么我们可以得到∂g/∂X = a。

这是因为矩阵 X 的每个元素都是独立的，所以对于 aX，它的偏导数是 a。

但如果g(X) 是一个向量或矩阵函数，即结果是一个向量或矩阵，我们需要借助矩阵微积分的知识来求解。

具体的求导规则涉及到雅可比矩阵、Hessian 矩阵等概念，这里就不再详述。

对于函数h(X)，我们同样需要根据具体情况来确定如何进行求导。

无论h(X) 是标量函数还是向量/矩阵函数，我们都可以使用相应的微积分规则来求解。

我们将∂g/∂X 和∂h/∂X 的结果代入链式法则的公式中，即可得到∂f/∂X 的表达式。

总结一下，在函数对矩阵求偏导的过程中，我们需要确定函数的表达式，然后使用链式法则来求解。

对于标量函数，我们可以使用常规的微积分规则；对于向量/矩阵函数，我们需要借助矩阵微积分的知识。

矩阵求导公式

转载]矩阵求导公式【转】(2011-11-15 11:03:34)转载▼标签：转载原文地址：矩阵求导公式【转】作者：三寅今天推导公式，发现居然有对矩阵的求导，狂汗--完全不会。

不过还好网上有人总结了。

吼吼，赶紧搬过来收藏备份。

基本公式：Y = A * X --> DY/DX = A'Y = X * A --> DY/DX = AY = A' * X * B --> DY/DX = A * B'Y = A' * X' * B --> DY/DX = B * A'1. 矩阵Y对标量x求导：相当于每个元素求导数后转置一下，注意M×N矩阵求导后变成N×M了Y = [y(ij)] --> dY/dx = [dy(ji)/dx]2. 标量y对列向量X求导：注意与上面不同，这次括号内是求偏导，不转置，对N×1向量求导后还是N×1向量y = f(x1,x2,..,xn) --> dy/dX = (Dy/Dx1,Dy/Dx2,..,Dy/Dxn)'3. 行向量Y'对列向量X求导：注意1×M向量对N×1向量求导后是N×M矩阵。

将Y的每一列对X求偏导，将各列构成一个矩阵。

重要结论：dX'/dX = Id(AX)'/dX = A'4. 列向量Y对行向量X’求导：转化为行向量Y’对列向量X的导数，然后转置。

注意M×1向量对1×N向量求导结果为M×N矩阵。

dY/dX' = (dY'/dX)'5. 向量积对列向量X求导运算法则：注意与标量求导有点不同。

d(UV')/dX = (dU/dX)V' + U(dV'/dX)d(U'V)/dX = (dU'/dX)V + (dV'/dX)U'重要结论：d(X'A)/dX = (dX'/dX)A + (dA/dX)X' = IA + 0X' = Ad(AX)/dX' = (d(X'A')/dX)' = (A')' = Ad(X'AX)/dX = (dX'/dX)AX + (d(AX)'/dX)X = AX + A'X6. 矩阵Y对列向量X求导：将Y对X的每一个分量求偏导，构成一个超向量。

矩阵无穷范数行和范数求导

矩阵无穷范数行和范数求导
矩阵是线性代数中的重要概念，它是由数个数组成的矩形表格。

在实际应用中，矩阵经常需要进行求导运算。

在此，我们将介绍矩阵的无穷范数和行和范数的求导方法。

矩阵的无穷范数
矩阵的无穷范数是指矩阵的各个元素的绝对值之和的最大值。

矩阵 A 的无穷范数可表示为：
其中，i 和 j 都是 A 的行和列序号。

无穷范数是矩阵中绝对值最大的元素。

无穷范数与求导
对于矩阵 A 中的第 k 行，其无穷范数为：
||A||∞ = max│ak,j│
∂||A||∞/∂A = Sgn(A)×1(A = max│A|)
其中，Sgn(A) 是矩阵 A 的符号函数，1(A= max│A|) 是当 A 的元素等于矩阵 A 中的最大绝对值元素时的指示函数。

其中，该求和符号表示对于每一行进行求和。

因此，对于矩阵 A，其行和范数之导数可以表示为：
总结
矩阵操作在数学和数据科学领域中非常重要。

在实际应用中，矩阵通常需要进行求导运算。

本文介绍了矩阵的无穷范数和行和范数的求导方法，这些方法对于矩阵分析、优化和机器学习等领域的研究都具有重要意义。

通过研究矩阵的无穷范数和行和范数以及其求导方法，可以更好地理解矩阵操作的本质和应用。

矩阵内积求导法则

矩阵内积求导法则是矩阵微分中的一组规则，用于计算涉及矩阵的函数的导数。

这些法则在机器学习、优化问题等领域中经常被使用，因为涉及到大量矩阵运算。

以下是一些常见的矩阵内积求导法则的讨论，为了简便，我们使用大写字母表示矩阵，小写字母表示标量。

这些矩阵内积求导法则为处理涉及矩阵的复杂函数提供了便利，尤其在深度学习和优化问题中，这些法则被广泛应用于梯度下降、反向传播等算法中，以优化模型参数。

深入理解这些法则对于矩阵微分的应用和理论研究都具有重要的意义。

多项式矩阵求导法则

多项式矩阵求导法则多项式矩阵的求导法则涉及对矩阵中的每个元素进行求导。

以下是一些基本的指导原则：1.标量对矩阵求导：o当一个标量函数对一个矩阵求导时，结果是一个与矩阵同型的矩阵，其中每个元素是函数对该矩阵对应元素的偏导数。

2.矩阵对标量求导：o当一个矩阵对一个标量求导时，通常是对矩阵中的每个元素分别对该标量求导。

结果可能是一个更高维的张量或保持原矩阵形状，具体取决于求导的上下文。

3.矩阵对矩阵求导：o当一个矩阵函数对另一个矩阵求导时，结果是一个四阶张量（或称为超级矩阵），其中每个元素是函数对另一个矩阵中对应元素的偏导数。

但在实际应用中，这种全张量形式往往过于复杂，因此通常会采用一些简化或近似的方法。

4.特殊情况下的简化：o在某些特殊情况下，例如当矩阵是向量或当矩阵函数具有特殊形式（如线性或二次型）时，求导过程可能会大大简化。

例如，对于向量函数对向量的求导，结果可能是一个雅可比矩阵或海森矩阵。

5.链式法则和乘积法则：o对于更复杂的矩阵函数，如矩阵乘法或矩阵链式函数，需要应用链式法则和乘积法则来计算导数。

这些法则在标量函数求导中非常熟悉，但在矩阵函数求导中需要特别注意矩阵的维度和顺序。

6.使用符号计算工具：o对于复杂的矩阵求导问题，手动计算可能既繁琐又容易出错。

因此，建议使用符号计算工具（如MATLAB的Symbolic Math Toolbox、Python的SymPy库等）来辅助计算。

这些工具可以自动处理维度匹配、链式法则和乘积法则等细节，从而大大提高计算效率和准确性。

7.注意维度和形状：o在进行矩阵求导时，要特别注意矩阵的维度和形状。

确保在进行求导运算时，矩阵的维度是匹配的，以避免出现错误的结果。

例如，对于矩阵乘法AB=C，如果A是m×n矩阵，B是n×p矩阵，则C是m×p矩阵。

当对C中的元素c_ij求导时，需要考虑到它与A的第i行和B的第j列的元素有关。

8.实际应用中的考虑：o在实际应用中，多项式矩阵求导可能涉及更复杂的场景和约束条件。

矩阵的求导运算

矩阵导数问题1 矩阵Y =F(x)对标量x 求导相当于矩阵中每个元素对x 求导dY dx=[ df 11(x)dx df 12(x)dx df 21(x)dx df 22(x)dx ⋯df 1n (x)dx ⋯df 21(x)dx ⋮⋮df m1(x)dx df m2(x)dx ⋱⋮⋯df mn(x)dx ]2 标量y 对矩阵X 求导注意与上面不同，这次括号内是求偏导，对m ×n 矩阵求导后还是m ×n 矩阵y =f (x )=dy dX =[ ðf ðx 11ðf ðx 12ðf ðx 21ðf ðx 22⋯ðf ðx 1n ⋯ðf ðx 2n ⋮⋮ðf ðx m1ðf ðx m2 ⋱⋮⋯ðf ðx mn ]3 函数矩阵Y 对矩阵X 求导矩阵Y 对每一个X 的元素求导，构成一个超级矩阵F (X )=[f 11(x)⋯f 1n (x)⋮⋱⋮f m1(x)⋯f mn (x)] X =[x 11⋯x 1s⋮⋱⋮x r1⋯x rs] dFdX =[ ðF ðx 11ðFðx 12ðFðx 21ðF ðx 22 ⋯ðFðx 1s ⋯ðF ðx 2s ⋮⋮ðF ðx r1ðF ðx r2⋱⋮⋯ðFðx rs ]，其中ðFðx ij=[ ðf 11ðx ij ðf 12ðx ijðf 21ðx ijðf 22ðxij⋯ðf 1nðx ij⋯ðf 2n ðx ij ⋮⋮ðf m1ðx ijðf m2ðx ij ⋱⋮⋯ðf mn ðx ij ]重要结论：假设x ⃗是一个向量：dx ⃗T dx⃗=I ，dAx⃗dx ⃗T=A ，d(Ax ⃗)T dx⃗=A T4 向量积对列向量x⃗⃗求导运算法则注意与标量有点不同，假设u ⃗⃗，v ⃗都是列向量d(u ⃗⃗T v ⃗)dx =d(u ⃗⃗T )dx ∙v ⃗+d(v ⃗T )dx∙u ⃗⃗4.1 重要结论：d(x ⃗T x ⃗)dx ⃗=d(x ⃗T )dx ∙x ⃗+d (x ⃗T )dx∙x ⃗=2x ⃗ d(x ⃗T Ax ⃗)dx ⃗=d(x ⃗T )dx ⃗∙Ax ⃗+d (x ⃗T A T )dx ⃗∙x ⃗=(A +A T )x ⃗ 重要结论：d(u ⃗⃗T Xv ⃗)dX=u ⃗⃗v ⃗T d(u ⃗⃗T X T Xu ⃗⃗)dX=2Xu ⃗⃗u ⃗⃗Td[(Xu ⃗⃗−v ⃗)T (Xu ⃗⃗−v ⃗)]dX=2(Xu ⃗⃗−v ⃗)u ⃗⃗T其中d(x ⃗T Ax ⃗)dx⃗=d {[x 1a 11+x 2a 21+⋯+x n a n1x 1a 12+x 2a 22+⋯+x n a n2 ⋯x 1a 1n +x 2a 2n +⋯+x n a nn ]∙x ⃗}/dx ⃗=d {a 11x 12+x 2a 21x 1+⋯+x n a n1x 1+x 1a 12x 2+x 2a 22x 2+⋯+x n a n2x 2+⋯+x 1a 1n x n +x 2a 2n x n +⋯+x n a nn x n }/dx ⃗=[2a 11x 1+a 21x 2+⋯+a n1x n +a 12x 2+a 13x 3+⋯+a 1n x na 21x 1+a 12x 1+2a 22x 2+a 32x 3+⋯+a n2x n +a 23x 2+a 23x 3+⋯+a 2n x n ⋮a n1x 1+a n2x 2+⋯+a n (n−1)x n−1+a 1n x 1+a 2n x 2+⋯+2a nn x n ]=(A +A T )x ⃗ 其中d(u⃗⃗T X T Xu ⃗⃗)dX==d[(Xu ⃗⃗)T Xu ⃗⃗]dX =[ ð[(Xu ⃗⃗)T Xu ⃗⃗]ðx 11ð[(Xu ⃗⃗)T Xu ⃗⃗]ðx 12ð[(Xu ⃗⃗)T Xu ⃗⃗]ðx 21ð[(Xu ⃗⃗)T Xu ⃗⃗]ðx 22 ⋯ð[(Xu ⃗⃗)T Xu ⃗⃗]ðx 1n ⋯ð[(Xu ⃗⃗)T Xu ⃗⃗]ðx 2n ⋮⋮ð[(Xu ⃗⃗)T Xu ⃗⃗]ðx m1ð[(Xu ⃗⃗)T Xu ⃗⃗]ðx m2 ⋱⋮⋯ð[(Xu ⃗⃗)TXu ⃗⃗]ðx mn ]=[ð[(x 11u 1+x 12u 2+⋯+x 1n u n )2+(x 21u 1+x 22u 2+⋯+x 2n u n )2+⋯+(x m1u 1+x m2u 2+⋯+x mn u n )2]ðx ij]=[2(x 11u 1+x 12u 2+⋯+x 1n u n )u 12(x 11u 1+x 12u 2+⋯+x 12u n )u 22(x 21u 1+x 22u 2+⋯+x 2n u n )u 12(x 21u 1+x 22u 2+⋯+x 2n u n )u 2⋯2(x 11u 1+x 12u 2+⋯+x 1n u n )u n⋯2(x 21u 1+x 22u 2+⋯+x 2n u n )u n ⋮⋮2(x m1u 1+x m2u 2+⋯+x mn u n )u 12(x m1u 1+x m2u 2+⋯+x mn u n )u 2⋱⋮⋯2(x m1u 1+x m2u 2+⋯+x mn u n )u n]=2X u ⃗⃗u ⃗⃗T4.2注意：有些公式不实用，例如：dxx⃗dx⃗=d{[x1x2x3]×[x1,x2,x3]}dx⁄=d{x12x1x2x1x3x2x1x22x2x3x3x1x3x2x32}dx⃗⁄=[2x1x2x3x200x3000x10x12x2x30x3000x1x2x1x22x3]dxdx⃗x⃗+dxdx⃗x⃗=[2x12x22x30000002x12x22x30000002x12x22x3000000]。

多元函数矩阵求导

多元函数矩阵求导
多元函数的矩阵求导是微积分中的一个重要内容，它涉及到矩
阵的偏导数和梯度等概念。

首先，我们来看多元函数的梯度。

对于
一个多元函数，如果其自变量是一个n维向量，因变量是一个标量，那么这个函数的梯度就是一个n维向量，其中每个分量分别是函数
对自变量的偏导数。

假设有一个多元函数f(x1, x2, ..., xn)，那
么它的梯度可以表示为∇f = [∂f/∂x1, ∂f/∂x2, ...,
∂f/∂xn]。

这里∂f/∂xi表示函数f对自变量xi的偏导数。

接下来我们来看矩阵的求导。

对于一个矩阵函数F(X)，其中X
是一个矩阵，我们可以对其进行求导。

如果F(X)的每个元素都是关
于X的函数，那么F(X)的导数就是一个与X同型的矩阵，其中每个
元素是对应元素的偏导数。

具体来说，如果F(X)是一个m×n的矩
阵函数，那么它的导数就是一个m×n的矩阵，其中第i行第j列的
元素是∂Fij/∂Xkl，其中k是第i行，l是第j列。

在实际应用中，多元函数的矩阵求导常常用于优化问题、机器
学习和深度学习等领域。

通过对多元函数的梯度和矩阵的导数进行
求解和分析，可以帮助我们理解函数的变化规律，并且为优化算法
的设计提供重要的数学基础。

在深度学习中，梯度下降法等优化算
法的实现也离不开对多元函数的矩阵求导。

总之，多元函数的矩阵求导是一项重要且复杂的数学工作，它在实际问题中有着广泛的应用，并且对于理解和解决实际问题具有重要意义。

希望我的回答能够帮助你更好地理解这一内容。

矩阵求导(本质、原理与推导)详解

矩阵求导(本质、原理与推导)详解1.引言矩阵求导是数学分析中重要的一部分，广泛应用于机器学习、数据挖掘和优化问题中。

本文将介绍矩阵求导的本质、原理以及推导过程，为读者提供一个比较全面的了解。

2.矩阵的本质及相关概念在矩阵求导前，我们需要先了解矩阵的本质及相关概念。

矩阵是一个按照规律排列的方阵，其中每个元素通常是实数或者复数。

以$n$行$m$列的矩阵$A$为例，可以表示为：$$A=\begin{bmatrix}a_{1,1}&a_{1,2}&\cdots&a_{1,m}\\a_{2,1}&a_{2,2}&\cdots&a_{2,m}\\\vdots&\vdots&\ddots&\vdots\\a_{n,1}&a_{n,2}&\cdots&a_{n,m}\\\end{bmatrix}$$其中$a_{i,j}$表示矩阵$A$中第$i$行第$j$列的元素。

矩阵还有一些相关的概念，如矩阵的转置、逆矩阵、伴随矩阵等等，这里不一一赘述。

3.标量函数对向量、矩阵的导数在开始矩阵求导之前，我们需要先了解标量函数对向量或矩阵的导数。

设矩阵$A$是一个$m\times n$的矩阵，$x$是一个$n \times1$的向量，函数$f(x)$将$x$映射为一个标量。

我们定义$f(x)$对$x$的导数为：$$\frac{\partial f(x)}{\partial x}=\begin{bmatrix}\frac{\partial f(x)}{\partial x_1}&\frac{\partial f(x)}{\partial x_2}&\cdots&\frac{\partial f(x)}{\partial x_n}\end{bmatrix}$$其中每一项$\frac{\partial f(x)}{\partial x_i}$表示$f(x)$对$x_i$的偏导数。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1. 矩阵Y对标量x求导：
相当于每个元素求导数后转置一下，注意M×N矩阵求导后变成N×M了
Y = [y(ij)] --> dY/dx = [dy(ji)/dx]
2. 标量y对列向量X求导：
注意与上面不同，这次括号内是求偏导，不转置，对N×1向量求导后还是N×1向量
y = f(x1,x2,..,xn) --> dy/dX = (Dy/Dx1,Dy/Dx2,..,Dy/Dxn)T
3. 行向量Y T对列向量X求导：
注意1×M向量对N×1向量求导后是N×M矩阵。

将Y的每一列对X求偏导，将各列构成一个矩阵。

重要结论：
dX T/dX = I
d(AX)T/dX = A T
4. 列向量Y对行向量X T求导：
转化为行向量Y T对列向量X的导数，然后转置。

注意M×1向量对1×N向量求导结果为M×N矩阵。

dY/dX T = (dY T/dX)T
5. 向量积对列向量X求导运算法则：
注意与标量求导有点不同。

d(UV T)/dX = (dU/dX)V T + U(dV T/dX)
d(U T V)/dX = (dU T/dX)V + (dV T/dX)U
重要结论：
d(X T A)/dX = (dX T/dX)A + (dA/dX)X T = IA + 0X T = A
d(AX)/dX T = (d(X T A T)/dX)T = (A T)T = A
d(X T AX)/dX = (dX T/dX)AX + (d(AX)T/dX)X = AX + A T X
6. 矩阵Y对列向量X求导：
将Y对X的每一个分量求偏导，构成一个超向量。

注意该向量的每一个元素都是一个矩阵。

7. 矩阵积对列向量求导法则：
d(uV)/dX = (du/dX)V + u(dV/dX)
d(UV)/dX = (dU/dX)V + U(dV/dX)
重要结论：
d(X T A)/dX = (dX T/dX)A + X T(dA/dX) = IA + X T0 = A
8. 标量y对矩阵X的导数：
类似标量y对列向量X的导数，
把y对每个X的元素求偏导，不用转置。

dy/dX = [ Dy/Dx(ij) ]
重要结论：
y = U T XV = ΣΣu(i)x(ij)v(j) 于是dy/dX = [u(i)v(j)] = UV T
y = U T X T XU 则dy/dX = 2XUU T
y = (XU-V)T(XU-V) 则dy/dX = d(U T X T XU - 2V T XU + V T V)/dX = 2XUU T - 2VU T + 0 = 2(XU-V)U T
9. 矩阵Y对矩阵X的导数：
将Y的每个元素对X求导，然后排在一起形成超级矩阵。