矩阵微分与向量函数的Taylor展开
《矩阵分析》课件

方阵 行数和列数相等的矩阵称为方阵。
01
对角矩阵
除主对角线外的元素全为零的方阵称 为对角矩阵。
03
对称矩阵
设$A = (a_{ij})$为$n$阶方阵,若对任意$i, j$都有$a_{ij} = a_{ ji}$,则称$A$为对称矩
阵。
05
02
零矩阵
所有元素都是零的矩阵称为零矩阵,记作 $O$。
04
非零行的首非零元所在列在上一行的 首非零元所在列的右边。
同一行的所有非零元均在首非零元的 右边。
线性无关组与基础解系
线性无关组:一组向量线性无关当且仅当它们不能 由其中的部分向量线性表示出来。换句话说,只有 当这组向量中任何一个向量都不能由其余向量线性 表示时,这组向量才是线性无关的。
基础解系中的解向量线性无关。
当B=I时,广义特征值问题退化为普通的特征值问题。此外,广义特征值问题可以通 过相似变换转化为普通的特征值问题进行求解。
06
CATALOGUE
矩阵函数与微分学在矩阵分析中应用
矩阵函数定义及性质
矩阵函数的性质 矩阵函数的转置、逆和行列式等运算也遵循相应的矩
阵运算规则。
矩阵函数的定义:设$A(t)=(a_{ij}(t))$是一个 $ntimes n$矩阵,其元素$a_{ij}(t)$是变量$t$ 的函数,则称$A(t)$为矩阵函数。
Gauss消元法原理
LU分解求解线性方程组
通过行变换将矩阵化为上三角矩阵, 从而解线性方程组。
将Ax=b转化为LUx=b,通过前向替 换和后向替换求解。
LU分解定义
将矩阵分解为一个下三角矩阵L和一个 上三角矩阵U的乘积。
QR分解原理及实现
QR分解定义
函数矩阵的微分和积分

及变量 z 的函数 u = f( z) 都可微 , 则 ( 5 . 7)
d d d A 〔 f( z) 〕 = A( u) ・ f( z) dz du dz 性质 4 若 n 阶函数矩阵 A( z) 可逆 , 且 A( z) 及其逆阵 A ( z) 都可微 , 则 d -1 -1 d -1 A ( z) = - A ( z)〔 A( z) 〕 A ( z) dz dz 证明性质 2 设 A( z) B ( z) = C( z) 〔 d A( z) 〕 B( z) = H( z) dz A( z)
f f , …, x1 xn
( 5. 14)
d d d 〔 a f( X) + bg( X) 〕 = a f( X) + b g( X) dX dX dX 性质 3 d d d 〔 f( X) ・ g( X) 〕= g( X) f( X) + f( X) g( X) dX dX dX d d f f ( X) 及 g ( X) 的 i 行 j 列 元 素 分 别 是 , dX dX x ji
m× n m ×n
d a ( z) dz 12 d a 22 ( z) dz d a m2 ( z) dz
… …
d a ( z) dz 1n d a 2n ( z) dz d a mn ( z) dz
…
( 5 . 5)
设函数矩阵 A( z) , B( z) 分别是 m × n 及 n× s 阶矩阵 , 且 A( z) , B( z) 都可微 , ( 5 . 6)
这里需注意的是 , 由于矩阵的乘法不满足交换律 , 所以上式中乘积的顺序一般是不能交换的。 若 K 是一个常数矩阵 , 则有 d d 〔 K・ A( z) 〕 = K A( z) dz dz d d 〔 A( z) ・ K〕 =〔 A( z) 〕 ・K dz dz 这两个式子也不能交换顺序。又如 d 2 d d 〔 A ( z) 〕 = 〔 A( z) 〕 A( z) + A( z) A( z) dz dz dz ≠2A( z) 证明性质 3, 因为 d d d a〔 a ij ( u) f( z) ij f( z) 〕 = dz du dz 由此立刻得出 d d d A 〔 f( z) 〕 = A( u) f( z) dz du dz 证明性质 4, 因为 A ( z) ・ A( z) = E 所以 d -1 dA ( z) -1 d 〔 A A( z) 〕 = A( z) + A ( z) A( z) = 0 dz dz dz d -1 -1 d -1 〔 A ( z) 〕 = - A ( z)〔 A( z) 〕 A ( z) dz dz 例1 其中 x1 ( t) χ= x2 ( t) … xn ( t) 解 d T d T T d χ Aχ+ χA χ 〔 χ Aχ 〕= dt dt dt = χA
矩阵微分与向量函数的taylor展开

矩阵转置在机器学习中用于表示特征的变换,例如在主成分分析(PCA)中,通过将协方差矩阵进行转置和特征值分解, 可以得到主成分的方向。
矩阵求逆
在机器学习中,求逆矩阵主要用于求解线性方程组,例如在最小二乘法中,通过最小化预测值与真实值 之间的平方误差,可以得到线性方程组的解。
向量函数在机器学习中的应用
在数值分析中的应
用
矩阵微分在数值分析中也有着重 要的应用,如求解偏微分方程、 优化问题和插值等。
在机器学习中的应
用
在机器学习中,矩阵微分也被广 泛应用于各种算法中,如梯度下 降、牛顿法和拟牛顿法等。
02
向量函数的Taylor展开
向量函数的导数
01
向量函数的导数定 义
向量函数的导数是向量函数在某 点的切线斜率,由向量函数的各 分量函数的导数组成。
01
向量函数运算
02
向量函数的导数
03
向量函数的泰勒展开
向量函数运算在机器学习中用于表示特 征的变换和组合,例如在支持向量机 (SVM)中,通过将特征向量进行线 性组合,可以得到决策边界。
在机器学习中,向量函数的导数用于 计算梯度,例如在梯度下降算法中, 通过计算损失函数对参数的梯度,可 以更新参数以最小化损失函数。
Taylor级数展开的公式
根据向量函数的导数,使用Taylor级数展开公式计算多项式各项系 数。
Taylor级数展开的应用
在数值计算、近似计算等领域中,使用Taylor级数展开可以快速计 算向量函数在某点的值。
泰勒定理的应用
泰勒定理的表述
对于一个在某点可导的函数,其值等于其在该点的值 加上其导数的阶乘与自变量差的幂的和。
表示矩阵函数在某点的变化率,可以 通过线性代数中的矩阵微分来计算。
Delta方法

Delta 方法摘要在统计学中,独立和的中心极限定理或者Linderberg-Feller 中心极限定理都给出了随机变量服从极限正态分布的条件,不过,很多时候我们关注的不是随机变量本身的分布,而是随机变量函数的分布,而delta 方法作用就是利用估计量的极限方差求得渐近正态估计量函数的极限分布。
Delta 方法主要利用了Taylor 展开证明。
介绍假定统计量n T 是参数θ的一个估计,但是我们感兴趣的是()φθ,其中φ是一个已知的函数。
一个很自然的想法是用统计量()n T φ来估计。
但是()n T φ的渐进性质如何呢?首先由连续映射定理可知,如果序列n T 以概率收敛于θ,且φ在θ处连续,那么()n T φ以概率收敛于()φθ)n T θ-弱收敛到一个极()())n g T g θ-一样成立?定理证明Delta 方法(一元)如果一列随机变量n X ]2(0,)n X N θσ-→,其中2,θσ均为有限的常数,那么]22()()(0,['()])n g X g N g θσθ-→,其中g 满足'()g θ存在且取值不为零。
Delta 方法(多元)设g (1)j j m ≤≤都是k 变元函数,有一阶全微分,1(,....,)'m g g g =.又1(,...,)'(1)n n kn n ξξξ=≥为一串随机向量,满足条件)(0,),n a N B n ξ-→→∞这里1(,...,)'k a a a =为常向量,0B ≥为k 阶常方阵,则)()()(0,'),n g g a N CBC n ξ-→→∞其中C 为m k ⨯矩阵,其(i ,j )元为/|i j u a g u =∂∂Taylor 多项式 如果函数g(x)有r 阶导数,即存在()()()rr r d g x g x dx=,则对任意常数a, g(x)在a 附近r 阶Taylor 多项式(Taylor polynomial of order r about a 为()0()()()!i ri r i g a T x x a ==-∑Taylor 定理 如果()()()|rr x a r d g a g x dx==存在,则()()lim0()r rx ag x T x x a →-=- Taylor 定理表明余项()()r g x T x -是Taylor 多项式的无穷小,由于我们仅考察Taylor 级数近似,常常忽略其余项,所以余项的具体表达式并不十分关心,不过在余项的具体表达式中,下列表示最为常用(1)()()()()!xr r r ag t g x T x x t dt r +-=-⎰Slutsky 定理 如果n X 依分布收敛于随机变量X ,n Y 依概率收敛于常数a 则 A.n n X Y 依分布收敛于随机变量aX ; B .n n X Y +依分布收敛于随机变量a X +,∆方法 设速记变量序列n Y)n Y θ-依分布收敛于2(0,)N σ,函数g 在指定θ处满足:'()g θ存在且不为零,则2'2()()](0,[()])n g Y g N g θσθ-→(依分布收敛)证明(一元)()n g Y 在n Y θ=附近的Taylor 展式为'()()()()n n g Y g g Y θθθ=+-+余项其中,当n Y θ→时余项趋于零。
矩阵特征值与特征向量的计算-Rung-Kutta方法

每步须算Ki 的个数 2 3
4
5
6
可达到的最高精度 O(h2 ) O(h3 ) O(h4 ) O(h4 ) O(h5 )
7
O(h6 )
n8
O(hn−2 )
由于龙格-库塔法的导出基于泰勒展开,故精度主要受
解函数的光滑性影响。对于光滑性不太好的解,最好 采用低阶算法而将步长h 取小。
R − K方法的主要优缺点
二级R-K方法
二级R-K方法的形式为
其局部截断误差为 将 中的各项作Taylor展开
Taylor展开有 可得 令
二级R-K能达到的 最高阶数是二阶
常用的二级二阶R-K方法
取
,得
该方法称为改进的Euler公式(梯形公式的预估校正格式)
取
,得
该方法称为中点公式
取
,得
该方法称为Heun(休恩)方法
当 为实数时,得Euler法的绝对稳定区间是
二级R-K方法的绝对稳定区间
二阶二级R-K方法的计算公式为
由此可知,二阶二级R-K方法的绝对稳定区间是 当 为实数时,得绝对稳定区间是
一些常用方法的绝对稳定区间
R-K法的绝对稳定区域
k = 4 • 3. k =3
• 2. k=2 k = 1 • 1.
题相容的充分必要条件是该单步法至少是一阶方
法。
我们本章讨论的数值方法都是与原初值问题相容的!
收敛性
定义:对任意固定的 步法产生的解 ,均有
, 若初值问题的单
则称该方法是收敛的。
我们本章讨论的数值方法都是收敛的!
收敛性判别
定理7.3:设增量函数
在区域
上连续,并对变量y和h满足Lipschitz条件。如果单步 法与微分方程初值问题相容,则单步法收敛。
应用数学方向,动力系统第三章非线性微分方程动力系统的简化

第三章 非线性微分方程动力系统的简化在非线性微分方程动力系统研究中,很自然地期望有一些有效的方法使原系统降阶或简化,井能保持原系统的动态特性。
目前,现有的知识主要有中心流形、范式、奇异摄动与精确线性化等。
本章将简要地叙述相关方面的基本内容3.1中心流形3.1.1中心流形的基本定理本节考虑以下形式非线性微分方程系统(,)(,)x Ax f x y y By g x y '=+⎧⎨'=+⎩Equation Section 3(3.1) 其中,m n x R y R ∈∈,假定A 和B 是具有相应维数的常数矩阵,并且A 的所有特征值具有零实部,B 的所有特征值具有负实部。
函数f 和g 关于其变元皆二阶连续可微,且(0,0)0,(0,0)0f g ==;(0,0)0,(0,0)0f g ''==(注: f '和g '是它们各自的雅可比矩阵)。
定义3.1 一个集合(流形)m n S R R ⊂⨯被称为系统(3.1)的局部不变流形(Local invariant manifold)是指,对任何的00(,)x y S ∈系统(3.1)的初值为00((0),(0))(,)x y x y =的解()x t 始终在集合S 内,其中||t T <,T 为某正数。
进而,如果,T =∞,那么S 就称为不变流形(invariant manifold)。
定义3.2 如果()y h x =是系统(3.1)的一个不变流形,并且()h x 为光滑函数,(0)0h =,(0)0h '=,那么它被称为中心流形(centre manifold )。
对于系统(3.1),我们有,定理3.1 对系统(3.1)而言,若A ,B ,和g 满足假设条件,那么存在一个中心流形()y h x =,其中||x δ< (δ为某一个正数),且2h C ∈。
证今:[0,1]n R ψ→为C ∞函数,取值为1,||1,0,|| 2.x x ψ≤⎧=⎨≥⎩又设(,)((),),(,)((),)x xF x y f x yG x y g x y εεψψ==其中0ε>。
矩阵的函数范文

矩阵的函数范文矩阵函数是指将一个矩阵作为输入,返回一个新的矩阵作为输出的数学函数。
矩阵函数在许多领域中都有重要的应用,如线性代数、微积分、图论等等。
本文将探讨矩阵函数的定义、性质以及一些常见的矩阵函数的应用。
一、矩阵函数的定义和性质:1.定义:矩阵函数可以定义为一个从矩阵空间到矩阵空间的映射,即对于一个给定的矩阵A,矩阵函数f(A)返回一个新的矩阵B。
一般来说,矩阵函数可以是任意的,它可以是线性的或非线性的,可以是单值的或多值的。
2.线性矩阵函数:线性矩阵函数是指满足以下两个性质的矩阵函数:(1)f(A+B)=f(A)+f(B):对于任意的矩阵A和B,有f(A+B)=f(A)+f(B);(2) f(cA) = cf(A):对于任意的矩阵A和标量c,有f(cA) = cf(A)。
3.非线性矩阵函数:非线性矩阵函数是指不满足线性性质的矩阵函数。
非线性矩阵函数的性质较为复杂,常常需要利用数值方法进行计算。
4.特殊矩阵函数:特殊矩阵函数是指具有一些特定性质的矩阵函数,如对称函数、正定函数等。
特殊矩阵函数在各个领域中都有广泛的应用。
5. 矩阵函数的迹和行列式:对于一个矩阵函数f(A),其迹和行列式可以定义为其矩阵的迹和行列式的函数,即tr(f(A))和det(f(A))。
二、常见的矩阵函数:1.幂函数:幂函数f(A)=A^k将一个矩阵A自乘k次。
2. 指数函数:指数函数f(A) = e^A将一个矩阵A进行Taylor展开,得到一个无限级数。
3. 对数函数:对数函数f(A) = ln(A)将一个矩阵A进行类似于指数函数的Taylor展开,得到一个无限级数。
4. 三角函数:三角函数sin(A)、cos(A)和tan(A)分别将矩阵A中的每个元素作为角度计算其三角函数值。
5. 反三角函数:反三角函数asin(A)、acos(A)和atan(A)分别将矩阵A中的每个元素作为三角函数值计算其对应的角度。
6. 矩阵修正函数:矩阵修正函数f(A) = max(0, A)将矩阵A中的每个元素与0进行比较,将小于0的元素修正为0。
数学分析23.2向量函数的微分(含习题及参考答案)

第二十三章 向量函数微分学2 向量函数的微分一、可微性与可微条件定义4:设D ⊂R n 为开集, x 0∈D, f: D →R m . 如果存在某个线性变换△(只依赖于x 0), 使得x ∈U(x 0)⊂D 时, 有f(x)-f(x 0)=△(x-x 0)+o (0x x -)或00)()()(limx x x x x f x f x x --∆--→=0, 则称向量函数f 在点x 0可微(或可导).若与上述线性变换△相联系的矩阵为A m ×n , 则称△(x-x 0)=A(x-x 0)为 f 在点x 0的微分,并称A 为f 在点x 0的导数, 记作Df(x 0)或f ’(x 0). ∴△(x-x 0)=A(x-x 0)=Df(x 0)(x-x 0)=f ’(x 0)(x-x 0)是f(x)-f(x 0)的一个线性逼近, 当m=1时,它是一个实数,而当m>1时,它是一个m 维向量. 若f 在D 上任何点可微,则称f 为D 上的可微函数.设f=⎪⎪⎪⎭⎫ ⎝⎛m f f 1, A=⎪⎪⎪⎭⎫ ⎝⎛⋯⋯mn m n a a a a 1111 =⎪⎪⎪⎭⎫⎝⎛T m TA A 1, 其中A i =(a i1,…,a in )T, i=1,2,…m.则可微条件等价于f i (x)-f i (x 0)= A i T (x-x 0)+o (0x x -), i=1,2,…m, 即f 的所有坐标函数f i , i=1,2,…m 在x 0可微. 由实值函数可微性知, a ij =x x jix f =∂∂,j=1,2,…,n;i=1,2,…m.当f 在x 0可微时, f 在x 0的导数矩阵为:A=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛∂∂⋯∂∂∂∂⋯∂∂n m m n x f x f x f x f 1111=f ’(x 0)=Df(x 0).定理23.8:若向量函数f 在x 0可微, 则f 在x 0连续.定理23.9:若向量函数f 在x 0可微, 则f 的所有坐标函数f i (i=1,2,…m)在x 0关于每个自变量x j (j=1,2,…n)的一阶偏导数0x x ji x f =∂∂都存在. 由这些偏导数组成的矩阵(如上)便是f 在x 0的导数.定理23.10:若向量函数f 在点x 0的某邻域U(x 0)内处处存在一阶偏导数jix f ∂∂(i=1,2,…,m; j=1,2,…,n), 且所有这些偏导数在点x 0连续, 则f 在点x 0可微.例1:设X={(x 1,x 2)|-∞<x 1<+∞, x 2>0}⊂R 2, 向量函数f: X →R 4为 f(x)=f(x 1,x 2)=(x 12x 23,21x x e +,x 2,x 1lnx 2)T . 求f ’(x), x ∈X 和f ’(1,1).解:∵11x f ∂∂=2x 1x 23, 21x f ∂∂=3x 12x 22;12x f ∂∂=21x x e +, 22x f∂∂=21x x e +; 13x f ∂∂=0, 23x f ∂∂=1;14x f ∂∂=lnx 2, 22x f ∂∂=21x x; ∴f ’(x)=⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛++2122221321ln 10322121x x x e e x x x x x x x x , f ’(1,1)=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛10103222e e , 由定理23.10知f 在X 上可微.定理23.11:设D ⊂R n 为开集, x 0∈D ,f: D →R m . 则f 在x 0可微的充要条件是:存在一个(m 行n 列的)矩阵函数F: D →R mn , 它在x 0连续(相当于它的n 个列向量函数都在x 0连续), 并使得f(x)-f(x 0)=F(x)(x-x 0), x ∈D. 证:[必要性]根据可微的定义,当x ≠x 0时, 存在η: D →R m , 0lim xx →η(x)=0,使得f(x)-f(x 0)=f ’(x 0)(x-x 0)+η(x)0x x -=f ’(x 0)(x-x 0)+)(x x x -η(x-x 0)T (x-x 0)=[f ’(x 0)+0)(x x x -η(x-x 0)T ](x-x 0). 令F(x)=⎪⎩⎪⎨⎧='≠--+'00000),(,)()()(x x x f x x x x x x x x f T η, ∵)()(0x F x F -=00)()(x x x x x T--η≤)(x η→0(x →x 0), ∴F(x)在x 0连续.∴f(x)-f(x 0)=F(x)(x-x 0), x ∈D.[充分性]若存在F(x) 在x 0连续且f(x)-f(x 0)=F(x)(x-x 0), 则有 f(x)-f(x 0)=F(x 0)(x-x 0)+[F(x)-F(x 0)](x-x 0)=F(x 0)(x-x 0)+0)()(x x x F x F --(x-x 0)0x x -,令η(x)=⎪⎩⎪⎨⎧=≠---00000,0),()()(x x x x x x x x x F x F , 由F 在x 0连续知0lim x x →η(x)=0. 又f(x)-f(x 0)=F(x 0)(x-x 0)+η(x)0x x -, ∴f 在x 0可微且 A 由矩阵F(x 0)确定, 即f ’(x 0)=F(x 0).二、可微函数的性质 注:以下集合D ⊂R n 均为开集.定理23.12:设f,g: D →R m 是两个在x 0∈D 可微的函数, c 为任意实数,则cf 与f ±g 在x 0也可微,且有(cf)’(x 0)=cf ’(x 0), (f ±g)’(x 0)=f ’(x 0)±g ’(x 0). 证:由定理23.11关于可微的充要条件知, 存在矩阵函数F, G: D →R mn 在x 0连续, 且满足f(x)-f(x0)=F(x)(x-x0), g(x)-g(x0)=G(x)(x-x0), x∈D. 于是有(cf)(x)-(cf)(x0)=c[f(x)-f(x0)]=cF(x)(x-x0);(f±g)(x)-(f±g)(x0)=[f(x)-f(x0)]±[g(x)-g(x0)]=(F±G)(x)(x-x0).又由连续函数性质可知, 当F,G在x0连续时,cF, (F±G)(x)在x0连续. ∴cf与f±g满足定理23.11的条件, cf与f±g在x0可微.又f’(x0)=F(x0), g’(x0)=G(x0), ∴(cf)’(x0)=cf’(x0), (f±g)’(x0)=f’(x0)±g’(x0).定理23.13:设f: D→R m在x0∈D可微;D’⊂R m为开集, f(D)⊂D’;f: D’→R r在y0=f(x0)可微. 则复合函数h=g◦f: D→R r在x0可微, 且h’(x0)=(g◦f)’(x0)=g’(y0)f’(x0).证:由定理23.11关于可微的充要条件知,存在矩阵函数F: D→R mn在x0连续, G: D’→R rm在y0连续, 且满足f(x)-f(x0)=F(x)(x-x0), x∈D; g(y)-g(y0)=G(y)(y-y0), y∈D’. 于是有h(x)-h(x0)=g(f(x))-g(f(x0))=G(f(x))[f(x)-f(x0)]=G(f(x))F(x)(x-x0)=H(x)(x-x0),其中H(x)=G(f(x))F(x). 由连续函数性质可知, 当f, F在x0连续时,G在y0=f(x0)连续, 从而H在在x0连续. ∴h=g◦f满足定理23.11的条件, 即h在x0可微. 又f’(x0)=F(x0), g’(y0)=G(y0), 从而证得:h’(x0)=H(x0)=G(f(x0))F(x0)=G(y0)F(x0)=g’(y0)f’(x0). (链式法则)注:若令u=g(y), y=f(x), 用雅可比矩阵表示(g◦f)(x)的导数的链式法则:01111x x n r r n x u x u x u x u =⎪⎪⎪⎪⎪⎭⎫ ⎝⎛∂∂⋯∂∂∂∂⋯∂∂ =01111y y m r r m y u y u y u y u =⎪⎪⎪⎪⎪⎭⎫⎝⎛∂∂⋯∂∂∂∂⋯∂∂1111x x n m m n x u x y x y x y =⎪⎪⎪⎪⎪⎭⎫⎝⎛∂∂⋯∂∂∂∂⋯∂∂ .例2:设D ⊂R 2, f: D →R 2, f(D)⊂D ’⊂R 2, g: D ’→R, 则当f,g 均可微时, 试用两种形式表示h ’(x).解:复合函数h=g ◦f : D →R 在D 上可微, 且h ’(x)=(g ◦f)’(x)=g ’(y)f ’(x), 或⎪⎪⎭⎫ ⎝⎛∂∂∂∂21x u x u =⎪⎪⎭⎫ ⎝⎛∂∂∂∂21y u y u ⎪⎪⎪⎪⎭⎫⎝⎛∂∂∂∂∂∂∂∂22122111x y x y x y x y =⎪⎪⎭⎫⎝⎛∂∂∂∂+∂∂∂∂∂∂∂∂+∂∂∂∂222211122111x y y u x y y u x y y u x y y u .例3:设w=[f(x,u), g(y,v)]T , u=ψ(x,y,v), v=φ(x,y), 试计算w ’(x,y). 解:(x,y)T ↦(x,y,v)T ↦(x,y,u,v)T ↦(w 1,w 2)T , 即⎪⎪⎪⎭⎫ ⎝⎛v y x =⎪⎪⎪⎭⎫ ⎝⎛),(y x y x ϕ, ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛v u y x =⎪⎪⎪⎪⎪⎭⎫⎝⎛v v y x y x ),,(ψ, ⎪⎪⎭⎫ ⎝⎛21w w =⎪⎪⎭⎫⎝⎛),(),(v y g u x f , 则 w ’(x,y)=⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛∂∂∂∂∂∂∂∂∂∂∂∂⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂⎪⎪⎪⎪⎭⎫⎝⎛∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂y v x v y y xy y x x xv v y v xv v u y u xu v y y y xyv x y x x x v w uw y w x w v w u w y w xw 22221111=⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛y xv y x v yu xg g f f ϕϕψψψ1001100010001000=⎪⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛+y x v yv u yu xu x g g f f f f ϕϕψψψ10010=⎪⎪⎭⎫⎝⎛++++y v y x v v y u y u v x u x u x g g g f f f f f ϕϕψϕψψϕψ.定理23.14(微分中值不等式):设D ⊂R n 是凸开集, f: D →R m . 若f 在D 内可微,则对任何两点a,b ∈D, 必存在点ξ=a+θ(b-a), 0<θ<1, 使得)()(a f b f -≤a b f -')(ξ.证:令φ(x)=[f(b)-f(a)]T f(x), 则φ是D 上的一个实值函数, 且 满足中值定理的条件. ∴存在ξ=a+θ(b-a), 0<θ<1, 使得φ(b)-φ(a)=φ’(ξ)T (b-a), 其中φ’(ξ)T =[φx1(ξ),…,φxn (ξ)]=[f(b)-f(a)]T f ’(ξ). 又φ(b)-φ(a)=[f(b)-f(a)]T [f(b)-f(a)]=)()(a f b f -2,∴)()(a f b f -2=[f(b)-f(a)]T f ’(ξ)(b-a)≤a b f a f b f -'-)()()(ξ, 即)()(a f b f -≤a b f -')(ξ.三、黑赛矩阵与极值概念:对一元向量子数x: I →R n , I ⊂R, 即x 1=x 1(t),…,x n =x n (t),t ∈I, 只要x i (k)(t), i=1,2,…,n 存在, 按向量函数的导数定义, x 的k 阶导数 x (k)t=[x 1(k)(t), x n (k)(t)]T 也存在.对n 元实值函数f: D →R, D ⊂R n 为开集, 若f 在D 可微, 则由 f ’(x)=⎪⎪⎭⎫⎝⎛∂∂⋯∂∂n x f x f ,,1确定f 的导函数f ’: D →R n是一个向量函数(f 的梯度). 如果f ’在D(或D 内某点)上可微,则称f 在D(或D 内某点)上二阶可微, 并定义(f ’)T 的导数为f 的二阶导数, 记作f ”(x)或D 2f(x), 且f ”=⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛∂∂⋯∂∂∂∂∂∂⋯∂∂22112212nn rnx f x x ux x f x f. (黑赛矩阵) 当f 的二阶混合偏导数连续时, 该矩阵对称. 这时f 在x 0的二阶泰勒公式可简单写成 f(x)=f(x 0)+f ’(x 0)(x-x 0)+21(x-x 0)T f ”(x 0)(x-x 0)+o(20x x -).定理23.15:(极值必要条件)设D ⊂R n 为开集, 实值函数f: D →R 在x 0∈D 可微, 且取极值,则 (1) x 0必为f 的稳定点,即f ’(x 0)=0;(2)又若f 在x 0的某邻域U(x 0)⊂D 存在连续二阶偏导数, 则 当f(x 0)为极小值时, f 在x 0的黑赛矩阵f ”(x 0)为正定或正半定; 当f(x 0)为极大值时, f 在x 0的黑赛矩阵f ”(x 0)为负定或负半定. 推论:若f 在x 0的黑赛矩阵f ”(x 0)为不定时,则f 在x 0不取极值.定理23.16:(极值充分条件)上述函数f 若在U(x 0)⊂D 存在连续二阶偏导数,且f ’(x 0)=0,则当f ”(x 0)为正定(负定)时, f 在x 0取严格极小(极大)值.例4:试讨论二次函数f(x)=21x T Ax+b T x+c 的极值. 其中x ∈R n 为变量, A 为n ×n 对称矩阵, b 为n ×1向量, c 为实数.解:由f ’(x)=x T A+b T =0求得f 的稳定点x 0=-A -1b(A 可逆).又f ”(x)=A, 即当A 正定时f(x 0)为极小值;当A 负定时f(x 0)为极大值. f(x 0)=21(A -1b)T A(A -1b)-b T (A -1b)+c=21b T A -1b-b T A -1b+c=-21b T A -1b+c.当A 为不定阵时, 稳定点x 0相当于一个鞍点,这时x 0不是f 的极值点.习题1、证明定理23.12. 证:见定理23.12.2、求下列函数的导数:(1)f(x 1,x 2)=(x 1sinx 2,(x 1-x 2)2,2x 22)T , 求f ’(x 1,x 2)和f ’(0,2π); (2)f(x 1,x 2,x 3)=(x 12+x 2,x 2e x1+x3)T , 求f ’(x 1,x 2,x 3)和f ’(1,0,1).解:(1)f ’(x 1,x 2)=⎪⎪⎪⎭⎫ ⎝⎛---2212121240)(2)(2cos sin x x x x x x x x . f ’(0,2π)=⎪⎪⎪⎭⎫⎝⎛-πππ2001. (2)f ’(x 1,x 2,x 3)=⎪⎪⎭⎫ ⎝⎛+++31313122112x x x x x x e x e e x x . f ’(1,0,1)=⎪⎪⎭⎫⎝⎛000122e .3、设D ⊂R n 为开集, f,g: D →R m 均为可微函数. 证明:f T g 也是可微函数,且(f T g)’=f T g ’+g T f ’.证:对任x 0∈D, 由定理23.11关于可微的充要条件知, 存在矩阵函数F, G: D →R mn 在x 0连续, 且满足 f(x)-f(x 0)=F(x)(x-x 0), g(x)-g(x 0)=G(x)(x-x 0), x ∈D. 且有f ’(x 0)=F(x 0), g ’(x 0)=G(x 0), 于是有(f T g)(x)-(f T g)(x 0)=[(f T g)(x)-f T (x)g(x 0)]+[f T (x)g(x 0)-(f T g)(x 0)]=f T (x)[g(x)-g(x 0)]+[f(x)-f(x 0)]T g(x 0)=f T (x)[g(x)-g(x 0)]+g T (x 0)[f(x)-f(x 0)] =f T (x)G(x)(x-x 0)+g T (x 0)F(x)(x-x 0)=H(x)(x-x 0),x ∈D. H=f T (x)G(x)+g T (x 0)F(x).由f T (x),G(x),F(x)在x 0连续知,H(x)在x 0连续,由定理23.11, f T g 在x 0可微. 且有(f T g)’=f T g ’+g T f ’.4、定义函数f, g,h,z,t :f(x 1,x 2)=x 1-x 2, g(x)=(sinx,cosx)T , h(x 1,x 2)=(x 1x 2,x 2-x 1)T , s(x 1,x 2)=(x 12,2x 2,x 2+4)T , t(x 1,x 2,x 3)=(x 1x 2x 3,x 1+x 2+x 3)T . 试依链式法则求: (1)(f ◦g)’;(2)(g ◦f)’;(3)(h ◦h)’;(4)(s ◦h)’;(5)(t ◦s)’;(6)(s ◦t)’.解:(1)(f ◦g)’=(1,-1)⎪⎪⎭⎫ ⎝⎛-x x sin cos =cosx+sinx.(2)(g ◦f)’=21sin cos x x y y y -=⎪⎪⎭⎫⎝⎛-(1,-1)=⎪⎪⎭⎫ ⎝⎛------)sin()sin()cos()cos(21212121x x x x x x x x .(3)(h ◦h)’=⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛--==11111212122211x x y y x x y x x y =⎪⎪⎭⎫⎝⎛----12212121221122x xx x x x x x . (4)(s ◦h)’=⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫⎝⎛=11102002121211x x y xx y =⎪⎪⎪⎭⎫⎝⎛--112222221221x x x x . (5)(t ◦s)’=⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛+===1020021111422131322322211x y y y y y y x y x y x y =⎪⎪⎭⎫⎝⎛++328416412122121221x x x x x x x x . (6)(s ◦t)’=⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎭⎫⎝⎛=1111020022*******211x x x x x x y xx x y =⎪⎪⎪⎭⎫⎝⎛111222222322212322123221x x x x x x x x x .5、设u=f(x,y), v=g(x,y,u),w=h(x,u,v), 应用链式法则计算w ’(x,y). 解:(x,y)T ↦(x,y,u)T ↦(x,u,v)T ↦w, 即⎪⎪⎪⎭⎫ ⎝⎛u y x =⎪⎪⎪⎭⎫ ⎝⎛),(y x f y x , ⎪⎪⎪⎭⎫ ⎝⎛v u x =⎪⎪⎪⎭⎫⎝⎛),,(u y x g u x , w=h(x,u,v), 则w ’(x,y)=⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛∂∂∂∂∂∂∂∂∂∂∂∂⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂⎪⎭⎫⎝⎛∂∂∂∂∂∂y f x fy y x yy x x x u g yg x g u u y u xu u x y x x x v h uh xh=()⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎭⎫ ⎝⎛y xu yx v ux f f g g g h h h 1001100001=[])()(y u y v y u x u x v x u x f g g h f h f g g h f h h +++++.6、设D ⊂R n 为开集, f: D →R m 为可微函数, 证明: (1)若在D 上f ’(x)≡0(零矩阵),则f(x)为常向量函数; (2)若在D 上f ’(x)=c (常数矩阵),则f(x)=cx+b, x ∈D, b ∈R m .证法一:(1)设p 和p ’为开域内任两点,可用一条完全在D 内的折线 px 1…,x n-1p ’连接pp ’, 在直线段px 1上的每一点p 0存在邻域U(p 0)⊂D, U(p 0)是凸开域, f(x)在其上可微, 依定理23.14, 对任一x ∈U(p 0), 有)()(0p f x f -2=[f(x)-f(p 0)]Tf ’(ξ)(x-p 0), ξ=p 0+θ(x-p 0)∈U(p 0)⊂D, (0<θ<1),又矩阵f ’(ξ)≡0, ∴)()(0p f x f -2≡0. 即f(x)=f(p 0), 即 在U(p 0)内f(x)是常向量函数. 由p 0的任意性知f(p)=f(x 1). 同理可证f(p)=f(x 1)=…=f(p ’), ∴f(x)为D 上的常向量函数.(2)令g(x)=f(x)-cx, (x ∈D), 则g 在D 上可微且g ’(x)=f ’(x)-c=0, (x ∈D). 从而由(1)知:在R m 中存在向量b ,使g(x)=b, 即f(x)=cx+b, (x ∈D). 证法二:∵f: D →R m 为可微函数, ∴f(x)-f(x 0)=f ’(x)(x-x 0).(1)当f ’(x)≡0时, f(x)-f(x 0)=0, 即f(x)=f(x 0), ∴f(x)为D 上的常向量函数. (2)当f ’(x)=c 时, f(x)-f(x 0)=c(x-x 0)=cx-cx 0=cx+b, x ∈D, b=cx 0∈R m .7、设f: R n →R m 为可微函数,试求分别满足以下条件的函数f(x): (1)f ’(x)=I(单位矩阵);(2)f ’(x)=diag(φi (x i )), 即以φ1(x 1), φ2(x 2),…, φn (x n )为主对角线元的对角矩阵, x=(x 1,…,x n )T .解:(1)由第6题(2)得 f(x)=Ix+b=x+b, 其中b 为n ×1常数阵. (2)设f(x)=(f 1(x),…,f n (x))T , (x ∈R n ), 则f i 在R n 上可微(i=1,2,…,n)且f ’(x)=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛∂∂⋯∂∂∂∂⋯∂∂n nn n x f x f x f x f 1111(x ∈R n ). 由于f ’(x)=diag(φ1(x 1),…, φn (x n )) (x ∈R n ), ∴iix f ∂∂=φi (x i ), (i=1,2,…,n), 积分得f i (x)=⎰i i i dx x )(ϕ(i=1,2,…,n). ∴f(x)=(⎰111)(dx x ϕ,…,⎰n n n dx x )(ϕ) (x ∈R n ).8、求下列函数的黑赛矩阵,并判断该函数的极值点: (1)f(x)=x 12-2x 1x 2+2x 22+x 32-x 2x 3+x 1+3x 2-x 3; (2)f(x)=-x 12+4x 1x 2-2x 22+4x 32-6x 2x 3+6x 1x 3. 解:(1)f ’(x)=(2x 1-2x 2+1,-2x 1+4x 2-x 3+3,2x 3-x 2-1), 令f ’(x)=(0,0,0), 得f 的稳定点x 0=(617-,37-,32-)T. 又f ”(x)=⎪⎪⎪⎭⎫ ⎝⎛----210142022正定, ∴x 0是f 的极小值点.(2)f ’(x)=(-2x 1+4x 2+6x 3,4x 1-4x 2-6x 3,8x 3-6x 2+6x 1),∵f ”(x)=⎪⎪⎪⎭⎫ ⎝⎛----866644642既不正定也不负定, ∴f 无极值.9、设f,g,h,s,t 为第4题中的五个函数:(1)试问:除第4题第6小题中的两个函数复合外, 还有哪些两个函数可以进行复合, 并求这些复合函数的导数; (2)求下列复合函数的导数:①(g ◦f ◦h)’;②(s ◦t ◦s)’. 解:(1)①(f ◦h)’(x)=f ’(y)h ’(x)=(1,-1)⎪⎪⎭⎫⎝⎛-1112x x =(x 2+1,x 1-1). ②(f ◦t)’(x)=f ’(y)t ’(x)=(1,-1)⎪⎪⎭⎫⎝⎛111213132x x x x x x =(x 2x 3-1,x 1x 3-1,x 1x 2-1). ③(h ◦g)’(x)=h ’(y)g ’(x)=⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛-==x x y y x y x y sin cos 11cos sin 1221=⎪⎪⎭⎫⎝⎛---x x x x sin cos sin cos 22. ④(s ◦g)’(x)=s ’(y)g ’(x)=⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫⎝⎛=x x y x y sin cos 102002sin 11=⎪⎪⎪⎭⎫⎝⎛--x x x sin sin 22sin . ⑤(h ◦t)’(x)=h ’(y)t ’(x)=⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫⎝⎛-++==111112131321232123211x x x x x x y y x x x y x x x y=⎪⎪⎭⎫ ⎝⎛+-+-+-++++++111222213132221221321231321321322322321x x x x x x x x x x x x x x x x x x x x x x x x x x x . (2)①(g ◦f ◦h)’(x)=g ’(u)f ’(y)h’(x)=122121sin cos x x x x yy u u u +-=-=⎪⎪⎭⎫⎝⎛-(1,-1)⎪⎪⎭⎫⎝⎛-1112x x =⎪⎪⎭⎫⎝⎛-⎪⎪⎭⎫⎝⎛+-+--+--+-11)sin()sin()cos()cos(121221122112211221x x x x x x x x x x x x x x x x x x =⎪⎪⎭⎫⎝⎛+---+-+-+--+-+)sin()1()sin()1()cos()1()cos() 1(12211122121221112212x x x x x x x x x x x x x x x x x x x x .②(s ◦t ◦s)’(x)=s ’(u)t ’(y)s ’(x)=⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎪⎭⎫⎝⎛+====1020021111020021*******2123222113211x y y y y y y u x y x y x y y yy u =⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎭⎫⎝⎛+===1020021112222221423222123221232212322211x y y y y y y y y y x y x y x y =⎪⎪⎪⎭⎫⎝⎛+++3264)42()4(8)4(811222241222231x x x x x x x x x .10、设D ⊂R n 为开集, f: D →R m 在x 0∈D 可微. 试证明: (1)任给ε>0, 存在δ>0, 当x ∈U(x 0;δ)时, 有)()(0x f x f -≤()(0x f '+ε)0x x -;(2)存在δ>0, K>0, 当x ∈U(x 0;δ)时, 有)()(0x f x f -≤K 0x x -. (这称为在可微点邻域内满足局部利普希茨条件) 证:(1)由f 在x 0可微的定义知:0000))(()()(lim 0x x x x x f x f x f xx --'--→=0.从而任给ε>0, 存在δ>0, 当x ∈U(x 0;δ)时,000)])(([)]()([x x x x x f x f x f --'--<ε.又)()()()(000x x x f x f x f -'--≤)])(([)]()([000x x x f x f x f -'--, ∴000)()()()(x x x x x f x f x f --'--≤000)])(([)]()([x x x x x f x f x f --'--<ε.即有, 当x ∈U(x 0;δ)时, )()(0x f x f -≤()(0x f '+ε)0x x -.(2)取ε=1, 令K=)(0x f '+1>0, 由(1)知:存在δ>0, 当x ∈U(x 0;δ)时, 有)()(0x f x f -≤K 0x x -.11、设D ⊂R n 为凸开集, g: D →R m 是可微函数, 且满足:对任何x ∈D 和任何非零的h ∈R n , 恒有h T g ’(x)>0. 试证明:g 在D 上是一一映射. 证:反证法,若g 在D 上非一一映射,则存在x 1,x 2∈D, 且x 1≠x 2,使 g(x 1)=g(x 2), 令h=x 2-x 1≠0, 记f(x)=[g(x)-g(x 1)]T h, 则f 是D 上的实值函数. 由g 在凸开集D 上可微知f 在D 上可微, 对f 用中值定理, 有 f(x 2)-f(x 1)=f ’(ξ)h, ξ=x 1+θ(x 2-x 1), θ∈(0,1). 又f(x 2)-f(x 1)=0, 且由第3题知 f ’(ξ)=h T g ’(ξ)=0与题设h T g ’(x)>0矛盾, ∴g 在D 上非一一映射.12、设φ: R →R 二阶可导, 且有稳定点;f: R n →R,且 f(x)=φ(a·x), a,x ∈R n , a ≠0. (1)试求f 的所有稳定点;(2)证明f 的所有稳定点都是退化的,即在这些稳定点处, f ”(x)是退化矩阵(即在稳定点处det f ”(x)=0). 若A 为方阵,则detA 表示A 的行列式. (1)解:令t=a T x=a 1x 1+a 2x 2+…+a n x n , 则有(x 1,x 2,…,x n )↦t ↦y=f(x),则有 f ’(x)=φ’(t)t ’(x)=φ’(t)[a 1,a 2,…,a n ]=φ’(t)a T . 由a ≠0知, φ的任意稳定点t 0=a T x 的解x 0均为f 的稳定点.(2)证:由(1)知(f ’(x))T =⎪⎪⎪⎪⎪⎭⎫ ⎝⎛''')()()(21t a t a t a n ϕϕϕ , t=a T x=∑=n i i i x a 1, f ”(x)=⎪⎪⎪⎪⎪⎭⎫⎝⎛⋯''⋯''⋯''],,,)[(],,,)[(],,,)[(21212211n nn n a a a t a a a a t a a a a t a ϕϕϕ . 又由(1)知,当x 0是f 的稳定点时, t 0=a T x 0为φ的稳定点,从而det f ”(x)=a 1,a 2,…,a n (φ”(t 0))nnnnna a a a a a a a a ⋯⋯⋯22221=0.∴f 所有稳定点都是退化的.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
15
2.2.3 不等式约束条件下向量 函数的极值 库恩-图克定理:假设 标量函数 f ( x )及函数向量 g ( x )连续 x2 L x n ]T, g ( x ) = [g1 ( x )
可微, x = [ x1
g 2 ( x ) L g m ( x )]T,
dg m dg1 dg 2 且向量组 线性无关。若 f ( x )在不等式约束 , ,L , dx dx dx g ( x ) ≤ 0条件下的相对极小值解 为 x *,则必存在不同时为零 的数 λ1,
T
∂F ⎤ ⎥ ∂x n ⎦
∂F1 ⎤ ∂x n ⎥ ⎥ ∂F2 ⎥ ∂x n ⎥ = M ⎥ ∂Fm ⎥ ⎥ ∂x n ⎥ ⎦
⎡ ∂Fi ⎤ ⎢ ⎥ ∂ x ⎢ ⎣ j⎥ ⎦ m×n
( 3)
( 3 )式中的矩阵称为雅可比 ( Jacobi )矩阵。
4
dF ( X ) ⎡ ∂F =⎢ dX ⎣ ∂x1
f ( x )在 x * 处取相对极小值的必要 条件:
f ( x ) 在 x * 处取相对极小值的充分 ⎧ ⎛ df ⎞ ⎪ ⎜ dx ⎟ * = 0 ⎠x ⎪ ⎝ ⎨⎛ 2 ⎞ ⎪⎜ d f ⎟ > 0 ⎜ dx 2 ⎟ ⎪ ⎠ x* ⎩⎝ ⎡ ∂2 f ⎢ 2 ∂ x 1 ⎢ ⎢ ∂2 f 2 d f d ⎛ df ⎞ ⎢ = 其中 ⎜ ⎟= ∂ x 2 ∂ x 1 2 dx dx ⎝ dx ⎠ ⎢ M ⎢ 2 ⎢ ∂ f ⎢ ∂x ∂x ⎣ n 1
T
是F ( X )的梯度,记为 gradF ( x )或∇F ( x )。 求导法则类似 (1)、(2 )式。 dF ( X ) ⎡ ∂F =⎢ T dX ⎣ ∂x1 ∂F ∂x 2 ∂F ⎤ ⎡ dF ( X ) ⎤ L ⎥=⎢ ∂x n ⎦ ⎣ dX ⎥ ⎦
T
3
二、 F为函数向量时 F ( X )=[F1 ( X ) F1 ( X ) L Fm ( X )] dF ( X ) Δ dF ( X ) ⎡ ∂F = =⎢ T dX dX ⎣ ∂ x1 ⎡ ∂F1 ∂F1 ⎢ ∂x ∂x 2 ⎢ 1 ⎢ ∂F2 ∂F2 = ⎢ ∂ x1 ∂x 2 ⎢ M M ⎢ ∂F ∂Fm m ⎢ ∂x 2 ⎢ ⎣ ∂ x1 ∂F ∂x 2 L L L L L
T
求 x *,使 f ( x * )取极小值。 f ( x )在 x * 处取极值的一阶必要条 件: ⎛ df ⎞ ⎟ =0 ⎜ ⎝ dx ⎠ x * ⎧ ⎛ df ⎞ ⎪ ⎜ dx ⎟ * = 0 ⎠x ⎪⎝ ⎨⎛ 2 ⎞ ⎪⎜ d f ⎟ ≥ 0 ⎜ dx 2 ⎟ ⎪ ⎠ x* ⎩⎝
13
或
∇ f ( x * )=0
∂F ∂F F ( x , u )= F ( x 0 , u0 ) + δx + δ u + 高阶项 ∂x ∂u 其中 δx = x − x 0 , δ u = u − u0
12
2.2 函数极值的基本理论 2.2.1 向量函数的无条件极值 问题 2.2.1 f ( x )是 n维向量 x = [ x1 x2 L x n ] 的标量函数 ,
λ 2, L λ m,使得下列必要条件成 立:
(1) ( 2) dg i ( x * ) df ( x * ) m + ∑ λi =0 dx dx i =1 g i ( x * ) ≤ 0, i = 1,2, L , m
( 3) λ i ≥ 0, i = 1,2, L , m
( 4) λ i g i ( x * ) = 0, i = 1,2, L , m
第二章 矩阵微分与函数极值的基本理论
2.1 矩阵微分与向量函数的Taylor展开
常数矩阵:一个矩阵的所有元素都是常数,则称该矩 阵是常数矩阵。 函数矩阵:一个矩阵的元素中至少有一个是自变量的 函数,则称该矩阵是函数矩阵。 函数向量:
dF ( X ) 求 dX
1
2.1.1 当 X 为标量时
考虑 F ( X ) = f ij ( x ) n× m 为函数矩阵, 则 dF ( X ) Δ ⎡ df ij ( x ) ⎤ =⎢ ⎥ dX dx ⎣ ⎦ n× m F ( X )为函数向量时可看成是 函数矩阵的特例, 上式依然成立。 求导法则: d [F1 ( X ) ± F2 ( X )] dF1 ( X ) dF2 ( X ) ± = dX dX dX d [F1 ( X ) F2 ( X )] dF1 ( X ) dF ( X ) = F2 ( X )+ F1 ( X ) 2 dX dX dX 其中 F1 ( X )、 F2 ( X )为函数矩阵, 若 F1 ( X )、 F2 ( X )
T Δ
T
∂F ∂x 2
T
⎡ ∂F1 ⎢ ∂x ⎢ 1 ⎢ ∂F1 = ⎢ ∂x 2 ⎢ M ⎢ ∂F ⎢ 1 ⎢ ⎣ ∂x n 可见 dF ( X ) ⎡ dF ( X ) ⎤ =⎢ T ⎥ dX dX ⎣ ⎦
T T
∂F ⎤ L ⎥ ∂x n ⎦ ∂Fm ⎤ ∂F2 L ∂x1 ∂x1 ⎥ ⎥ ∂Fm ⎥ ∂F2 L ∂x 2 ∂x 2 ⎥ M L M ⎥ ∂Fm ⎥ ∂F2 ⎥ L ∂x n ∂x n ⎥ ⎦
[
T
]
T
T
6
当 F ( X )= X 时, dF ( X ) dX dX = = =I T dX dX dX dF T ( X ) dX T = =I dX dX 等式两边作移乘或移除 运算时应加转置。
7
三、 F ( X )为函数矩阵时, F ) =⎢ dX ⎣ ∂x1 dF ( X ) ⎡ ∂F ( X ) =⎢ T dX ⎣ ∂x1 ∂F ( X ) ∂F ( X ) ⎤ L ⎥ ∂x 2 ∂x n ⎦ nm×l ∂F ( X ) ∂F ( X ) ⎤ L ⎥ ∂x 2 ∂x n ⎦ m×ln
T
[
g2 ( x ) L
g p ( x) ,
]
T
dg p dg 1 dg 2 线性无关。若 f ( x ) 在等式约束 , ,L , p < n ,且向量组 dx dx dx g ( x ) = 0条件下的相对极小值解 为 x *,则必有不同时为零的 数 λ 1, L , λ p,使得 λ 2,
p dg i ( x * ) df ( x * ) + ∑ λi =0 dx dx i =1
[
]
∂ H ⎛∂ H⎞ ⎟ =⎜ ⎜ ∂u∂x ⎝ ∂x∂u ⎟ ⎠
2 2
T
11
二、设 F ( x , u )是 n维向量 x = [ x1 u = [u1 处的 Taylor 展开式为
u2 L um ]T 的函数向量,则 F ( x , u )在点 ( x 0 , u0 )
x 2 L x n ]T 和 m 维向量
T
T
5
求导法则: d [F1 ( X ) ± F2 ( X )] dF1 ( X ) dF2 ( X ) ± = dX dX dX d [a ( X )F ( X )] da ( X ) dF ( X ) F ( X )+a( X ) = dX dX dX
(a ( X )为标量函数) ( 4)
d F1 ( X )F2 ( X ) dF1 ( X ) dF2 ( X ) F X = )+ F1 ( X ) 2( dX dX dX
16
T
[
]
8
2.1.3
X为矩阵时, X = X ij n×m
[ ]
∂F ( X ) ⎤ ⎡ ∂F ( X ) L ⎢ ∂x ⎥ ∂ x 11 1m dF ( X ) ⎢ ⎥ =⎢ M L M ⎥ dX ⎢ ∂F ( X ) L ∂F ( X ) ⎥ ⎢ ∂x n 1 ⎥ ∂ x nm ⎣ ⎦
9
2.1.4 复合函数的导数 设 x、 y、 z分别表示 n、 m 、 l维列向量 t为标量自变量, f为标量函数 一、设 z = z ( y ), y = y ( t ), 则 dz dz dy = T dt dy dt 二、设 z = z ( y ), y = y ( x ), 则 dz dz dz dy , = T = T T dx dx dy dx 三、设 z = z ( y , x ), y = y ( x ), 则 dz dz ∂z ∂z dy = T = T + T dx dx ∂y dx T ∂x , dz T dy T dz T = dx dx dy dz T ∂z T dy T ∂z T = + dx ∂x dx ∂y
条件:
∂2 f ∂x1∂x 2 ∂2 f 2 ∂x 2 M ∂2 f ∂x n ∂x 2
L L L L
∂2 f ⎤ ⎥ ∂x1∂x n ⎥ ∂2 f ⎥ ∂x 2∂x n ⎥ ⎥ M ⎥ 2 ∂ f ⎥ 2 ∂x n ⎥ ⎦
14
2 .2 .2 等式约束条件下向量函 数的极值 拉格朗日定理:假设标 量函数 f ( x )及函数向量 g ( x )连续 可微, x = [ x1 x2 L x n ] , g ( x ) = g1 ( x )
10
2.1.5 向量函数的 Taylor展开 u = [u1
一、设 H ( x , u)是n维向量 x = [ x1 处的Taylor展开式为
u2 L um ]T 的标量函数, H ( x , u)在点( x0 , u0 )
T T
x 2 L x n ]T 和 m 维向量
⎛ ∂H ⎞ ⎛ ∂H ⎞ + H ( x , u) = H ( x0 , u0 ) + ⎜ x δ ⎜ ⎟ δu ⎟ ⎝ ∂x ⎠ ⎝ ∂u ⎠ ⎡ ∂2H ∂2H ⎤ ⎢ ⎥ ⎡δx ⎤ 2 1 T T ∂ ∂ ∂ x x u + δ x δu ⎢ 2 ⎥ ⎢ ⎥ + 高阶项 2 2 ⎢ ∂ H ∂ H ⎥ ⎣δu⎦ ⎢ ⎣ ∂ u∂ x ∂ u 2 ⎥ ⎦ 其中δx = x − x0 , δu = u − u0