Contents
▶︎
all
running...


第四章-矩阵分析

4.1.1 Definition: 向量范数定义

$V$是数域$F$上的线性空间,$\|x\|$是以$V$中向量$x$为自变量的实值函数,若满足以下三条性质:
(1) 正定性(或非负性): $\|x\|\geqslant 0, \|x\|=0$ 当且仅当 $x=0$
(2) 齐次性: $\forall k\in F$$x\in V, \|kx\|=|k|\|x\|$
(3) 三角不等式: $\forall x, y\in V, \|x+y\|\leqslant \|x\|+\|y\|(\text{or} |\|x\| - \|y\|| \leqslant \|x - y\|)$
则称 $\|x\|$ 是向量$x$的范数,$V$是数域$F$上的赋范线性空间,记为 $(V,\|\cdot\|)$

常见的向量范数有:$1$范数 、$2$范数、$\infty$ 范数、$p$ 范数。定义如下:
$\forall x = (x_1, x_2, \ldots, x_n)^\top \in \mathbb{C}^n$,

$$\begin{gathered} \|x\|_1 = \sum_{i=1}^{n} |x_i| \\ \|x\|_\infty = \max_{1 \leq i \leq n} |x_i| \\ \|x\|_2 = \left( \sum_{i=1}^{n} |x_i|^2 \right)^{\frac{1}{2}} \\ \|x\|_p = \left( \sum_{i=1}^{n} |x_i|^p \right)^{\frac{1}{p}} \end{gathered}$$

4.1.2 Example: 基于坐标的范数

设向量组 $\varepsilon_1, \varepsilon_2, \ldots, \varepsilon_n$$n$ 维线性空间 $V$ 的一组基,$V$ 中任意向量 $\alpha$ 在这组基下的坐标为 $x = (x_1, x_2, \ldots, x_n)^\top$。由此,我们可定义向量 $\alpha$ 的范数为

$$\|\alpha\| \stackrel{\text{def}}{=} \sqrt{\sum_{i=1}^{n} |x_i|^2}$$

4.1.3 Example: p-范数

$1\leqslant p\leqslant\infty$, $\forall x=\left(x_1, x_2,\cdots, x_n\right)^{\text{T}}\in \mathbb{C}^n$,定义

$$\|x\|_p=\left(\sum_{i=1}^n\left|x_i\right|^p\right)^{\frac{1}{p}}$$

$\|x\|_p$ 是向量 $x$ 的范数,称为 $p$-范数。

4.1.4 Lemma: Holder 与 Minkowski 不等式

(1) Holder 不等式. 设 $p, q>1$$\frac{1}{p}+\frac{1}{q}=1$,则对任意 $x=\left(x_1, x_2,\cdots, x_n\right)^{\text{T}}\in \mathbb{C}^n$$y=\left(y_1, y_2,\cdots, y_n\right)^{\text{T}}\in \mathbb{C}^n$,有

$$\sum_{i=1}^n\left|x_i y_i\right|\leqslant\left(\sum_{i=1}^n\left|x_i\right|^p\right)^{\frac{1}{p}}\left(\sum_{i=1}^n\left|y_i\right|^q\right)^{\frac{1}{q}}$$

(2) Minkowski 不等式. $\forall x=\left(x_1, x_2,\cdots, x_n\right)^{\text{T}}\in \mathbb{C}^n$$y=\left(y_1, y_2,\cdots, y_n\right)^{\text{T}}\in \mathbb{C}^n$ 以及 $p\geqslant 1$,则

$$\left(\sum_{i=1}^n\left|x_i+y_i\right|^p\right)^{\frac{1}{p}}\leqslant\left(\sum_{i=1}^n\left|x_i\right|^p\right)^{\frac{1}{p}}+\left(\sum_{i=1}^n\left|y_i\right|^p\right)^{\frac{1}{p}}$$

4.1.5 Example: 加权范数或椭圆范数

$A\in \mathbb{C}^{n\times n}$ 是正定 Hermite 矩阵, $\forall x\in \mathbb{C}^n$, 定义 $\|x\|_A=\sqrt{x^{H} A x}$,则 $\|x\|_A$ 是向量范数,常称为加权范数或椭圆范数。

Proof:

Cholesky 分解知,存在可逆矩阵 $W$ 使得 $A=W^{H} W$。因此,

$$\|x\|_A=\sqrt{x^{H} A x}=\|Wx\|_2$$

由式(4.1.6)容易证明正定性和齐次性。下面证明三角不等式:

$$\|x+y\|_A=\|W(x+y)\|_2\leqslant\|W x\|_2+\|W y\|_2=\|x\|_A+\|y\|_A$$

综上所述,$\|x\|_A$ 是向量 $x$ 的范数。

4.1.1 Theorem: 线性空间的范数连续

线性空间 $V$ 中任一范数 $\|x\|$ 都是其坐标的连续函数。

Proof:

$V$$n$ 维线性空间,$\epsilon_1,\cdots,\epsilon_n$$V$ 中一组基,则对 $V$ 中任意向量 $x$$y$

$$\begin{align*}& x=\xi_1\epsilon_1+\cdots+\xi_n\epsilon_n=\left[\epsilon_1\quad\cdots\quad\epsilon_n\right]\xi\\ & y=\eta_1\epsilon_1+\cdots+\eta_n\epsilon_n=\left[\epsilon_1\quad\cdots\quad\epsilon_n\right]\eta\end{align*}$$

式中:$\xi=\left(\xi_1,\cdots,\xi_n\right)^{\text{T}}$$\eta=\left(\eta_1,\cdots,\eta_n\right)^{\text{T}}$ 分别是向量 $x$$y$ 在基 $\epsilon_1,\cdots,\epsilon_n$ 下的坐标。
$\|x\|=\|[\epsilon_1\cdots\epsilon_n]\xi\|$ 知,任一范数 $\|x\|$ 都是向量 $x$ 坐标的函数,故

$$\begin{align*}&\|x\|-\|y\|\leqslant\|x-y\|=\left\|\sum_{i=1}^n\left(\xi_i-\eta_i\right)\epsilon_i\right\|\\ &\leqslant\sum_{i=1}^n\left|\left(\xi_i-\eta_i\right)\right|\left\|\epsilon_i\right\|\leqslant\kappa\left[\sum_{i=1}^n\left|\left(\xi_i-\eta_i\right)\right|^2\right]^{\frac{1}{2}}\end{align*}$$

式中:$\kappa=\left(\sum_{i=1}^n\left\|\epsilon_i\right\|^2\right)^{\frac{1}{2}}$ 是正常数。
$\xi_i\rightarrow\eta_i(i=1,\cdots, n)$ 时,$|| x\|-\| y\||\rightarrow 0$,即 $\| x\|\rightarrow\| y\|$。因此,$\| x\|$ 是其坐标 $\xi_j$ 的连续函数。证毕。

{注}:由于连续函数在有界闭集上一定有最大值和最小值,故研究赋范线性空间上的连续函数或变换的一个重要技巧就是设法将函数的定义域限制或转移到“单位圆”上,即 $\|x\|=1$ 的集合。

4.1.2 Definition: 等价范数

$V$ 是数域 $F$ 上的有限维线性空间,$\|x\|_\alpha$$\|x\|_\beta$$V$ 中任意两个向量范数。若存在正数 $k_1$$k_2$ 使得 $\forall x\in V$,都有

$$k_1\|x\|_\beta\leqslant\|x\|_\alpha\leqslant k_2\|x\|_\beta$$

则称 $\|x\|_\alpha$$\|x\|_\beta$ 是等价的。

4.1.2 Theorem: 有限维线性空间范数等价

有限维线性空间中的任意向量范数都是等价的。

Proof:

设向量组 $\epsilon_1,\cdots,\epsilon_n$ 是线性空间 $V$ 中一组基,则对 $V$ 中任意向量 $x$,有

$$x=\xi_1\epsilon_1+\cdots+\xi_n\epsilon_n=\left[\epsilon_1\quad\cdots\quad\epsilon_n\right]\xi$$

式中:$\xi=\left(\xi_1,\cdots,\xi_n\right)^{\text{T}}$ 是向量 $x$ 在基 $\epsilon_1,\cdots,\epsilon_n$ 下的坐标。

$\|x\|_\alpha$$\|x\|_\beta$$V$ 中的两个不同范数。当 $x=\theta$ 时,$k_1\|x\|_\beta\leqslant\|x\|_\alpha\leqslant k_2\|x\|_\beta$ 显然成立。
现考察 $x\neq\theta$ 的情况。由定理 4.1.1 知,$\|x\|_\alpha$$\|x\|_\beta$ 均是坐标 $\xi$ 的连续函数。定义函数 $f(\xi)$ 和集合 $S$

$$\begin{gathered} f(\xi)=\frac{\|x\|_a}{\|x\|_\beta}\\ S=\left\{\eta\in F^n\left|\sum_{i=1}^n\left|\eta_i\right|^2=1\right.\right\} \end{gathered}$$

$f(\xi)$ 也是 $\xi$ 的连续函数,集合 $S$$F^n$ 中的一个单位超球面且为有界闭集.

注意到:

$$\frac{\|x\|_\alpha}{\left(\sum_{i=1}^n |\xi_i|^2\right)^{\frac{1}{2}}} = \left\|\frac{\xi_1 \epsilon_1 + \cdots + \xi_n \epsilon_n}{\left(\sum_{i=1}^n |\xi_i|^2\right)^{\frac{1}{2}}}\right\|_\alpha = \|[ \epsilon_1 \cdots \epsilon_n ] \xi'\|_\alpha$$

$$\frac{\|x\|_\beta}{\left(\sum_{i=1}^n |\xi_i|^2\right)^{\frac{1}{2}}} = \left\|\frac{\xi_1 \epsilon_1 + \cdots + \xi_n \epsilon_n}{\left(\sum_{i=1}^n |\xi_i|^2\right)^{\frac{1}{2}}}\right\|_\beta = \|[ \epsilon_1 \cdots \epsilon_n ] \xi'\|_\beta$$

式中:

$$\xi'=\left(\frac{\xi_1}{\left(\sum_{i=1}^n\left|\xi_i\right|^2\right)^{\frac{1}{2}}},\cdots,\frac{\xi_n}{\left(\sum_{i=1}^n\left|\xi_i\right|^2\right)^{\frac{1}{2}}}\right)^T\in S$$

此时,$f(\xi)$ 等价为

$$\begin{align*} & f\left(\xi'\right)=\frac{\sum_{i=1}^n\left|\xi_i\right|^2}{\|x\|_\beta} \end{align*}$$

由于连续函数 $f\left(\xi'\right)$ 在有界闭集 $S$ 上必有最大值 $k_2$ 和最小值 $k_1$ ,则 $k_1\|x\|_\beta\leqslant\|x\|_\alpha\leqslant k_2\|x\|_\beta$
证毕。

4.1.1 Proposition: 向量等价范数的性质

$V$ 是数域 $F$ 上的有限维线性空间,若向量范数 $\|x\|_\alpha$$\|x\|_\beta$ 等价,则满足
(1) 自反性:$1\cdot\|x\|_\alpha\leqslant\|x\|_\alpha\leqslant 1\cdot\|x\|_\alpha;$
(2) 对称性:$\frac{1}{k_2}\|x\|_\alpha\leqslant\|x\|_\beta\leqslant\frac{1}{k_1}\|x\|_\alpha;$
(3) 传递性:若 $\|x\|_\beta$$\|x\|_\gamma$ 等价,则向量范数 $\|x\|_\alpha$$\|x\|_\gamma$ 等价。

4.2.1 Definition: 矩阵向量范数

对任意矩阵 $A\in \mathbb{C}^{m\times n}$,定义 $\|A\|$ 是对应以矩阵 $A$ 为自变量的实值函数,且满足以下三条性质:
(1) 正定性(或非负性): $\|A\|\geqslant 0$,当且仅当 $A=O$ 时,有 $\|A\|=0$;
(2) 齐次性:$\forall k\in \mathbb{C}, \|kA\|=|k|\|A\|$;
(3) 三角不等式:$\forall A,B\in \mathbb{C}^{m\times n}$,有 $\|A+B\|\leqslant\|A\|+\|B\|$.
则称 $\|A\|$ 是矩阵 $A$ 的向量范数.

4.2.1 Example: 常见矩阵向量范数

$A=\left(a_{ij}\right)\in \mathbb{C}^{m\times n}$,则

$$\begin{align*} \|A\|_{v1} &= \sum_{i=1}^m\sum_{j=1}^n\left|a_{ij}\right|, \\ \|A\|_{v\infty} &= \max_{\forall i, j}\left|a_{ij}\right|, \\ \|A\|_{v2} &= \left(\sum_{i=1}^m\sum_{j=1}^n\left|a_{ij}\right|^2\right)^{\frac{1}{2}}, \\ \|A\|_{vp} &= \left(\sum_{i=1}^m\sum_{j=1}^n\left|a_{ij}\right|^p\right)^{\frac{1}{p}}, \quad p\geqslant 1 \end{align*}$$

{注}:矩阵向量范数的定义与向量范数的相同,只是将向量 $x$ 替换为矩阵 $A$

4.2.2 Definition: 矩阵范数

对任意矩阵 $A\in \mathbb{C}^{m\times n}$,定义 $\|A\|$ 均是对应以矩阵 $A$ 为自变量的实值函数,且满足以下四条性质:
(1) 正定性:$\|A\|\geqslant 0$,当且仅当 $A=O$ 时,有 $\|A\|=0$;
(2) 齐次性:$\forall k\in \mathbb{C}, \|kA\|=|k|\|A\|$;
(3) 三角不等式:$\|A+B\|\leqslant\|A\|+\|B\|$;
(4) 矩阵乘法相容性:$\|AB\|\leqslant\|A\|\|B\|$.
则称 $\|A\|$ 是矩阵 $A$ 的矩阵范数。

显然矩阵范数是特殊的矩阵向量范数。

4.2.2 Example: Frobenius 范数

$A=\left(a_{ij}\right)\in \mathbb{C}^{m\times n}$,则

$$\|A\|_{v2}=\left(\sum_{i=1}^m\sum_{j=1}^n\left|a_{ij}\right|^2\right)^{\frac{1}{2}}=\left[\operatorname{tr}\left(A^{H} A\right)\right]^{\frac{1}{2}} = \sqrt[]{\sum_{i=1}^{n} \delta _i}$$

$A$ 的矩阵范数。其中 $\delta_i$$A^{H} A$ 的奇异值。

Proof:

(1)~(3) 的证明与矩阵向量范数相同,下面证明矩阵乘法相容性。
(4) 乘法相容性:$\|AB\|_{v2}^2=\sum_{i=1}^m\sum_{j=1}^p\left|c_{ij}\right|^2$,其中

$$\begin{gathered} \left|c_{ij}\right|^2=\left|\sum_{k=1}^n a_{ik} b_{kj}\right|^2\leqslant\left(\sum_{k=1}^n\left|a_{ik} b_{kj}\right|\right)^2 \\ \leqslant\left(\sum_{k=1}^n\left|a_{ik}\right|^2\right)\left(\sum_{k=1}^n\left|b_{kj}\right|^2\right) \\ \left\|AB\right\|_{v2}^2\leqslant\sum_{i, j}\left[\left(\sum_{k=1}^n\left|a_{ik}\right|^2\right)\left(\sum_{k=1}^n\left|b_{kj}\right|^2\right)\right]=\left\|A\right\|_{v2}^2\left\|B\right\|_{v2}^2 \end{gathered}$$

因此,$\|A\|_{v2}$$A$ 的矩阵范数。证毕。

{注}:\(\|A\|_{v2}\) 范数称为 Frobenius 范数,简称为$F$-范数,并常记为\(\|A\|_F\).

4.2.3 Theorem: F 范数的性质

$A=\left(a_{ij}\right)\in \mathbb{C}^{m\times n}$$x\in \mathbb{C}^n$,则
(1) $\|UA\|_F=\|AV\|_F=\|UAV\|_F=\|A\|_F$,其中 $U$$V$ 是酉矩阵;
(2)

$$\|A\|_F^2=\sum_{i=1}^n\|\beta_i\|_2^2 =\sum_{i=1}^m\|\alpha_i\|_2^2$$

其中矩阵 $A$ 按列分块,记为
$$A=\left[\beta_1\cdots\beta_n\right]$$

或矩阵 $A$ 按行分块,记为

$$A=\left[\begin{array}{c}\alpha_1^T\\ \vdots\\ \alpha_m^T\end{array}\right]$$

(3) $\|Ax\|_2\leqslant\|A\|_F\|x\|_2.$

Proof:

只对(3)进行证明。
对矩阵 \(A\) 行分块得

$$\|A x\|_2=\left\|\begin{array}{c} \alpha_1^{T} x\\ \vdots\\ \alpha_m^{T} x \end{array}\right\|_2=\left(\sum_{i=1}^m\left|\alpha_i^{T} x\right|^2\right)^{\frac{1}{2}}$$

根据 Cauchy 不等式得 \(\left|\alpha_i^{T} x\right|\leqslant\left\|\alpha_i\right\|\_2\| x\|\_2\), 并将其代入上式得

$$\|A x\|_2\leqslant\left(\sum_{i=1}^m\|\alpha_i\|_2\right)\|x\|_2=\|A\|_F\|x\|_2$$

4.2.3 Example: 构造矩阵范数

$A\in \mathbb{C}^{n\times n}, \|\cdot\|$ 是某一给定矩阵范数。定义

$$\|A\|_m = \|P^{-1}AP\|$$

$\|\cdot\|_m$ 是矩阵范数,其中 $P$$n$ 阶可逆矩阵。

4.3.1 Definition: 向量范数与矩阵范数相容

若对任意 $A\in \mathbb{C}^{m\times n}$$x\in \mathbb{C}^n$,向量范数 $\|x\|_v$ 与矩阵范数 $\|A\|_m$ 满足

$$\|Ax\|_v \leqslant \|A\|_m \|x\|_v$$

则称向量范数 $\|x\|_v$ 与矩阵范数 $\|A\|_m$ 相容。

4.3.1 Theorem: 相容向量范数存在性

$\|A\|_m$$\mathbb{C}^{n \times n}$的一个矩阵范数,则必存在$\mathbb{C}^n$上与之相容的向量范数。

Proof:

取定非零向量 $\alpha=\left(\alpha_1,\cdots,\alpha_n\right)^{T}\in \mathbb{C}^n$ , 则对任意向量 $x=\left(x_1,\cdots, x_n\right)^{T}\in \mathbb{C}^n$ , 定义

$$\|x\|_v=\left\|x\alpha^{T}\right\|_m$$

因此:
(1) 正定性: $\|x\|_v\geqslant 0$ 成立; $\|x\|_v=0$ 当且仅当 $x\alpha^{T}=O$ , 即

$$a_i x_j=0,\quad i, j=1,\cdots, n$$

上式成立的充分必要条件为 $x=0$.

(2) 齐次性: $\forall k\in \mathbb{C},\|k x\|_v=|k|\|x\|_v.$
(3) 三角不等式: 设 $x=\left(x_1,\cdots, x_n\right)^{T}\in \mathbb{C}^n$$y=\left(y_1, y_2,\cdots, y_n\right)^{T}\in \mathbb{C}^n$ , 则

$$\|x+y\|_v=\|x\alpha^{T}+y\alpha^{T}\|_m\leqslant\left\|x\alpha^{T}\right\|_m+\left\|y\alpha^{T}\right\|_m=\|x\|_v+\left\|y\right\|_v$$

(4) 相容性: $\forall A\in \mathbb{C}^{n\times n},\left\|A x\right\|_v=\left\|A x\alpha^{T}\right\|_m\leqslant\left\|A\right\|_m\left\|x\alpha^{T}\right\|_m=\left\|A\right\|_m\|x\|_v$

4.3.2 Theorem: 算子范数存在性

$\|x\|_v$$\mathbb{C}^n$上的一个向量范数,对任意矩阵$A \in \mathbb{C}^{m \times n}$,定义

$$\|A\| = \max_{\|x\|_v = 1} \|Ax\|_v$$

$\|A\|$是一个与$\|x\|_v$相容的矩阵范数,称该矩阵范数是从属于向量范数$\|\cdot\|_v$的算子范数或由向量范数$\|\cdot\|_v$诱导的矩阵范数。

Proof:

(1) 正定性: $\|A\|\geqslant 0$ 显然成立, 且有 $A=O\Rightarrow\|A\|=0$. $\|A\|=0$ 意味着对满足 $\|x\|_v=1$ 的任意向量 x 都有 $A x=0$. 此时, 齐次线性方程组 $A x=0$ 的解空间的维数为 n. 根据定理 2.3.6 知, $\operatorname{rank}(A)=0$. 因此, $A=O$.

(2) 齐次性: $\forall k\in \mathbb{C}$, 有

$$\|kA\|=\max_{\|x\|_v=1}\|k A x\|_v=|k|\max_{\|x\|_v=1}\|Ax\|_v=|k|\|A\|$$

(3) 三角不等式: $\forall B\in \mathbb{C}^{m\times n}$, 必存在 $\|x\|_v=1$ 的向量 $x_0\in \mathbb{C}^n$ 满足

$$\begin{align*} &\|A+B\|=\|(A+B) x_0\|_v\leqslant\|A x_0\|_v+\|B x_0\|_v\\ &\leqslant\max_{\|x\|_v=1}\|A x\|_v+\max_{\|x\|_v=1}\|B x\|_v=\|A\|+\|B\| \end{align*}$$

(4) 矩阵乘法相容性: 对任意矩阵 $B\in \mathbb{C}^{m\times p}$$C\in \mathbb{C}^{n\times p}$, 必存在 $\|y_0\|=1$$y_0\in \mathbb{C}^n$ 满足

$$\|BC\|=\|(BC) y_0\|_v$$

$\|C y_0\|_v=0$, 则 $\|B C\|=0$. 性质(4)成立.

$\|C y_0\|_v\neq 0$, 则有

$$\begin{align*} \|BC\|=\|(BC) y_0\|_v&=\left\|B\left(\frac{1}{\left\|C y_0\right\|_v} C y_0\right)\|C y_0\|_v\right\|_v\\ &=\left\|B\left(\frac{1}{\left\|C y_0\right\|_v} C y_0\right)\right\|_v\|C y_0\|_v\\ &\leqslant\|B\|\left\|C y_0\right\|_v\leqslant\|B\|\left\|C\right\| \end{align*}$$

(5) 矩阵范数与向量范数的相容性: 若 $x=0,\|Ax\|_v=\|A\|\|x\|_v=0$. 若 $x\neq 0$, 有

$$\|A x\|_v=\left\|A\frac{1}{\|x\|_v} x\right\|_v\leqslant\|A\|\|x\|_v$$

因此, 矩阵范数是从属于向量范数 $\|\cdot\|$ 的算子范数.

算子范数也可用如下等价定义式:

\[\|A\| = \max\_{\|x\|\_v \neq 0} \frac{\|Ax\|\_v}{\|x\|\_v}\]

{注}:由上可知,对于一个矩阵范数,必存在一个与之相容的向量范数;对于一个向量范数,必存在一个与之相容的矩阵范数。
常见的向量范数有:$1$范数 、$2$范数、$\infty$ 范数,则其对应的算子范数为:

$$\begin{align*} \|A\|_1 &= \max_{\|x\|_1=1} \|Ax\|_1 = \max_{1\leq j\leq n}\sum_{i=1}^m|a_{ij}| &\quad(列和范数) \\ \|A\|_2 &= \max_{\|x\|_2=1} \|Ax\|_2 =\sqrt{\sigma_{\max }(A^HA)} &\quad(谱范数)\\ \|A\|_\infty &=\max_{\|x\|_\infty=1} \|Ax\|_\infty = \max_{1\leq i\leq m}\sum_{j=1}^n|a_{ij}| &\quad(行和范数) \end{align*}$$

谱范数的最后一个等号的证明如下:

Proof:

{注}:矩阵范数与向量范数相容中定义的不等式是为了不等式的放缩,而显然相容于一个向量范数的矩阵范数不止一个。若存在常数 $M$ 使得对任意向量 $x\in \mathbb{C}^n$, 有 $\|Ax\|_v \leq M\|x\|_v$, 则 $\|A\|_v = \max_{\|x\|_v=1} \|Ax\|_v \leq M$,即从属于范数 $\|x\|_v$ 的算子范数 $\|A\|_v$ 是使不等式 $\|Ax\|_v \leq M\|x\|_v$ 成立的最小常数,即其放缩效果最好。

4.5.1 Definition: 谱半径

给定复方阵$A$,记

$$S_p(A) = \{\lambda \mid \lambda \text{ 是 } A \text{ 的特征值}\}$$

则称$S_p(A)$是矩阵$A$的谱,称$A$的特征值模的最大值为$A$的谱半径,记为$\rho(A)$

4.5.1 Theorem: 谱半径不大于矩阵范数

复方阵的谱半径不大于它的任一矩阵范数。

Proof:

$\lambda$是复方阵$A$的任一特征值,$x$是属于$\lambda$的特征向量,则$Ax = \lambda x$。对任意矩阵范数$\|\cdot\|$,有

$$|\lambda|\|x\| = \|\lambda x\| = \|Ax\| \leq \|A\|\|x\|$$

注意到$x \neq 0$,则有$|\lambda| \leq \|A\|$,即$\rho(A) \leq \|A\|$。证毕。

4.5.2 Theorem: 谱半径为矩阵范数的下确界

$A \in \mathbb{C}^{n \times n}$,任取正常数$\epsilon$,则必存在某个矩阵范数$\|\cdot\|$使得

$$\|A\| \leq \rho(A) + \epsilon.$$

4.5.2 Definition: 盖尔圆盘

$A = (a_{ij}) \in \mathbb{C}^{n \times n}$,令

$$\delta_i = \sum_{j=1, j \neq i}^n |a_{ij}|, \quad i = 1, \cdots, n$$

并定义

$$G_i = \{z \in \mathbb{C} \mid |z - a_{ii}| \leq \delta_i\}, \quad i = 1, \cdots, n$$

$G_i$是复平面上以$a_{ii}$为圆心、$\delta_i$为半径的闭圆盘,称为矩阵$A$的一个盖尔圆盘。

4.5.3 Theorem: 盖尔中心定理

$A = (a_{ij}) \in \mathbb{C}^{n \times n}$$n$个盖尔圆盘为$G_1, \ldots, G_n$,则矩阵$A$的任一特征值$\lambda \in \bigcup_{i=1}^n G_i$

Proof:

证明 设 $\lambda$ 是矩阵 $A$ 的任一特征值, $x=\left(x_1,\cdots, x_n\right)^{\top}$ 是属于特征值 $\lambda$ 的特征向量, 则有

$$a_{i1}x_1+\cdots+ a_{in}x_n=\lambda x_i,\quad i=1,\cdots, n$$

整理式得

$$\left(\lambda-a_{ii}\right) x_i=\sum_{k=1, k\neq i}^n a_{ik} x_k \tag{4.5.2}$$

定义

$$\left|x_o\right|=\max_{1\leqslant i\leqslant n}\left|x_i\right|>0,\quad\sigma\in\{1,\cdots, n\}$$

并考察式第 $\sigma$ 个方程,得

$$\left|\lambda-a_{\sigma\sigma}\right|\left|x_\sigma\right|=\left|\sum_{k=1, k\neq\sigma}^n a_{\sigma k} x_k\right|$$

注意到 $\left|x_0\right|>0$ ,则上式可改写为

$$\begin{align*} \left|\lambda-a_{\sigma\sigma}\right|&=\left|\sum_{k=1, k\neq\sigma}^n a_{\sigma k}\frac{x_k}{\left|x_{\sigma}\right|}\right| \\ &\leqslant\sum_{k=1, k\neq\sigma}^n\left(\left|a_{\sigma k}\right|\frac{\left|x_k\right|}{\left|x_{\sigma}\right|}\right)\leqslant\sum_{k=1, k\neq\sigma}^n\left|a_{\sigma k}\right| \end{align*}$$

上式表明,特征值 $\lambda$ 必在矩阵 $A$ 的盖尔圆盘 $G_{\sigma}$ 内。因此,矩阵 $A$ 的任一特征值必在 $\bigcup\_{i=1}^n G_i$ 内。证毕。

{注}:设 $A^{\top}$ 的盖尔圆盘为 $G'_1, \cdots, G'_n$,则 $G_i$ 与 $G'_i$ 有相同的圆心。因此,矩阵 $A$ 的特征值必满足 $$ \lambda \in \left(\bigcup_{i=1}^n G_i\right) \cap \left(\bigcup_{i=1}^n G'_i\right) $$
4.5.4 Theorem: 盖尔圆盘定理续

$A=\left(a_{ij}\right)\in \mathbb{C}^{n\times n}$的盖尔圆盘为$G_1,\cdots, G_n$,若其中的$k$个盖尔圆盘的并集形成一个连通区域,且该区域与其余$n-k$个圆盘都不相交,则此连通区域内恰有$k$个特征值。特别地,孤立盖尔圆盘内有且仅有一个特征值。

Proof:

$D=\text{diag}(a_{11},\cdots,a_{nn})\in \mathbb{C}^{n\times n}$$B=A-D$,并令$A(\varepsilon)=D+\varepsilon B$,其中$\varepsilon \in [0,1]$。显然,$A(0)=D$$A(1)=A$,且$A(\varepsilon)$$A$矩阵的盖尔圆有相同的圆心,但前者的半径是后者的$\varepsilon$倍。由于$\varepsilon \in [0,1]$,故$A(\varepsilon)$的任一盖尔圆都在$A$的相应盖尔圆内。
$\varepsilon$从 0 连续地变为 1 时,矩阵$A(\varepsilon)$$n$个特征值将连续变化,即特征值函数(以$\varepsilon$为自变量)在复平面上是$n$条连续的曲线,每条曲线的起点分别为$A$(或$D$)的对角元素,即某一盖尔圆的圆心,曲线终点为$A$的某一特征值。由定理 4.5.3 知,这$n$条连续曲线不能超出所有的盖尔圆。因此,$A$$k$个盖尔圆盘所围的连通区域中有且仅有$k$条曲线,即有且仅有$A$$k$个特征值。当$k=1$时,此连通域内有且仅有一个特征值。
证毕。

$A=\begin{bmatrix} 0 & -0.4 \\ 0.9 & 1 \end{bmatrix}$,下图展示了矩阵 $A(\varepsilon)$ 的特征值随矩阵变化的情况:

特征值随矩阵变化

4.5.1 Corollary: 非奇异矩阵的盖尔圆盘

设矩阵 $A\in \mathbb{C}^{n\times n}$$n$ 个盖尔圆盘为 $G_1,\cdots, G_n$,若原点 $0\notin \bigcup_{i=1}^n G_i$,则矩阵 $A$ 必为非奇异矩阵。

4.5.2 Corollary: 行(列)对角线占优矩阵

$A=\left(a_{ij}\right)\in \mathbb{C}^{n\times n}$ 是对角占优矩阵,即对 $i=1,\cdots, n$,有

$$\left|a_{ii}\right|>\sum_{j=1, j\neq i}^n \left|a_{ij}\right| \quad \text{(列对角占优)}$$

$$\left|a_{ii}\right|>\sum_{j=1, j\neq i}^n \left|a_{ij}>\right| \quad \text{(行对角占优)}$$

则矩阵 $A$ 非奇异。

{注}:在使用盖尔圆估计矩阵 $A$ 的特征值时,总希望获得更多的孤立圆,这时可采取如下方法:
取合适的非零实数 $d_1, \cdots, d_n$,并令 $D=\text{diag}(d_1, \cdots, d_n)$,则

$$B = DAD^{-1} = \left(a_{ij} \frac{d_i}{d_j}\right)_{n\times n}$$

显然,矩阵 $A$$B$ 相似,它们具有完全相同的特征值。我们可依据矩阵 $B$ 的盖尔圆来估计矩阵 $A$ 的特征值。通常 $d_i$ 的选取办法如下:
(1) 若取 $d_i<1$,其余元素为 1,则第 $i$ 个盖尔圆盘 $G_i$ 会缩小,其余所有盖尔圆盘会放大;
(2) 若取 $d_i>1$,其余元素为 1,则第 $i$ 个盖尔圆盘 $G_i$ 会放大,而其余所有盖尔圆盘会缩小。

4.6.1 Definition: 向量序列按范数收敛

$(V,\|\cdot\|_a)$$n$ 维赋范线性空间,$x_1, x_2, \cdots, x_k, \cdots$$V$ 中的一个向量序列,记为 $\{x_k\}$。若存在 $V$ 中向量 $x$ 满足

$$\lim_{k\rightarrow\infty}\|x_k-x\|_a=0$$

则称向量序列 $\{x_k\}$ 按范数 $\|\cdot\|_{\alpha}$ 收敛于 $x$,记作

$$\lim_{k\rightarrow\infty} x_k=x \quad \text{或} \quad x_k\xrightarrow{a} x$$

不收敛的向量序列称为发散的。

4.6.1 Theorem: 范数等价定理

$(V, \|\cdot\|)$$n$维赋范线性空间,$\{x_k\}$$V$的一个向量序列。若序列$\{x_k\}$按某种范数收敛于$x$,则序列$\{x_k\}$按任意范数收敛于$x$,即有限维空间中按范数收敛是等价的。

Proof:

$\|\cdot\|_a$$\|\cdot\|_\beta$$V$ 中任意两种范数, 则对 $V$ 中任意向量 $y$ 存在正常数 $k$ 使得

$$\|y\|_\beta \leqslant k\|y\|_a$$

由此,

$$0 \leqslant \|x_k - x\|_\beta \leqslant k\|x_k - x\|_a$$

$\lim_{k\rightarrow\infty}\|x_k - x\|_a = 0$, 由夹逼定理知

$$\lim_{k\rightarrow\infty}\|x_k - x\|_\beta = 0$$

即序列 $\{x_k\}$$\beta$ 范数收敛于 $x$, 反之亦然.

{注}:由于矩阵范数是特殊的向量范数,故由有限维空间中按矩阵范数收敛也是等价的。

4.6.2 Theorem: 向量序列的范数收敛与坐标收敛等价

$(V,\|\cdot\|)$$n$维赋范线性空间, $\{x_k\}$$V$ 中的一个向量序列且 $x \in V$. 向量序列 $\{x_k\}$ 按范数收敛于向量 $x$ 当且仅当它按坐标收敛于 $x$.

Proof:

定义向量范数:

$$\left\|x_k\right\|=\sqrt{\sum_{i=1}^n\left|\xi_i^{(k)}\right|^2}$$

则对任意 $i=1,\cdots, n$, 有

$$\lim_{k\rightarrow\infty}\left\|x_k-x\right\|=0\Leftrightarrow\lim_{k\rightarrow\infty}\left\|\xi_k-\xi\right\|=0\Leftrightarrow\lim_{k\rightarrow\infty}\xi_i^{(k)}=\xi_i$$

上式表明,由于所有范数都是等价的,故序列 $\{x_k\}$ 按范数收敛于 $x$ 当且仅当它按坐标收敛于 $x$. 证毕.

$m \times n$ 矩阵看作 $mn$ 维向量即可定义矩阵序列的敛散性.

4.6.3 Definition: 矩阵序列按坐标收敛

设矩阵序列 $\{A_k\}$,其中矩阵 $A_k = (a_{ij}^{(k)}) \in \mathbb{C}^{m \times n}, k=1,2,\ldots$,若当 $k \rightarrow \infty$ 时,矩阵 $A_k$ 的每一个元素 $a_{ij}^{(k)}$ 都有极限 $a_{ij}^{(0)}$,即

$$\lim_{k\rightarrow\infty} a_{ij}^{(k)} = a_{ij}^{(0)}, \quad 1 \leq i \leq m, 1 \leq j \leq n$$

则称矩阵序列按元素收敛或按坐标收敛(或简称为矩阵序列 $\{A_k\}$ 收敛),$A_0 = (a_{ij}^{(0)})$ 称为矩阵序列的极限,记为 $\lim_{k\rightarrow\infty} A_k = A_0$.

4.6.1 Proposition: 矩阵序列的收敛性质

设矩阵序列 $\{A_k\}$$\{B_k\}$ 分别收敛于复矩阵 $A$$B$, 则 $\forall c_1, c_2 \in \mathbb{C}$, 有

(1) $\lim_{k\rightarrow\infty} (c_1 A_k + c_2 B_k) = c_1 A + c_2 B, \text{其中} A_k, B_k \in \mathbb{C}^{m \times n};$
(2) $\lim_{k\rightarrow\infty} (A_k B_k) = AB, \text{其中} A_k \in \mathbb{C}^{m \times n}, B_k \in \mathbb{C}^{n \times p};$
(3) 若 $A_k$$A$ 为可逆矩阵, 则 $\lim_{k\rightarrow\infty} A_k^{-1} = A^{-1}$.

利用极限的性质,很容易证明上述命题。

4.6.1 Corollary: 矩阵范数与矩阵收敛

$\|\cdot\|$$\mathbb{C}^{m \times n}$ 上任一矩阵范数, $\mathbb{C}^{m \times n}$ 中矩阵序列 $\{A_k\}$ 收敛于矩阵 $A$ 的充分必要条件是

$$\lim_{k\rightarrow\infty} \|A_k - A_0\| = 0.$$

{注}:范数衡量了空间中“距离”的大小,直观上来看若 $\{A_k\}$ 对于所有的衡量“距离”的方式 $\| \cdot \|$ 都有上式成立,自然可以得到 $\{A_k\}$ 应该是收敛到 $A_0$ 的。

4.6.2 Corollary

复方阵 $A$ 的某一矩阵范数满足 $\|A\| < 1$, 则

$$\lim_{k\rightarrow\infty} A^k = 0$$

Proof:

由不等式 $\|A^k\| \leqslant \|A\|^k$ 知,当 $k \rightarrow \infty$ 时,$\|A^k\| \rightarrow 0$。根据推论 4.6.1 得,

$$\lim_{k\rightarrow\infty} A^k = O$$

{注}:这个推论只要求了存在一个范数满足条件,因为按范数收敛是等价的。

4.6.3 Theorem: 矩阵幂收敛的充分必要条件

$A=(a_{ij}) \in \mathbb{C}^{n \times n}$, $\lim_{k\rightarrow\infty} A^k = O$ 的充分必要条件是 $\rho(A) < 1$.

Proof:

对任一 $n$ 阶矩阵 $A$, 必存在可逆矩阵 $P$ 使得 $P^{-1} A P = J$, 其中 $J$ 为矩阵 $A$ 的 Jordan 标准形, 可表示为 $J = \operatorname{diag}(J_1, \cdots, J_s)$

$$J_i=\left[\begin{array}{cccccc} \lambda_i & 1 & & & & \\ & \lambda_i & 1 & & & \\ & & \ddots & \ddots & \\ & & & \lambda_i & 1 \\ & & & & \lambda_i \end{array}\right]_{n_i \times n_i}$$

$J_i (i=1, \cdots, s)$ 为矩阵 $A$ 的 Jordan 块. 此时, $A^k = P J^k P^{-1}$, 其中, $J^k = \operatorname{diag}(J_1^k, \cdots, J_s^k)$, $J_i^k (i=1, \cdots, s)$ 满足

$$J_i^k=\left[\begin{array}{ccccc} \lambda_i^k & C_k^1\lambda_i^{k-1} & C_k^2\lambda_i^{k-2} & \cdots & C_k^{n_i-1}\lambda_i^{k-n_i+1} \\ & \lambda_i^k & C_k^1\lambda_i^{k-1} & \cdots & C_k^{n_i-2}\lambda_i^{k-n_i+2} \\ & & \lambda_i^k & \ddots & \vdots \\ & & & \ddots & C_k^1\lambda_i^{k-1} \\ & & & & \lambda_i^k \end{array}\right]$$

$k \rightarrow \infty$ 时,

$$\lim_{k \rightarrow \infty} A^k = O \Leftrightarrow \lim_{k \rightarrow \infty} J^k = O \Leftrightarrow \lim_{k \rightarrow \infty} J_i^k = O, \quad \forall i \Leftrightarrow \rho(A) < 1$$

{注}:由于特征值可以看作矩阵对应线性变换的缩放因子,因此直观上矩阵的幂收敛到零意味着矩阵对应线性变换的缩放因子趋于零,即矩阵的所有特征值模小于 1。

4.6.4 Definition: 矩阵级数

设矩阵序列 $\{A_k \in \mathbb{C}^{m \times n}\}$, 称 $\sum_{k=1}^{\infty} A_k$ 为矩阵级数。令 $S_N = \sum_{k=1}^N A_k$, 称 $S_N$ 为矩阵级数的部分和。若矩阵序列 $\{S_N\}$ 收敛且有极限 $S$, 即

$$\lim_{N\rightarrow\infty} S_N = S,$$

则称矩阵级数 $\sum_{k=1}^{\infty} A_k$ 收敛且有和 $S$。不收敛的矩阵级数称为发散级数。

4.6.2 Proposition: 矩阵级数的收敛性

$A_k \in \mathbb{C}^{m \times n}$, 则以下命题成立:
(1) $\sum_{k=1}^{\infty} A_k$ 收敛 $\Leftrightarrow mn$ 个数值级数 $\sum_{k=1}^{\infty} a_{ij}^{(k)}$ 收敛;
(2) $\sum_{k=1}^{\infty} A_k$ 发散 $\Leftrightarrow$ 至少有一个数值级数 $\sum_{k=1}^{\infty} a_{ij}^{(k)}$发散;
(3) $\sum_{k=1}^{\infty} A_k$ 收敛 $\Rightarrow \lim_{k\rightarrow\infty} A_k = 0 \Leftrightarrow \lim_{k\rightarrow\infty} \|A_k\| = 0$

4.6.5 Definition: 矩阵级数的绝对收敛

$A_k \in \mathbb{C}^{m \times n}$, 若矩阵级数 $\sum_{k=1}^{\infty} A_k$ 所对应的 $mn$ 个数值级数 $\sum_{k=1}^{\infty} a_{ij}^{(k)}$, $1 \leq j \leq n, 1 \leq i \leq m$, 均绝对收敛, 则称矩阵级数 $\sum_{k=1}^{\infty} A_k$ 绝对收敛。

4.6.3 Proposition: 矩阵级数的绝对收敛性质

$A_k \in \mathbb{C}^{m \times n}$, 则以下命题成立:
(1) 若矩阵级数 $\sum_{k=1}^{\infty} A_k$ 绝对收敛, 则 $\sum_{k=1}^{\infty} A_k$ 收敛, 但 $\sum_{k=1}^{\infty} A_k$ 收敛并不蕴含 $\sum_{k=1}^{\infty} A_k$ 绝对收敛。
(2) 若矩阵级数 $\sum_{k=1}^{\infty} A_k$ 绝对收敛于 $S$, 对 $\sum_{k=1}^{\infty} A_k$ 任意重组重排得矩阵级数 $\sum_{k=1}^{\infty} B_k$, 则 $\sum_{k=1}^{\infty} B_k$ 绝对收敛于 $S$
(3) 对任意常矩阵 $P \in \mathbb{C}^{p \times m}$$Q \in \mathbb{C}^{n \times p}$, 若矩阵级数 $\sum_{k=1}^{\infty} A_k$ (绝对)收敛, 则矩阵级数 $\sum_{k=1}^{\infty} P A_k Q$ (绝对)收敛; 反之,则不然。

{注}:对矩阵部分和收敛性的研究转化为对数项级数的收敛性的研究。

4.6.4 Theorem: 矩阵级数的绝对收敛性

$A_k = (a_{ij}^{(k)}) \in \mathbb{C}^{m \times n}$, 则矩阵级数 $\sum_{k=1}^{\infty} A_k$ 绝对收敛当且仅当对任意矩阵范数,数值级数 $\sum_{k=1}^{\infty} \|A_k\|$ 收敛。

Proof:

充分性.
由级数 $\sum_{k=1}^{\infty} \|A_k\|_1$ 收敛知

$$\lim_{N \rightarrow \infty} \sum_{k=1}^{N} \left( \max_{1 \leq j \leq n} \sum_{i=1}^{m} \left| a_{ij}^{(k)} \right| \right) = 0$$

上式表明

$$\lim_{N \rightarrow \infty} \sum_{k=1}^{N} \left| a_{ij}^{(k)} \right| = 0, \quad 1 \leqslant j \leqslant n, 1 \leqslant i \leqslant m$$

即矩阵级数 $\sum_{k=1}^{\infty} A_k$ 绝对收敛.

必要性.
若矩阵级数 $\sum_{k=1}^{\infty} A_k$ 绝对收敛,则容易证明 $\sum_{k=1}^{\infty} \left\| A_k \right\|_1$ 收敛.由范数等价性知,对任意矩阵范数 $\|\cdot\|$ 存在正常数 $k_1$ 满足 $\left\| A_k \right\|_1 \geqslant k_1 \left\| A_k \right\|$ ,进而

$$0 \leqslant \sum_{k=1}^{\infty} \left\| A_k \right\| \leqslant \frac{1}{k_1} \sum_{k=1}^{\infty} \left\| A_k \right\|_1$$

由比较判别法得 $\sum_{k=1}^{\infty} \left\| A_k \right\|$ 收敛.证毕.

{注}:由证明过程可以看出,只需找到一个矩阵范数使得数值级数收敛(可以从简单的矩阵范数开始验证),即可得到矩阵级数绝对收敛。若无法得到矩阵绝对收敛,此时只能使用定义判断矩阵级数的收敛性。

4.6.6 Definition: 矩阵幂级数

$A \in \mathbb{C}^{n \times n}$, 定义矩阵级数 $\sum_{m=0}^{\infty} c_m A^m$, 其中 $A^0 = I$, 则称该级数为矩阵幂级数。

{注}:从矩阵级数的定义可以看出,其完全可以转换为数项级数的形式,因此矩阵级数的敛散性可以通过数项级数的敛散性来判断。对于矩阵幂级数,可以转换为对复变量幂级数的研究,常用到 Abel 定理判定其敛散性。

4.6.1 Lemma: Abel 幂级数收敛性判定

$z \in \mathbb{C}$, 若幂级数 $\sum_{m=0}^{\infty} c_m z^m$$z = z_0$ 点收敛,则对满足不等式 $|z| < |z_0|$ 的幂级数都绝对收敛。反之,若幂级数 $\sum_{m=0}^{\infty} c_m z^m$$z = z_0$ 点发散,则对满足不等式 $|z| > |z_0|$ 的幂级数都发散。

若存在非负实数或无穷大数 $r$ 满足 $|z| < r$ 时,幂级数 $\sum_{m=0}^{\infty} c_m z^m$ 收敛;而 $|z| > r$ 时,幂级数 $\sum_{m=0}^{\infty} c_m z^m$ 都发散,则称 $r$ 为收敛半径。

4.6.5 Theorem: Abel型定理

设复变量幂级数 $\sum_{m=0}^{\infty} c_m z^m$ 的收敛半径为 $r$,矩阵 $A \in \mathbb{C}^{n \times n}$ 的谱半径为 $\rho(A)$,则
(1) 当 $\rho(A) < r$ 时,$\sum_{m=0}^{\infty} c_m A^m$ 绝对收敛;
(2) 当 $\rho(A) > r$ 时,$\sum_{m=0}^{\infty} c_m A^m$ 发散。

Proof:

$\rho(A) < r$ 时,必存在正常数 $\varepsilon$ 使得 $\rho(A) + \varepsilon < r$,因为 $r - \rho(A) > 0$,故令 $\varepsilon= \frac{r - \rho (A)}{2}$即可。
又知对给定正常数 $\varepsilon$,必存在某一矩阵范数 $\|\cdot\|$ 使得 $\|A\| < \rho(A) + \varepsilon$,即 $\|A\| < r$

由不等式

$$\|c_m A^m\| \leq |c_m| \|A\|^m < |c_m| r^m$$

和当 $|z| < r$ 时数值幂级数 $\sum_{m=0}^{\infty} c_m z^m$ 收敛知,$\sum_{m=0}^{\infty} \|c_m A^m\|$ 收敛,即 $\sum_{m=0}^{\infty} c_m A^m$ 绝对收敛。

$\rho(A) > r$ 时,设 $\lambda_0 = \rho(A)$$\alpha_0$ 为属于 $\lambda_0$ 的单位特征向量,则有 $A\alpha_0 = \lambda_0 \alpha_0$。假设矩阵级数 $\sum_{m=0}^{\infty} c_m A^m$ 收敛,则级数 $\alpha_0^H (\sum_{m=0}^{\infty} c_m A^m) \alpha_0$ 收敛。此时,

$$\alpha_0^H (\sum_{m=0}^{\infty} c_m A^m) \alpha_0 = \sum_{m=0}^{\infty} c_m \alpha_0^H A^m \alpha_0 = \sum_{m=0}^{\infty} c_m \alpha_0^H \lambda_0^m \alpha_0 = \sum_{m=0}^{\infty} c_m \lambda_0^m$$

注意到数值级数 $\sum_{m=0}^{\infty} c_m \lambda_0^m$ 发散,故级数 $\alpha_0^H (\sum_{m=0}^{\infty} c_m A^m) \alpha_0$ 发散,这与假设矛盾。因此,矩阵幂级数 $\sum_{m=0}^{\infty} c_m A^m$ 发散。

{注}:当 $r = \rho(A)$ 时,矩阵幂级数 $\sum_{m=0}^{\infty} c_m A^m$ 的敛散性不确定,需要进一步研究。

4.6.4 Corollary

若幂级数 $\sum_{m=0}^{\infty} c_m z^m$ 在整个复平面上都收敛,则对任意复方阵 $A$,有矩阵幂级数 $\sum_{m=0}^{\infty} c_m A^m$ 收敛。

4.6.5 Corollary: Neumann 级数

矩阵幂级数 $\sum_{m=0}^{\infty} A^m$ 收敛,当且仅当 $\rho(A) < 1$,此时 $\sum_{m=0}^{\infty} A^m = (I - A)^{-1}$.

Proof:

由于幂级数 $\sum_{m=0}^{\infty} z^m$ 的收敛半径为 1,故当 $\rho(A) < 1$ 时,$\sum_{m=0}^{\infty} A^m$ 绝对收敛。

反之,若幂级数 $\sum_{m=0}^{\infty} A^m$ 收敛,必有当 $k \rightarrow \infty$ 时,矩阵序列 $A^k \rightarrow 0$。又知,矩阵序列 $A^k \rightarrow 0$ 成立的充分必要条件为 $\rho(A) < 1$,故当矩阵幂级数 $\sum_{m=0}^{\infty} A^m$ 收敛时,必有 $\rho(A) < 1$

$S_N = \sum_{k=0}^{N-1} A^k$,则 $S_N(I - A) = S_N - (S_{N+1} - I) = I - A^N$。又知,当 $\rho(A) < 1$ 时,矩阵 $I - A$ 可逆,则有

$$S_N = (I - A)^{-1} - A^N(I - A)^{-1}$$

$N \rightarrow \infty$ 时,有 $\lim_{N \rightarrow \infty} A^N = O$。因此,$\lim_{N \rightarrow \infty} S_N = (I - A)^{-1}$。证毕。

{注}:
(1) 上面的结论可以类比数项级数的情况,即当 $|z| < 1$ 时,数项级数 $\sum_{m=0}^{\infty} z^m$ 收敛,此时 $\sum_{m=0}^{\infty} z^m = \frac{1}{1 - z}$
(2) 由上可见,若一个矩阵 $B$ 可以化为幂级数 $\sum_{k=0}^{\infty } A^k$ 的形式,且幂级数收敛,则显然可以得到矩阵 $B$ 与矩阵 $A$ 的乘积可交换。例如,当 $|z| < 1$ 时,有 $\sum_{k=0}^{\infty} k z^k = \frac{z}{(1-z)^2}$。相应的,令 $\rho(A) < 1$,则有矩阵幂级数

$$\sum_{k=0}^{\infty} k A^k = A (I - A)^{-2} = (I - A)^{-2} A = (I - A)^{-1} A (I - A)^{-1}$$

4.7.1 Definition: 矩阵函数

设幂级数 $\sum_{m=0}^{\infty} c_m z^m$ 的收敛半径为 $r$, $z \in \mathbb{C}$。当 $|z| < r$ 时,幂级数收敛于函数 $f(z)$,即

$$f(z) = \sum_{m=0}^{\infty} c_m z^m, \quad |z| < r$$

若复方阵 $A$ 满足 $\rho(A) < r$,称收敛的矩阵幂级数 $\sum_{m=0}^{\infty} c_m A^m$ 为矩阵函数,记为 $f(A)$

常见矩阵函数有

$$\begin{gathered} e^A = \sum_{m=0}^{\infty} \frac{1}{m!} A^m, \quad \forall A \in \mathbb{C}^{n \times n} \\ \sin A = \sum_{m=0}^{\infty} \frac{(-1)^m}{(2m+1)!} A^{2m+1}, \quad \forall A \in \mathbb{C}^{n \times n} \\ \cos A = \sum_{m=0}^{\infty} \frac{(-1)^m}{(2m)!} A^{2m}, \quad \forall A \in \mathbb{C}^{n \times n} \\ (I-A)^{-1} = \sum_{m=0}^{\infty} A^m, \quad \forall \rho(A) < 1 \\ \ln(I+A) = \sum_{m=0}^{\infty} \frac{(-1)^m}{m+1} A^{m+1}, \quad \forall \rho(A) < 1 \end{gathered}$$

4.7.1 Proposition: 矩阵的三角函数性质

$A \in \mathbb{C}^{n \times n}$,则以下结论成立:
(1) $\cos(-A) = \cos A$, $\sin(-A) = -\sin A$
(2) $e^{iA} = \cos A + i\sin A$
(3) $\cos A = \frac{1}{2}(e^{iA} + e^{-iA})$
(4) $\sin A = \frac{1}{2i}(e^{iA} - e^{-iA})$

{注}:由于矩阵函数是通过矩阵幂级数定义的,故两个矩阵函数的乘法不一定满足交换律,即 $f(A)g(A) \neq g(A)f(A)$,例如 $e^A \cdot e^B \neq e^B \cdot e^A \neq e^{A+B}$。若矩阵乘法可交换,则矩阵函数可能满足交换律。

4.7.1 Theorem: 矩阵指数函数乘积可交换条件

$A, B \in \mathbb{C}^{n \times n}$,若 $AB = BA$,则 $e^{A+B} = e^A e^B = e^B e^A = e^{A+B}$.

Proof:

$AB = BA$ 知,

$$(A + B)^m = \sum_{k=0}^{m} C_m^k A^{m-k} B^k$$

所以

$$e^{A+B} = \sum_{m=0}^{\infty} \frac{1}{m!} (A + B)^m = \sum_{m=0}^{\infty} \sum_{k=0}^{m} \frac{1}{k!(m-k)!} A^{m-k} B^k$$

$$= \left(\sum_{m=0}^{\infty} \frac{1}{m!} A^m\right) \left(\sum_{k=0}^{\infty} \frac{1}{k!} B^k\right) = e^A e^B$$

由该定理可得:
(1) 设 $A \in \mathbb{C}^{n \times n}$,则 $e^A e^{-A} = e^{-A} e^A = I$,即 $(e^A)^{-1} = e^{-A}$,即无论矩阵 $A$ 是否可逆,矩阵指数函数 $e^AG$ 必可逆,且其逆矩阵为 $e^{-A}$
(2) 设 $A \in \mathbb{C}^{n \times n}$,则 $\sin^2 A + \cos^2 A = I$

{注}:由于计算矩阵函数的时候,涉及计算矩阵的高次幂,因此计算矩阵函数的复杂度较高,通常需要利用矩阵的最小多项式来简化计算。
除了利用矩阵的最小多项式来计算矩阵函数外,还可以利用矩阵的相似变换和谱上一致性。

4.7.2 Theorem: 相似矩阵的矩阵函数

设复方阵 $A$$B$ 相似,即存在可逆矩阵 $P$ 使得 $P^{-1}AP = B$。若 $f(A)$ 是矩阵函数,则 $f(A) = Pf(B)P^{-1}$

由该定理可知,若选取合适的相似变换,使得 $f(B)$ 较为简单,则可以大大简化矩阵函数的计算。一般来说,对于单纯矩阵,可以选取对角矩阵或谱矩阵;对于非单纯矩阵,可以选取 Jordan 标准形。下面详细介绍这三种方法。
(1) 对角化方法
对于可对角化的矩阵 $A$,即存在可逆矩阵 $P$ 使得 $P^{-1}AP = \Lambda$,其中 $\Lambda$ 为对角矩阵,此时 $f(A) = Pf(\Lambda)P^{-1}$
对于常见的矩阵函数,如指数函数、三角函数等,对角函数矩阵可以直接计算,即 $f(\Lambda ) = \operatorname{diag}{(f(\lambda _1), \cdots , f(\lambda _i))}$
(2) 谱矩阵方法
对于单纯矩阵 $A$,对其进行谱分解,即

$$A = \sum_{i=1}^{k} \lambda_i E_i$$

式中:$\lambda_1, \cdots, \lambda_k$ 是矩阵 $A$$k$ 个互异特征值,$E_1, \cdots, E_k$ 是对应的谱阵。
由于 $E_i ^k = E, E_i E_j = 0 (\forall i \neq j)$,则有

$$f(A) = \sum_{m=0}^{\infty} c_m A^m = \sum_{i=1}^{k} f(\lambda_i) E_i$$

(3) Jordan标准形方法
对于任意矩阵 $A$,必存在可逆矩阵 $P$ 使得 $P^{-1}AP = J$,其中 $J$ 为矩阵 $A$ 的 Jordan 标准形,可表示为 $J = \text{diag}(J_1, \cdots, J_s)$,其中 $J_i (i=1,\cdots, s)$ 为 Jordan 块,即:

$$J_i = \left[ \begin{array}{cccc} \lambda_i & 1 & & & \\ & \lambda_i & 1 & & \\ && \ddots & \ddots & \\ &&& \lambda_i & 1 \\ &&&& \lambda_i \end{array} \right]$$

$J^k = \text{diag}(J_1^k, \cdots, J_s^k)$,且

$$J_i^k = \left[ \begin{array}{cccccc} \lambda_i^k & C_k^1 \lambda_i^{k-1} & C_k^2 \lambda_i^{k-2} & \cdots & C_k^{n_i-1} \lambda_i^{k-n_i+1} \\ & \lambda_i^k & C_k^1 \lambda_i^{k-1} & \cdots & C_k^{n_i-2} \lambda_i^{k-n_i+2} \\ && \ddots & \ddots & \vdots \\ &&& \lambda_i^k & C_k^1 \lambda_i^{k-1} \\ &&&& \lambda_i^k \end{array} \right]$$

$A^k = P J^k P^{-1}$ 代入矩阵函数 $f(A) = \sum_{k=0}^{\infty} c_k A^k$,得

$$f(A) = P \sum_{k=1}^{\infty } c_k J^k P^{-1} = P \sum_{k=1}^{\infty } \text{diag}(c_k J_1^k, \cdots, c_k J_s^k) P^{-1}$$

若令 $j > m$ 时,$\sum_{m=0}^{\infty} c_m C_m^j \lambda_i^{m-j} = 0$,则可令

$$f\left({J}_i\right)=\left[\begin{array}{cccc} \sum_{k=0}^{\infty} c_k \lambda_i^k & \sum_{k=0}^{\infty} c_k \mathrm{C}_m^1 \lambda_i^{k-1} & \cdots & \sum_{k=0}^{\infty} c_k \mathrm{C}_m^{n_i-1} \lambda_i^{k-n_i+1} \\ & \sum_{k=0}^{\infty} c_k \lambda_i^k & \ddots & \vdots \\ & & & \\ \boldsymbol{O} & & \ddots &\sum_{k=0}^{\infty } c_k \mathrm{C}_m^1 \lambda_i^{k-1} \\ & & & \sum_{k=0}^{\infty} c_k \lambda_i^k \end{array}\right]$$

其中

$$\sum_{m=0}^{\infty} c_m C_m^j \lambda_i^{m-j} = \frac{1}{j!} f^{(j)}(\lambda_i)$$

因此有

$$f\left({J}_i\right)=\left[\begin{array}{cccc} f\left(\lambda_i\right) & f^{\prime}\left(\lambda_i\right) & \cdots & \frac{1}{\left(n_i-1\right)!} f^{n_i-1}\left(\lambda_i\right) \\ & f\left(\lambda_i\right) & \ddots & \vdots \\ & & \ddots & f^{\prime}\left(\lambda_i\right) \\ & & & f\left(\lambda_i\right) \end{array}\right]_{n_i \times n_i}$$


$$f(A) = P \text{diag}(f(J_1), \cdots, f(J_s)) P^{-1}= P \begin{bmatrix} f(J_1) & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & f(J_s) \end{bmatrix} P^{-1}$$

称这个公式为 Sylvester 公式。

4.7.3 Corollary: 矩阵函数的特征值

设矩阵 $A \in \mathbb{C}^{n \times n}$ 的特征值为 $\lambda_1, \ldots, \lambda_n$$f(z) = \sum_{m=0}^{\infty} c_m z^m$ 的收敛半径为 $r$。当 $\rho(A) < r$ 时,矩阵函数 $f(A)$ 的特征值为 $f(\lambda_1), \ldots, f(\lambda_n)$

利用 Sylvester 公式计算矩阵函数计算较复杂:
(1) 相似变换矩阵 $P$ 及其逆 $P^{-1}$ 难求;
(2) 矩阵相乘 $P f(J) P^{-1}$ 计算烦琐。

下面介绍基于最小多项式的矩阵函数计算方法。

4.7.3 Theorem: 最小多项式表示矩阵函数

设矩阵 $A \in \mathbb{C}^{n \times n}$ 的最小多项式次数为 $l$,幂级数 $f(z) = \sum_{m=0}^{\infty} c_m z^m$ 的收敛半径为 $r$。若 $\rho(A) < r$,定义矩阵函数 $f(A)$,则必存在唯一的 $l-1$ 次矩阵多项式 $p(A) = \beta_0 I + \beta_1 A + \cdots + \beta_{l-1} A^{l-1}$ 使得 $f(A) = p(A)$

{注}:由于矩阵最小多项式次数为 $l$,即有 $\sum_{i=0}^{l} \alpha _i A^i = 0$,则显然对于 $A^j (j \geqslant l)$ 可以用 $A^k (k < l)$ 表示,即 $A^j = \sum_{i=0}^{k} \alpha _i A^{i}$。因此,对于 $f(A)$,自然也可以用 $\sum_{i=0}^{k} \beta _i A^i$ 表示。
该定理保证了 $l-1$ 次矩阵多项式 $p(A)$ 的存在性和唯一性。为确定矩阵多项式 $p(A)$ 的系数,需列出 $l$ 个方程。

4.7.2 Definition: 谱上给定

$\lambda_1, \cdots, \lambda_s$$n$ 阶复方阵 $A$$s$ 个互异特征值,并设

$$m_A(\lambda) = (\lambda - \lambda_1)^{n_1}(\lambda - \lambda_2)^{n_2} \cdots \cdot (\lambda - \lambda_s)^{n_s}$$

$A$ 的最小多项式,$\operatorname{deg}(m_A(\lambda)) = l$。若复函数 $f(z)$ 及其各阶导数 $f^{(j)}(z)$$z = \lambda_i$ 处的 $n_i$ 个值 $f^{(j)}(\lambda_i)$ 均有界,$j = 0, 1, \cdots, n_i - 1$,则称 $f(z)$ 在矩阵 $A$ 谱上给定(或谱上有定义),并称 $\lambda_1, \cdots, \lambda_s$ 为谱点,$f^{(j)}(\lambda_i)$$f(z)$ 在矩阵 $A$ 上的谱值。

4.7.3 Definition: 谱上一致

设复方阵 $A$ 的最小多项式为 $m_A(\lambda) = (\lambda - \lambda_1)^{n_1}(\lambda - \lambda_2)^{n_2} \cdots \cdot (\lambda - \lambda_s)^{n_s}$$\operatorname{deg}(m_A(\lambda)) = l$。若函数 $f(\lambda)$$p(\lambda)$$A$ 的谱上给定且满足

$$\left\{ \begin{array}{l} f(\lambda_i) = p(\lambda_i) \\ f'(\lambda_i) = p'(\lambda_i) \\ \vdots \\ f^{(n_i-1)}(\lambda_i) = p^{(n_i-1)}(\lambda_i) \end{array} \right., \quad i = 1, 2, \cdots, s$$

则称函数 $f(\lambda)$$p(\lambda)$ 在矩阵 $A$ 上谱上一致。

4.7.4 Theorem: 矩阵函数谱上一致

$A \in \mathbb{C}^{n \times n}$,幂级数 $f(z) = \sum_{m=0}^{\infty} c_m z^m$ 与多项式 $p(z) = \sum_{i=0}^{k} \beta_i z^i$ 在矩阵 $A$ 的谱上给定,则 $f(A) = p(A)$ 的充分必要条件是 $f(z)$$p(z)$ 在矩阵 $A$ 的谱上一致。

Proof:

设矩阵 $A$ 有分解式 $A = PJP^{-1}$,其中 $J = \operatorname{diag}(J_1, \cdots, J_s)$$J_i (i = 1, \cdots, s)$ 为 Jordan 块,于是

$$f(A) = p(A) \Leftrightarrow \operatorname{diag}(f(J_1), \cdots, f(J_s)) = \operatorname{diag}(p(J_1), \cdots, p(J_s))$$

即对 $i = 1, \cdots, s$,有

$$f(J_i) = p(J_i)$$

由 Sylvester 公式知,上式成立的充分必要条件为

$$\left[\begin{array}{cccc} f(\lambda_i) & \cdots & \frac{1}{(n_i-1)!} f^{(n_i-1)}(\lambda_i) \\ & \ddots & \vdots \\ && f(\lambda_i) \\ &&& \\ 0 & & p(\lambda_i) \end{array}\right] = \left[\begin{array}{cccc} p(\lambda_i) & \cdots & \frac{1}{(n_i-1)!} p^{(n_i-1)}(\lambda_i) \\ & \ddots & \vdots \\ &&& \\ 0 & & p(\lambda_i) \end{array}\right]$$

进而,对 $i = 1, 2, \cdots, s$,有

$$\left\{ \begin{array}{l} f(\lambda_i) = p(\lambda_i) \\ f'(\lambda_i) = p'(\lambda_i) \\ \vdots \\ f^{(n_i-1)}(\lambda_i) = p^{(n_i-1)}(\lambda_i) \end{array} \right.$$

上式表明 $f(z)$$p(z)$ 在矩阵 $A$ 的谱上是一致的。证毕。

{注}:由于最小多项式整除任意一个零化多项式,所以求解找最小多项式较为麻烦,则可以用任意一个零化多项式来求解矩阵函数。这会带来额外的变量,但是由于该零化多项式与原函数必然是谱上一致的,故最后求解的矩阵函数必然是正确的。具体来说,若假设的零化多项式不是最小多项式,求解出的增加变量系数必然为0。

定义4.7.1 可知,定义矩阵函数的前提是矩阵幂级数的在零点处收敛,即 $f(z)$$z = 0$ 处可以展开为幂级数,需要满足:
(1) $f^{(k)}(0)$存在,$k=0,1,\cdots$
(2) $\lim_{k\to\infty}\frac{f^{(k+1)}(\xi)}{(k+1)!}z^{k+1}=0$
但可以发现对于一些矩阵函数,如 $f(z) = \frac{1}{z}$,在 $z = 0$ 处并不满足上述条件,此时需要推广矩阵函数的定义。

4.7.4 Definition: 矩阵函数推广

设复方阵$A$的最小多项式为

$$m_A(\lambda)=\left(\lambda-\lambda_1\right)^{n_1}\left(\lambda-\lambda_2\right)^{n_2}\cdot\cdots\cdot\left(\lambda-\lambda_s\right)^{n_s},\text{ deg}\left(m_A(\lambda)\right)=l$$

若函数$f(\lambda)$在矩阵$A$的谱上给定,则矩阵函数$f(A)$定义为$f(A)=p(A)$,其中,

$$p(A)=\beta_0 I+\beta_1 A+\cdots+\beta_{l-1} A^{l-1}$$

$l$ 个系数 $\beta_0,\beta_1,\cdots,\beta_{l-1}$ 由以下方程组确定:

$$\left\{\begin{array}{l} f\left(\lambda_i\right)=p\left(\lambda_i\right)\\ f^{\prime}\left(\lambda_i\right)=p^{\prime}\left(\lambda_i\right)\\ \vdots\\ f^{\left(n_i-1\right)}\left(\lambda_i\right)=p^{\left(n_i-1\right)}\left(\lambda_i\right) \end{array},\quad i=1,2,\cdots,s \right.$$

4.8.1 Definition: 函数矩阵

以变量 \(t\) 的函数为元素的矩阵 \(A(t) = \left[a_{ij}(t)\right]_{m \times n}\) 称为函数(值)矩阵;若矩阵 \(A(t)\) 的每个元素 \(a_{ij}(t)\)\([a, b]\) 上都连续、可微或可积时,则称 \(A(t)\)\([a, b]\) 上连续、可微或可积,并定义

\[\begin{align*} A'(t) &= \frac{d}{dt} A(t) = \left[a_{ij}'(t)\right]_{m \times n} \\ \int_a^b A(t) \, dt &= \left[\int_a^b a_{ij}(t) \, dt\right]_{m \times n}. \end{align*}\]

4.8.1 Proposition: 矩阵微分规则

$A(t)$$B(t)$是适当阶的可微矩阵,则
(1)

$$\frac{d}{dt}[A(t)+B(t)]=\frac{d}{dt}A(t)+\frac{d}{dt}B(t);$$

(2)当$\lambda(t)$为可微函数时,有

$$\frac{d}{dt}[\lambda(t)A(t)]=\frac{d\lambda(t)}{dt}A(t)+\lambda(t)\frac{d}{dt}A(t);$$

(3)有

$$\frac{d}{dt}[A(t)B(t)]=\frac{dA(t)}{dt}B(t)+A(t)\frac{dB(t)}{dt};$$

(4)当$u=f(t)$可微时,有

$$\frac{d}{dt}[A(u)]=f'(t)\frac{d}{dt}A(t);$$

(5)当$A(t)$是可逆矩阵时,有

$$\frac{d}{dt}[A^{-1}(t)]=-A^{-1}(t)\left[\frac{d}{dt}A(t)\right]A^{-1}(t).$$

Proof:

(1) 显然。
(2) 令 $A(t)=\left[a_{ij}(t)\right]_{m\times n}$,则

$$\begin{aligned} \frac{d}{dt}[\lambda(t)A(t)]&=\frac{d}{dt}[\lambda(t)a_{ij}(t)]_{m\times n} \\ &=\frac{d\lambda(t)}{dt}[a_{ij}(t)]_{m\times n}+\lambda(t)[a'_{ij}(t)]_{m\times n} \\ &=\frac{d\lambda(t)}{dt}A(t)+\lambda(t)\frac{d}{dt}A(t) \end{aligned}$$

(3) 令 $A(t)=\left[a_{ij}(t)\right]_{m\times n}, B(t)=\left[b_{ij}(t)\right]_{n\times p}$ ,则

$$\begin{aligned} \frac{d}{dt}[A(t)B(t)] &= \frac{d}{dt}\left[\sum_{k=1}^n a_{ik}(t) b_{kj}(t)\right]_{m\times p}\\ &= \left\{\sum_{k=1}^n\left[\frac{d}{dt} a_{ik}(t)\right] b_{kj}(t) + \sum_{k=1}^n a_{ik}(t)\left[\frac{d}{dt} b_{kj}(t)\right]\right\}_{m\times p} \\ &= \frac{dA(t)}{dt} B(t) + A(t) \frac{dB(t)}{dt} \\ \end{aligned}$$

(4)

$$\frac{d}{dt}[A(u)] = \left[a_{ij}'(u)\right]_{m\times n} = u'\left[a'(t)\right]_{m\times n} = f'(t)\frac{d}{dt} A(t).$$

(5) 对等式 $A(t) A^{-1}(t)=I$ ($A(t)$ 为方阵)两端对 t 求导, 得

$$\left[\frac{d}{dt} A(t)\right] A^{-1}(t) + A(t)\left[\frac{d}{dt} A^{-1}(t)\right] = O$$

从而

$$\left[\frac{d}{dt} A^{-1}(t)\right] = -A^{-1}(t)\left[\frac{d}{dt} A(t)\right] A^{-1}(t)$$

4.8.2 Proposition: 矩阵指数与三角函数的微分

$A\in \mathbb{C}^{n\times n}$,则有

(1)$\frac{d}{dt}e^{At}=Ae^{At}=e^{At}A;$

(2)$\frac{d}{dt}\sin(At)=A\cos(At)=(\cos(At))A;$

(3)$\frac{d}{dt}\cos(At)=-A\sin(At)=-(\sin(At))A.$

4.8.2 Definition: 矩阵对矩阵的导数

$F(X)=[f_{ij}(X)]\in \mathbb{C}^{m\times n}$$X\in \mathbb{C}^{p\times q}$的函数矩阵,$f_{ij}(X)(i=1,\cdots, m; j=1,\cdots, n)$作为$X\in \mathbb{C}^{p\times q}$的多元函数是可微的。令

$$\frac{dF(X)}{dX}=\left(\frac{\partial F}{\partial x_{ij}}\right)_{mp\times nq}=\left[\begin{array}{ccc} \frac{\partial F}{\partial x_{11}} & \frac{\partial F}{\partial x_{12}} & \cdots & \frac{\partial F}{\partial x_{1q}} \\ \frac{\partial F}{\partial x_{21}} & \frac{\partial F}{\partial x_{22}} & \cdots & \frac{\partial F}{\partial x_{2q}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial F}{\partial x_{p1}} & \frac{\partial F}{\partial x_{p2}} & \cdots & \frac{\partial F}{\partial x_{pq}} \end{array}\right]$$

式中:$\frac{\partial F}{\partial x_{ij}}=\left(\frac{\partial f_{kl}(X)}{\partial x_{ij}}\right)(k=1,\cdots, m; l=1,\cdots, n)$,称$\frac{dF(X)}{dX}$$F(X)$$X$的导数。

4.8.2 Example: 梯度向量

$f(x)=f(x_1,\cdots, x_n)$$n$元实可微函数,则

$$\frac{df}{dx}=\left(\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots,\frac{\partial f}{\partial x_n}\right)$$

式中:$x=(x_1,\cdots, x_n)$。一般称$\frac{df}{dx}$$f$的梯度向量,常记为$\nabla(f)$

4.8.3 Example: Jacobian矩阵

$f(x)=\left(f_1, f_2,\cdots, f_m\right)^T\in F^m$$n$元可微向量函数,即每个$n$元函数$f_i(x)=f_i\left(x_1,\cdots, x_n\right), 1\leqslant i\leqslant m$均为可微函数,其中$x=\left(x_1,\cdots, x_n\right)$为行向量。

$$\frac{df}{dx}=\left[\begin{array}{ccc} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n} \end{array}\right]$$

矩阵$\frac{df}{dx}$常称为向量函数$f$的Jacobian矩阵。

4.8.4 Example: 矩阵微分

设常矩阵$A\in \mathbb{R}^{n\times n}$和未定元向量$x\in \mathbb{R}^n$,求$\frac{d(Ax)}{dx^T}$

$y=Ax=(y_1,\cdots, y_n)^T, x=(x_1,\cdots, x_n)^T$,其中$y_i=\sum_{j=1}^n a_{ij} x_j$,则

$$\frac{dy}{dx^T}=\left[\begin{array}{ccc} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_n}{\partial x_1} & \cdots & \frac{\partial y_n}{\partial x_n} \end{array}\right] =\left[\begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & & \vdots \\ a_{n1} & \cdots & a_{nn} \end{array}\right]=A$$

4.8.5 Example: 矩阵微分

设常矩阵$A\in \mathbb{R}^{n\times n}$,向量$x, b\in \mathbb{R}^n$,求$\frac{d}{dx}(b^T x)$$\frac{d}{dx}(x^T A x)$

$x=(x_1,\cdots, x_n)^T, b=(b_1,\cdots, b_n)^T, A=(a_{ij})$,则

$$b^T x = \sum_{i=1}^n b_i x_i$$

$$x^T A x = \sum_{i,j=1}^n a_{ij} x_i x_j$$

于是,

$$\frac{d}{dx}(b^T x) = \left[\begin{array}{c} \frac{\partial (b^T x)}{\partial x_1} \\ \frac{\partial (b^T x)}{\partial x_2} \\ \vdots \\ \frac{\partial (b^T x)}{\partial x_n} \end{array}\right] = \left[\begin{array}{c} b_1 \\ b_2 \\ \vdots \\ b_n \end{array}\right] = b$$

$$\frac{d}{dx}(x^T A x) = \begin{bmatrix} \frac{\partial (x^T A x)}{\partial x_1} \\ \frac{\partial (x^T A x)}{\partial x_2} \\ \vdots \\ \frac{\partial (x^T A x)}{\partial x_n} \end{bmatrix} = \begin{bmatrix} \sum_{i=1}^{n} a_{i1} x_i + \sum_{j=1}^{n} a_{1j} x_j \\ \sum_{i=1}^{n} a_{i2} x_i + \sum_{j=1}^{n} a_{2j} x_j \\ \vdots \\ \sum_{i=1}^{n} a_{in} x_i + \sum_{j=1}^{n} a_{nj} x_j \end{bmatrix} = (A^T + A)x$$

常见的矩阵导数如下:

矩阵导数