第三章

Contents

▶︎

all

running...

第三章矩阵分解

第三章矩阵分解

3.1.1 Lemma: 矩阵相抵引理

设矩阵$A, B \in F^{m \times n}$，则以下表述等价：
(1) $A$与$B$相抵；
(2) 存在可逆矩阵$P \in F^{m \times m}$和$Q \in F^{n \times n}$使得$A = PBQ$；
(3) 矩阵$A$与$B$均可通过有限次初等行列变换得到同一个矩阵；
(4) $\text{rank}(A) = \text{rank}(B)$.

3.1.1 Example: 矩阵秩不等式

设$A \in \mathbb{C}^{m \times n}, B \in \mathbb{C}^{n \times p}$，证明：
\[\text{rank}(A) + \text{rank}(B) - n \leq \text{rank}(AB) \leq \min(\text{rank}(A), \text{rank}(B)).\]

3.2.1 Theorem: 满秩分解

设$A \in \mathbb{C}^{m \times n}_r(r > 0)$，则存在列满秩矩阵$B$和行满秩矩阵$C$使得$A = BC$。

Proof:

令 $A = [a_1, \cdots, a_n]$，则有 $R(A) = \operatorname{span}(a_1, \cdots, a_n)$ 且 $\operatorname{rank}(A) = \operatorname{dim}(R(A))$，其中 $a_i \in \mathbb{C}^m, i = 1, \cdots, n$。任取 $R(A)$ 的一组基，则 $a_i$ 必可由基 $b_1, \cdots, b_r$ 线性表示，即

\[a_i = [b_1, \cdots, b_r] c_i\]

式中：$c_i \in \mathbb{C}^r$ 是 $a_i$ 在基 $b_1, \cdots, b_r$ 下的坐标，$i = 1, \cdots, n$.
定义矩阵 $B = [b_1, \cdots, b_r], C = [c_1, \cdots, c_n]$，有

\[A_{m \times n} = [a_1, \cdots, a_n] = [b_1, \cdots, b_r] [c_1, \cdots, c_n] = B_{m \times r}C_{r \times n}\]

式中：$\operatorname{rank}(B) = \operatorname{dim}(R(B)) = r$。
又知

\[\operatorname{rank}(C) \geq \operatorname{rank}(BC)=\operatorname{rank}(A) = r \text{且} \operatorname{rank}(C) \leqslant r\]

故 $\operatorname{rank}(C) = r$。综上所述，矩阵 $A$ 可分解为列满秩矩阵 $B$ 和行满秩矩阵 $C$ 的乘积。

3.2.3 Theorem: 右逆和左逆

矩阵$A \in \mathbb{C}^{m \times n}(r > 0)$ 有右逆（即存在矩阵 $B$ 使得 $AB = I$）的充分必要条件是 $A$ 为行满秩矩阵；矩阵 $A$ 有左逆（即存在矩阵 $B$ 使得 $BA = I$）的充分必要条件是 $A$ 为列满秩矩阵。

Proof:

证明有$A \in \mathbb{C}^{m \times n}$ 有右逆 $\Leftrightarrow \exists B \in \mathbb{C}^{n \times m}, A_{m \times n} B_{n \times m} = I_{m}$

充分性. $\operatorname{rank}(A)= m \Rightarrow AB = I$.
对$A$进行相抵分解, 即$A = P_{m \times m} [I_m, 0]Q_{n \times n}$, 可取$B = Q^{-1} [I_m, 0]^T P^{-1}$, 显然$AB = I$.

必要性. $AB = I \Rightarrow \operatorname{rank}(A) = m$.
$\operatorname{rank}(A) \geq rank(AB) = m$, 显然$A$是满秩的.

{注}:

设 $A \in \mathbb{C}_r^{r \times n}$，则 $A A^H$ 是 $r$ 阶非奇异矩阵。根据 $A A^H (A A^H)^{-1} = I$，得 $A^H (A A^H)^{-1}$ 是矩阵 $A$ 的一个右逆。同理，当 $A \in \mathbb{C}_r^{m \times r}$ 时，$(A^H A)^{-1} A^H$ 是矩阵 $A$ 的一个左逆。

当 $A$ 为可逆矩阵时，其右（左）逆唯一存在，即为 $A$ 的逆矩阵；
当 $A$ 为行（列）满秩矩阵（非可逆阵）时，其右（左）逆存在且不唯一；
当 $A$ 为其它情况时，其右（左）逆不存在。

3.1.1 Proposition: 矩阵转置秩等价

(1) $\text{rank}(A) = \text{rank}(A^H A)$。
(2) $\text{rank}(A^H) = \text{rank}(A A^H)$。
(3) $\text{rank}(A) = \text{rank}(A^H A) = \text{rank}(A A^H) = \text{rank}(A^H) = \text{rank}(A^H)$。

Proof:

$\forall x \in \mathbb{C}^n, Ax = 0 \rightarrow A^HAx = 0$显然成立.
$\forall x \in \mathbb{C}^n, A^HAx = 0 \rightarrow x^HA^HAx = 0 \rightarrow (Ax)^H(Ax) = 0 \rightarrow Ax = 0$.
所以$N(A) = N(A^HA)$, 根据秩-零化度定理 , $\operatorname{rank}(A) = \operatorname{rank}(A^HA)$. 又由于 $N(A) + R(A^H ) = \mathbb{C}^n$, 所以 $R(A^H) = R(A^HA)$. 令 $A = A^H$, 则有 $R(A) = R(AA^H)$.

显然有 $\operatorname{rank}(A) = \operatorname{rank}(AA^H) = \operatorname{rank}(A^H) = \operatorname{rank}(A^H A)$.

3.3.1 Theorem: LU分解

设$A = [a_{ij}] \in \mathbb{C}^{n \times n}$是非奇异矩阵，则存在唯一的单位下三角矩阵$L$和上三角矩阵$U$使得$A = LU$成立的充分必要条件是$A$的所有顺序主子式均非零，即

\[\Delta_i(A) = \left| \begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1i} \\ a_{21} & a_{22} & \cdots & a_{2i} \\ \vdots & \vdots & & \vdots \\ a_{i1} & a_{i2} & \cdots & a_{ii} \end{array} \right| \neq 0, \quad i = 1, \cdots, n\]

Proof:

见教材P79.

{注}:

虽然证明过程较复杂,但实际计算上只需用Gauss消元法求解出$L$和$U$即可.
$L$中记录了消元的过程, $U$中记录了消元后的矩阵. 所以$L$中对角线元素为1, $U$中对角线元素为之积为$A$的行列式.

3.3.2 Theorem: LDU分解

设$A = [a_{ij}] \in \mathbb{C}^{n \times n}$是非奇异矩阵，则存在唯一的单位下三角矩阵$L$，对角矩阵$D$和单位上三角矩阵$U$使得$A = LDU$成立的充分必要条件是$A$的所有顺序主子式均非零，即

\[\Delta_i(A) = \left| \begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1i} \\ a_{21} & a_{22} & \cdots & a_{2i} \\ \vdots & \vdots & & \vdots \\ a_{i1} & a_{i2} & \cdots & a_{ii} \end{array} \right| \neq 0, \quad i = 1, \cdots, n\]
分解式$A = LDU$称为矩阵$A$的LDU分解。

{注}:

$L, U$的对角线元素为1, $D$的对角线元素可由$A$的顺序主子式求得, 即 $d_1 = a_{11}, d_i = \frac{\Delta _i(A)}{\Delta _{i-1}(A)}$
非奇异矩阵只是已知条件, 与命题的充分必要性无关. 实际上, 对于奇异矩阵, 其也可以$LDU$分解; 对于非奇异矩阵, 其可能无法$LDU$分解. 但是以下引理说明非奇异矩阵可以通过重排行列顺序后进行$LDU$分解.

3.3.1 Lemma: 非奇异矩阵重排

设$A = [a_{ij}] \in \mathbb{C}^{n \times n}$是非奇异矩阵，则存在排列矩阵$P$使得$PA$的所有顺序主子式均非零。

3.3.1 Corollary: Cholesky分解

若$n$阶实对称矩阵$A$是正定的，则存在唯一的正上三角矩阵$R$使得$A = R^{\top} R$。

Proof:

由于矩阵$A$是正定的，故其所有顺序主子式均大于0。则$A$可以进行$LDU$分解，即$A = LDU$。由于$A$是实对称矩阵，即$A^\top = U^\top DL^\top = LDU$，由分解的唯一性可得$L = U^{\top}$，则有$A = U^{\top} DU$。令$R ^\top = U^{\top} \sqrt{D}$，则有$A = R^{\top} R$。
唯一性。
假设存在另一正上三角矩阵 $R'$使得$A = R'^{\top} R'$，由于 $R$为正上三角矩阵，则可令 $R'^\top = U'^\top \sqrt[]{D'}$, 则 $A = U'^\top D'U'$, 由分解的唯一性可得 $U = U'$, $D = D'$, 即 $R = R'$。

3.4.1 Definition: QR分解

若复方阵$A$可分解为$A = QR$，其中$Q$为酉矩阵，$R$为上三角矩阵，则称矩阵$A$可作$QR$分解（或酉三角分解）。若分解式$A = QR$中，矩阵$A$是实方阵，$Q$为正交矩阵，$R$为上三角矩阵，此时称分解式$A = QR$为正交三角分解。

3.4.1 Theorem: 正交分解

若实方阵$A$满秩，则存在正交矩阵$Q$及正线上三角矩阵$R$满足$A = QR$且分解唯一。

Proof:

记为 $A = [a_1, \cdots, a_n]$，则向量组 $a_1, \cdots, a_n$ 是 $\mathbb{R}^n$ 空间的一组基。由 Gram-Schmidt 正交化方法知，根据基 $a_1, \cdots, a_n$ 可构造出 $\mathbb{R}^n$ 的一组标准正交基 $z_1, \cdots, z_n$，且这两组基有如下关系：

\[[a_1, \cdots, a_n] = [z_1, \cdots, z_n] R \qquad (3.4.1)\]

式中：$y_k = a_k - \sum_{i=1}^{k-1} (a_i, z_i) z_i, k = 1, \cdots, n$，矩阵 $R$ 定义为

\[R = \begin{bmatrix} \|y_1\| & (a_2, z_1) & \cdots & (a_n, z_1) \\ & \|y_2\| & \cdots & (a_n, z_2) \\ & & \ddots & \vdots \\ 0 & & & \|y_n\| \end{bmatrix}\]

写成矩阵形式，即 $A = QR$，其中，$Q = [z_1, \cdots, z_n]$，显然，$Q$ 是正交矩阵，$R$ 是正线上三角矩阵。
唯一性证明。
若存在 $A=Q_1R_1 = Q_2R_2$.
令 $\widetilde{Q} = Q_1^TQ_2, \widetilde{R} = R_1R_2^{-1}$, 显然 $\widetilde{Q} = \widetilde{R}$，由于 $\widetilde{Q}$为正交矩阵，$\widetilde{R}$为正线上三角矩阵，则可记

$$\widetilde{R}=\left[\begin{array}{cccc} \tilde{r}_{11} & \tilde{r}_{12} & \cdots & \tilde{r}_{1 n} \\ & \tilde{r}_{22} & \cdots & \tilde{r}_{2 n} \\ & & \ddots & \vdots \\ & \boldsymbol{O} & & \tilde{r}_{n n} \end{array}\right]$$

由 $\widetilde{R}^\top \widetilde{R} = I$，即

$$\widetilde{R}^T \widetilde{R} = \left[\begin{array}{cccc} \tilde{r}_{11} & & \boldsymbol{O} & \\ \tilde{r}_{12} & \tilde{r}_{22} & & \\ \vdots & \vdots & \ddots & \\ \tilde{r}_{1n} & \tilde{r}_{2n} & \cdots & \tilde{r}_{nn} \end{array}\right] \left[\begin{array}{cccc} \tilde{r}_{11} & \tilde{r}_{12} & \cdots & \tilde{r}_{1 n} \\ & \tilde{r}_{22} & \cdots & \tilde{r}_{2 n} \\ & & \ddots & \vdots \\ & \boldsymbol{O} & & \tilde{r}_{n n} \end{array}\right] = I$$

，对比每一个元素可得$\tilde{r}_{ii}^2 = 1, \tilde{r}_{ij} = 0, i \neq j$，由于所有对角元素都为正，则有$\tilde{r}_{ii} = 1, \tilde{r}_{ij} = 0, i \neq j$，即$\overline{Q} = I, \overline{R} = I$，即 $Q_1 = Q_2, R_1 = R_2$.

{注}:

对于长方形矩阵 $A_{m \times n}$，其依然可以 $QR$分解。有两种分解形式 $A_{m \times n} = Q_{m \times n}R_{n \times n}$ 和 $A_{m \times n} = Q_{m \times m}R_{m \times n}$。
$QR$分解只是将$A$的列向量组转换为标准正交基组，其中$Q$为转化后的标准正交基，$R$记录了转换过程。
$QR$分解可以用来求解特征值。
具体思想如下：
对于可逆矩阵$A \in \mathbb{R}^{n \times n}$，令$A_1 = A$，对$A_1$进行$QR$分解，即$A_1 = Q_1R_1$，其中$Q_1$为正交矩阵，$R_1$为上三角矩阵。令$A_2 = R_1Q_1 = Q_1^\top A_1 Q_1$，显然$A_1$和$A_2$相似，其特征值相同。重复如上过程，得$A_{k+1} = Q_k^H A_k Q_k = Q^H A Q$。
通过重复某个过程，可以定义矩阵序列 $\{A_k, k=1, 2, \ldots\}$。
已知结论：若非奇异矩阵的各特征值具有不同的模值，则$QR$算法定义的矩阵序列收敛于上三角矩阵，则对角线元素即为特征值。

Example: 非方阵$QR$分解

设 $A = \begin{bmatrix} 3& 0\\ 0& 1\\ 4& 0 \end{bmatrix}$，对$A$可进行两种$QR$分解，如下

$$\boldsymbol{A}=\left[\begin{array}{ll} 3 & 0 \\ 0 & 1 \\ 4 & 0 \end{array}\right]=\left[\begin{array}{ll} \frac{3}{5} & 0 \\ 0 & 1 \\ \frac{4}{5} & 0 \end{array}\right]\left[\begin{array}{ll} 5 & 0 \\ 0 & 1 \end{array}\right] = \left[\begin{array}{rrr} \frac{3}{5} & 0 & -\frac{4}{5} \\ 0 & 1 & 0 \\ \frac{4}{5} & 0 & \frac{3}{5} \end{array}\right]\left[\begin{array}{ll} 5 & 0 \\ 0 & 1 \\ 0 & 0 \end{array}\right]$$

3.4.2 Theorem: 复方阵正交化

设复方阵$A$可逆，则存在酉矩阵$U$及正线上三角矩阵$R$满足$A = UR$且分解唯一。

3.5.1 Theorem: Schur定理

任意$n$阶复方矩阵$A$相似于上三角矩阵$\Lambda$，即存在可逆矩阵$P$使得$A = P^{-1}\Lambda P$为上三角矩阵，其中上三角矩阵$\Lambda$的对角元素是矩阵$A$的特征值。

Proof:

采用数学归纳法证明存在 $m$ 个可逆矩阵 $P_1, \cdots, P_m$ 使得

\[P_m^{-1} \cdots P_1^{-1} A P_1 \cdots P_m = \left[ \begin{array}{cc} T_m & C_m \\ 0 & A_m \end{array} \right]\]

当$m = 1$时，令$\lambda_1$为一个特征值，$\eta _1$为对应的特征向量。令利用基的扩充定理找到$\mathbb{C}^n$的一组基并构成列向量，即令$P=[\eta _1, \cdots , \eta _n]$，则有$AP = A[\eta _1, \cdots , \eta _n]=[\lambda _1\eta _1, \cdots , A\eta _n]$，即有

\[P_1^{-1} A P_1 = \left[ \begin{array}{ll} \lambda_1 & C_1 \\ 0 & A_1 \end{array} \right]\]

由于$A$与$P^{-1}AP$相似，有$A_1 \in \mathbb{C}^{(n-1) \times (n-1)}$ 的特征值为 $\lambda_2, \cdots, \lambda_n$。
假设当 $m = k \in \{1, \cdots, n-2\}$ 时存在可逆矩阵 $P_1, \cdots, P_k$ 使得

\[P_k^{-1} \cdots P_1^{-1} A P_1 \cdots P_k = \left[\begin{array}{ll} T_k & C_k \\ 0 & A_k \end{array}\right]\]

当 $m = k+1$ 时，仿照 $P_1$ 构造方法知，存在 $n-k$ 阶矩阵 $V_{k+1}$ 使得

\[V_{k+1}^{-1} A_k V_{k+1} = \left[\begin{array}{cc} \lambda_{k+1} & C_{k+1} \\ 0 & A_{k+1} \end{array}\right]\]

定义 $P_{k+1} = \left[\begin{array}{cc} I_k & O \\ O & V_{k+1} \end{array}\right]$ ，则有

\[P_{k+1}^{-1} P_k^{-1} \cdots P_1^{-1} A P_1 \cdots P_k P_{k+1} = \left[\begin{array}{cc} T_{k+1} & C_{k+1} \\ O & A_{k+1} \end{array}\right]\]

因此，存在 $n-1$ 个可逆矩阵 $P_1, \cdots, P_{n-1}$ 使得

\[P_{n-1}^{-1} \cdots P_1^{-1} A P_1 \cdots P_{n-1} = \left[\begin{array}{cc} T_{n-1} & C_{n-1} \\ 0 & \lambda_n \end{array}\right]\]

记 $P = P_1 \cdots P_{n-1}$ ，则上式右端为上三角矩阵。证毕。

{注}：

当$m=1$时，一定可以找到特征值的原因是根据代数基本定理，但是在实数域中不一定成立。

代数基本定理：任何复系数一元$n$次多项式方程在复数域上至少有一根($n \geq 1$)，由此推出，$n$次复系数多项式方程在复数域内有且只有$n$个根（重根按重数计算）。
这里数域为$\mathbb{C}$，因为实数域中矩阵可能没有特征值。

3.5.3 Theorem: 实方正Schur's引理

设$A \in \mathbb{R}^{n \times n}$的特征值均为实数，则存在正交矩阵$Q$使得

\[Q^T A Q = Q^{-1} A Q = \begin{bmatrix} \lambda_1 & & * \\ & \ddots & \\ 0 & & \lambda_n \end{bmatrix}\]

Proof:

证明可由定理3.5.1显然得到。

3.5.2 Theorem: Schur's 引理

任意复方阵$A$酉相似于上三角矩阵$\Lambda$，即存在一酉矩阵$U$使得$\Lambda = U^{\text{H}} AU$为上三角矩阵。

Proof:

只需要对定理3.5.1中的$P$进行$QR$分解即可得到。

3.5.2 Lemma: 三角矩阵的乘积

若矩阵$A, B$均为上三角矩阵，则矩阵$A \pm B, AB, A^{-1}$也为上三角矩阵。

Proof:

$A+B$显然是上三角的。
下面证明$AB$和$A^{-1}$是上三角的。

$$C = AB = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ 0 & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & a_{nn} \end{bmatrix} \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1n} \\ 0 & b_{22} & \cdots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & b_{nn} \end{bmatrix}$$

$c_{ij} = \sum_{k=1}^n a_{ik}b_{kj}$，当$i > j$时，$c_{ij} = 0$，故$C$为上三角矩阵。

当$A$为上三角时，$A_{ij} = 0, \forall i < j$

$$A^{-1} = \frac{A^*}{|A|} = \frac{1}{|A|} \begin{bmatrix} A_{11} & A_{21} & \cdots & A_{n1} \\ A_{12} & A_{22} & \cdots & A_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ A_{n1} & A_{n2} & \cdots & A_{nn} \end{bmatrix}$$

故$A^{-1}$是上三角的。

3.5.1 Definition: 矩阵多项式

设$A \in \mathbb{C}^{n \times n}$，$\varphi(\lambda) = a_n \lambda^n + a_{n-1} \lambda^{n-1} + \cdots + a_1 \lambda + a_0$，其中$a_i \in \mathbb{C}$（$i = 0, 1, \cdots, n$）是数域$\mathbb{C}$上的多项式，则

\[\varphi(A) = a_n A^n + a_{n-1} A^{n-1} + \cdots + a_1 A + a_0 I\]

称为矩阵多项式。

3.5.1 Corollary: 矩阵多项式的特征值

设矩阵$A \in \mathbb{C}^{n \times n}$的$n$个特征值为$\lambda_1, \cdots, \lambda_n$，$\varphi(\lambda)$为任一多项式，则矩阵多项式$\varphi(A)$的$n$个特征值为$\varphi(\lambda_1), \cdots, \varphi(\lambda_n)$。

Proof:

根据定理3.5.2，存在一酉矩阵$U$使得$U^H A U = \Lambda$，其中$\Lambda$为上三角矩阵，其对角线元素为矩阵$A$的特征值，记为$\lambda_1, \cdots, \lambda_n$。注意到

\[\varphi(A) = \varphi(U \Lambda U^H) = U \varphi(\Lambda) U^H\]

式中：上三角矩阵$\varphi(\Lambda)$的对角线元素为$\varphi(\lambda_1), \cdots, \varphi(\lambda_n)$。由于$\varphi(A)$酉相似于上三角矩阵$\varphi(\Lambda)$，故矩阵多项式$\varphi(A)$的$n$个特征值为$\varphi(\lambda_1), \cdots, \varphi(\lambda_n)$。证毕。

{注}：
由于对$A$的属于$\lambda _1$的特征向量$\alpha _1$，有$A^k\alpha _1 = \lambda^k _1 \alpha _1, k=1, \cdots, n$，则

$$\varphi(A)\alpha _1 = a_n A^n \alpha _1 + \cdots + a_1 A \alpha _1 + a_0 \alpha _1 = a_n \lambda^n _1 \alpha _1 + \cdots + a_1 \lambda _1 \alpha _1 + a_0 \alpha _1 = \varphi(\lambda _1) \alpha _1$$

显然有$n$阶矩阵$A$的属于特征值$\lambda_i$的特征向量$\alpha_i$也是$\varphi(A)$的属于特征值$\varphi(\lambda_i)$的特征向量。

3.5.4 Theorem: Hamilton-Cayley 定理

设矩阵$A \in \mathbb{C}^{n \times n}$的特征多项式为$f_A(\lambda) = \det(\lambda I - A)$，则 $f_A(A) = 0$。

Proof:

设矩阵$A$的特征多项式为$f_A(\lambda) = \lambda ^n + a_{n-1}\lambda ^{n-1} + \cdots + a_0$。由定理3.5.2知，存在酉矩阵$U$使得$U^H A U = \Lambda$，其中$\Lambda$为上三角矩阵，其对角元素为$\lambda_1, \lambda_2, \ldots, \lambda_n$。则矩阵多项式$f(A)$可写成

\[\begin{array}{l} f_A(A) = A^n + a_{n-1}A^{n-1} + \cdots + a_0I &= U \Lambda^n U^H + a_{n-1}U \Lambda^{n-1} U^H + \cdots + a_0I \\ &= U \underset{f_A(\lambda_{1, \cdots , n}) = 0}{\boxed{(\Lambda^n + a_{n-1}\Lambda^{n-1} + \cdots + a_0I)}}U^H = 0 \end{array}\]

3.5.3 Corollary: 矩阵多项式表示逆

设复方阵$A$可逆，其特征多项式为$f_A(\lambda) = \lambda^n + a_{n-1} \lambda^{n-1} + \cdots + a_1 \lambda + a_0$，则矩阵$A$的逆矩阵计算公式为

\[A^{-1} = -\frac{1}{a_n} \left( A^{n-1} + a_{n-1} A^{n-2} + \cdots + a_1 I \right)\]

{注}: 该结论说明，矩阵$A$的逆矩阵可以通过低阶矩阵表示。

3.5.2 Definition: 零化多项式

给定复方阵$A \in \mathbb{C}^{n \times n}$，若存在多项式$g(\lambda)$使得$g(A) = 0$，则称$g(\lambda)$为$A$的零化多项式。

3.5.3 Definition: 最小多项式

设复方阵$A$的零化多项式中次数最小的首1多项式称为$A$的最小多项式，记为$m_A(\lambda)$。

3.5.5 Theorem: 最小多项式性质

设矩阵$A \in \mathbb{C}^{n \times n}$，则

矩阵$A$的最小多项式$m_A(\lambda)$是唯一的，且可整除$A$的任一零化多项式，特别地，有$m_A(\lambda) \mid f_A(\lambda)$。

矩阵$A$的特征多项式$f_A(\lambda)$与最小多项式$m_A(\lambda)$具有相同的根（不计重数）。

Proof:

(1) 对任意多项式 $g(\lambda)$ 和 $h(\lambda)$，必存在多项式 $q(\lambda)$ 以及多项式 $r(\lambda)$ 使得

\[g(\lambda) = h(\lambda) q(\lambda) + r(\lambda)\]

式中：$r(\lambda) = 0$ 或 $\deg[r(\lambda)] < \deg[h(\lambda)]$。该结论可由多项式除法定理得到，把 $g(\lambda)$ 除以 $h(\lambda)$ 得到商 $q(\lambda)$ 和余式 $r(\lambda)$。
若 $g(\lambda)$ 和 $h(\lambda)$ 分别定义为矩阵的特征多项式 $f_A(\lambda)$ 和最小多项式 $m_A(\lambda)$，则代入上式得 $f_A(\lambda) = m_A(\lambda) q(\lambda) + r(\lambda)$，则有$f_A(A)= m_A(A)g(A) + r(A) = 0$，得$r(A) = 0$。
现在说明$r(\lambda ) = 0$。若$r(\lambda) \neq 0$，则存在一个次数更低的多项式$r(\lambda)$使得$r(A) = 0$，与$m_A(\lambda)$为最小多项式矛盾，故$r(\lambda) = 0, f_A(\lambda) = m_A(\lambda) q(\lambda)$，即$m_A(\lambda) \mid f_A(\lambda)$。
下面说明$m_A(\lambda)$ 是唯一的。
若存在另一多项式 $m'_A(\lambda)$ 使得 $m'_A(\lambda) \mid f_A(\lambda)$，则必然有 $\deg m'_A(\lambda) = \deg m_A(\lambda)$，则$(m'_A(\lambda) - m_A(\lambda ))$也必然是零化多项式且 $\deg (m'_A(\lambda) - m_A(\lambda )) < \deg m_A(\lambda )$，与已知矛盾，故 $m_A(\lambda)$ 是唯一的。

(2) $m_A(\lambda )$的根显然一定是$f_A(\lambda )$的根，下面说明 $f_A(\lambda )$的根也是$m_A(\lambda )$的根。
设 $\lambda_i$ 是矩阵 $A$ 的特征值，$x_i$ 是属于 $\lambda_i$ 的特征向量。根据推论3.5.1知，$m_A(\lambda_i)$ 是矩阵多项式 $m_A(A)$ 的特征值，且 $x_i$ 是属于 $m_A(A)$ 的特征向量，即

\[m_A(A) x_i = m_A(\lambda_i) x_i\]

由于 $m_A(A)$ 是矩阵 $A$ 的零化多项式，故 $m_A(A) = 0$，进而有 $m_A(\lambda_i) x_i = 0$。又知 $x_i$ 是非零向量，故 $m_A(\lambda_i) = 0$，即$f_A(\lambda )$的根也是$m_A(\lambda )$的根。证毕。

3.6.1 Definition: 单纯矩阵

若$n$阶复方阵$A$相似于对角矩阵，则矩阵$A$称为可对角化矩阵（或单纯矩阵）。

3.6.1 Theorem: 可对角化条件

设矩阵$A \in \mathbb{C}^{n \times n}$的全部互异特征根为$\lambda_1, \cdots, \lambda_m$（其中$m \leqslant n$），则以下表达等价：

$A$是单纯矩阵

$A$有$n$个线性无关的特征向量

特征值$\lambda_i$($i=1, \cdots, m$)的代数重数等于其几何重数

$\sum_{i=1}^{m} \operatorname{dim} E(\lambda_i) = n$

最小多项式$m_A(\lambda)$无重根

Proof:

(1)~(4)根据实矩阵可对角化条件推广而得。
下面证明(5)。
(1) $\Rightarrow$ (5).
由于矩阵 $A$ 是单纯矩阵，所以存在一个可逆矩阵 $P$ 使得 $P^{-1}AP = \Lambda$，其中$\Lambda$是对角矩阵。
设$\lambda _1, \cdots, \lambda _m$为互异特征值，$d_i$代表重数$(\sum_{i=1}^{m}d_i = n)$，考虑如下矩阵多项式

$$g(A) = (A - \lambda_1 I) \cdots (A - \lambda_m I) = P^{-1} \underset{\triangleq B }{\boxed{(\Lambda - \lambda_1 I) \cdots (\Lambda - \lambda_m I)}} P$$

式中

$$\Lambda = \begin{bmatrix} \boxed{\lambda_1} & (d_1个) \\ & \boxed{\lambda_1} \\ & & \ddots & \\ & & & \boxed{\lambda_m} & (d_m个) \\ & & & & \boxed{\lambda_m} \end{bmatrix}$$

下面考察矩阵矩阵$B$。

$$B = \begin{bmatrix} 0 \\ & 0 \\ & & \ddots\\ & & & \lambda_m - \lambda_1\\ & & & & \lambda_m - \lambda_1 \end{bmatrix} \cdots \begin{bmatrix} \lambda _1 - \lambda _m \\ & \lambda _1 - \lambda _m \\ & & \ddots\\ & & & 0 \\ & & & & 0 \end{bmatrix} = 0$$

故$g(A) = 0$，所以$g(\lambda )$为最小多项式，且无重根。

(5) $\Rightarrow$ (4).
设矩阵 $A$ 的最小多项式为 $m_A(\lambda) = (\lambda - \lambda_1) \cdots (\lambda - \lambda_m)$, 则

$$m_A(A) = (A - \lambda_1 I) \cdots (A - \lambda_m I) = 0$$

由矩阵秩乘积的推论有:

$$\boxed{\operatorname{rank}(A - \lambda_1 I) + \cdots + \operatorname{rank}(A - \lambda_m I) \leq (m - 1)n}$$

则有：

$$\operatorname{dim} E(\lambda_1) + \cdots + \operatorname{dim} E(\lambda_m) = (n - \operatorname{rank}(A - \lambda_1 I)) + \cdots + (n - \operatorname{rank}(A - \lambda_m I)) \geq n$$

由于 $m$ 个特征子空间的和空间是 $\mathbb{C}^n$ 空间的线性子空间, 因此$\sum_{i=1}^m \operatorname{dim} E(\lambda_i) = n$. 证毕.

3.6.1 Corollary: 单纯矩阵的判定

若复方阵$A$的零化多项式$g(\lambda)$无重根，则矩阵$A$是单纯矩阵。

3.6.2 Corollary: 可对角化的判定

若$n$阶复方阵$A$恰好有$n$个互异特征值，则它必可对角化；反之则不然。

{注}：上述两个推论仅是复方阵$A$为单纯矩阵的充分条件而非必要条件。

3.6.* Theorem: 酉相似矩阵不同特征空间正交

设存在酉矩阵 $U$ 使得 $U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$。则$A$的不同特征值的特征子空间正交。

Proof:

令 $U = [u_1, \cdots, u_n]$，则有

$$A[u_1, \cdots, u_n] = [Au_1, \cdots, Au_n] = [u_1, \cdots, u_n] \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$$

显然有 $Au_i = \lambda_i u_i$，即 $u_i$ 是属于 $\lambda_i$ 的特征向量。对于酉矩阵，其列向量$u_i, u_j$两两正交。
考察特征子空间

$$E(\lambda_i) = \operatorname{span}\{u_{i_{d_1}}, \cdots, u_{i_{d_i}}\}, E(\lambda_j) = \operatorname{span}\{u_{j_{d_1}}, \cdots, u_{j_{d_j}}\} (i \neq j)$$

由于$u_i, u_j$两两正交，故$E(\lambda_i)$与$E(\lambda_j)$正交。证毕。

3.6.3 Corollary: 复对称判定定理

设矩阵$A \in \mathbb{C}^{n \times n}$，则$A$是Hermite矩阵当且仅当$A$的所有特征值$\lambda_1, \cdots, \lambda_n$为实数，且存在酉矩阵$U \in \mathbb{C}^{n \times n}$使得$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$。

Proof:

充分性。
若$A$的所有特征值$\lambda_1, \cdots, \lambda_n$为实数，且存在酉矩阵$U \in \mathbb{C}^{n \times n}$使得$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$，对其两端取共轭转置有$U^H A^H U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n) = U^H A U$，则$A = A^H$，故$A$是Hermite矩阵。
必要性。
若$A$是Hermite矩阵，由Schur定理可得$A$酉相似于上三角矩阵，即存在酉矩阵$U$使得$U^H A U = \Lambda$，其中$\Lambda$对角线元素为$A$的特征值。对其两端取共轭转置有 $U^H A^H U = \overline{\Lambda } = U^H A U = \Lambda$，则有$A$的特征值为实数。证毕。

3.6.4 Corollary: 实对称判定定理

设矩阵$A \in \mathbb{R}^{n \times n}$，则$A$是实对称矩阵当且仅当$A$的所有特征值$\lambda_1, \cdots, \lambda_n$为实数，且存在正交矩阵$Q \in \mathbb{R}^{n \times n}$使得$Q^{\top} A Q = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$。

3.6.2 Definition: 正规矩阵

设矩阵$A \in \mathbb{C}^{n \times n}$，若$A^H A = A A^H$，则称$A$为正规矩阵（或规范矩阵）。

3.6.2 Theorem: 正规矩阵酉可对角化

复方阵$A$是正规矩阵当且仅当$A$酉相似于对角矩阵，即$A^H A = A A^H$当且仅当存在酉矩阵$U$使得$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$。

Proof:

充分性。
由 $U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$ $\Rightarrow$ $A^H A = A A^H$ 。
若存在酉矩阵$U$使得$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$，则有$A^H A = U^H \operatorname{diag}(\lambda_1, \cdots, \lambda_n) \operatorname{diag}(\lambda_1, \cdots, \lambda_n) U = U^H \operatorname{diag}(\lambda_1, \cdots, \lambda_n)^2 U = U^H \operatorname{diag}(\lambda_1^2, \cdots, \lambda_n^2) U = A A^H$，故$A$是正规矩阵。
必要性。
由 $A^H A = A A^H$ $\Rightarrow$ $U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$。
由定理3.6.3可得$A$酉相似于上三角矩阵，即存在酉矩阵$U$使得$U^H A U = \Lambda$，其中$\Lambda$为上三角矩阵。则有

$$\begin{array}{l} A = U \Lambda U^H, A^H = (U \Lambda U^H)^H = U \Lambda^H U^H \\ A^H A = U\Lambda^H \Lambda U^H = AA^H = U \Lambda \Lambda^H U^H \end{array} \Rightarrow \Lambda^H \Lambda = \Lambda \Lambda^H$$

令

$$\Lambda = \begin{bmatrix} \lambda_{1} & a_{12} & \cdots & a_{1 n} \\ 0 & \lambda_{2} & \cdots & a_{2 n} \\ \vdots & \ddots & \ddots & \vdots \\ 0 & \cdots & 0 & \lambda_{n} \end{bmatrix}$$

则

\[\begin{array}{l} \Lambda^H \Lambda = \begin{bmatrix} \bar{\lambda}_{1} & 0 & \cdots & 0 \\ \bar{a}_{12} & \bar{\lambda}_{2} & \cdots & 0 \\ \vdots & \vdots & & \vdots \\ \bar{a}_{1 n} & \bar{a}_{2 n} & \cdots & \bar{\lambda}_{n} \end{bmatrix} \begin{bmatrix} \lambda_{1} & a_{12} & \cdots & a_{1 n} \\ 0 & \lambda_{2} & \cdots & a_{2 n} \\ \vdots & \ddots & \ddots & \vdots \\ 0 & \cdots & 0 & \lambda_{n} \end{bmatrix}\\ \Lambda \Lambda^H = \begin{bmatrix} \lambda_{1} & a_{12} & \cdots & a_{1 n} \\ 0 & \lambda_{2} & \cdots & a_{2 n} \\ \vdots & \ddots & \ddots & \vdots \\ 0 & \cdots & 0 & \lambda_{n} \end{bmatrix} \begin{bmatrix} \bar{\lambda}_{1} & 0 & \cdots & 0 \\ \bar{a}_{12} & \bar{\lambda}_{2} & \cdots & 0 \\ \vdots & \vdots & & \vdots \\ \bar{a}_{1 n} & \bar{a}_{2 n} & \cdots & \bar{\lambda}_{n} \end{bmatrix} \end{array}\]

根据上式左右两端矩阵对角线元素相等，得

\[\begin{gathered} \left|\lambda_1\right|^2 = \left|\lambda_1\right|^2 + \left|a_{12}\right|^2 + \cdots + \left|a_{1 n}\right|^2 \\ \left|\lambda_2\right|^2 + \left|a_{12}\right|^2 = \left|\lambda_2\right|^2 + \left|a_{23}\right|^2 + \cdots + \left|a_{2 n}\right|^2 \\ \vdots \\ \left|\lambda_n\right|^2 + \left|a_{1 n}\right|^2 + \left|a_{2 n}\right|^2 + \cdots + \left|a_{(n-1) n}\right|^2 = \left|\lambda_n\right|^2 \end{gathered}\]

依次求解得 $a_{12} = \cdots = a_{1 n} = 0, a_{23} = \cdots = a_{2 n} = 0, \cdots, a_{(n-1) n} = 0$。由此，上三角矩阵 $\Lambda$ 退化为对角矩阵，即 $A$ 酉相似于对角矩阵 $\Lambda$。

3.6.5 Corollary: 正规矩阵的判定

复方阵$A$是正规矩阵当且仅当$A$有$n$个特征向量构成$\mathbb{C}^n$空间的一组标准正交基，且属于$A$的不同特征值的特征向量正交。

3.6.6 Corollary: 正交矩阵的判定

实方阵$A$是正交矩阵当且仅当$A$的所有特征值的模值为1，且存在酉矩阵$U$使得$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$，其中$\lambda_1, \cdots, \lambda_n$是$A$的$n$个特征值。

Proof:

充分性。
由$A =U \operatorname{diag}(\lambda_1, \cdots, \lambda_n) U^H$，有

$$AA^H = U \begin{bmatrix} \lambda _1 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \lambda_n \end{bmatrix} \begin{bmatrix} \overline{\lambda _1} & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \overline{\lambda_n} \end{bmatrix} U^H = U \begin{bmatrix} \|\lambda _1\| & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \|\lambda_n\| \end{bmatrix} U^H = I$$

必要性。
由于正交矩阵为正规矩阵，其必然可以酉相似对角化。现在证明其特征值的模值为1。
设$\lambda$是矩阵$A$的特征值，$x$是属于特征值$\lambda$的特征向量，则有$Ax = \lambda x$。进一步，

\[(Ax, Ax) = x^H A^H A x = \|\lambda\|^2 x^H x\]

又知$A$是正交矩阵，故$A^H A = I$。上式可进一步改写为

\[x^H x = \|\lambda\|^2 x^H x\]

由于特征向量$x$为非零向量，故$x^H x \neq 0$。因此，$\|\lambda\|^2 = 1$，即$\|\lambda\| = 1$。

{注}：由于正交矩阵的特征值不一定为实数，所以这里只能说明其模值为1和存在酉矩阵对角化。

3.6.7 Corollary: 酉矩阵的判定

设矩阵$A \in \mathbb{C}^{n \times n}$，则$A$是酉矩阵当且仅当$A$的所有特征值的模为1，且存在酉矩阵$U$使得$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$，其中$\lambda_1, \cdots, \lambda_n$是$A$的$n$个特征值。

3.7.1 Definition: 正规矩阵谱分解

设$\lambda_1, \cdots, \lambda_m$是正规矩阵$A \in \mathbb{C}^{n \times n}$的$m$个互异特征值，其代数重数分别为$d_1, \cdots, d_m$且$d_1 + \cdots + d_m = n$。矩阵$A$的谱分解式为

$$A = \sum_{j=1}^{m} \lambda_j E_j$$

式中：$E_j = \sum_{i=1}^{d_j} u_{ji} u_{ji}^H, j = 1, \cdots, m$，称为矩阵$A$的谱阵，$u_{j1}, \cdots, u_{jd_j}$是属于特征值$\lambda_j$的$d_j$个单位正交的特征向量。

3.7.1 Theorem: 正规矩阵谱阵的性质

设正规矩阵$A \in \mathbb{C}^{n \times n}$有谱分解式$A = \sum_{j=1}^{m} \lambda_j E_j$，其中，$\lambda_1, \cdots, \lambda_m$是$A$的$m$个互异特征值，$E_1, \cdots, E_m$是$A$的$m$个谱阵，则对任意$i, j = 1, \cdots, m$且$i \neq j$，有性质
(1) $E_j = E_j^H = (E_j)^2$;
(2) $E_i E_j = O$;
(3) $E_i A = A E_i = \lambda_i E_i$;
(4) $\sum_{k=1}^{m} E_k = I$;
(5) 谱阵集合$\{E_1, \cdots, E_m\}$唯一。

Proof:

(1) 用到正交向量性质：$u_{ji}^H u_{ji} = 1$，$u_{ji}^H u_{ki} = 0$($j \neq k$)。
$(E_j)^H = \sum_{i=1}^{d_j} (u_{ji} u_{ji}^H)^H = \sum_{i=1}^{d_j} u_{ji} u_{ji}^H = E_j$。
$(E_j)^2 = \sum_{i=1}^{d_j} u_{ji} u_{ji}^H \sum_{i=1}^{d_j} u_{ji} u_{ji}^H = \sum_{i=1}^{d_j} (u_{ji} u_{ji}^H) (u_{ji} u_{ji}^H) = \sum_{i=1}^{d_j} u_{ji} (u_{ji}^H u_{ji}) u_{ji}^H = E_j$。

(2) 对正规矩阵来说，属于不同特征值的向量正交。
$E_i E_j = \sum_{k=1}^{d_i} u_{ki} u_{ki}^H \sum_{l=1}^{d_j} u_{jl} u_{jl}^H = \sum_{k=1}^{d_i} \sum_{l=1}^{d_j} u_{ki} u_{ki}^H u_{jl} u_{jl}^H = \sum_{k=1}^{d_i} \sum_{l=1}^{d_j} u_{ki} (u_{ki}^H u_{jl}) u_{jl}^H = 0$。

(3)
$E_i A = \sum_{j=1}^{m} \lambda_j E_i E_j \overset{性质2}{=} \lambda_i E_i E_i \overset{性质3}{=} \lambda E_i$
$A E_i = \sum_{j=1}^{m} \lambda_j E_j E_i = \lambda_i E_i E_i = \lambda E_i$

(4) 用到 $U U^H = U^H U = I$。
令 $U = \begin{bmatrix} u_{11}, \cdots, u_{1d_1}, \cdots, u_{m1}, \cdots, u_{md_m} \end{bmatrix} \in \mathbb{C}^{n \times m}$，则有 $\sum_{k=1}^{m} E_k = \sum_{k=1}^{m} \sum_{i=1}^{d_k} u_{ki} u_{ki}^H = U U^H = I$。

(5) 采用反证法证明。

{注}：
酉对角化分解有很强的几何意义，其实质是将一个矩阵对应的变换分解为旋转变换和拉伸变换分离。对于 $A = U \Lambda U^H$，$Ax = U \Lambda U^Hx$ 代表了先将 $x$ 旋转到 $U^Hx$，然后在各个方向上拉伸 $\lambda_i$ 倍，最后再旋转回来。
谱分解也有很强的几何意义，其本质是将矩阵对应的变换描述为在一组标准正交基上的拉伸。对于每个谱阵 $E_i$，其可以看作是一个投影矩阵，将向量投影到特征值 $\lambda_i$ 对应的特征子空间上。对于 $Ax = \sum_{j=1}^{m} \lambda_j E_jx$，其中 $E_jx$ 代表了将 $x$ 投影到 $\lambda_j$ 对应的特征子空间上，然后再拉伸 $\lambda_j$ 倍后合并。
通过此我们能更好的理解矩阵的定义。

3.7.2 Definition: 幂等矩阵

设$E \in \mathbb{C}^{n \times n}$，若$E^2 = E$，则称$E$为幂等矩阵（或投影矩阵）。Hermite幂等矩阵称为正交投影矩阵。

{注}：幂等矩阵和投影矩阵等价，即一个矩阵是幂等矩阵当且仅当它是投影矩阵。对称幂等矩阵称为正交投影矩阵，因为对 $x$ 的分解 $x = Px + (I - P)x$ 有，$(Px)^H (I-P)x = x^H P^H (x-Px) = 0$，即投影分量是正交的。

3.7.3 Theorem: 幂等矩阵性质

若$E \in \mathbb{C}_r^{n \times n}$是幂等矩阵，则
(1) $E$为单纯矩阵且相似于$\begin{bmatrix} I_r & 0 \\ 0 & 0 \end{bmatrix}$;
(2) $\operatorname{tr}(E) = r$;
(3) $Ex = x \Leftrightarrow x \in R(E)$，其中$x \in \mathbb{C}^n$。

Proof:

(1)
由 $E^2 = E$ 可知，$\varphi(\lambda) = \lambda(\lambda - 1)$ 是矩阵 $E$ 的零化多项式，故 $E$ 为单纯矩阵，且它的特征值只能为 0 或 1。又知 $\text{rank}(E) = r$，故矩阵 $E$ 的特征值 1 有 $r$ 重根。综上知，$E$ 相似于 $\begin{bmatrix} I_r & 0 \\ 0 & 0 \end{bmatrix}$。
(2)
由性质（1）知，存在可逆矩阵 $P$ 使得

\[P^{-1} A P = \begin{bmatrix} I_r & 0 \\ 0 & 0 \end{bmatrix}\]

又知 $\operatorname{tr}(E) = \operatorname{tr}(P^{-1} A P)$，故 $\operatorname{tr}(E) = r$。

(3)
由 $Ex = x$ 知，$x \in R(E)$；反之，若 $x \in R(E)$，则存在向量 $y \in \mathbb{C}^n$ 满足

\[x = Ey, \text{故} \, Ex = E(Ey) = E^2 y = Ey = x.\]

3.7.2 Example: 正交投影矩阵

求向量$b \in \mathbb{C}^n$在$V_m = \text{span}(a_1, \cdots, a_m)$上的正交投影，其中向量组$a_1, \cdots, a_m$是$\mathbb{C}^n$空间的$m$个线性无关向量，$m \leq n$。

定义矩阵$A = [a_1, \cdots, a_m] \in \mathbb{C}^{n \times m}$，则矩阵$A$列满秩。由此，$A^H A$为可逆矩阵，并可定义矩阵$P = A(A^H A)^{-1} A^H$。显然，$P^H = P$且

$$P^2 = A(A^H A)^{-1} A^H A(A^H A)^{-1} A^H = A(A^H A)^{-1} A^H = P$$

因此，$P$是正交投影矩阵。
该例子说明了如何构建一个空间的正交投影矩阵。可以用于最小二乘法的求解。

3.7.* Theorem: 正交投影的性质

(1) $R(P) = V_m$;
(2) $N(P) = R(P)^\perp$;
(3) $Pb \in R(P)$;
(4) $b = Pb + (I - P)b$;
(5) $(I - P)b \in N(P)$.

Proof:

(1) $R(A) = V_m$。
由于 $\forall x, R(P) = Px = A(A^H A)^{-1} A^H x = A((A^H A)^{-1} A^H x) = Ay$，则有 $R(P) \subset R(A)$。
同时 $\forall y, R(A) = Ay$，取 $x = Ay$，则有 $Px = A(A^H A)^{-1} A^H Ay = Ay$，故 $R(A) \subset R(P)$。综上 $R(P) = R(A) = V_m$。
(2) $N(P) = R(P)^\perp$。
由定理1.5.3 有 $N(P) = R(P^H)^\perp = R(P)^\perp$。
(3) (4) (5) 显然。

3.7.3 Definition: 单纯矩阵谱分解

设$\lambda_1, \cdots, \lambda_m$是单纯矩阵$A \in \mathbb{C}^{n \times n}$的$m$个互异特征值，其代数重数分别为$d_1, \cdots, d_m$，则矩阵$A$的谱分解式定义为

$$A = \sum_{j=1}^{m} \lambda_j E_j$$

式中：$E_j = \sum_{i=1}^{d_j} a_{ji} \beta_{ji}^H, j = 1, \cdots, m$，称为$A$的谱阵，$a_{j1}, \cdots, a_{jd_j}$是属于特征值$\lambda_j$的$d_j$个线性无关的单位特征向量，行向量$\beta_{jk}^H, k = 1, \cdots, d_j, j = 1, \cdots, m$，是矩阵$[a_{11}, \cdots, a_{1d_1}, \cdots, a_{m1}, \cdots, a_{md_m}]^{-1}$的第$\left(\sum_{i=1}^{j-1} d_i + k\right)$行（令$d_0 = 0$）。

3.7.4 Theorem: 单纯矩阵判定定理

设$n$阶复方阵$A$有$m$个互异特征值$\lambda_1, \ldots, \lambda_m$，则$A$是单纯矩阵当且仅当存在$m$个$n$阶矩阵$E_1, \ldots, E_m$使得对任意$i, j = 1, \ldots, m$且$i \neq j$，有性质：

$A = \sum_{k=1}^{m} \lambda_k E_k$；

$E_i = (E_i)^2$；

$E_i E_j = O$；

$E_i A = A E_i = \lambda_i E_i$；

$\sum_{k=1}^{m} E_k = I$；

谱阵集合$\{E_1, \ldots, E_m\}$唯一。

Proof:

必要性。
(1) 由定义显然可得。
由 $P P^{-1} = P^{-1} P = I$ 可得：

\[\begin{bmatrix} \alpha_{11}, \cdots, \alpha_{md_m} \end{bmatrix} \begin{bmatrix} \beta_{11}^H \\ \vdots \\ \beta_{md_m}^H \end{bmatrix} = \begin{bmatrix} \beta_{11}^H \\ \vdots \\ \beta_{md_m}^H \end{bmatrix} \begin{bmatrix} \alpha_{11}, \cdots, \alpha_{md_m} \end{bmatrix} = I\]

即(5)成立：

\[\sum_{k=1}^{m} \sum_{i=1}^{d_k} \alpha_{ki} \beta_{ki}^H = \sum_{k=1}^{m} E_k = I\]

定义

\[X_j = \left[ \alpha_{j1}, \cdots, \alpha_{jd_j} \right] \in \mathbb{C}^{n \times d_j}, \quad Y_j = \left[ \begin{array}{c} \beta_{j1}^H \\ \vdots \\ \beta_{jd_j}^H \end{array} \right] \in \mathbb{C}^{d_j \times n}\]

则 $E_j = X_j Y_j$，则

\[\left[ \begin{array}{c} Y_1 \\ \vdots \\ Y_m \end{array} \right] \left[ X_1, \cdots, X_m \right] = I\]

由上式知，当 $i, j = 1, \cdots, m$ 且 $i \neq j$ 时，$Y_j X_j = I_{d_j}, Y_i X_j = O$。于是，(2)和(3)成立。进而，

\[\begin{align*} E_i A &= E_i \left( \sum_{j=1}^m \lambda_j E_j \right) = \lambda_i E_i \\ A E_i &= \left( \sum_{j=1}^m \lambda_j E_j \right) E_i = \lambda_i E_i \end{align*}\]

即(4)成立。
(6) 的证明参照定理3.7.1。

充分性。
设 $\text{rank}(E_j) = d_j, j = 1, \cdots, m$，则有

\[\sum_{j=1}^{m} d_j = \sum_{j=1}^{m} \text{tr}(E_j) = \text{tr}\left(\sum_{j=1}^{m} E_j\right) = \text{tr}(I_n) = n\]

由 $\text{dim}(R(E_j)) = d_j$ 得，可取列空间 $R(E_j)$ 的一组基 $\alpha_{j1}, \cdots, \alpha_{jd_j}$，并定义

\[X_j = [\alpha_{j1}, \cdots, \alpha_{jd_j}] \in \mathbb{C}^{n \times d_j}\]

\[X = [X_1, \cdots, X_m] \in \mathbb{C}^{n \times n}\]

由满秩分解知，$E_j = X_j Y_j$，其中，$Y_j \in \mathbb{C}^{d_j \times n}, j = 1, \cdots, m$。由此，定义

\[Y = \begin{bmatrix} Y_1 \\ \vdots \\ Y_m \end{bmatrix} \in \mathbb{C}^{n \times n}\]

则有 $XY = \sum_{j=1}^{m} X_j Y_j = \sum_{j=1}^{m} E_j = I_n$。故 $X$ 是可逆矩阵。

再由 $YX = I$，得，当 $i = 1, \cdots, m$ 且 $i \neq j$ 时，$Y_j X_j = I_{d_j}, Y_i X_j = O$。由此，计算 $E_j X_i$ 得

\[E_j X_i = X_j Y_j X_i = \begin{cases} X_j, & i = j \\ O, & i \neq j \end{cases}\]

考察矩阵 $AX$：

\[AX = \left( \sum_{j=1}^{m} \lambda_j E_j \right) [X_1, \cdots, X_m] = \left[ \sum_{j=1}^{m} \lambda_j E_j X_1, \cdots, \sum_{j=1}^{m} \lambda_j E_j X_m \right]\]

\[= [\lambda_1 X_1, \cdots, \lambda_m X_m] = \text{diag}(\lambda_1, \cdots, \lambda_m) [X_1, \cdots, X_m]\]

即 $AX = \text{diag}(\lambda_1, \cdots, \lambda_m) X$。因此，$A$ 是单纯矩阵。证毕。

3.7.1 Corollary: 单纯矩阵函数的谱分解

设单纯矩阵$A \in \mathbb{C}^{n \times n}$的谱分解为$A = \sum_{j=1}^{m} \lambda_j E_j$，$f(\lambda)$为数域$\mathbb{C}$上的多项式，则

$$f(A) = \sum_{j=1}^{m} f(\lambda_j) E_j$$

式中，$\lambda_1, \ldots, \lambda_m$为$A$的$m$个互异特征值，$E_j (j = 1, \ldots, m)$是矩阵$A$的谱阵。

Proof:

首先用数学归纳法证明对 $k = 0, 1, 2, \cdots$，有

\[A^k = \lambda_1^k E_1 + \lambda_2^k E_2 + \cdots + \lambda_m^k E_m\]

当 $k = 0$ 和 $k = 1$ 时，上式显然成立。假设当 $k = p$ 时，有

\[A^p = \lambda_1^p E_1 + \lambda_2^p E_2 + \cdots + \lambda_m^p E_m\]

现考察 $k = p + 1$。此时，

\[\begin{align*} A^{p+1} &= \left(\lambda_1^p E_1 + \lambda_2^p E_2 + \cdots + \lambda_m^p E_m\right) A \\ &= \lambda_1^p E_1 A + \lambda_2^p E_2 A + \cdots + \lambda_m^p E_m A \\ &= \lambda_1^{p+1} E_1 + \lambda_2^{p+1} E_2 + \cdots + \lambda_m^{p+1} E_m \end{align*}\]

于是

\[A^k = \lambda_1^k E_1 + \lambda_2^k E_2 + \cdots + \lambda_m^k E_m, \quad k = 0, 1, 2, \cdots\]

设 $f(\lambda) = a_n \lambda^n + a_{n-1} \lambda^{n-1} + \cdots + a_1 \lambda + a_0$，则

\[f(A) = a_n A^n + a_{n-1} A^{n-1} + \cdots + a_1 A + a_0 I\]

将式(3.7.12)代入上式得

\[\begin{align*} f(A) = &\left(a_n \lambda_1^{n-1} + a_{n-1} \lambda_1^{n-2} + \cdots + a_1 \lambda_1 + a_0\right) E_1 + \cdots + \\ &\left(a_n \lambda_m^{n-1} + a_{n-1} \lambda_m^{n-2} + \cdots + a_1 \lambda_m + a_0\right) E_m \end{align*}\]

注意到 $f(\lambda_i) = a_n \lambda_i^n + a_{n-1} \lambda_i^{n-1} + \cdots + a_1 \lambda_i + a_0$，故 $f(A) = \sum_{i=1}^m f(\lambda_i) E_i$。证毕。

3.7.2 Corollary: 单纯矩阵谱阵的计算

设单纯矩阵$A \in \mathbb{C}^{n \times n}$的谱分解为$A = \sum_{j=1}^{m} \lambda_j E_j$，则

$$E_i = \frac{1}{\prod_{l=1, l \neq i}^{m} (\lambda_i - \lambda_l)} \prod_{l=1, l \neq i}^{m} (A - \lambda_l I), \quad i = 1, \cdots, m$$

Proof:

令$f_i(\lambda) = \prod_{l=1, l \neq i}^{m} (\lambda - \lambda_l)$，则由推论3.7.1 知

$$f_i(A) = f_i(\lambda_1) E_1 + \cdots + f_i(\lambda_m) E_m$$

式中：

$$f_i(\lambda_j) = \begin{cases} 0, & j \neq i \\ f_i(\lambda_i), & j = i \end{cases}$$

因此，$f_i(A) = f_i(\lambda_i) E_i$，即$E_i = f_i(A) / f_i(\lambda_i)$。证毕。

{注}：该推论提供了一种高效求解单纯矩阵谱阵的方法，其不再需要求特征向量。

3.8.1 Definition: $\lambda$ 矩阵

以$\lambda$多项式为元素的矩阵称为$\lambda$矩阵，记为$A(\lambda)$，即

$$A(\lambda) = [a_{ij}(\lambda)]_{m \times n}, \quad a_{ij}(\lambda) \in P_n(\lambda).$$

3.8.1 Example: $\lambda$ 矩阵的判定

判断$A(\lambda)$和$B(\lambda)$是否为$\lambda$矩阵，其中

$$A(\lambda) = \begin{bmatrix} 1-\lambda & \lambda^2 & \lambda \\ \lambda & \lambda & -\lambda \\ 1+\lambda^2 & \lambda^2 & -\lambda^2 \end{bmatrix}, \quad B(\lambda) = \begin{bmatrix} \lambda & \lambda^2 & \lambda \\ \lambda & \lambda & -\lambda \\ \lambda^{-2} & \lambda^2 & -\lambda^2 \end{bmatrix}$$

$A(\lambda)$ 是 $\lambda$ 矩阵；由于 $\lambda^{-2}$ 不是 $\lambda$ 多项式，故 $B(\lambda)$ 不是 $\lambda$ 矩阵。

3.8.2 Definition: 矩阵的秩

$\lambda$矩阵$A(\lambda)$中非零子式的最高阶数$r$定义为$A(\lambda)$的秩，记为$\text{rank}(A(\lambda)) = r$。

3.8.2 Example: 矩阵的行列式和秩

求$A(\lambda) = \begin{bmatrix} \lambda & 0 \\ 0 & \lambda + 1 \end{bmatrix}$的行列式和秩。

$|A(\lambda)| = \lambda(\lambda + 1)$，故$\text{rank}(A(\lambda)) = 2$。由于 $\lambda$ 只是一个符号，就相当于 $f(x) = ax^2 + bx + c$ 中的 $x$，故不能讨论 $\lambda$ 不同取值下 $A(\lambda)$ 的秩。

3.8.3 Example: 特征矩阵的秩

设$A \in \mathbb{C}^{n \times n}$，$f_A(\lambda) = |\lambda I - A|$是关于$\lambda$的一元$n$次多项式。$A$的特征矩阵$\lambda I - A$的秩为$n$，即$\lambda I - A$总是满秩的。

3.8.3 Definition: $\lambda$ 矩阵的逆矩阵

设$A(\lambda)$是$n$阶$\lambda$方阵，若存在$n$阶$\lambda$方阵$B(\lambda)$满足$A(\lambda)B(\lambda) = B(\lambda)A(\lambda) = I$，则称$\lambda$矩阵$A(\lambda)$是可逆的，并称$B(\lambda)$为$A(\lambda)$的逆矩阵，记作$A(\lambda)^{-1}$。

3.8.1 Theorem: $\lambda$ 矩阵可逆性判定

$n$阶$\lambda$方阵$A(\lambda)$可逆的充分必要条件是它的行列式$|A(\lambda)|$为非零常数。

Proof:

必要性。
若$\lambda$方阵$A(\lambda)$可逆，则存在$\lambda$方阵$B(\lambda)$满足$A(\lambda)B(\lambda) = I$。对等式两端取行列式得

$$|A(\lambda)||B(\lambda)| = 1$$

充分性。
设$|A(\lambda)| = \tau \neq 0$，$(A(\lambda))^*$是$A(\lambda)$的伴随矩阵，则

$$A(\lambda)(A(\lambda))^* = (A(\lambda))^*A(\lambda) = \tau I_n$$

注意到$\frac{1}{\tau}(A(\lambda))^*$也是$n$阶$\lambda$矩阵，则根据上式知，$\frac{1}{\tau}(A(\lambda))^*$是$A(\lambda)$的逆矩阵。
证毕。

3.8.4 Definition: 初等变换

下列三种变换称为$\lambda$矩阵的初等变换：
(1) $\lambda$矩阵的两行（列）互换位置，记为 $P(i, j)$；
(2) $\lambda$矩阵的某一行（列）乘以非零常数$k$，记为 $P(i(c))$；
(3) $\lambda$矩阵的某一行（列）的$\varphi(\lambda)$倍加到另一行（列），其中$\varphi(\lambda) \in P_n(\lambda)$，记为 $P(i, j(\phi ))$。

对 $\lambda$ 矩阵作一次初等行变换意味着左乘相应的初等矩阵，对 $\lambda$ 矩阵作一次初等列变换则意味着右乘相应的初等矩阵。由于三种初等矩阵的行列式均为非零常数，故初等矩阵都是可逆的且对 $\lambda$ 矩阵作初等变换不改变它的秩。

3.8.5 Definition: 矩阵相抵

若$\lambda$矩阵$A(\lambda)$经过有限次初等变换变为$B(\lambda)$，则称$A(\lambda)$与$B(\lambda)$相抵，记为 $A(\lambda) \cong B(\lambda)$。

{注}：$\lambda$ 矩阵的相抵关系秩相等不等价。由于 $A(\lambda) \cong B(\lambda) \Rightarrow PAQ = B$，由于初等矩阵都是可逆的，其行列式为非零常数，由 $\lvert P \rvert \lvert A \rvert \lvert Q \rvert = \lvert B \rvert$ 知其行列式只能相差一个非零常数。

3.8.6 Definition: 行列式因子

设$\lambda$矩阵$A(\lambda)$的秩为$r$，对于正整数$1 \leq k \leq r$，$A(\lambda)$的全部$k$阶子式的首1最大公因式称为$k$阶行列式因子，记为$D_k(\lambda)$。

3.8.5 Example: 计算行列式因子

求$A(\lambda) = \begin{bmatrix} 1-\lambda & \lambda^2 & \lambda \\ \lambda & \lambda & -\lambda \\ 1+\lambda^2 & \lambda^2 & -\lambda^2 \end{bmatrix}$各阶行列式因子。

$A(\lambda)$的一阶子式为：$1-\lambda, \lambda^2, \lambda, \lambda, \lambda, -\lambda, 1+\lambda^2, \lambda^2, -\lambda^2$。一阶因子的首1最大公因式为$D_1(\lambda) = 1$。

$A(\lambda)$的二阶子式共9个，分别为：$\lambda(1-\lambda-\lambda^2), -\lambda, -\lambda(\lambda^2+\lambda), -\lambda(\lambda^2+\lambda), -\lambda(\lambda^2+\lambda), -\lambda(\lambda^2), -\lambda(\lambda^2), -\lambda(\lambda^3-\lambda^2), -\lambda, \lambda, 0$。二阶因子的首1最大公因式$D_2(\lambda) = \lambda$。

$A(\lambda)$的三阶子式共1个，即$D_3(\lambda) = |A(\lambda)| = \lambda^3 + \lambda^2$。

3.8.2 Theorem: 矩阵相抵性质

相抵的$\lambda$矩阵具有相同的秩和相同的各阶行列式因子。

Proof:

只需证明 $\lambda$ 矩阵经过 1 次初等变换，秩和行列式因子不变。
(1) 对 $P(i, j)A =B$，在 $k$ 阶子式中，若未包含第 $i, j$ 行，则该子式不变；若同时包含 $i, j$ 行，则显然其子式为相反数。若只包含第 $i$ 行，由于行列式因子的定义，可以将第 $i$ 行替换为第 $j$ 行，故其 $k$ 阶子式集合保持不变。

(2) 对 $P(i(c))A = B$，在 $k$ 阶子式中，若未包含第 $i$ 行，则该子式不变；若包含第 $i$ 行，则其子式为 $k$ 阶子式的 $c$ 倍。由于行列式因子要求为首 1 最大公因式，故其不变。

(3) 对 $P(i, j(\phi))A = B$，在 $k$ 阶子式中，若未包含第 $i$ 行，则该子式不变；若包含第 $i$ 行，则其子式为一个 $k$ 阶子式和另一个 $k$ 阶子式的 $\phi$(或$-\phi$) 倍之和。由于行列式因子要求为首 1 最大公因式，故其不变。

3.8.3 Theorem: Smith标准形

设$\lambda$矩阵$A(\lambda)$的秩为$r$，则

$$A(\lambda) \cong \begin{bmatrix} d_1(\lambda) & 0 & \cdots & 0 & 0 \\ 0 & \ddots & \cdots & 0 & 0 \\ 0 & \cdots & d_r(\lambda) & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \cdots & 0 \end{bmatrix}$$

式中：$d_i(\lambda)$是首1多项式，且$d_i(\lambda) | d_{i+1}(\lambda)$，称此标准形为$A(\lambda)$的Smith标准形。

3.8.1 Corollary: Smith标准形的唯一性

$\lambda$矩阵的Smith标准形是唯一的。

3.8.7 Definition: 不变因子

在$\lambda$矩阵$A(\lambda)$的Smith标准形中 $d_1(\lambda), \cdots, d_r(\lambda)$由$A(\lambda)$唯一确定的，称为$A(\lambda)$的不变因子。

3.8.* Theorem: 行列式因子和不变因子关系

$$\begin{gathered} D_1(\lambda) = d_1(\lambda)\\ D_2(\lambda) = d_1(\lambda) d_2(\lambda) \\ D_r(\lambda) = d_1(\lambda) d_2(\lambda) \cdot \ldots \cdot d_r(\lambda) \end{gathered}$$

或

$$\begin{gathered} d_1(\lambda) = D_1(\lambda) \\ d_2(\lambda) = \frac{D_2(\lambda)}{D_1(\lambda)} \\ d_r(\lambda) = \frac{D_r(\lambda)}{D_{r-1}(\lambda)} \end{gathered}$$

3.8.2 Corollary: 矩阵相抵充要条件

$\lambda$矩阵$A(\lambda)$与$B(\lambda)$相抵当且仅当它们有完全一致的不变因子 $d_i(\lambda )$。

3.8.8 Definition: 初等因子

设$\lambda$矩阵$A(\lambda)$的不变因子为$d_1(\lambda), \cdots, d_r(\lambda)$，且有如下分解式，则所有幂指数大于零的因子$(\lambda - \lambda_j)^{e_{ij}}, i = 1, \cdots, r, j = 1, \cdots, s$，统称为$\lambda$矩阵$A(\lambda)$的初等因子。

复数域 $\mathbb{C}$ 上的一元多项式可分解成一次因子的幂的乘积形式。设 $A(\lambda)$ 的不变因子 $d_1(\lambda), \cdots, d_r(\lambda)$ 可分解为

\[\left\{ \begin{gathered} d_1(\lambda) = (\lambda - \lambda_1)^{e_{11}} (\lambda - \lambda_2)^{e_{12}} \cdots (\lambda - \lambda_s)^{e_{1s}} \\ d_2(\lambda) = (\lambda - \lambda_1)^{e_{21}} (\lambda - \lambda_2)^{e_{22}} \cdots (\lambda - \lambda_s)^{e_{2s}} \\ \vdots \\ d_r(\lambda) = (\lambda - \lambda_1)^{e_{r1}} (\lambda - \lambda_2)^{e_{r2}} \cdots (\lambda - \lambda_s)^{e_{rs}} \end{gathered} \right.\]

式中：$\lambda_1, \cdots, \lambda_s$ 互异，$e_{ij} (i = 1, \cdots, r; j = 1, \cdots, s)$ 为非负整数。

由 $d_1(\lambda) | d_{i+1}(\lambda)$ 知，

\[\left\{ \begin{gathered} 0 \leq e_{11} \leq e_{21} \leq \cdots \leq e_{r1} \\ 0 \leq e_{12} \leq e_{22} \leq \cdots \leq e_{r2} \\ \vdots \\ 0 \leq e_{1s} \leq e_{2s} \leq \cdots \leq e_{rs}\\ \end{gathered} \right.\]

即序列 $e_{1j}, e_{2j}, \cdots, e_{rj}$ 是非严格递增的。

{注}：相抵矩阵有相同的行列式因子 $D_i(\lambda )$，有相同的不变因子 $d_i(\lambda )$，有相同的初等因子。

3.8.4 Theorem: 矩阵相抵的判定

$\lambda$矩阵$A(\lambda) \cong B(\lambda)$当且仅当它们有完全一致的初等因子，且$\text{rank}(A(\lambda)) = \text{rank}(B(\lambda))$。

Proof:

必要性。
相抵矩阵秩相等，有相同的行列式因子 $D_i(\lambda )$，有相同的不变因子 $d_i(\lambda )$，有相同的初等因子。

充分性。
由于秩相同，则其不变因子的个数相同，记为 $d_1, \cdots , d_r$。由于 $d_{i} \mid d_{i+1}$，所以幂指数最大的初等因子 $(\lambda - \lambda _j)^{e_{rj}}, e_{rj} = \max {e_{ij}}$ 必是 $d_r$ 的因子，故 $d_{rA} = d_{rB}$。对于 $d_{r-1}$，首先在初等因子中去掉 $d_r$ 的因子，则余下的的幂指数最大的初等因子(若已为空集，则补1)必是 $d_{r-1}$ 的因子，故 $d_{r-1A} = d_{r-1B}$。以此类推，可知 $d_{1A} = d_{1B}$。证毕。

3.8.5 Theorem: 对角块矩阵的初等因子

设$\lambda$矩阵$A(\lambda)$为对角块矩阵，即

$$A(\lambda) = \operatorname{diag}(A_1(\lambda), \cdots, A_s(\lambda))$$

则 $A_1(\lambda), \cdots, A_s(\lambda)$ 初等因子的全体就是 $A(\lambda)$ 的全部初等因子，其中 $A_i(\lambda), i = 1, \cdots, s$ 是适当阶数的$\lambda$矩阵。

{注}：该定理给出了一个求解初等因子的方法，不需要再求不变因子。再求解 Smith 标准型的时候，可以先对角化，然后再求出各个对角块的初等因子。

3.8.11 Example: Jordan 块特征矩阵的初等因子

求 $A(\lambda) = \begin{vmatrix} \lambda - a & -1 \\ & \lambda - a & \ddots \\ & & \ddots & -1 \\ & & & \lambda - a \end{vmatrix}_{n \times n}$ 的初等因子、不变因子和 Smith 标准形。

考察 $A(\lambda)$ 的 $(n-1)$ 阶子式

$$\begin{vmatrix} -1 \\ \lambda - a & -1 \\ & \ddots & \ddots \\ & & \lambda - a & -1 \end{vmatrix} = (-1)^{n-1}$$

故 $A(\lambda)$ 的 $(n-1)$ 阶子式的不变因子为 $d_{n-1} = 1$。

又知 $|A(\lambda)| = (\lambda - a)^n$，故 $A(\lambda)$ 的不变因子为 $d_1 = d_2 = \cdots = d_{n-1} = 1, d_n = (\lambda - a)^n$。相应地，$A(\lambda)$ 的初等因子为 $(\lambda - a)^n$，其 Smith 标准形为

$$A(\lambda) \cong \begin{bmatrix} 1 & & & \\ & 1 & & \mathbf{0} \\ & & \ddots & \\ & \mathbf{0} & & (\lambda - a)^n \end{bmatrix}$$

{注}：后面可以看见这里的 $A(\lambda )$ 其实是一个 Jordan 块。

3.8.6 Theorem: 相似矩阵特征矩阵相抵

复方阵$A$和$B$相似当且仅当它们的特征矩阵相抵。

Proof:

必要性。
若矩阵 $A$ 与 $B$ 相似, 则存在可逆矩阵 $P$ 使得 $P^{-1}AP=B$，从而

$$P^{-1} (\lambda I - A)P = \lambda I - P^{-1}AP = \lambda I - B$$

故 $\lambda I - A$ 与 $\lambda I - B$ 相抵。

充分性。
书上的充分性看不懂，也不知道对不对，可能需要另找证明。

{注}：矩阵相抵等价于矩阵不变因子相同，等价于秩相等且初等因子相同(由于特征矩阵都是满秩的，所以对于特征矩阵来说也就是初等因子相同)。

3.8.3 Corollary: 单纯特征矩阵的初等因子

复方阵$A$是单纯矩阵的充分必要条件是它的特征矩阵$\lambda I - A$的初等因子为一次的。

Proof:

必要性。
由于 $A$ 是单纯矩阵，即可对角化。

$$A \sim B = \begin{bmatrix} \lambda_1 & \cdots & 0\\ 0 & \ddots & 0\\ 0 & \cdots & \lambda_n \end{bmatrix}$$

则 $A$ 的特征矩阵与 $B$ 的特征矩阵相抵，即

$$\lambda I - A \cong \lambda I - B = \begin{bmatrix} \lambda - \lambda_1 & \cdots & 0\\ 0 & \ddots & 0 \\ 0 & \cdots &\lambda - \lambda_n \end{bmatrix}$$

由于相抵的矩阵的初等因子相同，所以 $\lambda I - A$ 的初等因子与 $\lambda I - B$ 的初等因子相同，根据定理3.8.5，$\lambda I - B$ 的初等因子即为对角线所有元素 $\lambda - \lambda _i$，均为一次的(可能有重复的)。

充分性。
若 $\lambda I - A$ 的初等因子均为一次的，由于其秩为 $n$，故其必有 $n$ 个初等因子。构造矩阵 $B = \lambda I - \Lambda$，将这 $n$ 个初等因子分布在其对角线上，使得每个对角线元素对应一个初等因子，由定理3.8.5可知，$B$ 的特征矩阵的初等因子与 $\lambda I - A$ 的初等因子相等。由定理3.8.6可知，$A$ 与 $\Lambda$ 相似。而显然 $\Lambda$ 为对角矩阵，所以 $A$ 是单纯矩阵。

3.8.4 Corollary: 单纯特征矩阵的不变因子

复方阵$A$是单纯矩阵的充分必要条件是它的特征矩阵$\lambda I - A$的不变因子无重根。

Proof:

根据初等因子的定义和推论3.8.3，该推论显然成立。

3.8.12 Example: Jordan 块不可对角化

判断$n$阶方阵$A$是否为单纯矩阵，其中

$$A=\left[\begin{array}{cccc} a & 1 & & \\ & a & 1 & \\ & & a & \ddots \\ & & & \ddots & 1 \\ & & & & a \end{array}\right]_{n\times n}$$

由例3.8.11知，特征矩阵 $\lambda I-A$ 的初等因子为 $(\lambda-a)^n$。故当 $n\geqslant 2$ 时，其初等因子不是一次的，即矩阵 $A$ 不是单纯矩阵。

3.8.9 Definition: Jordan块

设$A=\left[a_{ij}\right]\in \mathbb{C}^{n\times n}$，其特征矩阵$\lambda I-A$的初等因子为$(\lambda-\lambda_1)^{n_1},(\lambda-\lambda_2)^{n_2},\cdots,(\lambda-\lambda_t)^{n_s}$。对$(\lambda-\lambda_i)^{n_i}$作$n_i$阶矩阵

$$J_i=\left[\begin{array}{cccc} \lambda_i & 1 & & \\ & \lambda_i & 1 & \\ & & \ddots & \ddots \\ & & & \lambda_i & 1 \\ & & & & \lambda_i \end{array}\right]_{n_i\times n_i}$$

则称矩阵$J_i(i=1,\cdots, s)$为矩阵$A$的Jordan块。

{注}：

Jordan块是一种特殊的矩阵，其对角线元素相同，对角线上方的元素为1，其余元素为0。
将例3.8.11次对角线元素改为任意复数可以发现其初等因子不变，则次对角线元素为任意值均可以当作 Jordan块。

3.8.14 Example: Jordan块的最小多项式

求 Jordan 块

$$J_i=\left[\begin{array}{cccc} \lambda_i & 1 & & \mathbf{O} \\ & \lambda_i & 1 & \\ & & \ddots & \ddots \\ \mathbf{O} & & & \lambda_i \end{array}\right]_{n_i\times n_i}$$

的最小多项式。

由矩阵 $J_i$ 的特征多项式为 $f_{J_i}(\lambda)=(\lambda-\lambda_i)^{n_i}$ 知，其最小多项式可能为 $(\lambda-\lambda_i),\ldots,(\lambda-\lambda_i)^{n_i}$。经计算知，对 $j=1,\ldots,n_i-1$，$(J_i-\lambda_i I)^j \neq \mathbf{O}$。因此，矩阵 $J_i$ 的最小多项式为 $m_{J_i}(\lambda)=(\lambda-\lambda_i)^{n_i}$。

{注}：

任一 Jordan 块的最小多项式等于它的特征多项式，也是 Jordan 块所对应的初等因子。从 Jordan 块形式看，给定初等因子所作的最简 $\lambda$ 矩阵就是 Jordan 块的特征矩阵。
Jordan 块的行列式因子和不变因子为 $D _1 = d_1 \cdots =D _{n-1}= d_{n-1} = 1, d_n = D _n = (\lambda-\lambda_i)^{n_i}$，初等因子为 $E = (\lambda - \lambda _i)^{n_i}$。

3.8.10 Definition: Jordan标准形

设$A=\left[a_{ij}\right]\in \mathbb{C}^{n\times n}$，其特征矩阵$\lambda I-A$的初等因子为$(\lambda-\lambda_1)^{n_1},\cdots,(\lambda-\lambda_s)^{n_s}$，其对应的 Jordan 块分别记为$J_1,\cdots, J_s$，则由 $s$ 个 Jordan 块组成的 $n$ 阶对角块矩阵$J=\operatorname{diag}(J_1,\cdots, J_s)$称为矩阵$A$的 Jordan 标准形）。

{注}：显然，Jordan 标准形中的 Jordan 块是唯一的，但 Jordan 块的排列次序不唯一。

3.8.7 Theorem: Jordan标准形定理

设矩阵 $J$ 是复方阵 $A$ 的 Jordan 标准形，则矩阵 $A$ 与矩阵 $J$ 相似。

Proof:

特征矩阵 $\lambda I-A$ 的初等因子为 $(\lambda-\lambda_1)^{n_1},\cdots,(\lambda-\lambda_s)^{n_s}$，其对应的 Jordan 块分别为 $J_1,\cdots, J_s$，则 $J=\operatorname{diag}(J_1,\cdots, J_s)$ 是矩阵 $A$ 的 Jordan 标准形。显然，$\lambda$ 矩阵 $\lambda I-J$ 与 $\lambda I-A$ 的初等因子完全相同。因此，$\lambda I-A$ 与 $\lambda I-J$ 相抵，即矩阵 $A$ 与 $J$ 相似。证毕。

{注}：由该定理可知，Jordan 标准形已经是 $A$ 的相似矩阵的最简形式。由此可见，若矩阵 $A$ 想要对角化，次对角线上的元素必须为0，即必须有 $n_i=1$，即 $n$ 个 Jordan 块。

3.8.* Theorem: Jordan 块和特征向量关系

设 $J$ 为 $A$ 的 Jordan 标准形，$J_1, \cdots, J_s$ 为 $J$ 的Jordan块，则 $J_i$ 对应的特征值的特征空间维度为1。

Proof:

设 $J_1, \cdots, J_s$ 为 $J$ 的Jordan块

$$J = \begin{bmatrix} J_1 & & & \mathbf{O} \\ & J_2 & & \\ & & \ddots & \\ \mathbf{O} & & & J_s \end{bmatrix} = \begin{bmatrix} \lambda_1 & 1 & & \mathbf{O} \\ & \lambda_1 & \ddots & \\ & & \ddots & 1\\ \mathbf{O} & & & \lambda_s \end{bmatrix}$$

其中 $\lambda _i$ 为矩阵$A$的特征值。
1.若 $\lambda _i, \cdots ,\lambda _s$ 互不相同。
Jordan 块的定义

$$J_i=\left[\begin{array}{cccc} \lambda_i & 1 & & \mathbf{O} \\ & \lambda_i & \ddots & \\ & & \ddots & 1 \\ \mathbf{O} & & & \lambda_i \end{array}\right]_{n_i\times n_i}$$

由于

$$\operatorname{rank}(\lambda _i I_j - J_j) = \begin{cases} n_i - 1, & j = i\\ n_i, & j \neq i \end{cases}$$

所以 $\operatorname{rank}(\lambda_i I - J) = n-1$，则 $\dim N (\lambda_i I - J) = 1$，即 $\lambda_i$ 对应的特征向量为一维的。
2.若存在 $\lambda _i = \lambda _j$。
将 $J_i$ 和 $J_j$ 看作同一个块，则显然 $\operatorname{rank}(\lambda_i I - J) = n-2$，则 $\dim N (\lambda_i I - J) = 2$，即 $\lambda_i$ 对应的特征向量为二维。仍然有 $J_i$ 对应的特征向量为一维的。

3.8.16 Example: Jordan标准形与相似变换矩阵

求矩阵 $A$ 的 Jordan 标准形 $J$，并求可逆矩阵 $P$ 使得 $P^{-1}AP=J$，其中

$$A=\left[\begin{array}{ccc} -1 & -2 & 6 \\ -1 & 0 & 3 \\ -1 & -1 & 4 \end{array}\right]$$

对矩阵 $A$ 的特征矩阵 $\lambda I-A$ 作初等变换得

$$\lambda I-A\cong\left[\begin{array}{ccc} 1 & 0 & 0 \\ 0 & \lambda-1 & 0 \\ 0 & 0 & (\lambda-1)^2 \end{array}\right]$$

则特征矩阵 $\lambda I-A$ 的初等因子为 $(\lambda-1),(\lambda-1)^2$。由此，矩阵 $A$ 的 Jordan 标准形为

$$J=\left[\begin{array}{llll} 1 & 0 & 0 \\ 0 & 1 & 1 \\ 0 & 0 & 1 \end{array}\right]$$

设 $P=[p_1 \quad p_2 \quad p_3]$，则 $A[p_1 \quad p_2 \quad p_3]=[p_1 \quad p_2 \quad p_3]J$。整理得

$$\left\{ \begin{array}{l} Ap_1=p_1 \\ Ap_2=p_2 \\ Ap_3=p_2+p_3 \end{array} \right.$$

由 $Ap_i=p_i$ 解得两个线性无关的向量为 $p_1=(3,0,1)^T$ 和 $p_2=(0,3,1)^T$。

将 $p_2=(0,3,1)^T$ 代入 $Ap_3=p_2+p_3$ 发现此方程无解（为什么？）。
解释：将 $Ap_3=p_2+p_3$ 变为 $(A - I)p_3 = p_2$ 可知，$p_2$ 必须在 $A-I$ 零空间和 $A-I$ 列空间的交空间中，显然上面取的 $p_2$ 不在 $A-I$ 的列空间中，故无解。
重新调整方程 $Ap_i=p_i$ 的解，经观察得 $p_1=(3,0,1)^T$ 和 $p_2=(2,1,1)^T$。此时，$p_3=(-1,0,0)^T$。
因此，

$$P=\left[\begin{array}{ccc} 3 & 2 & -1 \\ 0 & 1 & 0 \\ 1 & 1 & 0 \end{array}\right]$$

3.8.8 Theorem: Frobenius 定理

设 $A\in C^{n\times n}$，其特征矩阵 $\lambda I-A$ 的 Smith 标准形为 $\operatorname{diag}\left(d_1(\lambda),\cdots, d_n(\lambda)\right)$，则 $A$ 的最小多项式 $m_A(\lambda)=d_n(\lambda)$。

Proof:

利用矩阵 $A$ 的 Jordan 标准形 $J$ 进行求解。若标准形 $J$ 仅包含一个 Jordan 块 $J_1$，则由例3.8.14 知，$m_{J_1}(\lambda)=\left(\lambda-\lambda_1\right)^{k_1}$，故 $J_1$ 的最小多项式恰好等于它所对应的初等因子。

当 $J$ 包含两个 Jordan 块 $J_1$ 和 $J_2$ 时，下面分两种情况讨论：
(1) 若 $\lambda_1=\lambda_2$，此时 $J_1$ 和 $J_2$ 的最小多项式分别为

$$m_{J_1}(\lambda)=\left(\lambda-\lambda_1\right)^{k_1},\quad m_{J_2}(\lambda)=\left(\lambda-\lambda_2\right)^{k_2}$$

经计算知，矩阵 $J$ 的最小多项式为 $m_{J_1}(\lambda)$ 和 $m_{J_2}(\lambda)$ 的最小公倍式。

(2) 若 $\lambda_i\neq\lambda_p$，矩阵 $J$ 的最小多项式仍为 $m_{J_i}(\lambda)$ 和 $m_{J_p}(\lambda)$ 的最小公倍式。
将上述结论推广至一般的 Jordan 标准形 $J$ 时，矩阵 $J$ 的最小多项式等于特征矩阵 $\lambda I-A$ 的初等因子的最小公倍式。又知所有初等因子的最高幂指数必为不变因子 $d_n(\lambda)$ 的因子，因此，矩阵 $J$ 的最小多项式恰为不变因子 $d_n(\lambda)$。

{注}：$\lambda I-A$ 的初等因子的最小公倍式即为矩阵 $A$ 的最小多项式 $m_A(\lambda)$。

第三章 矩阵分解

3.1.1 Lemma: 矩阵相抵引理

3.1.1 Example: 矩阵秩不等式

3.2.1 Theorem: 满秩分解

3.2.3 Theorem: 右逆和左逆

3.1.1 Proposition: 矩阵转置秩等价

3.3.1 Theorem: LU分解

3.3.2 Theorem: LDU分解

3.3.1 Lemma: 非奇异矩阵重排

3.3.1 Corollary: Cholesky分解

3.4.1 Definition: QR分解

3.4.1 Theorem: 正交分解

Example: 非方阵$QR$分解

3.4.2 Theorem: 复方阵正交化

3.5.1 Theorem: Schur定理

3.5.3 Theorem: 实方正Schur's引理

3.5.2 Theorem: Schur's 引理

3.5.2 Lemma: 三角矩阵的乘积

3.5.1 Definition: 矩阵多项式

3.5.1 Corollary: 矩阵多项式的特征值

3.5.4 Theorem: Hamilton-Cayley 定理

3.5.3 Corollary: 矩阵多项式表示逆

3.5.2 Definition: 零化多项式

3.5.3 Definition: 最小多项式

3.5.5 Theorem: 最小多项式性质

3.6.1 Definition: 单纯矩阵

3.6.1 Theorem: 可对角化条件

3.6.1 Corollary: 单纯矩阵的判定

3.6.2 Corollary: 可对角化的判定

3.6.* Theorem: 酉相似矩阵不同特征空间正交

3.6.3 Corollary: 复对称判定定理

3.6.4 Corollary: 实对称判定定理

3.6.2 Definition: 正规矩阵

3.6.2 Theorem: 正规矩阵酉可对角化

3.6.5 Corollary: 正规矩阵的判定

3.6.6 Corollary: 正交矩阵的判定

3.6.7 Corollary: 酉矩阵的判定

3.7.1 Definition: 正规矩阵谱分解

3.7.1 Theorem: 正规矩阵谱阵的性质

3.7.2 Definition: 幂等矩阵

3.7.3 Theorem: 幂等矩阵性质

3.7.2 Example: 正交投影矩阵

3.7.* Theorem: 正交投影的性质

3.7.3 Definition: 单纯矩阵谱分解

3.7.4 Theorem: 单纯矩阵判定定理

3.7.1 Corollary: 单纯矩阵函数的谱分解

3.7.2 Corollary: 单纯矩阵谱阵的计算

3.8.1 Definition: $\lambda$ 矩阵

3.8.1 Example: $\lambda$ 矩阵的判定

3.8.2 Definition: 矩阵的秩

3.8.2 Example: 矩阵的行列式和秩

3.8.3 Example: 特征矩阵的秩

3.8.3 Definition: $\lambda$ 矩阵的逆矩阵

3.8.1 Theorem: $\lambda$ 矩阵可逆性判定

3.8.4 Definition: 初等变换

3.8.5 Definition: 矩阵相抵

3.8.6 Definition: 行列式因子

3.8.5 Example: 计算行列式因子

3.8.2 Theorem: 矩阵相抵性质

3.8.3 Theorem: Smith标准形

3.8.1 Corollary: Smith标准形的唯一性

3.8.7 Definition: 不变因子

3.8.* Theorem: 行列式因子和不变因子关系

3.8.2 Corollary: 矩阵相抵充要条件

3.8.8 Definition: 初等因子

3.8.4 Theorem: 矩阵相抵的判定

3.8.5 Theorem: 对角块矩阵的初等因子

3.8.11 Example: Jordan 块特征矩阵的初等因子

3.8.6 Theorem: 相似矩阵特征矩阵相抵

3.8.3 Corollary: 单纯特征矩阵的初等因子

3.8.4 Corollary: 单纯特征矩阵的不变因子

3.8.12 Example: Jordan 块不可对角化

3.8.9 Definition: Jordan块

3.8.14 Example: Jordan块的最小多项式

3.8.10 Definition: Jordan标准形

3.8.7 Theorem: Jordan标准形定理

3.8.* Theorem: Jordan 块和特征向量关系

3.8.16 Example: Jordan标准形与相似变换矩阵

3.8.8 Theorem: Frobenius 定理

第三章矩阵分解