Contents
▶︎
all
running...


第三章 矩阵分解

3.1.1 Lemma: 矩阵相抵引理

设矩阵$A, B \in F^{m \times n}$,则以下表述等价:
(1) $A$$B$相抵;
(2) 存在可逆矩阵$P \in F^{m \times m}$$Q \in F^{n \times n}$使得$A = PBQ$
(3) 矩阵$A$$B$均可通过有限次初等行列变换得到同一个矩阵;
(4) $\text{rank}(A) = \text{rank}(B)$.

3.1.1 Example: 矩阵秩不等式

$A \in \mathbb{C}^{m \times n}, B \in \mathbb{C}^{n \times p}$,证明:

\[\text{rank}(A) + \text{rank}(B) - n \leq \text{rank}(AB) \leq \min(\text{rank}(A), \text{rank}(B)).\]

3.2.1 Theorem: 满秩分解

$A \in \mathbb{C}^{m \times n}_r(r > 0)$,则存在列满秩矩阵$B$和行满秩矩阵$C$使得$A = BC$

Proof:

\(A = [a_1, \cdots, a_n]\),则有 \(R(A) = \operatorname{span}(a_1, \cdots, a_n)\)\(\operatorname{rank}(A) = \operatorname{dim}(R(A))\),其中 \(a_i \in \mathbb{C}^m, i = 1, \cdots, n\)。任取 \(R(A)\) 的一组基,则 \(a_i\) 必可由基 \(b_1, \cdots, b_r\) 线性表示,即

\[a_i = [b_1, \cdots, b_r] c_i\]
式中:\(c_i \in \mathbb{C}^r\)\(a_i\) 在基 \(b_1, \cdots, b_r\) 下的坐标,\(i = 1, \cdots, n\).
定义矩阵 \(B = [b_1, \cdots, b_r], C = [c_1, \cdots, c_n]\),有
\[A_{m \times n} = [a_1, \cdots, a_n] = [b_1, \cdots, b_r] [c_1, \cdots, c_n] = B_{m \times r}C_{r \times n}\]
式中:\(\operatorname{rank}(B) = \operatorname{dim}(R(B)) = r\)
又知
\[\operatorname{rank}(C) \geq \operatorname{rank}(BC)=\operatorname{rank}(A) = r \text{且} \operatorname{rank}(C) \leqslant r\]
\(\operatorname{rank}(C) = r\)。综上所述,矩阵 \(A\) 可分解为列满秩矩阵 \(B\) 和行满秩矩阵 \(C\) 的乘积。

3.2.3 Theorem: 右逆和左逆

矩阵\(A \in \mathbb{C}^{m \times n}(r > 0)\) 有右逆(即存在矩阵 \(B\) 使得 \(AB = I\))的充分必要条件是 \(A\) 为行满秩矩阵;矩阵 \(A\) 有左逆(即存在矩阵 \(B\) 使得 \(BA = I\))的充分必要条件是 \(A\) 为列满秩矩阵。

Proof:

证明有$A \in \mathbb{C}^{m \times n}$ 有右逆 $\Leftrightarrow \exists B \in \mathbb{C}^{n \times m}, A_{m \times n} B_{n \times m} = I_{m}$

充分性. $\operatorname{rank}(A)= m \Rightarrow AB = I$.
$A$进行相抵分解, 即$A = P_{m \times m} [I_m, 0]Q_{n \times n}$, 可取$B = Q^{-1} [I_m, 0]^T P^{-1}$, 显然$AB = I$.

必要性. $AB = I \Rightarrow \operatorname{rank}(A) = m$.
$\operatorname{rank}(A) \geq rank(AB) = m$, 显然$A$是满秩的.

{注}:

  1. \(A \in \mathbb{C}_r^{r \times n}\),则 \(A A^H\)\(r\) 阶非奇异矩阵。根据 \(A A^H (A A^H)^{-1} = I\),得 \(A^H (A A^H)^{-1}\) 是矩阵 \(A\) 的一个右逆。同理,当 \(A \in \mathbb{C}_r^{m \times r}\) 时,\((A^H A)^{-1} A^H\) 是矩阵 \(A\) 的一个左逆。

\(A\) 为可逆矩阵时,其右(左)逆唯一存在,即为 \(A\) 的逆矩阵;
\(A\) 为行(列)满秩矩阵(非可逆阵)时,其右(左)逆存在且不唯一;
\(A\) 为其它情况时,其右(左)逆不存在。

3.1.1 Proposition: 矩阵转置秩等价

(1) $\text{rank}(A) = \text{rank}(A^H A)$
(2) $\text{rank}(A^H) = \text{rank}(A A^H)$
(3) $\text{rank}(A) = \text{rank}(A^H A) = \text{rank}(A A^H) = \text{rank}(A^H) = \text{rank}(A^H)$

Proof:

$\forall x \in \mathbb{C}^n, Ax = 0 \rightarrow A^HAx = 0$显然成立.
$\forall x \in \mathbb{C}^n, A^HAx = 0 \rightarrow x^HA^HAx = 0 \rightarrow (Ax)^H(Ax) = 0 \rightarrow Ax = 0$.
所以$N(A) = N(A^HA)$, 根据 秩-零化度定理 , $\operatorname{rank}(A) = \operatorname{rank}(A^HA)$. 又由于 $N(A) + R(A^H ) = \mathbb{C}^n$, 所以 $R(A^H) = R(A^HA)$. 令 $A = A^H$, 则有 $R(A) = R(AA^H)$.

显然有 $\operatorname{rank}(A) = \operatorname{rank}(AA^H) = \operatorname{rank}(A^H) = \operatorname{rank}(A^H A)$.

3.3.1 Theorem: LU分解

$A = [a_{ij}] \in \mathbb{C}^{n \times n}$是非奇异矩阵,则存在唯一的单位下三角矩阵$L$和上三角矩阵$U$使得$A = LU$成立的充分必要条件是$A$的所有顺序主子式均非零,即

\[\Delta_i(A) = \left| \begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1i} \\ a_{21} & a_{22} & \cdots & a_{2i} \\ \vdots & \vdots & & \vdots \\ a_{i1} & a_{i2} & \cdots & a_{ii} \end{array} \right| \neq 0, \quad i = 1, \cdots, n\]

Proof:

见教材P79.

{注}:

  1. 虽然证明过程较复杂,但实际计算上只需用Gauss消元法求解出$L$$U$即可.
  2. $L$中记录了消元的过程, $U$中记录了消元后的矩阵. 所以$L$中对角线元素为1, $U$中对角线元素为之积为$A$的行列式.
3.3.2 Theorem: LDU分解

$A = [a_{ij}] \in \mathbb{C}^{n \times n}$是非奇异矩阵,则存在唯一的单位下三角矩阵$L$,对角矩阵$D$和单位上三角矩阵$U$使得$A = LDU$成立的充分必要条件是$A$的所有顺序主子式均非零,即

\[\Delta_i(A) = \left| \begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1i} \\ a_{21} & a_{22} & \cdots & a_{2i} \\ \vdots & \vdots & & \vdots \\ a_{i1} & a_{i2} & \cdots & a_{ii} \end{array} \right| \neq 0, \quad i = 1, \cdots, n\]
分解式$A = LDU$称为矩阵$A$的LDU分解。

{注}:

  1. $L, U$的对角线元素为1, $D$的对角线元素可由$A$的顺序主子式求得, 即 $d_1 = a_{11}, d_i = \frac{\Delta _i(A)}{\Delta _{i-1}(A)}$
  2. 非奇异矩阵只是已知条件, 与命题的充分必要性无关. 实际上, 对于奇异矩阵, 其也可以$LDU$分解; 对于非奇异矩阵, 其可能无法$LDU$分解. 但是以下引理说明非奇异矩阵可以通过重排行列顺序后进行$LDU$分解.
3.3.1 Lemma: 非奇异矩阵重排

$A = [a_{ij}] \in \mathbb{C}^{n \times n}$是非奇异矩阵,则存在排列矩阵$P$使得$PA$的所有顺序主子式均非零。

3.3.1 Corollary: Cholesky分解

$n$阶实对称矩阵$A$是正定的,则存在唯一的正上三角矩阵$R$使得$A = R^{\top} R$

Proof:

由于矩阵$A$是正定的,故其所有顺序主子式均大于0。则$A$可以进行$LDU$分解,即$A = LDU$。由于$A$是实对称矩阵,即$A^\top = U^\top DL^\top = LDU$,由分解的唯一性可得$L = U^{\top}$,则有$A = U^{\top} DU$。令$R ^\top = U^{\top} \sqrt{D}$,则有$A = R^{\top} R$
唯一性。
假设存在另一正上三角矩阵 $R'$使得$A = R'^{\top} R'$,由于 $R$为正上三角矩阵,则可令 $R'^\top = U'^\top \sqrt[]{D'}$, 则 $A = U'^\top D'U'$, 由分解的唯一性可得 $U = U'$, $D = D'$, 即 $R = R'$

3.4.1 Definition: QR分解

若复方阵$A$可分解为$A = QR$,其中$Q$为酉矩阵,$R$为上三角矩阵,则称矩阵$A$可作$QR$分解(或酉三角分解)。若分解式$A = QR$中,矩阵$A$是实方阵,$Q$为正交矩阵,$R$为上三角矩阵,此时称分解式$A = QR$为正交三角分解。

3.4.1 Theorem: 正交分解

若实方阵$A$满秩,则存在正交矩阵$Q$及正线上三角矩阵$R$满足$A = QR$且分解唯一。

Proof:

记为 \(A = [a_1, \cdots, a_n]\),则向量组 \(a_1, \cdots, a_n\)\(\mathbb{R}^n\) 空间的一组基。由 Gram-Schmidt 正交化方法知,根据基 \(a_1, \cdots, a_n\) 可构造出 \(\mathbb{R}^n\) 的一组标准正交基 \(z_1, \cdots, z_n\),且这两组基有如下关系:

\[[a_1, \cdots, a_n] = [z_1, \cdots, z_n] R \qquad (3.4.1)\]
式中:\(y_k = a_k - \sum_{i=1}^{k-1} (a_i, z_i) z_i, k = 1, \cdots, n\),矩阵 \(R\) 定义为
\[R = \begin{bmatrix} \|y_1\| & (a_2, z_1) & \cdots & (a_n, z_1) \\ & \|y_2\| & \cdots & (a_n, z_2) \\ & & \ddots & \vdots \\ 0 & & & \|y_n\| \end{bmatrix}\]
写成矩阵形式,即 \(A = QR\),其中,\(Q = [z_1, \cdots, z_n]\),显然,\(Q\) 是正交矩阵,\(R\) 是正线上三角矩阵。
唯一性证明。
若存在 $A=Q_1R_1 = Q_2R_2$.
$\widetilde{Q} = Q_1^TQ_2, \widetilde{R} = R_1R_2^{-1}$, 显然 $\widetilde{Q} = \widetilde{R}$,由于 $\widetilde{Q}$为正交矩阵,$\widetilde{R}$为正线上三角矩阵,则可记
$$\widetilde{R}=\left[\begin{array}{cccc} \tilde{r}_{11} & \tilde{r}_{12} & \cdots & \tilde{r}_{1 n} \\ & \tilde{r}_{22} & \cdots & \tilde{r}_{2 n} \\ & & \ddots & \vdots \\ & \boldsymbol{O} & & \tilde{r}_{n n} \end{array}\right]$$

$\widetilde{R}^\top \widetilde{R} = I$,即
$$\widetilde{R}^T \widetilde{R} = \left[\begin{array}{cccc} \tilde{r}_{11} & & \boldsymbol{O} & \\ \tilde{r}_{12} & \tilde{r}_{22} & & \\ \vdots & \vdots & \ddots & \\ \tilde{r}_{1n} & \tilde{r}_{2n} & \cdots & \tilde{r}_{nn} \end{array}\right] \left[\begin{array}{cccc} \tilde{r}_{11} & \tilde{r}_{12} & \cdots & \tilde{r}_{1 n} \\ & \tilde{r}_{22} & \cdots & \tilde{r}_{2 n} \\ & & \ddots & \vdots \\ & \boldsymbol{O} & & \tilde{r}_{n n} \end{array}\right] = I$$
,对比每一个元素可得$\tilde{r}_{ii}^2 = 1, \tilde{r}_{ij} = 0, i \neq j$,由于所有对角元素都为正,则有$\tilde{r}_{ii} = 1, \tilde{r}_{ij} = 0, i \neq j$,即$\overline{Q} = I, \overline{R} = I$,即 $Q_1 = Q_2, R_1 = R_2$.

{注}:

  1. 对于长方形矩阵 $A_{m \times n}$,其依然可以 $QR$分解。有两种分解形式 $A_{m \times n} = Q_{m \times n}R_{n \times n}$$A_{m \times n} = Q_{m \times m}R_{m \times n}$
  2. $QR$分解只是将$A$的列向量组转换为标准正交基组,其中$Q$为转化后的标准正交基,$R$记录了转换过程。
  3. $QR$分解可以用来求解特征值。
    具体思想如下:
    对于可逆矩阵$A \in \mathbb{R}^{n \times n}$,令$A_1 = A$,对$A_1$进行$QR$分解,即$A_1 = Q_1R_1$,其中$Q_1$为正交矩阵,$R_1$为上三角矩阵。令$A_2 = R_1Q_1 = Q_1^\top A_1 Q_1$,显然$A_1$$A_2$相似,其特征值相同。重复如上过程,得$A_{k+1} = Q_k^H A_k Q_k = Q^H A Q$
    通过重复某个过程,可以定义矩阵序列 \(\{A_k, k=1, 2, \ldots\}\)
    已知结论:若非奇异矩阵的各特征值具有不同的模值,则$QR$算法定义的矩阵序列收敛于上三角矩阵,则对角线元素即为特征值。
Example: 非方阵$QR$分解

$A = \begin{bmatrix} 3& 0\\ 0& 1\\ 4& 0 \end{bmatrix}$,对$A$可进行两种$QR$分解,如下

$$\boldsymbol{A}=\left[\begin{array}{ll} 3 & 0 \\ 0 & 1 \\ 4 & 0 \end{array}\right]=\left[\begin{array}{ll} \frac{3}{5} & 0 \\ 0 & 1 \\ \frac{4}{5} & 0 \end{array}\right]\left[\begin{array}{ll} 5 & 0 \\ 0 & 1 \end{array}\right] = \left[\begin{array}{rrr} \frac{3}{5} & 0 & -\frac{4}{5} \\ 0 & 1 & 0 \\ \frac{4}{5} & 0 & \frac{3}{5} \end{array}\right]\left[\begin{array}{ll} 5 & 0 \\ 0 & 1 \\ 0 & 0 \end{array}\right]$$

3.4.2 Theorem: 复方阵正交化

设复方阵$A$可逆,则存在酉矩阵$U$及正线上三角矩阵$R$满足$A = UR$且分解唯一。

3.5.1 Theorem: Schur定理

任意$n$阶复方矩阵\(A\)相似于上三角矩阵\(\Lambda\),即存在可逆矩阵\(P\)使得\(A = P^{-1}\Lambda P\)为上三角矩阵,其中上三角矩阵\(\Lambda\)的对角元素是矩阵\(A\)的特征值。

Proof:

采用数学归纳法证明存在 \(m\) 个可逆矩阵 \(P_1, \cdots, P_m\) 使得

\[P_m^{-1} \cdots P_1^{-1} A P_1 \cdots P_m = \left[ \begin{array}{cc} T_m & C_m \\ 0 & A_m \end{array} \right]\]

\(m = 1\)时,令$\lambda_1$为一个特征值,$\eta _1$为对应的特征向量。令利用基的扩充定理找到$\mathbb{C}^n$的一组基并构成列向量,即令$P=[\eta _1, \cdots , \eta _n]$,则有$AP = A[\eta _1, \cdots , \eta _n]=[\lambda _1\eta _1, \cdots , A\eta _n]$,即有

\[P_1^{-1} A P_1 = \left[ \begin{array}{ll} \lambda_1 & C_1 \\ 0 & A_1 \end{array} \right]\]

由于$A$$P^{-1}AP$相似,有\(A_1 \in \mathbb{C}^{(n-1) \times (n-1)}\) 的特征值为 \(\lambda_2, \cdots, \lambda_n\)
假设当 \(m = k \in \{1, \cdots, n-2\}\) 时存在可逆矩阵 \(P_1, \cdots, P_k\) 使得

\[P_k^{-1} \cdots P_1^{-1} A P_1 \cdots P_k = \left[\begin{array}{ll} T_k & C_k \\ 0 & A_k \end{array}\right]\]

\(m = k+1\) 时,仿照 \(P_1\) 构造方法知,存在 \(n-k\) 阶矩阵 \(V_{k+1}\) 使得

\[V_{k+1}^{-1} A_k V_{k+1} = \left[\begin{array}{cc} \lambda_{k+1} & C_{k+1} \\ 0 & A_{k+1} \end{array}\right]\]

定义 \(P_{k+1} = \left[\begin{array}{cc} I_k & O \\ O & V_{k+1} \end{array}\right]\) ,则有

\[P_{k+1}^{-1} P_k^{-1} \cdots P_1^{-1} A P_1 \cdots P_k P_{k+1} = \left[\begin{array}{cc} T_{k+1} & C_{k+1} \\ O & A_{k+1} \end{array}\right]\]

因此,存在 \(n-1\) 个可逆矩阵 \(P_1, \cdots, P_{n-1}\) 使得

\[P_{n-1}^{-1} \cdots P_1^{-1} A P_1 \cdots P_{n-1} = \left[\begin{array}{cc} T_{n-1} & C_{n-1} \\ 0 & \lambda_n \end{array}\right]\]

\(P = P_1 \cdots P_{n-1}\) ,则上式右端为上三角矩阵。证毕。

{注}:

  1. $m=1$时,一定可以找到特征值的原因是根据代数基本定理,但是在实数域中不一定成立。

    代数基本定理:任何复系数一元$n$次多项式 方程在复数域上至少有一根($n \geq 1$),由此推出,$n$次复系数多项式方程在复数域内有且只有$n$个根(重根按重数计算)。

  2. 这里数域为$\mathbb{C}$,因为实数域中矩阵可能没有特征值。

3.5.3 Theorem: 实方正Schur's引理

$A \in \mathbb{R}^{n \times n}$的特征值均为实数,则存在正交矩阵$Q$使得

\[Q^T A Q = Q^{-1} A Q = \begin{bmatrix} \lambda_1 & & * \\ & \ddots & \\ 0 & & \lambda_n \end{bmatrix}\]

Proof:

证明可由定理3.5.1显然得到。

3.5.2 Theorem: Schur's 引理

任意复方阵$A$酉相似于上三角矩阵$\Lambda$,即存在一酉矩阵$U$使得$\Lambda = U^{\text{H}} AU$为上三角矩阵。

Proof:

只需要对定理3.5.1中的$P$进行$QR$分解即可得到。

3.5.2 Lemma: 三角矩阵的乘积

若矩阵$A, B$均为上三角矩阵,则矩阵$A \pm B, AB, A^{-1}$也为上三角矩阵。

Proof:

$A+B$显然是上三角的。
下面证明$AB$$A^{-1}$是上三角的。

$$C = AB = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ 0 & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & a_{nn} \end{bmatrix} \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1n} \\ 0 & b_{22} & \cdots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & b_{nn} \end{bmatrix}$$

$c_{ij} = \sum_{k=1}^n a_{ik}b_{kj}$,当$i > j$时,$c_{ij} = 0$,故$C$为上三角矩阵。

$A$为上三角时,$A_{ij} = 0, \forall i < j$

$$A^{-1} = \frac{A^*}{|A|} = \frac{1}{|A|} \begin{bmatrix} A_{11} & A_{21} & \cdots & A_{n1} \\ A_{12} & A_{22} & \cdots & A_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ A_{n1} & A_{n2} & \cdots & A_{nn} \end{bmatrix}$$

$A^{-1}$是上三角的。

3.5.1 Definition: 矩阵多项式

$A \in \mathbb{C}^{n \times n}$$\varphi(\lambda) = a_n \lambda^n + a_{n-1} \lambda^{n-1} + \cdots + a_1 \lambda + a_0$,其中$a_i \in \mathbb{C}$$i = 0, 1, \cdots, n$)是数域$\mathbb{C}$上的多项式,则

\[\varphi(A) = a_n A^n + a_{n-1} A^{n-1} + \cdots + a_1 A + a_0 I\]

称为矩阵多项式。

3.5.1 Corollary: 矩阵多项式的特征值

设矩阵$A \in \mathbb{C}^{n \times n}$$n$个特征值为$\lambda_1, \cdots, \lambda_n$$\varphi(\lambda)$为任一多项式,则矩阵多项式$\varphi(A)$$n$个特征值为$\varphi(\lambda_1), \cdots, \varphi(\lambda_n)$

Proof:

根据定理3.5.2,存在一酉矩阵$U$使得$U^H A U = \Lambda$,其中$\Lambda$为上三角矩阵,其对角线元素为矩阵$A$的特征值,记为$\lambda_1, \cdots, \lambda_n$。注意到

\[\varphi(A) = \varphi(U \Lambda U^H) = U \varphi(\Lambda) U^H\]

式中:上三角矩阵$\varphi(\Lambda)$的对角线元素为$\varphi(\lambda_1), \cdots, \varphi(\lambda_n)$。由于$\varphi(A)$酉相似于上三角矩阵$\varphi(\Lambda)$,故矩阵多项式$\varphi(A)$$n$个特征值为$\varphi(\lambda_1), \cdots, \varphi(\lambda_n)$。证毕。

{注}:
由于对$A$的属于$\lambda _1$的特征向量$\alpha _1$,有$A^k\alpha _1 = \lambda^k _1 \alpha _1, k=1, \cdots, n$,则

$$\varphi(A)\alpha _1 = a_n A^n \alpha _1 + \cdots + a_1 A \alpha _1 + a_0 \alpha _1 = a_n \lambda^n _1 \alpha _1 + \cdots + a_1 \lambda _1 \alpha _1 + a_0 \alpha _1 = \varphi(\lambda _1) \alpha _1$$

显然有$n$阶矩阵$A$的属于特征值$\lambda_i$的特征向量$\alpha_i$也是$\varphi(A)$的属于特征值$\varphi(\lambda_i)$的特征向量。

3.5.4 Theorem: Hamilton-Cayley 定理

设矩阵$A \in \mathbb{C}^{n \times n}$的特征多项式为$f_A(\lambda) = \det(\lambda I - A)$,则 $f_A(A) = 0$

Proof:

设矩阵$A$的特征多项式为$f_A(\lambda) = \lambda ^n + a_{n-1}\lambda ^{n-1} + \cdots + a_0$。由定理3.5.2知,存在酉矩阵$U$使得$U^H A U = \Lambda$,其中$\Lambda$为上三角矩阵,其对角元素为$\lambda_1, \lambda_2, \ldots, \lambda_n$。则矩阵多项式$f(A)$可写成

\[\begin{array}{l} f_A(A) = A^n + a_{n-1}A^{n-1} + \cdots + a_0I &= U \Lambda^n U^H + a_{n-1}U \Lambda^{n-1} U^H + \cdots + a_0I \\ &= U \underset{f_A(\lambda_{1, \cdots , n}) = 0}{\boxed{(\Lambda^n + a_{n-1}\Lambda^{n-1} + \cdots + a_0I)}}U^H = 0 \end{array}\]

3.5.3 Corollary: 矩阵多项式表示逆

设复方阵$A$可逆,其特征多项式为$f_A(\lambda) = \lambda^n + a_{n-1} \lambda^{n-1} + \cdots + a_1 \lambda + a_0$,则矩阵$A$的逆矩阵计算公式为

\[A^{-1} = -\frac{1}{a_n} \left( A^{n-1} + a_{n-1} A^{n-2} + \cdots + a_1 I \right)\]

{注}: 该结论说明,矩阵$A$的逆矩阵可以通过低阶矩阵表示。

3.5.2 Definition: 零化多项式

给定复方阵$A \in \mathbb{C}^{n \times n}$,若存在多项式$g(\lambda)$使得$g(A) = 0$,则称$g(\lambda)$$A$的零化多项式。

3.5.3 Definition: 最小多项式

设复方阵$A$的零化多项式中次数最小的首1多项式称为$A$的最小多项式,记为$m_A(\lambda)$

3.5.5 Theorem: 最小多项式性质

设矩阵$A \in \mathbb{C}^{n \times n}$,则

  1. 矩阵$A$的最小多项式$m_A(\lambda)$是唯一的,且可整除$A$的任一零化多项式,特别地,有$m_A(\lambda) \mid f_A(\lambda)$
  2. 矩阵$A$的特征多项式$f_A(\lambda)$与最小多项式$m_A(\lambda)$具有相同的根(不计重数)。
Proof:

(1) 对任意多项式 \(g(\lambda)\)\(h(\lambda)\),必存在多项式 \(q(\lambda)\) 以及多项式 \(r(\lambda)\) 使得

\[g(\lambda) = h(\lambda) q(\lambda) + r(\lambda)\]

式中:\(r(\lambda) = 0\)\(\deg[r(\lambda)] < \deg[h(\lambda)]\)。该结论可由多项式除法定理得到,把 \(g(\lambda)\) 除以 \(h(\lambda)\) 得到商 \(q(\lambda)\) 和余式 \(r(\lambda)\)
\(g(\lambda)\)\(h(\lambda)\) 分别定义为矩阵的特征多项式 \(f_A(\lambda)\) 和最小多项式 \(m_A(\lambda)\),则代入上式得 \(f_A(\lambda) = m_A(\lambda) q(\lambda) + r(\lambda)\),则有$f_A(A)= m_A(A)g(A) + r(A) = 0$,得\(r(A) = 0\)
现在说明$r(\lambda ) = 0$。若$r(\lambda) \neq 0$,则存在一个次数更低的多项式\(r(\lambda)\)使得\(r(A) = 0\),与\(m_A(\lambda)\)为最小多项式矛盾,故\(r(\lambda) = 0, f_A(\lambda) = m_A(\lambda) q(\lambda)\),即\(m_A(\lambda) \mid f_A(\lambda)\)
下面说明\(m_A(\lambda)\) 是唯一的。
若存在另一多项式 \(m'_A(\lambda)\) 使得 \(m'_A(\lambda) \mid f_A(\lambda)\),则必然有 \(\deg m'_A(\lambda) = \deg m_A(\lambda)\),则$(m'_A(\lambda) - m_A(\lambda ))$也必然是零化多项式且 $\deg (m'_A(\lambda) - m_A(\lambda )) < \deg m_A(\lambda )$,与已知矛盾,故 \(m_A(\lambda)\) 是唯一的。

(2) $m_A(\lambda )$的根显然一定是$f_A(\lambda )$的根,下面说明 $f_A(\lambda )$的根也是$m_A(\lambda )$的根。
\(\lambda_i\) 是矩阵 \(A\) 的特征值,\(x_i\) 是属于 \(\lambda_i\) 的特征向量。根据推论3.5.1知,\(m_A(\lambda_i)\) 是矩阵多项式 \(m_A(A)\) 的特征值,且 \(x_i\) 是属于 \(m_A(A)\) 的特征向量,即

\[m_A(A) x_i = m_A(\lambda_i) x_i\]

由于 \(m_A(A)\) 是矩阵 \(A\) 的零化多项式,故 \(m_A(A) = 0\),进而有 \(m_A(\lambda_i) x_i = 0\)。又知 \(x_i\) 是非零向量,故 \(m_A(\lambda_i) = 0\),即$f_A(\lambda )$的根也是$m_A(\lambda )$的根。证毕。

3.6.1 Definition: 单纯矩阵

$n$阶复方阵$A$相似于对角矩阵,则矩阵$A$称为可对角化矩阵(或单纯矩阵)。

3.6.1 Theorem: 可对角化条件

设矩阵$A \in \mathbb{C}^{n \times n}$的全部互异特征根为$\lambda_1, \cdots, \lambda_m$(其中$m \leqslant n$),则以下表达等价:

  1. $A$是单纯矩阵
  2. $A$$n$个线性无关的特征向量
  3. 特征值$\lambda_i$($i=1, \cdots, m$)的代数重数等于其几何重数
  4. $\sum_{i=1}^{m} \operatorname{dim} E(\lambda_i) = n$
  5. 最小多项式$m_A(\lambda)$无重根
Proof:

(1)~(4)根据实矩阵可对角化条件推广而得。
下面证明(5)。
(1) $\Rightarrow$ (5).
由于矩阵 \(A\) 是单纯矩阵,所以存在一个可逆矩阵 \(P\) 使得 \(P^{-1}AP = \Lambda\),其中$\Lambda$是对角矩阵。
$\lambda _1, \cdots, \lambda _m$为互异特征值,$d_i$代表重数\((\sum_{i=1}^{m}d_i = n)\),考虑如下矩阵多项式

$$g(A) = (A - \lambda_1 I) \cdots (A - \lambda_m I) = P^{-1} \underset{\triangleq B }{\boxed{(\Lambda - \lambda_1 I) \cdots (\Lambda - \lambda_m I)}} P$$

式中

$$\Lambda = \begin{bmatrix} \boxed{\lambda_1} & (d_1个) \\ & \boxed{\lambda_1} \\ & & \ddots & \\ & & & \boxed{\lambda_m} & (d_m个) \\ & & & & \boxed{\lambda_m} \end{bmatrix}$$

下面考察矩阵矩阵$B$

$$B = \begin{bmatrix} 0 \\ & 0 \\ & & \ddots\\ & & & \lambda_m - \lambda_1\\ & & & & \lambda_m - \lambda_1 \end{bmatrix} \cdots \begin{bmatrix} \lambda _1 - \lambda _m \\ & \lambda _1 - \lambda _m \\ & & \ddots\\ & & & 0 \\ & & & & 0 \end{bmatrix} = 0$$

$g(A) = 0$,所以$g(\lambda )$为最小多项式,且无重根。

(5) $\Rightarrow$ (4).
设矩阵 $A$ 的最小多项式为 $m_A(\lambda) = (\lambda - \lambda_1) \cdots (\lambda - \lambda_m)$, 则

$$m_A(A) = (A - \lambda_1 I) \cdots (A - \lambda_m I) = 0$$

矩阵秩乘积的推论有:

$$\boxed{\operatorname{rank}(A - \lambda_1 I) + \cdots + \operatorname{rank}(A - \lambda_m I) \leq (m - 1)n}$$

则有:

$$\operatorname{dim} E(\lambda_1) + \cdots + \operatorname{dim} E(\lambda_m) = (n - \operatorname{rank}(A - \lambda_1 I)) + \cdots + (n - \operatorname{rank}(A - \lambda_m I)) \geq n$$

由于 $m$ 个特征子空间的和空间是 $\mathbb{C}^n$ 空间的线性子空间, 因此$\sum_{i=1}^m \operatorname{dim} E(\lambda_i) = n$. 证毕.

3.6.1 Corollary: 单纯矩阵的判定

若复方阵$A$的零化多项式$g(\lambda)$无重根,则矩阵$A$是单纯矩阵。

3.6.2 Corollary: 可对角化的判定

$n$阶复方阵$A$恰好有$n$个互异特征值,则它必可对角化;反之则不然。

{注}:上述两个推论仅是复方阵$A$为单纯矩阵的充分条件而非必要条件。

3.6.* Theorem: 酉相似矩阵不同特征空间正交

设存在酉矩阵 $U$ 使得 $U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$。则$A$的不同特征值的特征子空间正交。

Proof:

$U = [u_1, \cdots, u_n]$,则有

$$A[u_1, \cdots, u_n] = [Au_1, \cdots, Au_n] = [u_1, \cdots, u_n] \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$$

显然有 $Au_i = \lambda_i u_i$,即 $u_i$ 是属于 $\lambda_i$ 的特征向量。对于酉矩阵,其列向量$u_i, u_j$两两正交。
考察特征子空间

$$E(\lambda_i) = \operatorname{span}\{u_{i_{d_1}}, \cdots, u_{i_{d_i}}\}, E(\lambda_j) = \operatorname{span}\{u_{j_{d_1}}, \cdots, u_{j_{d_j}}\} (i \neq j)$$

由于$u_i, u_j$两两正交,故$E(\lambda_i)$$E(\lambda_j)$正交。证毕。

3.6.3 Corollary: 复对称判定定理

设矩阵$A \in \mathbb{C}^{n \times n}$,则$A$是Hermite矩阵当且仅当$A$的所有特征值$\lambda_1, \cdots, \lambda_n$为实数,且存在酉矩阵$U \in \mathbb{C}^{n \times n}$使得$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$

Proof:

充分性。
$A$的所有特征值$\lambda_1, \cdots, \lambda_n$为实数,且存在酉矩阵$U \in \mathbb{C}^{n \times n}$使得$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$,对其两端取共轭转置有$U^H A^H U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n) = U^H A U$,则$A = A^H$,故$A$是Hermite矩阵。
必要性。
$A$是Hermite矩阵,由Schur定理可得$A$酉相似于上三角矩阵,即存在酉矩阵$U$使得$U^H A U = \Lambda$,其中$\Lambda$对角线元素为$A$的特征值。对其两端取共轭转置有 $U^H A^H U = \overline{\Lambda } = U^H A U = \Lambda$,则有$A$的特征值为实数。证毕。

3.6.4 Corollary: 实对称判定定理

设矩阵$A \in \mathbb{R}^{n \times n}$,则$A$是实对称矩阵当且仅当$A$的所有特征值$\lambda_1, \cdots, \lambda_n$为实数,且存在正交矩阵$Q \in \mathbb{R}^{n \times n}$使得$Q^{\top} A Q = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$

3.6.2 Definition: 正规矩阵

设矩阵$A \in \mathbb{C}^{n \times n}$,若$A^H A = A A^H$,则称$A$为正规矩阵(或规范矩阵)。

3.6.2 Theorem: 正规矩阵酉可对角化

复方阵$A$是正规矩阵当且仅当$A$酉相似于对角矩阵,即$A^H A = A A^H$当且仅当存在酉矩阵$U$使得$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$

Proof:

充分性。
$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$ $\Rightarrow$ $A^H A = A A^H$
若存在酉矩阵$U$使得$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$,则有$A^H A = U^H \operatorname{diag}(\lambda_1, \cdots, \lambda_n) \operatorname{diag}(\lambda_1, \cdots, \lambda_n) U = U^H \operatorname{diag}(\lambda_1, \cdots, \lambda_n)^2 U = U^H \operatorname{diag}(\lambda_1^2, \cdots, \lambda_n^2) U = A A^H$,故$A$是正规矩阵。
必要性。
$A^H A = A A^H$ $\Rightarrow$ $U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$
定理3.6.3可得$A$酉相似于上三角矩阵,即存在酉矩阵$U$使得$U^H A U = \Lambda$,其中$\Lambda$为上三角矩阵。则有

$$\begin{array}{l} A = U \Lambda U^H, A^H = (U \Lambda U^H)^H = U \Lambda^H U^H \\ A^H A = U\Lambda^H \Lambda U^H = AA^H = U \Lambda \Lambda^H U^H \end{array} \Rightarrow \Lambda^H \Lambda = \Lambda \Lambda^H$$


$$\Lambda = \begin{bmatrix} \lambda_{1} & a_{12} & \cdots & a_{1 n} \\ 0 & \lambda_{2} & \cdots & a_{2 n} \\ \vdots & \ddots & \ddots & \vdots \\ 0 & \cdots & 0 & \lambda_{n} \end{bmatrix}$$


\[\begin{array}{l} \Lambda^H \Lambda = \begin{bmatrix} \bar{\lambda}_{1} & 0 & \cdots & 0 \\ \bar{a}_{12} & \bar{\lambda}_{2} & \cdots & 0 \\ \vdots & \vdots & & \vdots \\ \bar{a}_{1 n} & \bar{a}_{2 n} & \cdots & \bar{\lambda}_{n} \end{bmatrix} \begin{bmatrix} \lambda_{1} & a_{12} & \cdots & a_{1 n} \\ 0 & \lambda_{2} & \cdots & a_{2 n} \\ \vdots & \ddots & \ddots & \vdots \\ 0 & \cdots & 0 & \lambda_{n} \end{bmatrix}\\ \Lambda \Lambda^H = \begin{bmatrix} \lambda_{1} & a_{12} & \cdots & a_{1 n} \\ 0 & \lambda_{2} & \cdots & a_{2 n} \\ \vdots & \ddots & \ddots & \vdots \\ 0 & \cdots & 0 & \lambda_{n} \end{bmatrix} \begin{bmatrix} \bar{\lambda}_{1} & 0 & \cdots & 0 \\ \bar{a}_{12} & \bar{\lambda}_{2} & \cdots & 0 \\ \vdots & \vdots & & \vdots \\ \bar{a}_{1 n} & \bar{a}_{2 n} & \cdots & \bar{\lambda}_{n} \end{bmatrix} \end{array}\]

根据上式左右两端矩阵对角线元素相等,得

\[\begin{gathered} \left|\lambda_1\right|^2 = \left|\lambda_1\right|^2 + \left|a_{12}\right|^2 + \cdots + \left|a_{1 n}\right|^2 \\ \left|\lambda_2\right|^2 + \left|a_{12}\right|^2 = \left|\lambda_2\right|^2 + \left|a_{23}\right|^2 + \cdots + \left|a_{2 n}\right|^2 \\ \vdots \\ \left|\lambda_n\right|^2 + \left|a_{1 n}\right|^2 + \left|a_{2 n}\right|^2 + \cdots + \left|a_{(n-1) n}\right|^2 = \left|\lambda_n\right|^2 \end{gathered}\]

依次求解得 \(a_{12} = \cdots = a_{1 n} = 0, a_{23} = \cdots = a_{2 n} = 0, \cdots, a_{(n-1) n} = 0\)。由此,上三角矩阵 \(\Lambda\) 退化为对角矩阵,即 \(A\) 酉相似于对角矩阵 \(\Lambda\)

3.6.5 Corollary: 正规矩阵的判定

复方阵$A$是正规矩阵当且仅当$A$$n$个特征向量构成$\mathbb{C}^n$空间的一组标准正交基,且属于$A$的不同特征值的特征向量正交。

3.6.6 Corollary: 正交矩阵的判定

实方阵$A$是正交矩阵当且仅当$A$的所有特征值的模值为1,且存在酉矩阵$U$使得$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$,其中$\lambda_1, \cdots, \lambda_n$$A$$n$个特征值。

Proof:

充分性。
$A =U \operatorname{diag}(\lambda_1, \cdots, \lambda_n) U^H$,有

$$AA^H = U \begin{bmatrix} \lambda _1 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \lambda_n \end{bmatrix} \begin{bmatrix} \overline{\lambda _1} & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \overline{\lambda_n} \end{bmatrix} U^H = U \begin{bmatrix} \|\lambda _1\| & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \|\lambda_n\| \end{bmatrix} U^H = I$$

必要性。
由于正交矩阵为正规矩阵,其必然可以酉相似对角化。现在证明其特征值的模值为1。
$\lambda$是矩阵$A$的特征值,$x$是属于特征值$\lambda$的特征向量,则有$Ax = \lambda x$。进一步,

\[(Ax, Ax) = x^H A^H A x = \|\lambda\|^2 x^H x\]

又知$A$是正交矩阵,故$A^H A = I$。上式可进一步改写为

\[x^H x = \|\lambda\|^2 x^H x\]

由于特征向量$x$为非零向量,故$x^H x \neq 0$。因此,$\|\lambda\|^2 = 1$,即$\|\lambda\| = 1$

{注}:由于正交矩阵的特征值不一定为实数,所以这里只能说明其模值为1和存在酉矩阵对角化。

3.6.7 Corollary: 酉矩阵的判定

设矩阵$A \in \mathbb{C}^{n \times n}$,则$A$是酉矩阵当且仅当$A$的所有特征值的模为1,且存在酉矩阵$U$使得$U^H A U = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)$,其中$\lambda_1, \cdots, \lambda_n$$A$$n$个特征值。

3.7.1 Definition: 正规矩阵谱分解

$\lambda_1, \cdots, \lambda_m$是正规矩阵$A \in \mathbb{C}^{n \times n}$$m$个互异特征值,其代数重数分别为$d_1, \cdots, d_m$$d_1 + \cdots + d_m = n$。矩阵$A$的谱分解式为

$$A = \sum_{j=1}^{m} \lambda_j E_j$$

式中:$E_j = \sum_{i=1}^{d_j} u_{ji} u_{ji}^H, j = 1, \cdots, m$,称为矩阵$A$的谱阵,$u_{j1}, \cdots, u_{jd_j}$是属于特征值$\lambda_j$$d_j$个单位正交的特征向量。

3.7.1 Theorem: 正规矩阵谱阵的性质

设正规矩阵$A \in \mathbb{C}^{n \times n}$有谱分解式$A = \sum_{j=1}^{m} \lambda_j E_j$,其中,$\lambda_1, \cdots, \lambda_m$$A$$m$个互异特征值,$E_1, \cdots, E_m$$A$$m$个谱阵,则对任意$i, j = 1, \cdots, m$$i \neq j$,有性质
(1) $E_j = E_j^H = (E_j)^2$;
(2) $E_i E_j = O$;
(3) $E_i A = A E_i = \lambda_i E_i$;
(4) $\sum_{k=1}^{m} E_k = I$;
(5) 谱阵集合$\{E_1, \cdots, E_m\}$唯一。

Proof:

(1) 用到正交向量性质:$u_{ji}^H u_{ji} = 1$$u_{ji}^H u_{ki} = 0$($j \neq k$)。
$(E_j)^H = \sum_{i=1}^{d_j} (u_{ji} u_{ji}^H)^H = \sum_{i=1}^{d_j} u_{ji} u_{ji}^H = E_j$
$(E_j)^2 = \sum_{i=1}^{d_j} u_{ji} u_{ji}^H \sum_{i=1}^{d_j} u_{ji} u_{ji}^H = \sum_{i=1}^{d_j} (u_{ji} u_{ji}^H) (u_{ji} u_{ji}^H) = \sum_{i=1}^{d_j} u_{ji} (u_{ji}^H u_{ji}) u_{ji}^H = E_j$

(2) 对正规矩阵来说,属于不同特征值的向量正交。
$E_i E_j = \sum_{k=1}^{d_i} u_{ki} u_{ki}^H \sum_{l=1}^{d_j} u_{jl} u_{jl}^H = \sum_{k=1}^{d_i} \sum_{l=1}^{d_j} u_{ki} u_{ki}^H u_{jl} u_{jl}^H = \sum_{k=1}^{d_i} \sum_{l=1}^{d_j} u_{ki} (u_{ki}^H u_{jl}) u_{jl}^H = 0$

(3)
$E_i A = \sum_{j=1}^{m} \lambda_j E_i E_j \overset{性质2}{=} \lambda_i E_i E_i \overset{性质3}{=} \lambda E_i$
$A E_i = \sum_{j=1}^{m} \lambda_j E_j E_i = \lambda_i E_i E_i = \lambda E_i$

(4) 用到 $U U^H = U^H U = I$
$U = \begin{bmatrix} u_{11}, \cdots, u_{1d_1}, \cdots, u_{m1}, \cdots, u_{md_m} \end{bmatrix} \in \mathbb{C}^{n \times m}$,则有 $\sum_{k=1}^{m} E_k = \sum_{k=1}^{m} \sum_{i=1}^{d_k} u_{ki} u_{ki}^H = U U^H = I$

(5) 采用反证法证明。

{注}:
酉对角化分解有很强的几何意义,其实质是将一个矩阵对应的变换分解为旋转变换和拉伸变换分离。对于 $A = U \Lambda U^H$$Ax = U \Lambda U^Hx$ 代表了先将 $x$ 旋转到 $U^Hx$,然后在各个方向上拉伸 $\lambda_i$ 倍,最后再旋转回来。
谱分解也有很强的几何意义,其本质是将矩阵对应的变换描述为在一组标准正交基上的拉伸。对于每个谱阵 $E_i$,其可以看作是一个投影矩阵,将向量投影到特征值 $\lambda_i$ 对应的特征子空间上。对于 $Ax = \sum_{j=1}^{m} \lambda_j E_jx$,其中 $E_jx$ 代表了将 $x$ 投影到 $\lambda_j$ 对应的特征子空间上,然后再拉伸 $\lambda_j$ 倍后合并。
通过此我们能更好的理解矩阵的定义

3.7.2 Definition: 幂等矩阵

$E \in \mathbb{C}^{n \times n}$,若$E^2 = E$,则称$E$为幂等矩阵(或投影矩阵)。Hermite幂等矩阵称为正交投影矩阵。

{注}:幂等矩阵和投影矩阵等价,即一个矩阵是幂等矩阵当且仅当它是投影矩阵。对称幂等矩阵称为正交投影矩阵,因为对 $x$ 的分解 $x = Px + (I - P)x$ 有,$(Px)^H (I-P)x = x^H P^H (x-Px) = 0$,即投影分量是正交的。

3.7.3 Theorem: 幂等矩阵性质

$E \in \mathbb{C}_r^{n \times n}$是幂等矩阵,则
(1) $E$为单纯矩阵且相似于$\begin{bmatrix} I_r & 0 \\ 0 & 0 \end{bmatrix}$;
(2) $\operatorname{tr}(E) = r$;
(3) $Ex = x \Leftrightarrow x \in R(E)$,其中$x \in \mathbb{C}^n$

Proof:

(1)
\(E^2 = E\) 可知,\(\varphi(\lambda) = \lambda(\lambda - 1)\) 是矩阵 \(E\) 的零化多项式,故 \(E\) 为单纯矩阵,且它的特征值只能为 0 或 1。又知 \(\text{rank}(E) = r\),故矩阵 \(E\) 的特征值 1 有 \(r\) 重根。综上知,\(E\) 相似于 \(\begin{bmatrix} I_r & 0 \\ 0 & 0 \end{bmatrix}\)
(2)
由性质(1)知,存在可逆矩阵 \(P\) 使得

\[P^{-1} A P = \begin{bmatrix} I_r & 0 \\ 0 & 0 \end{bmatrix}\]

又知 \(\operatorname{tr}(E) = \operatorname{tr}(P^{-1} A P)\),故 \(\operatorname{tr}(E) = r\)

(3)
\(Ex = x\) 知,\(x \in R(E)\);反之,若 \(x \in R(E)\),则存在向量 \(y \in \mathbb{C}^n\) 满足

\[x = Ey, \text{故} \, Ex = E(Ey) = E^2 y = Ey = x.\]

3.7.2 Example: 正交投影矩阵

求向量$b \in \mathbb{C}^n$$V_m = \text{span}(a_1, \cdots, a_m)$上的正交投影,其中向量组$a_1, \cdots, a_m$$\mathbb{C}^n$空间的$m$个线性无关向量,$m \leq n$

定义矩阵$A = [a_1, \cdots, a_m] \in \mathbb{C}^{n \times m}$,则矩阵$A$列满秩。由此,$A^H A$为可逆矩阵,并可定义矩阵$P = A(A^H A)^{-1} A^H$。显然,$P^H = P$

$$P^2 = A(A^H A)^{-1} A^H A(A^H A)^{-1} A^H = A(A^H A)^{-1} A^H = P$$

因此,$P$是正交投影矩阵。
该例子说明了如何构建一个空间的正交投影矩阵。可以用于最小二乘法的求解。

3.7.* Theorem: 正交投影的性质

(1) \(R(P) = V_m\);
(2) \(N(P) = R(P)^\perp\);
(3) \(Pb \in R(P)\);
(4) \(b = Pb + (I - P)b\);
(5) \((I - P)b \in N(P)\).

Proof:

(1) $R(A) = V_m$
由于 $\forall x, R(P) = Px = A(A^H A)^{-1} A^H x = A((A^H A)^{-1} A^H x) = Ay$,则有 $R(P) \subset R(A)$
同时 $\forall y, R(A) = Ay$,取 $x = Ay$,则有 $Px = A(A^H A)^{-1} A^H Ay = Ay$,故 $R(A) \subset R(P)$。综上 $R(P) = R(A) = V_m$
(2) $N(P) = R(P)^\perp$
定理1.5.3$N(P) = R(P^H)^\perp = R(P)^\perp$
(3) (4) (5) 显然。

3.7.3 Definition: 单纯矩阵谱分解

$\lambda_1, \cdots, \lambda_m$是单纯矩阵$A \in \mathbb{C}^{n \times n}$$m$个互异特征值,其代数重数分别为$d_1, \cdots, d_m$,则矩阵$A$的谱分解式定义为

$$A = \sum_{j=1}^{m} \lambda_j E_j$$

式中:$E_j = \sum_{i=1}^{d_j} a_{ji} \beta_{ji}^H, j = 1, \cdots, m$,称为$A$的谱阵,$a_{j1}, \cdots, a_{jd_j}$是属于特征值$\lambda_j$$d_j$个线性无关的单位特征向量,行向量$\beta_{jk}^H, k = 1, \cdots, d_j, j = 1, \cdots, m$,是矩阵$[a_{11}, \cdots, a_{1d_1}, \cdots, a_{m1}, \cdots, a_{md_m}]^{-1}$的第$\left(\sum_{i=1}^{j-1} d_i + k\right)$行(令$d_0 = 0$)。

3.7.4 Theorem: 单纯矩阵判定定理

$n$阶复方阵$A$$m$个互异特征值$\lambda_1, \ldots, \lambda_m$,则$A$是单纯矩阵当且仅当存在$m$$n$阶矩阵$E_1, \ldots, E_m$使得对任意$i, j = 1, \ldots, m$$i \neq j$,有性质:

  1. $A = \sum_{k=1}^{m} \lambda_k E_k$
  2. $E_i = (E_i)^2$
  3. $E_i E_j = O$
  4. $E_i A = A E_i = \lambda_i E_i$
  5. $\sum_{k=1}^{m} E_k = I$
  6. 谱阵集合$\{E_1, \ldots, E_m\}$唯一。
Proof:

必要性
(1) 由定义显然可得。
$P P^{-1} = P^{-1} P = I$ 可得:

\[\begin{bmatrix} \alpha_{11}, \cdots, \alpha_{md_m} \end{bmatrix} \begin{bmatrix} \beta_{11}^H \\ \vdots \\ \beta_{md_m}^H \end{bmatrix} = \begin{bmatrix} \beta_{11}^H \\ \vdots \\ \beta_{md_m}^H \end{bmatrix} \begin{bmatrix} \alpha_{11}, \cdots, \alpha_{md_m} \end{bmatrix} = I\]

即(5)成立:

\[\sum_{k=1}^{m} \sum_{i=1}^{d_k} \alpha_{ki} \beta_{ki}^H = \sum_{k=1}^{m} E_k = I\]

定义

\[X_j = \left[ \alpha_{j1}, \cdots, \alpha_{jd_j} \right] \in \mathbb{C}^{n \times d_j}, \quad Y_j = \left[ \begin{array}{c} \beta_{j1}^H \\ \vdots \\ \beta_{jd_j}^H \end{array} \right] \in \mathbb{C}^{d_j \times n}\]

\(E_j = X_j Y_j\),则

\[\left[ \begin{array}{c} Y_1 \\ \vdots \\ Y_m \end{array} \right] \left[ X_1, \cdots, X_m \right] = I\]

由上式知,当 \(i, j = 1, \cdots, m\)\(i \neq j\) 时,\(Y_j X_j = I_{d_j}, Y_i X_j = O\)。于是,(2)和(3)成立。进而,

\[\begin{align*} E_i A &= E_i \left( \sum_{j=1}^m \lambda_j E_j \right) = \lambda_i E_i \\ A E_i &= \left( \sum_{j=1}^m \lambda_j E_j \right) E_i = \lambda_i E_i \end{align*}\]

即(4)成立。
(6) 的证明参照 定理3.7.1

充分性
\(\text{rank}(E_j) = d_j, j = 1, \cdots, m\),则有

\[\sum_{j=1}^{m} d_j = \sum_{j=1}^{m} \text{tr}(E_j) = \text{tr}\left(\sum_{j=1}^{m} E_j\right) = \text{tr}(I_n) = n\]

\(\text{dim}(R(E_j)) = d_j\) 得,可取列空间 \(R(E_j)\) 的一组基 \(\alpha_{j1}, \cdots, \alpha_{jd_j}\),并定义

\[X_j = [\alpha_{j1}, \cdots, \alpha_{jd_j}] \in \mathbb{C}^{n \times d_j}\]

\[X = [X_1, \cdots, X_m] \in \mathbb{C}^{n \times n}\]

由满秩分解知,\(E_j = X_j Y_j\),其中,\(Y_j \in \mathbb{C}^{d_j \times n}, j = 1, \cdots, m\)。由此,定义

\[Y = \begin{bmatrix} Y_1 \\ \vdots \\ Y_m \end{bmatrix} \in \mathbb{C}^{n \times n}\]

则有 \(XY = \sum_{j=1}^{m} X_j Y_j = \sum_{j=1}^{m} E_j = I_n\)。故 \(X\) 是可逆矩阵。

再由 \(YX = I\),得,当 \(i = 1, \cdots, m\)\(i \neq j\) 时,\(Y_j X_j = I_{d_j}, Y_i X_j = O\)。由此,计算 \(E_j X_i\)

\[E_j X_i = X_j Y_j X_i = \begin{cases} X_j, & i = j \\ O, & i \neq j \end{cases}\]

考察矩阵 \(AX\)

\[AX = \left( \sum_{j=1}^{m} \lambda_j E_j \right) [X_1, \cdots, X_m] = \left[ \sum_{j=1}^{m} \lambda_j E_j X_1, \cdots, \sum_{j=1}^{m} \lambda_j E_j X_m \right]\]

\[= [\lambda_1 X_1, \cdots, \lambda_m X_m] = \text{diag}(\lambda_1, \cdots, \lambda_m) [X_1, \cdots, X_m]\]

\(AX = \text{diag}(\lambda_1, \cdots, \lambda_m) X\)。因此,\(A\) 是单纯矩阵。证毕。

3.7.1 Corollary: 单纯矩阵函数的谱分解

设单纯矩阵$A \in \mathbb{C}^{n \times n}$的谱分解为$A = \sum_{j=1}^{m} \lambda_j E_j$$f(\lambda)$为数域$\mathbb{C}$上的多项式,则

$$f(A) = \sum_{j=1}^{m} f(\lambda_j) E_j$$

式中,$\lambda_1, \ldots, \lambda_m$$A$$m$个互异特征值,$E_j (j = 1, \ldots, m)$是矩阵$A$的谱阵。

Proof:

首先用数学归纳法证明对 \(k = 0, 1, 2, \cdots\),有

\[A^k = \lambda_1^k E_1 + \lambda_2^k E_2 + \cdots + \lambda_m^k E_m\]

\(k = 0\)\(k = 1\) 时,上式显然成立。假设当 \(k = p\) 时,有

\[A^p = \lambda_1^p E_1 + \lambda_2^p E_2 + \cdots + \lambda_m^p E_m\]

现考察 \(k = p + 1\)。此时,

\[\begin{align*} A^{p+1} &= \left(\lambda_1^p E_1 + \lambda_2^p E_2 + \cdots + \lambda_m^p E_m\right) A \\ &= \lambda_1^p E_1 A + \lambda_2^p E_2 A + \cdots + \lambda_m^p E_m A \\ &= \lambda_1^{p+1} E_1 + \lambda_2^{p+1} E_2 + \cdots + \lambda_m^{p+1} E_m \end{align*}\]

于是

\[A^k = \lambda_1^k E_1 + \lambda_2^k E_2 + \cdots + \lambda_m^k E_m, \quad k = 0, 1, 2, \cdots\]

\(f(\lambda) = a_n \lambda^n + a_{n-1} \lambda^{n-1} + \cdots + a_1 \lambda + a_0\),则

\[f(A) = a_n A^n + a_{n-1} A^{n-1} + \cdots + a_1 A + a_0 I\]

将式(3.7.12)代入上式得

\[\begin{align*} f(A) = &\left(a_n \lambda_1^{n-1} + a_{n-1} \lambda_1^{n-2} + \cdots + a_1 \lambda_1 + a_0\right) E_1 + \cdots + \\ &\left(a_n \lambda_m^{n-1} + a_{n-1} \lambda_m^{n-2} + \cdots + a_1 \lambda_m + a_0\right) E_m \end{align*}\]

注意到 \(f(\lambda_i) = a_n \lambda_i^n + a_{n-1} \lambda_i^{n-1} + \cdots + a_1 \lambda_i + a_0\),故 \(f(A) = \sum_{i=1}^m f(\lambda_i) E_i\)。证毕。

3.7.2 Corollary: 单纯矩阵谱阵的计算

设单纯矩阵$A \in \mathbb{C}^{n \times n}$的谱分解为$A = \sum_{j=1}^{m} \lambda_j E_j$,则

$$E_i = \frac{1}{\prod_{l=1, l \neq i}^{m} (\lambda_i - \lambda_l)} \prod_{l=1, l \neq i}^{m} (A - \lambda_l I), \quad i = 1, \cdots, m$$

Proof:

$f_i(\lambda) = \prod_{l=1, l \neq i}^{m} (\lambda - \lambda_l)$,则由 推论3.7.1

$$f_i(A) = f_i(\lambda_1) E_1 + \cdots + f_i(\lambda_m) E_m$$

式中:

$$f_i(\lambda_j) = \begin{cases} 0, & j \neq i \\ f_i(\lambda_i), & j = i \end{cases}$$

因此,$f_i(A) = f_i(\lambda_i) E_i$,即$E_i = f_i(A) / f_i(\lambda_i)$。证毕。

{注}:该推论提供了一种高效求解单纯矩阵谱阵的方法,其不再需要求特征向量。

3.8.1 Definition: $\lambda$ 矩阵

$\lambda$多项式为元素的矩阵称为$\lambda$矩阵,记为$A(\lambda)$,即

$$A(\lambda) = [a_{ij}(\lambda)]_{m \times n}, \quad a_{ij}(\lambda) \in P_n(\lambda).$$

3.8.1 Example: $\lambda$ 矩阵的判定

判断$A(\lambda)$$B(\lambda)$是否为$\lambda$矩阵,其中

$$A(\lambda) = \begin{bmatrix} 1-\lambda & \lambda^2 & \lambda \\ \lambda & \lambda & -\lambda \\ 1+\lambda^2 & \lambda^2 & -\lambda^2 \end{bmatrix}, \quad B(\lambda) = \begin{bmatrix} \lambda & \lambda^2 & \lambda \\ \lambda & \lambda & -\lambda \\ \lambda^{-2} & \lambda^2 & -\lambda^2 \end{bmatrix}$$

$A(\lambda)$$\lambda$ 矩阵;由于 $\lambda^{-2}$ 不是 $\lambda$ 多项式,故 $B(\lambda)$ 不是 $\lambda$ 矩阵。

3.8.2 Definition: 矩阵的秩

$\lambda$矩阵$A(\lambda)$中非零子式的最高阶数$r$定义为$A(\lambda)$的秩,记为$\text{rank}(A(\lambda)) = r$

3.8.2 Example: 矩阵的行列式和秩

$A(\lambda) = \begin{bmatrix} \lambda & 0 \\ 0 & \lambda + 1 \end{bmatrix}$的行列式和秩。

$|A(\lambda)| = \lambda(\lambda + 1)$,故$\text{rank}(A(\lambda)) = 2$。由于 $\lambda$ 只是一个符号,就相当于 $f(x) = ax^2 + bx + c$ 中的 $x$,故不能讨论 $\lambda$ 不同取值下 $A(\lambda)$ 的秩。

3.8.3 Example: 特征矩阵的秩

$A \in \mathbb{C}^{n \times n}$$f_A(\lambda) = |\lambda I - A|$是关于$\lambda$的一元$n$次多项式。$A$的特征矩阵$\lambda I - A$的秩为$n$,即$\lambda I - A$总是满秩的。

3.8.3 Definition: $\lambda$ 矩阵的逆矩阵

$A(\lambda)$$n$$\lambda$方阵,若存在$n$$\lambda$方阵$B(\lambda)$满足$A(\lambda)B(\lambda) = B(\lambda)A(\lambda) = I$,则称$\lambda$矩阵$A(\lambda)$是可逆的,并称$B(\lambda)$$A(\lambda)$的逆矩阵,记作$A(\lambda)^{-1}$

3.8.1 Theorem: $\lambda$ 矩阵可逆性判定

$n$$\lambda$方阵$A(\lambda)$可逆的充分必要条件是它的行列式$|A(\lambda)|$为非零常数。

Proof:

必要性
$\lambda$方阵$A(\lambda)$可逆,则存在$\lambda$方阵$B(\lambda)$满足$A(\lambda)B(\lambda) = I$。对等式两端取行列式得

$$|A(\lambda)||B(\lambda)| = 1$$

因为$|A(\lambda)|$$|B(\lambda)|$均是$\lambda$的多项式,所以$|A(\lambda)|$$|B(\lambda)|$只能是零次多项式,即行列式$|A(\lambda)|$为非零常数。

充分性
$|A(\lambda)| = \tau \neq 0$$(A(\lambda))^*$$A(\lambda)$伴随矩阵,则

$$A(\lambda)(A(\lambda))^* = (A(\lambda))^*A(\lambda) = \tau I_n$$

注意到$\frac{1}{\tau}(A(\lambda))^*$也是$n$$\lambda$矩阵,则根据上式知,$\frac{1}{\tau}(A(\lambda))^*$$A(\lambda)$的逆矩阵。
证毕。

3.8.4 Definition: 初等变换

下列三种变换称为$\lambda$矩阵的初等变换:
(1) $\lambda$矩阵的两行(列)互换位置,记为 $P(i, j)$
(2) $\lambda$矩阵的某一行(列)乘以非零常数$k$,记为 $P(i(c))$
(3) $\lambda$矩阵的某一行(列)的$\varphi(\lambda)$倍加到另一行(列),其中$\varphi(\lambda) \in P_n(\lambda)$,记为 $P(i, j(\phi ))$

\(\lambda\) 矩阵作一次初等行变换意味着左乘相应的初等矩阵,对 \(\lambda\) 矩阵作一次初等列变换则意味着右乘相应的初等矩阵。由于三种初等矩阵的行列式均为非零常数,故初等矩阵都是可逆的且对 \(\lambda\) 矩阵作初等变换不改变它的秩。

3.8.5 Definition: 矩阵相抵

$\lambda$矩阵$A(\lambda)$经过有限次初等变换变为$B(\lambda)$,则称$A(\lambda)$$B(\lambda)$相抵,记为 $A(\lambda) \cong B(\lambda)$

{注}:$\lambda$ 矩阵的相抵关系秩相等不等价。由于 $A(\lambda) \cong B(\lambda) \Rightarrow PAQ = B$,由于初等矩阵都是可逆的,其行列式为非零常数,由 $\lvert P \rvert \lvert A \rvert \lvert Q \rvert = \lvert B \rvert$ 知其行列式只能相差一个非零常数。

3.8.6 Definition: 行列式因子

$\lambda$矩阵$A(\lambda)$的秩为$r$,对于正整数$1 \leq k \leq r$$A(\lambda)$的全部$k$阶子式的首1最大公因式称为$k$阶行列式因子,记为$D_k(\lambda)$

3.8.5 Example: 计算行列式因子

$A(\lambda) = \begin{bmatrix} 1-\lambda & \lambda^2 & \lambda \\ \lambda & \lambda & -\lambda \\ 1+\lambda^2 & \lambda^2 & -\lambda^2 \end{bmatrix}$各阶行列式因子。

$A(\lambda)$的一阶子式为:$1-\lambda, \lambda^2, \lambda, \lambda, \lambda, -\lambda, 1+\lambda^2, \lambda^2, -\lambda^2$。一阶因子的首1最大公因式为$D_1(\lambda) = 1$

$A(\lambda)$的二阶子式共9个,分别为:$\lambda(1-\lambda-\lambda^2), -\lambda, -\lambda(\lambda^2+\lambda), -\lambda(\lambda^2+\lambda), -\lambda(\lambda^2+\lambda), -\lambda(\lambda^2), -\lambda(\lambda^2), -\lambda(\lambda^3-\lambda^2), -\lambda, \lambda, 0$。二阶因子的首1最大公因式$D_2(\lambda) = \lambda$

$A(\lambda)$的三阶子式共1个,即$D_3(\lambda) = |A(\lambda)| = \lambda^3 + \lambda^2$

3.8.2 Theorem: 矩阵相抵性质

相抵的$\lambda$矩阵具有相同的秩和相同的各阶行列式因子。

Proof:

只需证明 \(\lambda\) 矩阵经过 1 次初等变换,秩和行列式因子不变。
(1) 对 $P(i, j)A =B$,在 $k$ 阶子式中,若未包含第 $i, j$ 行,则该子式不变;若同时包含 $i, j$ 行,则显然其子式为相反数。若只包含第 $i$ 行,由于行列式因子的定义,可以将第 $i$ 行替换为第 $j$ 行,故其 $k$ 阶子式集合保持不变。

(2) 对 $P(i(c))A = B$,在 $k$ 阶子式中,若未包含第 $i$ 行,则该子式不变;若包含第 $i$ 行,则其子式为 $k$ 阶子式的 $c$ 倍。由于行列式因子要求为首 1 最大公因式,故其不变。

(3) 对 $P(i, j(\phi))A = B$,在 $k$ 阶子式中,若未包含第 $i$ 行,则该子式不变;若包含第 $i$ 行,则其子式为一个 $k$ 阶子式和另一个 $k$ 阶子式的 $\phi$(或$-\phi$) 倍之和。由于行列式因子要求为首 1 最大公因式,故其不变。

3.8.3 Theorem: Smith标准形

$\lambda$矩阵$A(\lambda)$的秩为$r$,则

$$A(\lambda) \cong \begin{bmatrix} d_1(\lambda) & 0 & \cdots & 0 & 0 \\ 0 & \ddots & \cdots & 0 & 0 \\ 0 & \cdots & d_r(\lambda) & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \cdots & 0 \end{bmatrix}$$

式中:$d_i(\lambda)$是首1多项式,且$d_i(\lambda) | d_{i+1}(\lambda)$,称此标准形为$A(\lambda)$的Smith标准形。

3.8.1 Corollary: Smith标准形的唯一性

$\lambda$矩阵的Smith标准形是唯一的。

3.8.7 Definition: 不变因子

$\lambda$矩阵$A(\lambda)$的Smith标准形中 $d_1(\lambda), \cdots, d_r(\lambda)$$A(\lambda)$唯一确定的,称为$A(\lambda)$的不变因子。

3.8.* Theorem: 行列式因子和不变因子关系

$$\begin{gathered} D_1(\lambda) = d_1(\lambda)\\ D_2(\lambda) = d_1(\lambda) d_2(\lambda) \\ D_r(\lambda) = d_1(\lambda) d_2(\lambda) \cdot \ldots \cdot d_r(\lambda) \end{gathered}$$


$$\begin{gathered} d_1(\lambda) = D_1(\lambda) \\ d_2(\lambda) = \frac{D_2(\lambda)}{D_1(\lambda)} \\ d_r(\lambda) = \frac{D_r(\lambda)}{D_{r-1}(\lambda)} \end{gathered}$$

3.8.2 Corollary: 矩阵相抵充要条件

$\lambda$矩阵$A(\lambda)$$B(\lambda)$相抵当且仅当它们有完全一致的不变因子 $d_i(\lambda )$

3.8.8 Definition: 初等因子

$\lambda$矩阵$A(\lambda)$的不变因子为$d_1(\lambda), \cdots, d_r(\lambda)$,且有如下分解式,则所有幂指数大于零的因子$(\lambda - \lambda_j)^{e_{ij}}, i = 1, \cdots, r, j = 1, \cdots, s$,统称为$\lambda$矩阵$A(\lambda)$的初等因子。

复数域 \(\mathbb{C}\) 上的一元多项式可分解成一次因子的幂的乘积形式。设 \(A(\lambda)\) 的不变因子 \(d_1(\lambda), \cdots, d_r(\lambda)\) 可分解为

\[\left\{ \begin{gathered} d_1(\lambda) = (\lambda - \lambda_1)^{e_{11}} (\lambda - \lambda_2)^{e_{12}} \cdots (\lambda - \lambda_s)^{e_{1s}} \\ d_2(\lambda) = (\lambda - \lambda_1)^{e_{21}} (\lambda - \lambda_2)^{e_{22}} \cdots (\lambda - \lambda_s)^{e_{2s}} \\ \vdots \\ d_r(\lambda) = (\lambda - \lambda_1)^{e_{r1}} (\lambda - \lambda_2)^{e_{r2}} \cdots (\lambda - \lambda_s)^{e_{rs}} \end{gathered} \right.\]

式中:\(\lambda_1, \cdots, \lambda_s\) 互异,\(e_{ij} (i = 1, \cdots, r; j = 1, \cdots, s)\) 为非负整数。

\(d_1(\lambda) | d_{i+1}(\lambda)\) 知,

\[\left\{ \begin{gathered} 0 \leq e_{11} \leq e_{21} \leq \cdots \leq e_{r1} \\ 0 \leq e_{12} \leq e_{22} \leq \cdots \leq e_{r2} \\ \vdots \\ 0 \leq e_{1s} \leq e_{2s} \leq \cdots \leq e_{rs}\\ \end{gathered} \right.\]

即序列 \(e_{1j}, e_{2j}, \cdots, e_{rj}\) 是非严格递增的。

{注}:相抵矩阵有相同的行列式因子 $D_i(\lambda )$,有相同的不变因子 $d_i(\lambda )$,有相同的初等因子。

3.8.4 Theorem: 矩阵相抵的判定

$\lambda$矩阵$A(\lambda) \cong B(\lambda)$当且仅当它们有完全一致的初等因子,且$\text{rank}(A(\lambda)) = \text{rank}(B(\lambda))$

Proof:

必要性
相抵矩阵秩相等,有相同的行列式因子 $D_i(\lambda )$,有相同的不变因子 $d_i(\lambda )$,有相同的初等因子。

充分性
由于秩相同,则其不变因子的个数相同,记为 $d_1, \cdots , d_r$。由于 $d_{i} \mid d_{i+1}$,所以幂指数最大的初等因子 $(\lambda - \lambda _j)^{e_{rj}}, e_{rj} = \max {e_{ij}}$ 必是 $d_r$ 的因子,故 $d_{rA} = d_{rB}$。对于 $d_{r-1}$,首先在初等因子中去掉 $d_r$ 的因子,则余下的的幂指数最大的初等因子(若已为空集,则补1)必是 $d_{r-1}$ 的因子,故 $d_{r-1A} = d_{r-1B}$。以此类推,可知 $d_{1A} = d_{1B}$。证毕。

3.8.5 Theorem: 对角块矩阵的初等因子

$\lambda$矩阵$A(\lambda)$为对角块矩阵,即

$$A(\lambda) = \operatorname{diag}(A_1(\lambda), \cdots, A_s(\lambda))$$

$A_1(\lambda), \cdots, A_s(\lambda)$ 初等因子的全体就是 $A(\lambda)$ 的全部初等因子,其中 $A_i(\lambda), i = 1, \cdots, s$ 是适当阶数的$\lambda$矩阵。

{注}:该定理给出了一个求解初等因子的方法,不需要再求不变因子。再求解 Smith 标准型的时候,可以先对角化,然后再求出各个对角块的初等因子。

3.8.11 Example: Jordan 块特征矩阵的初等因子

$A(\lambda) = \begin{vmatrix} \lambda - a & -1 \\ & \lambda - a & \ddots \\ & & \ddots & -1 \\ & & & \lambda - a \end{vmatrix}_{n \times n}$ 的初等因子、不变因子和 Smith 标准形。

考察 $A(\lambda)$$(n-1)$ 阶子式

$$\begin{vmatrix} -1 \\ \lambda - a & -1 \\ & \ddots & \ddots \\ & & \lambda - a & -1 \end{vmatrix} = (-1)^{n-1}$$

$A(\lambda)$$(n-1)$ 阶子式的不变因子为 $d_{n-1} = 1$

又知 $|A(\lambda)| = (\lambda - a)^n$,故 $A(\lambda)$ 的不变因子为 $d_1 = d_2 = \cdots = d_{n-1} = 1, d_n = (\lambda - a)^n$。相应地,$A(\lambda)$ 的初等因子为 $(\lambda - a)^n$,其 Smith 标准形为

$$A(\lambda) \cong \begin{bmatrix} 1 & & & \\ & 1 & & \mathbf{0} \\ & & \ddots & \\ & \mathbf{0} & & (\lambda - a)^n \end{bmatrix}$$

{注}:后面可以看见这里的 $A(\lambda )$ 其实是一个 Jordan 块。

3.8.6 Theorem: 相似矩阵特征矩阵相抵

复方阵$A$$B$相似当且仅当它们的特征矩阵相抵。

Proof:

必要性
若矩阵 $A$$B$ 相似, 则存在可逆矩阵 $P$ 使得 $P^{-1}AP=B$,从而

$$P^{-1} (\lambda I - A)P = \lambda I - P^{-1}AP = \lambda I - B$$

$\lambda I - A$$\lambda I - B$ 相抵。

充分性
书上的充分性看不懂,也不知道对不对,可能需要另找证明。

{注}:矩阵相抵等价于矩阵不变因子相同,等价于秩相等且初等因子相同(由于特征矩阵都是满秩的,所以对于特征矩阵来说也就是初等因子相同)。

3.8.3 Corollary: 单纯特征矩阵的初等因子

复方阵$A$是单纯矩阵的充分必要条件是它的特征矩阵$\lambda I - A$的初等因子为一次的。

Proof:

必要性
由于 $A$ 是单纯矩阵,即可对角化。

$$A \sim B = \begin{bmatrix} \lambda_1 & \cdots & 0\\ 0 & \ddots & 0\\ 0 & \cdots & \lambda_n \end{bmatrix}$$

$A$ 的特征矩阵与 $B$ 的特征矩阵相抵,即

$$\lambda I - A \cong \lambda I - B = \begin{bmatrix} \lambda - \lambda_1 & \cdots & 0\\ 0 & \ddots & 0 \\ 0 & \cdots &\lambda - \lambda_n \end{bmatrix}$$

由于相抵的矩阵的初等因子相同,所以 $\lambda I - A$ 的初等因子与 $\lambda I - B$ 的初等因子相同,根据定理3.8.5$\lambda I - B$ 的初等因子即为对角线所有元素 $\lambda - \lambda _i$,均为一次的(可能有重复的)。

充分性
$\lambda I - A$ 的初等因子均为一次的,由于其秩为 $n$,故其必有 $n$ 个初等因子。构造矩阵 $B = \lambda I - \Lambda$,将这 $n$ 个初等因子分布在其对角线上,使得每个对角线元素对应一个初等因子,由定理3.8.5可知,$B$ 的特征矩阵的初等因子与 $\lambda I - A$ 的初等因子相等。由定理3.8.6可知,$A$$\Lambda$ 相似。而显然 $\Lambda$ 为对角矩阵,所以 $A$ 是单纯矩阵。

3.8.4 Corollary: 单纯特征矩阵的不变因子

复方阵$A$是单纯矩阵的充分必要条件是它的特征矩阵$\lambda I - A$的不变因子无重根。

Proof:

根据初等因子的定义推论3.8.3,该推论显然成立。

3.8.12 Example: Jordan 块不可对角化

判断$n$阶方阵$A$是否为单纯矩阵,其中

$$A=\left[\begin{array}{cccc} a & 1 & & \\ & a & 1 & \\ & & a & \ddots \\ & & & \ddots & 1 \\ & & & & a \end{array}\right]_{n\times n}$$

例3.8.11知,特征矩阵 $\lambda I-A$ 的初等因子为 $(\lambda-a)^n$。故当 $n\geqslant 2$ 时,其初等因子不是一次的,即矩阵 $A$ 不是单纯矩阵。

3.8.9 Definition: Jordan块

$A=\left[a_{ij}\right]\in \mathbb{C}^{n\times n}$,其特征矩阵$\lambda I-A$的初等因子为$(\lambda-\lambda_1)^{n_1},(\lambda-\lambda_2)^{n_2},\cdots,(\lambda-\lambda_t)^{n_s}$。对$(\lambda-\lambda_i)^{n_i}$$n_i$阶矩阵

$$J_i=\left[\begin{array}{cccc} \lambda_i & 1 & & \\ & \lambda_i & 1 & \\ & & \ddots & \ddots \\ & & & \lambda_i & 1 \\ & & & & \lambda_i \end{array}\right]_{n_i\times n_i}$$

则称矩阵$J_i(i=1,\cdots, s)$为矩阵$A$的Jordan块。

{注}:

  1. Jordan块是一种特殊的矩阵,其对角线元素相同,对角线上方的元素为1,其余元素为0。
  2. 例3.8.11次对角线元素改为任意复数可以发现其初等因子不变,则次对角线元素为任意值均可以当作 Jordan块。
3.8.14 Example: Jordan块的最小多项式

求 Jordan 块

$$J_i=\left[\begin{array}{cccc} \lambda_i & 1 & & \mathbf{O} \\ & \lambda_i & 1 & \\ & & \ddots & \ddots \\ \mathbf{O} & & & \lambda_i \end{array}\right]_{n_i\times n_i}$$

的最小多项式。

由矩阵 $J_i$ 的特征多项式为 $f_{J_i}(\lambda)=(\lambda-\lambda_i)^{n_i}$ 知,其最小多项式可能为 $(\lambda-\lambda_i),\ldots,(\lambda-\lambda_i)^{n_i}$。经计算知,对 $j=1,\ldots,n_i-1$$(J_i-\lambda_i I)^j \neq \mathbf{O}$。因此,矩阵 $J_i$ 的最小多项式为 $m_{J_i}(\lambda)=(\lambda-\lambda_i)^{n_i}$

{注}:

  1. 任一 Jordan 块的最小多项式等于它的特征多项式,也是 Jordan 块所对应的初等因子。从 Jordan 块形式看,给定初等因子所作的最简 $\lambda$ 矩阵就是 Jordan 块的特征矩阵。
  2. Jordan 块的行列式因子和不变因子为 $D _1 = d_1 \cdots =D _{n-1}= d_{n-1} = 1, d_n = D _n = (\lambda-\lambda_i)^{n_i}$,初等因子为 $E = (\lambda - \lambda _i)^{n_i}$
3.8.10 Definition: Jordan标准形

$A=\left[a_{ij}\right]\in \mathbb{C}^{n\times n}$,其特征矩阵$\lambda I-A$的初等因子为$(\lambda-\lambda_1)^{n_1},\cdots,(\lambda-\lambda_s)^{n_s}$,其对应的 Jordan 块分别记为$J_1,\cdots, J_s$,则由 $s$ 个 Jordan 块组成的 $n$ 阶对角块矩阵$J=\operatorname{diag}(J_1,\cdots, J_s)$称为矩阵$A$的 Jordan 标准形)。

{注}:显然,Jordan 标准形中的 Jordan 块是唯一的,但 Jordan 块的排列次序不唯一。

3.8.7 Theorem: Jordan标准形定理

设矩阵 $J$ 是复方阵 $A$ 的 Jordan 标准形,则矩阵 $A$ 与矩阵 $J$ 相似。

Proof:

特征矩阵 $\lambda I-A$ 的初等因子为 $(\lambda-\lambda_1)^{n_1},\cdots,(\lambda-\lambda_s)^{n_s}$,其对应的 Jordan 块分别为 $J_1,\cdots, J_s$,则 $J=\operatorname{diag}(J_1,\cdots, J_s)$ 是矩阵 $A$ 的 Jordan 标准形。显然,$\lambda$ 矩阵 $\lambda I-J$$\lambda I-A$ 的初等因子完全相同。因此,$\lambda I-A$$\lambda I-J$ 相抵,即矩阵 $A$$J$ 相似。证毕。

{注}:由该定理可知,Jordan 标准形已经是 $A$ 的相似矩阵的最简形式。由此可见,若矩阵 $A$ 想要对角化,次对角线上的元素必须为0,即必须有 $n_i=1$,即 $n$ 个 Jordan 块。

3.8.* Theorem: Jordan 块和特征向量关系

$J$$A$ 的 Jordan 标准形,$J_1, \cdots, J_s$$J$ 的Jordan块,则 $J_i$ 对应的特征值的特征空间维度为1。

Proof:

$J_1, \cdots, J_s$$J$ 的Jordan块

$$J = \begin{bmatrix} J_1 & & & \mathbf{O} \\ & J_2 & & \\ & & \ddots & \\ \mathbf{O} & & & J_s \end{bmatrix} = \begin{bmatrix} \lambda_1 & 1 & & \mathbf{O} \\ & \lambda_1 & \ddots & \\ & & \ddots & 1\\ \mathbf{O} & & & \lambda_s \end{bmatrix}$$

其中 $\lambda _i$ 为矩阵$A$的特征值。
1.若 $\lambda _i, \cdots ,\lambda _s$ 互不相同。
Jordan 块的定义

$$J_i=\left[\begin{array}{cccc} \lambda_i & 1 & & \mathbf{O} \\ & \lambda_i & \ddots & \\ & & \ddots & 1 \\ \mathbf{O} & & & \lambda_i \end{array}\right]_{n_i\times n_i}$$

由于

$$\operatorname{rank}(\lambda _i I_j - J_j) = \begin{cases} n_i - 1, & j = i\\ n_i, & j \neq i \end{cases}$$

所以 $\operatorname{rank}(\lambda_i I - J) = n-1$,则 $\dim N (\lambda_i I - J) = 1$,即 $\lambda_i$ 对应的特征向量为一维的。
2.若存在 $\lambda _i = \lambda _j$
$J_i$$J_j$ 看作同一个块,则显然 $\operatorname{rank}(\lambda_i I - J) = n-2$,则 $\dim N (\lambda_i I - J) = 2$,即 $\lambda_i$ 对应的特征向量为二维。仍然有 $J_i$ 对应的特征向量为一维的。

3.8.16 Example: Jordan标准形与相似变换矩阵

求矩阵 $A$ 的 Jordan 标准形 $J$,并求可逆矩阵 $P$ 使得 $P^{-1}AP=J$,其中

$$A=\left[\begin{array}{ccc} -1 & -2 & 6 \\ -1 & 0 & 3 \\ -1 & -1 & 4 \end{array}\right]$$

对矩阵 $A$ 的特征矩阵 $\lambda I-A$ 作初等变换得

$$\lambda I-A\cong\left[\begin{array}{ccc} 1 & 0 & 0 \\ 0 & \lambda-1 & 0 \\ 0 & 0 & (\lambda-1)^2 \end{array}\right]$$

则特征矩阵 $\lambda I-A$ 的初等因子为 $(\lambda-1),(\lambda-1)^2$。由此,矩阵 $A$ 的 Jordan 标准形为

$$J=\left[\begin{array}{llll} 1 & 0 & 0 \\ 0 & 1 & 1 \\ 0 & 0 & 1 \end{array}\right]$$

$P=[p_1 \quad p_2 \quad p_3]$,则 $A[p_1 \quad p_2 \quad p_3]=[p_1 \quad p_2 \quad p_3]J$。整理得

$$\left\{ \begin{array}{l} Ap_1=p_1 \\ Ap_2=p_2 \\ Ap_3=p_2+p_3 \end{array} \right.$$

$Ap_i=p_i$ 解得两个线性无关的向量为 $p_1=(3,0,1)^T$$p_2=(0,3,1)^T$

$p_2=(0,3,1)^T$ 代入 $Ap_3=p_2+p_3$ 发现此方程无解(为什么?)。
解释:将 $Ap_3=p_2+p_3$ 变为 $(A - I)p_3 = p_2$ 可知,$p_2$ 必须在 $A-I$ 零空间和 $A-I$ 列空间的交空间中,显然上面取的 $p_2$ 不在 $A-I$ 的列空间中,故无解。
重新调整方程 $Ap_i=p_i$ 的解,经观察得 $p_1=(3,0,1)^T$$p_2=(2,1,1)^T$。此时,$p_3=(-1,0,0)^T$
因此,

$$P=\left[\begin{array}{ccc} 3 & 2 & -1 \\ 0 & 1 & 0 \\ 1 & 1 & 0 \end{array}\right]$$

3.8.8 Theorem: Frobenius 定理

$A\in C^{n\times n}$,其特征矩阵 $\lambda I-A$ 的 Smith 标准形为 $\operatorname{diag}\left(d_1(\lambda),\cdots, d_n(\lambda)\right)$,则 $A$ 的最小多项式 $m_A(\lambda)=d_n(\lambda)$

Proof:

利用矩阵 $A$ 的 Jordan 标准形 $J$ 进行求解。若标准形 $J$ 仅包含一个 Jordan 块 $J_1$,则由例3.8.14 知,$m_{J_1}(\lambda)=\left(\lambda-\lambda_1\right)^{k_1}$,故 $J_1$ 的最小多项式恰好等于它所对应的初等因子。

$J$ 包含两个 Jordan 块 $J_1$$J_2$ 时,下面分两种情况讨论:
(1) 若 $\lambda_1=\lambda_2$,此时 $J_1$$J_2$ 的最小多项式分别为

$$m_{J_1}(\lambda)=\left(\lambda-\lambda_1\right)^{k_1},\quad m_{J_2}(\lambda)=\left(\lambda-\lambda_2\right)^{k_2}$$

经计算知,矩阵 $J$ 的最小多项式为 $m_{J_1}(\lambda)$$m_{J_2}(\lambda)$ 的最小公倍式。

(2) 若 $\lambda_i\neq\lambda_p$,矩阵 $J$ 的最小多项式仍为 $m_{J_i}(\lambda)$$m_{J_p}(\lambda)$ 的最小公倍式。
将上述结论推广至一般的 Jordan 标准形 $J$ 时,矩阵 $J$ 的最小多项式等于特征矩阵 $\lambda I-A$ 的初等因子的最小公倍式。又知所有初等因子的最高幂指数必为不变因子 $d_n(\lambda)$ 的因子,因此,矩阵 $J$ 的最小多项式恰为不变因子 $d_n(\lambda)$

{注}:$\lambda I-A$ 的初等因子的最小公倍式即为矩阵 $A$ 的最小多项式 $m_A(\lambda)$