矩阵分析与应用-1.8-广义逆矩阵
前言
本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.
之前说的逆矩阵都是在方阵的条件下进行讨论的, 然后这部分内容将方阵推广到一般矩阵.
一、左逆矩阵与右逆矩阵
1. 左逆矩阵与右逆矩阵的存在性
从广义角度来讲, 对于任意矩阵 \(A\), 只要有一个矩阵 \(L\) 使得 \(LA=I\), 那么矩阵 \(L\) 就是 \(A\) 的逆矩阵. 那么 \(L\) 存在着三种情况.
\(L\) 存在且唯一
\(L\) 存在但不唯一
\(L\) 不存在
定义 1: 满足 \(LA = I\), 但不满足 \(AL=I\) 的矩阵 \(L\) 称为矩阵 \(A\) 的左逆矩阵. 同理, 满足 \(AR=I\), 但不满足 \(RA=I\) 的矩阵称为矩阵 \(A\) 的右逆矩阵.
定理 1: 仅当 \(m \ge n\) 时, 矩阵 \(A \in C^{m \times n}\) 可能有左逆矩阵. (证明方法是把矩阵转换成分块矩阵)
定理 2: 仅当 \(m \le n\) 时, 矩阵 \(A \in C^{m \times n}\) 可能有右逆矩阵. (证明方法同定理 1 类似)
特别地, 方阵的左逆矩阵和右逆矩阵相等, 那么这个方阵就是非奇异的. 它的逆矩阵即使左逆矩阵, 又是右逆矩阵.
2. 左逆矩阵与右逆矩阵的唯一解
对给定的 \(m \times n\) 矩阵 \(A\), 考察 \(m > n\) 且 \(A\) 具有满列秩 (\(\mathrm{rank}A=n\)) 的情况. 易得,
\[ L=(A^{\mathrm{H}}A)^{-1}A^{\mathrm{H}} \tag{1} \]
满足左逆矩阵的定义 \(LA=I\), 这种左逆矩阵是唯一的, 常称为左伪逆矩阵.
考察 \(m < n\) 且 \(A\) 具有满行秩 (\(\mathrm{rank}A=m\)) 的情况. 此时, \(m \times m\) 矩阵 \(AA^{\mathrm{H}}\) 是可逆的, 定义
\[ R = A^{\mathrm{H}}(AA^{\mathrm{H}})^{-1} \tag{2} \]
满足右逆矩阵的定义 \(AR=I\), 这种右逆矩阵是唯一的, 常称为右伪逆矩阵.
左伪逆矩阵与超定方程的最小二乘解密切相关, 而右伪逆矩阵则与欠定方程的最小二乘和最小范数解密切联系.
二、广义逆矩阵的定义及性质
1. 一致性方程
一致性方程:
定义 2: 若矩阵 \(A\) 行之间存在的线性关系同时也存在于向量 \(y\) 的对应元素之间, 则称 \(A_{m \times n}x_{n \times 1}=y_{m \times 1}\) 为一致性方程.
定理 3: 当且仅当方程为一致性方程时, 这线性方程组可以求解.
定理 4: 线性方程 \(Ax=y\) 是一致的, 当且仅当增广矩阵 \([A,y]\) 的秩等于矩阵 A 的秩, 即:
\[ rank([A,y]) = rank(A) \]
2. 广义逆矩阵 \(G\)
广义逆矩阵 \(G\):
定义 3: 若 \(A\) 是一个 \(m \times n\) 矩阵, 且具有任意秩. 即矩阵 \(A\) 的广义逆矩阵是一个 \(n \times m\) 矩阵 \(G\), 并且使得当 \(Ax = y\) 为一致性方程时, \(x = Gy\) 是线性方程 \(Ax=y\) 的解.
定理 5: 当且仅当 \(AGA = A\)时, 一致性方程 \(Ax = y\) 对于 \(y \neq 0\) 有解 \(x = Gy\).
命题 1: 方程 \(Ax=0\) 的解与矩阵A的任意行正交, 并且线性无关.
证明:
我们知道 \(Ax=0\) 是一个一致性方程, 即矩阵 \(A\) 之中行之间的关系存在于 0 向量中. 线性方程也一定是有解的. 用 \(a^T\) 表示矩阵中的任意一行, \(\tilde{x}\) 表示方程的一个解,即有 \(a^T \tilde{x}=0\), 即解与 \(A\) 中任意一行正交.
\(m \times n\) 矩阵 \(A\) 的广义逆矩阵 \(G\) 用符号 \(A^-\) 表示, 即 \(G = A^-\)
引理 1: \(A^-\) 存在 \(\Leftrightarrow AA^-A=A\)
证明 :
\(\Rightarrow\) 的证明
令 \(y = Az\) 且 \(z\) 是一个 \(n \times 1\) 的任意向量, 即有 \(Ax = y\) 是一致性方程.
在这里, 广义逆矩阵 \(A^-\) 存在的话, 就意味着:
\[ A(A^-Az) = A(A^- y) = Az , \quad \forall z \quad \Rightarrow AA^-A=A \]
\(\Leftarrow\) 的证明
若 \(AGA = A\), 我们需要证明 \(G\) 就是矩阵 \(A\) 的广义逆矩阵 \(A^-\)
若 \(Ax = y\) 是一致性方程, 则 \(\exists\) 解向量 \(w\) 满足 \(Aw = y\) 。
由于 \(AGA = A\), 即 \(AGAw = Aw \Rightarrow AGy = Aw = y\). 即我们看到 \(Gy\) 满足线性方程 \(Ax = y\).
即 $ Gy $ 是 $ Ax = y $ 的一个解向量,即 $ G = A^- $
引理 2: 下面结论为真
\(A^-\) 存在 \(\Leftrightarrow H=A^-A\) 为幂等矩阵 (即 \(H^2 = H\)) 和 \(\mathrm{rank}(H)=\mathrm{rank}(A)\).
\(A^-\) 存在 \(\Leftrightarrow F=AA^-\) 为幂等矩阵 (即 \(F^2 = F\)) 和 \(\mathrm{rank}(F)=\mathrm{rank}(A)\).
而对于 \(\Rightarrow\) 的证明:
这个我们用上面的 \(AA^-A = A\) 同时左乘一个 \(A^-\) 即可证明 \(H^2 = H\)
而矩阵性质: \(\mathrm{rank}(AB) \leq \mathrm{rank}(A)\) 或者 \(\mathrm{rank}(AB) \leq \mathrm{rank}(B)\) ,
又有 \(H = A^-A\) 以及 \(AH = AA^-A = A\)
即我们有: \(\mathrm{rank}(A) \geq \mathrm{rank}(H) \geq \mathrm{rank}(AH) \geq \mathrm{rank}(A)\)
得证 \(\mathrm{rank}(H) = \mathrm{rank}(A)\)
而对于 \(\Leftarrow\) 的证明:
我们假定 \(H = A^-A\) 是幂等矩阵, 且 \(\mathrm{rank}(H)=\mathrm{rank}(A)\)
即我们有 \(H(I-H) = O \Rightarrow A^- A(I-A^-A) = O \Rightarrow A(I-A^-A) = O \Rightarrow AA^-A = A\)
类似可证明另一个结论.
3. 广义逆矩阵的其他两种定义
定义 4: \(m \times n\) 矩阵 \(A\) 的广义逆矩阵是一个满足
\[ AA^-A = A \]
的 \(n \times m\) 矩阵 \(A^-\).
定义 5: \(m \times n\) 矩阵 \(A\) 的广义逆矩阵是满足下列两个条件之一的 \(n \times m\) 的矩阵 \(A^-\)
- \(A^-A\) 为幂等矩阵, 且 \(\mathrm{rank}(A^-A) = \mathrm{rank}(A)\)
- \(AA^-\) 为幂等矩阵, 且 \(\mathrm{rank}(AA^-) = \mathrm{rank}(A)\)
验证:
若矩阵 \(A_{m \times n}\) 有一个主子矩阵 \(A_{11}\) 且其秩 \(r = \mathrm{rank}(A)\), 且 \(A\) 的分块形式为:
\[ A = \begin{bmatrix} A_{11} & A_{12} \\ A_{21} & A_{22} \\ \end{bmatrix} , \qquad 且 \ A_{22} = A_{21}A^{-1}_{11}A_{12} \]
则其广义逆矩阵 \(A^{-}\) 为:
\[ A^{-} = \begin{bmatrix} A_{11}^{-1} & O \\ O & O \\ \end{bmatrix} \]
三、广义逆矩阵的计算
1. 满秩分解
定义 6: 令 \(A_{m \times n}\) 具有秩 \(r\). 将其分解为 \(A = FG\), 其中 \(F_{m \times r}\) 和 \(G_{r \times n}\) 均具有秩 \(r\), 则称这是矩阵的满秩分解.
我们可以通过矩阵的相似对角化去证明出来.
为此我们得到了满秩分解算法:
- 利用初等行变换将矩阵 \(A\) 化为阶梯形:
\[ \begin{bmatrix} G_{r \times n} \\ O_{(m-r) \times n} \\ \end{bmatrix} \]
对单位矩阵 \(I\) 进行第一步的逆初等行变换得到 \(P^{-1}\)
利用 \(P^{-1}\) 的前 \(r\) 列构造矩阵 \(F\)
书写满秩分解结果 \(A = FG\)
引理 3: 若矩阵 \(A_{m \times n}\) 具有秩 \(r\), 且其满秩分解为 \(A = F_{m \times r}G_{r \times n}\), 则我们知道其广义逆矩阵为:
\[ A^- = G^T(F^TAG^T)^{-1}F^T \tag{3} \]
证明也很简单, 带入 \(AA^-A = A\) 就能证明了.
2. 广义逆矩阵的计算
- 假设 \(A_{m \times n}\), 且 \(u_{m \times 1 }\) 和 \(v_{n \times 1}\) 是两个一维向量, 则有:
\[ (A + uv^T)^- = A^- - \frac{(A^-u)(u^TA^-)}{1 + u^TA^-u} \tag{4} \]
分块矩阵的广义逆矩阵计算公式:
若
\[ M = \begin{bmatrix} A & C \\ C^H & B \\ \end{bmatrix} \tag{5} \]
其中 \(A = X^H_1X_1\), \(B = X^H_2X_2\), \(C = X^H_1X_2\), 若设 \(D = B - C^H A^-C\), 则我们有 \(M^-\):
\[ M^- = \begin{bmatrix} A^- + A^-CD^-C^HA^- & -A^-CD^- \\ -D^-C^HA^- & D^- \\ \end{bmatrix} \tag{6} \]
矩阵之和的广义逆矩阵的计算公式:
若 \(AA^-UBV = UBV\) (即 \(UBV\) 的列空间是 \(A\) 的列空间的子集) 与 \(UBVA^-A = UBV\) (即 \(UBV\) 的行空间是 \(A\) 的行空间的子集), 则我们有 \(G = A + UBV\) 的广义逆矩阵 \(G^-\) 存在几种求法:
\[ \begin{aligned} G^-_1 &= A^- -A^-(A^- + A^-UBVA^-)^-A^-UBVA^- \\ G^-_2 &= A^- -A^-U(U + UBVA^-U)^-UBVA^- \\ G^-_3 &= A^- -A^-UB(B + BVA^-UB)^-BVA^- \\ G^-_4 &= A^- -A^-UBV(V + VA^-UBV)^-VA^- \\ G^-_5 &= A^- -A^-UBVA^-(A^- + A^-UBVA^-)^-A^- \\ \end{aligned} \]
四、一致方程的最小范数解
1. 通解
定理 6: 若 \(n \times m\) 矩阵 \(A^-\) 是 \(A_{m \times n}\) 的任意一个广义逆矩阵, 则有:
齐次方程 \(Ax = 0\) 的一个通解是 \(x = (I-A^-A)z\), 其中 \(z\) 是任意的 \(n \times 1\) 的向量 (容易证明吧, 和上面引理 2 思想一样)
非齐次方程 \(Ax = y\) 为一致方程的充要条件为:
\[ AA^-y = y \tag{7} \]
非齐次方程 $ Ax = y $ 的一个通解为:
\[ x = A^-y + (I-A^-A)z \tag{8} \]
式中, \(z\) 为 \(n \times 1\) 任意向量.
2. 最小范数解
对一个一致方程 \(Ax=y\)
最小范数条件:
\[ \min_{Ax = y} \lVert x \rVert = \lVert Gy \rVert \tag{9} \]
此时称矩阵 \(G\) 为最小范数广义逆矩阵
3. 伴随矩阵 (区别于常规的伴随矩阵)
为此我们定义 \(A_{m \times n}\) 伴随矩阵的符号为 \(A_{n \times m}^{\sharp}\) , 且有两向量 \(x_{n \times 1},y_{m \times 1}\). \(\langle Ax,y \rangle\) 是 \(m\) 阶向量空间的内积, 记作 \(\langle Ax,y \rangle_m\) . 而我们定义将 \(m\) 阶向量空间的内积等价变换为 \(n\) 阶向量的内积的一个映射:
\[ \langle Ax,y \rangle _m = \langle x,A^{\sharp}y \rangle _n \tag{10} \]
此外如果 \(A^{\sharp} = A\) , 我们称其为自伴随矩阵. (当然, 我们一般更熟悉他的另一个名字 \(\mathrm{Hermitian}\))
这里的伴随矩阵和之前我们说的 (比如在逆矩阵一节里那个) \(\mathrm{adj}\) 定义有所不同.
在此,还有些性质:
- \((A^{\sharp}) ^{\sharp} = A\)
- \((AB)^{\sharp} = B^{\sharp} A^{\sharp}\)
- \(\langle Ax,By \rangle , \forall x,y \Leftrightarrow A^{\sharp}B = 0\)
- \(A^{\sharp} = A^T\) (\(A\) 为实矩阵) 或 \(A^{\sharp} = A^H\) (\(A\) 为复矩阵)
4. 最小范数解的求取
定理 7: 若 \(Gy\) 是一致方程 \(Ax = y\) 的最小范数解, 当且仅当:
\[ AGA=A ,\quad (GA)^{\sharp} = GA \tag{11} \]
前一个条件很容易就能看出来, 是定义所决定的.
至于第二个条件, 我们已经知道通解是 \(x = A^-y + (I-A^-A)z\), 即 \(x = Gy + (I-GA)z\) ( 由定理 6 可得 ), 我们只需证明:
\[ \lVert Gy \rVert \leq \lVert Gy + (I-GA)z \rVert , \quad \forall z \]
或者:
\[ \begin{aligned} & \lVert GAb \rVert \leq \lVert GAb + (I-GA)z \rVert , \quad \forall b,z \\ \Leftrightarrow & \langle GAb,(I-GA)z \rangle = 0 , \quad \forall b,z \\ \Leftrightarrow & (GA)^{\sharp}(I-GA) = O \\ \Leftrightarrow & (GA)^{\sharp} = (GA)^{\sharp}GA \\ \end{aligned} \]
因为我们最后要得到 \((GA)^{\sharp} = GA\) , 即我们易知:
\[ (GA)^{\sharp}GA = GAGA = GA = (GA)^{\sharp} \]
使用 \(AGA = A\), 易知
\[ (GA)^{\sharp}GA=GA \Rightarrow GAGA \neq GA \Rightarrow GA \neq GA \]
这样就使用了反证法得出结果.
5. 注释
关于最小范数解还有两点需要强调的:
充要条件 \(AGA = A , \quad (GA)^{\sharp} = GA\) , 我们能够写成等价形式 \(GAA^{\sharp} = A^{\sharp}\)
令 \(G_1,G_2\) 是矩阵 \(A\) 的两个不同的广义逆矩阵, 由上得知 \(G_iAA^{\sharp} = A^{\sharp}\), 即有:
\[ (G_1-G_2)AA^{\sharp} = O \Leftrightarrow (G_1-G_2)AA^{\sharp} = O \Leftrightarrow G_1A = G_2A \]
由于 \(Ax = y\) 是一致方程, 即有 \(\mathrm{rank}([A, y]) = \mathrm{rank}(A)\) , 我们因此可以将 \(y\) 写作 \(Ab\) , 其中 \(b\) 是一个非零向量 , 即有:
\[ G_1Ab=G_2Ab \Rightarrow G_1y = G_2y \]
我们可以看到最小范数解是唯一的.
6. 特别情况
我们讨论 \(A_{m \times n}\) 具有满行秩 \(m\) 时, 线性方程 \(Ax = y\) 的最小范数解.
我们知道 \(A\) 满行秩, 即是有增广矩阵 \(\mathrm{rank}([A, y]) = \mathrm{rank}(A)\) , 即线性方程 \(Ax = y\) 是一致方程. 此外, 又因为矩阵乘积 \(AA^H\) 可逆, 故存在右伪逆矩阵 \(A^H (A A^H) ^{-1}\)
即我们与之对应的解为:
\[ x^{\circ} = A^H(AA^H)^{-1}y \tag{12} \]
但它是否是最小范数解呢?
我们简单的证明一下:
假设 \(x\) 是不同的任意解,则有:
\[ \lVert x \rVert ^2 = \lVert x^{\circ} + x - x^{\circ} \rVert ^2 = \lVert x^{\circ} \rVert ^2 + \lVert x -x^{\circ} \rVert ^2 + 2(x^{\circ})^H(x-x^{\circ}) \tag{13} \]
带入 \(x^{\circ} = A^H(A A^H) ^{-1}y = A^H(A A^H) ^{-1}Ax\) 的值, 我们得到:
\[ \begin{aligned} (x^{\circ})^H(x-x^{\circ}) &= y^H(AA^H)^{-1}A [I-A^H(AA^H)^{-1}A]x \\ &= y^H[(AA^H)^{-1}A-(AA^H)^{-1}A]x = 0 \end{aligned} \]
即, 我们可以化简得到:
\[ \lVert x \rVert ^2 = \lVert x^{\circ} \rVert ^2 + \lVert x -x^{\circ} \rVert ^2 \]
由于向量范数的非负性, 我们得到:
\[ \lVert x \rVert ^2 \geq \lVert x^{\circ} \rVert ^2 \]
即 \(x^{\circ}\) 确实为最小范数解。
右伪逆矩阵满足最小范数解
右伪逆矩阵 \(G = A^{H} (AA^H) ^{-1}\) 满足最小范数解的条件 \(AGA = A, \quad (GA)^{\sharp} = GA\)
用伴随矩阵特性 \(B^{\sharp} = B^H\) 就能证明
五、非一致方程的最小二乘解
对于非一致方程, 其没有严格满足方程的解, 即只能有近似解. 我们需要寻找一个使得方程两边的误差平方和最小的解. 我们称这个解为非一致方程的最小二乘解.
我们使用 \(\hat{x}\) 表示最小二乘解.
而它满足条件:
\[ \lVert A\hat{x}-y \rVert = \inf_{x} \lVert Ax-y \rVert \tag{14} \]
我们用 $ $ 表示函数的下确界
1. 最小二乘解的条件
定理 8: 令 \(G\) 为某个矩阵, 要使得 \(\hat{x} = Gy\) 是非一致方程 $Ax = y $的最小二乘解, 当且仅当:
\[ A^{\sharp}AG = A^{\sharp} \tag{15} \]
或者等价于:
\[ AGA = A, \quad (AG)^{\sharp} = AG \tag{16} \]
我们注意其与上面所讲的一致方程的最小范数解之间的区别
为此, 我们对这个也给予证明:
我们已知前提:
\[ \lVert A\hat{x} - y \rVert \leq \lVert Ax - y \rVert , \quad \forall x,y \]
而带入 \(\hat{x} = Gy\)
我们有:
\[ \begin{aligned} \lVert AGy - y \rVert &\leq \lVert Ax - y \rVert , \quad \forall x,y\\ &\leq \lVert AGy - y + Aw \rVert , \quad \forall x,w = x - Gy \\ &\Leftrightarrow \langle Aw,(AG-I)y \rangle = 0 , \quad \forall y,w \\ &\Leftrightarrow A^{\sharp}(AG-I) = O \\ &\Leftrightarrow A^{\sharp}AG = A^{\sharp} \end{aligned} \]
我们看得出来, 这个证明过程和之前的一致方程的最小范数解的证明很相似.
上面两边同时右乘 $ A $ ,即有:
\[ A^{\sharp}(AGA) = A^{\sharp}A \]
要使得对所有矩阵 $ A $ 都存在,即我们有:
\[ AGA = A \]
上面两边同时左乘矩阵 \(G^{\sharp}\) , 我们能够得到:
\[ G^{\sharp}A^{\sharp}AG = (AG)^{\sharp}AG = (AG)^{\sharp} \]
我们可以使用之前的方式证明其充要条件是:
\[ (AG)^{\sharp} = AG \]
2. 注释
非一致方程的最小二乘解有可能不是唯一的, 但是不同的最小二乘解得到的 \(Ax\) 和 \(Ax - y\) 是唯一的.
非一致方程的最小二乘解的通解形式为:
\[ \hat{x} = Gy + (I-GA)z , \quad \forall z \tag{17} \]
3. 特别情况
当非一致方程 \(Ax = y\) 的矩阵 \(A\) 有满列秩的特殊情况, 此时 \(A^HA\) 显然是非奇异的.
而此时解:
\[ x^{\circ} = (A^HA)^{-1}A^Hy \tag{18} \]
是一个最小二乘解
4. 左伪逆矩阵满足最小二乘解
左伪逆矩阵 \(G = (AA^H) ^{-1} A^{H}\) 满足最小二乘解的条件 \(AGA = A, \quad (AG)^{\sharp} = AG\)
用伴随矩阵特性 \(B^{\sharp} = B^H\) 就能证明