矩阵分析与应用-1.6-矩阵的标量函数
前言
本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.
这部分内容与线性代数的内容重合, 讲述的是矩阵的一些标量函数.
一、矩阵的二次型
任意一个方阵 \(A\) 的二次型 \(x^{\mathrm{H}}Ax\) 是一个实数标量. 以实矩阵为例, 有以下推导.
\[ \begin{aligned} x^{\mathrm{T}}Ax &= [x_1,x_2,x_3] \begin{bmatrix} 1 & 4 & 2\\ -1 & 7 & 5\\ -1 & 6 & 3 \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ x_3 \end{bmatrix}\\ &= x_1^2 - x_2x_1 - x_3x_1 + 4x_1x_2 + 7x_2^2 + 6x_3x_2 + 2x_1x_3 + 5x_2x_3 + 3x_3^2 \\ &= x_1^2 + 7x_2^2 + 3x_3^2 + 3x_1x_2 + x_1x_3 + 11x_2x_3 \end{aligned} \]
这就是变量 \(x\) 的二次型函数, 仔细观察可以看见对角线是二次项, 一次项是关于对角线对称元素之和. 所以我们就把 \(x^{\mathrm{T}}Ax\) 称为矩阵 \(A\) 的二次型.
推而广之, 若 \(x = [x_1,x_2,\dots,x_n]^{\mathrm{T}}\), 且 \(n \times n\) 矩阵 \(A\) 的元素为 \(a_{ij}\), 则二次型为.
\[ \begin{aligned} x^{\mathrm{T}}Ax &= \sum_{i=1}^{n}\sum_{j=1}^{n}x_ix_ja_{ij} \\ &= \sum_{i=1}^{n}a_{ii}x_i^2 + \sum_{i=1,i \neq j}^{n}\sum_{j=1}^{n}a_{ij}x_ix_j \\ &= \sum_{i=1}^{n}a_{ii}x_i^2 + \sum_{i=1}^{n-1}\sum_{j=i+1}^{n}(a_{ij}+a_{ji})x_ix_j \end{aligned} \tag{1} \]
其实只要满足方阵对角线相等, 关于对角线元素之和相等, 这两个方阵二次型就相等.
也就是对于任意一个二次型函数
\[ f(x_1,x_2,\dots,x_n) = \sum_{i=1}^{n}a_{ii}x_i^2 + \sum_{i=1, i \neq j}^{n}\sum_{j=1}^{n}a_{ij}x_ix_j \tag{2} \]
存在着许多矩阵 \(A\), 它们的二次型相同. 但是只有一个矩阵满足其元素关于主对称轴相等的条件 (对于复数矩阵就要满足共轭的条件), 这个矩阵我们就把它叫做实对称矩阵或复共轭对称 (即 \(\mathrm{Hermitian}\) 矩阵).
把大于零的二次型 \(x^{\mathrm{H}}Ax\) 称为正定的二次型, 则与之对应的 \(\mathrm{Hermitian}\) 矩阵为正定矩阵. 由此又有一些定义.
定义 1: 一个复共轭对称矩阵 \(A\)
若二次型 \(x^{\mathrm{H}}Ax > 0, \quad \forall x \neq 0\), 就叫正定矩阵
若二次型 \(x^{\mathrm{H}}Ax \ge 0, \quad \forall x \neq 0\), 就叫半正定矩阵
若二次型 \(x^{\mathrm{H}}Ax < 0, \quad \forall x \neq 0\), 就叫负定矩阵
若二次型 \(x^{\mathrm{H}}Ax \le 0, \quad \forall x \neq 0\), 就叫半负定矩阵
若二次型 \(x^{\mathrm{H}}Ax\) 即可能取正值, 也可能取负值, 就叫不定矩阵
定义 2: 设矩阵 \(A_{m \times n}\) 的元素为 \(a_{ij}\). 若
\[ a_{ij} \ge 0, \quad \forall i = 1,2,\dots,m, j = 1,2,\dots,n \tag{3} \]
则称 \(A\) 为非负矩阵. 表示 \(A\) 中所有元素都是非负的, 同时 \(A\) 也叫做正矩阵. 与正定矩阵相比, 这个矩阵不一定是方阵.
二、矩阵的迹
定义 3: \(n \times n\) 矩阵 \(A\) 的对角线元素之和称为 \(A\) 的迹, 记作 \(tr(A)\), 即
\[ tr(A) = a_{11} + a_{22} + \dots + a_{nn} = \sum_{i=1}^{n}a_{ii} \tag{4} \]
不是方阵就没有迹的定义.
1. 关于迹的等式
若 \(A\) 和 \(B\) 均为 \(n \times n\) 矩阵, 则 \(\mathrm{tr}(A \pm B) = \mathrm{tr}(A) \pm \mathrm{tr}(B)\)
若 \(c\) 是一个复或者实的常数, 则 \(\mathrm{tr}(cA) = c\mathrm{tr}(A)\)
若 \(A\) 和 \(B\) 均为 \(n \times n\) 矩阵, 并且 \(c_1\) 和 \(c_2\) 为常数, 则 \(\mathrm{tr}(c_1A \pm c_2B) = c_1\mathrm{tr}(A) \pm c_2\mathrm{tr}(B)\)
矩阵 \(A\) 的转置、复数共轭和复共轭的迹分别是
\[ \mathrm{tr}(A^\mathrm{T}) = \mathrm{tr}(A) \\ \mathrm{tr}(A^*) = [\mathrm{tr}(A)]^* \\ \mathrm{tr}(A^\mathrm{H}) = [\mathrm{tr}(A)]^* \]
- 迹是相似不变量, 若 \(A\) 为 \(m \times n\) 矩阵, 且 \(B\) 为 \(n \times m\) 矩阵, 则
\[ \mathrm{tr}(AB) = \mathrm{BA} \]
- 若矩阵 \(A\) 和 \(B\) 均为 \(m \times m\) 矩阵, 并且 \(B\) 非奇异, 则
\[ \mathrm{tr}(BAB^{-1}) = \mathrm{tr}(B^{-1}AB) = \mathrm{tr}(A) \]
若 \(A\) 是一个 \(m \times n\) 矩阵, 则 \(\mathrm{tr}(A^{\mathrm{H}}A) = 0 \Leftrightarrow A = O_{m \times n}(零矩阵)\)
\(x^\mathrm{H}Ax = \mathrm{tr}(Axx^{\mathrm{H}})\) 和 \(y^{\mathrm{H}}x = \mathrm{tr}(xy^{\mathrm{H}})\)
分块矩阵的迹满足 \[ \mathrm{tr}\begin{bmatrix} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{bmatrix} = \mathrm{tr}(\mathbf{A}) + \mathrm{tr}(\mathbf{D}) \] 式中, \(\mathbf{A} \in C^{m \times m}, \mathbf{B} \in C^{m \times n}, \mathbf{C} \in C^{m \times m}, \mathbf{D} \in C^{n \times n}\)
矩阵 \(A^{\mathrm{H}}A\) 和 \(AA^{\mathrm{H}}\) 的迹相等, 且有 \[ \mathrm{tr}(A^{\mathrm{H}}A) = \mathrm{tr}(AA^{\mathrm{H}}) = \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}^*a{ji} \tag{5} \]
迹等于特征值之和, 即 \[ \mathrm{tr}(A) = \lambda_1 + \lambda_2 + \dots + \lambda_n \tag{6} \]
对于任何正整数 \(k\), 有 \[ \mathrm{tr}(A^k) = \sum_{i=1}^n\lambda_i^k \tag{7} \]
式子右边的和称为 \(A\) 的诸特征值的 \(k\) 次矩.
2. 关于迹的不等式
对于一个复矩阵 \(A \in C^{m \times n}\), 有 \(\mathrm{tr}(A^{\mathrm{H}}A)=\mathrm{tr}(AA^{\mathrm{H}}) \ge 0\)
若 \(A,B\) 均为 \(m \times n\) 矩阵, 则 \[ \mathrm{tr}[(A^{\mathrm{T}}B)^2] \le \mathrm{tr}(A^{\mathrm{T}}A)\mathrm{tr}(B^{\mathrm{T}}B) \\ \mathrm{tr}[(A^{\mathrm{T}}B)^2] \le \mathrm{tr}(A^{\mathrm{T}}AB^{\mathrm{T}}B) \\ \mathrm{tr}[(A^{\mathrm{T}}B)^2] \le \mathrm{tr}(AA^{\mathrm{T}}BB^{\mathrm{T}}) \\ \]
\(\mathrm{tr}(A^2) \le \mathrm{tr}(A^{\mathrm{T}}A)\)
\(\mathrm{tr}[(A+B)(A+B)^{\mathrm{T}}] \le 2[\mathrm{tr}(AA^{\mathrm{T}})+\mathrm{tr}(BB^{\mathrm{T}})]\)
若 \(A\) 和 \(B\) 为 \(m \times m\) 对称矩阵, 则 \(\mathrm{tr}(AB) \le \frac{1}{2}\mathrm{tr}(A^2+B^2)\)
一个 \(m \times n\) 实矩阵 \(A\) 的 \(\mathrm{Frobenius}\) 范数也可利用 \(m \times m\) 矩阵 \(A^{\mathrm{T}}A\) 或者 \(n \times n\) 矩阵 \(AA^{\mathrm{T}}\) 的迹定义为 \[ \left \| A \right \|_{\mathrm{F}} = \sqrt{\mathrm{tr}(A^{\mathrm{T}}A)} = \sqrt{\mathrm{tr}(AA^{\mathrm{T}})} \tag{8} \]
三、行列式
1. 定义和计算
一个 \(n \times n\) 的方阵 \(A\) 的行列式记作 \(\mathrm{det}(A)\) 或者 \(|A|\), 定义为
\[ \mathrm{det}(A) = |A| = \begin{vmatrix} a_{11}& a_{12}& \cdots& a_{1n}\\ a_{21}& a_{22}& \cdots& a_{2n}\\ \vdots& \vdots& & \vdots\\ a_{n1}& a_{n2}& \cdots& a_{nn} \end{vmatrix} \tag{9} \]
若 \(A = \{ a \} \in C^{1 \times 1}\), 则它的行列式由 \(\mathrm{det}(A) = a\) 给出.
矩阵 \(A\) 去掉第 \(i\) 行和第 \(j\) 列后得到的行列式叫元素 \(a_{ij}\) 的代数余子式, 记作 \(A_{ij}\). 当 \(j=i\) 时, \(A_i = A_{ii}\) 称为 \(A\) 的主子式. 若令 \(A_{ij}\) 是 \(n \times n\) 矩阵, \(A\) 删除第 \(i\) 行和第 \(j\) 列得到的 \((n-1) \times (n -1)\) 子矩阵, 则
\[ A_{ij} = (-1)^{i+j}\mathrm{det}(A_{ij}) \tag{10} \]
一个 \(n \times n\) 矩阵的行列式等于任意行 (或列) 的元素与对应的余子式乘积之和
\[ \mathrm{det}(A) = a_{i1}A_{i1} + a_{i2}A_{i2} + \dots + a_{in}A_{in} = \sum_{j=1}^{n}a_{ij}(-1)^{i+j}\mathrm{det}(A_{ij}) \tag{11} \]
或
\[ \mathrm{det}(A) = a_{1j}A_{1j} + a_{2j}A_{2j} + \dots + a_{nj}A_{nj} = \sum_{i=1}^{n}a_{ij}(-1)^{i+j}\mathrm{det}(A_{ij}) \tag{12} \]
所以行列式计算就是一个递推过程, 当然这也是考试中十分重要的一部分, 考试中计算行列数通常不超过 4.
有了行列式我们就可以和其他的知识点连接起来.
定义 4: 行列式不等于零的矩阵称为非奇异矩阵. 非奇异矩阵 \(A\) 存在可逆矩阵 \(A^{-1}\).
2. 行列式等式关系
矩阵两行 (或列) 互换位置, 行列式保持不变.
矩阵的某行 (或列) 是其他行 (或列) 的线性组合, 则行列式为零. 特别地, 某行 (或列)与其他行 (或列) 成正比或相等, 抑或某行 (或列) 全为零.
\(\mathrm{det}(A) = \mathrm{det}(A^{\mathrm{T}})\), 但是 \(\mathrm{det}(A^{\mathrm{H}}) = [\mathrm{det}(A^{\mathrm{T}})]^*\)
单位矩阵的行列式等于 1, 即 \(\mathrm{det}(I) = 1\)
一个 \(\mathrm{Hermitian}\) 矩阵的行列式为实数, 因为 \(\mathrm{det}(A) = \mathrm{det}(A^{\mathrm{H}}) = \mathrm{det}(A^{\mathrm{T}}) \Rightarrow \mathrm{det}(A) = \mathrm{det}(A^*) = [\mathrm{det}(A)]^*\) .
\(\mathrm{det}(AB) = \mathrm{det}(A)\mathrm{det}(B), \quad A,B \in C^{n \times n}\)
上三角或下三角矩阵 \(A\), 其行列式为主对角线所有元素乘积. \(\mathrm{det}(A)=\prod_{i=1}^{n}a_{ii}\). 对角矩阵也满足这个条件.
给定一个任意常数 (可为复数) \(c\), 则 \(\mathrm{det}(cA) = c^n\mathrm{det}(A)\)
若 \(A\) 非奇异, 则 \(\mathrm{det}(A^{-1}) = (\mathrm{det}(A))^{-1}\)
对于矩阵 \(A_{m \times m}, B_{m \times n}, C_{n \times m}, D_{n \times n}\), 分块矩阵的行列式满足
\[ A 非奇异 \Leftrightarrow \mathrm{det}\begin{bmatrix} A& B\\ C& D \end{bmatrix}= \mathrm{det}(A)\mathrm{det}(D - CA^{-1}B)\\ 或\\ D 非奇异 \Leftrightarrow \mathrm{det}\begin{bmatrix} A& B\\ C& D \end{bmatrix}= \mathrm{det}(D)\mathrm{det}(A - BD^{-1}C) \]
证明方法就是把分块矩阵变成上三角或者下三角矩阵.
3. 行列式不等式关系
- 若 \(A,B\) 都是 \(m \times n\) 矩阵, 则
\[ |\mathrm{det}(A^{\mathrm{H}}B)|^2 \le \mathrm{det}(A^{\mathrm{H}}A)\mathrm{det}(B^{\mathrm{H}}B) \]
- 对于 \(m \times n\) 矩阵 \(A\), 有
\[ \mathrm{det}(A) \le \prod_{i=1}^{m} \left ( \sum_{j=1}^{m}|a_{ij}|^2 \right )^{1/2} \]
- 若 \(A_{m \times m},B_{m \times n},C_{n \times n}\), 则
\[ \mathrm{det}\left ( \begin{bmatrix} A& B\\ B^{\mathrm{H}}& C \end{bmatrix} \right ) \le \mathrm{det}(A)\mathrm{det}(C) \]
- 若 \(A_{m \times m} \neq O_{m \times m},B_{m \times n} \neq O_{m \times m}\) 半正定, 则
\[ \sqrt[m]{\mathrm{det}(A+B)} \ge \sqrt[m]{\mathrm{det}(A)} + \sqrt[m]{\mathrm{det}(B)} \]
正定阵 \(A\) 的行列式大于零.
半正定阵 \(A\) 的行列式大于或等于零.
若 \(m \times m\) 矩阵 \(A\) 半正定, 则
\[ (\mathrm{det}(A))^{1/m} \le \frac{1}{m}\mathrm{det}(A) \]
- 若矩阵 \(A_{m \times m},B_{m \times n}\) 均半正定, 则
\[ \mathrm{det}(A+B) \ge \mathrm{det}(A) + \mathrm{det}(B) \]
- 若矩阵 \(A_{m \times m} 正定, B_{m \times n}\) 半正定, 则
\[ \mathrm{det}(A+B) \ge \mathrm{det}(A) \]
- 若矩阵 \(A_{m \times m} 正定, B_{m \times n}\) 半负定, 则
\[ \mathrm{det}(A+B) \le \mathrm{det}(A) \]
四、矩阵的秩
1. 秩的定义
矩阵的秩常用来判断方程组解的数量.
定理 1: 在 \(p\) 维 (行或列) 向量的集合之中, 最多存在 \(p\) 个线性无关的 (行或列) 向量.
定理 2: 矩阵 \(A_{m \times n}\) 的线性无关行数与线性无关列数相同.
定义 5: 矩阵 \(A_{m \times n}\) 的秩定义为该矩阵中线性无关的行和列的数目.
由秩的大小, 矩阵方程 \(A_{m \times n}x_{n \times 1}=b_{m \times 1}\) 分为以下三种类型:
适定方程: 若 \(m = n\), 并且 \(\mathrm{rank}(A)=n\), 即矩阵非奇异, 则称矩阵方程 \(Ax=b\) 为适定方程.
欠定方程: 若 \(m < \mathrm{rank}(A)\), 即独立方程个数小于独立未知参数个数, 则称矩阵方程 \(Ax=b\) 为欠定方程.
超定方程: 若 \(m > \mathrm{rank}(A)\), 即独立方程个数大于独立未知参数个数, 则称矩阵方程 \(Ax=b\) 为超定方程.
矩阵中线性无关的列向量的所有线性组合形成了一个向量空间, 叫做矩阵的列空间.
定义 6: 矩阵 \(A_{m \times n}\) 的列空间 \(R(A)\) 的维数定义为该矩阵的秩.
\[ r_A = \mathrm{dim}[R(A)] \tag{13} \]
等价叙述:
\(\mathrm{rank}(A) = k\)
存在 \(A\) 的 \(k\) 列且不多于 \(k\) 列组成一线性无关组
存在 \(A\) 的 \(k\) 行且不多于 \(k\) 行组成一线性无关组
存在 \(A\) 的一个 \(k \times k\) 子矩阵具有非零行列式, 且 \(A\) 的所有 \((k+1) \times (k+1)\) 子矩阵都具有零行列式.
列空间 \(R(A)\) 的维数等于 \(k\)
\(k = n - \mathrm{dim}[\mathrm{Null}(A)]\), 其中 \(\mathrm{Null}\) 表示矩阵 \(A\) 的零空间.
定理 3: 令 \(r_A = \mathrm{rank}(A)\) 和 \(r_B = \mathrm{rank}(B)\), 则乘积矩阵 \(AB\) 的秩 \(r_{AB} = \mathrm{rank}(AB)\) 满足不等式
\[ r_{AB} \le \mathrm{min}\{ r_A,r_B \} \tag{14} \]
引理1: 在矩阵左乘或者右乘一个可逆矩阵, 矩阵的秩不变.
引理2: \(\mathrm{rank}[A,B] \le \mathrm{rank}(A) + \mathrm{rank}(B)\)
引理3: \(\mathrm{rank}(A+B) \le \mathrm{rank}[A,B] \le \mathrm{rank}(A) + \mathrm{rank}(B)\)
引理4: \(\mathrm{rank}(A+B) \le \mathrm{rank}[A,B] \le \mathrm{rank}(A) + \mathrm{rank}(B)\)
引理5: 对于 \(m \times n\) 矩阵 \(A\) 和 \(n \times q\) 矩阵 \(B\), 秩不等式 \(\mathrm{rank}(AB) \ge \mathrm{rank}(A) + \mathrm{rank}(B) - n\) 成立.
2. 秩的性质
秩是一个正整数
秩小于或等于矩阵的行数或列数
当 \(n \times n\) 矩阵 \(A\) 的秩等于 \(n\) 时, \(A\) 满秩, 可逆.
若 \(\mathrm{rank}(A_{m \times n}) < \mathrm{min}\{m,n\}\), 则 \(A\) 秩亏缺, 一个亏缺的方阵叫做奇异矩阵, 不可逆.
若 \(\mathrm{rank}(A_{m \times n}) = m(<n)\), 则 \(A\) 满行秩.
若 \(\mathrm{rank}(A_{m \times n}) = n(<m)\), 则 \(A\) 满列秩.
任何矩阵 \(A\) 左乘满行秩或右称一个满列秩矩阵后, 矩阵 \(A\) 的秩保存不变.
当矩阵的秩 \(\mathrm{rank}(A_{m \times n}) = r \neq 0\) 时, 至少存在一个 \(r \times r\) 子矩阵 \(X_{r \times r}\) 满秩或非奇异.
3. 秩的等式
若 \(A \in C^{m \times n}\), 则 \(\mathrm{rank}(A^{\mathrm{H}})=\mathrm{rank}(A^{\mathrm{T}})=\mathrm{rank}(A^*) = \mathrm{rank}(A)\)
若 \(A \in C^{m \times n}\) 和 \(c \neq 0\), 则 \(\mathrm{rank}(cA)=\mathrm{rank}(A)\)
若 \(A \in C^{m \times m}\) 和 \(C \in C^{n \times n}\) 均非奇异, 则对于任意一矩阵 \(B \in C^{m \times n}\) 有 \(\mathrm{rank}(AB)=\mathrm{rank}(B)=\mathrm{rank}(BC)=\mathrm{rank}(ABC)\)
若 \(A,B \in C^{m \times m}\), 则 \(\mathrm{rank}(A)=\mathrm{rank}(B)\) 当且仅当存在非奇异矩阵 \(X \in C^{m \times m}\) 和 \(Y \in C^{n \times n}\) 使得 \(B = XAY\)
若 \(A \in C^{m \times n}\) 则
\[ \mathrm{rank}(AA^{\mathrm{T}})=\mathrm{rank}(A^{\mathrm{T}}A) - \mathrm{rank}(A) \]
\[ \mathrm{rank}(AA^{\mathrm{H}})=\mathrm{rank}(A^{\mathrm{H}}A) - \mathrm{rank}(A) \]
- 若 \(A \in C^{m \times n}\) 则
\[ \mathrm{rank}(A)=m \Leftrightarrow \mathrm{det}(A) \neq 0 \Leftrightarrow A 非奇异 \]
- 若 \(m \times m\) 矩阵 \(A\) 非奇异, 且 \(B \in C^{m \times n}, C \in C^{n \times m}, D \in C^{n \times n}\), 则
\[ \mathrm{rank}\begin{bmatrix} A& B\\ C& D \end{bmatrix} = m \Leftrightarrow D = CA^{-1}B \]
4. 秩的不等式
对于任意 \(m \times n\) 矩阵 \(A\) 有 \(\mathrm{rank}(A) \le \mathrm{min}\{m,n\}\)
若 \(A,B \in C^{m \times n}\), 则 \(\mathrm{rank}(A+B) \le \mathrm{rank}(A) + \mathrm{rank}(B)\)
若 \(A \in C^{m \times k}\) 和 \(B \in C^{k \times n}\), 则
\[ \mathrm{rank}(A) + \mathrm{rank}(B) - k \le \mathrm{rank}(AB) \le \mathrm{min}\{\mathrm{rank}(A),\mathrm{rank}(B)\} \]
- 在任意矩阵中删去某些行与 (或) 某些列, 则所得子矩阵的秩不可能大于原矩阵的秩.