新生任务-2

一、矩阵相关问题

1. 矩阵的秩

首先说明一点, 矩阵的行秩是等于列秩等于矩阵的秩的. 行秩和列秩是考虑到不同的向量空间 (行空间和列空间).

要求矩阵的秩, 实际上对矩阵进行高斯消元, 然后找有几行非零元素就是矩阵的秩. 示例如下:

\[ A = \begin{bmatrix} 1& 2& 2& 2\\ 2& 4& 6& 8\\ 3& 6& 6& 10 \end{bmatrix} \Rightarrow \begin{bmatrix} 1& 2& 2& 2\\ 0& 0& 2& 4\\ 0& 0& 2& 4 \end{bmatrix} \Rightarrow \begin{bmatrix} 1& 2& 2& 2\\ 0& 0& 2& 4\\ 0& 0& 0& 0 \end{bmatrix} = U \]

有行向量 \([1,2,2,2]\) 和 \([0,0,2,4]\) 不是零向量

就可以得出矩阵 \(A\) 的秩为 2. 关于行秩和列秩为什么相等的证明这里就不过多赘述, 大多都是利用反证法和矩阵结合.

这里考虑矩阵的秩的物理或者说是现实意义.

首先秩的大小说明的是矩阵的向量空间中有多少个线性无关的向量, 无论是行空间还是列空间, 它们的线性无关向量个数都是相等的. 由此可以想到组成向量子空间的基向量, 虽然不一定标准正交.

基向量就像颜色中的三原色, 通过线性变换就能成为向量子空间中的任意一个向量. 由此可以想到在图片中, 虽然是丰富多彩, 但在同一张中始终都能找到相似之处. 然后就出现了基于基变换的图像压缩算法, 也就是 JPEG 格式的由来.

2. 矩阵的 1 范数

矩阵的 1 范数也叫列和范数, 顾名思义就是矩阵中每列求绝对值的和, 然后这些进行比较选出最大的那个和.

在 \(m \times n\) 矩阵中则有

\[ \left \| A \right \|_{1} = \left \| A \right \|_{col} = \underset{1 \le j \le n}{\mathrm{max}} \left \{ \sum_{i=1}^{m} |a_{ij}|\right \} \]

现有这样一个矩阵

\[ A = \begin{bmatrix} 1& 2& 2& 2\\ 2& 4& 6& 8\\ 3& 6& 6& 10 \end{bmatrix} \]

第一列求和结果为 : \(|1| + |2| + |3| = 6\)

第二列求和结果为 : \(|2| + |4| + |6| = 12\)

第三列求和结果为 : \(|2| + |6| + |6| = 14\)

第四列求和结果为 : \(|2| + |8| + |10| = 20\)

取最大的 20, 所以矩阵 \(A\) 的 1 范数是 \(\left \| A \right \|_{1} = 20\)

3. 矩阵的 2 范数

矩阵的 2 范数也叫谱范数.

在矩阵 \(A\) 中则有

\[ \left \| A \right \|_{2} = \left \| A \right \|_{spec} = \sqrt{\lambda_{ \mathrm{max} }(A^{\mathrm{T}}A)} \]

其中 \(\lambda_{ \mathrm{max} }(A^{\mathrm{T}}A)\) 为 \(A^{\mathrm{T}}A\) 的特征值绝对值的最大值.

举个例子, 现有这样一个矩阵

\[ A = \begin{bmatrix} 4 & -3\\ 4 & 3 \end{bmatrix} \]

那么 \(A^{\mathrm{T}}A\) 就应该为

\[ A^{\mathrm{T}}A = \begin{bmatrix} 4 & 4\\ -3 & 3 \end{bmatrix}\begin{bmatrix} 4 & -3\\ 4 & 3 \end{bmatrix} \Rightarrow \begin{bmatrix} 32& 0 \\ 0 & 18 \end{bmatrix} \]

根据求特征值的公式 \(Ax=\lambda x \Rightarrow (A - \lambda E)x = 0\), 使得方程有解, 则 \(A - \lambda E\) 行列式为 0. 由此可得

\[ \begin{vmatrix} 32 - \lambda& 0\\ 0& 18 - \lambda \end{vmatrix} = (32 - \lambda)(18 - \lambda) = 0 \]

可得

\[ \lambda_1 = 32, \lambda_2 = 18 \]

所以矩阵 \(A\) 的 2 范数是 \(\left \| A \right \|_{2} = 32\)

4. 矩阵的 F 范数

Frobenius 范数也叫 \(l_2\) 范数, 是对矩阵元素绝对值的平方和再开平方, 公式如下

在 \(m \times n\) 矩阵中则有

\[ \left \| A \right \|_F \overset{def}{=} \left ( \sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^2 \right )^{1/2} \]

举个例子, 现有矩阵 \(A\)

\[ A = \begin{bmatrix} 1& -2\\ 2& 4\\ 3& -6 \end{bmatrix} \]

那么就有

\[ \begin{aligned} \left \| A \right \|_F &= \sqrt{|1|^2 + |-2|^2 + |2|^2 + |4|^2 + |3|^2 + |-6|^2} \\ &= \sqrt{1 + 4 + 4 + 16 + 9 + 36} \\ &= \sqrt{70} \end{aligned} \]

矩阵 \(A\) 的 F 范数就为 \(\sqrt{70}\)

5. 矩阵的无穷范数

矩阵的无穷范数也叫行和范数, 顾名思义就是矩阵中每行求绝对值的和, 然后这些进行比较选出最大的那个和.

在 \(m \times n\) 矩阵中则有

\[ \left \| A \right \|_{\infty} = \left \| A \right \|_{row} = \underset{1 \le i \le m}{\mathrm{max}} \left \{ \sum_{j=1}^{n} |a_{ij}|\right \} \]

现有这样一个矩阵

\[ A = \begin{bmatrix} 1& 2& 2& 2\\ 2& 4& 6& 8\\ 3& 6& 6& 10 \end{bmatrix} \]

第一行求和结果为 : \(|1| + |2| + |2| + |2| = 7\)

第二行求和结果为 : \(|2| + |4| + |6| + |8| = 20\)

第三行求和结果为 : \(|3| + |6| + |6| + |10|= 25\)

取最大的 25, 所以矩阵 \(A\) 的无穷范数是 \(\left \| A \right \|_{\infty} = 25\)

二、向量相关问题

1. 向量的范数

向量的范数是用来刻画向量大小的一种度量, 可以想象成距离.

通过范数可以定义距离, 而通过距离可以讨论极限和收敛的问题. 比如说 :

\[ \lim_{n \to \infty} S_n = S \Leftrightarrow \lim_{n \to \infty} d(S_n,S) = 0 \]

就将抽象空间中的极限问题转化为向量空间中的极限问题

同时研究线性方程组近似解的误差估计和迭代法的收敛性, 也需要引入范数进行度量

2. 向量的 1 范数

向量的 1 范数为绝对值之和, 公式如下

\[ \left \| x \right \|_1 \overset{def}{=} \left | \sum_{i=1}^mx_i \right | = |x_1| + |x_2| + \dots + |x_m| \tag{3} \]

这也叫和范数或者 \(l_1\) 范数.

例如向量 \(x = [1,2,-2]^{\mathrm{T}}\) 的 1 范数为

\[ \left \| x \right \|_1 = |1| + |2| + |-2| = 5 \]

用作两点间的曼哈顿距离公式如下:

\[ \left \| x - y \right \|_1 \overset{def}{=} \left | \sum_{i=1}^{m}x_i-y_i \right | = |x_1-y_1| + |x_2-y_2| + \dots + |x_m-y_m| \tag{4} \]

例如向量 \(x = [1,2,-2]^{\mathrm{T}}\) 和向量 \(y = [3,2,5]^{\mathrm{T}}\)

\[ \left \| x - y \right \|_1 = |1-3| + |2-2| + |-2-5| = 9 \]

3. 向量的 2 范数

向量的 2 范数为通常意义上的模, 公式如下

\[ \left \| x \right \|_2 = (|x_1|^2 + |x_2|^2 + \dots + |x_m|^2)^{1/2} \tag{5} \]

这一范数常称 \(\mathrm{Euclidean}\) (欧几里得) 范数, 有时也称 \(\mathrm{Frobenius}\) 范数.

例如向量 \(x = [1,2,-2]^{\mathrm{T}}\) 的 2 范数为

\[ \left \| x \right \|_2 = \sqrt{|1|^2 + |2|^2 + |-2|^2} = \sqrt{1+4+4} = 3 \]

两个向量之间的该范数就是求欧几里得距离, 简而言之就是求两点间的空间距离.

\[ \left \| x - y \right \|_2 = (|x_1-y_1|^2 + |x_2-y_2|^2 + \dots + |x_m-y_m|^2)^{1/2} \]

例如向量 \(x = [1,2,-2]^{\mathrm{T}}\) 和向量 \(y = [3,2,5]^{\mathrm{T}}\)

\[ \left \| x - y \right \|_2 = \sqrt{|1-3|^2 + |2-2|^2 + |-2-5|^2} = \sqrt{4+49} = \sqrt{53} \]

三、矩阵的迹

从定义来看, 矩阵的迹貌似没什么特别的. 就是方阵中主对角线各个元素之和, 公式如下

存在 \(n \times n\) 矩阵 \(A\), 其中元素用 \(a_{ij}\) 表示

\[ \mathrm{tr}(A) = \sum_{i=1}^{n} a_{ii} \]

例如有个矩阵 \(A\) 如下

\[ \begin{bmatrix} 3& -1& 4& 1\\ 5& 2& 3& 3\\ 2& -6& 7& -2\\ -6& -10& 3& 4 \end{bmatrix} \]

则 \(A\) 的迹为

\[ \mathrm{tr}(A) = 3 + 2 + 7 + 4 = 16 \]

而要说这个迹的意义是什么, 下面有段来自知乎 : 为什么会定义矩阵的迹？的回答

知道矩阵行列式可以表示平行四边形的面积或者平行六面体的体积.

那么迹可以理解为行列式的导数, 所以也就表示了在每个边沿自己的方向变化时, 该平行四边形的面积或者平行六面体的体积变化的大小.

这实际上和特征值非常相关, 迹是特征值的和, 行列式是特征值的积.

更多直观解释参见 : Geometric Interpretation of Trace

机器学习

#矩阵 #秩 #范数 #向量 #迹

新生任务-3 上一篇

新生任务-1 下一篇