矩阵分析与应用-1.2-向量空间_内积空间与线性映射
前言
本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.
线性空间是某一类事物在矩阵代数里的一个抽象的集合表示, 线性映射或线性变换则反映线性空间中元素间最基本的线性关系.
上面这句话出自书中第 14 页开头, 读下来第一感觉就是云里雾里, 毕竟出现了新的名称.
对于线性空间可以简单的把它理解为几何空间 (实际上不仅仅是几何空间这么简单), 例如一个 \(2 \times 1\) 的向量 \([x_0,y_0]^{\mathrm{T}}\) 可以想象为笛卡尔坐标系中的某个点. 同理, 一个 \(3 \times 1\) 的向量 \([x_0,y_0,z_0]^{\mathrm{T}}\) 可以想象为三维坐标系中的某个点. 以此就可以推广到 \(n\) 维空间.
除了我们能够想到的那些比较规则的坐标系外, 有些坐标系是在笛卡尔坐标系或者三维坐标系的基础上放缩和旋转得到. 线性变换就是要在这两个坐标系间变换, 简单一点就是同一个点在两个坐标系中不同的表示.
一、集合的基本概念
顾名思义, 集合就是一堆元素的集体表示. 常用表示方法是大括号如下所示:
\[ S=\left \{ a,b,c,d \right \} \]
要是 \(S\) 是满足某种性质 \(P(x)\) 的元素 \(x\) 的集合, 则记为 \(S=\left \{ x: P(x) \right \}\).
有些常见的数学符号需要记忆一下.
\(\forall \qquad \qquad\) 表示 "对所有..."
\(x \in A \qquad\) 读作 " \(x\) 属于集合 \(A\) ", 意味 \(x\) 是集合 \(A\) 的一个元素.
\(x \notin A \qquad\) 表示 \(x\) 不是集合 \(A\) 的元素.
\(\ni \qquad \qquad\) 代表 "使得"
\(\exists \qquad \qquad\) 意味 "存在"
\(A \Rightarrow B \ \ \quad\) 表示 "若有条件 \(A\), 则有结果 \(B\) " 或 "\(A\) 意味着\(B\)"
例如, "在集合 \(V\) 中存在一个零元素 \(\theta\)", 使得加法 \(x + \theta = x = \theta + x\) 对于 \(V\) 中的所有元素 \(x\) 均成立" 这段描述用以上符号可表示为:
\[ \exists \ \theta \in V \ni x + \theta = x = \theta + x, \quad \forall \ x \in V \]
对集合自然也有一系列操作:
\(A \subseteq B\) 读作 "集合 \(A\) 包含于集合 \(B\)", 意味着 \(A\) 的每一个元素都是 \(B\) 的元素.
\(A=B\) 读作 "集合 \(A\) 等于集合 \(B\)", 两个集合中的元素相同.
\(A \subset B\) 则称 \(A\) 是 \(B\) 的一个真子集. 表达式为 \(A \neq B\) 且 \(A \subseteq B\).
\(A\) 和 \(B\) 的并集记作 \(A \cup B\), 式子得到所有在集合 \(A \ B\) 的元素(无重复).
\(A\) 和 \(B\) 的交集记作 \(A \cap B\), 式子得到同时存在于集合 \(A\) 和 集合 \(B\) 中的元素.
符号 \(Z=A+B\) 表示 \(A\) 和 \(B\) 的和集, 定义为 \[ Z=A+B=\left \{ z=x+y \in Z : x \in A, y \in B \right \} \]
符号 \(X=A-B\) 表示 \(A\) 和 \(B\) 的差集, 定义为 \[ X=A-B=\left \{ x \in X : x \in A, 但 \ x \notin B \right \} \]
子集合 \(A\) 在集合 \(X\) 中的补集定义为 \[ A^c = X - A = \left \{ x \in X : x \notin A \right \} \]
若 \(X\) 和 \(Y\) 为集合, 且 \(x \in X\) 和 \(y \in Y\), 则所有有序对\((x,y)\) 的集合记为 \(X \times Y\), 称为集合 \(X\) 和 \(Y\) 的笛卡尔积. \[ X \times Y = \left \{ (x,y) : x \in X, y \in Y \right \} \]
二、向量空间
1. 运算规则和定理
以向量为元素的集合 \(V\) 称为向量空间.
那么之前所说可以将二维平面想象为一个向量空间, 就是因为二维空间是由无数个向量组合而成.
这一小节归根到底就是对向量的运算法则做出阐释. 其中向量集合 \(V\) 中存在向量 \(x,y,\omega\), 标量域 \(S\) 中有 \(a_1,a_2\) 两个标量.
- 闭合性
- 若 \(x \in V\) 和 \(y \in V\), 则 \(x+y \in V\), 即 \(V\) 在加法下是闭合的. 这个也叫加法的闭合性.
- 若 \(a_1\) 是一个标量, \(y \in V\), 则 \(a_1y \in V\), 即 \(V\) 在标量乘法下是闭合的. 这个也叫标量乘法的闭合性.
- 加法公理
- \(x + y = y + x \quad \forall x,y \in V\)
- \(x + (y + \omega) = (x + y) + \omega \quad \forall x,y,\omega \in V\)
- \(\exists \ 0 \in V, \exists \ y \in V\) 恒有 \(y + 0 = y\)
- \(y \in V, \exists \ -y \in V \Rightarrow y + (-y) = 0 = (-y) + y\)
- 标量乘法公理
- \(a(by) = (ab)y\) 对所有向量 \(y\) 和所有标量 \(a,b\) 成立.
- \(a(x+y) = ax + ay\) 对所有向量 \(x,y \in V\) 和标量 \(a\) 成立.
- \((a+b)y = ay + by\) 对所有向量 \(y\) 和所有标量 \(a,b\) 成立.
- \(1y = y\) 对所有向量 \(y\) 成立.
故, 有定理: 如果 \(V\) 是一个向量空间, 则
- 零向量 \(0\) 是唯一的.
- 对每一个向量 \(y\), 加法的逆运算 \(-y\) 是唯一的.
- 对每一个向量 \(y\), 恒有 \(0y = 0\).
- 对每一个标量 \(a\), 恒有 \(a0 = 0\).
- 若 \(ay=0\), 则 \(a=0\) 或者 \(y=0\).
- \((-1)y=-y\)
2. \(R^n\)和\(C^n\)
\(R^c\) 指的是对一个正整数 \(n\) 有一个有序实数 \(n\) 元组 \([x_1,x_2,\dots,x_n]\), 其中每一个元素称为向量 (\(n \times 1\) 大小). 当 \(n\) 为 1 时, \(R\) 的元素就变成了标量.
若对 \(R^n\) 定义两个向量加法和一个标量与一个向量的乘法, 则称 \(R^n\) 为 \(n\) 阶实向量空间. 同理可得复向量空间 \(C^n\).
子空间定义: 令 \(V\) 和 \(W\) 是两个向量空间, 若 \(W\) 是 \(V\) 中一个非空的子集合, 则称子集合 \(W\) 是 \(V\) 的一个子空间.
子空间定理: \(R^n\) 的子集合 \(W\) 是 \(R^n\) 的子空间需要满足以下三个条件.
\(x,y \in W \Rightarrow (x+y) \in W\).
\(x \in W\) 且 \(a\) 为标量时, 所得 \(ax \in W\).
零向量 \(0\) 是 \(W\) 的元素.
简而言之就是向量进行加法或者与标量相乘得到的向量还在集合内并且包含了零向量, 这样就可以说子集合谁谁是谁的子空间. 像是在整个二维坐标系中取了一个有边界的图形(需要包含坐标零点), 这个图形是属于二维坐标系的一部分.
接下来就是以此为基础出现的一些定义和定理了:
若 \(A\) 和 \(B\) 是向量空间 \(V\) 的两个子空间, 则 \[ A+B=\left \{ x+y: x \in A,y \in B\right \} \]
称为子空间 \(A\) 和 \(B\) 的和, 子空间 \(A\) 和 \(B\) 的交为: \[ A \cap B = \left \{ x \in V : x \in A \ 且 \ x \in B \right \} \]
若 \(A\) 和 \(B\) 是向量空间 \(V\) 的两个子空间, 满足 \(V=A+B\) 和 \(A \cap B = \left \{ 0 \right \}\), 则称 \(V\) 是子空间 \(A\) 和 \(B\) 的直接求和, 记作 \(V=A \oplus B\) 好像就是互补的.
若 \(A\) 和 \(B\) 是向量空间 \(V\) 的向量子空间, 则 \(V=A+B\) 和 \(A \cap B\) 也是 \(V\) 的向量子空间. 想象一下二维坐标系就好理解了.
三、实内积空间
1. 内积
对于实向量空间中两个向量之间求乘积(简称内积)
就一个非常简单的公式, 对于实 \(n\) 阶向量空间 \(R^n\) 定义向量 \(x = [x_1,x_2,\dots,x_n]^{\mathrm{T}} , y = [y_1,y_2,\dots,y_n]^{\mathrm{T}}\) 之间的内积为典范内积:
\[ \left \langle x,y \right \rangle = \sum_{i=1}^{n}x_iy_i \]
则称 \(R^n\) 为 \(n\) 阶 \(Euclidean\) 空间或者 \(Euclidean n\) 空间.
更有意思的是令 \(x(t),y(t)\) 是 \(R\) 的两个连续函数, 并且 \(t\) 的定义域为 \([a,b]\), 则 \(x(t)\) 和 \(y(t)\) 之间的内积定义为
\[ \left \langle x(t),y(t) \right \rangle \overset{def}{=} \int_{a}^{b}x(t)y(t)dt \]
不能拓展到高维, 所以就不是 \(Euclidean\) 空间.
2. 范数
定义: 若 \(R^n\) 是一个实内积空间, 并且 \(x \in E^n\), 则 \(x\) 的范数 (或"长度") 记作 \(\Vert x \Vert\) 并定义为: \[ \Vert x \Vert = \left \langle x,x \right \rangle ^{1/2} \]
向量 \(x\) 和 \(y\) 之间的距离定义为: \[ d = \Vert x - y \Vert = \left \langle x-y,x-y \right \rangle ^{1/2} \]
特别地, 对于 \(Euclidean n\) 空间, 向量范数取: \[ \Vert x \Vert_2 = \sqrt{(a_1)^2+(a_2)^2+\dots+(a_n)^2} \]
并称为向量 \(x\) 的 \(Euclidean\) 长度, 向量距离取: \[ \Vert x - y \Vert_2 = \sqrt{(a_1-b_1)^2+(a_2-b_2)^2+\dots+(a_n-b_n)^2} \]
并称为向量 \(x\) 和 \(y\) 之间的 \(Euclidean\) 距离.
实内积空间的范数具有的一般性质:
\(\Vert 0 \Vert = 0\), 并且 \(\Vert x \Vert > 0, \ \forall x \neq 0\)
\(\Vert cx \Vert = |c|\Vert x \Vert, \ \forall x(向量),c(标量)\)
范数服从极化恒等式: \[ \left \langle x,y \right \rangle = \frac{1}{4}(\Vert x+y \Vert^2 - \Vert x-y \Vert^2), \ \forall x,y \]
范数满足平行四边形法则: \[ \Vert x+y \Vert^2 + \Vert x-y \Vert^2 = 2\Vert x \Vert^2 + 2\Vert y \Vert^2, \ \forall x,y \]
范数服从 \(Cauchy-Schwartz\) 不等式 (柯西不等式), \(|\left \langle x,y \right \rangle| = \Vert x \Vert \Vert y \Vert\) 当且仅当 \(y=cx\) 其中 \(c\) 为某个非零常数. \[ |\left \langle x,y \right \rangle| \le \Vert x \Vert \Vert y \Vert \]
范数满足三角不等式 \[ \Vert x+y \Vert \le \Vert x \Vert + \Vert y \Vert, \ \forall x,y \]
四、复内积空间
复内积空间和实内积空间不同的地方就在于向量是复向量. 所以此时公式就要转变:
定义向量 \(x = [x_1,x_2,\dots,x_n]^{\mathrm{T}} , y = [y_1,y_2,\dots,y_n]^{\mathrm{T}}\)
\[ \left \langle x,y \right \rangle = x^{\mathrm{H}}y = \sum_{i=1}^{n}x_iy_i \]
复内积空间的范数具有的一般性质:
\(\Vert 0 \Vert = 0\), 并且 \(\Vert x \Vert > 0, \ \forall x \neq 0\)
\(\Vert cx \Vert = |c|\Vert x \Vert\), 其中 \(|c|\) 表示复数 \(c\) 的模
极化恒等式: \[ \left \langle x,y \right \rangle = \frac{1}{4}(\Vert x+y \Vert^2 - \Vert x-y \Vert^2 - j\Vert x+jy \Vert^2 + j\Vert x-jy \Vert^2), \ \forall x,y \]
平行四边形法则: \[ \Vert x+y \Vert^2 + \Vert x-y \Vert^2 = 2\Vert x \Vert^2 + 2\Vert y \Vert^2 \]
\(Cauchy-Schwartz\) 不等式 (柯西不等式), \(|\left \langle x,y \right \rangle| = \Vert x \Vert \Vert y \Vert\) 成立, 当且仅当 \(y=cx\) 其中 \(c\) 为某个复数.
三角不等式 \[ \Vert x+y \Vert \le \Vert x \Vert + \Vert y \Vert \]
五、线性映射
回到文章最开头提出的那个线性变换, 在有了子空间的基础上就能够更好的解释.
那么线性映射是个什么情况呢?就是将一个子空间的向量转换为另一个子空间向量的操作. 这个步骤也牵涉到了矩阵乘法的核心.
令 \(V\) 和 \(W\) 分别是 \(R^m\) 和 \(R^n\) 的子空间, 并且 \(T: V \rightarrow W\) 是一映射. 称 \(T\) 为线性映射或线性变换, 若对于 \(v \in V, \omega \in W\) 和所有标量 \(c\), 映射 \(T\) 满足线性关系式:
\[ T(v + \omega) = T(v) + T(\omega) \]
和
\[ T(cv) = cT(v) \]
是否是线性变换就看下列式子是否成立: \[ T(c_1u_1+c_2u_2+\dots+c_pu_p) = c_1T(u_1) + c_2T(u_2) + \dots+ c_pT(u_p) \]
当线性映射或线性变换 \(T\) 是一个矩阵的时候体现的就是矩阵乘法的核心. 这个核心就是对右乘矩阵的所有列向量进行线性映射.
最后一个定理, 令 \(V\) 和 \(W\) 是两个向量空间, \(T: V \rightarrow W\) 为一线性变换则有:
若 \(M\) 是 \(V\) 的线性子空间, 则 \(T(M)\) 是 \(W\) 的线性子空间.
若 \(N\) 是 \(W\) 的线性子空间, 则线性反变换 \(T^{-1}(N)\) 是 \(V\) 的线性子空间.