矩阵分析与应用-1.3_随机向量
前言
本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.
这部分将线代和概率两者之间结合起来, 使用矩阵来解决概率方面的问题.
在概率论中, 用符号 \(\omega(\omega \in \Omega)\) 代表基本事件, \(A(\in \mathcal{F})\) 为事件, \(\mathcal{F}\) 是事件的全部, \(P(A)\) 称为事件的概率.
在概率空间 \((\Omega,\mathcal{F},P)\). 用 \(L_p=L_p(\Omega,\mathcal{F},P)\) 表示随机变量 \(\xi = \xi(\omega)\) 的空间. 其中 \(E \left \{ |\xi|^pdp < \infty \right \}\), 称 \(L_p(p>1)\) 为 \(Banach\) 空间.
在 \(Banach\) 空间中, 有用的是空间 \(L_2 = L_2(\Omega,\mathcal{F},P)\). 这种空间就是具有有限二阶矩 \(E\left \{ |\xi|^2 \right \} < \infty\) 的随机变量的 \(Hilbert\) 空间, 简称为 \(L_2\) 空间. 由此衍生出 \(L_2\) 理论用于研究向量空间中一阶和二阶统计性质, 解决一维和二维的问题.
一、概率密度函数
描述随机向量的统计函数有累计分布函数, 概率密度函数, 均值函数, 协方差函数.
先解决累计分布函数和概率密度函数.
1. 实随机变量的概率密度函数
现在有一个含有 \(m\) 个随机变量的实值向量
\[ x(\xi) = [x_1(\xi),x_2(\xi),\dots,x_m(\xi)]^{\mathrm{T}} \]
称为 \(m \times 1\) 实随机向量, 或者简称随机向量(当维数无关紧要时). 式子中的 \(\xi\) 表示样本点, 例如它可以是时间 \(t\) , 角频率 \(\omega\) 或位置 \(s\) 等.
一个随机向量所有元素的联合累积分布函数常用符号 \(F_x(x_1,x_2,\dots,x_m)\) 表示, 联合概率密度函数常用 \(f_x(x_1,x_2,\dots,x_m)\) 表示. 令 \(F(x) = F_x(x_1,x_2,\dots,x_m)\) 和 \(f(x) = f_x(x_1,x_2,\dots,x_m)\).
一个随机向量由它的2联合累积分布函数或联合概率密度函数完全描述, 一组概率的集合函数
\[ F(x) \overset{def}{=} P \left \{ \xi : x_1(\xi) \le x_1,x_2(\xi) \le x_2,\dots,x_m(\xi) \le x_m\right \} \]
定义为向量 \(x_{\xi}\) 的联合累积分布函数, 简称分布函数, 式中 \(x_i\) 为实数.
随机向量 \(x(\xi)\) 的(联合)概率密度函数定义为:
\[ \begin{aligned} f(x) & \overset{def}{=} \lim_{\Delta x_1 \to 0,\dots,\Delta x_m \to 0} \frac{P \left \{ \xi : x_1 < x_1(\xi) \le x_1 + \Delta x_1,\dots,x_m < x_m(\xi) \le x_m + \Delta x_m \right \}}{\Delta x_1 \dots \Delta x_m}\\ &= \frac{\partial^m}{\partial x_1 \partial x_2 \dots \partial x_m}F_x(x_1,x_2,\dots,x_m) \end{aligned} \]
思考: 这个式子看起来非常的奇怪, 怪就怪在有了多个变量之后分母变得奇怪, 第一个等式后的分母中我也不知道为什么会有这些数相乘. 也可以这样想, 各个变量之间相互独立就可以拆开为乘积的形式, 然后能理解了.
\[ \frac{P \left \{ \xi : x_1 < x_1(\xi) \le x_1 + \Delta x_1 \right \}}{\Delta x_1} \dots \frac{P \left \{ \xi : x_m < x_m(\xi) \le x_m + \Delta x_1 \right \}}{\Delta x_m} \]
联合概率密度函数的 \(m - 1\) 重积分函数
\[ f(x_i) \overset{def}{=} \int_{-\infty}^{\infty} \dots \int_{-\infty}^{\infty} f_x(x_1,x_2,\dots,x_m)dx_1 \dots dx_{i-1}dx_{i+1} \dots dx_m \]
称为随机变量 \(x_i\) 的边缘概率密度函数.
最后就得到式子
\[ F(x) = \int_{-\infty}^{x_1} \dots \int_{-\infty}^{x_m} f_v(v_1,v_2,\dots,v_m)dv_1 \dots dv_m \]
随机向量 \(x(\xi)\) 的联合分布函数等于其联合概率密度函数的积分.
由此有个定义, 这个定义就是之前思考那个式子想出的东西.
随机变量 \(x_1(\xi), x_2(\xi) , \dots , x_m(\xi)\) 称为 (联合) 独立, 若对于 \(m\) 个事件 \(\left \{ x_1(\xi) \le x_1 \right \},\left \{ x_2(\xi) \le x_2 \right \},\dots,\left \{ x_m(\xi) \le x_m \right \}\), 有概率关系
\[ P \left \{x_1(\xi) \le x_1,\dots,x_m(\xi) \le x_m\right \} = P\left \{x_1(\xi) \le x_1 \right \} \dots P\left \{x_m(\xi) \le x_m \right \} \]
成立. 然后可以得出
\[ F(x) = F_x(x-1,x_2,\dots,x_m) = F_{x_1}(x_1)F_{x_2}(x_2) \dots F_{x_m}(x_m) \]
或者
\[ f(x) = f_x(x-1,x_2,\dots,x_m) = f_{x_1}(x_1)f_{x_2}(x_2) \dots f_{x_m}(x_m) \]
定义: \(m\) 个随机变量的联合分布函数 (或联合概率密度函数) 等于各个随机变量的边缘分布函数 (或边缘概率密度函数) 之积, 则这 \(m\) 个随机变量是联合独立的, 被称为统计独立.
2. 复随机变量的概率密度函数
处理复数就是要额外处理它的虚部, 首先一个复随机变量定义为 \(x(\xi) = x_R(\xi) + jx_I(\xi)\), 其中 \(x_R(\xi)\) 和 \(x_I(\xi)\) 分别为实值随机变量.
那么复随机向量可以表示为
\[ x(\xi) = x_R(\xi) + jx_I(\xi) = \begin{bmatrix} x_{R1}(\xi) \\ x_{R2}(\xi) \\ \vdots \\ x_{Rm}(\xi) \end{bmatrix} + j\begin{bmatrix} x_{I1}(\xi) \\ x_{I2}(\xi) \\ \vdots \\ x_{Im}(\xi) \end{bmatrix} \]
复随机向量的累积分布函数定义为
\[ F(x) \overset{def}{=} P \left \{ x(\xi) \le x \right \} \overset{def}{=} P \left \{ x_R(\xi) \le x_R, x_I(\xi) \le x_I \right \} \]
无非就是对实部和虚部分别处理.
概率密度函数定义为
\[ f(x) \overset{def}{=} \frac{\partial^{2m}F(x)}{\partial x_{R1} \partial x_{I1} \dots \partial x_{Rm} \partial x_{Im}} \]
那么累积分布函数是概率密度函数关于所有实部和虚部的 \(2m\) 重积分.
\[ \begin{aligned} F(x) & = F_x(x_1,x_2,\dots,x_m)\\ &= \int_{-\infty}^{x_{R1}} \int_{-\infty}^{x_{I1}} \dots \int_{-\infty}^{x_{Rm}} \int_{-\infty}^{x_{Im}} f(v_1,\dots,v_m)dv_{R1}dv_{I1} \dots dv_{Rm}dv_{Im} \\ &= \int_{-\infty}^{x} f(v)dv \end{aligned} \]
特别地:
\[ \int_{-\infty}^{\infty} f(x)dx = 1 \]
二、随机向量的统计描述
分布函数和概率函数常常不可知, 但是随机向量可以很容易在一阶和二阶统计量上使用.
1. 均值向量
随机向量的最重要统计运算为数学期望, 考察 \(m \times 1\) 随机向量 \(x(\xi) = [x_1(\xi),x_2(\xi),\dots,x_m(\xi)]^{\mathrm{T}}\). 令随机变量 \(x_i(\xi)\) 的均值 \(E \left \{ x_i(\xi)\right \} = \mu_i\), 则随机向量的数学期望称为均值向量, 记作 \(\mu_x\) 定义为
\[ \mu_x = E \left \{ x(\xi)\right \} = \begin{bmatrix} E \left \{ x_1(\xi)\right \} \\ E \left \{ x_2(\xi)\right \} \\ \vdots \\ E \left \{ x_m(\xi)\right \} \end{bmatrix} = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_m \end{bmatrix} \]
式子中的数学期望为
\[ E \left \{ x(\xi)\right \} \overset{def}{=} \int_{-\infty}^{\infty}xf(x)dx \]
可以看出均值向量的元素是随机向量各个元素的均值.
2. 相关矩阵与协方差矩阵
知乎上面有篇文章对这部分有解释, 链接:https://zhuanlan.zhihu.com/p/447221519.
均值向量是随机向量的一阶矩, 描述随机向量的元素围绕其均值的散布情况. 但是随机向量二阶矩为矩阵, 描述随机向量分布的散布情况.
自相关矩阵定义为样本向量与自身的外积的数学期望, 其实就是自协方差矩阵不减去均值向量. 随机向量的自相关矩阵定义为
\[ R_x \overset{def}{=} E \left \{ x(\xi) x^{\mathrm{H}}(\xi)\right \} \begin{bmatrix} r_{11}& r_{12}& \cdots& r_{1m}\\ r_{21}& r_{22}& \cdots& r_{2m}\\ \vdots& \vdots& & \vdots\\ r_{m1}& r_{m2}& \cdots& r_{mm} \end{bmatrix} \]
式中, \(r_{ii}, i = 1,2,\dots,m\) 表示随机变量 \(x_i(\xi)\) 的自相关函数, 定义为
\[ r_{ii} \overset{def}{=} E \left \{ |x_i(\xi)|^2 \right \}, \quad i = 1,2,\dots,m \]
而 \(r_{ij}\) 表示随机变量 \(x_i(\xi)\) 和 \(x_j(\xi)\) 之间的互相关函数, 定义为
\[ r_{ij} \overset{def}{=} E \left \{ x_i(\xi) x_j^*(\xi) \right \}, \quad i,j = 1,2,\dots,m, i \neq j \]
可以得出自相关矩阵是共轭对称的, 即为 \(Hermitian\) 矩阵.
随机变量 \(x(\xi)\) 的自协方差矩阵定义为
\[ C_x \overset{def}{=} E \left \{ [x(\xi) - \mu_x][x(\xi) - \mu_x]^{\mathrm{H}} \right \} = \begin{bmatrix} c_{11}& c_{12}& \cdots& c_{1m}\\ c_{21}& c_{22}& \cdots& c_{2m}\\ \vdots& \vdots& & \vdots\\ c_{m1}& c_{m2}& \cdots& c_{mm} \end{bmatrix} \]
主对角线上的元素
\[ c_{ii} \overset{def}{=} E \left \{ |x(\xi) - \mu_x|^2\right \}, \quad i = 1,2,\dots,m \]
表示随机变量 \(x_i(\xi)\) 的方差 \(\sigma_i^2\), 其他非对角线元素
\[ c_ij \overset{def}{=} E \left \{ [x_i(\xi) - \mu_i][x_j(\xi) - \mu_j]^* \right \} = E \left \{ x_i(\xi)x_j^*(\xi) - u_iu_j^* = c_{ji}^* \right \} \]
表示随机变量 \(x_i(\xi)\) 和 \(x_j(\xi)\) 之间的协方差. 自协方差矩阵也是 \(Hermitian\) 矩阵.
自相关矩阵和自协方差矩阵之间存在下列关系
\[ C_x = R_x = \mu_x\mu_x^{\mathrm{H}} \]
推广自相关矩阵和自协方差矩阵, 则有随机向量 \(x(\xi)\) 和 \(y(\xi)\) 的互相关矩阵
\[ R_{xy} \overset{def}{=} E \left \{ x(\xi)y^{\mathrm{H}}(\xi)\right \} = \begin{bmatrix} r_{x_1,y_1}& r_{x_1,y_2}& \cdots& r_{x_1,y_m}\\ r_{x_2,y_1}& r_{x_2,y_2}& \cdots& r_{x_2,y_m}\\ \vdots& \vdots& \vdots& \vdots\\ r_{x_m,y_1}& r_{x_m,y_2}& \cdots& r_{x_m,y_m} \end{bmatrix} \]
和互协方差矩阵
\[ \begin{aligned} C_{xy} &\overset{def}{=} E \left \{[x(\xi)-\mu_x][y(\xi)-\mu_y]^{\mathrm{H}}\right \} \\ &= R_{xy} \quad \mu_x \mu_y^{\mathrm{H}} \\ &= \begin{bmatrix} c_{x_1,y_1}& c_{x_1,y_2}& \cdots& c_{x_1,y_m}\\ c_{x_2,y_1}& c_{x_2,y_2}& \cdots& c_{x_2,y_m}\\ \vdots& \vdots& \vdots& \vdots\\ c_{x_m,y_1}& c_{x_m,y_2}& \cdots& c_{x_m,y_m} \end{bmatrix} \end{aligned} \]
3. 两个随机向量统计不相关与正交
一句话, 当采样点 \(\xi\) 取一系列值会产生多个随机信号. 随机信号减去均值得到随机变化部分. 这一部分共性相乘会增强, 非共性相乘会在期望平均运算后抵消. 而互协方差函数就能完成这一步, 所以互协方差函数越大, 产生的两个随机信号的相关程度越强; 反之, 相关程度越弱.
两个随机变量 \(x(\xi)\) 和 \(y(\xi)\) 之间的相关系数定义为
\[ \rho_{xy} \overset{def}{=} \frac{c_{xy}}{\sqrt{E\left \{ |x(\xi)|^2\right\} E\left \{ |y(\xi)|^2\right\}}} = \frac{c_{xy}}{\sigma_x \sigma_y} \]
\(c_{xy}\) 是随机变量 \(x(\xi)\) 和 \(y(\xi)\) 之间的互协方差, 而 \(\sigma_x^2\) \(\sigma_y^2\) 分布是 \(x(\xi)\) 和 \(y(\xi)\) 的方差. 由相对系数的定义公式使用 \(Cauchy-Schwartz\) 不等式可得
\[ 0 \le |\rho_{xy}| \le 1 \]
相关系数 \(\rho_{xy}\) 给出两个随机变量 \(x(\xi)\) 和 \(y(\xi)\) 之间的相似程度. \(\rho_{xy}\) 越靠近 1 则相似度越大, 越靠近 0 则相似度越小.
当 \(\rho_{xy}\) 等于 0 时说明两个随机变量 \(x(\xi)\) 和 \(y(\xi)\) 统计不相关.
得出定义:
若两个随机变量 \(x(\xi)\) 和 \(y(\xi)\)的互协方差矩阵等于零矩阵, 即 \(C_{xy} = O\). 则称两个随机变量 \(x(\xi)\) 和 \(y(\xi)\) 统计不相关.
若它们的互相关等于零, 即
\[ r_{xy} = E \left \{ x(\xi)y^*(\xi) \right \} = 0 \]
则将这两个随机变量 \(x(\xi)\) 和 \(y(\xi)\) 称为正交.
若两个随机向量 \(\mathbf{x}(\xi)\) 和 \(\mathbf{y}(\xi)\) 的互相关矩阵等于零矩阵, 即 \(R_{xy} = O\), 则称这两个随机向量正交.
4. 随机向量的线性变换
令 \(A\) 为一复常数矩阵, 则 \[ y(\xi) = Ax(\xi) \]
是复正态随机向量 \(x(\xi) \sim CN(\mu_x, \Gamma_x)\) 的线性变换. 线性变换 \(y(\xi) = Ax(\xi)\) 仍然为正态随机向量, 记作 \(y(x) \sim CN(\mu_y, \Gamma_y)\)
其均值向量为 \[ \mu_y = E \left\{ y(\xi) \right\} = E \left\{ Ax(\xi) \right\} = AE \left\{ Ax(\xi) \right\} = A\mu_x \]
自相关矩阵为 \[ R_y = E\left\{ y(\xi)y^{\mathrm{H}}(\xi) \right\} = E \left\{ Ax(\xi)x^{\mathrm{H}}(\xi)A^{\mathrm{H}} \right\} = AE\left\{ x(\xi)x^{\mathrm{H}}(\xi) \right\}A^{\mathrm{H}} = AR_xA^{\mathrm{H}} \]
自协方差矩阵为 \[ C_y = AC_xA^{\mathrm{H}} \]
随机向量 \(x(\xi)\) 与线性变换 \(y(\xi) = Ax(\xi)\) 的互相关矩阵为 \[ \begin{aligned} R_{xy} &= E\left\{ x(\xi)y^{\mathrm{H}}(\xi) \right\} = E\left\{ x(\xi)x^{\mathrm{H}}(\xi)A^{\mathrm{H}} \right\} \\ &= E\left\{ x(\xi)x^{\mathrm{H}}(\xi) \right\}A^{\mathrm{H}} = R_xA^{\mathrm{H}} \end{aligned} \]
于是 \[ R_{yx} = R_{xy}^{\mathrm{H}} = (R_xA^{\mathrm{H}})^{\mathrm{H}} = AR_x \]
同理可得随机向量 \(x(\xi)\) 与其线性变换 \(y(\xi) = Ax(\xi)\) 之间的互协方差矩阵 \[ C_{xy} = C_xA^{\mathrm{H}}, \quad C_{yx} = AC_x \]
三、正态随机向量
若随机向量 \(x(\xi) = [x_1(\xi),x_2(\xi),\dots,x_m(\xi)]^{\mathrm{T}}\) 中各个分量为联合正态分布的随机变量则称 \(x(\xi)\) 为正态随机向量.
一个均值向量为 \(\mu_x\) 和协方差矩阵为 \(\Gamma_x\) 的实正态随机向量记作 \(x \sim N(\mu_x,\Gamma_x)\), 其概率密度为
\[ f(x) = \frac{1}{(2\pi)^{m/2}|\Gamma_x|^{1/2}}exp [-\frac{1}{2}(x-\mu_x)^{\mathrm{T}}\Gamma_x^{-1}(x-\mu_x) ] \]
其中 \(|\Gamma_x|\) 表示矩阵 \(\Gamma_x\) 的行列式, 指数项 \((x - \mu_x)^{\mathrm{T}}\Gamma_x^{-1}(x-\mu_x)\) 是 \(x_i\) 的正定二次型函数, 也可以写作
\[ (x - \mu_x)^{\mathrm{T}}\Gamma_x^{-1}(x-\mu_x) = \sum_{i=1}^{m}\sum_{j=1}^{m}\Gamma_x^{-1}(i,j)(x_i - \mu_i)(x_j - \mu_j) \]
其中 \(\Gamma_x^{-1}(i,j)\) 表示逆矩阵 \(\Gamma_x^{-1}\) 的 \((i,j)\) 元素, \(\mu_i = E \left \{ x_i\right \}\) 是随机变量 \(x_i\) 的均值.
实正态随机向量的特征函数为
\[ \Phi_x(\omega) = exp(j\omega^{\mathrm{T}}\mu_x = \frac{1}{2}\omega^{\mathrm{T}}\Gamma_x\omega) \]
式中, \(\omega = [\omega_1,\dots,\omega_m]^{\mathrm{T}}\)
对复正态随机向量, 令 \(x = [x_1,\dots,x_m]^{\mathrm{T}}\), 其每个元素服从复正态分布, 即 \(x_i \sim CN(\mu_i.\sigma_i^2)\), 则 \(x\) 称为复正态随机向量, 记作 \(x \sim CN(\mu_x,\Gamma_x)\), 其中, \(\mu_x = [\mu_1,\dots,\mu_m]^{\mathrm{T}}\). 若 \(x_i = \mu_i + jv_i\), 并且实随机向量 \([\mu_1,v_1]^{\mathrm{T}},\dots,[\mu_m,v_m]^{\mathrm{T}}\) 统计独立, 则复随机正态向量 \(x\) 的概率密度函数为
\[ \begin{aligned} f(x) &= \prod_{i=1}^{m}f(x_i) = (\pi^m\prod_{i=1}^{m}\sigma_i^2)^{-1}exp(-\sum_{i=1}^{m}\frac{1}{\sigma_i^2}|x_i-\mu_i^2|) \\ &= \frac{1}{\pi^m|\Gamma_x|}exp[-(x-\mu_x)^{\mathrm{H}}\Gamma_x^{-1}(x-\mu_x)] \end{aligned} \]
式子中, \(\Gamma_x = diag(\sigma_1^2,\dots,\sigma_m^2)\), 复正态随机变量的特征函数由下式给出
\[ \Phi_x(\omega) = exp[j\mathrm{Re}(\omega^{\mathrm{H}}\mu_x) - \frac{1}{4}\omega^{\mathrm{H}}\Gamma_x\omega] \]
正态随机向量具有非常重要的几个性质
概率密度函数由均值向量和协方差矩阵完全描述.
若正态随机向量的各个分量相互统计不相关, 则它们也是统计独立的.
均值向量 \(\mu_x\) 和协方差矩阵 \(\Gamma_x\) 的正态随机向量 \(x\) 的线性变换 \(y(\xi) = Ax(\xi)\) 仍然是正态随机向量, 其概率密度函数为
实正态随机向量概率密度函数 \[ f(y) = \frac{1}{(2\pi)^{m/2}|\Gamma_y|^{1/2}}exp [-\frac{1}{2}(y-\mu_y)^{\mathrm{T}}\Gamma_y^{-1}(y-\mu_y) ] \]
复正态随机向量概率密度函数 \[ f(y) = \frac{1}{\pi^m|\Gamma_y|}exp[-(y-\mu_y)^{\mathrm{H}}\Gamma_y^{-1}(y-\mu_y)] \]