Revision | 信息科学中的概率统计(上)
基本概念
本节列举一些半吊子的公理化概率论内容。
定义 1($\sigma$-代数). 一个 $S$ 上的集合系 $\mathcal{F}\subset 2^S$ 若满足
- $S\in \mathcal{F}$;
- $A\in \mathcal{F} \Rightarrow \bar{A}\in \mathcal{F}$;
- $A_i\in \mathcal{F} \Rightarrow \cup_{i=1}^\infty A_i\in \mathcal{F}$。
则 $\mathcal{F}$ 称为一个 $\sigma$-代数。
直觉上,$S$ 可以用于刻画某一实验的全部可能结果(样本空间),而 $\mathcal{F}$ 刻画了全体可以被赋予概率的样本空间的子集(事件)。
定义 2(测度、概率). 对于一个 $\mathcal{F}\rightarrow \mathbb{R}$ 的函数 $\mu$,若 $\mu$ 满足
- (非负性)$\forall A\in \mathcal{F}, \mu(A) \geq 0$;
- (可列可加性)对于任意一列两两不相交的 $A_i\in\mathcal{F}$,有 $\mu(\sqcup_{i=1}^\infty) = \sum_{i=1}^\infty \mu(A_i)$。
则 $\mu$ 称为 $\mathcal{F}$ 上的测度。
若 $\mu$ 额外满足 $\mu(S) = 1$(规范性),则 $\mu$ 称为 $\mathcal{F}$ 上的概率。
定义了以上资料之后,我们便可以用 $(S, \mathcal{F}, P)$ 来描述一个概率空间。
需要注意的是,有限可加性不能推出可列可加性。课件上和 wiki 上如下反例:令 $S = \mathbb{R}_{\geq 0}, P(A) = \lim\limits_{k\rightarrow \infty} \frac 1k \lambda(A \cap (0, k)), A_i = [i - 1, i)$,这里 $\lambda$ 应该是集合的勒贝格测度。显然有限可加性是成立的,但是 $0 = \sum_i P(A_i) \ne P(\sqcup_{i=1}^\infty A_i) = 1$。
我其实不是很懂这个反例是怎么 work 的。因为你这里实际上是想要证明一个 $\sigma$-代数上的非负集函数是有限可加的不一定是可列可加的,但是显然这里的 $P$ 甚至不是一个定义在 ${A_i}$ 生成的 $\sigma$-代数上的非负集函数。因为取 $A = \cup_{i=1}^\infty [2^{2i} - 2^{2i - 1} + 1, 2^{2i})$,这是一个 Borel 集,但在这个集合上面原来的极限不收敛。可能至少还需要证明这个极限收敛的范围是一个 $\pi$ 系。
如果想要从有限可加性推出可列可加性,可以进一步补充连续性。
命题 1. 设 $\mu$ 是 $\sigma$-代数 $\mathcal{F}$ 上的非负集函数,满足
- (有限可加性)对于任意互相不交的 $A_1, …, A_n\in \mathcal{F}$,都有 $\mu(\sqcup_{i=1}^n A_i) = \sum_{i=1}^n \mu(A_i)$;
- (连续性)对于任意一列单调的集合 $A_1, A_2, …$ 都有 $\mu(\lim_{i\rightarrow \infty} A_i) = \lim_{i\rightarrow \infty} \mu(A_i)$。
证明. 对于任意一列互相不交的 $A_1, A_2, …$,定义 $B_n = \cup_{i=1}^n B_i$。则有 $\mu(B_n) = \sum_{i=1}^n \mu(A_i)$ 成立。显然 $B_n$ 是一列单调的集合,有
$$
\sum_{i=1}^\infty \mu(A_i) = \lim_{n\rightarrow \infty} \mu(B_n) = \mu\left(\lim_{n\rightarrow \infty} B_n\right) = \mu\left(\bigsqcup_{i=1}^\infty A_i\right)
$$
定义 3(独立性). 假设 $A_1, …, A_n \in \mathcal{F}$ 是一族事件,若对于任意 ${1, …, n}$ 的大小为 $d$ 的子集 $\mathcal{I}$ 都有 $P(\cap_{i\in \mathcal{I}} A_i) = \prod_{i\in \mathcal{I}} P(A_i)$,则称 $A_1, …, A_n$ 是 $d$-wise 独立的。
若对于任意 ${1, …, n}$ 的子集 $\mathcal{I}$ 都有 $P(\cap_{i\in \mathcal{I}} A_i) = \prod_{i\in \mathcal{I}} P(A_i)$,则称 $A_1, …, A_n$ 是相互独立的。
这里特地分开定义了两类独立性,是因为我们想要强调相互独立和 $d$-wise 独立是不等价的。考虑如下反例:$S = {1, 2, 3, 4}, \mu(A) = |A| / 4$,则下面三个事件:$A = {1, 2}, B = {1, 3}, C = {1, 4}$ 两两独立,但不相互独立。
命题 2. $A_1, …, A_n$ 相互独立,则 $A_1, …, A_{n - 1}, \overline{A_n}$ 相互独立。
证明. 显然。
随机变量
一个集合 $S$ 上的随机变量可以被形式化为 $T\rightarrow S$ 的可测函数,其中 $T$ 是另一个样本空间,$S, T$ 分别配上 $\sigma$-代数 $\mathcal{F}, \mathcal{G}$,$(T, \mathcal{G}, P)$ 构成一个概率空间。可测函数意味着对于任意的 $A\in \mathcal{F}$ 都有 $f^{-1}(A)\in\mathcal{G}$,$\mathrm{Pr}[X\in A] = P(f^{-1}(A))$。
对于广义实数集 $\mathbb{R}\cup \{\infty, -\infty\}$ 上的随机变量 $X$,定义其分布函数为
$$
F(x) = \mathrm{Pr}[X \leq x]
$$
这对于一切 $\mathbb{R}$ 上的随机变量,无论其连续与否,都是良定义的,因为 $(-\infty, x]$ 是 Borel 集。
定理 2.1. $X$ 的分布函数 $F(x)$ 满足
- $F(-\infty) = 0, F(\infty) = 1$;
- $F(x)$ 单调不降;
- $F(x)$ 右连续。
证明. 着重证明 $F(x)$ 右连续。这等价于取一列单调收敛于零的正数列 $x_1 > x_2 > \cdots > x_n > \cdots$,$\lim_{n\rightarrow 0} x_n = 0$,然后证明
$$
F(x) = \lim_{n\rightarrow \infty} F(x + x_n)
$$
对于任意的 $n \in \mathbb{N}$,都有
$$
\begin{aligned}
F(x + x_n) &= F(x) + \mathrm{Pr}[X\in (x, x + x_n]] \\
&= F(x) + \sum_{i=n}^\infty [X\in (x + x_{i - 1}, x + x_i]] \\
&= F(x) + F(x + x_n) - \lim_{i\rightarrow \infty} F(x + x_i)
\end{aligned}
$$
整理后立即得到欲证明的等式。
离散随机变量
可数集上的随机变量称为离散随机变量。
伯努利分布. $\{0, 1\}$ 上的随机变量 $X$,满足 $\mathrm{Pr}[X = 1] = p$,则称 $X\sim \mathrm{Bern}(p)$。
二项分布. 设 $X_1, …, X_n$ 是独立同分布的随机变量,$X_i\sim \mathrm{Bern}(p)$,则 $X = \sum_{i=1}^N X_i$ 服从二项分布 $B(n, p)$。有
$$
\mathrm{Pr}[X = k] = \binom nk p^k(1-p)^{n - k}
$$
通过差分可以算出最概然的取值是 $[(n + 1)p]$。
泊松分布. $X$ 是 $n$ 上的随机变量,满足 $\mathrm{Pr}[X = k] = \mathrm{e}^{-\lambda}\dfrac{\lambda^k}{k!}$,则称 $X\sim \pi(\lambda)$。
直觉上,泊松分布刻画了一段连续的时间 / 空间上,某事件在每个时刻 / 点发生的可能性都是均匀的,且期望共发生 $\lambda$ 次,最后实际发生次数的期望:
- 一个诊所平均每小时接待 $\lambda$ 个病人,每个病人在每个时刻到达的概率均等。则每小时接待的病人总数服从 $\pi(\lambda)$;
- 一个种群种某疾病发病率为 $\lambda$,在种群数量充分大时,患病个体数量差不多是 $\pi(\lambda)$。
可以形式化地说:泊松分布是二项分布的极限:
$$
\lim_{n\rightarrow \infty} \binom{n}{k} (\lambda / n)^k (1 - \lambda / n)^{n - k} = \mathrm{e}^{-\lambda}\frac{\lambda^k}{k!}
$$
同样用差分法可以证明最概然的取值是 $[\lambda]$。
负二项分布. $X_1, X_2, …$ 是一列独立同分布的随机变量,$X_i \sim \mathrm{Bern}(p)$,则 $X := \min\{k : \sum_{i=1}^k X_i = r\}$(一直做伯努利试验,直到成功 $r$ 次)服从负二项分布 $\mathrm{NB}(r, p)$。注意
$$
\mathrm{Pr}[X = k] = \binom{k - 1}{r - 1}p^{r}(1-p)^{k - r}
$$
几何分布. 是负二项分布在 $r = 1$ 时的特例,$\mathrm{G}(p) = \mathrm{NB}(1, p)$
命题 2.2. 几何分布无记忆性,i.e. $X\sim\mathrm{G}(p)$ 则
$$
\mathrm{Pr}[X = n + m | X > n] = \mathrm{Pr}[X = m]
$$
证明. 验证即可。
连续随机变量
如果某 $\mathbb{R}$ 上随机变量的分布函数处处可导,则称其为连续型随机变量,并定义 $f(x) = F’(x)$,因此有
$$
F(x) = \int_{-\infty}^x f(t)\mathrm{d}t
$$
我们首先列出一些抽象的基本结论,再举一些分布的具体例子。
定理 2.3. 设 $X$ 是 $\mathbb{R}^n$ 上的连续随机向量。函数 $ g : \mathbb{R}^n \rightarrow \mathbb{R}^n$ 有唯一的反函数 $h$,则 $Y := h(X)$ 也是 $\mathbb{R}^n$ 上的随机变量,且
$$
f_Y(\boldsymbol{y}) = f_X(h(\boldsymbol{y})) \frac{1}{\mathbf{J}(h(\boldsymbol{y}))}
$$
其中 $\mathbf{J}$ 是 $g$ 的 Jacobian,即
$$
\mathbf{J} = \begin{pmatrix}
\frac{\partial g}{\partial x_1} & \cdots & \frac{\partial g}{\partial x_n}
\end{pmatrix}
$$
均匀分布. $X$ 是 $(a, b)$ 上的随机变量,满足 $f(x) = 1 / (b - a)$,则称 $X\sim \mathrm{U}(a, b)$。
指数分布. $X$ 是 $(0, \infty)$ 上的随机变量,满足 $f(x) = \lambda \mathrm{e}^{-\lambda x}$,则称 $X\sim \mathrm{Exp}(\lambda)$。
指数分布同样是无记忆性的。
$\Gamma$ 分布. $X$ 是 $(0, \infty)$ 上的随机变量,满足
$$
f(x) = \frac{x^{\alpha - 1}\lambda^{\alpha}\mathrm{e}^{-\lambda x}}{\Gamma(\alpha)}
$$
则称 $X\sim \Gamma(\alpha, \lambda)$。
需要注意到的是,$\Gamma$ 分布是负二项分布的连续版本。形式化地,有:设 $X_n$ 服从负二项分布 $\mathrm{NB}(r, \lambda / n)$,则
$$
\begin{aligned}
\lim_{n\rightarrow \infty}\mathrm{Pr}[X = nx] / (1 / n) &= \lim_{n\rightarrow \infty}n\binom{nx - 1}{r - 1} (\lambda / n)^r(1 - \lambda / n)^{nx - r} \\
&= \lim_{n\rightarrow \infty}\frac{1}{r!x}\times \left(\frac{\lambda / n \cdot nx}{1 - \lambda / n}\right)^r\times (1 - \lambda/n)^{nx} \\
&= \frac{x^{r - 1}\lambda^r \mathrm{e^{-\lambda x}}}{(r - 1)!}
\end{aligned}
$$
等式左侧可以理解为每 $1 / n$ 秒做一次实验,平均一秒能成功 $\lambda$ 次,在第 $x$ 秒附近恰好是第 $r$ 次成功的概率密度。右侧恰好是 $\Gamma(r, \lambda)$ 的概率密度。
正态分布. 对于 $\mu$ 和 $\sigma > 0$,若 $\mathbb{R}$ 上的随机变量 $X$ 的概率密度为
$$
f(x) = \frac{1}{\sqrt{2\pi}\sigma}\mathrm{e}^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$
则称 $X$ 服从均值为 $\mu$,标准差为 $\sigma$ 的正态分布 $\mathcal{N}(\mu, \sigma)$。
多元正态分布. 给定向量 $\boldsymbol{\mu}$ 和正定矩阵 $\Sigma$,若 $\mathbb{R}^n$ 上的随机向量 $X$ 的概率密度为
$$
f(\boldsymbol{x}) = \frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac 12}}\mathrm{e}^{-(\boldsymbol{x} - \boldsymbol{\mu})^\top\Sigma^{-1}(\boldsymbol{x} - \boldsymbol{\mu})}
$$
则称 $X$ 服从期望为 $\boldsymbol{\mu}$,协方差为 $\Sigma$ 的正态分布。