Revision | 信息科学中的概率统计(下)

Abstract. 前半部分是集中不等式、大数定律和中心极限定理。后半部分是无聊的统计。

准备工具

集中不等式

定理 1.1.1(马尔可夫不等式). 设随机变量的 $k$ 阶矩存在($\mathbb{E}[|X|^k] < \infty$),则

$$
\Pr[|X| > \varepsilon] \leq \frac{\mathbb{E}[|X|^k]}{\varepsilon^k}
$$

证明.

$$
\begin{aligned}
\Pr[|X| > \varepsilon] = \int_{|x| > \varepsilon} f(x)\mathrm{d}x \leq \int_{|x| > \varepsilon} \frac{|x|^k}{\varepsilon^k} f(x)\mathrm{d}x = \frac{\mathbb{E}[|X|^k]}{\varepsilon^k}
\end{aligned}
$$

$\blacksquare$

定理 1.1.2(切比雪夫不等式). 设随机变量的期望 $\mu$ 和方差 $\sigma^2$ 存在,则

$$
\Pr(|X - \mu| > \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2}
$$

证明. 对标准化后的随机变量使用二阶矩的马尔可夫不等式。$\blacksquare$

上面两个不等式都只考虑了随机变量的某一阶矩。可以想象的是,我们可以将所有阶矩通过某种方式混合起来考虑,然后通过调参找到最紧的一种混合方式。为此,引入矩生成函数

定义 1.1.1(矩生成函数). 随机变量 $X$ 的矩生成函数是 $\mathrm{MGF}_X(t) = \mathbb{E}[e^{tX}]$。

Remark 1.1.1. 关于这个东西的命名:矩生成函数正是随机变量各阶矩的 EGF。

矩生成函数法系如下范式——证明 $\Pr[X > \varepsilon]$ 的界可用如下步骤:

  1. 注意 $X > \varepsilon$ 等价于 $e^{tX} > e^{t\varepsilon}$;
  2. 使用马尔可夫不等式,导出概率不超过 $\mathbb{E}[e^{tX}] / e^{t\varepsilon} \leq \varphi(t)$;
  3. 求 $t$ 使得 $\varphi(t)$ 最小化,即得到概率上界为 $\varphi(t^*)$。

定理 1.1.3(Chernoff 界). 设 $X_1, X_2, …, X_n$ 独立,$X_i\sim \mathrm{Bern}(p_i)$,$p = \frac 1n \sum_{i=1}^n p_i$,则对于任意 $\varepsilon > 0$ 都有

$$
\Pr\left[\frac 1n\sum_{i=1}^n X_i \geq p + \varepsilon\right] < \mathbb{e}^{-nD(p + \varepsilon\Vert p)} \leq e^{-2n\varepsilon^2}
$$

证明. 标准的矩生成函数法。记 $X = \sum_{i=1}^n X_i$

$$
\begin{aligned}
\Pr[X \geq n(p + \varepsilon)]&\leq \frac{\mathbb{E}[e^{tX}]}{e^{tn(p + \varepsilon)}} &{\color{blue}\text{Markov bound}} \\
&=\frac{\prod_{i=1}^n(1 - p_i + p_ie^{t})}{e^{tn(p + \varepsilon)}} &{\color{blue}{\text{Independentness}}} \\
&\leq \frac{(1 - p + pe^{t})^n}{e^{tn(p + \varepsilon)}} &{\color{blue}{\text{$\text{AM} \geq \text{GM}$ Inequality}}}
\end{aligned}
$$

只需最小化 $\ln(1 - p + p\varepsilon^t) - t(p + \varepsilon)$。简单求导可知 $t = \ln \frac{(p + \varepsilon)(1 - p)}{(1 - p - \varepsilon)p}$ 时恰好是 $D(p + \varepsilon \Vert p)$。

还可以根据经典不等式 $D(p \Vert q) \geq 2\Delta_{TV}(p, q)^2$ 再放缩一次。$\blacksquare$

注意,Chernoff 界可以加强至任意 $[0, 1]$ 上的分布。因为根据 Jensen 不等式

$$
\mathbb{E}[e^{tX}] \leq 1 - p + p{e^t}
$$

上述矩生成函数方法仍然成立。

对于更一般的分布,可以使用 Azuma-Hoeffding 不等式。

引理 1.1.4(Hoeffding 引理). 随机变量 $X\in [a, b], \mathbb{E}[X] = 0$,则 $\mathbb{E}[e^{tX}] \leq \exp\left(\frac{t^2(b - a)^2}{8}\right)$

证明. 这个式子很像我们证 Azuma 不等式的时候证的东西,但是它不对称,所以阴间了很多(因为 $e^x$ 的性质,哪怕是将区间向左平移一下都会让不等式松很多)。

首先用 Jensen 不等式,可知

$$
\mathbb{E}[e^{tX}] \leq \mathbb{E}\left[\frac{X - a}{b - a}e^{tb} + \frac{b - X}{b - a}e^{ta}\right] \leq \frac{-a}{b - a}e^{tb} + \frac{b}{b - a}e^{ta}
$$

将右侧式子取对数后泰勒展开到二阶拉格朗日余项即可证明。节约时间这里略去。$\blacksquare$

定理 1.1.5(Azuma-Hoeffding 不等式). 随机变量 $X_1, …, X_n$ 相互独立,期望均为 $0$,各自有上下界 $a_i, b_i$($\forall i, X_i\in [a_i, b_i]$),则对于任意的 $\varepsilon > 0$

$$
\begin{align}
\Pr\left[\sum_{i=1}^n X_i > \varepsilon\right] \leq \exp\left(-\frac{2\varepsilon^2}{\sum_{i=1}^n (a_i - b_i)^2}\right) \\
\Pr\left[\sum_{i=1}^n X_i < -\varepsilon\right] \leq \exp\left(-\frac{2\varepsilon^2}{\sum_{i=1}^n (a_i - b_i)^2}\right)
\end{align}
$$

证明. 我们只需要证明 $> \varepsilon$ 的一边,另一边取相反数即可得证。

记 $X = \sum_{i=1}^n X_i$。则对于任意的 $t > 0$,$X > \varepsilon$ 等价于 $e^{tX} > e^{t\varepsilon}$。依次根据马尔可夫不等式、变量独立性、Hoeffding 引理

$$
\begin{aligned}
\mathrm{LHS} &\leq \frac{\mathbb{E}[e^{tX}]}{e^{t\varepsilon}} = \frac{\prod_{i=1}^n\mathbb{E}[e^{tX_i}]}{e^{t\varepsilon}} \leq \exp\left(t^2\sum_{i=1}^n \frac{(a_i - b_i)^2}{8} - \varepsilon t\right)
\end{aligned}
$$

取 $t = 4 / \sum_{i=1}^n (a_i - b_i)^2$ 得到最紧的上界。$\blacksquare$

证明的重点是一个 Hoeffding 引理的成立性,因此可以定义

定义 1.1.2(Subgaussian 分布). 对于随机变量 $X$,若 $\forall t\in \mathbb{R}, \mathrm{MGF}_X(t) \leq e^{\frac{\sigma^2t^2}{2}}$,则称 $X$ 是 $\sigma$-subgaussian 的。

Remark. 不等号右侧是 $\mathcal{N}(0, \sigma^2)$ 的矩生成函数。正态分布的尾分布有指数级的上界:

$$
\Pr[X > t] = \int_{t}^\infty \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}}\mathrm{d}x \leq \int_{t}^\infty \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{t^2 + (x - t)^2}{2\sigma^2}} \mathrm{d}x = \frac 12 e^{-\frac{t^2}{2\sigma^2}}
$$

实际上 Hoeffding 不等式可以加强成:若 $X_i$ 都是 $\sigma_i$-subgaussian 分布,则

$$
\Pr\left[\sum_{i=1}^n X_i > \varepsilon\right] \leq \exp\left(-\frac{\varepsilon^2}{2\sum_{i=1}^n \sigma_i^2}\right)
$$

可以证明关于 Subgaussian 分布的一些性质。

定理 1.1.6(Subgaussian 分布的性质) 若 $X, X_1, X_2$ 是 $\sigma, \sigma_1, \sigma_2$-subgaussian 分布,则以下断言成立:

  1. $\mathbb{E}[X] = 0, \mathbb{D}(X) \leq \sigma^2$;
  2. $cX$ 是 $|c|\sigma$-subgaussian 分布;
  3. $X_1 + X_2$ 是 $\sqrt{\sigma_1^2 + \sigma_2^2}$-subgaussian 分布。

证明. 在 $t = 0$ 处的端点效应($t = 0$ 时两函数相等,为了保证全局小于等于需要导数相等,二阶导不超过 $\sigma^2$)蕴含断言 1。

后面两个断言是平凡的。$\blacksquare$

对于一些非 subgaussian 的分布,比如 $\Gamma$ 分布和 $\chi^2$ 分布,也可以用矩生成函数方法得到集中不等式。计算机科学中两个经典的例子是 Coupon Collector Bound 和 Johnson-Lindstrauss Lemma,想必大家都非常熟悉。

随机变量的收敛

本节形式化定义高中概率统计中常见的“频率收敛于概率 / 均值收敛于期望 / 几乎是正态分布”一类的说法。共有三种想法:

  1. 随着试验次数的增加,高概率观测到实验结果和 $X$ 的误差不大。(依概率收敛)
  2. 随着试验次数的增加,实验结果的分布和 $X$ 的分布误差不大。(依分布收敛)
  3. 如果做无穷次实验,几乎必然观测到实验结果就是 $X$。(几乎必然收敛)

定义 1.2.1(依概率收敛). 考虑随机变量 $X, X_1, X_2, …$,若对于任意的 $\varepsilon > 0$ 都有

$$
\lim_{n\rightarrow \infty} \Pr[|X_n - X| < \varepsilon] = 1
$$

则称随机变量序列 $X_1, X_2, …$ 依概率收敛于 $X$,记作 $X_n \xrightarrow{P} X (n\rightarrow \infty)$。

定义 1.2.2(依分布收敛). 考虑随机变量 $X, X_1, X_2, …$,若 $X_n$ 的分布函数在 $X$ 的一切连续点上点点收敛于 $X$ 的分布函数,i.e.

$$
\lim_{n\rightarrow \infty} F_{X_n}(X) = F_X(x)
$$

则称 $\{F_{X_n}(x)\}$ 弱收敛于 $F_{X}(x)$,或随机变量列 $X_1, X_2, …$ 依分布收敛于 $X$,记作 $X_n\xrightarrow{d} X (n\rightarrow \infty)$。

Remark 1.2.1. 在正经的概率论教材中,应该会把范围扩大到非降函数 $F(X)$,比如说 $X_i = i$ 的分布函数弱收敛到 $0$。但这里我们不管。

定义 1.2.3(几乎必然收敛). 考虑随机变量 $X, X_1, X_2, …$,若

$$
\Pr\left[\lim_{n\rightarrow \infty} X_n = X\right] = 1
$$

则称 $\{X_n\}$ 几乎必然收敛于 $X$,记作 $X_n\xrightarrow{a.s.} X (n\rightarrow \infty)$。

Remark 1.2.2. 依分布收敛和几乎必然收敛的定义可能显得比较怪。需要时刻记住随机变量是 $\mathcal{S}\rightarrow \mathbb{R}$ 的可测函数,随机变量的背后都是有一个样本空间的。实验结果是这个样本空间中的一个样本,$X_n$ 只是它的函数值。

定理 1.2.1(几乎必然收敛的刻画). 令事件 $A_n(\varepsilon) = \{|X_n - X| \geq \varepsilon\}$,则 $X_n \xrightarrow{a.s.} X$ 当且仅当

$$
\forall \varepsilon > 0, \lim_{n\rightarrow \infty} \Pr\left[\bigcup_{m = n}^\infty A_m(\varepsilon)\right] = 0 \label{as-eqdef}
$$

证明. 用 $\varepsilon = 1 / k$ 控制极限,将几乎必然收敛的定义改写做

$$
\Pr\left[\bigcap_{k=1}^\infty\bigcup_{n = 1}^\infty \bigcap_{m = n}^\infty \neg A_m(1 / k)\right] = 1 \quad\Leftrightarrow\quad \Pr\left[\bigcup_{k=1}^\infty\bigcap_{n = 1}^\infty \bigcup_{m = n}^\infty A_m(1 / k)\right] = 0
$$

根据次可加性、单调性,上式等价于

$$
\forall k\in \mathbb{N}, \Pr\left[\bigcap_{n = 1}^\infty \bigcup_{m = n}^\infty A_m(1 / k)\right] = 0 \label{1.2.1-inter1}
$$

进而可推出 $\forall \varepsilon > 0$ 上式都成立(将 $\varepsilon$ round 到不超过它的某个 $1/k$,注意 $A_m(x)$ 关于 $x$ 不升)。$(\ref{1.2.1-inter1})\Leftrightarrow (\ref{as-eqdef})$ 无非是因为 $\cup_{m = n}^\infty A_m(\varepsilon)$ 是单调的。$\blacksquare$

Remark 1.2.3. 依概率收敛的定义是 $\lim_{n\rightarrow \infty} A_n(\varepsilon) = 0$。

定理 1.2.2. 几乎必然收敛蕴含依概率收敛,反之未必(即使是收敛到常数分布也不行)。

证明. 因为 $A_n(\varepsilon) \subseteq \cup_{m=n}^\infty A_n(\varepsilon)$。此外,我们给出一个逆命题的反例。

考虑一列独立的随机变量,$X_i\sim \mathrm{Bern}(1 / i)$。计算发现这列随机变量依概率收敛至 $0$,但是不可能几乎必然收敛。$\blacksquare$

定理 1.2.3. 依概率收敛蕴含依分布收敛,反之未必。

证明. 用几个连续性立即得证。逆命题不成立的本质原因是分布相同不能推出随机变量相同(除非该分布是常数分布)。$\blacksquare$

特征函数

我们经常遇到计算两个随机变量之和 $X_1 + X_2$ 的密度函数的问题。熟知,这个问题的答案是两个函数概率密度函数的卷积。因此,我们想到可以用傅里叶变换来计算卷积。

警告. 因为我是学计算机的,所以将省略一切分析上的严格推导。

定义 1.3.1(特征函数). 定义随机变量 $X$ 的特征函数为

$$
\psi_X(t) := \mathbb{E}[e^{itX}]
$$

这正是 $X$ 的密度函数的傅里叶变换。

命题 1.3.2(特征函数的性质). 关于特征函数,有如下简单的性质:

  1. $\psi_{aX + b}(t) = e^{itb}\psi_X(at)$;
  2. 若 $X_1, X_2$ 独立,则 $\psi_{X_1 + X_2} = \psi_{X_1}(t)\psi_{X_2}(t)$;
  3. 可以从特征函数中提取 $X$ 的 $k$ 阶矩:$\mathbb{E}[X^k] = (-i)^k \psi_X^{(k)}(0)$。

证明. 直接对着定义验证即可。第三个断言可能需要一些积分和求导的交换性,这里没办法,只能不管。$\blacksquare$

关于特征函数有两个重要结论,但是没学过实分析,只能不证。

定理 1.3.3(唯一性定理). 随机变量的分布函数由特征函数唯一决定。

定理 1.3.4(连续性定理). 分布函数 $F_{X_n}$ 弱收敛于 $F_X$ 的充分必要条件是 $\psi_{X_n}$ 点点收敛于 $\psi_X$。

大数定律,中心极限定理

关于依概率收敛的几个大数定律称作弱大数定律。在几种不同的独立性要求下,都可以证明均值收敛于期望。

定理 2.1(切比雪夫大数定律). 设随机变量 $X_1, X_2, …$ 两两独立,方差都有界,则对于任意的 $\varepsilon > 0$ 都有

$$
\lim_{n\rightarrow \infty} \Pr\left[\left|\frac{\sum_{i=1}^n X_i}{n} - \frac{\sum_{i=1}^n \mathbb{E}[X_i]}{n}\right| < \varepsilon\right] = 1
$$

证明. 假设方差上界是 $C$,则由切比雪夫不等式可知偏差超过 $\varepsilon$ 不超过 $C / n\varepsilon^2$,因此收敛于 $0$。$\blacksquare$

定理 2.2(马尔可夫大数定律). 设随机变量 $X_1, X_2, …$ 两两独立,且 $\lim_{n\rightarrow\infty} \frac{1}{n^2}\sum_{i=1}^n D(X_i) = 0$,则

$$
\lim_{n\rightarrow \infty} \Pr\left[\left|\frac{\sum_{i=1}^n X_i}{n} - \frac{\sum_{i=1}^n \mathbb{E}[X_i]}{n}\right| < \varepsilon\right] = 1
$$

证明. 仍然是切比雪夫不等式。$\blacksquare$

定理 2.3(辛钦大数定律). 设随机变量 $X_1, X_2, …$ 独立同分布,且期望 $\mu$ 存在,则对于任意的 $\varepsilon > 0$ 都有

$$
\lim_{n\rightarrow \infty} \Pr\left[\left|\frac{\sum_{i=1}^n X_i}{n} - \mu\right| < \varepsilon\right] = 1
$$

证明. 这里关于随机变量的矩没有什么信息,因此不能继续用之前常用的矩方法。考虑使用特征函数。

依概率收敛于常数等价于依分布收敛进而等价于特征函数点点收敛,考虑证明之。若 $X_i$ 的特征函数是 $\psi_{X_i}(t)$(因为独立同分布所以均相等),则 $X = \frac 1n \sum_{i=1}^n X_i$ 的特征函数是 $\psi_{X_i}(t/n)^n$。对于固定的 $t$,有在零处的泰勒展开(带 Peano 余项)

$$
\psi_{X_i}(t) = 1 + t\cdot \psi_{X_i}’(t) + o(t^2) = 1 + i\mu t + o(t^2)
$$

因此

$$
\psi_{X_i}(t / n)^n = \left(1 + \frac{i\mu t}{n} + o(t^2 / n)\right)^n \rightarrow e^{i\mu t} \quad (n\rightarrow \infty)
$$

因此依分布收敛于常数分布 $\mu$,根据唯一性定理,定理得证。$\blacksquare$

几乎必然收敛意义下的大数定律称作强大数定律。现在要将 $A_n(\varepsilon)$ 加强至 $\cup_{m=n}^\infty A_n(\varepsilon)$,最简单粗暴的办法是拓展切比雪夫大数定律,将有界矩的阶数加到四阶。

定理 2.4(强大数定律). 设 $X_1, X_2, …$ 独立同分布,期望存在(最弱可以是 $4$-wise 独立,期望存在),且 $\mathbb{E}[X_i^4] \leq C$。令 $S_n$ 是前 $n$ 个随机变量之和,则

$$
\frac{S_n - \mathbb{E}(S_n)}{n} \xrightarrow{a.s.} 0 \quad(n\rightarrow \infty)
$$

证明. 用四阶矩方法可以证明 $A_m(\varepsilon) \leq \mathbb{E}(S^4_m) / {n^4\varepsilon^4}$,注意

$$
\begin{aligned}
\mathbb{E}[S_m^4] &= \sum_{i, j, k, l} \mathbb{E}[X_i X_j X_k X_l] \\
&= {\sum_{i=1}^m \mathbb{E}[X_i^4]} + {6 \sum_{i < j}\mathbb{E}[X^2_i]\mathbb{E}[X^2_j]} \\
&\leq mC + 6m^2C
\end{aligned}
$$

这里使用了柯西不等式:$\mathbb{E}[X^2] \leq \sqrt{\mathbb{E}[1]} \cdot \sqrt{\mathbb{E}[X^4]}$ 因此

$$
\Pr\left[\cup_{m=n}^\infty A_m(\varepsilon)\right] \leq \sum_{m = n}^\infty A_{m}(\varepsilon) \leq \sum_{m = n}^\infty O\left(\frac{1}{m^2}\right) = O\left(\frac{1}{n^2}\right)
$$

根据定理 1.2.1 定理得证。$\blacksquare$

定理 2.5(Kolmogrov 大数定律) 设 $X_1, X_2, …$ 独立同分布,期望、方差存在,则

$$
\frac{S_n}{n} \xrightarrow{a.s.} \mathbb{E}[X]
$$

Remark 2.1. 在正经的概率论教材中这个定理的叙述可能是,存在一列单增趋于无穷的 $b_n$ 使得 $\sum_{i=1}^n D[X_n] / b_n^2$ 收敛推出 $S_n / b_n$ 几乎必然收敛。我们写的只是令 $b_n = n$ 的特殊情况。

Remark 2.2. 证明这个定理需要很多我不想写的前置知识(比如几乎必然收敛的柯西准则、Kronecker 引理等),所以这里不证。


如果你现在不是除 $n$ 而是除 $\sqrt n$,就会使得 $D[S_n / \sqrt n] = D(X)$,因此,$S_n / \sqrt n$ 不会收敛到一个点上,但是中心极限定理指出它将收敛于正态分布。

定理 2.6(Lindeberg-Lévy 中心极限定理). 设 $X_1, X_2, …$ 独立同分布,$\mathbb{E}[X_i] = \mu, D[X_i] = \sigma^2$,令

$$
\widetilde{S}_n = \frac{\sum_{i=1}^n X_i - \mu}{\sqrt n\sigma}
$$

则 $\widetilde{S}_n \xrightarrow{d} Z\sim \mathcal{N}(0, 1)$。

证明. 不失一般性设 $\mu = 0, \sigma = 1$,考虑 $\sum_{i=1}^n X_i / \sqrt n$ 的特征函数:

$$
\psi_{\widetilde{S}_n}(t) = \psi_{X}(t / \sqrt n)^n
$$

将 $\psi_{X}(t)$ 泰勒展开到二阶 Peano 余项得到

$$
\psi_{X}(t) = 1 + i \mathbb{E}[X] t - D[X] \frac{t^2}{2} + o(t^2) = 1 - \frac{t^2}{2} + o(t^2)
$$

代入得到

$$
\psi_{\widetilde{S}_n}(t) = \left(1 - \frac{t^2}{2n} + o\left(\frac{t^2}{n}\right)\right)^n \rightarrow e^{-t^2 / 2}
$$

这正是 $\mathcal{N}(0, 1)$ 的特征函数。$\blacksquare$

中心极限定理的经典应用是用来估计 $n$ 比较大时的二项分布等。估计的误差由 Berry-Esseen 定理给出,但是我不会证,只在这里放一下形式:

定理 2.7(Berry-Esseen 中心极限定理). 在中心极限定理的条件下,实际上有

$$
\sup_{t\in \mathbb{R}} \left(\left|\Pr[\widetilde{S}_n < t] - \Pr[Z < t]\right|\right) = O\left(\frac{\rho}{\sqrt n}\right)
$$

其中 $\rho = \mathbb{E}[|X^3|]$。

一个有意思的应用是证明泊松分布的中位数基本上是在期望附近的,或者说 $X_n\sim \pi(n)$

$$
\lim_{n\rightarrow \infty} \Pr[X_n < n] = \lim_{n\rightarrow \infty} e^{-n}\sum_{i=0}^n \frac{n^{i}}{i!} = \frac 12
$$

方法是注意到 $X_n = \sum_{i=1}^n Y_i$,其中 $Y_i\sim \pi(1)$,然后用中心极限定理。误差也可以用 Berry-Esseen 给出,结论是 $\forall n, X\sim \pi(n)$ 则 $\Pr[X \leq n] \geq \frac 14$ 且 $\Pr[X\geq n] \geq \frac 14$。

统计基础

  • 总体. 研究对象的全体。
  • 个体. 组成总体的每一成员。
  • 随机抽样. 从总体中等概率随机取 $n$ 个个体 $X_1, …, X_n$。$n$ 称作样本容量。
  • 样本空间. $X_1, …, X_n$ 可能取值构成的集合。’
  • 简单随机样本. $n$ 个独立同分布的随机样本。
  • 经验分布函数. 基于采样结果给出的分布函数的估计。设 $x_1, .., x_n$ 是取自分布为 $F(x)$ 的总体的简单随机样本(已经排序,i.e. $x_i \leq x_{i + 1}$),则 $F_n(x) = k/n (x_k\leq x \leq x_{k + 1})$(严谨起见,补充规定 $x_0 = -\infty, x_{n + 1} = \infty$)。
  • 统计量. 样本的非参数化的函数。

介绍几个经典的统计量。

  • 样本期望. $\bar{X} := \frac 1n\sum_{i=1}^n x_i$;
  • 样本方差. $S^2 := \frac{1}{n - 1}\sum_{i=1}^n (x_i - \bar{X})^2$;
  • $k$ 阶(原点)矩. $A_k := \frac{1}{n}\sum_{i=1}^n x_i^k$;
  • $k$ 阶中心矩. $B_k := \frac{1}{n}\sum_{i=1}^n (x_i - \bar{X})^k$。

注意样本方差除的是 $n - 1$,和习惯不符。但是这样构造的统计量才是总体方差的无偏估计。验证在下方(事实 1)给出。

以下三个概率分布是统计中十分常用的。

定义 1($\chi^2$ 分布). 设 $X_1, …, X_n$ 独立服从分布 $\mathcal{N}(0, 1)$,则称 $\chi^2_n = \sum_{i=1}^n X_i^2$ 服从的分布为自由度为 $n$ 的 $\chi^2$ 分布($\chi^2_n \sim \chi^2(n)$)。其概率密度为

$$
f_n(y) = \begin{cases}
\frac{1}{2^{n / 2}\Gamma(n / 2)}(y)^{\frac{n}{2} - 1}e^{-\frac{y}{2}} & y > 0 \\
0 & y \leq 0
\end{cases}
$$

为了验证其概率密度确实如是,惟须施归纳于 $n$,由于过于琐碎,此处略去。关于 $\chi^2$ 分布的一些事实:

  1. $\chi^2_n \sim \Gamma(n / 2, 1 / 2)$;
  2. $\mathbb{E}[\chi^2_n] = n, D[\chi^2_n] = 2n$;
  3. $\chi^2_n + \chi^2_m \sim \chi^2(n + m)$;
  4. 设 $\chi_\alpha^2(n)$ 为自由度为 $n$ 的 $\chi^2$ 分布的上 $\alpha$ 分位数,即 $\Pr[\chi^2 > \chi^2_\alpha(n)] = \alpha$ 的解。有 $n$ 足够大时($ > 40$),$\chi_\alpha^2(n)\approx \frac{1}{2}(z_{\alpha} + \sqrt{2n - 1})^2$。

事实 $4$ 的证明可以参考 https://zhuanlan.zhihu.com/p/628970264 ,不太像常人所能现场证明的,恐须记住结论。

定义 2($t$ 分布). 设 $X\sim \mathcal{N}(0, 1), Y\sim \chi^2(n)$ 相互独立。则称 $T := \frac{X}{\sqrt{Y / n}}$ 服从的分布为自由度为 $n$ 的 $t$ 分布($T\sim t(n)$)。其密度函数为

$$
f(t; n) = \frac{\Gamma\left(\frac{n + 1}{2}\right)}{\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)}\left(1 + \frac{t^2}{n}\right)^{-\frac{n + 1}{2}}
$$

  1. 当 $n$ 较大时,$t$ 分布近似为正态分布。
  2. 当 $n$ 较大时,其 $\alpha$ 上分位数 $t_{\alpha}$ 可以用 $z_{\alpha}$ 近似。

定义 3($F$ 分布). 设 $X\sim \chi^2(n_1), Y\sim \chi^2(n^2)$ 相互独立,则称 $F = \frac{X / n_1}{Y / n_2}$ 服从的分布为自由度为 $n_1, n_2$ 的 $F$ 分布($F\sim F(n_1, n_2)$)。其密度函数为

$$
f(x; n_1, n_2) = \begin{cases}
\frac{1}{B(n_1 / 2, n_2 / 2)}n_1^{n_1 / 2}n_2^{n_2 / 2}x^{n_1 / 2 - 1}(n_2 + n_1 x)^{-\frac{n_1 + n_2}{2}} & x > 0 \\
0 & x\leq 0
\end{cases}
$$

课件教的性质不是非常平凡就是没什么用。

  1. $F\sim F(n_1, n_2)\Rightarrow F^{-1}\sim F(n_2, n_1)$;
  2. $X\sim t(n)\Rightarrow X^2\sim F(1, n)$;
  3. $F_{1 - \alpha}(n_1, n_2) = \frac{1}{F_{\alpha}(n_2, n_1)}$。

为了建立关于统计的直觉,我们证明如下事实:

事实 1. $\mathbb{E}[S^2] = D(X)$;

验证.

$$
\begin{aligned}
\mathbb{E}[S^2] &= \frac{1}{n - 1}\mathbb{E}\left[\sum_{i=1}^n x_i^2 - n\left(\frac{\sum_{i=1}^n x_i}{n}\right)^2\right] \\
&=\frac{1}{n - 1}\left(\frac{n - 1}{n}\sum_{i=1}^n\mathbb{E}[x_i^2] - \frac{1}{n}\sum_{i\ne j}\mathbb{E}[x_i]\mathbb{E}[x_j]\right) \\
&= \frac{1}{n - 1}\left((n - 1)\mathbb{E}[X^2] - (n - 1)\mathbb{E}[X]^2\right) = D[X]
\end{aligned}
$$

这表明样本方差,确实应当除以 $n - 1$ 才能得到总体方差的无偏估计。$\blacksquare$

事实 2. $\bar{X}$ 和 $S^2$ 独立。

证明. $(n - 1)S$ 是一个关于 $\boldsymbol{X}$ 的二次型。其矩阵表示为

$$
\mathbf{A} = \begin{pmatrix}
\frac{n - 1}{n} & -\frac{1}{n} & \cdots & -\frac{1}{n} \\
-\frac{1}{n} & \frac{n - 1}{n} & \cdots & -\frac{1}{n} \\
\vdots & \vdots & \ddots & \vdots \\
-\frac{1}{n} & -\frac{1}{n} & \cdots & \frac{n - 1}{n}
\end{pmatrix}
$$

考虑如何将其正交对角化。首先观察矩阵,发现 $\mathbf{A} - \mathbf{I}$ 是一个秩为 $1$ 的矩阵,所以矩阵有 $n - 1$ 个特征值都是 $1$。关于剩下的那个特征值是多少,可以用 trace trick 或者观察到 $(1, 1, …, 1)$ 是其一个特征向量来得到——无非是 $0$。

因此,如果我们将其正交对角化,所使用的正交矩阵形如

$$
\mathbf{P} = \begin{pmatrix}
\frac{1}{\sqrt n}\mathbf{1} \\
\mathbf{P’}
\end{pmatrix}
$$

用 $\mathbf{P}$ 对 $\boldsymbol{X}$ 做坐标变换,得到

$$
\mathbf{Y} = \mathbf{P}\boldsymbol{X} = \begin{pmatrix}
\bar{X} \\
\varepsilon_2 \\
\vdots \\
\varepsilon_n
\end{pmatrix}, \quad (n - 1)S^2 = \boldsymbol{Y}^\top \begin{pmatrix}
0 & & & \\
& 1 & & \\
& & \ddots & \\
& & & 1
\end{pmatrix}\boldsymbol{Y}
$$

即每一维都是独立的正态分布 $\mathcal{N}(0, \sigma^2)$。但是 $S^2$ 全然不取决于 $Y_1 = \bar{X}$,因此两者独立。与此同时,观察对角化后的二次型,我们同时证明了 $(n - 1)S^2 / \sigma^2$ 服从 $t(n - 1)$。$\blacksquare$

Remark. 这似乎启发了我们证明平方和独立的一般方法?但是如果如果是要证明两个平方和独立,你可能就需要手搓一个坐标变换来让 $S_E$ 和 $S_A$ 分开。

参数估计

在实际问题中,我们通常仅知道概率分布通常是一个参数化的分布 $F(x; \boldsymbol{\theta})$,其中 $\boldsymbol{\theta}\in \Theta$ 为一列参数。通常,在获取了容量为 $n$ 的样本 $X_1, …, X_n$,可以考虑设计统计量 $\hat{\boldsymbol{\theta}}(X_1, …, X_n)$ 来估计参数的取值。该统计量称作参数 $\boldsymbol{\theta}$ 的点估计量,代入具体样本数值后得到的称作参数的点估计值

下文中,若不涉及样本容量,通常直接将 $\hat{\boldsymbol{\theta}}(X_1, …, X_n)$ 简称做 $\hat{\boldsymbol{\theta}}$。若不涉及多个参数,参数估计量将记作不加粗的 $\hat{\theta}$。

点估计的评价

评价参数估计的好坏,有以下角度:

无偏性. 若估计量 $\hat{\theta}$ 满足 $\mathbb{E}[\hat{\theta}] = \theta$,则称其为无偏估计量,否则称 $|\mathbb{E}[\hat{\theta}] - \theta|$ 为估计量的偏差。若 $\lim_{n\rightarrow \infty} \mathbb{E}[\hat{\theta}] = \theta$,则称其为渐进无偏估计量

容易验证以下事实:

  1. 样本均值是总体均值的无偏估计,样本方差是总体方差的无偏估计,样本 $k$ 阶原点矩是总体 $k$ 阶原点矩的无偏估计。
  2. 二阶及以上的中心矩不是总体对应阶中心距的无偏估计。
  3. 无偏估计量的非线性函数一般不是对应参数的函数的无偏估计。

有效性. 直觉上,方差越小越有效。设 $\hat{\theta}_1, \hat{\theta}_2$ 是两个无偏估计量。若 $\forall \theta\in \Theta, D[\hat{\theta}_1] \leq D[\hat{\theta}_2]$,至少有一处不取等,则称 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 有效

均方误差准则. 设 $\hat{\theta}$ 是 $\theta$ 的点估计,方差存在,则称 $\mathrm{MSE}(\hat{\theta}):=\mathbb{E}[(\hat{\theta} - \theta)^2]$ 为估计量的均方误差。对于无偏估计,这个量恰是 $\hat{\theta}$ 的方差。

熟知参数估计的偏差和方差之间存在一个 trade-off,均方误差可谓是综合了两者的一个评判标准(注意均方误差实际上就是方差加上偏差的平方),因此在实践中有时更为重要。

相合性. 设 $\hat{\theta}(X_1, …, X_n)$ 是参数 $\theta$ 的估计量。若对于任意的 $\theta\in\Theta$ 都有 $\hat{\theta}_n$ 依概率收敛于 $\theta$,则称 $\hat{\theta}$ 为 $\theta$ 的相合估计或者一致估计

值得注意的是,相合估计可能甚至不是渐进无偏的(一个显然的反例是一个 $0$ 的估计量以 $1/n$ 的概率取 $n$,其余时候取 $0$),但它能反映参数的估计量是在大样本下渐进收敛的。

另外,若 $\hat{\theta}$ 是 $\theta$ 的相合估计量,$g(x)$ 在 $\theta$ 处连续,则 $g(\hat{\theta})$ 是 $g(\theta)$ 的相合估计。这和无偏估计的情况有所不同。

有效性. 若一个估计量的方差(渐进)达到了 Cramer-Rao 不等式 给出的下界,则称其为(渐进)有效估计

点估计的方法

接下来给出两种点估计参数的具体方法。

矩估计法. 求出总体的前 $k$ 阶矩关于参数的函数,替之以样本的 $k$ 阶矩便可列出方程组,从而可解得参数的估计量。此处选用原点矩或中心矩均可。这称为样本的矩估计

极大似然估计. 假设总体 $X$ 服从参数化的分布 $f(x; \theta)$(其中 $f$ 为密度函数,若 $X$ 是连续随机变量;或为质量函数,若 $X$ 为离散随机变量),从中采出样本 $X_1, …, X_n$,其观察值为 $x_1, …, x_n$。似然函数定义为如下能够刻画观察到该样本的可能性的量:

$$
L(\theta) = \prod_{i=1}^n f(x_i; \theta)
$$

称 $\hat{\theta}(x_1, …, x_n) := \arg\max_{\theta\in \Theta} L(\theta)$ 为 $\theta$ 的极大似然估计值,相应统计量为极大似然估计量

正态分布的参数估计. 从参数化的正态分布 $\mathcal{N}(\mu, \sigma^2)$($\mu, \sigma$ 均为参数)中采得样本 $X_1, …, X_n$,求 $\mu, \sigma$ 的矩估计和极大似然估计。

矩估计:

  1. 熟知 $\mu = \mathbb{E}[X], \sigma^2 = \mathbb{E}[X] - \mathbb{E}[X^2]$,因此矩估计量可以为 $\hat{\mu} = A_1, \hat{\sigma}_2 = A_2 - A_1^2$;
  2. 熟知 $\mu = \mathbb{E}[X], \sigma^2 = D[X]$,因此矩估计量可以为 $\hat{\mu} = A_1, \hat{\sigma}^2 = B_1$。

似然估计:最大化似然函数等价于最大化其对数,即

$$
\ln L(\theta) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln \sigma^2 - \frac{1}{\sigma^2}\sum_{i=1}^n (x_i - \mu)^2
$$

令 $\frac{\partial}{\partial \mu} \ln L = \frac{\partial}{\partial \sigma^2} \ln L = 0$ 便可算出 $\hat{\mu} = \bar{x}, \hat{\sigma^2} = \sum_{i=1}^n (x_i - \bar{x})^2$。

可以发现最大似然估计对 $\sigma^2$ 的估计是有偏的。

作为操演,读者还可尝试计算均匀分布 $U[0, \theta]$ 的参数估计。结论是:

  • 矩估计. $\hat{\theta} = 2\bar{x}$;
  • 极大似然估计. $\hat{\theta} = \max_{i=1}^n x_i$。(这是因为 $L(\theta) = \theta^n$,仅当 $\theta \geq \max x_i$)

区间估计

定义 4(置信区间). 设总体 $X$ 的分布函数为参数化的分布 $F(x; \theta)$,其中 $\theta$ 为参数。$X_1, …, X_n$ 是总体 $X$ 的一个样本,给定 $\alpha \in (0, 1)$,若两个统计量 $\hat{\theta}_L$ 和 $\hat{\theta}_R$ 满足

$$
\Pr\left[\hat{\theta}_L(X_1, …, X_n) < \theta < \hat{\theta}_R(X_1, …, X_n)\right] \geq 1 - \alpha, \qquad \forall \theta\in \Theta
$$

则随机区间 $(\hat{\theta}_L, \hat{\theta}_R)$ 称为参数 $\theta$ 的双侧置信区间;$1 - \alpha$ 称为置信度;$\hat{\theta}_L, \hat{\theta}_R$ 分别称为双侧置信下限双侧置信上限

定义 5(单侧置信限). 若有

$$
\Pr\left[\hat{\theta}_L(X_1, …, X_n) < \theta\right] \geq 1 - \alpha, \qquad \forall \theta\in \Theta
$$

则 $\hat{\theta}_L$ 称作 $\theta$ 的单侧置信下限,$(\hat{\theta}_L, \infty)$ 称作 $\theta$ 的置信度为 $1 - \alpha$ 的单侧置信区间

类似地,可定义单侧置信上限 $\hat{\theta}_R$ 和对应的单侧置信区间 $(-\infty, \hat{\theta}_R)$。

观察上述定义,容易想象这样一套计算方法:

枢轴量法.

  1. 构造一个参数化的统计量 $G(X_1, …, X_n; \theta)$,称作枢轴量,其服从某一易于计算的分布;
  2. 求 $(a, b)$ 使得 $\Pr[a < G(X_1, …, X_n; \theta) < b] = 1 - \alpha$;
  3. 解不等式 $a < G(X_1, …, X_n; \theta) < b$,得出置信下限和置信上限。

伯努利分布的参数的区间估计. 设总体 $X$ 服从 $\mathrm{Bern}(p)$,$X_1, …, X_n$ 为采自 $X$ 的一系列样本。求参数 $p$ 的置信度为 $1 - \alpha$ 的双侧置信区间。

我们构造如下枢轴量,根据中心极限定理其近似服从标准正态分布:

$$
G(X_1, …, X_n; p) := \frac{\sum_{i=1}^n X_i - np}{\sqrt{np(1 - p)}}
$$

于是可求出该枢轴量高概率属于的区间,这无非是 $(z_{-\alpha / 2}, z_{\alpha / 2})$。此后只需解不等式

$$
\left(\frac{n\bar{X} - np}{\sqrt{np(1 - p)}}\right)^2 \leq z_{\alpha / 2}^2
$$

无非是一些琐碎的操作,且此分布也不属于考察的重点情况,因此细节留予读者。

单个正态总体的期望区间估计. 总体 $X$ 服从正态分布 $\mathcal{N}(\mu, \sigma^2)$,从中采出 $n$ 个样本 $X_1, …, X_n$,在 $\sigma$ 已知 / 未知的情况下讨论 $\mu$ 的置信区间如何计算,并讨论 $\sigma$ 的置信区间如何计算。

  • $\mu$ 的置信区间.

    • $\sigma$ 已知. 定义枢轴量

      $$
      G(X_1, …, X_n; \mu) := \frac{\sum_{i = 1}^n X_i - n\mu}{\sqrt{n}\sigma}
      $$

      其服从正态分布,$(a, b) = (-z_{\alpha / 2}, z_{\alpha / 2})$。容易反解出置信区间为

      $$
      \boxed{
      \left(\bar{X} - \frac{\sigma}{\sqrt n}z_{\alpha / 2}, \bar{X} + \frac{\sigma}{\sqrt n}z_{\alpha / 2} \right)
      }
      $$

    • $\sigma$ 未知. 定义枢轴量

      $$
      G(X_1, …, X_n; \mu) := \frac{\sum_{i=1}^n X_i - n\mu}{\sqrt n S}
      $$

      其服从自由度为 $n - 1$ 的 $t$ 分布,$(a, b) = (-t_{\alpha / 2}(n - 1), t_{\alpha / 2}(n - 1))$。容易反解出置信区间为

      $$
      \boxed{
      \left(\bar{X} - \frac{S}{\sqrt n}t_{\alpha / 2}(n - 1), \bar{X} + \frac{S}{\sqrt n}t_{\alpha / 2}(n - 1)\right)
      }
      $$

  • $\sigma$ 的置信区间. 定义枢轴量

    $$
    G(X_1, …, X_n; \sigma) := \frac{(n - 1)S^2}{\sigma}
    $$

    其服从自由度为 $n - 1$ 的 $\chi^2$ 分布,$(a, b) = (\chi^2_{\alpha / 2}(n - 1), \chi^2_{1 - \alpha / 2}(n - 1))$。容易反解出置信区间为

    $$
    \boxed{
    \left(\frac{(n - 1)S^2}{\chi^2_{1 - \alpha / 2}(n - 1)}, \frac{(n - 1)S^2}{\chi^2_{\alpha / 2}(n - 1)}\right)
    }
    $$

两个正态总体的参数估计. 总体 $X \sim \mathcal{N}(\mu_1, \sigma_1^2), Y\sim \mathcal{N}(\mu_2, \sigma_2^2)$。从中各采出 $n_1$ 个样本 $X_1, …, X_{n_1}$ 和 $n_2$ 个样本 $Y_1, …, Y_{n_2}$,在 $\sigma$ 已知 / 未知(仅考虑 $\sigma_1^2 = \sigma_2^2 = \sigma^2$)的情况下讨论 $\mu_1 - \mu_2$ 的置信区间如何计算,并讨论 $\sigma_1 / \sigma_2$ 的置信区间如何计算。

  • $\mu_1 - \mu_2$ 的估计.

    • $\sigma$ 已知. 注意 $\bar{X} - \bar{Y}\sim \mathcal{N}\left(\mu_1 - \mu_2, \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}\right)$,进而构造枢轴量 $\frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$ 解得其置信区间为

      $$
      \boxed{
      \left((\bar{X} - \bar{Y}) \pm z_{\alpha / 2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\right)
      }
      $$

    • $\sigma$ 未知. 定义 $S_w^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}$,可知 $\frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$ 服从自由度为 $n - 2$ 的 $t$ 分布。解得其置信区间为

      $$
      \boxed{
      \left((\bar{X} - \bar{Y}) \pm t_{\alpha / 2}(n_1 + n_2 - 2)S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}\right)
      }
      $$

  • $\sigma_1 / \sigma_2$ 的估计. 显然 $\frac{S_1^2 / S_2^2}{\sigma_1 / \sigma_2}$ 服从自由度为 $(n_1 - 1, n_2 - 1)$ 的 $F$ 分布,解得置信区间为

    $$
    \boxed{
    \left(\frac{S_1^2}{S_2^2}\cdot \frac{1}{F_{\alpha / 2}(n_1 - 1, n_2 - 1)}, \frac{S_1^2}{S_2^2}\cdot \frac{1}{F_{1 - \alpha / 2}(n_1 - 1, n_2 - 1)}\right)
    }
    $$

假设检验

论证假设是否不合理。本节围绕如下实例展开:

一个双边检验的例子. 一个总体 $X$ 照以往经验服从 $\mathcal{N}(6.0, 0.36)$,现又从中采出了 $10$ 个样本,得其均值为 $6.4$。在显著水平 $0.05$ 下检验均值较以往是否有明显变化。

  • 假设. 关于未知分布的假设;
  • 原假设 $H_0$. 希望证否的假设;
  • 备择假设 $H_1$. 与原假设对立的假设;
  • 参数检验. 已知总体的形式,望检验关于未知参数的假设:
    • $H_0: \theta \geq \theta_0, H_1 : \theta < \theta_0$ (左边检验)
    • $H_0: \theta \leq \theta_0, H_1 : \theta > \theta_0$ (右边检验)
    • $H_0: \theta = \theta_0, H_1 : \theta\ne \theta_0$ (双边检验)
  • 非参数检验. 总体分布未知,对总体的分布或数字特征进行假设检验。
  • 检验规则. 将样本空间划分为两个对立的集合 $W, \bar{W}$,当 $(x_1, …, x_n)\in W$,拒绝原假设。此处 $W$ 称作拒绝域。为了方便地表示 $W$,可构造统计量 $T(x_1, …, x_n)$,拒绝原假设当且仅当 $T\in C$。

在上述例子中,可构造统计量 $\bar{X}$,当 $\bar{X}$ 和原均值($|\bar{X} - 6.0| \geq C$)偏差过大时拒绝假设。

注意在分布非平凡的情况下,都可能会出现错误的判断。错误有两类:

  • 第 I 类错误. 拒绝真实的原假设。其概率为 $\Pr[\text{reject $H_0$} | \text{$H_0$ is true}]$;
  • 第 II 类错误. 接受错误的原假设。其概率为 $\Pr[\text{accept $H_0$} | \text{$H_0$ is false}]$。

总样本量(或更显然地,总错误率)一定的情况下,这两类错误的错误率是拮抗的。因为我们的首要目标是证否原假设(希望拒绝的尽量都是错的),所以偏好使第 I 类错误概率降低。

例子中:

  • 犯第 I 类错误的概率为 $2 - 2\Phi\left(\frac{C}{\sigma / \sqrt n}\right)$($\Phi$ 为标准正态分布函数)。
  • 犯第 II 类错误的概率为 $\Phi\left(\frac{6.0 + C - \mu}{\sigma / \sqrt n}\right) - \Phi\left(\frac{6.0 - C - \mu}{\sigma / \sqrt n}\right)$。($\mu \ne 6.0$)

简单讨论可知在调大 $C$ 时,第 I 类错误概率将降低,同时无论 $\mu$ 几何第二类错误的概率都将升高,其上确界恰好与第 I 类错误互补。

定义 1(Neyman-Pearson 原则). 取 $\alpha \in (0, 1)$,寻求检验规则使得发生第 I 类错误的概率不超过 $\alpha$,同时最小化第 II 类错误发生的概率。$\alpha$ 称为显著水平。

根据此原则,应当取 $C = z_{\alpha / 2}\sigma / \sqrt n = 0.392$,因此拒绝原假设。

在 Neyman-Pearson 原则上定义的一个方便的上层建筑是 $p$ 值。

定义 2($p$ 值). 原假设成立时,检验统计量取比观察到的结果更为极端的数值的概率。

若 $p \leq \alpha$,拒绝原假设,称检验结果在水平 $\alpha$ 下是统计显著的。

若 $p > \alpha$,接受原假设,称检验结果在水平 $\alpha$ 下是统计不显著的。

例子的 $p$ 值为 $\Pr_{H_0}[|\bar{X} - 6.0| \geq 0.4] = 2 - 2\Phi(2) = 0.046$。应当拒绝。


关于单个正态总体的假设检验,两个正太总体的假设检验,在前述工具的基础之上,无非还是上一节那一套东西,这里略过。结论一并写在附录当中。

当然,这也揭示了如下的关系(据两个问题的定义显而易见):

  1. 一般地,假设检验问题 $H_0 : \theta = \theta_0, H_1 : \theta \ne \theta_0$ 的显著水平为 $\alpha$ 的接受域能写作 $\hat{\theta}_L < \theta_0 < \hat{\theta}_U$,则 $(\hat{\theta}_L, \hat{\theta}_U)$ 正好是 $\theta$ 的置信水平为 $1 - \alpha$ 的置信区间。反之,若 $(\hat{\theta}_L, \hat{\theta}_U)$ 是 $\theta$ 的置信水平为 $1 - \alpha$ 的置信区间,则令拒绝域为 $\theta_0 \leq \hat{\theta}_L$ 或 $\theta_0 \geq \hat{\theta}_U$ 可得显著水平为 $\alpha$ 的双边检验拒绝域。
  2. 同理,左边检验对应单侧置信上限;右边检验对应单侧置信下限。

以上内容都是参数化检验。下面是一个经典的非参数检验问题:

拟合优度检验. $F(x)$ 是总体 $x$ 的未知的分布函数,$F_0(x)$ 是已知但是可能含有若干参数的分布函数,检验假设

$$
H_0 : F(x) = F_0(x) \forall x\in \mathbb{R}
$$

想要做这个问题,唯一可以想象的方法是首先将值域离散化,然后考察真实频率和所期待频率之偏差。由此动机推出 Pearson $\chi^2$ 检验:

Pearson $\chi^2$ 检验.

  1. 将总体 $X$ 的取值范围划分作 $k$ 个互不相交的子集 $\mathcal{X} = \sqcup_{i=1}^k A_k$;

  2. 记 $n_i$ 表示落在 $A_i$ 中的频数。

  3. 若 $F_0(x)$ 不带参数,直接取 $p_i = \Pr[X\in A_i]$。若 $F_0(x)$ 带若干参数,先用极大似然估计来估计参数,然后可求得 $p_i$ 的估计值 $\hat{p}_i$。

  4. 取统计量

    $$
    \chi^2 = \sum_{i=1}^{k}\frac{(n_i - np_i)^2}{np_i} = \sum_{i=1}^k \frac{n_i^2}{np_i} - n
    $$

    该统计量刻画了分布与理论分布的差值。理应较小。拒绝域形如 $\chi^2 \geq c$。

关于该检验的结论:当 $n$ 充分大时,$H_0$ 为真时,$\chi^2$ 近似服从 $\chi^2(k - r - 1)$,其中 $k$ 为分类数,$r$ 为参数数。

不会证。先摆了。

方差分析

  • 试验指标. 研究对象的某个特征值(如某产品的使用寿命);
  • 因素. 对试验指标产生影响的原因(如其工况的温度);
  • 水平. 因素的不同状态(如常温、高温,etc)。

单因素方差分析. 一个单因素、$r$ 个水平,每个水平采样了 $n_j$ 个样本的单因素方差分析问题可抽象成如下数学模型

$$
\begin{aligned}
&X_{ij} = \mu + \delta_j + \varepsilon_{ij} \\
&\varepsilon_{ij} \text{ i.i.d } \sim \mathcal{N}(0, \sigma^2) \\
&i = 1, 2, …, n_j, j = 1, 2, …, r
\end{aligned}
$$

其中 $\mu$ 为总平均,因此须满足 $\sum_{j=1}^r n_j\delta_j = 0$

检验假设 $H_0: \delta_1 = \cdots = \delta_r = 0$,$H_1$ 为其反面。

可从上述问题中抽出三个统计量:

  1. 总偏差平方和. $S_T = \sum_{j = 1}^r\sum_{i = 1}^{n_j}(X_{ij} - \bar{X})^2$;
  2. 效应平方和. $S_A = \sum_{j=1}^r n_j(\bar{X}_{\cdot j} - \bar{X})^2$;
  3. 误差平方和. $S_E = \sum_{j=1}^r \sum_{j=1}^{n_j}(X_{ij} - \bar{X}_{\cdot j})^2$。

直觉上讲,效应平方和刻画了不同水平引起的误差,误差平方和刻画了随机数引起的误差。在假设成立的条件下,其理应相差无几。为了推导最后需要的统计量,需要准备如下事实:

事实 1. $S_T = S_A + S_E$。

证明. 核心是注意到

$$
\begin{aligned}
\sum_{j=1}^r\sum_{i=1}^{n_j}(X_{ij} - \bar{X}_{\cdot j})(\bar{X}_{\cdot j} - \bar{X}) = \sum_{j=1}^r(X_{ij} - \bar{X}_{\cdot j})\sum_{i=1}^{n_j}(\bar{X}_{\cdot j} - \bar{X}) = 0
\end{aligned}
$$

然后只需要拆一下那个二次函数即可。$\blacksquare$

事实 2. 三种偏差的期望:

$$
\begin{aligned}
\mathbb{E}[S_T] &= \sum_{j=1}^r n_j\delta_j^2 + (n - 1)\sigma^2 \\
\mathbb{E}[S_A] &= \sum_{j=1}^r n_j\delta_j^2 + (r - 1)\sigma^2 \\
\mathbb{E}[S_E] &= (n - r)\sigma^2
\end{aligned}
$$

证明. 只算两个

$$
\begin{aligned}
\mathbb{E}[S_T] &= \sum_{j=1}^r\sum_{i=1}^{n_j} \mathbb{E}[X_{ij}^2] - n \mathbb{E}[\bar{X}^2] \\
&= \sum_{j=1}^r\sum_{i=1}^{n_j} \left((\mu + \delta_i)^2 + \sigma^2\right) - n \left( \frac{\sigma^2}{n} + \left(\mu + \frac{1}{n}\sum_{j=1}^n n_j\delta_j\right)^2\right) \\
&= \sum_{j=1}^r n_j\delta_j^2 + (n - 1)\sigma^2 \\
\mathbb{E}[S_E] &= \sum_{j=1}^r (n_j - 1)\sigma^2 \\
&= (n - r)\sigma^2
\end{aligned}
$$

结合事实 1 得到 $\mathbb{E}[S_A]$。$\blacksquare$

事实 3. 当 $H_0$ 成立时,$S_A / \sigma^2\sim \chi^2(r - 1), S_E / \sigma^2\sim \chi^2(n - r)$,且相互独立。

证明. $\color{red}{\text{Sorry.}}$

定义统计量

$$
F = \frac{S_A / (r - 1)}{S_E / (n - r)}
$$

它服从自由度为 $(r - 1, n - r)$ 的 $F$ 分布。当 $F > F_{\alpha}(r - 1, n - r)$ 时拒绝原假设。

回归分析

一元线性回归. 对 $x$ 的一组不全相同的值,得到样本 $(x_1, Y_1), (x_2, Y_2), …, (x_n, Y_n)$。一元线性回归模型为

$$
\begin{aligned}
& Y_i = \alpha + \beta x_i + \varepsilon_i, \quad i = 1, 2, …, n \\
& \varepsilon_i \text{ i.i.d } \sim \mathcal{N}(0, \sigma^2)
\end{aligned}
$$

其中 $\alpha, \beta, \sigma^2$ 均是未知的参数。

注意到这是一个参数估计问题。我们用最小二乘法来估计这两个参数。定义偏差

$$
Q(\alpha, \beta) := \sum_{i=1}^n (y_i - \beta x_i - \alpha)^2
$$

直觉上这刻画了拟合的效果。因此我们将 $\hat{a}, \hat{b}$ 取作将其最小化的参数。我们使用多元微积分来解此问题

$$
\begin{aligned}
\frac{\partial Q}{\partial \alpha} = 0 & \Rightarrow \bar{y} - \beta \bar{x} - \alpha = 0 \\
\frac{\partial Q}{\partial \beta} = 0 & \Rightarrow \bar{x}\alpha + \bar{x^2}\beta = \bar{xy}
\end{aligned}
$$

此方程称作正规方程,其解即为一元线性回归中对 $\alpha, \beta$ 的估计值 $\hat{\alpha}, \hat{\beta}$。式子中出现的诸统计量及相关资料定义如下:

$$
\begin{aligned}
&\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, \quad \bar{y} = \frac{1}{n}\sum_{i=1}^n y_i \\
&s_{xx} = \sum_{i=1}^n (x_i - \bar{x})^2, \quad s_{xy} = \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}), \quad s_{yy} = \sum_{i=1}^n (y_i - \bar{y})^2 \\
&\bar{x^2} = \frac{1}{n}\sum_{i=1}^n x_i^2, \quad \bar{xy} = \frac{1}{n}\sum_{i=1}^n x_iy_i, \quad \bar{y^2} = \frac{1}{n}\sum_{i=1}^n y_i^2
\end{aligned}
$$

整理得到正规方程的解可以简便地表示作

$$
\begin{cases}
\hat{\alpha} = \bar{y} - \hat{\beta}\bar{x} \\
\hat{\beta} = \frac{s_{xy}}{s_{xx}}
\end{cases}
$$

Remark. 计算发现最小二乘法的目标和最大似然估计的目标不谋而合。

事实 1. $\hat{\alpha}, \hat{beta}$ 服从正态分布。关于其期望和方差,有如下论断:$\hat{\alpha}, \hat{\beta}$ 分别是 $\alpha, \beta$ 的无偏估计,$D\left[\hat{\alpha}\right] = \left(\frac{1}{n} + \frac{\bar{x^2}}{s_xx}\right)\sigma^2, D\left[\hat{\beta}\right] = \frac{\sigma^2}{s_{xx}}$。

证明. 琐碎计算。$\blacksquare$

事实 2. 定义残差 $e_i = y_i - \hat{y}_i$。则可以用残差平方和估计 $\sigma^2$:如下的量是 $\sigma^2$ 的无偏估计

$$
s^2 = \frac{1}{n - 2}\sum_{i=1}^n (y_i - \hat{y}_i)^2 = \frac{s_{yy} - \hat{\beta}s_{xy}}{n - 2}
$$

证明. 核心只在于验证 $\mathbb{E}[s_{yy}] = (n - 1)\sigma^2 + \beta^2 s_{xx}$。琐碎计算。$\blacksquare$


可以检验回归分析的显著性。将其抽象成如下假设检验问题:

$$
H_0 : \beta = 0, H_1 : \beta\ne 0
$$

此时可仿照方差分析抽出 3 个统计量:

  1. 总平方和. $SST := \sum (y_i - \bar{y})^2$;
  2. 残差平方和. $SSE := \sum (y_i - \hat{y}_i)^2$;
  3. 回归平方和. $SSR := \sum (\hat{y}_i - \bar{y})^2$。

事实 3. $SST = SSE + SSR$。

证明. 琐碎计算。$\blacksquare$

事实 4. $\frac{SSE}{\sigma^2} \sim \chi^2(n - 2), \frac{SSR}{\sigma^2} \sim \chi^2(1)$,且相互独立。

证明. $\color{red}{\text{Sorry.}}$

据此定义统计量

$$
F := \frac{SSR / 1}{SSE / (n - 2)}
$$

其服从 $F(1, n - 2)$。拒绝域为 $W = \{F > F_{\alpha}(1, n - 2)\}$。

附录:统计常用速查表格

表 1. 正态总体区间估计相关 上面三行为单个正态总体,下面三行为两个正态总体,置信水平为 $\alpha$。

待估参数 其他参数 枢轴量 分布 置信区间
$\mu$ $\sigma$ 已知 $\frac{\bar{X} - \mu}{\sigma / \sqrt n}$ $\mathcal{N}(0, 1)$ $\left(\bar{X} \pm \frac{\sigma}{\sqrt n}z_{\alpha / 2}\right)$
$\mu$ $\sigma$ 未知 $\frac{\bar{X} - \mu}{S / \sqrt n}$ $t(n - 1)$ $\left(\bar{X} \pm \frac{S}{\sqrt n}t_{\alpha / 2}(n - 1)\right)$
$\sigma$ $\mu$ 未知 $\frac{(n - 1)S^2}{\sigma^2}$ $\chi^2(n - 1)$ $\left(\frac{(n - 1)S^2}{\chi^2_{1 - \alpha / 2}(n - 1)}, \frac{(n - 1)S^2}{\chi^2_{\alpha / 2}(n - 1)}\right)$
$\mu_1\!-\!\mu_2$ $\sigma$ 已知 $\frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)}{\sigma\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$ $\mathcal{N}(0, 1)$ $\left((\bar{X} - \bar{Y}) \pm z_{\alpha / 2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\right)$
$\mu_1\!-\!\mu_2$ $\sigma$ 未知 $\frac{\bar{X}- \bar{Y} - (\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$ $t(n_1\!+\!n_2\!-\!2)$ $\begin{pmatrix}((\bar{X}\!-\!\bar{Y})\!\pm\!\\t_{\alpha / 2}(n_1\!\!+\!\!n_2\!\!-\!\!2)S_w\sqrt{\frac{1}{n_1}\!+\!\frac{1}{n_2}}\end{pmatrix}$
$\sigma_1 / \sigma_2$ $\mu$ 未知 $\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2}$ $F(n_1\!-\!1,\!n_2\!-\!1)$ $\begin{pmatrix}\frac{S_1^2}{S_2^2} \frac{1}{F_{\alpha / 2}(n_1 - 1, n_2 - 1)},\\ \frac{S_1^2}{S_2^2} \frac{1}{F_{1 - \alpha / 2}(n_1 - 1, n_2 - 1)}\end{pmatrix}$