Information and Entropy (7) Processes
Abstract. 在上一节的基础上继续讨论一些通信过程的性质。
我们讨论的处理过程具有如下特点:
- Discrete. 输入是一组互斥事件集,每时每刻只会有一个发生,输出是另一个互斥事件集。
- Finite. 上述两个事件集均为有限集。
- Memoryless. 当前输出只取决于当前输入,和之前的输入没有关系。
- Nondeterministic. 对于相同的输入可能输出不同的结果(“噪声”)。
- Lossy. 从输出中无法反推输入。
大概是总结了之前的 Communication System 的特点。
下面几节感觉很平凡,均为常识内容,我们直接跳到第三节。
Information, Loss and Noise
和上一节相同,我们定义输入的信息量为
$$
I = \sum p(A_i)\log\left(\frac 1{p(A_i)}\right)
$$
输出的信息量为
$$
J = \sum p(B_i)\log\left(\frac 1{p(B_i)}\right)
$$
然后上一节还记述了对输入的不确定度的期望
$$
L = \sum_{j}\sum_{i} p(A_i, B_j) \log\left(\frac 1{p(A_i | B_j)}\right)
$$
这个值称为 loss,相应的,对输出的不确定度
$$
N = \sum_{j}\sum_{i} p(A_i, B_j) \log\left(\frac 1{p(B_j | A_i)}\right)
$$
称为 noise。
假设 $W$ 是输出端可以识别到输入端变化的最大速率,那么
$$
C = WM_{max}
$$
称为这个过程的 capacity。
上一节我们已经推导过了
$$
M = I - L = J - N
$$
因此有
$$
J = I - L + N
$$
或者简明地用下面的这个图来表示这个 discrete memoryless process 中的信息流动
原论文中的记号 在 Shannon 的原论文中记号和这里不太一样,简单记录一下:
- 输入的概率分布称为 $x$,输出的概率分布称为 $y$。
- $H(x)\leftarrow I, H(y)\leftarrow J, H_y(x)\leftarrow L, H_x(y)\leftarrow N, R \leftarrow M$。
Example. 回忆我们在第 4 节中提到的 Hamming Code,在推导纠错码长度下界的过程中我们利用码距得到了
$$
2^n \times m \leq 2^m
$$
接下来我们从信息熵的角度推导这个下界。
要求总是能够检查错误,也就是 $L = 0$,即
$$
I + N = J
$$
这里的输入信息量只能是原来的 $01$ 串的信息量,即 $n$,而 noise 只可能是反转 $m$ 个位置之一,也就是噪声的熵为 $N = \log_2 m$。输出是一个长度为 $m$ 的串,但是信息熵未必是 $m$,因为显然这里 $2^m$ 种情况不是都能取到的。
于是有
$$
I + N = n + \log_2 m = J \leq m \Rightarrow n + \log_2 m \leq m
$$
即上述不等式取对数的形式。
可能这个项目就到这里为止了。后面全是统计力学,量子力学之类的东西,不想看了。