Information and Entropy (7) Processes

Posted on 2024-01-17 Edited on 2024-01-22 In Notes , Basic , Information and Entropy

Abstract. 在上一节的基础上继续讨论一些通信过程的性质。

我们讨论的处理过程具有如下特点：

大概是总结了之前的 Communication System 的特点。

下面几节感觉很平凡，均为常识内容，我们直接跳到第三节。

Information, Loss and Noise

和上一节相同，我们定义输入的信息量为

$$
I = \sum p(A_i)\log\left(\frac 1{p(A_i)}\right)
$$

输出的信息量为

$$
J = \sum p(B_i)\log\left(\frac 1{p(B_i)}\right)
$$

然后上一节还记述了对输入的不确定度的期望

$$
L = \sum_{j}\sum_{i} p(A_i, B_j) \log\left(\frac 1{p(A_i | B_j)}\right)
$$

这个值称为 loss，相应的，对输出的不确定度

$$
N = \sum_{j}\sum_{i} p(A_i, B_j) \log\left(\frac 1{p(B_j | A_i)}\right)
$$

称为 noise。

假设 $W$ 是输出端可以识别到输入端变化的最大速率，那么

$$
C = WM_{max}
$$

称为这个过程的 capacity。

上一节我们已经推导过了

$$
M = I - L = J - N
$$

因此有

$$
J = I - L + N
$$

或者简明地用下面的这个图来表示这个 discrete memoryless process 中的信息流动

原论文中的记号 在 Shannon 的原论文中记号和这里不太一样，简单记录一下：

输入的概率分布称为 $x$，输出的概率分布称为 $y$。
$H(x)\leftarrow I, H(y)\leftarrow J, H_y(x)\leftarrow L, H_x(y)\leftarrow N, R \leftarrow M$。

Example. 回忆我们在第 4 节中提到的 Hamming Code，在推导纠错码长度下界的过程中我们利用码距得到了

$$
2^n \times m \leq 2^m
$$

接下来我们从信息熵的角度推导这个下界。

要求总是能够检查错误，也就是 $L = 0$，即

$$
I + N = J
$$

这里的输入信息量只能是原来的 $01$ 串的信息量，即 $n$，而 noise 只可能是反转 $m$ 个位置之一，也就是噪声的熵为 $N = \log_2 m$。输出是一个长度为 $m$ 的串，但是信息熵未必是 $m$，因为显然这里 $2^m$ 种情况不是都能取到的。

于是有

$$
I + N = n + \log_2 m = J \leq m \Rightarrow n + \log_2 m \leq m
$$

即上述不等式取对数的形式。

可能这个项目就到这里为止了。后面全是统计力学，量子力学之类的东西，不想看了。