介绍
信息来源
Weatherball红色,前方温暖。 天气球蓝,视野凉爽。 Weatherball绿,无变化。
信息来源
熵
$H$在概率$p_i$中是连续的。 添加更多符号可以创建更多选择,从而获得更多信息。 更具体地说,考虑到$n$符号中每个符号的可能性相等的源,即$p_i=1/n$,我们预计$H$将随$n$增加。 如果选择符号的过程可以分为两个连续的选择,则$H$会适当地相加。 例如,考虑一下对Pleasantville Weatherball的以下描述:我们首先以相同的概率选择天气是否会改变。 如果天气发生变化,我们再次以同样的概率选择是变暖还是降温。 下图说明了: 在这种情况下,我们想要$$H\left(\frac14,\frac14,\frac12\right)=H\left(\frac12,\frac12\right)+\frac12H\left(\frac12,\frac12\right)$$
假设信息源以相等的概率生成两个符号0和1。 那么,$$H\left(\frac12,\frac12\right)=-\frac12-log_2\left$$ 更一般地,如果源生成概率为$p$的0和概率为$1-p$的1,则$$H(p)=-p\log_2(p)–(1-p)\log_2 注意$H(0)=H(1)=0$。 例如,如果$p=0$,则源被强制仅生成1,以便其唯一可能的消息是11111111111…。 这里,消息源没有任何信息,因为我们在收到消息之前就知道了消息的内容。 我们看到,当$p=1/2$时,当0和1以相同的概率出现时,$H$是最大值,因为这意味着源在生成消息时提供了最大的选择自由。 由于此源为每个符号生成一个二进制数字,我们说$H$上的单位是 位 每个符号。 然而,如上图所示,我们不应该将位与二进制数字等同,因为$H$不一定是整数。 香农描述的另一个例子是电传打字机,一种用于传输信息的机电设备。 按电传打字机键盘上的一个键,可以在纸带上打出五个可能的孔的组合。 当读回时,五个电触点中的每一个都会根据磁带上穿孔的模式打开或关闭。 这样,$2^5=32$的每一个密钥都在一个由五位二进制数字组成的系统中进行编码。 如果以相同的概率按下每个键,则此源的熵为$\log_2(32)=每个符号5$位。 在本例中,位忠实地对应于二进制数字。 大急流天气球有三个符号,我们假设它们出现的概率相等。 这导致$H=\log_2(3)\大约1.58.$相比之下,Pleasantville的Weatherball有$H=3/2=1.5$,这证实了我们之前的怀疑,即Pleasantwille的Weaterball是一个较低的信息来源。 事实上,我们将Pleasantville源代码编码为二进制数字流,每个符号使用$3/2$位,这意味着,正如我们稍后将看到的,这是最好的编码方式。 英语的熵可以通过一系列近似来理解。 为了方便起见,我们只关注这26个字母。 作为一种零级近似,香农从具有26个符号的源开始,每个符号出现的概率都相同。 然后我们得到$H=\log_2(26)\大约4.70$。 作为一阶近似,我们假设字母是以其自然出现的频率生成的,例如,“E”的出现概率为0.12,“Z”的出现频率为0.02。 我们预计熵会从零级近似下降,因为我们现在对源施加了一些限制。 事实上,我们发现$H=4.18$。 如前所述,生成给定字母的概率取决于它之前的字母,这导致了二阶近似。 例如,当“Q”出现时,“U”紧随其后的概率为0.92,而“a”紧随其后的概率仅为0.02。 我们的源代码现在是一个马尔可夫过程,状态$S$由生成的最后一个字母定义。 对于每个状态$S$,我们使用生成下一个字母的概率找到熵$H(S)$。 马尔可夫过程的熵是加权平均值:$$H=\sum_i P_i~H(S_i)$$,其中总和是所有状态$S_i$的总和,$P_i$是任何时候处于状态$S_i$的概率。 我们发现熵是$H=3.66$。 当然,我们可以考虑三阶近似,其中一个状态由生成的前两个字母决定; 高阶近似也以同样的方式出现。 随着顺序的增加,生成的信息开始看起来越来越像易懂的英语。 总之,我们有 订单 熵 0 4.70 1 4.18 2 3.66 顺序的每一次增加都会增加对字母生成方式的更多限制,从而导致选择消息的自由度降低,从而导致熵降低。
熵的解释
传输速率
这可能看起来有很多需要考虑的因素,所以让我们回到Pleasantville看看一个例子。 记住我们有三个符号$G$、$R$和$B$,概率$p_G=1/2$、$p_R=1/4$和$p_B=1/4$。 此外,熵是$H=3/2$。 我们将对长度为$N=1$的消息进行编码,这些消息只是单个符号。 对这三条消息进行排序,我们得到了下表,其中包括$C_i$.$$的二进制扩展 \开始{array}{c|c|c|c}{\bf消息}&q_i&c_i&d_i=\lceil\log_2(1/q_i$$ 因此,我们发现了我们之前使用的相同编码: 绿色: 0 红色: 10 蓝色: 11 注意,消息的平均长度是每个符号$$L=\frac12\cdot 1+\frac14\cdot 2+\frac 14\cdot2=3/2$$个二进制数字,这个平均长度等于熵$L=H$。 如果我们的信道每单位时间传输$C$位,并且每个符号的平均长度为$L$位,那么我们可以以$$\frac{C}{L}=\fracCH.$$的速率进行传输。换句话说,这种编码可以获得最佳的传输速率。 让我们考虑另一个信息源,其符号为$A$、$B$、$C$,生成概率为$p_A=2/3$、$p_B=1/6$和$p_C=1/6$。 该源的熵为$$H=-\frac13\log_2(2/3)-\frac16\log_2(1/6)-\frac16\log_2(1/6)\每个符号大约1.25$$比特。 如前所述,让我们考虑编码由$N=1$符号组成的消息。 然后我们找到$$\begin{array}{c|c|c| c|c|1c|c}{\bf Message}&q_i&c_i&d_i=\lceil\log_2(1/q_i)\rceil&{\bf-Encoding}\\hline A&2/3&0=0.0&{\rm0}\\B&1/6&2/3=0.101&3{\rm 101}\\c&1/6&5/6=0.110&3&{\orm 110}\\end{arrary}$$ 消息的平均长度为$$L_1=\frac23\cdot 1+\frac16\cdot 3+\frac16\ cdot 3=\frac53\约1.66.$$ 请注意,$L_1=1.66>1.25=H$,这意味着我们可以使用此编码以$C/L_1$的速率进行传输,该速率仅为$C/H$最佳速率的75%。 让我们看看如果我们编码由$N=3$符号组成的消息是否有改进。 这样的消息有$3^3=27$,所以我们将重点查找$L_3$,即每个符号的平均比特数,而不是显式地编写编码。 下表根据消息的概率对消息进行分组,并在标记为“#”的列下记录每组中的数字。$$ \开始{array}{c|c|c| c|c|1c|cC|c}{\bf消息}&q_i&{\rm\#}&d_i=\lceil\log_2(1/q_i)\rceil\\hline AAA&8/27&1&2\\AAB,…&4/54&6&4\\ABB,…&2/108&12&6\\BBB,…-1/216&8\\end{arrai}$$这意味着每个符号的平均长度为$L_3=\frac13\\left(\frac{8}{27}\cdot 2+压裂{4}{54} \cdot 6\cdot 7+\frac{2}{108}\cdot12\cdot6+\frac{1}{216}\cdot 8\cdot8\right)=\frac43\约1.33.$$ 使用这种编码,我们能够以$C/L_3$的速率进行传输,这大约是$C/H$最佳速率的94%。 这种改进是由于使用较短的位串对更频繁出现的消息进行编码。 正如我们所看到的,长度3编码产生了更大的压缩,从而提高了传输速率。 我们可能期望编码更长的消息将提供持续改进。 事实上,Shannon证明了$L_N$是$N$的一个接近$H$的非增函数。 通过这种方式,可以创建一种编码,使传输速率尽可能接近最佳速率$C/H$。
给定熵为$H$的信息源和以每单位时间$C$比特传输的信道,可以找到一种编码,其传输速率可根据需要接近每单位时间的$C/H$符号。 传输速率不可能大于$C/H$。
总结
Npisy chamnels仍在战斗。
工具书类
克劳德·香农和沃伦·韦弗。 传播数学理论。 伊利诺伊大学出版社。 1964 本卷包含Shannon的原始论文,还包括作为前言的主题的非技术概述和Weaver对Shannon结果的总结。 克劳德·香农。 印刷英语的预测和熵。 贝尔系统技术期刊。 30.1 (1951): 50-64. 本文描述了香农对英语熵的估计。 英语字母频率, 实用密码术。 这个网站提供了我用来计算英语近似值熵的字母和数字的频率。