411是什么?

本专栏的目的是解释[Claude]Shannon是如何建议我们测量信息的,以及这种测量方法如何帮助我们了解信息的传输速率…

大卫奥斯汀
大峡谷州立大学

介绍

这些天的科技新闻充斥着即将到来的无线网络5G革命的故事。虽然这场革命似乎开始得有点慢,但我们承诺它将带来显著更快的传输速率和更短的延迟。

虽然有几个理由期望改进,但一个重要因素是使用极坐标码对信息进行编码以便传输。Erdal Arikan于2009年推出的极性码在信息论的精确意义上是最优的,非常适合于这种应用。

最初,我打算在本专栏中介绍极坐标码,但是,在阅读了一段时间后,我认为备份和描述信息是如何量化的可能会很有用。这一理论大部分源自克劳德·香农1948年的开创性论文,这篇论文很精彩,但读起来很有挑战性。另一方面,最近的许多论述旨在更加严谨,并失去了一些直觉,即新手可能会试图对主题的最终含义形成清晰的认识。

因此,本专栏的目的是解释香农如何建议我们测量信息,以及这种测量方法如何帮助我们了解信息的传输速率。

信息来源

首先要知道的是信息香农(Shannon)量化的是我们在表达中的选择量。

在我居住的密歇根州大急流城,一家当地电视台经常宣传其名为“天气球”(Weatherball)的大型球,该球位于一座塔的显著位置,其颜色可以提供简单的天气预报:

 

Weatherball红色,前方温暖。
天气球蓝,视野凉爽。
Weatherball绿,无变化。

 

对于大急流城的居民来说,“天气球”是一个深受喜爱的图标,它激发了人们的情感,尽管我在这里居住了20年,但这种情感从未得到过充分的解释。然而,对香农来说,天气球是一种信息源,能够传输由三个符号组成的信息:红色、蓝色和绿色。他对信息的衡量不是由任何时候传输的符号来定义的,而是由符号有三种选择这一事实来定义的。这将是一个低信息来源。

相比之下,美国国家气象局(National Weather Service)的一份预报给出了明天的预计高温。作为一种信息源,在传输的消息中有更多的选择,这使得它成为一种更高的信息源。例如,如果我们看到今天的高温是25度,我们也知道不会是37度或62度。

因此,我们对信息的度量将与我们可以生成的可能符号的数量有关。然而,这一衡量标准也有一个统计成分。

我还没有分析Weatherball以了解一种颜色是否比其他颜色显示得更频繁,但似乎有可能颜色(红色、蓝色和绿色)显示得同样频繁。也就是说,看到其中一种颜色的概率是1/3。

相反,假设我们想象普莱森特维尔(Pleasantville)的另一个天气球(Weatherball),这是一个气候较为温和的城市,每天的气温变化不大。在这种情况下,绿色(“无变化”)比其他颜色(红色或蓝色)更有可能出现。让我们想象一下,看到每种颜色的概率是:

绿色: 1/2
红色: 1/4
蓝色: 1/4

大急流城的典型场景可能是这样的:

Pleasantville的典型序列可能是:

香农告诉我们,尽管大急流城的天气球使用了相同的三个符号,但它的信息来源比欢乐谷的更高。原因如下。假设我们想每天通过无线网络传输天气球的状态。我们首先需要将其编码为合适的格式,二进制代码似乎是一个很好的选择。我们可以利用在Pleasantville更容易看到绿色的事实来创建高效的编码。例如,考虑编码:

绿色: 0
红色: 10
蓝色: 11

也就是说,对于我们经常看到的符号,我们使用较短的代码。发送的二进制数字的平均数为$$\frac12\cdot 1+\frac14\cdot 2+\frac14 \cdot 2=\frac32.$$也就是说,我们平均每个符号传输3/2个二进制数字。

在大急流城,发送的平均位数为$$\frac13\cdot 1+\frac 13\cdot 2+\frac13\cdot 2=\frac53,$$大于普莱森特维尔每个符号的3/2二进制位。

事实上,我们可以将Pleasantville符号压缩成较小数量的二进制数字,而不会丢失信息,这表明Pleasantwille Weatherball是一个较低的信息源。(当然,我们只看了一种编码,因此可能有更好的选择用于大急流城。)

请记住,我们可以把信息看作是我们选择信息的自由度。由于Pleasantville的Weatherball让我们更频繁地选择绿色而不是红色或蓝色,所以我们的选择有点受限,这降低了信息量。

正如我们稍后将看到的那样,这种解释的真正威力在于我们可以利用它来理解信息传输的最大速率。

如左图所示,此示例中嵌入了一个管道。

我们从一个信息源开始,在我们的例子中是Weatherball,它以符号序列的形式生成消息。这些符号以某种方式编码成一组新的符号,适合通过通信信道进行传输。

信道可以是传输编码消息的任何方式,例如无线网络、电报线或信号旗。如图所示,进入通道的消息与退出的消息相同。消息可能在频道中以某种方式被破坏,这可以被构建到理论中,尽管我们在这里不会这样做。

如果给我们一个信息源和一个信道,我们的中心任务将是找到一种编码,使信息通过信道传输的速率达到最大。

我们的第一个任务是明确说明信息源的含义,然后量化它生成的信息。

信息来源

如上述示例所示,信息源将生成由一系列符号组成的消息。如果我们每天记录一段时间的颜色,Weatherball可能会产生$$GRBRBRGRBGRBGGGRBRGRGRGRGRG\ldots$$。然而,源还包括符号出现频率的统计数据。

香农将英语描述为一种信息来源。在其最简单的形式中,此源能够生成字母字符串和其他标点符号。只关注26个字母,我们知道字母的可能性并不相同;例如,“E”比“Z”出现得更频繁

但除了字母出现的频率之外,还有其他统计信息。例如,字母“Q”后面几乎总是跟着“U”(尽管拼字游戏玩家知道一些其他选项)。也就是说,遇到符号的概率可能取决于它前面的内容。

因此,我们认为信息源是马尔可夫随机过程。在任何时候,源都处于$S$状态,生成下一个符号的概率取决于$S$。

我们可以用图形表示这种情况,如下例所示。假设我们的源生成带有三个符号$A$、$B$和$C$的消息,并且我们所处的状态仅取决于生成的最后一个符号。我们用最后一个符号标记状态,并表示生成下一个符号的概率,从而移动到下一个状态,如下所示:

如果我们考虑一个信息源,其中符号的概率与之前的情况无关,那么我们的马尔可夫过程有一个我们永远不会离开的状态。

我们考虑的过程总是遍历的,这有以下直观的解释:源产生的两条很长的消息应该具有类似的统计特性。例如,考虑两部典型的英语小说。由于英语是一种遍历信息源,我们预计这两部小说中字母、数字、三角形等出现的频率应该几乎相同。

继香农之后,我们想创建一个与马尔可夫过程相关的信息度量。目前,假设$n$符号出现的概率为$p_1$、$p_2$、…和$p_n$。我们的度量$H(p_1,p_2,\ldots,p_n)$应该满足以下标准:

  • $H$在概率$p_i$中是连续的。
  • 添加更多符号可以创建更多选择,从而获得更多信息。更具体地说,考虑到$n$符号中每个符号的可能性相等的源,即$p_i=1/n$,我们预计$H$将随$n$增加。
  • 如果选择符号的过程可以分为两个连续的选择,则$H$会适当地相加。例如,考虑一下对Pleasantville Weatherball的以下描述:我们首先以相同的概率选择天气是否会改变。如果天气发生变化,我们再次以同样的概率选择是变暖还是降温。下图说明了:

    在这种情况下,我们想要$$H\left(\frac14,\frac14,\frac12\right)=H\left(\frac12,\frac12\right)+\frac12H\left(\frac12,\frac12\right)$$

Shannon表明,这三个属性决定了$H$直到一个乘法常数,这导致了定义:$$H(p_1,p_2,\ldots,p_n)=-\sum_i p_i\log_2(p_i)$$

在统计力学中,熵是一个类似的量,它是衡量系统无序程度的指标,因此我们称$H$为信息源的熵。

这里有一些例子。

  • 假设信息源以相等的概率生成两个符号0和1。那么,$$H\left(\frac12,\frac12\right)=-\frac12-log_2\left$$

    更一般地,如果源生成概率为$p$的0和概率为$1-p$的1,则$$H(p)=-p\log_2(p)–(1-p)\log_2

    注意$H(0)=H(1)=0$。例如,如果$p=0$,则源被强制仅生成1,以便其唯一可能的消息是11111111111…。这里,消息源没有任何信息,因为我们在收到消息之前就知道了消息的内容。

    我们看到,当$p=1/2$时,当0和1以相同的概率出现时,$H$是最大值,因为这意味着源在生成消息时提供了最大的选择自由。

    由于此源为每个符号生成一个二进制数字,我们说$H$上的单位是每个符号。然而,如上图所示,我们不应该将位与二进制数字等同,因为$H$不一定是整数。

  • 香农描述的另一个例子是电传打字机,一种用于传输信息的机电设备。按电传打字机键盘上的一个键,可以在纸带上打出五个可能的孔的组合。当读回时,五个电触点中的每一个都会根据磁带上穿孔的模式打开或关闭。这样,$2^5=32$的每一个密钥都在一个由五位二进制数字组成的系统中进行编码。如果以相同的概率按下每个键,则此源的熵为$\log_2(32)=每个符号5$位。在本例中,位忠实地对应于二进制数字。
  • 大急流天气球有三个符号,我们假设它们出现的概率相等。这导致$H=\log_2(3)\大约1.58.$相比之下,Pleasantville的Weatherball有$H=3/2=1.5$,这证实了我们之前的怀疑,即Pleasantwille的Weaterball是一个较低的信息来源。事实上,我们将Pleasantville源代码编码为二进制数字流,每个符号使用$3/2$位,这意味着,正如我们稍后将看到的,这是最好的编码方式。
  • 英语的熵可以通过一系列近似来理解。为了方便起见,我们只关注这26个字母。作为一种零级近似,香农从具有26个符号的源开始,每个符号出现的概率都相同。然后我们得到$H=\log_2(26)\大约4.70$。

    作为一阶近似,我们假设字母是以其自然出现的频率生成的,例如,“E”的出现概率为0.12,“Z”的出现频率为0.02。我们预计熵会从零级近似下降,因为我们现在对源施加了一些限制。事实上,我们发现$H=4.18$。

    如前所述,生成给定字母的概率取决于它之前的字母,这导致了二阶近似。例如,当“Q”出现时,“U”紧随其后的概率为0.92,而“a”紧随其后的概率仅为0.02。我们的源代码现在是一个马尔可夫过程,状态$S$由生成的最后一个字母定义。对于每个状态$S$,我们使用生成下一个字母的概率找到熵$H(S)$。马尔可夫过程的熵是加权平均值:$$H=\sum_i P_i~H(S_i)$$,其中总和是所有状态$S_i$的总和,$P_i$是任何时候处于状态$S_i$的概率。我们发现熵是$H=3.66$。

    当然,我们可以考虑三阶近似,其中一个状态由生成的前两个字母决定;高阶近似也以同样的方式出现。随着顺序的增加,生成的信息开始看起来越来越像易懂的英语。

    总之,我们有

    订单
    0 4.70
    1 4.18
    2 3.66

    顺序的每一次增加都会增加对字母生成方式的更多限制,从而导致选择消息的自由度降低,从而导致熵降低。

给定一个信息源,Shannon定义相对熵使用相同的符号集表示熵与最大熵的比值。例如,Pleasantville Weatherball的每个符号的熵为3/2位。如果我们给相同的三个符号相同的概率,就像在大急流天气球中一样,我们有一个最大熵$\log_2(3)$。Pleasantville Weatherball的相对熵为$(3/2)/\log_2(3)=0.946$。这个冗余一个信息源的信息量是一减去相对熵,因此,在这种情况下,我们有大约5.4%的冗余度,这提供了一个压缩信息的机会,我们在上面通过将其编码为二进制数字序列来进行压缩。

使用上述近似值,香农估计英语的熵约为每个字母2.3位,冗余度约为50%。这意味着可以删除英文信息中的一半字母,并重新构建整体含义,这一点对于经常发短信或推特的人来说并不奇怪。对于那些只读了一半的人来说,这也是一个好消息莫比·迪克,只要你读到合适的一半。

熵的解释

到目前为止,我们已经将熵描述为我们在创建消息时的自由度。让我们研究几个含义。

首先,假设熵为$H$的信息源具有$n$个符号,出现的概率为$p_1$、$p_2$、……、$p_n$,并且该信息源生成的消息是具有$n$个符号的长序列。每个符号在消息中出现大约$p_iN$次,因此获得该消息的概率大约为$$p\约p_1^{p_1N}p_2^{p_2N}\ldots p_n^{p_nN}.$$注意$$\log_2(p)\approx p_1N\log_2因此$$p大约为2^{-NH}$$

这导致了两个重要结论。首先,获取长消息的概率大约是恒定的。如果我们还记得我们的假设,即信息源是遍历的,那么这可能并不太令人惊讶。我们还得出结论,大约有$2^{NH}$这样的序列。注意,$H$的值越大,意味着消息的数量越大,这加强了我们对$H$作为自由选择消息的衡量标准的理解。

通过说明$N$符号的消息,随着$N$变大,可以将其分为两组:一组是大约$2^{NH}$消息,每个消息的发生概率大致相等(我们将其称为高概率消息)另一个是一个集合,当$N$趋于无穷大时,其总概率变小。

相对熵在这里提供了额外的含义。假设我们有一个信息源$I$,其相对熵为$r$,冗余度为$\rho=1-r$。如果$\overline{H}$是与$I$具有相同$n$符号集的信息源的最大熵,则$\overrine{H{=\log_2(n)$。这个最大的源产生长度为$n$的$n^n=2^{n\上划线{H}}$消息,每个消息的概率都相等。此集合中包含信息源$I$的较小的$2^{NH}$高概率消息集。因此,$I$的高概率消息的分数是$$2^{NH}/n^n=2^{n(H-\overline{H})}=2^{-n\overline{H2}(1-r)}=1/(n^n)^{1-r}=1/。

请注意,如果$\rho=0$,则没有冗余,因此每个可能的消息都是高概率消息。相反,我们说英语的冗余大约是$\rho=1/2$。如果我们取字母表中的26个字母,随机形成100个字母的序列,那么大约$$1/(26^{100})^{1/2}=1/26^{50}\大约1.8\乘以10^{-71}$$将是有意义的英语序列。通过这种方法,我们可以量化一只随机键入的猴子写一个100个字符的有意义的句子需要多长时间。

传输速率

我们一直将熵视为信息的一种度量,并从直觉上看到了它是如何成为一种有用的度量。然而,再多做一点工作,我们就会发现熵正是确定信息传输速率的正确度量。

首先,回顾我们的管道。我们有一个信息源,以符号序列的形式生成消息。我们希望通过类似无线网络或电报线的信道来传输信息。我们还可以对源生成的消息进行编码,以便(a)更有效地传输消息,以及(b)在信道中存在可能损坏消息的噪声的情况下提高传输的可靠性。

虽然香农提出了描述信道传输符号速率的一般框架,但我们将考虑保留基本成分的简化版本。为此,假设我们的信道以一个时间单位传输$C$二进制数字。在$T$时间单位中,信道能够传输$CT$数字,因此可以传输$2^{CT}$可能的消息。

假设我们的源以每单位时间$R$个符号的速率生成符号。在$T$时间单位中,我们有$RT$符号,因此有$2^{RTH}$高概率消息。为了在$T$时间单位内可靠地传输这些消息,我们需要能够发送超过高概率消息数量的消息:$$2^{CT}\geq2^{RTH}$$,因此是$CT\geqRTH$。这表明传输速率受每单位时间$$R\leq\frac CH$$个符号的限制。通过这种方式,熵为符号的传输速率提供了一个上限。较高的熵导致更多的信息,从而导致较低的速率。

所以传输速率受$C/H$的限制,但我们可以说得更多。事实上,总是有可能找到一种编码,它允许我们希望的传输速率接近$C/H$,Shannon向我们展示了如何使用我们现在所称的香农码.

首先,请注意,我们将对$N$符号的消息进行编码,而不是对单个符号进行编码。让我们从收集$N$符号的所有可能消息开始,并记录它们生成的概率。接下来,我们将对消息进行排序,使其概率不增加。也就是说,如果$q_i$是$i^{th}$消息的概率,那么$$q_1\geq_2\geq_3\geq\ldots.$$通过$C_i$,我们将表示该序列的累积概率,因此$$C_i=\sum_{j\lti}q_j.$$关键点是:$i^{th}$消息将使用$d_i=\lceil\log_2(1/q_i)\rceil$二进制数字编码为$C_l$的二进制展开式。

  • 这可能看起来有很多需要考虑的因素,所以让我们回到Pleasantville看看一个例子。记住我们有三个符号$G$、$R$和$B$,概率$p_G=1/2$、$p_R=1/4$和$p_B=1/4$。此外,熵是$H=3/2$。

    我们将对长度为$N=1$的消息进行编码,这些消息只是单个符号。对这三条消息进行排序,我们得到了下表,其中包括$C_i$.$$的二进制扩展\开始{array}{c|c|c|c}{\bf消息}&q_i&c_i&d_i=\lceil\log_2(1/q_i$$

    因此,我们发现了我们之前使用的相同编码:

    绿色: 0
    红色: 10
    蓝色: 11

    注意,消息的平均长度是每个符号$$L=\frac12\cdot 1+\frac14\cdot 2+\frac 14\cdot2=3/2$$个二进制数字,这个平均长度等于熵$L=H$。如果我们的信道每单位时间传输$C$位,并且每个符号的平均长度为$L$位,那么我们可以以$$\frac{C}{L}=\fracCH.$$的速率进行传输。换句话说,这种编码可以获得最佳的传输速率。

  • 让我们考虑另一个信息源,其符号为$A$、$B$、$C$,生成概率为$p_A=2/3$、$p_B=1/6$和$p_C=1/6$。该源的熵为$$H=-\frac13\log_2(2/3)-\frac16\log_2(1/6)-\frac16\log_2(1/6)\每个符号大约1.25$$比特。

    如前所述,让我们考虑编码由$N=1$符号组成的消息。然后我们找到$$\begin{array}{c|c|c| c|c|1c|c}{\bf Message}&q_i&c_i&d_i=\lceil\log_2(1/q_i)\rceil&{\bf-Encoding}\\hline A&2/3&0=0.0&{\rm0}\\B&1/6&2/3=0.101&3{\rm 101}\\c&1/6&5/6=0.110&3&{\orm 110}\\end{arrary}$$

    消息的平均长度为$$L_1=\frac23\cdot 1+\frac16\cdot 3+\frac16\ cdot 3=\frac53\约1.66.$$请注意,$L_1=1.66>1.25=H$,这意味着我们可以使用此编码以$C/L_1$的速率进行传输,该速率仅为$C/H$最佳速率的75%。

    让我们看看如果我们编码由$N=3$符号组成的消息是否有改进。这样的消息有$3^3=27$,所以我们将重点查找$L_3$,即每个符号的平均比特数,而不是显式地编写编码。下表根据消息的概率对消息进行分组,并在标记为“#”的列下记录每组中的数字。$$\开始{array}{c|c|c| c|c|1c|cC|c}{\bf消息}&q_i&{\rm\#}&d_i=\lceil\log_2(1/q_i)\rceil\\hline AAA&8/27&1&2\\AAB,…&4/54&6&4\\ABB,…&2/108&12&6\\BBB,…-1/216&8\\end{arrai}$$这意味着每个符号的平均长度为$L_3=\frac13\\left(\frac{8}{27}\cdot 2+压裂{4}{54}\cdot 6\cdot 7+\frac{2}{108}\cdot12\cdot6+\frac{1}{216}\cdot 8\cdot8\right)=\frac43\约1.33.$$使用这种编码,我们能够以$C/L_3$的速率进行传输,这大约是$C/H$最佳速率的94%。这种改进是由于使用较短的位串对更频繁出现的消息进行编码。

    正如我们所看到的,长度3编码产生了更大的压缩,从而提高了传输速率。我们可能期望编码更长的消息将提供持续改进。事实上,Shannon证明了$L_N$是$N$的一个接近$H$的非增函数。通过这种方式,可以创建一种编码,使传输速率尽可能接近最佳速率$C/H$。

如果你想出几个例子,你将能够看到每条消息都是唯一编码的,并且编码的消息可以唯一解码,这是正确解码消息的必要条件。

我们现在已经看到香农所说的无噪声信道的基本定理:

给定熵为$H$的信息源和以每单位时间$C$比特传输的信道,可以找到一种编码,其传输速率可根据需要接近每单位时间的$C/H$符号。传输速率不可能大于$C/H$。

当然,也有一些缺点。首先,我们需要枚举和排序所有带有$N$符号的消息,当$N$较大时,这可能很困难。其次,编码长消息可能会导致传输延迟。例如,想象一下,在一次电话交谈中,一个句子在完全说出之前是无法传输的。

香农码有助于证明最佳传输速率是可以接近的,但它只是一种可能的编码方式。也许另一种编码方案会更快地接近最佳速率,甚至等于最佳速率。这就是阿里坎的极性密码进入我们故事的地方,但这条信息正在被编码,并将在6月份通过这个频道传输!

总结

在本专栏中,我们一直在研究通过透明通道的传输;也就是说,从频道中传出的内容正是进入频道的内容。任何通过手机进行对话的人都知道它不是这样工作的,因为噪音经常会混淆信息。(具有讽刺意味的是,在它的所有功能中,手机在成为真正的电话时表现得更差。)

Shannon的论文还考虑了噪声信道,并提出了一种测量在这种信道上可以传输多少信息的方法。一个关键思想是条件熵。如果进入通道的符号形成一个集合$X$,而出来的符号形成$Y$,我们希望知道我们收到了$Y$,这将使我们能够确定进入通道生成$Y$的唯一$X$。然而,噪音意味着我们不能完全相信输入$x$,所以我们考虑不同输入$x$$y$的概率。也就是说,我们考虑条件概率$p(x|y)$,它会导致条件熵,如果我们知道$y$,它是重建$x$时不确定性的度量。无噪声信道的条件熵为零,因为没有不确定性。

利用条件熵,香农能够确定信息通过噪声信道的最佳传输速率。这个结果最初看起来可能令人惊讶:如果频道有噪音,我们怎么能相信我们收到的任何东西?然而,信源中的冗余起到了拯救作用。例如,读者将能够理解从嘈杂的频道中出现的这句话:

Npisy chamnels仍在战斗。

在本专栏中,我们一直在研究离散信息源,因此值得注意的是,Shannon还开发了一种适用于连续信息源的理论。

事实上,熵在某种程度上无处不在。我们已经提到它在统计力学中的出现。生态学家使用类似的数量来衡量生物多样性。一旦你开始考虑信息来源,你可能会开始在你周围看到它们。特别是,您可能想知道数学本身是否是使用数学符号以高度压缩格式编码的信息源。它的熵和冗余是什么?

最后,读者肯定很想了解更多关于大急流天气球的信息,所以我将与大家分享,上图中的当前球是第二个化身。第一个“天气球”位于市中心一栋建筑的屋顶上,重达64吨。我们已经说过这是一个低信息源,但现在我们可以看到每磅的熵惊人地小。

工具书类

  • 克劳德·香农和沃伦·韦弗。 传播数学理论。 伊利诺伊大学出版社。1964

    本卷包含Shannon的原始论文,还包括作为前言的主题的非技术概述和Weaver对Shannon结果的总结。

  • 克劳德·香农。 印刷英语的预测和熵。 贝尔系统技术期刊。30.1(1951): 50-64.

    本文描述了香农对英语熵的估计。

  • 英语字母频率,实用密码术。

    这个网站提供了我用来计算英语近似值熵的字母和数字的频率。

留下回复

您的电子邮件地址将不会被发布。 已标记必填字段*

不允许使用HTML标记。

49419个垃圾邮件机器人被阻止简单注释