W公司 与诺玛·莱沃的婚姻结束后,克洛德·香农再次成为单身汉,没有任何依附关系,住在格林威治村的一间小公寓里,工作要求很高。 他的夜晚大多是他自己的,如果说香农一生中有一刻他最自由的时候,那就是这样。他不定时,音乐音量太大,喜欢纽约的爵士乐。 他很晚才去参加喧闹的晚宴,顺便去了华盛顿广场公园的国际象棋俱乐部。 他去村里的一个游泳池游泳,在哈德逊河边的球场上打网球。 有一次,他被网球拍绊倒,摔得很重,不得不缝合。
他的家位于西十一街51号的三楼,是一家纽约的小工作室。 楼下的邻居玛丽亚·莫尔顿回忆道:“去洗手间的路上有一间卧室。它很旧。它是一间寄宿公寓……非常浪漫。”。 也许可以预见的是,香农的空间一团糟:尘土飞扬,杂乱无章,中间桌子上散落着他拆开的一个大型音乐播放器的内脏。 “冬天天气很冷,所以他拿了一架旧钢琴,把它切碎放在壁炉里取暖。”他的冰箱几乎是空的,他的唱片播放器和单簧管是这个原本斯巴达风格的空间里唯一珍贵的东西。 克劳德的公寓面向街道。 伟大的人类学家克劳德·列维·施特劳斯也住在同一栋公寓楼里。 后来,列维·施特劳斯发现他的作品受到了前邻居作品的影响,尽管他们在同一屋檐下很少互动。
虽然这座大楼的住家高级公寓和管家弗雷迪认为香农情绪低落,有点孤僻,但香农确实与邻居玛丽亚交上了朋友,并与之约会。当他的高音量音乐终于迫使她敲门时,他们相遇了; 从她的抱怨中,友谊和浪漫的关系绽放开来。
克劳德·香农
玛丽亚鼓励他打扮起来,进城去。 当他们开车时收音机里响起熟悉的曲调时,他会惊叹道:“这太棒了!”。 他给她朗读詹姆斯·乔伊斯和T.S.艾略特的作品,后者是他最喜欢的作家。 她记得,他晚上忙于解数学题,吃饭的时候,他经常在餐巾纸上写下零散的方程式。 他对战争或政治几乎没有什么强烈的意见,但对这位或那位爵士音乐家有很多意见。 “他会在他喜欢的音乐家和我喜欢的音乐家之间找到这些共同点,”她回忆道。 他对威廉·谢尔顿(William Sheldon)关于体型及其伴生性格的理论产生了兴趣,他希望谢尔顿能理解自己的轨道(用谢尔顿的术语来说,即外胚层)框架。
贝尔实验室的几个同事成为了香农最亲密的朋友。 一个是巴尼·奥利弗。 他身材高大,笑容随和,举止得体,喜欢苏格兰威士忌和讲故事。 奥利弗随和的性格掩盖了他强烈的才智:“巴尼是天才中的一员,据说智商为180,”一位同事回忆道。 他的兴趣遍及天地。 最终,他将成为寻找外星生命运动的领导者之一。 奥利弗也是为数不多的在香农的想法被曝光之前就听说过的人之一。 正如他后来骄傲地回忆道的那样,“我们成了朋友,所以我是他的许多理论的中间妻子。你知道,他会把这些理论从我身上弹回,所以我在信息论出版之前就已经了解了它。”奥利弗这可能是一个温和的自夸,但考虑到香农甚至很少让人进入他思想的边缘, 值得注意的是,香农和他谈过工作。
噪音的答案不在于我们说话的声音有多大,而在于我们说什么就说什么。
约翰·皮尔斯(John Pierce)是贝尔实验室(Bell Labs)的另一位朋友,他的公司香农(Shannon)也在休息时间与他分享工作。 在实验室里,皮尔斯“培养了一大批忠实的崇拜者,被他的智慧和活泼的头脑迷住了。”他是香农的镜像,身材瘦削,身材高大,对任何没有强烈兴趣的事情都会很快感到厌倦。 这扩展到了人们。 乔恩·格特纳(Jon Gertner)写道:“皮尔斯在中途突然进入或离开谈话或用餐,这很常见。”。
香农(Shannon)和皮尔斯(Pierce)是智力竞赛的搭档,而这两位智者之间只有两位。在贝尔实验室(Bell Labs)任职期间,他们交换想法,共同撰写论文,分享无数书籍。 皮尔斯多次告诉香农,“他应该写下这个或那个想法。”据说香农以特有的漫不经心回答道,“‘应该’是什么意思?”
奥利弗、皮尔斯和香农是一个天才集团,每个人都有自己的智慧,能够在别人的陪伴下找到安慰。 他们都对新兴的数字通信领域着迷,并共同撰写了一篇关键论文,解释其在准确性和可靠性方面的优势。 一位当代人回忆起了这三位贝尔实验室的神童:
事实证明,同时在BTL(贝尔电话实验室)有三位获得认证的天才,分别是信息理论专业的克劳德·香农、通信卫星和行波放大器专业的约翰·皮尔斯和巴尼。 显然,这三个人在智力上是不受欢迎的。 他们是如此聪明和能干,他们在工程界取得了巨大的成就,只有这样一个有声望的实验室才能同时处理这三个问题。
其他报道表明,香农可能并没有像他那样“难以忍受”,因为他很不耐烦。 他的同事记得他很友好,但很冷漠。 他向玛丽亚坦白了自己对实验室日常生活的不满。 “我觉得这让他恶心,”她说。 “我真的很喜欢。当他对追求自己的事业如此感兴趣时,他不得不做所有的工作。”
看来,香农和同事之间的距离在一定程度上是纯粹的处理速度问题。 用住在香农隔壁办公室的布罗克瓦·麦克米兰(Brockway McMillan)的话来说, “他对相当常见的数学论证类型有某种不耐烦感。他解决问题的方式与大多数人以及他的大多数同事的方式不同……很明显,他的许多论证速度,比方说,快于他的同事。”其他人认为的沉默, 麦克米兰认为这是一种环境挫折:“他对那些不如他聪明的人没有太多耐心。”
这给了他一种匆忙的神态,也许太匆忙了,不适合成为学院派。 实验室的另一位同事大卫·斯莱宾(David Slepian)说,他“在很多方面都是一个非常奇怪的人……他并不是一个不友好的人。”。 香农对那些跟不上节奏的同事的回应只是忘记他们。 麦克米兰告诉格特纳:“他从不争论自己的想法。如果人们不相信,他就会忽视这些人。”。
乔治·亨利·刘易斯曾观察到,“天才很少能够描述自己的过程。”香农似乎就是这样,他既不能向他人解释自己,也不关心他人。在他的工作生活中,他更喜欢独处,并将自己的职业联想降到最低。 “他非常非常隐秘,”莫尔顿回忆道。 香农(Shannon)后来的合作者罗伯特·法诺(Robert Fano)表示,“他不会听别人说该做什么。”有人观察到,这其中的一个标志是,香农的论文很少是合著的。
香农不会是第一个具有内向气质的天才,但即使在贝尔实验室的大脑中,他也是一个与众不同的人。 麦克米兰说:“他不可能成功地进入其他部门……你会敲门,他会和你说话,否则,他就闭口不谈。”。
还有其他一些事情,甚至可能让他远离他的亲密同事:香农在兼职。 晚上在家的时候,香农正在做一个私人项目。 在他读研究生的时候,这一点就开始在他的脑海中清晰可见。 他会在不同的时候提出不同的出处日期。 但无论这个想法第一次出现在他脑海中的日期是什么,直到纽约和1941年,笔才真正与纸相遇。 现在,这套套索既是贝尔实验室工作的一种受欢迎的分心方式,也是他非常珍视的深层理论工作的一个出口,而战争也有可能取消这项工作。 回想这一次,他想起了直觉的闪光。 工作不是线性的; 想法来了就来了。 “这些事情有时……有一天晚上,我记得我半夜醒来时,我有了一个主意,于是我彻夜致力于这个问题。”
想象一下香农在这段时间里的样子,就是看到一个瘦子在荒诞的时间用铅笔轻敲膝盖。 这不是一个在最后期限的人; 这更像是一个沉迷于私人谜题的人,一个多年来一直在破解的谜题。 玛丽亚说:“他会安静下来,非常非常安静。但他没有停止餐巾的工作。连续两三天。然后他会抬起头来,说:‘你为什么这么安静?’”
餐巾装饰着桌子,一串串的思想和零散的方程式堆积在他周围。 他用整齐的字体在有衬里的纸上书写,但原材料无处不在。 像这样的八年——涂鸦、精炼、划掉,凝视着一堆方程式,知道在所有这些努力的最后,它们可能什么都没有揭示。 早上有休息时间听音乐和抽烟,有睡意朦胧的走路去上班,但主要是因为这种不停的练习。 回到书桌上,他可能感觉到自己正在做一些有意义的事情,一些甚至比他成名的硕士论文更重要的事情,但又是什么呢?
我 信息是猜测而非谈论的东西,在它最终被束缚之前,它以十几种方式被暗示。 信息是后台的存在。 生理学家赫尔曼·冯·赫尔姆霍兹(Hermann von Helmholtz)的研究就是这样做的,他给青蛙肌肉通电,第一次测量动物神经中信息的速度,就像汤姆森测量电线中信息速度一样。 鲁道夫·克劳修斯(Rudolf Clausius)和路德维希·玻尔兹曼(Ludwig Boltzmann)等物理学家的工作就是如此,他们开创性地量化无序-扭曲的方法,并怀疑有一天信息可能会以同样的方式量化。 最重要的是,信息来源于网络,这部分源于首次尝试使用水下电缆跨越大西洋。 在针对连接点A和B的实际工程问题的攻击中,为了处理一天的消息负载,我们需要连接的最小电线数量是多少? 我们如何加密绝密电话- 一般来说,信息本身的属性逐渐被揭示出来。
到克劳德·香农(Claude Shannon)童年的时候,世界上的通信网络已经不再是充当电力管道(一种电子管道)的无源电线。它们是连续扫描机器,可以说是现存最复杂的机器。 沿着电话线排列的真空管放大器为语音信号增加了能量,否则这些信号会在千英里的旅程中衰减并消失。 事实上,在香农出生的前一年,贝尔和沃森通过重新接通他们的第一个电话开通了横贯大陆的电话线,这次是在纽约的贝尔和旧金山的沃森。 到香农上小学的时候,反馈系统自动管理电话网络的放大器,保持语音信号稳定,并消除困扰早期电话的“嚎叫”或“歌唱”噪音,即使是在季节变换和天气变化的敏感线路周围,这些声音也会被抑制。 每年香农打电话的时候,他都不太可能和人工接线员通话,而更可能是通过机器,通过贝尔实验室盛大地称之为“机械大脑”的一个自动开关板,进行通话。在组装和改进这些庞大的机器的过程中, 香农这一代科学家理解信息的方式与前一代科学家了解蒸汽机制造过程中的热量的方式大致相同。
信息的真正衡量标准不在我们发送的符号中,而在我们本可以发送但没有发送的符号中。
香农做了最后的综合,他定义了信息的概念,并有效地解决了噪声问题。 正是香农将这些线索汇集到了一门新科学中。 但他在贝尔实验室有重要的前辈,两位工程师在他发现密歇根大学本科生的工作后形成了他的想法,他们是第一个考虑如何将信息建立在科学基础上的人,香农的里程碑式论文将他们选为先驱。
其中之一是哈里·奈奎斯特。 在奈奎斯特之前,工程师们已经了解到,通过网络传递信息的电信号——无论是电报、电话还是照片——都会上下剧烈波动。 在纸上表示,这些信号看起来像波浪:不是平静起伏的正弦波,而是一条混沌的、风吹的线,似乎没有图案。 然而在那里 是 一种模式。 即使是最无政府的波动也可以分解为大量平静、规则的波浪的总和,所有波浪都以各自的频率一个接一个地撞击,直到泡沫化为混乱。
通过这种方式,通信网络可以承载一个频率范围或“频带”。 似乎需要更大的频率范围,更大的“带宽”,才能产生更有趣、更复杂的波,从而携带更丰富的信息。 为了有效地进行电话通话,贝尔网络需要200至3200赫兹的频率,或3000赫兹的带宽。 所需的电报更少; 电视需要2000倍以上。
奈奎斯特(Nyquist)展示了任何通信信道的带宽如何为以给定速度通过它的“情报”数量设置上限。 但这种对智力的限制意味着,连续信号(比如电话线上的信息)和离散信号(比如点和破折号,或者我们可以补充一下,0和1)之间的区别远没有表面上那么清晰。 一个连续信号的振幅仍然平稳变化,但您也可以将该信号表示为一系列采样或离散时间切片,并且在给定带宽的限制内, 没有人能分辨出其中的区别 实际上,该结果向贝尔实验室展示了如何在同一线路上发送电报和电话信号,而不受两者之间的干扰。 更重要的是,正如一位电气工程教授所写,它表明“技术通信的世界本质上是离散的或‘数字’的。”
用奈奎斯特(Nyquist)的话来说,“情报传输速度意味着代表不同字母、数字等的字符数,这些字符可以在给定的时间长度内传输。”这比可能的情况要清楚得多,但这是第一次, 有人正在探索一种有意义的科学处理信息的方法。 那么,这里是奈奎斯特的电报发送情报速度公式:
W公司 = k个 日志( 米 )
W公司 就是智慧的速度。 米 是系统可以传输的“当前值”的数量。 电流值是电报系统装备用来发送的离散信号:电流值的数量类似于字母表中可能的字母数量。 如果系统只能“开”或“关”通信,则它有两个电流值; 如果它能传递“负电流”、“关”和“正电流”,它就有三个; 如果它能传达“强烈的否定”、“消极”、“关闭”、“积极”和“强烈的积极”,它就有五种。 最后, k个 是系统每秒能够发送的当前值的数目。
换句话说,奈奎斯特表明,电报传输情报的速度取决于两个因素:它发送信号的速度,以及它词汇中“字母”的数量。 更多的“字母”或当前值 可能的 ,实际需要通过导线发送的数据越少。
奈奎斯特对当前价值观的简短离题暗示了智力与选择之间的联系。 但仍然是这样。 他更感兴趣的是设计更高效的系统,而不是推测这种智能的本质; 更重要的是,人们仍然期望他能取得一些实际成果。 因此,在向同事们建议他们在电报网络中建立更多的当前价值观后,他转向了其他工作。在留下了所有通信系统在数字性质上都类似于电报的诱人建议后,他也没有继续对通信本身进行概括。 与此同时,他定义智力的方式——“不同的字母、数字等”——仍然令人痛苦地模糊。 在字母和数字的后面,到底是什么?
R(右) 香农说,领导拉尔夫·哈特利(Ralph Hartley)的工作“对我的生活产生了重要影响。”这不仅仅是对他的研究或研究:香农一生中的大部分时间都在使用哈特利(Hartley -他将哈特利的思想扩展到了哈特利或任何人都无法想象的程度。 在1939年的一封信中,香农首次提出了他将在九年后完成的通信研究,信中他使用了奈奎斯特的“智慧”。当这项工作完成时,他使用了哈特利(Hartley)简洁的术语:“信息”。虽然像香农这样的工程师不需要提醒, 正是哈特利使意义与信息的无关性比以往任何时候都更加清晰。
从一开始,哈特利对通信网络的兴趣就比奈奎斯特的兴趣更加杂乱无章:他在寻找一个能够涵盖任何媒介的信息传输能力的单一框架,这是一种在普通尺度上比较电报、无线电和电视的方法。 哈特利1928年的论文将奈奎斯特的工作提升到了更高的抽象层次,比任何人都更接近这一目标。 哈特利在意大利科莫湖的一次科学会议上发表的论文符合这一抽象概念,简称为“信息传递”
聚集在阿尔卑斯山脚下参加会议的是一群威严的人群。 出席会议的有量子物理学的两位创始人尼尔斯·玻尔(Niels Bohr)和沃纳·海森堡(Werner Heisenberg),以及将继续建造世界上第一座核反应堆的恩里科·费米(Enrico Fermi),他们坐在芝加哥大学体育场的看台下,哈特利(Hartley)竭力表明信息研究属于他们的公司。 他首先要求观众考虑一个思维实验。 想象一下,一个电报系统有三个电流值:负、关和正。 我们没有让训练有素的操作员用电报钥匙来选择值,而是把钥匙挂在一个随机装置上,比如说“一个球滚到三个口袋中的一个口袋里”。我们把球滚下斜坡,发送随机信号,并根据需要重复多次。 我们已经发送了一条消息。 它有意义吗?
香农理所当然地认为这个意思可以忽略。
哈特利回答说,这取决于我们的意思。 如果电线是完好的,信号没有失真,我们就向接收器发送了一组清晰易读的符号,事实上,这比通过故障电线发出的人工生成的信息要清晰得多。 但无论它是如何清晰地传达出来的,这个信息也可能是胡言乱语:“原因是只有有限数量的可能序列被赋予了意义”,而随机选择序列更有可能超出这个有限的范围。 只有在事先就我们的符号达成一致的情况下才有意义。 所有的交流都是这样的,从电线上发出的电波,到约定用来象征文字的字母,再到约定用来代表事物的文字。
对于哈特利来说,这些关于符号词汇含义的共识都取决于“心理因素”——而这是两个肮脏的词。 有些符号相对固定(例如莫尔斯电码),但其他许多符号的含义因语言、个性、情绪、语调、时间等因素而异。 那里没有精确性。 如果按照奈奎斯特(Nyquist)的说法,信息的数量与从许多符号中进行选择有关,那么第一个要求就是要明确符号的数量,不受心理上的突发奇想的影响。 信息科学必须理解我们所说的胡言乱语以及我们所说有意义的信息。 因此,在一篇重要的文章中,哈特利解释了我们如何开始从心理上考虑信息, 但在物理上:“在估计物理系统传输信息的能力时,我们应该忽略解释问题,使每个选择完全任意,并将我们的结果建立在接收器区分选择任何一个符号的结果和选择任何其他符号的结果的可能性上。”
真正衡量信息的标准不是我们发送的符号,而是我们本可以发送的符号, 但没有 。发送消息就是从可能的符号池中进行选择,“在每次选择时,都会删除所有可能已被选择的其他符号。”选择就是取消其他选择。 大词汇表中的符号比小词汇表的符号承载更多的信息。 信息衡量选择自由。
就这样,哈特利关于选择的思想强烈呼应了奈奎斯特对当前价值观的洞察力。 但奈奎斯特在电报方面的证明,哈特利证明了 任何 传播形式; 奈奎斯特的想法原来是哈特利的一个子集。 从更大的角度来看,对于那些一次只发送一个符号的离散消息,只有三个变量控制信息量:数字 k个 每秒发送的符号数,大小 秒 可能的符号集,以及长度 n个 消息的。 给定这些数量,并调用传输的信息量 H(H) ,我们有:
H(H) = k个 日志 秒 n个
如果我们从一组符号中随机选择,则可能的消息数量会随着消息长度的增长呈指数级增长。 例如,在我们的26位字母表中,有676个可能的两位字母字符串(或26个 2 ),但17576个三字母字符串(或26 三 ). 哈特利和他之前的奈奎斯特一样,觉得这很不方便。 如果信息量与每个额外符号呈线性增长,而不是呈指数级爆炸,那么它将更加可行。 通过这种方式,可以说一份20个字母的电报所包含的信息是10个字母电报的两倍,前提是这两封电报使用的字母相同。 这解释了对数在哈特利公式(和奈奎斯特公式)中的作用:它将指数变化转化为线性变化。 对于哈特利来说,这是一个“实际工程价值”的问题
T型 当时,克劳德·香农(Claude Shannon)拿起帖子时,他的信息大概就在那里。 始于19世纪的一种意识,即如果我们能够以某种方式量化我们的信息,那么我们可以在远处更准确地交谈,这种意识几乎已经成熟为一门新的科学。 每一步都是迈向更高抽象的一步。 信息是通过电线的电流。 信息是通过电报发送的一些字符。 信息是符号中的选择。 每次迭代时,混凝土都会脱落。
当香农在西村的单身公寓里或在贝尔实验室紧闭的门后咀嚼这一切长达十年之久时,信息科学似乎已经几乎停滞不前了。 哈特利本人仍在贝尔实验室工作,当香农签约时,他是一名即将退休的科学家,但由于与主流太过疏远,两人无法有效合作。 哈特利之后的下一个决定性的步骤只有天才和时间才能找到。 事后来看,我们可以说,如果这一步是显而易见的,那么它肯定不会在20年内保持不变。 如果这一步是显而易见的,那么肯定不会有这么大的惊喜。
皮尔斯说:“这是一枚炸弹。”。
从一开始,香农的里程碑式的论文“传播数学理论”表明,他已经消化了信息科学先驱们最精辟的东西。 当奈奎斯特使用模糊的“智力”概念,哈特利努力解释放弃心理和语义的价值时,香农理所当然地认为意义可以被忽略。 同样,他欣然接受了信息衡量选择自由的观点:信息之所以有趣,是因为它们“ 从集合中选择 可能的消息。” 他同意,如果我们规定两张穿孔卡片上的信息量是其中一张卡片上信息量的两倍(而不是平方),或者两个电子通道可以携带两倍于一张的信息,这将满足我们的直觉。
这是香农的债务。 他接下来所做的事表明了他的雄心壮志。 每一个通信系统——不仅是1948年存在的系统,不仅是人手制造的系统,而且每一个可以想象的系统——都可以简化为一个极其简单的本质。
• 信息来源 生成消息。 • 发射机 将消息编码为能够作为信号发送的形式。 • 通道 是信号通过的介质。
• 这个 噪声源 表示在信号到达接收器的过程中影响信号的失真和损坏。 • 接受者 对信息进行解码,使发送器的动作反向。
• 这个 目的地 是邮件的收件人。
这种剥离式模型的优点在于它具有普遍适用性。 这是一个信息情不自禁地播放人类信息、电路中的信息、神经元中的信息、血液中的信息的故事。 你对着电话说话(来源); 手机将你声音的声压编码为电信号(发射机); 信号进入导线(通道); 附近电线中的信号干扰它(噪音); 信号被解码回声音(接收器); 声音从另一端(目的地)传到耳朵。
在你的一个细胞中,你的DNA链包含了构建蛋白质的指令(来源); 指令编码在信使RNA链(传送器)中; 信使核糖核酸将密码带到细胞的蛋白质合成位点(通道); RNA代码中的一个“字母”在“点突变”(噪声)中随机切换; 每一个三个字母的代码都被翻译成氨基酸,蛋白质的组成部分(接收器); 氨基酸被结合成蛋白质链,DNA的指令被执行(目的地)。
这六个盒子足够灵活,甚至可以应用到世界上还没有构思出的信息,而香农正在为这些信息做准备。 它们将人类的声音视为从卫星上反射出来的电磁波,以及互联网不断的数字搅动。 它们同样适用于写入DNA的代码。 虽然该分子的发现还需要五年的时间,但香农可以说是第一个将我们的基因设想为信息载体的人,这是一个富有想象力的飞跃,消除了机械、电子和生物信息之间的界限。
然而,香农首先看到,信息科学仍然未能确定信息的一些关键因素:它的概率性质。 当奈奎斯特和哈特利将其定义为从一组符号中进行选择时,他们假设从该组中进行的每个选择都具有同等的可能性,并且与之前选择的所有符号无关。 香农反驳道,这是真的 一些 选择是这样的。 但只有一些。 例如,一枚公平的硬币正面或反面落地的几率是50%。 这是最简单的选择——正面或反面,是或否,1或0——这是最基本的信息。 这种信息实际上符合哈特利的思维方式。 这将是真正衡量信息的基准。
新科学需要新的计量单位,以证明他们一直在谈论和谈论的概念最终被数字所捕获。 香农科学的新单位是代表这种选择的基本情况。 因为这是一个0或1的选择,所以它是一个“二进制数字”。在整个项目中,香农只允许合作的一部分,他把它放在贝尔实验室同事的一张午餐桌上,想出了一个更时髦的名字。 比尼特 和 大人物 被权衡并拒绝了,但获胜的提案是由贝尔大学的普林斯顿教授约翰·图基提出的。 比特 .
一位是在两个同样可能的选项之间进行选择所产生的信息量。 因此,“一个有两个稳定位置的设备……可以存储一个比特的信息。”这样一个设备的比特数——两个位置的开关、两面的硬币、两个状态的数字——并不取决于选择的结果,而是取决于可能选择的数量和选择的几率。 两个这样的设备将代表四个总的选择,并将被称为存储两位。 因为Shannon的度量是对数(以2为基数,换句话说,是将2提高到给定数的幂的“相反”),所以每次提供的选择数平方时,位数都会翻倍:
因此,想想另一个极端的例子:想想一个有两个头的硬币。 你想扔多少次就扔多少次——它能给你多少 任何 信息? 香农坚称没有。 它没有告诉你任何你不知道的事情:它没有解决任何不确定性。
信息真正衡量的是什么? 它衡量我们克服的不确定性。 它衡量我们学习尚未学习的东西的机会。 或者,更具体地说:当一件东西携带着另一件东西的信息时——就像一个仪表读数告诉我们一个物理量,或者一本书告诉我们一个人的一生——它携带的信息量反映了关于这个物体不确定性的减少。 解决最大不确定性的消息是从最广泛的符号中挑选出来的,其中有最奇怪的符号,信息最丰富。 但是,在完全确定的地方,就没有信息:没有什么可说的。
有些选择是这样的。 但并不是所有的硬币都是公平的。
“你发誓说实话,全部实话,只说实话吗?”在法庭宣誓的历史上,除了“是”之外,还有多少次答案是别的? 因为只有一个答案是真的可以想象的,所以这个答案几乎没有给我们提供任何新的信息,我们可能事先就猜到了。 大多数人类仪式都是如此,在所有场合下,我们的演讲都是被规定和安全地期待的(“你接受这个人吗?”)。 当我们从信息中分离出意义时,我们发现一些最有意义的话语也是信息量最小的。
我们可能会倾向于关注少数几个否认誓言或将新娘留在祭坛上的例子。 但用香农的话来说,关键的信息量不在于一个特定的选择,而在于通过任何给定的选择学习新东西的可能性。 一枚重磅硬币的头部偶尔也会出现尾部,但由于硬币的平均可预测性很强,信息也很差。
然而,最有趣的情况是介于完全不确定性和完全可预测性的两个极端之间:在加权硬币的广泛领域。 现实世界中发送和接收的几乎每一条消息都是一枚经过加权的硬币,所涉及的信息量随加权而变化。 在这里,香农展示了硬币翻转中的信息量,其中给定一方的概率(称之为概率) 第页 )从0%到50%到100%不等:
50-50赔率的情况下最多提供一个比特,但随着选择在两个方向上变得更加可预测,惊喜的数量逐渐减少,直到我们达到完全可预测的选择,而这个选择什么也没有告诉我们。 哈特利定律仍然描述了50-50的特殊案例。 但现在很明显,哈特利的理论被夏侬的理论所吞噬:夏侬为每一种可能性工作。 最后,真正的信息度量取决于这些概率:
H(H) = – 第页 日志 第页 —— q个 日志 q个
在这里, 第页 和 q个 是两种结果的概率,即硬币的任何一面,或可以发送的任何符号的概率,两者之和为100%。 (当可能有两个以上的符号时,我们可以在公式中插入更多的概率。)消息中的比特数( H(H) )取决于它的不确定性:几率越接近相等,我们一开始就越不确定,结果就越让我们惊讶。当我们偏离平等时,需要解决的不确定性也随之减少 H(H) 作为衡量硬币“平均惊喜”的一个指标。将一枚硬币的重量计算在70%的情况下会出现正面,你会发现翻转它会传递一条价值约0.9比特的信息。
现在,所有这一切的目的不仅仅是为了计算出每一个可以想象的信息中的精确比特数:在比硬币翻转更复杂的情况下,可能性会成倍增加,而每一种可能性的准确几率则变得更难确定。 香农的目的是迫使他的同事从概率和不确定性的角度来考虑信息。 这是对奈奎斯特和哈特利的传统的一次突破,正是这一传统帮助香农的项目的其余部分保持了动感,与形式一样,他认为这是微不足道的:“我认为这并不难。”
无论困难与否,它都是新的,它揭示了传递信息和克服噪音的新可能性。 我们可以把不公平的机会变成有利的。
F类 或者说,事实上,大量信息的象征行为不像公平的硬币。 现在发送的符号在重要和可预测的方面取决于刚刚发送的符号。 因为这些规则使某些模式更有可能,而某些模式几乎不可能,所以像英语这样的语言远远缺乏完全的不确定性和最大的信息。 从信息理论家的角度来看,我们的语言是可以预测的,几乎是枯燥乏味的。这种可预测性是破译码者的基本工具,香农在二战期间作为密码学家的工作中对其非常熟悉。
在香农儿时最喜欢的故事中,我们可以找到一个具体的例子,说明破译密码的可预测性的价值:埃德加·爱伦·坡的《金臭虫》。在故事的高潮,古怪的藏宝人罗格朗先生解释了他是如何破译这段看似无法穿透的代码,从而发现海盗埋藏的宝藏:
53‡‡†305))6*; 4826)4‡.) 4‡); 806*; 48†8’60))85;] 8*:‡*8†83 (88)5*†; 46(;88*96*?;8)*†(;485); 5*†2:*‡(;4956*2(5*-4)8’8*; 40 69285);) 6†8)4‡‡; 1(‡9;48081;8:8‡1;48†85;4)485†528806*81 (‡9;48;(88;4(‡?34;48)4‡; 161;: 188;‡?;
和所有优秀的破译者一样,他开始计算符号频率。 符号“8”出现次数最多,为34次。 这个小小的事实就是导致整个结构倒塌的裂缝。 以下是罗格朗先生对这一点的解释:
现在,在英语中,最常见的字母是e。 很少见到任何长度的句子,因为它不是主要的特征…
由于我们的主要字符是8,我们将首先假设它是自然字母表的e…
现在,在语言中的所有单词中,“the”是最常见的; 因此,让我们看看它们是否是以相同的搭配顺序重复任何三个字符,最后一个是8。 如果我们发现这样排列的字母重复出现,它们很可能代表单词“the”。在检查中,我们发现至少有七个这样的排列,字符是; 48.因此,我们可以假设分号代表t,4代表h,8代表e,最后一个得到了很好的证实。 因此,我们迈出了一大步。
作为一个半文盲海盗的作品,这个密码很容易破解。 更复杂的密码会使用任何数量的策略来抵消频率计数:在消息的中途切换代码字母,消除双元音和双辅音,只需去掉字母“e”。Shannon在战时帮助开发的代码更为复杂。 但最终,破译代码仍然是可能的,而且仍然是可能,因为每条消息都与人类通信的基本现实相违背。 沟通就是让自己变得可预测。
我们所说的大多数话都可以不说。
这是香农在其信息理论工作中形成的一种古老的代码破译者的直觉:代码破译之所以有效,是因为我们的信息比完全不确定的信息要少得多。 当然,这并不是因为香农在密码学方面的工作推动了他在信息理论方面的突破:在他开始思考任何正式意义上的代码之前,他就开始思考信息了——事实上,他早就知道他将在为美国政府服务的几年中担任密码学家。 与此同时,他关于信息的工作和关于代码的工作都是从一个单一的来源发展而来的:他对信息未经审查的统计性质感兴趣,以及他对掌握这种性质可能会扩展我们的沟通能力的直觉。 正如香农所说,这些都是“信息,一方面试图隐藏,另一方面又试图传播。”
用信息论的术语来说,使代码跟踪成为可能的消息的特征是冗余。 密码学历史学家大卫·卡恩这样解释:“粗略地说,冗余意味着信息中传输的符号比承载信息所需的符号多。”信息解决了我们的不确定性; 冗余是信息的每一部分,它告诉我们什么都不是新的。 只要我们能猜到接下来会发生什么,我们就面临着冗余。 字母可以是多余的:因为Q后面几乎自动跟着U,所以U本身几乎什么也没告诉我们。 我们通常可以丢弃它,此外还有许多信件。 正如Shannon所说,“MST PPL HV LTTL DFFCLTY N RDNG THS SNTNC”
单词可能是多余的:“the”几乎总是一种语法形式,它通常可以被删除,而对我们的理解几乎没有什么影响。 爱伦·坡的密码盗版应该明智地通过删除“the”或“48”的每一个实例来减少信息的冗余——这正是罗格朗先生利用的开口。 完整的信息可能是多余的:在所有那些我们的答案几乎都是预先知道的有权重的情况下,我们可以说,可以说,不能说新的东西。 根据Shannon对信息的理解,多余的符号是我们可以做的所有符号,没有我们可以在不损害信息的情况下敲击的每一个字母、单词或行。
如果这种冗余源于制约我们自由的规则,那么它也取决于彼此沟通的实际性。 每一种人类语言都是高度冗余的。 从信息理论家冷静的角度来看 大多数 我们所说的话,无论是出于惯例,还是语法,还是习惯,都可以不说。 在他的交际理论中,香农猜测,世界上丰富的英语文本可以在不损失信息的情况下一分为二:“当我们写英语时,我们写的一半是由语言结构决定的,一半是自由选择的。”后来, 他对冗余度的估计高达80%:实际上只有五分之一的字符包含信息。
香农建议说,事实上,我们很幸运,我们的裁员人数没有增加。 如果是的话,就不会有任何纵横填字游戏了。 在零冗余的情况下,“任何字母序列在语言中都是合理的文本,任何二维字母数组都会形成一个纵横填字谜。”冗余度越高,序列越少,潜在交集的数量也会减少:如果英语的冗余度大得多,就几乎不可能产生纵横填字谜。 另一方面,香农推测,如果英语不那么多余的话,我们就会在三维空间里填充纵横填字游戏。
单位 理解了冗余,我们可以有意识地对其进行操作,就像早期的工程师学会了利用蒸汽和热量一样。 当然,几个世纪以来,人类一直在以试错的方式试验冗余。 当我们写速记,当我们指定昵称,当我们发明行话来将大量意义(“当你面对前方时船的左侧”)压缩成一个点(“港口”)时,我们减少了冗余。 当我们说“V如维克多”时,我们添加了冗余,以使自己更清楚地被听到,当我们绕着明显的东西旋转时,甚至当我们重复自己的时候。 但正是香农展示了所有这些行动背后的概念统一性。
在我们信息时代的基础上,电线和微芯片被剥离,一旦0和1的流被分开,我们就会发现香农的两个基本通信定理。 它们共同说明了我们处理冗余的两种方法:减法和加法。
每个信号都会受到噪声的影响。 每一条信息都有可能被破坏、扭曲、篡改。
首先,我们能以多快的速度发送信息? 香农表示,这取决于我们能从中提取出多少冗余信息。最有效的信息实际上类似于一系列随机文本:每个新符号都会尽可能地提供信息,从而尽可能地令人惊讶。 没有一个符号会被浪费。 因此,我们通过给定通道进行通信的速度取决于我们如何对消息进行编码:我们如何将消息包装得尽可能紧凑,以便发货。 香农第一定理证明了每个消息源都有一个最大紧性点。 当每个符号都告诉我们一些新的东西时,我们已经达到了交流的极限。
因为我们现在有了一个精确的信息度量,即比特,我们也知道一条消息在到达完美奇点之前可以压缩多少。 这是信息物理概念的一大优点,有点站在米和克之间:这证明了我们的通信效率不仅取决于我们谈话媒体的质量、电线的厚度或无线电信号的频率范围,还取决于信息本身中可测量的、针可下载的东西。 然后,剩下的是源代码的工作:构建可靠的系统,从源位置的所有冗余消息中提取多余的信息,并在目标位置重新构建它们。 香农和麻省理工学院的工程师罗伯特·法诺在这个方向上迈出了重要的一步。
Y(Y) et我们的信息也受到威胁。 每个信号都会受到噪声的影响。 每一条消息都容易被破坏、扭曲、扰乱,而最雄心勃勃的消息,即最远距离发送的最复杂脉冲,最容易被扭曲。 不久(不是1948年),但在香农和他的贝尔实验室同事的有生之年,人类通信将达到其雄心壮志的极限,除非噪音得到解决。
这就是香农第二个基本定理的负担。 与他的第一个模型暂时消除了方程中的噪音不同,第二个模型假定了一个现实的噪音世界,并向我们展示了在这个世界中我们的准确性和速度的界限。 理解这些界限不仅需要调查我们想说什么,还需要调查我们的表达方式:我们发送信息的信道的质量,无论该信道是电报线还是光缆。
香农的论文首次定义了 通道容量 ,通道每秒可以准确处理的位数。 他证明了信道容量与其他两个特性之间的精确关系:带宽(或其可容纳的频率范围)及其信噪比。 然而,关于频道容量的突破性事实并不仅仅是可以交易或交易掉。 这是因为在任何媒介中,精确通信都有一个硬性限制——以比特每秒为单位的“速度限制”。 过了这一点(很快就被称为香农极限),我们的精确度就崩溃了。
香农给了每一代工程师一个目标,以及一种方式,让他们知道他们什么时候在浪费时间追求无望。 在某种程度上,他还给了他们自19世纪电报时代以来一直追求的东西:一个将信息和媒体置于相同法律之下的等式。
这就足够了。 但这似乎是下一步,这取决于一个人的观点,是奇迹还是不可思议。 在低于频道速度限制的情况下,我们可以使消息如我们所愿准确无误——无论出于何种目的,我们都可以使其完全准确,完全没有噪音。 这是香农最深远的发现:在香农想到这一点之前,法诺称之为“未知,不可思议”。
单位 在香农之前,人们普遍认为必须忍受噪音。 香农对完美准确性的承诺是全新的。 (从技术上讲,这是一个“任意小”错误率的承诺:错误率低到我们想要的程度,并且愿意为此付出代价。)对于工程学教授詹姆斯·梅西来说,正是这个承诺使香农的理论成为“哥白尼” 从哥白尼的意义上讲,它卓有成效地站在了我们的头上,彻底改变了我们对世界的理解。 正如太阳“显然”绕地球公转一样,对噪音的最佳回答“显然”与物理通信通道有关,与它们的功率和信号强度有关。
香农提出了一个令人不安的倒置。 忽略物理通道并接受其限制:我们可以通过操纵消息来克服噪音。 噪音的答案不在于我们说话的声音有多大,而在于我们说什么就说什么。
1858年,当第一条尝试使用的跨大西洋电报电缆在服务仅28天后就出现故障时,该电缆的运营商曾试图通过重复操作来应对摇摇欲坠的信号。 他们跨越大西洋的最后一条信息是重复的记录:“请重复。”“放慢速度。”, 如果他们能读到香农的论文“请增加冗余。”
在某种程度上,这一点已经很明显了:在嘈杂的房间里两次说同样的话是一种增加冗余的方式,前提是未声明的假设,即相同的错误不太可能连续两次出现在同一个地方。 然而,对香农来说,还有更多。 我们在语言上的可预测性,我们天生无法最大限度地利用信息,实际上是我们避免错误的最佳保护。 对香农来说,钥匙就在密码里。 他指出,我们必须能够编写代码,冗余在其中起屏蔽作用:代码中没有一个位是不可或缺的,因此代码中的任何位都可以吸收噪声的损害。
香农并没有在他1948年的论文中提出这些密码,但他证明了它们一定存在。 准确沟通的秘诀不是在拥挤的房间里大喊大叫,不是在电报上连接更多的火花线圈,也不是向天空发射两倍的电视信号。 我们只需要发出更聪明的信号。
只要我们尊重频道的速度限制,我们的准确性就没有限制,通过它我们可以听到的噪音也没有限制。 任何消息都可以完美地发送——只要它被翻译成1和0,我们就可以在任何距离向任何人传递任何复杂的信息。
正如所有通信系统都有一个共同的基本结构一样,它们发送的所有信息都具有数字亲属关系。 Shannon的同事Robert Gallager说:“在那之前,每个人都认为沟通是指试图找到沟通书面语言、口语、图片、视频和所有这些不同事物的方式,所有这些都需要不同的沟通方式。”。 “克劳德说不,你可以把所有的信息都转换成二进制数字。然后你就可以找到传递二进制数字的方法。”你可以把任何信息编码为比特流,而不必知道它会去哪里; 您可以高效可靠地传输任何比特流,而无需知道它来自何处。 正如信息理论家戴夫·福尼(Dave Forney)所言,“比特是通用接口。”
随着时间的推移,Shannon在《 贝尔系统技术期刊 这将产生一个数字世界:卫星以二进制代码与地球对话,光盘可以通过污迹和划痕播放音乐(因为存储只是另一个通道,划痕只是另一种噪音),世界信息被蒸馏成两英寸宽的黑色矩形。
S公司 汉农会活着看到“信息”从一个理论的名字变成一个时代的名字。 “信息时代的大宪章” 科学美国人 几十年后,他会把1948年的论文称为。 “没有克劳德的作品,我们所知道的互联网是不可能创造出来的”,这是一篇典型的赞扬。 接着是:“对文明的重大贡献。”“解决不同科学领域问题的通用线索。”“我每年都会重读一遍,惊奇不已。我相信我每次都能提高智商。”“在技术思想的编年史上,我知道没有比这更伟大的天才作品了。”
香农于1948年满32岁。 数学界的传统智慧一直认为,一个年轻的数学家应该在30岁之前完成他最重要的工作; 职业数学家对衰老的恐惧与职业运动员没有太大区别。 约翰·纳什的传记作家西尔维亚·纳萨尔写道:“对大多数人来说,三十岁只是青年和成年之间的分界线,但数学家们认为这是一个年轻人的游戏,所以三十岁意味着更令人沮丧的事情。”
按照这个标准,香农迟到了两年,但他做到了。
吉米·索尼(Jimmy Soni)是一位作家、编辑和前演讲稿撰写人。
罗伯·古德曼(Rob Goodman)是哥伦比亚大学(Columbia University)博士生,前国会演讲稿撰写人。
发件人 游戏中的思维 吉米·索尼和罗伯·古德曼。 版权所有©2017 Jimmy Soni和Rob Goodman。 经Simon&Schuster,Inc.许可重印。
获取Nautilus时事通讯
尖端科学,由最聪明的在世思想家揭开。