数据文明的进步:时间表

的前体我们想做什么中包含可计算数据Wolfram|Alpha公司从许多方面来说,这可以追溯到人类历史的曙光,事实上,它们的发展与整个文明的进步紧密相连。

去年我们邀请当今伟大数据存储库的领导者Wolfram数据峰会-作为一篇对话文章,我们列出了系统数据和可计算知识的历史发展时间表。

今年,随着我们接近2011年Wolfram数据峰会,我们已经采纳了我们得到的评论和建议,我们正在提供一个五英尺长(1.5米)印刷海报具有基本内容在网络上.

历史数据时间表

时间轴讲述的故事是一个引人入胜的故事:我们的文明是如何通过多个步骤将越来越多的知识领域系统化的,收集了与之相关的数据,并逐渐使其易于自动化的。

通常对历史的讲述很少提及这些发展,尽管其中许多在我们今天的生活中是如此明显。重量和度量。日历。按字母顺序排列的列表。数据绘图。字典。地图。音乐符号。股票图表。时间表。公共记录。邮政编码。天气预报。所有帮助我们描述和组织世界的东西。

历史上,每一个都需要一个想法,并且都有其起源。最常见的情况是,世界的某些方面正在变得越来越大,一个组织或一个人带头引入了一种系统化方法。

有时涉及的人很有权势或很有名。但在某种意义上,他们通常是在幕后,只是谦逊地解决实际问题。然而,随着人们对他们需求的增加,他们发明的可能是武断的计划逐渐蔓延开来。

大多数人都会听说欧几里得定义了数学系统化的方法,或朱利叶斯·凯撒,将一年中的月份标准化。很少有人听说过吉多·达雷佐(Guido d'Arezzo),他于公元1030年发明了五线谱。或者是罗伯特·考德利(Robert Cawdrey),他在1604年编纂了可能是第一本字母词典。或者Munehisa Homma,他在1755年制作了可能是第一张市场价格图。或者乔治·布拉德肖他于1839年制定了第一份列车时刻表。马尔科姆·戴森(Malcolm Dyson)在1946年发明了用于命名化学品的标准IUPAC符号。

纵观整个时间轴,我们可以看到几个明确的创新类别。

一个类是描述或表示事物的方案。比如纬度/经度(发明者埃拉托斯梯尼约公元前200年)。或者代数的符号(来自弗朗索瓦·韦达大约1595年)。或二项式物种名称(发明者卡尔·林奈斯1750年左右)。或地质时期(1830年左右引入)。或者引用法律案例(1873年Frank Shepard)。或CIE颜色空间(从1931年开始)。或国际单位制(自1954年起)。或ASCII码(自1963年起)。或互联网地址的DNS(自1983年起)。

另一类创新是收集事物知识的方案或存储库。就像巴比伦的土地记录(公元前3000年)。或者底比斯图书馆(公元前1250年)。或者托勒密的星表(自公元150年起)。或者永乐百科全书(1403年起)。或者美国人口普查(1790年)。或者名人录(1849年起)。或天气图(来自罗伯特·菲茨罗伊1860年)。或者牛津英语词典(从19世纪80年代开始)。或者是“黄页”(1886年出自鲁本·H·唐纳利)。或者化学文摘(自1907年起)。或者棒球统计数据(来自1913年的Al Elias)。或者盖洛普民意测验(1935年)。或GenBank(1982年起)。

另一类创新更抽象:实际上是处理知识的形式主义。就像算术一样(公元前20000年)。或正式语法(约公元前400年来自帕尼尼)。或逻辑(来自亚里士多德约公元前350年)。或人口统计数据(主要来自约翰·格兰特1662年)。或微积分(来自艾萨克·牛顿莱布尼茨1687年左右)。或流程图(来自Frank&Lillian)便宜了几十人“Gilbreth于1921年)。或者计算机语言(大约从1957年开始)。或地理信息系统(1962年罗杰·汤姆林森)。或关系数据库(20世纪70年代)。

当然,还有一段奇怪的历史,人们试图做Wolfram | Alpha所做的事情。我想亚里士多德在公元前350年左右就已经想到了类似的东西,因为他试图对世界上的物体进行分类,并使用逻辑形式化推理。然后在16世纪80年代莱布尼茨他非常明确地希望将所有人类问题转换为一种通用的符号语言,并使用基于逻辑的机器来获得答案&最终知识来自他希望汇编的库。

不用说,亚里士多德和莱布尼茨都活得太早,无法使这些东西发挥作用。但偶尔,这些想法会重新出现。比如1910年左右开始的Paul Otlet和亨利·拉方丹实际上为他们收集了1200万张信息索引卡Mundaneum博物馆,其想法是运营一个基于电报的世界问答中心。

1937年赫伯特·乔治·威尔斯提出了他对“世界大脑”的愿景,并于1945年Vannevar Bush公司描述了他的“memex”,这将使计算机能够访问世界知识。到了20世纪50年代和60年代,人们开始理所当然地认为,知识有朝一日会像电影中描绘的那样变得可计算办公桌套装2001年:太空漫游或者在电视节目中《星际迷航》.

然而,我们的假设是,关键的创新将是“人工智能”,即人类智能的自动化。随着时间的推移,人工智能逐渐衰退,使知识更广泛地可计算的进展也在衰退。

正如我在其他地方所说的,我自己的关键认识是从我在一种新的科学-智能最终不可能有什么特别之处:它只是计算。但是计算的原材料应该来自哪里呢?关键是,它不必像人类那样,通过一些渐进的教育过程来学习。相反,我们可以从系统知识和数据以及方法、模型和算法的整个语料库开始——我们的文明已经积累了这些,大量涌入我们的计算系统。

这就是我们对Wolfram | Alpha所做的:实际上直接利用了时间轴中描述的整个丰富历史。

我应该说,作为一个对思想史感兴趣的人,组装时间轴的实际过程是一个非常迷人的过程。我们从研究Wolfram | Alpha-or中涵盖的所有不同知识领域开始。然后,实际上,我们回溯过去,试图找到界定每个地区的最早历史先例。

有时我们大多数人都知道这些先例。但我们经常会惊讶于这些前因的实际存在时间有多长或时间有多近。在某些情况下,我们必须询问一系列专家,才能确信我们的故事是正确的。

时间轴上的每个条目都是单独写的,我很想知道当整个时间轴放在一起时会出现什么。当然,时间轴上实际出现的内容具有相当大的任意性,并且不可避免地会对最近的发展产生偏见,尤其是因为这些发展不一定要存在多久,才能在今天显得重要。

但当我第一次看到完整的时间表时,我首先想到的是两个实体在他们的贡献中有多突出:古代巴比伦和美国政府。巴比伦是世界上第一个伟大的文明,它为我们提供了第一次人口普查、标准化测量、日历、土地登记、法律法规和第一个已知的数学表格。在美国,也许这是从零开始建设国家的精神,也许是“政府为人民服务”的理念,但早在1785年(随着《美国土地条例》的制定),美国政府就开始了一系列令人印象深刻的系统数据收集第一次。

给定时间轴,一个非常明显的问题是:所有这些事件在时间和空间上是如何分布的?

下面的图表显示了每十年和每世纪的事件数量:

显示每十年和每世纪事件数量的图表

下面是相同信息的累积版本:

显示每个世纪事件数量的累积图版本

在第一个情节中,我们看到在古希腊。然后我们在文艺复兴,的工业革命、和计算机革命但值得注意的是,即使在欧洲中世纪.

从累积的情节来看,我们看到活动中心在公元前500年左右从巴比伦转移到希腊,然后在公元1000年左右转移到欧洲大陆(在罗马帝国的适度活动之后)。大约1600年,英国开始腾飞,到19世纪中期与欧洲大陆势均力敌。美国在1800年之前就开始出现活动,但真正的起飞时间是20世纪初。

以下是“迄今为止的事件”份额如何随时间演变(以下是CDF交互式条形图版本):

饼图说明了迄今为止事件的份额如何随着时间的推移而演变

古希腊于公元前250年超过巴比伦。1595年欧洲超过希腊。1786年英国短暂超过欧洲大陆。1942年,美国超过了英国,1984年,整个欧洲都超过了,而今天,美国还差12%才能超越一切。

值得注意的是,一切都集中在典型的“西方文明”国家。也许这反映了我们对其他历史的无知,但我怀疑这反映了不同文化的不同兴趣和他们对知识的不同态度。

上述图表最明显的特征之一是近年来条目的快速增加。正如我之前提到的,不可避免地存在生存偏见。但对我来说,有一点值得注意的是,在公元1000年之前,时间轴上已经完成了近20%的工作,1800年之前完成了40%,1900年之前已经完成了60%。然而,如果我们回顾过去500年,我们会发现,这与指数增长惊人地吻合,每95年翻一番。

现在请记住,时间轴不是关于技术或科学,而是关于数据和知识。当你看时间表时,你可能会问:“在哪里爱因斯坦?在哪里达尔文?太空计划在哪里?”嗯,他们不在那里。因为尽管它们在科学技术史上占有重要地位,但它们并不是时间轴所讲述的特定故事的一部分:系统数据和知识是如何在我们的世界中形成的。正如我上面所说,这其中大部分是“密室历史”,在今天的历史书中并没有真正讲述。

在Wolfram | Alpha中,我们也有越来越多的关于传统科学/技术发明和发现的信息。这些时间表看起来有点不同。例如,中世纪的经济活动要少得多,而在过去的500年里,经济增长的速度是指数级的,是75年来的两倍。如果有什么不同的话,这里的生存偏差效应甚至比数据+知识时间线中的更为显著。但是,如果时间线之间的差异具有重要意义,也许它反映了这样一个事实,即数据和知识的系统化为世界提供了核心基础设施,并且增长更加缓慢和稳定,逐渐使所有其他创新成为可能。

无论如何,在我们研究Wolfram|Alpha的过程中,我们清醒地看到,通往我们今天的道路有多长。但令人兴奋的是,现代技术已经使我们能够走得更远。我很自豪能成为如此杰出和悠久历史的一小部分。如果没有其他的东西,那么展示历史会使漂亮的海报

4条评论

  1. 谢谢你的来信。我觉得很有趣的是,有多少数据组织是创新的,但越来越不是人类需要内化的东西。与其理解化学命名的结构或邮政编码的工作方式,不如使用Wolfram|Alpha或谷歌来了解这一点。你认为将这些知识和组织模式抽象为一个计算或搜索引擎的趋势还在继续吗?

  2. 你对公元1500年之前的年代数据的有效性有什么看法?特别是,你对确定叙事文本或其中提到的事件的创作日期的统计方法有什么保留(A.T.Fomenko)。

  3. 汇编得很好,先生,公元前4000年之前的时期怎么样
    公元前5000年。。你必须转向印度,那是你唯一能找到的地方
    更多关于综合知识的叙述。它还在那里。

    在你的研究中,这是故意遗漏的吗?
    我想不会,但在那个时候,它可能看起来更难理解。
    公平地说。。我觉得只有当你没有吠陀文明的时候,它才是完整的。什么都不是。

    厄斯丁