简历阅读如何构建数学搜索引擎

关闭

你已经阅读了2篇免费月刊中的1篇。了解更多

关闭
 

如何构建数学搜索引擎

Neil Sloane的整数序列百科全书令人惊讶的力量。

在夏天的平均星期六,数学家Neil Sloane醒来了一场危机。“总是有危机,”他说,尽管Siobhan Roberts……

o在夏天的平均星期六,数学家Neil Sloane醒来时陷入了危机。“总是有危机,”他说,尽管茶壶风暴的种种变化多端。一个星期六早饭时,他面对着一个名为“从外层空间编辑”的收件箱信息。在未经授权的情况下,法国的一位撰稿人删除了SLAIN在线整数百科全书中的一个条目,它和维基百科一样,是由志愿者贡献者和编辑提供的。

一天的工作:Neil Sloane在他的阁楼研究,指挥中心的百科全书。他在墙上贴了一个吉卜林的警句,上面写着:“他有一个理论,如果一个人整天都不工作,晚上大部分时间都会发烧,所以他就在文件里吃饭睡觉。”西博汉罗伯茨

但每天,他的百科全书就像一个花园,除草修剪,种植,斯隆也喜欢在更愉快的惊喜。在同一个星期六早上,例如,一个新的好序列到达。这个样本是由一条规则所规定的,正如斯隆解释的那样,“给你一张数字表,只有16个数字,最大的是999999个数字。”六个零点和六个零点。真是太棒了!出乎意料的是,我们最终得到了这个数字。”

事实上,这是一个蓝天的日子,星期六在新泽西海兰帕克Sloane的房子里,有着完美的云朵和蝉鸣,随着温度接近季节性渐增,82, 85, 86,90, 94, 95。斯隆和一个房子一样生活在一个图书馆里(与一个好奇的蜉蝣柜交叉),书架隔绝了每个房间,戒指理论和数字理论爬上楼梯,从二楼到阁楼的书房。阁楼是百科全书的指挥中心,它是一个精选的数据库和超过250000个序列的搜索引擎,它以任何方式与世界互连。

搜索关键字“云”,例如,你得到序列A13681

在参考文献中,你可以找到这样的评论:“这些是雷雨图。它们的连接成分是一个单周期(云)、一条路径(闪电)或一个孤立的顶点(雨滴)。

重访Paul DePodesta的“大钱球”

2002,当奥克兰A队替换了他们的MVP一垒手Jason Giambi和32岁的Scott Hatteberg,一个被一个手臂擦伤的守门员,长时间的棒球球探们认为不可预知的A队最终完全在拐弯处。作为记者…阅读更多

输入关键字“天空”,你得到序列A078141评论说:“这些素数形成了一种类似于天文辐射的模式(从流星雨中发源的天空中的点)。”

进入“蝉”,你得到A161664定义了“蝉物种在素数周期出现的安全期”和尊敬的剑桥数学家Alan Baker的一篇文章,问:“物理现象有没有真正的数学解释?”

然而,大多数用户不是通过搜索关键字而是通过搜索序列来挖掘百科全书。他们可能在自己的研究中发现或发明了一个序列,所以他们在寻找一个数值匹配。这样,百科全书就提供了一种谷歌数学,每个序列用作特定数学或科学性质的指纹。

百科全书的结果和范围将一个包含自然科学、物理科学、地球和空间、逻辑和数学、应用科学和技术、社会科学、商业和金融等的级联索引发送出去。

这就是把百科全书赋予它力量的学科联系起来的能力。

有些序列是由数学公式控制的,但不是全部,有些则根本没有数学基础。“对我来说,”Sloane说,“整数序列只是一串数字,整数。他们之间不需要特别的数学关系。例如,他们可能是美国总统的出生日期。”

另一新序列最近到达的是斯隆的兄弟。他参观了巴塞罗那毕加索博物馆,在艺术家的1936个作品中遇到了一个序列,“Po·E Me:Maule MaTiQuess纯图像Iuroour-DuffFrimeEclipse”(翻译:“数学上纯粹的令人晕眩的打鼾的虚幻图像”)。有一个关于天主教教皇和他们的数字顺序与他们统治的顺序有关的序列;Pope Francis是第二百六十六个pope,作为第一个弗兰西斯,他恰当地不使用他的Rigar罗马数字“I”。

“当然,”Sloane说,“必须有某种哲学关系,某种联系必须有意义。必须有一些统一的线索,但它不一定是数学的。“一般来说,任何可以计算的都是公平的游戏。偶数哲学本身. 一个这样的例子,根据《百科全书基金会的主编》和《凯斯西储大学的分析家和程序员》的主编Charles Greathouse所说的,“希帕克和Chrysippus之间的争论将是根据普鲁塔克的观点来讨论的,复合命题的数量是前者的103049或310954,后者是100万以上。看来,希帕克丘斯指的是序列。A000 1003A010363ChrysippusA025225. 这三个序列都是关于对象的序列,非常像那些作者留下的片段中所描述的。

这就是把百科全书赋予它力量的学科联系起来的能力。“整数序列百科全书比任何一个数学家都启发了更多的新研究,”罗格斯大学数学教授Doron Zeilberger说。这使得斯隆成为一个名人,他被称为“世界的”。最有影响力的数学家斯隆没有证明Fermat的最后一个定理,也不是PooCaré猜想。但正如Zeilberger所指出的,“证明大的开放性问题往往是一个死胡同,就像攀登珠峰一样。”相反,一个序列,他说,只是冰山一角。

开始计数:百科全书中的A2500序列定义了在平面上排列任意圆的方法的数量。有一种方法可以画出一个圆,三个绘制两个圆的方法,14个绘制三个圆的方法,173个绘制四个圆圈的方法(最近从先前的168个计数中被修正),并且初步计数预测有16968种方法绘制五个圆圈。乔恩野生


N今年十月76岁的伊尔·斯隆戴上了复古的长方形眼镜,他在高中时视力完好,开始戴眼镜,作为一名研究生,大约在他开始收集序列的时候。

1967,他在康奈尔大学完成博士论文,处理人工智能中的一个问题,关于神经网络,然后称为“感知机”。他试图确定当一个神经元被激发时,神经网络上触发了多少神经元,以及这一活动是否会持续下去或是否死亡。为了模拟神经元,用一个幼稚的简单例子,他产生了一个“有根树”,一个数学图,表示神经元的相互连接的节点,根节点代表活动的结束。通过这一调查,他产生了一个序列,有七个词:0, 1, 8、78, 944, 13800、237432。对于第四个术语,例如,他考虑了由四个神经元组成的神经网络。他计算了所有四个节点到根的平均距离,得到了78个数。在五个神经元的网络中,他得到了944个;六个神经元,13800个;七个神经元,237432个。

这个序列看起来很有希望,虽然斯隆不能弄清楚给他下一个和所有其他术语的模式或公式,而且可以延长序列的增长率。他在图书馆里查找了这个序列,看看它是不是在一本关于组合数学之类的数学书上发表的,却一无所获。然而,在路上,他遇到了其他感兴趣的东西,他把它们藏起来做进一步的调查。他最终用1937,P·Lya的计数定理的工具计算公式。

但这种迂回的过程令人沮丧。这项任务不应该那么困难。他应该能够简单地查找他的序列在一个全面的参考指南的所有现存的整数序列。既然没有这种东西存在,他决定自己去建造。“我开始收集序列,”他说。“我浏览了康奈尔图书馆的所有书籍……以及我能找到的其他文章和期刊。”

Perceptrons:Neil Sloane的笔记本从1964开始,他的第一个序列,灵感来自他的博士在神经网络上,启动了数据库。西博汉罗伯茨

斯隆把他的收藏放在穿孔卡片上,然后放在“手册”里。整数序列手册出版于1973,版权由贝尔电话实验室,他在1968开始工作。1995,他推出了一个自动电子邮件查找服务,称为超级搜索,其中好奇提交的序列查询和数据库回答的答案。1996,他打开了他的仓库,在OEIS.ORG的公共浏览。在实验室的祝福下,斯隆把它放在研究部门的网站上。他们很高兴主持,因为序列带来了流量;如果你收集它,他们会来。当Sloane和他的当务之急是写好的在SLASDODOT,它造成了这么多的交通事故,该网站坠毁。Said Sloane:“我在纯研究方面的管理者对此感到非常自豪。”

到20世纪90年代中期,百科全书也开始证明其研究价值。有一天,斯隆在他的办公室里工作,当时的AT & T贝尔实验室,当他的同事下楼时,Paul Wright走了进来,投下了高塔的问题:什么是最好的方法来安置基站塔,最大化信号和最小化电力使用,这样塔就不会太接近,造成干扰,并且也会对某些土地约束工作,关于塔的位置或位置。

斯隆和他的暑期学生Mira Bernstein,现在是加拿大/美国数学夏令营的执行主任,以及咨询委员会和证明学校的教师,都在这一实际问题上进行纯粹的数学研究。他们计算了一小部分塔的最佳排列,然后他们惊奇地发现,通过新生的百科全书,在数字理论的完全不同的上下文中与序列的匹配,包括计数甜甜圈形状的环面上的地图。

“我们设法帮助电话业务的一方,”Sloane说,“并且产生了一些好的数学和一些有趣的序列,证明这两个问题是等价的。”3, 4

在这个意义上,一个序列是一个指纹,一个语言弗兰卡或条形码或规范形式,可以解锁一个鲜为人知的数学或科学对象的身份,或对象及其迄今未知的互联性。

最终,一切都回到计数,计数是一个普遍方便的工具。这也使得百科全书也很方便。

“数学家喜欢的一件事是,如果有一种方法来搜索数学。“这不存在,”宾夕法尼亚大学计算机与信息科学助理教授Nadia Heninger说,他在斯通公司的导师那里,在AT&T实验室做了一个暑期实习。“如果你发现了某个物体,你可能会用以前从未想到过的方式来思考它,”她说,同时注意到你很可能使用你自己发明的术语,努力搜索。“你不能在谷歌中输入一个数学对象,你不能把一个对象键入维基百科。但是你可以根据一系列数字来评估你的对象。“如果你把这个序列插入到OEIS中,那就相当接近搜索数学了。她说:“OEIS是一种将你的对象翻译成标准形式的方法。”

最终,一切都回到计数,计数是一个普遍方便的工具。这也使得百科全书也很方便。“假设你在一个领域,比如电子学,在解决一个问题时,你会遇到一系列的整数,”Manish Gupta说,他是一个编码理论理论家,他在DurruHub安巴尼信息与通信技术研究所的一个实验室里训练。“现在你可以使用百科全书来搜索这是否是众所周知的。很多时候,这个序列可能出现在一个完全不相关的区域,而另一个问题。因为数字是自然界的计算输出,对我来说,这些连接是很自然的。

Gupta和他的同事尼莱·切达在其论文中引用了百科全书中的“RNA置换”,从信息论的角度对RNA进行了新的阐释。不涉及技术细节,很容易想象基因序列是如何应用于遗传学的:基因是一系列DNA,而DNA序列又定义了一个RNA序列。DNA测序的过程决定了AGCT碱基(腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶)的模式或顺序。Gupta说,这一领域的研究人员使用了不同的数学对象,如图、组、形式语言和组合数学。每一个这样的表示都产生了与数字的联系。他说,最著名的连接是一系列被称为加泰罗尼亚数字的数字,当然这也有其在百科全书中的顺序。A000 4148.

百科全书对科学研究的广泛影响可以通过其在期刊上的引用来衡量,目前斯隆已经超过4500,通过生物学、植物学、动物学、化学、热力学、光学、量子物理、天体物理学、地质学、控制论、工程、流行病学和人类学等领域进行研究。它是人类经典的数值数据库。

自我说明:Neil Sloane目前正在对百科全书的半个世纪的档案进行数字化,他希望在三年后的工作中完成明年夏天的一个过程。西博汉罗伯茨


S罗恩于2012从AT&T实验室退休。百科全书回到了他的阁楼上的服务器,他的档案在他的卧室里的书架上。在斯隆的书房门口,有一个来自吉卜林的警句,写着并贴在墙上:“他有这样一个理论:如果一个人整天不呆在工作中,晚上大部分时间都会发烧,所以他就在文件里吃,睡。”

斯隆患了一些序列性失眠,这并不奇怪。“这是其中一个序列“这让我在晚上醒来,”他说,在开幕式上,他为百科全书举行了第五十周年庆典。“就像昨晚3点那样”

2, 3, 4,5, 7, 9,8, 11, 13,17, 19, 23,15, 29, 14,31, 37, 41,43, 47, 53,59, 61, 67,71,…

在孟买的电子工程师和爱好数学家Amarnath Murthy提交的百科全书中,他在收件箱里一个星期就收到了一份生日礼物,他已经为百科全书贡献了4900多个序列。那天晚上,斯隆在夜色中醒着,试图证明一些显而易见的事情:某些数字(例如6, 10, 12)从来没有出现在序列中,证据是压倒性的,但没有证据。他成功地证明了6从来没有出现最小的数字和最简单的情况,但花了几个小时,在早上他发现了一个缺口的证据,让问题打开。

在了解这一序列之后,斯隆在帕特里西亚·海史密斯的心理惊悚片小说和阿尔弗雷德·希区柯克的后续电影之后,绰号为“火车上的陌生人”。“Murthy的序列是一串数字,”斯隆解释道,“而构造它的法则是N第二学期必须是陌生人N术语,这意味着它不能与下一个有任何共同的因素。N条款你总是拿最小的数字,你还没有用过。”

除了失败的证据之外,“火车上的陌生人”也造成斯隆的恐慌。在纪念比萨、蛋糕和Douglas Hofstadter的周年庆典上,印第安那大学的一位认知科学家和一位长期的舞迷斯隆与赫宁格商量,根据这个规则计算序列是多么讨厌。现在的期限取决于将来的条件,当然还没有弄清楚,如果用铅笔和纸做手工计算,因为它们需要混乱和费力的试验和错误。赫宁格一直在研究一种可替代的、更容易的策略,与数学家和Rubik的SuffCube和Huffer-Lucas Garron合作,而不是回过头来回顾这段时间的过去。“回顾比展望更容易,”Sloane说。“但它们是等价的。”后来他补充说,“展望未来就更好了。”

事实上,未来的思考,当Sloane开始收集他的那些年前,他在他的手册中提到了另一个实际应用:序列,他说,“当第一信号来自Betelgeuse时,也可能有用。”A000 1034将是一个吉祥的开始,我们的外星人兄弟:60, 168, 360、504, 660, 1092、2448, 2520, 3420、4080……这是一个关于对称的序列;非平凡的简单对称群的顺序,基本对称的基本粒子。这样我们就可以建立我们的证书。这条信息将是一个非常简洁的表达方式:“我们是有智慧的存有,对数学感兴趣(和隐含的知识,生活中更高的东西,音乐……而不是战争、权力……)”这将是一个友好而乐观的开始。


Siobhan Roberts是一位多伦多作家。她最近出版的书是天才在游戏中:约翰·何顿·康威好奇的头脑。


推荐信

1。Baker、A.对物理现象有真正的数学解释吗?头脑 一百一十四,223-23(2005)。

2。比利,S.C.Tunne,B.E. Fingerprint定理数据库。美国数学学会公告六十,1034-1039(2013)。

三。伯恩斯坦,M,斯隆,N.J.A.和赖特,体育在六角晶格的子晶格上。离散数学 一百七十,29~39(1997)。

4。伯恩斯坦,M和斯隆,N.J.A.从黎曼表面获得的一些格。当代数学二百零一,29~32(1996)。

参加讨论