高温超导体的发现,DNA双螺旋结构的测定,宇宙膨胀加速的首次观测,所有这些突破都获得了诺贝尔奖和国际赞誉。然而,没有一篇论文能在有史以来被引用次数最多的100篇论文中排名靠前。
引文指的是一篇论文引用的早期作品,是作者确认其方法、思想和发现来源的标准手段,经常被用来粗略衡量一篇论文的重要性。50年前,尤金·加菲尔德(Eugene Garfield)发布了《科学引文索引》(Science Citation Index,SCI),这是第一次系统地跟踪科学文献中的引文。为了纪念周年纪念日,自然现在拥有SCI的汤森路透(Thomson Reuters)要求列出有史以来被引用次数最多的100篇论文。(请参阅上的完整列表科学网前100.xls或交互式图形,见下文。)该搜索覆盖了汤姆森路透社(Thomson Reuter)的《科学网》(Web of Science)的所有内容,这是SCI的在线版本,其中还包括涵盖社会科学、艺术和人文学科、会议记录和一些书籍的数据库。它列出了1900年至今发表的论文。
低收入学校的教师培养
理查德·范·诺登(Richard van Noorden)讨论了是什么使其登上了引文统计表的榜首。
您可能需要更新的浏览器或安装最新版本的Adobe Flash插件。
这项调查揭示了一些令人惊讶的事实,尤其是要达到令人震惊的12119次引用才能跻身前100名,而许多世界上最著名的论文却没有入选。有一些是这样的,比如第一次观察1碳纳米管(第36号)确实是经典发现。但绝大多数人描述了在他们的领域中变得至关重要的实验方法或软件。
例如,历史上引用最多的著作是1951年的一篇论文2描述一种测定溶液中蛋白质含量的方法。它现在已经收集了305000多条引文,这一点一直困扰着它的主要作者,已故的美国生物化学家奥利弗·劳里(Oliver Lowry)。“虽然我真的知道这不是一篇好论文 … 他在1977年写道。
学术文献的巨大规模意味着排名前100的论文是极端离群的。汤姆森路透社的科学网拥有约5800万个项目。如果将该语料库按比例缩放到乞力马扎罗山,那么100篇最常被引用的论文在山顶仅代表1厘米。只有14499篇论文——大约一米半的价值——被引用超过1000次(参见“纸山”). 与此同时,山麓小丘上的作品即使被引用,也只有一次——这组作品包含了大约一半的内容。
没有人完全理解顶部的银条与仅仅众所周知的论文的区别,但研究人员的习惯解释了其中的一些区别。荷兰莱顿科学技术研究中心主任保罗·沃特斯,他说,许多方法论文“成为一个标准参考文献,一个人引用它是为了让其他科学家清楚自己正在做什么工作”。另一种常见的科学实践确保了真正的基础性发现——爱因斯坦的狭义相对论,例如,获得的引文比应得的要少:它们如此重要,以至于很快就进入了教科书,或者作为熟悉的术语被纳入了论文的主要文本,因此不需要引文。
引文统计中充斥着其他令人困惑的因素。例如,引文数量增加了,但较旧的论文有更多的时间累积引文。生物学家往往比物理学家更频繁地引用彼此的工作。并非所有领域的出版物数量都相同。因此,现代文献计量学家在衡量论文价值时,会回避像简单计算引文这样粗鲁的方法:相反,他们更喜欢比较年龄相近、领域相似的论文的数量。
汤森路透的榜单也不是唯一可用的排名系统。谷歌学者(Google Scholar)为自然(请参见'替代排名'). 它基于更多的引文,因为搜索引擎从更大的文献库(尽管描述不太明确)中剔除参考文献,包括从大量书籍中。在该列表中,可在谷歌学者排名前100.xls,经济学论文更为突出。谷歌学者(GoogleScholar)的榜单还包括汤森路透(Thomson Reuters)没有分析过的书籍。但在科学论文中,出现了许多相同的标题。
然而,即使有了所有的警告,老式的名人堂仍然有价值。如果没有别的,它就是对科学知识本质的提醒。为了取得令人兴奋的进展,研究人员依靠相对不知名的论文来描述实验方法、数据库和软件。
在这里自然参观了数万篇引文登上乞力马扎罗科学之巅的一些关键方法,这些方法至关重要,但很少引起关注。
由凯尔·比恩拍摄;韦斯利·费尔南德斯/自然设计
生物技术
几十年来,排名前100的一直是蛋白质生物化学。1951年的报纸2尽管许多生物化学家表示,Lowry定量蛋白质的方法和与之竞争的Bradford分析法在排名第一的位置上仍然遥不可及三-清单上第3号文件所描述的内容有点过时了。在二者之间的是Laemmli缓冲区4,用于不同类型的蛋白质分析。这些技术之所以占主导地位,是因为它们在细胞和分子生物学中被大量引用,在那里它们仍然是不可或缺的工具。
前100篇论文中描述的生物技术中,至少有两项获得了诺贝尔奖。清单上的第4项描述了DNA测序方法5这为已故的弗雷德里克·桑格赢得了1980年诺贝尔化学奖。第63条描述了聚合酶链反应(PCR)6这是一种复制DNA片段的方法,美国生化学家卡里·穆利斯(Kary Mullis)于1993年获得该奖项。通过帮助科学家探索和操纵DNA,这两种方法都有助于推动遗传研究的一场革命,这场革命一直持续到今天。
其他方法得到的公众赞誉较少,但也并非没有回报。20世纪80年代,意大利癌症遗传学家尼科莱塔·萨基(Nicoletta Sacchi)在美国与波兰分子生物学家彼得·乔姆琴斯基(Piotr Chomczynski)联合发表了7从生物样品中提取RNA的快速、廉价方法。当它广受欢迎时(目前,它在名单上排名第五),乔姆琴斯基对该技术进行了专利修改,并通过销售试剂建立了业务。现在,在纽约州布法罗市的罗斯韦尔公园癌症研究所,萨基说,她很少获得金钱奖励,但看到自己的工作取得了重大发现,她感到很满足。例如,这项技术在研究不编码蛋白质的短RNA分子的爆炸性增长中发挥了作用。她说:“科学地说,这是我认为的一个巨大的回报。”。
生物信息学
自桑格贡献以来,基因测序的迅速扩展有助于提高描述序列分析方法的论文的排名。一个典型的例子是BLAST(基本局部比对搜索工具),20年来,对于希望了解基因和蛋白质功能的生物学家来说,BLAST是一个家喻户晓的名字。用户只需在web浏览器中打开程序并插入DNA、RNA或蛋白质序列即可。几秒钟内,他们将看到数千种生物的相关序列,以及这些序列的功能信息,甚至与相关文献的链接。BLAST如此流行,以至于版本8,9在第12点和第14点,两次出现在列表中。
但由于引用习惯的反复无常,BLAST被Clustal(一种用于同时对齐多个序列的补充程序)挤掉了名单。Clustal允许研究人员描述不同生物体序列之间的进化关系,寻找看似无关序列之间的匹配,并预测基因或蛋白质特定点的变化如何影响其功能。1994年的一篇论文10该软件的用户友好版本ClustalW目前排名第十。1997年的一篇论文11在后来的版本中,ClustalX是第28号。
位于德国海德堡的欧洲分子生物学实验室开发ClustalW的团队创建了一个在个人计算机上工作的程序,而不是在大型机上工作。但是,当来自私营部门的计算机科学家朱莉·汤普森(Julie Thompson)于1991年加入该实验室时,该软件发生了变化。“这是一个由生物学家编写的程序;我正试图找到一种很好的方式来表达这一点,”汤普森说,他目前在法国斯特拉斯堡的遗传与分子和细胞生物学研究所工作。汤普森重新编写了这个程序,以适应当时生成的基因组数据的数量和复杂性,同时也使其更易于使用。
BLAST和Clustal背后的团队在论文排名方面存在竞争。然而,都柏林大学学院生物学家、Clustal团队成员Des Higgins表示,这是一种友好的竞争。“BLAST是一个游戏迷,他们赢得了所有奖项。”
系统发育学
另一个受到基因组测序增长推动的领域是系统发育学,即物种间进化关系的研究。
清单上的第20个是一篇论文12这引入了“邻接”方法,这是一种快速、有效的方法,可以根据生物之间的进化距离(例如遗传变异)将大量生物放入系统发育树中。它将相关生物一对一对地连接在一起,直到树被分解。20世纪80年代,物理人类学家Naruya Saitou加入了Masatoshi Nei在休斯顿德克萨斯大学的实验室,研究人类进化和分子遗传学,这两个领域的信息开始突飞猛进,他帮助设计了这项技术。
Saitou现在在三岛的日本国家遗传学研究所工作,他说:“我们物理人类学家当时面临着某种大数据。”。这项技术使从大型数据集设计树成为可能,而不会占用计算机资源。(而且,在排名前100位的交叉受精中,Clustal的算法使用了相同的策略。)
清单上的41号是描述13如何将统计学应用于系统发育。1984年,西雅图华盛顿大学的进化生物学家乔·费尔森斯坦(Joe Felsenstein)采用了一种称为bootstrap的统计工具来推断进化树不同部分的准确性。引导涉及多次从集合中重新采样数据,然后使用结果估计中的变化来确定各个分支的置信度。尽管这篇论文在收集引文方面进展缓慢,但在20世纪90年代和21世纪初,随着分子生物学家认识到需要在预测中加入这样的间隔时间,这篇论文迅速流行起来。
Felsenstein说引导的概念141979年,由加州斯坦福大学统计学家布拉德利·埃夫隆(Bradley Efron)设计,比他的工作更具基础性。但将该方法应用于生物问题意味着它被更多的研究人员引用。他说,他被引用的次数高也是因为当时他很忙:他把所有内容都塞进一篇论文,而不是发表多篇关于这个主题的论文,这可能会稀释每个人收到的引用数量。他说:“我无法就同一件事再写四篇论文。”。“我忙得不可开交,原则性不强。”
统计
伊利诺伊州芝加哥大学(University of Chicago in Illinois)统计学家、该领域历史专家斯蒂芬·斯蒂格勒(Stephen Stigler)表示,尽管排名前100的论文中有大量关于统计的论文,但“这些论文对我们统计学家来说根本不是最重要的”。相反,事实证明,它们对数量庞大的执业科学家最为有用。
这种跨学科的成功很大程度上源于生物医学实验室不断扩大的数据流。例如,最常被引用的统计论文(排名11)是1958年的出版物15由美国统计学家爱德华·卡普兰(Edward Kaplan)和保罗·迈耶(Paul Meier)撰写,帮助研究人员找到人群的生存模式,例如临床试验参与者。这引入了现在所称的卡普兰-迈耶估计。第二篇(第24位)是英国统计学家大卫·考克斯1972年的论文16这扩大了这些生存分析的范围,将性别和年龄等因素包括在内。
Kaplan–Meier的论文曾轰动一时,直到20世纪70年代计算能力蓬勃发展,非专业人士才能够使用这些方法,几乎没有任何引文。简洁和易用性也促进了该领域论文的流行。英国统计学家马丁·布兰德(Martin Bland)和道格拉斯·阿尔特曼(Douglas Altman)凭借一项技术名列第29位17-现在被称为布兰德-奥尔特曼图,用于可视化两种测量方法的一致性。14年前,另一位统计学家也提出了同样的观点,但布兰德和奥尔特曼以一种易于理解的方式提出了这一观点,并从那时起赢得了引用。
统计组中最古老和最年轻的论文处理的是同一个问题,即数据的多重比较,但来自不同的科学环境。美国统计学家大卫·邓肯1955年的论文18(数字64)在需要比较几个组时很有用。但排在第59位的是以色列统计学家约夫·本杰米尼和约瑟夫·霍奇伯格1995年的论文19关于控制假发现率的研究非常适合于来自基因组学或神经科学成像等领域的数据,在这些领域中,比较数量为数十万,这是邓肯难以想象的规模。正如埃夫隆所说:“这个故事是关于计算机的,慢慢地,然后再慢慢地,使人们感受到它对统计理论和实践的影响。”
另一种排名
科学网并不是唯一可用的引文索引。谷歌学者(GoogleScholar)还为自然(谷歌学者排名前100.xls). 三分之二的条目是书籍,汤森路透没有包括在内。加利福尼亚州山景城谷歌学者团队负责人、软件工程师Anurag Acharya表示:“人们关注的是期刊,但还有另一个图书世界。”。排名第四,被引用最多的书是手册分子克隆是分子生物学实验室的支柱。但Acharya指出,这份清单显示,研究文章可能和书籍一样有影响力。在谷歌和汤森路透的排名中,排名靠前的是相同的三篇研究文章,尽管顺序不同。
单独的谷歌学者排名前100位,仅显示被引用最多的研究文章(仅限谷歌学者前100篇文章.xls)在科学网排名中抛出了许多类似的论文。然而,值得注意的是,只有略多于三分之一的文章是不同的,经济学和心理学文章取得了相当大的进展,也许是因为它们从书籍中获得的引用比其他领域更多。例如,第21条——1976年一篇关于公司管理行为的文章(M.C.Jensen和W.H.MecklingJ.财务。经济。三,305–360; 1976)-在谷歌的列表中收到45119条引文,但在科学网中只有8372条。(谷歌为大多数文档提供的引用数量高于《科学网》,但5倍的差异并不常见)。排名第四的谷歌学者(GoogleScholar)新加入者中排名最高的是1948年克劳德·香农(Claude Shannon)的论文,该论文孕育了现代信息理论(C.E.香农贝尔系统。技术期刊。27,379–423; 1948). 谷歌学者(GoogleScholar)将69273条引文归功于此,而科学网(WebofScience)则为其提供了10239条引文,因此错过了前100名。
谷歌学者(Google Scholar)排名前十的文章列表
谷歌学者排名(整体) |
引用次数 |
引用 |
科学网排名 |
引用次数 |
1 |
223,131 |
英国莱姆利,噬菌体T4头部组装期间结构蛋白的裂解。自然 227,680–685 (1970). |
2 |
213,005 |
2 |
192,710 |
Lowry,O.H.、Rosebrough,N.J.、Farr,A.L.和Randall,R.J.用福林酚试剂测量蛋白质。生物化学杂志。193,265–275 (1951). |
1 |
305,148 |
三 |
190,309 |
Bradford,M.M.,一种利用蛋白质-眼睛结合原理快速灵敏地定量微克数量蛋白质的方法。J.分析。生物化学。72,248–254 (1976). |
三 |
155,530 |
* |
172,540 |
Sambrook,J.、Fritsch,E.F.和Maniatis,T。分子克隆(1989). |
|
|
* |
110,822 |
出版社,W.H。数字配方:科学计算的艺术(1992). |
|
|
* |
91,237 |
尹,R.K。案例研究:设计与方法(1984). |
|
|
* |
73,818 |
库恩,T.S。科学革命的结构(1962). |
|
|
* |
70,807 |
扎尔,J.H。生物统计学分析(1974). |
|
|
4 |
69,273 |
Shannon,C.E.传播的数学理论。贝尔系统。技术J。27,379–423 (1948). |
前150名 |
10,239 |
* |
67,824 |
J.科恩。行为科学的统计权力分析(1969). |
|
|
* |
64,956 |
D.E.戈德堡。搜索、优化和机器学习中的遗传算法(1989). |
|
|
* |
64,761 |
Glaser,B.G.和Strauss,A.L。扎根理论的发现:定性研究的策略(1967). |
|
|
5 |
64,031 |
桑格。F.,Nicklen,S.&Couslon,A.R.用链终止抑制剂进行DNA测序。程序。美国国家科学院。科学。美国74,5463–5467 (1977). |
4 |
65,335 |
6 |
62,344 |
Chomczynski,P.&Sacchi,N.通过酸性硫氰酸胍-酚-氯仿萃取分离RNA的单步方法。J。 分析。生物化学。162,156–159 (1987). |
5 |
60,397 |
* |
61,929 |
Maniatis,T.、Fritsch,E.F.和Sambrook,J。分子克隆:实验室手册(1982). |
|
|
* |
60,957 |
Nunnally,J.C.、Bernstein,I.H.和Berge,J.M.F.T。心理测量理论(1967). |
|
|
* |
58,915 |
E.M.罗杰斯。创新的传播(1962). |
|
|
7 |
56,923 |
Becke,A.D.密度-功能热化学。三、 精确交换的作用。化学杂志。物理学。98,5648–5652 (1993). |
8 |
46,145 |
8 |
54,365 |
李。C.,Yang,W.和Parr,R.G.将Colle-Salvetti关联能量公式发展为电子密度函数。物理学。版本B37,785–789 (1988). |
7 |
46,702 |
* |
54,067 |
波特,M.E。竞争优势:创造并保持卓越绩效(1985). |
|
|
9 |
53,696 |
Murashige,T.&Skoog,F.烟草组织培养物快速生长和生物检测的改良培养基。生理学。工厂。15,473–497 (1962). |
15 |
36,132 |
10 |
53,423 |
Folstein,M.F.、Folsteen,S.E.和McHugh,P.R.《微型精神状态——为临床医生评定患者认知状态的实用方法》。《精神病学杂志》。物件。12,189–198 (1975). |
17 |
34,532 |
密度泛函理论
当理论家想要对一块物质进行建模时,无论是药物分子还是金属板,他们通常使用软件来计算材料中电子的行为。从这一知识中,我们可以了解许多其他性质:例如,蛋白质的反应性,或者地球的液态铁外核传热的容易程度。
这个软件的大部分是建立在密度泛函理论(DFT)的基础上的,这很容易成为物理科学中引用最多的概念。前100名名单上的12篇论文与此相关,包括前10名中的2篇。英国牛津大学(University of Oxford)材料物理学家费利西亚诺·朱斯蒂诺(Feliciano Giustino)表示,DFT本质上是一种近似方法,使不可能的数学变得简单。为了研究硅晶体中的电子行为,需要考虑每个电子和每个原子核如何与其他每个电子和原子核相互作用,研究人员需要分析一百六十亿(1021)他说,数TB的数据远远超出了任何计算机的容量。DFT将数据需求减少到仅几百KB,完全在标准笔记本电脑的容量范围内。
半个世纪前,理论物理学家沃尔特·科恩在论文中领导了DFT的发展20,21现在排名为34和39。科恩意识到,他可以通过假设每个电子对所有其他电子的反应不是以单个电子的形式,而是以弥散平均值的形式来计算系统的属性,例如其最低能量状态。原则上,数学很简单:系统的行为就像一个密度随点变化的连续流体。因此该理论被命名为。
Giustino说,但几十年过去了,研究人员才找到将这一想法应用于实际材料的方法。两个22,23前100篇论文是构建最流行的DFT方法和软件包的技术配方。一位是加拿大哈利法克斯达尔豪西大学的理论化学家阿克塞尔·贝克(Axel Becke),另一位是美国理论化学家李承德(Chenteh Lee)、杨维涛(Weitao Yang)和罗伯特·帕尔(Robert Parr)。1992年,计算化学家约翰·波普尔(他将与科恩共同获得1998年诺贝尔奖)在他流行的高斯软件包中加入了一种DFT形式。
Becke说,软件用户可能会引用原始理论论文,即使他们没有完全理解该理论。他说:“理论、数学和计算机软件都是专业化的,是量子物理学家和化学家关注的问题。”。“但应用是无止境的。从根本上讲,DFT可以用来描述所有化学、生物化学、生物学、纳米系统和材料。我们地球上的一切都取决于电子的运动,因此,DFT实际上是一切的基础。”
结晶学
乔治·谢尔德里克(George Sheldrick)是德国哥廷根大学(University of Göttingen)的化学家,20世纪70年代开始编写软件来帮助解决晶体结构问题。他说,在那些日子里,“你无法为这种项目获得赠款。我的工作是教化学,我把编写这些程序作为业余爱好。”但40多年来,他的工作产生了定期更新的SHELX计算机程序集,它已成为分析穿过晶体的X射线散射模式的最常用工具之一,从而揭示原子结构。
2008年谢尔德里克发表了一篇评论文章后,这种受欢迎程度变得明显24并指出,无论何时使用任何SHELX程序,它都可以作为一般文献引用。读者听从了他的建议。在过去的6年里,这篇综述论文已被引用近38000次,跃居第13位,成为过去20年发表的排名最高的论文。
排名前100位的名单中分散着晶体学和结构生物学所必需的其他工具。其中包括描述HKL套房的文件25(数字23)用于分析X射线衍射数据;PROCHECK程序26(第71号)用于分析拟议的蛋白质结构在几何上是否正常或奇异;和两个程序27,28用于绘制分子结构(数字82和95)。马里兰州贝塞斯达美国国立卫生研究院数据科学副主任菲利普·伯恩(Philip Bourne)表示,这些工具是确定晶体结构的“砖块和灰泥”。
一个不寻常的条目出现在第22位,是1976年的一篇论文29来自罗伯特·香农(Robert Shannon),他是特拉华州威明顿(Wilmington)的大型化工公司杜邦(DuPont)的研究员,他编制了一份关于一系列不同材料中离子半径的综合列表。伦敦帝国理工学院(Imperial College London)的材料科学家罗宾·格里姆斯(Robin Grimes)表示,物理学家、化学家和理论家在查找离子大小的值时仍然引用了这篇论文,离子大小通常与物质的其他性质密切相关。这使得它成为有史以来最高的正式编辑数据库。
格里姆斯的一位研究同事保罗·福萨蒂(Paul Fossati)表示:“我们经常引用这类论文,几乎没有考虑过。”。排名前100位的许多方法和数据库也是如此。该列表揭示了计算和分析大型数据集对研究的影响有多大。但它也提醒我们,任何特定方法论文或数据库在引文图表顶部的位置也取决于运气和环境。
康涅狄格州纽黑文市耶鲁大学的化学家彼得·摩尔(Peter Moore)指出,对于研究人员来说,还有一个强有力的教训。“如果引用是你想要的,”他说,“设计一种方法,让人们可以做他们想要的实验,或者更容易,这将比发现宇宙的秘密更进一步”。