跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:baq036。
2011年1月17日在线发布。 doi(操作界面):10.1093/数据库/baq036
PMCID公司:项目经理3025693
PMID:21245076

PubMed及其他:搜索生物医学文献的网络工具调查

摘要

过去十年见证了高通量技术的现代进步和生产大规模生物数据的研究能力的快速增长,这两者都伴随着生物医学文献的指数增长。这一丰富的学术知识对于研究人员进行科学发现和医疗保健专业人员管理健康相关事务具有重要意义。然而,由于信息量大且增长迅速,获取此类信息变得越来越困难。作为回应,国家生物技术信息中心(NCBI)正在不断对其PubMed Web服务进行改进。与此同时,不同的实体致力于开发Web工具,帮助用户快速高效地搜索和检索相关出版物。这些实践,再加上文本挖掘领域的成熟,使得为PubMed提供可比文献搜索服务的各种Web工具的数量和质量都有所增加。在这项研究中,我们回顾了28种此类工具,强调了它们各自的创新,并将其与PubMed系统进行了比较,并讨论未来发展方向。此外,我们还建立了一个网站,专门跟踪现有系统和生物医学文献搜索领域的未来进展。总之,我们的工作为信息寻求者选择满足其需求的工具以及服务提供商和开发人员在该领域保持最新状态提供了服务。

数据库URL: http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/search网站

导言和背景

文献搜索是指人们使用工具搜索与其个人需求相关的文献的过程。在本次审查中,工具是基于Web的在线系统;文献仅限于生物医学领域;典型的用户信息需求包括但不限于查找特定文章的书目信息,或搜索与特定主题(例如疾病)相关的出版物。随着互联网的方便接入,电子格式的生物医学文献数量正在增加。事实上,正如之前的工作中所指出的图1在过去几年里,该书目的规模呈指数级增长(1). 截至2010年,通过PubMed(由国家生物技术信息中心(NCBI)开发和维护的免费网络文献搜索服务)索引的引文超过2000万条。PubMed是NCBI Entrez检索系统的一部分,该系统提供对38个不同数据库的访问(2). PubMed目前收录了自1948年以来5000多份生命科学期刊的生物医学论文的引文和摘要。自成立以来,PubMed一直是以电子方式搜索和检索生物医学文献的主要工具。全球用户每天发布数百万个查询()他们依靠这种途径来跟上最新的技术水平,并在自己的领域中取得新的发现。

保存图片、插图等的外部文件。对象名称为baq036f1.jpg

从1986年到2010年PubMed引文的增长。在过去20年中,PubMed中的引用总数以约4%的增长率增长。PubMed目前有2000多万条引文。2010年是部分数据(截至12月1日)。

虽然PubMed提供了一个广泛、最新和高效的搜索界面,但主要由于生物医学文献的不断增长,用户快速识别与其个人需求相关的信息变得越来越困难。因此,用户经常被长长的搜索结果列表淹没:超过三分之一的PubMed查询会导致100个或更多的引用(). 为了应对信息过载的问题,NCBI通过提出更具体的查询,努力加强标准PubMed搜索(详见“PubMed的变化和展望未来”一节中的详细讨论)(4). 同时,MEDLNE数据和Entrez Programming Utilities的免费可用性(2)使来自学术界或行业的外部实体有可能创建补充PubMed的替代Web工具。

我们在这里列出了28个这样的系统,根据其独特的功能对其进行分类,比较了它们的差异(与PubMed以及彼此之间的差异),并强调了它们各自的创新。首先,我们的目标是向普通读者提供PubMed及其最新发展的概述,以及从互联网上免费访问的其他类似系统的简短摘要。第二个目标是为研究人员、开发人员和服务提供商提供最近开发的系统中创新方面的总结,以及不同系统的比较。最后,我们开发了一个专门用于在线生物医学文献搜索系统的网站。除了本文中讨论的系统之外,我们还将使用新系统对其进行更新,以便读者随时了解该领域的最新进展。

我们相信,这项工作代表了迄今为止对生物医学文献信息检索系统的最全面的审查。与许多其他关于短信系统的评论文章不同(5–11),我们的重点仅限于以下系统:(i)生物医学文献搜索和(ii)与PubMed系统相当。最具可比性的工作是2008年对18种工具的早期调查(12). 然而,我们的审查在几个主要方面存在显著差异。首先,自2008年以来,由于不同的选择标准或出现,我们审查中的大多数系统(19/28)之前没有讨论过。其次,我们使用不同的分类标准对系统进行分类和比较,以便读者可以从不同的角度进行讨论。第三,我们对每个系统及其独特功能进行了更详细的概述。特别是,我们根据自己的经验更详细地描述了PubMed及其最近的发展。最后,我们建立了一个与现有系统和机制链接的网站,用于注册未来系统。总之,我们的工作补充了之前的调查,更重要的是,它为生物医学文献搜索系统提供了一站式购物。

PubMed:搜索生物医学文献的主要工具

内容和目标受众

PubMed的目标用户包括研究人员、医疗保健专业人员和普通公众,他们要么需要一些特定的文章(例如搜索文章标题),要么更广泛地搜索与其个人兴趣相关的最相关的文章(如疾病信息)。用户如何与PubMed交互的一般工作流显示在图2:用户查询PubMed或其他类似系统以获取特定的生物医学信息需求。提供了一组检索到的文档,用户可以浏览结果集,然后单击以查看摘要或全文文章、发出新查询或放弃当前搜索。

保存图片、插图等的外部文件。对象名为baq036f2.jpg

概述用于搜索生物医学文献的PubMed(或类似系统)的一般用户交互。改编自Islamaj Dogan等。, ().

从搜索的角度来看,PubMed采用自由文本关键字作为输入自然语言,并返回与输入关键字匹配的引用列表(PubMed忽略非索引词)。它的搜索策略有两个主要特点:第一,默认情况下,它在用户查询中添加布尔运算符,并使用自动术语映射(ATM)。具体来说,在多术语用户查询之间插入布尔运算符“And”,以要求检索到的文档包含所有用户关键字。例如,如果用户发出查询“pubmed search”,则布尔运算符“AND”将自动插入两个单词之间,作为“pubmed AND search”。

此外,PubMed通过其ATM流程自动将用户查询中的关键词与预先索引的术语列表(例如,医学主题标题MeSH®)进行比较和映射(http://www.nlm.nih.gov/pubs/techbull/mj08/mj08_pubmed_atm_cite_sensor.html; 13). 也就是说,如果用户查询可以映射到一个或多个MeSH概念,PubMed将自动将其MeSH术语添加到原始查询中。因此,除了检索包含查询词的文档外,PubMed还检索使用这些MeSH词索引的文档。以前面的示例“pubmed search”为例,因为单词“pubmid”可以映射到MeSH,所以最终执行的搜索是['pubmed'(MeSH术语)或'pubmed(all fields)]和'search'(all fieldes)',其中pubmed搜索标记(all field)和指示将分别在所有索引字段或仅在MeSH索引字段中搜索前面的单词。

PubMed的第二大独特之处是它可以选择按时间倒序排列和显示搜索结果。更具体地说,PubMed默认情况下会按首次输入PubMeds的时间顺序返回匹配的引文。该日期在PubMed中正式称为进入日期(EDAT)。

与PubMed类似的其他工具

选择可比系统的标准

在这项工作中,我们根据以下三个标准选择了要审查的系统。首先,它们应该是基于Web的,并且操作与PubMed相同或类似的内容。设计用于搜索抽象内容以外的系统,例如全文(例如PubMed-Central;Google Scholar)或图形/表格(例如BioText(14); 耶鲁图像取景器(15)]因此,不包括在本工作中。此外,我们专注于专门为生物医学领域开发的工具。因此,一些通用的基于网络的服务,如谷歌学者,不在讨论范围内。其次,系统应该能够搜索生物医学文献中的任意主题,而不是搜索某些有限的领域。虽然PubMed中的大多数引文都是与生物学相关的主题(例如基因或疾病),但整个生物医学文献中的主题涵盖范围更广。例如,它包括许多跨学科学科,如生物信息学。换句话说,所建议的系统需要进行足够的开发,以便能够搜索不同类型的主题。第三,在线Web系统不需要安装费或订阅费(即免费访问),这将允许用户随时体验服务。根据这三个标准,共发现28个合格的系统,它们被列在表1和22如下所示。此外,我们根据它们最显著的特征与类别主题之间的最佳匹配将它们分为四类。请注意,一些系统可能具有属于多个组的功能,在每个组中,我们按时间倒序列出系统。表1,我们展示了系统首次引入的年份,并强调了从技术开发角度区分不同系统的主要功能。表2,我们从用户的角度比较了一组影响不同工具的价值和实用性的功能。例如,我们报告每个系统的上次内容更新时间,因为大多数用户都希望了解最新发布的内容。具体而言,我们使用PubMed内容作为研究对照,并在比较期间搜索所有系统中的最新Pub Med引用(PMID:20726112,2010年8月23日)。当引文可以在系统中找到时,我们将其内容视为PubMed的“最新”内容。否则,会标记确切日期(如果网站上提供了此类信息)或近似年份。

表1。

PubMed衍生产品根据其最显著的特征进行分组

系统年份主要功能
对搜索结果进行排名
参考医学2010以多级相关性反馈为特点进行排名
奎特尔2009允许使用概念类别进行搜索
MedlineRanker2009分类查找相关文档
MiSearch公司2009使用隐式反馈提高排名
哈基亚2008由Hakia的专有语义搜索技术提供支持
语义MEDLINE2008由认知的专有搜索技术提供支持
MS扫描仪2008分类查找相关文档
eTBLAST公司2007查找与输入文本相似的文档
公共焦点2006按影响因素和引文量排序
吐司2005利用相关性排序技术进行查询扩展
将结果聚类为主题
安妮·奥泰特2008按重要单词、主题、期刊、作者等进行聚类。
McSyBi公司2007通过MeSH或UMLS概念进行聚类
GoPubMed公司2005按MeSH或GO术语进行聚类
ClusterMed公司2004按MeSH、标题/摘要、作者、隶属关系或日期进行聚类
XplorMed公司2001根据摘要中提取的关键字进行聚类
提取和显示语义和关系
MedEvi公司2008提供输出中语义关系的文本证据
EBIMed公司2007显示蛋白质、GO注释、药物和物种
CiteXlore公司2006EBI整合生物医学文献和数据的工具
媒体2006提取与查询语义匹配的文本片段
PubNet(公共网络)2005可视化生物实体的文献衍生网络
改善搜索界面和检索体验
iPubMed公司2010允许模糊搜索和近似匹配
公共获取2007检索PDF中的结果
BabelMeSH公司2006多语言搜索界面
HubMed公司2006以多种格式导出数据;可视化;
任务MEDLINE2005将问题转换为公式化搜索作为PICO
苗条的2005PubMed搜索的滑块界面
PICO公司2004搜索患者、干预、比较、结果
PubCrawler(公共爬虫)1999根据保存的搜索向用户发出新文章警报

在每个组中,系统按时间倒序排序。

表2。

系统特性比较

系统内容上次更新服务提供商配置文件可用的源代码系统输出格式PubMed ID链接全文链接相关文章链接导出搜索结果
参考医学2010学术×列表×××
奎特尔2010私人×列表×
MedlineRanker(医学排名)电流学术×列表×××
MiSearch公司电流学术×列表×××
哈基亚2010私人×列表×××
语义MEDLINE2010年6月8日私人×列表×××
MS扫描仪2007学术列表×××
eTBLAST公司2010学术×列表×××
公共焦点电流私人×列表××××
调整电流学术列表××
安妮·奥泰特电流学术×列表××
McSyBi公司电流学术×列表×××
GoPubMed公司电流私人×列表
ClusterMed公司电流私人×列表××
XplorMed公司电流学术×列表×××
MedEvi公司2010政府××××
EBIMed公司2010政府××××
CiteXlore公司电流政府×列表×
地中海2009年10月12日学术×列表×××
PubNet(公共网络)电流学术×图表××
iPubMed公司电流学术×列表×××
公共获取电流私人×列表×
BabelMeSH公司2010政府×列表××
HubMed公司电流私人×列表
任务MEDLINE2010政府×列表×
苗条的电流政府×列表×
PICO公司电流政府×列表×
PubCrawler(公共爬虫)电流学术×列表×

工具的列出顺序与它们出现的顺序相同表1PubMed被用作研究对照(于2010年8月23日进行评估),用于内容的最后更新(即当前内容是指其内容与PubMed内容是最新的)。当无法确定确切日期时,使用了最近一年的信息。符号✓代表是,×代表否。政府,政府。

根据两个表的内容,我们得出以下结论:

  1. 大多数(16/28)系统的名称中都包含“Pub”或“Med”,这表明它们与PubMed系统紧密相连。
  2. 自1999年PubCrawler引入2010年最新成员iPubMed以来,所有审查过的系统都在过去10年左右的时间里不断开发。大约在同一时期,文本挖掘和Web技术领域取得了重大进展和成熟。这两个领域中的许多新技术(例如命名实体识别技术)是本工作中审查的各种系统开发的驱动力。
  3. 大多数系统是由学术研究人员开发的。然而,一些系统也来自私营部门(即Hakia、Cognition、ClusterMed、Quertle)或公共部门(例如欧洲生物信息学研究所的CiteXplore)。除了免费访问(所有系统的要求)外,两个学术系统(MScanner和Tweese)的源代码在其网站上根据GNU通用公共许可证免费提供。
  4. 与谷歌等一般网络搜索引擎类似,审查工具中搜索结果的呈现主要是基于列表的。对于某些执行结果聚类的系统,可以将列表进一步分组为不同的主题。其他输出格式包括表格和图形表示,它们是为能够提取和显示语义关系的系统设计的。
  5. 虽然只有少数系统提供全文和相关文章的链接,并允许在搜索后导出到书目管理软件(文献搜索中的理想功能),但用户可以始终(除了在一个系统中)使用PubMed链接来使用这些实用程序。
  6. 当比较四种不同的开发主题时,改进排名和用户界面似乎是更受欢迎的方向。在下面的部分中,我们将更详细地描述28个系统中的每一个。

对搜索结果进行排名

PubMed默认按时间倒序返回搜索结果。换句话说,最新的出版物总是最先返回。虽然按时间顺序返回结果有其自身的优点,但有几个系统致力于在排序结果中寻求替代策略。

  • 参考医学(16)是基于机器学习和信息检索(IR)技术的最新发展。它首先根据用户查询检索搜索结果。接下来,它要求用户明确反馈相关文档,并使用这些信息通过所谓的学习排名算法RankSVM学习排名函数(17,18). 随后,学习的函数在下一次迭代中按相关性对检索结果进行排序。
  • 奎特尔(19)是一家营利性私营企业最近开发的生物医学文献搜索引擎。它的核心概念识别功能允许用户将概念类别合并到搜索中。例如,他们的一个概念类别代表所有的蛋白质名称,因此用户可以搜索所有特定的蛋白质作为一个整体。还声称,它们基于上下文提取关系以改进文本检索。然而,它的细节并没有向公众明确描述。
  • MedlineRanker(医学排名)(20)将与某个主题相关的一组文档作为输入,并基于Naive Bayes分类器自动学习表示该主题的最具辨别力的单词列表。然后,它可以使用所学单词对与该主题相关的新发表文章进行评分和排名。
  • MiSearch公司(21)是一个在线工具,通过使用隐含相关性反馈对引文进行排名(22). 与RefMed不同,它使用用户点击历史作为隐式反馈,以对数似然比的形式识别与用户信息需求相关的术语。MEDLINE引文中包含大量此类相关术语,其排名将高于此类术语较少的引文。在隐式关联反馈模型中,他们还考虑了近因效应。
  • Hikia公司(23)通过pubmed.hakia.com可以访问超过1000万条MEDLINE引文。由于这是一家私营公司的产品,除了据说是某种语义搜索技术外,尚不清楚他们的系统中使用了哪种排名算法。
  • 语义MEDLINETM(TM)(24)基于认知搜索构建TM(TM),由Cognition的专有语义NLP开发的系统TM(TM)技术,它结合单词和短语知识来理解英语的语义。语义MEDLINE系统添加了生物医学中的特定词汇,以便更好地理解特定领域的语言。与Hikia一样,细节也不会向公众透露。
  • 理学硕士(25)在功能方面与MedlineRanker基本相当。主要区别在于,在进行分类时,它使用MEDLINE注释(MeSH和期刊标识符)而不是抽象的单词(名词)。因此,Mscanner能够更快地处理文档,但无法处理注释不完整或缺失的文章。
  • eTBLAST公司(26)能够通过查找与输入文本类似的文档来识别相关性。与PubMed的相关文章不同(27)eTBLAST使用两个文档之间重叠单词的总权重,根据单词对齐确定文本相似性。因此,在获得良好结果方面,抽象长度的文本输入优于短查询。
  • 公共焦点(28)根据领域特定因素的混合来对文章进行排序,以对科学出版物进行排名:期刊影响因素、正向参考文献量、参考动态和作者的贡献水平。
  • 吐司(29)基于经典的Okapi BM25排名算法(30)在通过生物医学主题词库或索引后词干分析自动扩展查询词时,可以保持检索性能。

将结果聚类为主题

第二组中五个系统的共同主题是搜索结果的分类,旨在更快地导航和更容易地管理大量返回的结果。开发这种技术是为了应对信息过载的问题:用户经常被一长串返回的文档淹没。如参考文献所述(31)通常情况下,该技术对于从医学期刊文章中查找相关信息是有效的。如下文所述,这五个系统主要在搜索结果的聚类方式上有所不同。

  • 安妮·奥泰特(32)后处理检索PubMed搜索的结果,并将其分为一个预定义的类别:重要单词、MeSH主题、隶属关系、作者姓名、期刊和出版年份。重要单词在结果子集中的出现频率高于在整个MEDLINE中,因此它们将结果子集与MEDLINE的其余部分区分开来。单击给定的类别名称将显示该类别中的所有文章。要按多个类别查找文章,可以逐步遵循类别(例如,首先按出版年份限制结果,然后按期刊限制结果)。
  • McSyBi公司(33)以两种不同的方式呈现聚类结果:分层或非分层。前者提供了搜索结果的概述,而后者显示了搜索结果之间的关系。此外,它还允许用户通过强制使用MeSH术语或她感兴趣的ULMS语义类型来重新聚类结果。更新后的集群会根据相关MeSH术语和从标题和摘要中提取的签名术语自动标记。
  • GOPubMed公司(34)最初设计用于利用基因本体(GO)中的层次结构来组织搜索结果,从而允许用户按GO类别快速导航结果。最近,它能够将结果分为四个顶级类别:什么(生物医学概念)、谁(作者姓名)、哪里(附属机构和期刊)和何时(发表日期)。在哪个类别中,文章将根据相关GO、MeSH或UniProt概念进行进一步排序。
  • ClusterMed公司(35)可以通过六种不同的方式对结果进行聚类:(i)标题、抽象和MeSH术语(TiAbMh);(ii)标题和摘要(TiAb);(iii)MeSH条款(Mh);(iv)作者姓名(Au);(v) 隶属关系(Ad)和(vi)出版日期(Dp)。例如,当通过TiAbMh对结果进行聚类时,来自标题/摘要和MeSH术语的选定单词都用作过滤器。与Hakia一样,ClusterMed是一家专门从事企业搜索平台的商业公司(Vivisimo)的专有产品。因此,公众并不知道如何选择过滤器。
  • XplorMed公司(36)不仅通过MeSH类组织结果,它还允许用户探索感兴趣的主题和单词。具体来说,它首先使用MeSH返回结果的粗略聚类,为用户提供了将搜索限制在特定类别的机会。接下来,该工具显示所选摘要中的关键字。在这一步中,用户可以选择直接进入下一步或开始对显示的主题进行更深入的分析。前者将呈现密切相关的关键字链,而后者允许您探索不同关键字之间的关系及其在MEDLINE文章中的提及。最后,通过选择一个或多个链接关键字,系统返回按这些选定关键字排序的文章列表。

通过语义和可视化丰富结果

该组中的五个系统旨在分析搜索结果,并基于信息提取技术提供总结的语义知识(生物医学概念及其关系)。它们在三个方面有所不同:(i)生物医学概念的类型和要提取的关系;(ii)用于信息提取的计算技术;以及(iii)它们如何呈现提取结果。

  • MedEvi公司(37)提供了用于语义查询的10个主要生物实体(例如基因)的概念变量,以便搜索结果绑定到相关的生物实体。此外,它还对搜索结果进行优先级排序,以首先返回那些引用,这些引用的匹配关键字与原始查询中出现的顺序对齐。
  • EBIMED公司(38)从检索到的文档中提取蛋白质、GO注释、药物和物种。基于共现分析识别提取概念之间的关系。总体结果以表格形式显示。
  • CiteXlore公司(39)是一个将文献搜索与文本挖掘工具相结合的系统,以提供对文献和生物数据的集成访问。除了PubMed的内容外,它还包含来自欧洲专利局和中国科学院上海生命科学信息中心的专利申请的摘要记录。CiteXplore的另一个特点是它包含了参考引用信息。
  • 媒体(40)除了以(主语、动词、宾语)格式进行的标准关键字搜索外,还提供语义搜索,并返回与查询的语义关系匹配的文本片段(抽象句子)。它的输出基于对抽象句子的句法和语义分析。例如,语义搜索,如“什么导致结肠癌?”将要求输出的句子分别匹配“cause”和“colon cancer”作为事件动词和宾语。
  • PubNet(公共网络)(41)代表Publication Network Graph Utility。它解析标准PubMed查询的XML输出,并根据用户选择的节点和边的类型创建不同类型的网络。节点可以是文章、作者或某些数据库ID(例如PDB ID)的代表,边缘是基于共享作者、MeSH术语或位置构建的(文章具有相同的从属邮政编码)。图形网络是借助于专用可视化软件绘制的。

改善搜索界面和检索体验

该组中的系统为标准PubMed搜索提供了替代接口。他们旨在提高文献搜索的效率,并经常利用新的Web技术。它们具有新颖的搜索/检索功能,而PubMed目前无法提供这些功能,这在实践中可能是一些用户的首选。

  • iPubMed公司(42)提供交互式搜索界面:键入时搜索。当用户在搜索框中键入几个字符时,系统将立即显示包含该文本的任何引文,以便用户缩小搜索范围。此外,该系统允许出现轻微的拼写错误。
  • 公共获取(43)直接在搜索结果中显示PDF,这样用户就不必通过PubMed结果中指向PubMedCentral或特定期刊网站的链接来获取PDF。
  • Babelmesh公司(44)提供了一个界面,以便用户可以用英语以外的语言搜索医学术语和短语。目前支持的语言包括阿拉伯语、汉语、荷兰语等。用户的原始查询被翻译成英语,然后搜索相关引文。
  • HubMed公司(45)使用Web服务提供各种功能,从PubMed中可用的功能(如日期排序搜索结果和自动词条扩展)到新功能(如相关性排序搜索结果);相关文章的聚类和图形显示;以多种格式直接导出引文元数据;关键词与外部信息源的链接;以及手动分类和存储感兴趣的文章。
  • 任务MEDLINE(46,47)旨在处理医疗环境中以问题或复杂短语形式的用户查询。它最初是作为分析临床问题的工具开发的,用于自动完成患者、干预、比较、结果(PICO)表格,但后来作为非专业医学信息寻求者的工具推出,因为它能够从解析的医学术语中检索相关引用。
  • SLIM公司(48)是PubMed搜索的滑块界面。它具有多个滑动条,以不同的方式控制搜索限制。
  • PICO公司(49)它代表患者/问题、干预、比较和结果,是一种用于构建临床问题的方法。它的搜索界面也可以在手持设备上使用。
  • PubCrawler(公共爬虫)(50,51)检查并通过电子邮件将MEDLINE中的每日更新发送到用户保存的预先指定搜索。

其他荣誉提名

其他几个系统值得注意,尽管它们没有在表1由于未能满足我们的一个或多个预定义要求:

  • PubMed助理(52)、阿里巴巴(53)和PubMed-EX(54)PubMed系列中有三个非基于Web的系统(违反了要求系统基于Web的选择标准#1)。PubMed assistant属于提高可用性的系统组:它提供了有用的功能,例如关键字突出显示、易于导出到引文管理器等。AliBaba和PubMed-EX都致力于通过从文本中识别基因/蛋白质、疾病和其他生物医学实体来实现语义丰富。此外,AliBaba还在图中呈现共现结果。
  • iHop公司(55)、奇利伯特(56),PolySearch(57)和Semedico(58)是四个有代表性的系统,专注于挖掘特殊主题之间的关联(违反了要求系统处理一般主题的选择标准2)。iHop和Chilibot将挖掘限制在识别MEDLNE句子中的基因和蛋白质,而PolySearch支持更广泛的类别(例如疾病)搜索。Semidico目前只索引分子生物学(生物医学的一个分支领域)的文章;它从检索到的文档中挖掘各种生物医学概念(例如基因/蛋白质名称),以支持分面导航。权威(59)是专门化系统的另一个例子。它使用统计方法消除作者姓名的歧义,从而有可能找到个别作者写的文章。
  • 为了改进生物医学文献搜索,PubFinder等其他系统(60)ReleMed公司(61)、MedMiner(62)和PubClust(63,64)已被提议。不幸的是,这些系统在2010年5月31日测试时均未投入使用(违反选择标准#3)。PubFinder与MScanner和MedlineRanker类似,其设计目的是根据特定主题文档的输入集,按相关性对文档进行排序。基于所选的摘要,自动计算与主题相关的单词列表,随后用于选择属于所定义主题的文档。与MScanner或MedlineRanker不同,它根据输入和引用集中出现的单词来查找信息性单词。ReleMed,最近由Siadaty提出. (61),使用句子级共现作为查询词之间存在关系的替代项。MedMiner建议过滤和组织PubMed返回的大量搜索结果,类似于对搜索结果进行分类的想法。同样,PubClust也是基于自组织地图开发的(65)以分层方式对检索到的摘要进行聚类。

典型PubMed搜索以外的用例

基于上述每个系统中的新功能,我们在图3PubMed中超出典型搜索范围的特定使用场景列表。具体来说,我们首先确定了12个不同的用例集,并将相应的适用系统附加到每个用例集。例如,可以使用本研究中调查的工具搜索特定主题的专家,或可视化网络中的搜索结果。虽然传统上PubMed无法满足列出的许多特殊用户需求,但其最近的发展使其能够执行某些任务,例如识别类似出版物、向用户发出更新警报以及在查询优化中提供反馈。更多详细信息请参阅“PubMed更改和展望未来”部分。

保存图片、插图等的外部文件。对象名称为baq036f3.jpg

可以使用不同工具的一组不同用例。

关于新功能的讨论

将28个系统与PubMed以及其他系统进行比较,我们发现主要在三个方面有新的建议:搜索、结果分析和界面/可用性。

搜索

因为大多数用户只在第一个结果页面上检查少数返回的结果[参考文献中的图7()]毫无疑问,按相关性显示引文是文献检索的一个理想特征。“排名搜索结果”部分列出的10个系统在这方面与PubMed不同。尽管这些系统中的大多数都将用户关键词作为输入,但它们在处理关键词以及随后使用关键词检索相关引文的方式上各不相同。与PubMed的ATM一样,Twease也有自己的查询扩展组件,可以在原始用户关键字中添加额外的MeSH术语和其他术语。此技术通常可以提高召回率,并且在原始查询检索到很少或零结果时特别有用(13). 另一方面,“排名搜索结果”部分列出的其他系统主要是为了提高PubMed默认的反向时间排序方案的精确度。他们的排名策略各不相同,从传统的IR技术,如显性/隐性反馈(RefMed/MiSearch)和相关性排名(Twease),到利用特定领域的重要因素,如期刊影响因素和引文数量(PubFocus),一些未知的专有语义NLP技术(Hikia和SemanticSearch)。

结果分析

默认情况下,PubMed在一个页面中返回20个搜索结果,并在单击结果时显示标题、摘要和其他书目信息。最近的研究集中于对标准PubMed输出的两种扩展。首先,由于PubMed搜索通常会产生一长串引文供人工检查,因此“将结果聚类为主题”一节中提到的系统旨在为检索到的文章总结的主要主题提供一个简短列表。因此,用户可以导航并选择关注感兴趣的主题。这类似于为结果集构建过滤器(66). 在这方面,选择合适的主题词将搜索结果聚类为有意义的组是这些方法成功的关键。目前,大多数系统都依赖于从标题/摘要或生物医学控制词汇/本体(例如MeSH)中选择重要词汇作为代表性主题术语。

标准PubMed输出的第二个扩展是由于文本识别技术的进步。特别是,语义注释被认为是未来科学出版的可能基石之一(67)尽管其全部益处尚未确定。因此,随着命名实体识别和生物医学信息提取技术的发展和成熟,一些系统呈现了深度语义丰富的总结结果。现有系统(“用语义和可视化丰富结果”部分)主要关注于在自由文本中发现基因、蛋白质、药物、疾病和物种及其生物关系,如蛋白质相互作用。这些领域的问题在文本挖掘社区中受到了最大的关注(68,69).

界面和可用性

除了提供改进的搜索质量外,许多系统还努力提供更好的搜索界面,包括对输入和输出的各种更改。iPubMed的一个创新功能是“search-as-you-type”,因此用户可以在检查检索结果的同时动态选择查询。其他关于替代输入接口的建议有助于用户提出特定问题(PICO,askMedline),允许非英语查询(BabelMeSH),并提倡使用滑块设置限制(SLIM)。关于输出的变化,有两个主要方向。首先,两个系统使用了额外的组件,以使汇总结果在图形中可见(ALiBaba和PubNet)。其次,有几个系统可以更方便地访问PDF(PubGet)和外部引文管理器(PubMed助理;HubMed)。

PubMed的变化和展望未来

为了应对文献检索的巨大需求和挑战,PubMed也经历了一系列重大变革,以更好地为用户服务。如所示图4,最近的许多变化发生在28个审查系统开发的同一时期。所以他们可能互相学习过。事实上,一些功能最初是在PubMed中开发的(例如相关文章),而其他功能则是在第三方应用程序中开发的,例如电子邮件警报。

保存图片、插图等的外部文件。对象名称为baq036f4.jpg

PubMed(浅绿色)和其他生物医学文献搜索工具(浅橙色)的技术开发时间表。对于PubMed来说,它显示了引入各种最新变化(仅限于“PubMed的变化和展望未来”部分中提到的变化)的开始年份。对于其他工具,我们显示了各种功能的工具首次出现的时间段。

几年前,PubMed推出了一项旨在促进科学发现的新举措。具体而言,通过Entrez系统在NCBI的不同数据库中提供全局搜索(网址:http://www.ncbi.nlm.nih.gov/gquery/),用户现在可以集成访问不同数据库中存储的所有信息,以了解生物实体,无论是相关出版物、DNA序列还是蛋白质结构。此外,还建立了数据库间链接,并在搜索结果页面中显示出来,使得文献和其他NCBI生物数据库之间的相关数据易于访问。例如,通过PubMed结果中的集成链接,用户可以访问PubChem中的化学品或Structure数据库中的蛋白质结构的信息。另一类发现组件称为传感器(http://www.nlm.nih.gov/pubs/techbull/nd08/nd08_pm_gene_sensor.html;http://www.nlm.nih.gov/pubs/techbull/mj08/mj08_pubmed_atm_cite_sensor.html). 传感器检测特定类型的搜索词,并提供对文献以外的相关信息的访问。例如,PubMed的基因传感器检测到用户查询中提到的基因,并显示链接,将用户导向Entrez gene中相关的基因记录。尽管这些新增内容是PubMed特有的,并且是独立开发的,但它们都反映了用各种生物数据在语义上丰富文献的思想,以实现更有效地获取知识的目标。

在研究和检索方面,尽管PubMed的默认排序模式保持不变,但PubMed.开发中也有一些值得注意的努力。首先,相关文章功能被集成到PubMed中,这样用户就可以很容易地检查内容中的类似文章。eTBLAST具有类似的功能,但如前所述,这两个系统依赖不同的技术来获取类似的文档。其次,PubMed中添加了特定工具以满足不同的信息需求。例如,引文匹配器是为那些搜索特定文章的人设计的。另一个例子是临床查询,这是一个为满足临床医生特定需求而设计的界面。它基本上类似于对搜索结果进行分类的思想(“对搜索结果排序”部分),因为该工具基本上使用一组预定义的过滤器来丢弃任何非临床结果。最后,为了帮助用户避免一长串返回结果并缩小搜索范围,最近引入了一个名为“also try”的新功能,该功能从包含用户搜索词的最流行PubMed查询中提供查询建议(4).

关于用户界面和可用性,PubMed引入了My NCBI工具,它允许用户选择和创建筛选选项,保存搜索结果,应用个人偏好,如在结果中突出显示搜索词,以及共享引用集。与PubCrawler类似,它还允许用户设置自动电子邮件以接收已保存搜索的更新。PubMed还部署了其他搜索帮助,如拼写检查器和查询自动完成功能。最终,2009年,PubMed界面(包括其主页)进行了大幅重新设计,现在简化了,更易于导航和使用。

文献检索是研究中一个根本性的重要问题,随着文献以更快的速度和更广的范围(跨越传统学科边界)增长,它只会变得更加困难。因此,我们期待着这一领域的不断发展和新出现的系统。特别是,随着搜索和网络技术的普遍进步,我们可能也会看到文献搜索的进步。随着生物医学文本挖掘技术在识别生物实体及其关系方面的成熟,可以实现更好的语义识别和搜索结果摘要,特别是对于作者姓名、疾病、基因/蛋白质和化学品/药物等实体,因为它们是反复和频繁搜索的主题(,70)生物医学领域。此外,对于未来的系统开发人员来说,一个关键因素是需要随着文献的增长保持其内容的最新,因为文献搜索具有近期效应-大多数用户仍然喜欢了解文献中的最新发现。最后,为了能够为所有28个被审查的系统以及“其他荣誉推荐”部分中的系统提供一站式购物,并跟踪该领域的未来发展,我们在http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/search网站它包含每个系统的突出显示和其独特功能的简短描述,一个或多个相关出版物,以及到Internet上实际系统的链接。为了方便忙碌的科学家快速找到适合他们特定搜索需求的工具,我们构建了一组搜索过滤器。例如,可以将整个系统列表缩小到PubMed中唯一保持内容最新的系统。未来的系统将通过季度更新或个人请求添加到网站中。在网站上,我们建立了一个注册未来系统的机制。一旦我们收到此类请求,我们将整理有关所提交系统的必要信息(例如系统亮点),并立即在网站上提供。

结论

根据我们的三个选择标准,本次审查共包括28个Web系统。它们与PubMed具有可比性,因为它们是为相同的目的设计的,并且使用了全部或部分PubMed.数据。我们首先对PubMed进行了概述,包括其内容和独特特征。接下来,根据它们的不同特征,我们将28个系统分为四大类,在这四大类中,我们进一步详细描述了它们中的每一个,并显示了它们的差异。最后,我们回顾了28个系统的整体,并讨论了它们在搜索、结果分析和丰富以及用户界面/可用性方面的创新方面。当非专业人士和专家用户希望找到PubMed以外的系统时,本综述可以直接为他们服务。此外,该综述对生物医学文献搜索领域的最新进展进行了详细总结。这对现有服务提供商和任何对该领域未来发展感兴趣的人都特别有用。最后,构建的网站可以集成并随时访问所有审查过的系统,并为注册未来的系统提供了一个场所。

致谢

作者感谢与约翰·威尔伯、黄敏莉和谢娜塔莉的有益讨论。

基金

这项工作的资金和开放获取费用:国家卫生研究院院内研究计划,国家医学图书馆。

利益冲突:未声明。

工具书类

1亨特·L,科恩·KB。生物医学语言处理:PubMed之外还有什么?摩尔.单元格。2006;21:589–594. [PMC免费文章][公共医学][谷歌学者]
2Sayers EW、Barrett T、Benson DA等。国家生物技术信息中心数据库资源。核酸研究。2010;38:D5–D16。 [PMC免费文章][公共医学][谷歌学者]
三。Islamaj Dogan R、Murray GC、Neveol A等。通过日志分析了解PubMed用户搜索行为。数据库。2009doi:10.1093/database/bap018。[PMC免费文章][公共医学][谷歌学者]
4Lu Z、Wilbur WJ、McEntyre JR等。为PubMed查找查询建议。AMIA年度。交响乐团。程序。2009;2009:396–400. [PMC免费文章][公共医学][谷歌学者]
5Jensen LJ、Saric J、Bork P。生物学家文献挖掘:从信息检索到生物发现。Nat.Rev.基因。2006;7:119–129.[公共医学][谷歌学者]
6Rodriguez-Esteban R.生物医学文本挖掘及其应用。公共科学图书馆计算。生物。2009;5:e1000597。 [PMC免费文章][公共医学][谷歌学者]
7Rzhetsky A、Seringhaus M、Gerstein MB。文本挖掘入门:第二部分。公共科学图书馆计算。生物。2009;5:e1000411。 [PMC免费文章][公共医学][谷歌学者]
8Krallinger M,Erhardt RA,Valencia A.分子生物学和生物医学中的文本挖掘方法。药物研发。今天。2005;10:439–445.[公共医学][谷歌学者]
9Krallinger M,Valencia A,Hirschman L。基因与文献的链接:文本挖掘、信息提取和生物学检索应用。基因组生物学。2008;9(补充2):S8。 [PMC免费文章][公共医学][谷歌学者]
10Cohen KB,Hunter L.开始文本挖掘。公共科学图书馆计算。生物。2008;4:e20。 [PMC免费文章][公共医学][谷歌学者]
11Clegg AB,Shepherd AJ。文本挖掘。方法分子生物学。2008;453:471–491.[公共医学][谷歌学者]
12Kim JJ,Rebholz-Schumann D.《生物医学文献信息检索服务分类:实践改进的类型学》。简介。生物信息。2008;9:452–465.[公共医学][谷歌学者]
13.Lu Z、Kim W、Wilbur WJ。在PubMed中使用MeSH评估查询扩展。Inf.Retr.(信息回收)。2009;12:69–80. [PMC免费文章][公共医学][谷歌学者]
14Hearst MA、Divoli A、Guturu H等。生物文本搜索引擎:超越抽象搜索。生物信息学。2007;23:2196–2197.[公共医学][谷歌学者]
15.Xu S,McCusker J,Krauthammer M.Yale Image Finder(YIF):检索生物医学图像的新搜索引擎。生物信息学。2008;24:1968–1970. [PMC免费文章][公共医学][谷歌学者]
16Yu H,Kim T,Oh J,et al.通过将秩学习集成到DBMS中,实现PubMed上的多级相关性反馈。BMC生物信息学。2010;11(补充2):S6。 [PMC免费文章][公共医学][谷歌学者]
17约阿希姆·T·。第八届ACM SIGKDD知识发现和数据挖掘国际会议论文集。2002.使用点击数据优化搜索引擎。加拿大艾伯塔省埃德蒙顿市ACM。[谷歌学者]
18Liu T-Y,Joachims T,Li H,等。信息检索中学习排名专题介绍。通知。收回。2010;13:197–200. [谷歌学者]
19奎特尔。2009 http://www.quertle.info(2010年8月23日,最后一次访问日期)[谷歌学者]
20Fontaine JF、Barbosa-Silva A、Schaefer M等。医学排名:生物医学文献的灵活排名。核酸研究。2009;37:W141–W146。 [PMC免费文章][公共医学][谷歌学者]
21States DJ、Ade AS、Wright ZC等。MiSearch自适应pubMed搜索工具。生物信息学。2009;25:974–976. [PMC免费文章][公共医学][谷歌学者]
22.Crestani F、Girolma M、van Rijsbergen C等人。信息检索进展。第2291卷。柏林,海德堡:施普林格;2002.网络检索中关联反馈的隐式证据使用;第449-479页。[谷歌学者]
23哈基亚。2008http://medical.hakia.com(http://medical.hakia.com)/(2010年8月23日,上次访问日期)
24SemanticMedline。2008 http://medline.cognition.com/(2010年8月23日,上次访问日期)[谷歌学者]
25Poulter G,Poulter G,Rubin D,et al.MScanner:检索Medline引文的分类器。BMC生物信息学。2008;9:108. [PMC免费文章][公共医学][谷歌学者]
26Errami M、Wren J、Hicks J等人。eTBLAST:一种用于识别专家审稿人、适当期刊和类似出版物的网络服务器。核酸研究。2007;35:W12。 [PMC免费文章][公共医学][谷歌学者]
27.Lin J、Wilbur WJ。PubMed相关文章:基于主题的内容相似性概率模型。BMC生物信息学。2007;8:423. [PMC免费文章][公共医学][谷歌学者]
28Plikus MV,Zhang Z,Chuong CM。PubFocus:通过整合受控生物医学词典和排名算法进行语义MEDLINE/PubMed引文分析。BMC生物信息学。2006;7:424. [PMC免费文章][公共医学][谷歌学者]
29Dorff K,Wood M,Campagne F.Twease在TREC 2006:通过查询扩展打破和修复BM25评分,这是一项生物启发的双突变恢复实验。文本检索会议(TREC)2006。2006NIST美国马里兰州盖瑟斯堡。[谷歌学者]
30Robertson SE、Walker S、Jones S等。TREC-3的Okapi。第三届文本检索会议。1994NIST美国马里兰州盖瑟斯堡。[谷歌学者]
31Pratt W,Fagan L.动态分类搜索结果的实用性。《美国医学杂志》。协会。2000;7:605–617. [PMC免费文章][公共医学][谷歌学者]
32Smalheiser NR、Zhou W、Torvik VI、Anne O’Tate:一种支持用户驱动的PubMed搜索结果摘要、向下搜索和浏览的工具。J.生物识别。发现。Collab公司。2008;:2. [PMC免费文章][公共医学][谷歌学者]
33Yamamoto Y,Takagi T.通过文献聚类进行生物医学知识导航。J.生物识别。通知。2007;40:114–130.[公共医学][谷歌学者]
34Doms A,Schroeder M.GoPubMed:用基因本体探索PubMed。核酸研究。2005;33:W783。 [PMC免费文章][公共医学][谷歌学者]
35ClusterMed.2004年。http://demos.vivisimo.com/clustermined(2010年8月23日,上次访问日期)
36Perez-Iratxeta C.XplorMed:探索MEDLINE摘要的工具。生物化学趋势。科学。2001;26:573–575.[公共医学][谷歌学者]
37Kim JJ、Pezik P和Rebholz-Schumann D.MedEvi:从Medline检索生物医学概念之间关系的文本证据。生物信息学。2008;24:1410–1412. [PMC免费文章][公共医学][谷歌学者]
38Rebholz-Schhmann D、Kirsch H、Arregui M等。EBIMed–通过文本处理从Medline收集蛋白质事实。生物信息学。2007;23:e237。[公共医学][谷歌学者]
39CiteXlore。2006http://www.ebi.ac.uk/citexplore/(2010年8月23日,上次访问日期)
40Ohta T、Tsuruoka Y、Takeuchi J等人。COLING/ACL互动演讲会议记录。澳大利亚悉尼:计算语言学协会;2006.基于深度句法分析的智能搜索引擎和基于GUI-的高效MEDLINE搜索工具。[谷歌学者]
41Douglas S、Montelione G、Gerstein M.PubNet:可视化文学衍生网络的灵活系统。基因组生物学。20082005;9:S1。 [PMC免费文章][公共医学][谷歌学者]
42王杰,塞蒂迪尔·I,纪S,等。交互式模糊搜索:探索MEDLINE的动态方法。生物信息学。2010;26:2321–2327.[公共医学][谷歌学者]
43Pubget出版社。2007网址:http://pubget.com/(2010年8月23日,上次访问日期)
44Liu F、Ackerman M、Fontelo P.BabelMeSH:为MEDLINE/PubMed开发跨语言工具。AMIA年度。交响乐团。程序。2006;2006:1012. [PMC免费文章][公共医学][谷歌学者]
45.Eaton AD.HubMed:一个基于网络的生物医学文献搜索界面。核酸研究。2006;34:W745–W747。 [PMC免费文章][公共医学][谷歌学者]
46.Fontelo P、Liu F、Ackerman M.askMEDLINE:MEDLINE/PubMed的自由文本自然语言查询工具。BMC医疗通知。Decis公司。制造商。2005;5:5. [PMC免费文章][公共医学][谷歌学者]
47Fontelo P、Liu F、Ackerman M等,askMEDLINE:一份关于一年经验的报告。AMIA Ann.交响乐。程序。2006:923. [PMC免费文章][公共医学][谷歌学者]
48Muin M、Fontelo P、Liu F等。SLIM:MEDLINE/PubMed搜索的替代Web界面——初步研究。BMC医疗通知。Decis公司。制造商。2005;5:37. [PMC免费文章][公共医学][谷歌学者]
49.Schardt C、Adams MB、Owens T等。利用PICO框架改进PubMed对临床问题的搜索。BMC医疗通知。Decis公司。制造商。2007;7:16. [PMC免费文章][公共医学][谷歌学者]
50Hokamp K,Wolfe KH。PubCrawler:轻松跟上PubMed和GenBank。核酸研究。2004;32:W16–W19。 [PMC免费文章][公共医学][谷歌学者]
51霍坎普K,沃尔夫K。图书馆有什么新功能?GenBank有什么新功能?让PubCrawler告诉你。趋势Genet。1999;15:471–472.[公共医学][谷歌学者]
52.Ding J,Hughes LM,Berleant D,et al.PubMed Assistant:增强PubMed.搜索的生物学家友好界面。生物信息学。2006;22:378–380.[公共医学][谷歌学者]
53Plake C、Schiemann T、Pankalla M等。阿里巴巴:PubMed作为一个图表。生物信息学。2006;22:2444.[公共医学][谷歌学者]
54蔡润田,戴HJ,赖PT,等。PubMed-EX:一种web浏览器扩展,用于通过文本挖掘功能增强PubMed搜索。生物信息学。2009;25:3031–3032.[公共医学][谷歌学者]
55Fernandez JM、Hoffmann R、Valencia A.iHOP网络服务。核酸研究。2007;35:W21–W26。 [PMC免费文章][公共医学][谷歌学者]
56Chen H,Sharp BM。通过挖掘PubMed摘要构建的内容丰富的生物网络。BMC生物信息学。2004;5:147. [PMC免费文章][公共医学][谷歌学者]
57Cheng D、Knox C、Young N等。PolySearch:一个基于web的文本挖掘系统,用于提取人类疾病、基因、突变、药物和代谢物之间的关系。核酸研究。2008;36:W399–W405。 [PMC免费文章][公共医学][谷歌学者]
58Wermter J、Tomanek K、Hahn U。GeNo高性能基因名称标准化。生物信息学。2009;25:815–821.[公共医学][谷歌学者]
59Torvik VI,Smalheiser NR.MEDLINE中的作者姓名消歧。ACM事务处理。知识。发现。数据。2009;:11:1–11:29. [PMC免费文章][公共医学][谷歌学者]
60Goetz T,Von Der Lieth C-W.PubFinder:提高相关PubMed摘要检索率的工具。核酸研究。2005;33:W774。 [PMC免费文章][公共医学][谷歌学者]
61Siadaty MS、Shu J、Knaus WA。发布:句子级搜索引擎,为MEDLINE生物医学文章数据库提供相关度评分。BMC医疗通知。Decis公司。制造商。2007;7:1. [PMC免费文章][公共医学][谷歌学者]
62Tanabe L、Scherf U、Smith LH等。MedMiner:一种用于生物医学信息的互联网文本挖掘工具,应用于基因表达谱分析。生物技术。1999;27:1210–1214.1216–1217. [公共医学][谷歌学者]
63Fattore M,Arrigo P。分子医学中的知识发现和系统生物学:在神经退行性疾病中的应用。硅生物。2005;5:199–208.[公共医学][谷歌学者]
64Kolchanov N、Hofestedt R、Milanesi L等。基因组调控与结构的生物信息学II。美国:施普林格;2006.通过自组织映射对生物医学摘要进行专题聚类;第481-490页。[谷歌学者]
65Lopez-Rubio E.定性数据的概率自组织图。神经网络。2010;23:1208–1225.[公共医学][谷歌学者]
66Kilicoglu H、Demner-Fushman D、Rindflesch TC等。走向科学严谨的临床研究证据的自动识别。《美国医学杂志》。协会。2009;16:25–31. [PMC免费文章][公共医学][谷歌学者]
67里纳尔迪A.因为我展望了未来。EMBO代表。2010;11:345–359. [PMC免费文章][公共医学][谷歌学者]
68Krallinger M、Leitner F、Rodriguez-Penagos C等。生物创意II蛋白质相互作用注释提取任务概述。基因组生物学。2008;9(补充2):S4。 [PMC免费文章][公共医学][谷歌学者]
69Morgan AA,Lu Z,Wang X,等。生物创意II基因正常化概述。基因组生物学。2008;9(补充2):S3。 [PMC免费文章][公共医学][谷歌学者]
70.Neveol A,Islamaj-Dogan R,Lu Z.PubMed查询的半自动语义标注:质量、效率和满意度研究。J.生物识别。通知。2010 [PMC免费文章][公共医学][谷歌学者]

文章来自数据库:《生物数据库与治疗杂志》由提供牛津大学出版社