PubTator: a web-based text mining tool for assisting biocuration

Chih-Hsuan Wei; Hung-Yu Kao; Zhiyong Lu

doi:10.1093/nar/gkt441

核酸研究。2013年7月；41（Web服务器问题）：W518–W522。

2013年5月22日在线发布。数字对象标识：10.1093/nar/gkt441

预防性维修识别码：PMC3692066

PMID：23703206

PubTator：一种基于web的文本挖掘工具，用于帮助生物化

志宣伟,^1,² 洪玉高,²和卢志勇^1,^*

作者信息文章注释版权和许可信息 PMC免责声明

摘要

将生物医学文献中的知识手动整理到结构化数据库中既昂贵又耗时，很难跟上文献的快速增长。因此，迫切需要使用自动文本挖掘工具来帮助生物化。在这里，我们描述了PubTator，一个基于网络的系统，用于协助生物化。PubTator不同于现有的少数几个工具，它具有PubMed般的界面，这是许多生物化学家所熟悉的，并且配备了多个具有挑战性的文本挖掘算法，以确保其自动结果的质量。通过与两个外部用户组的正式评估，PubTator被证明能够提高手动管理的效率和准确性。PubTator可在以下网址公开获取：http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/PubTator/.

简介

当前的生物医学研究严重依赖于在线获取专家管理的生物数据库中的知识。建立这些知识库通常需要人工管理，包括生物鉴定员阅读文章、提取关键发现和交叉引用数据。生物制品已成为生物发现和生物医学研究的重要组成部分(1–3). 然而，随着生物文献数量的迅速增长，生物化学家越来越难以跟上文献的步伐，因为手动生物化成是一项昂贵且耗时的工作。为了帮助减轻手动管理的负担，人们越来越努力使用自动文本管理技术(4–12)，包括查找基因名称和符号，为管理文档排定优先级，以及分配本体概念。响应参与BioCreative 2012交互式文本挖掘任务的呼吁(13)，我们开发了PubTator，这是一个基于网络的应用程序，为生物化学家提供计算机辅助(14).

PubTator有几个独特的功能，使其区别于现有的注释和文献搜索工具(15–17)，因为它是专门为具有有限文本识别经验的生物验证器的需要而设计的。首先，PubTator是一个基于web的系统；因此，不需要安装，也不限于任何特定的计算机平台。其次，PubTator是一个一体化系统，为文献管理提供从搜索和检索相关文章到注释选定文章的一站式服务。因此，用户输入可以是搜索查询或PubMed文章列表。手动管理完成后，用户可以轻松下载和导出注释以进行数据库集成。第三，PubTator是在PubMed般的界面中设计的，许多生物化学家发现它很熟悉，并且易于使用，只需要很少的培训。第四，多种赢得竞争的文本挖掘方法已集成到PubTator中，用于自动识别关键生物实体(18,19). 因此，它在计算机辅助生物化学中生成自动计算机预注释方面提供了最先进的性能。最后，PubTator可以适应不同的注释任务，并允许用户个性化自己的注释环境。

系统描述

使用文本挖掘工具预注释PubMed文章

PubTator包含PubMed的全部内容，并与夜间更新保持同步。为了实现特定于实体的语义搜索，并为计算机辅助生物合成提供预注释，自动文本挖掘工具应用于与基因、疾病、物种、化学品和突变相关的所有文章。更具体地说，我们不仅可以在文本中找到这些实体的出现，还可以将所有实体提及映射到标准数据库或受控词汇标识符，如表1为了确保高质量的自动处理结果，我们使用了一些工具，这些工具在各种短文比赛中都得到了广泛的评估，以获得最佳表现。我们的实体识别工具包括GeneTUKit(19)提到基因，GenNorm(18)用于基因标准化，SR4GN(20)对于物种，DNorm（Leaman等人，2013年，正在考虑中；http://www.ncbi.nlm.nih.gov/CBResearch/Lu/Demo/DNorm/)对于疾病，tmVar(21)用于突变和基于字典的查找方法(8)用于化学品。SR4GN还用于将已识别物种与其对应的基因/蛋白质关联，以便我们能够在PubTator中执行跨物种基因归一化。

表1。

用于在PubMed文章中预先注释生物信息的文本管理工具

生物工程	文本管理工具	术语	F类₁得分（%）
基因（提及）	基因TUKit	不适用	82.97
基因（正常化）	GenNorm公司	NCBI基因	92.89
疾病	D表单	医疗	80.90
物种	SR4GN系列	分类学	85.42
化学品	基于词典的查找方法	网格	53.82
突变	tmVar（tmVar）	NCBI dbSNP（rs#）或tmVar规范化形式	93.98

在单独的窗口中打开

报告的F₁分数(http://en.wikipedia.org/wiki/F1_score)的不同工具要么取自其相应的出版物，要么由我们在公共基准数据集上进行评估。MEDIC是由比较毒理学数据库创建的疾病词汇。所有其他词汇都是国家医学图书馆的产品。单独的工具用于识别摘要中的基因名称（提及），并为这些提及指定NCBI基因标识符（规范化）。

PubTator中的搜索功能

PubTator支持针对特定生物实体的关键字搜索和语义搜索。如所示图1，PubTator中当前提供了五个搜索选项：

PubMed:返回与PubMed搜索结果相同的结果
基因：返回与特定基因或基因产品相关的所有文章
化学品：退回与特定化学品相关的所有物品
疾病：返回与特定疾病或综合征相关的所有文章
PMID列表：返回PubMed标识符（PMID）上传顺序中的文章

在单独的窗口中打开

图1。

PubTator主页有五个不同的搜索选项。

第一个搜索选项（PubMed）是使用NCBI的Entrez Programming Utilities Web服务API实现的(http://www.ncbi.nlm.nih.gov/books/NBK25500/). 接下来的三个语义搜索选项基于不同文本管理工具的预先计算结果，如所示表1由于生物实体通常与多个名称关联，我们的语义搜索功能允许用户检索与实体相关的所有文章，而无需枚举整个可能的别名集(22). 例如，搜索乳腺癌基因ERBB2也会检索到仅包含其替代名称的文章，如HER2（例如，参见图2). 最后一个搜索选项（PMID列表）是为已经拥有相关文章列表的用户提供的。

在单独的窗口中打开

图2。

PubTator搜索结果页面。自动计算的实体以颜色高亮显示。与PubMed不同，文章摘要可以在此处显示，而无需转到其他页面。

与PubMed相同，PubTator以逆时间顺序返回除PMID List之外的所有搜索选项的搜索结果。然而，PubTator中每页只返回15个结果，而PubMed中每页仅返回20个，这使得用户可以浏览搜索结果页面上的摘要，如所示图2.

与PubMed不同的是，每一篇文章都突出显示了预先计算的生物实体（如果适用）：基因（紫色）、化学物质（绿色）、疾病（橙色）、突变（棕色）和物种（蓝色）。搜索过滤器（按分类法）是为那些处理特定生物体的生物化成团队提供的，因为默认情况下，我们显示所有物种的结果。

PubTator中的注释功能

目前，PubTator支持三种注释任务：文档分类、实体注释和关系注释。在文件分类中，生物鉴定员根据对文章的阅读来选择和优先排序可管理的文章。作为全面策展的前一步，用户可以使用PubTator通过两种简单的机制轻松识别可策展的文章：首先，用户可以通过简单地选中文章旁边的框来从搜索结果中选择文章（请参阅图2). 其次，用户可以在注释页面的顶部指示文章是否可管理（请参阅图3).

在单独的窗口中打开

图3。

PubTator注释页。页面顶部的两个单选按钮（可编辑/不可编辑）用于文档分类。文本框和下表用于实体注释。页面底部的关系表用于关系注释。在提及视图中，每一行对应一个实体提及。在概念视图（默认）中，相同概念的不同引用（即具有相同标识符）被合并并显示在同一行中。

PubTator可以按照我们在线教程页面中详细介绍的步骤，用于注释任何类型的生物引擎(http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/PubTator/tutorial/index.html#DefineBioconcepts（定义生物概念）). PubTator为五种常见类型（如所示表1). 如所示图3，预先计算的生物活性在文本框中以颜色突出显示，并显示在下表中，其中存储了提及内容和相应的标识符。用户可以修改和删除现有注释，也可以插入新注释。为了提高效率，一旦对实体进行了新的注释，就可以选择将注释传播到同一实体的整个文章中。完成后，所有注释都将保存到我们的数据库中供下载。

最后，PubTator可用于注释实体之间的关系(http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/PubTator/tutorial/index.html#DefineBiorelations（定义生物关系）). PubTator允许馆长指定他们希望从文献中捕获的关系类型，这些关系可以是相同实体之间的关系，例如蛋白质-蛋白质相互作用，也可以是不同类型之间的关系（例如基因-疾病关系）。PubTator确保用户选择的实体类型与关系定义指定的实体类型一致。

系统适应性

我们的目标是使PubTator能够适应不同的策展需求，而不是成为特定策展团队的工具。例如，PubTator允许其用户定义自己的实体类型和受控词汇表，分别用于注释提及及其相应的概念标识符。这对于分配基因和蛋白质标识符特别有用，因为模型生物组的管理者可能更喜欢使用自己的基因命名法（例如，拟南芥基因组计划位点标识符），而不是默认的NCBI基因标识符。然而，对于用户定义的实体类型或术语，PubTator不提供自动预注释。

除了PubMed文章外，PubTator还可用于处理其他类型的生物医学文本（例如，注释拨款数据）。在这种情况下，可以先将输入文本按照特定格式上传到PubTator，然后立即由不同的文本管理工具动态处理。

评估结果

PubTator已通过参与BioCreative 2012年研讨会的交互式文本挖掘轨道得到正式评估(13). PubTator针对两项管理任务（文档分类和基因索引）改进了手动管理效率管理和用户研究的准确性(23). 任务完成后，交互式短信追踪组织者进行了一项调查，以帮助确定不同系统在系统设计、可用性等方面的优缺点。调查结果表明，PubTator在从系统设计、可学习性到可用性的许多方面都获得了最高的评价。总的来说，PubTator是所有参与系统中评级最高、推荐最多的(13).

结论

人们越来越需要自动化的计算机工具来协助许多生物化成任务，包括确定文章的优先顺序以进行全面管理和注释关键的生物概念。PubTator就是为了满足这些需求而开发的。特别是，PubTator通过一个易于使用的图形界面为用户提供了许多先进的文本识别工具，该界面可以通过web访问。基于之前的用户研究，我们相信PubTator可以在生物化学家的日常管理工作中为他们提供实际好处。未来的工作包括进一步改进现有的文本挖掘算法，并集成额外的文本挖掘工具，以更好地支持本体概念注释，在最近的研究中，这被确定为生物化的关键需求(6,24). 我们还计划在未来PubTator开发中研究不同的搜索算法和全文过程。

基金

美国国立卫生研究院院内研究计划，国家医学图书馆。开放存取费用的资金来源：美国国家医学图书馆。

利益冲突声明。未声明。

致谢

作者感谢Larry Smith、Don Comeau和Rezarta Dogan在PubTator原型上所做的工作。他们还感谢约翰·威尔伯（John Wilbur）、孙金（Sun Kim）和贝萨尼·哈里斯（Bethany Harris）的有益讨论，以及罗伯特·利曼（Robert Leaman）对手稿的校对。

参考文献

1Burge S、Attwood TK、Bateman A、Berardini TZ、Cherry M、O’Donovan C、Xenarios L、Gaudet P.生物保护者和生物化：调查21世纪的挑战。数据库（牛津）2012;2012：巴059。 [PMC免费文章][公共医学][谷歌学者]

2Howe D、Costanzo M、Fey P、Gojobori T、Hannick L、Hide W、Hill DP、Kania R、Schaeffer M、Pierre SS等。大数据：生物化的未来。自然。2008;455:47–50. [PMC免费文章][公共医学][谷歌学者]

三。Bourne PE，McEntyre J.生物馆长：科学世界的贡献者。公共科学图书馆计算。生物。2006;2：e142。 [PMC免费文章][公共医学][谷歌学者]

4.Vishnyakova D，Pasche E，Ruch P.使用二进制分类为比较毒理学数据库优先排序和整理文章。数据库（牛津）2012;2012：bas050。 [PMC免费文章][公共医学][谷歌学者]

5Névéol A，Wilbur WJ，Lu Z.使用文本挖掘改进文献和生物数据之间的联系：与GEO、PDB和MEDLINE的案例研究。数据库（牛津）2012;2012：bas026。 [PMC免费文章][公共医学][谷歌学者]

6.Lu Z，Hirschman L.生物保护工作流程和文本挖掘：生物创意研讨会轨道II概述。数据库（牛津）2012;2012：bas043。 [PMC免费文章][公共医学][谷歌学者]

7Rinaldi F、铁线莲S、Garten Y、Whirl-Carrillo M、Gong L、Hebert JM、Sangkuhl K、Thorn CF、Klein TE、Altman RB。使用ODIN进行PharmGKB再验证实验。数据库（牛津）2012;2012：bas021。 [PMC免费文章][公共医学][谷歌学者]

8Wiegers TC、Davis AP、Mattingly CJ。协同生物化——文本开发任务，用于文件优先化管理。数据库（牛津）2012;2012：bas037。 [PMC免费文章][公共医学][谷歌学者]

9Auken KV，Jaffery J，Chan J，Müller H-M，Sternberg PW.蛋白质亚细胞定位的半自动管理：基于文本挖掘的基因本体（GO）细胞成分管理方法。BMC生物信息学。2009;10:228. [PMC免费文章][公共医学][谷歌学者]

10Yu W，Clyne M，Dolan SM，Yesupriya A，Wulf A，Liu T，Khoury MJ，Gwinn M.GAPscreener：使用支持向量机技术在PubMed中筛选人类遗传关联文献的自动工具。BMC生物信息学。2008;9:205. [PMC免费文章][公共医学][谷歌学者]

11Dowell KG、McAndrews-Hill MS、Hill DP、Drabkin HJ、Blake JA。将文本挖掘集成到MGI生物化工作流中。数据库。2009;2009：bap019。 [PMC免费文章][公共医学][谷歌学者]

12Krallinger M、Leitner F、Vazquez M、Salgado D、Marcelle C、Tyers M、Valencia A、Chatr-aryamontri A。如何将本体论和蛋白质相互作用与文学联系起来：文本管理方法和生物创意体验。数据库（牛津）2012;2012：bas017。 [PMC免费文章][公共医学][谷歌学者]

13Arighi CN、Roberts PM、Agarwal S、Bhattacharya S、Cesarini G、Chatr aryamontri A、Clematide S、Gaudet P、Giglio MG、Harrow I等。BioCreative 2012工作坊第三轨道概述：交互式文本挖掘任务。数据库。2013;2013：bas056。 [PMC免费文章][公共医学][谷歌学者]

14魏C-H，高H-Y，卢Z。2012年生物创意研讨会会议记录。美国：华盛顿特区；2012年，PubTator：一个类似PubMed的交互式文件分类和文献管理系统；第145-150页。[谷歌学者]

15.Neves M，Leser U。生物医学文献注释工具调查。简介。生物信息学。201212月18日（doi:10.1093/bib/bbs084；印刷前epub）[公共医学][谷歌学者]

16Müller H-M，Kenny EE，Sternberg PW。Textpresso：基于本体论的生物文献信息检索和提取系统。《公共科学图书馆·生物》。2004;2：e309。 [PMC免费文章][公共医学][谷歌学者]

17Salgado D、Krallinger M、Depaule M、Drula E、Tendulkar AV、Leitner F、Valencia A、Marcelle C.MyMiner：一个用于计算机辅助生物化和文本注释的web应用程序。生物信息学。2012;28:2285–2287.[公共医学][谷歌学者]

18Wei C-H，Kao H-Y.通过物种推断进行跨物种基因标准化。BMC生物信息学。2011;12：S6。 [PMC免费文章][公共医学][谷歌学者]

19.Huang M，Liu J，Zhu X.GeneTUKit：用于文档级基因规范化的软件。生物信息学。2011;27:1032–1033. [PMC免费文章][公共医学][谷歌学者]

20Wei C-H，Kao H-Y，Lu Z.SR4GN：用于基因规范化的物种识别软件工具。公共科学图书馆一号。2012;7：e38460。 [PMC免费文章][公共医学][谷歌学者]

21Wei C-H，Harris BR，Kao H-Y，Lu Z.tmVar:提取生物医学文献中序列变体的文本挖掘方法。生物信息学。2013;29:1433–1439. [PMC免费文章][公共医学][谷歌学者]

22Divoli A，Hearst MA，Wooldridge MA。在生物科学文献搜索界面中显示基因/蛋白质名称建议的证据。派克靴。交响乐团。生物计算机。2008:568–579.[公共医学][谷歌学者]

23Wei C-H，Harris BR，Li D，Berardini TZ，Huala E，Kao H-Y，Lu Z。使用文本管理工具加速文献管理：使用PubTator管理PubMed摘要中的基因的案例研究。数据库（牛津）2012;2012：bas041。 [PMC免费文章][公共医学][谷歌学者]

24Laulederkind SJ、Tutaj M、Shimoyama M、Hayman GT、Lowry TF、Nigam R、Petri V、Smith JR、Wang S-J、de Pons J等。大鼠基因组数据库的本体搜索和浏览。数据库（牛津）2012;2012：bas016。 [PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社