核酸研究。2013年7月;41(Web服务器问题):W518–W522。
PubTator:一种基于web的文本挖掘工具,用于帮助生物化
,1,2 ,2和1,*
志宣伟
1美国国家医学图书馆国家生物技术信息中心,8600 Rockville Pike,Bethesda,MD 20894,USA和2中华人民共和国台湾台南701国立成工大学计算机科学与信息工程系
洪玉高
1美国国家医学图书馆国家生物技术信息中心,8600 Rockville Pike,Bethesda,MD 20894,USA和2中华人民共和国台湾台南701国立成工大学计算机科学与信息工程系
卢志勇
1美国国家医学图书馆国家生物技术信息中心,8600 Rockville Pike,Bethesda,MD 20894,USA和2国立成功大学计算机科学与信息工程系,台湾省台南市701号
1美国国家医学图书馆国家生物技术信息中心,8600 Rockville Pike,Bethesda,MD 20894,USA和2中华人民共和国台湾台南701国立成工大学计算机科学与信息工程系
2013年3月1日收到;2013年4月19日修订;2013年4月29日验收。
版权牛津大学出版社2013年出版。这部作品由美国政府雇员撰写,在美国属于公共领域。 摘要
将生物医学文献中的知识手动整理到结构化数据库中既昂贵又耗时,很难跟上文献的快速增长。因此,迫切需要使用自动文本挖掘工具来帮助生物化。在这里,我们描述了PubTator,一个基于网络的系统,用于协助生物化。PubTator不同于现有的少数几个工具,它具有PubMed般的界面,这是许多生物化学家所熟悉的,并且配备了多个具有挑战性的文本挖掘算法,以确保其自动结果的质量。通过与两个外部用户组的正式评估,PubTator被证明能够提高手动管理的效率和准确性。PubTator可在以下网址公开获取:http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/PubTator/.
简介
当前的生物医学研究严重依赖于在线获取专家管理的生物数据库中的知识。建立这些知识库通常需要人工管理,包括生物鉴定员阅读文章、提取关键发现和交叉引用数据。生物制品已成为生物发现和生物医学研究的重要组成部分(1–3). 然而,随着生物文献数量的迅速增长,生物化学家越来越难以跟上文献的步伐,因为手动生物化成是一项昂贵且耗时的工作。为了帮助减轻手动管理的负担,人们越来越努力使用自动文本管理技术(4–12),包括查找基因名称和符号,为管理文档排定优先级,以及分配本体概念。响应参与BioCreative 2012交互式文本挖掘任务的呼吁(13),我们开发了PubTator,这是一个基于网络的应用程序,为生物化学家提供计算机辅助(14).
PubTator有几个独特的功能,使其区别于现有的注释和文献搜索工具(15–17),因为它是专门为具有有限文本识别经验的生物验证器的需要而设计的。首先,PubTator是一个基于web的系统;因此,不需要安装,也不限于任何特定的计算机平台。其次,PubTator是一个一体化系统,为文献管理提供从搜索和检索相关文章到注释选定文章的一站式服务。因此,用户输入可以是搜索查询或PubMed文章列表。手动管理完成后,用户可以轻松下载和导出注释以进行数据库集成。第三,PubTator是在PubMed般的界面中设计的,许多生物化学家发现它很熟悉,并且易于使用,只需要很少的培训。第四,多种赢得竞争的文本挖掘方法已集成到PubTator中,用于自动识别关键生物实体(18,19). 因此,它在计算机辅助生物化学中生成自动计算机预注释方面提供了最先进的性能。最后,PubTator可以适应不同的注释任务,并允许用户个性化自己的注释环境。
系统描述
使用文本挖掘工具预注释PubMed文章
PubTator包含PubMed的全部内容,并与夜间更新保持同步。为了实现特定于实体的语义搜索,并为计算机辅助生物合成提供预注释,自动文本挖掘工具应用于与基因、疾病、物种、化学品和突变相关的所有文章。更具体地说,我们不仅可以在文本中找到这些实体的出现,还可以将所有实体提及映射到标准数据库或受控词汇标识符,如为了确保高质量的自动处理结果,我们使用了一些工具,这些工具在各种短文比赛中都得到了广泛的评估,以获得最佳表现。我们的实体识别工具包括GeneTUKit(19)提到基因,GenNorm(18)用于基因标准化,SR4GN(20)对于物种,DNorm(Leaman等人,2013年,正在考虑中;http://www.ncbi.nlm.nih.gov/CBResearch/Lu/Demo/DNorm/)对于疾病,tmVar(21)用于突变和基于字典的查找方法(8)用于化学品。SR4GN还用于将已识别物种与其对应的基因/蛋白质关联,以便我们能够在PubTator中执行跨物种基因归一化。
表1。
用于在PubMed文章中预先注释生物信息的文本管理工具
生物工程 | 文本管理工具 | 术语 | F类1得分(%) |
---|
基因(提及) | 基因TUKit | 不适用 | 82.97 |
基因(正常化) | GenNorm公司 | NCBI基因 | 92.89 |
疾病 | D表单 | 医疗 | 80.90 |
物种 | SR4GN系列 | 分类学 | 85.42 |
化学品 | 基于词典的查找方法 | 网格 | 53.82 |
突变 | tmVar(tmVar) | NCBI dbSNP(rs#)或tmVar规范化形式 | 93.98 |
PubTator中的搜索功能
PubTator支持针对特定生物实体的关键字搜索和语义搜索。如所示,PubTator中当前提供了五个搜索选项:
第一个搜索选项(PubMed)是使用NCBI的Entrez Programming Utilities Web服务API实现的(http://www.ncbi.nlm.nih.gov/books/NBK25500/). 接下来的三个语义搜索选项基于不同文本管理工具的预先计算结果,如所示由于生物实体通常与多个名称关联,我们的语义搜索功能允许用户检索与实体相关的所有文章,而无需枚举整个可能的别名集(22). 例如,搜索乳腺癌基因ERBB2也会检索到仅包含其替代名称的文章,如HER2(例如,参见). 最后一个搜索选项(PMID列表)是为已经拥有相关文章列表的用户提供的。
PubTator搜索结果页面。自动计算的实体以颜色高亮显示。与PubMed不同,文章摘要可以在此处显示,而无需转到其他页面。
与PubMed相同,PubTator以逆时间顺序返回除PMID List之外的所有搜索选项的搜索结果。然而,PubTator中每页只返回15个结果,而PubMed中每页仅返回20个,这使得用户可以浏览搜索结果页面上的摘要,如所示.
与PubMed不同的是,每一篇文章都突出显示了预先计算的生物实体(如果适用):基因(紫色)、化学物质(绿色)、疾病(橙色)、突变(棕色)和物种(蓝色)。搜索过滤器(按分类法)是为那些处理特定生物体的生物化成团队提供的,因为默认情况下,我们显示所有物种的结果。
系统适应性
我们的目标是使PubTator能够适应不同的策展需求,而不是成为特定策展团队的工具。例如,PubTator允许其用户定义自己的实体类型和受控词汇表,分别用于注释提及及其相应的概念标识符。这对于分配基因和蛋白质标识符特别有用,因为模型生物组的管理者可能更喜欢使用自己的基因命名法(例如,拟南芥基因组计划位点标识符),而不是默认的NCBI基因标识符。然而,对于用户定义的实体类型或术语,PubTator不提供自动预注释。
除了PubMed文章外,PubTator还可用于处理其他类型的生物医学文本(例如,注释拨款数据)。在这种情况下,可以先将输入文本按照特定格式上传到PubTator,然后立即由不同的文本管理工具动态处理。
评估结果
PubTator已通过参与BioCreative 2012年研讨会的交互式文本挖掘轨道得到正式评估(13). PubTator针对两项管理任务(文档分类和基因索引)改进了手动管理效率管理和用户研究的准确性(23). 任务完成后,交互式短信追踪组织者进行了一项调查,以帮助确定不同系统在系统设计、可用性等方面的优缺点。调查结果表明,PubTator在从系统设计、可学习性到可用性的许多方面都获得了最高的评价。总的来说,PubTator是所有参与系统中评级最高、推荐最多的(13).
结论
人们越来越需要自动化的计算机工具来协助许多生物化成任务,包括确定文章的优先顺序以进行全面管理和注释关键的生物概念。PubTator就是为了满足这些需求而开发的。特别是,PubTator通过一个易于使用的图形界面为用户提供了许多先进的文本识别工具,该界面可以通过web访问。基于之前的用户研究,我们相信PubTator可以在生物化学家的日常管理工作中为他们提供实际好处。未来的工作包括进一步改进现有的文本挖掘算法,并集成额外的文本挖掘工具,以更好地支持本体概念注释,在最近的研究中,这被确定为生物化的关键需求(6,24). 我们还计划在未来PubTator开发中研究不同的搜索算法和全文过程。
基金
美国国立卫生研究院院内研究计划,国家医学图书馆。开放存取费用的资金来源:美国国家医学图书馆。
利益冲突声明。未声明。
致谢
作者感谢Larry Smith、Don Comeau和Rezarta Dogan在PubTator原型上所做的工作。他们还感谢约翰·威尔伯(John Wilbur)、孙金(Sun Kim)和贝萨尼·哈里斯(Bethany Harris)的有益讨论,以及罗伯特·利曼(Robert Leaman)对手稿的校对。
参考文献
1Burge S、Attwood TK、Bateman A、Berardini TZ、Cherry M、O’Donovan C、Xenarios L、Gaudet P.生物保护者和生物化:调查21世纪的挑战。数据库(牛津)2012;2012:巴059。 [PMC免费文章][公共医学][谷歌学者] 2Howe D、Costanzo M、Fey P、Gojobori T、Hannick L、Hide W、Hill DP、Kania R、Schaeffer M、Pierre SS等。大数据:生物化的未来。自然。2008;455:47–50. [PMC免费文章][公共医学][谷歌学者] 三。Bourne PE,McEntyre J.生物馆长:科学世界的贡献者。公共科学图书馆计算。生物。2006;2:e142。 [PMC免费文章][公共医学][谷歌学者] 4.Vishnyakova D,Pasche E,Ruch P.使用二进制分类为比较毒理学数据库优先排序和整理文章。数据库(牛津)2012;2012:bas050。 [PMC免费文章][公共医学][谷歌学者] 5Névéol A,Wilbur WJ,Lu Z.使用文本挖掘改进文献和生物数据之间的联系:与GEO、PDB和MEDLINE的案例研究。数据库(牛津)2012;2012:bas026。 [PMC免费文章][公共医学][谷歌学者] 6.Lu Z,Hirschman L.生物保护工作流程和文本挖掘:生物创意研讨会轨道II概述。数据库(牛津)2012;2012:bas043。 [PMC免费文章][公共医学][谷歌学者] 7Rinaldi F、铁线莲S、Garten Y、Whirl-Carrillo M、Gong L、Hebert JM、Sangkuhl K、Thorn CF、Klein TE、Altman RB。使用ODIN进行PharmGKB再验证实验。数据库(牛津)2012;2012:bas021。 [PMC免费文章][公共医学][谷歌学者] 8Wiegers TC、Davis AP、Mattingly CJ。协同生物化——文本开发任务,用于文件优先化管理。数据库(牛津)2012;2012:bas037。 [PMC免费文章][公共医学][谷歌学者] 9Auken KV,Jaffery J,Chan J,Müller H-M,Sternberg PW.蛋白质亚细胞定位的半自动管理:基于文本挖掘的基因本体(GO)细胞成分管理方法。BMC生物信息学。2009;10:228. [PMC免费文章][公共医学][谷歌学者] 10Yu W,Clyne M,Dolan SM,Yesupriya A,Wulf A,Liu T,Khoury MJ,Gwinn M.GAPscreener:使用支持向量机技术在PubMed中筛选人类遗传关联文献的自动工具。BMC生物信息学。2008;9:205. [PMC免费文章][公共医学][谷歌学者] 11Dowell KG、McAndrews-Hill MS、Hill DP、Drabkin HJ、Blake JA。将文本挖掘集成到MGI生物化工作流中。数据库。2009;2009:bap019。 [PMC免费文章][公共医学][谷歌学者] 12Krallinger M、Leitner F、Vazquez M、Salgado D、Marcelle C、Tyers M、Valencia A、Chatr-aryamontri A。如何将本体论和蛋白质相互作用与文学联系起来:文本管理方法和生物创意体验。数据库(牛津)2012;2012:bas017。 [PMC免费文章][公共医学][谷歌学者] 13Arighi CN、Roberts PM、Agarwal S、Bhattacharya S、Cesarini G、Chatr aryamontri A、Clematide S、Gaudet P、Giglio MG、Harrow I等。BioCreative 2012工作坊第三轨道概述:交互式文本挖掘任务。数据库。2013;2013:bas056。 [PMC免费文章][公共医学][谷歌学者] 14魏C-H,高H-Y,卢Z。2012年生物创意研讨会会议记录。美国:华盛顿特区;2012年,PubTator:一个类似PubMed的交互式文件分类和文献管理系统;第145-150页。[谷歌学者] 15.Neves M,Leser U。生物医学文献注释工具调查。简介。生物信息学。201212月18日(doi:10.1093/bib/bbs084;印刷前epub)[公共医学][谷歌学者] 16Müller H-M,Kenny EE,Sternberg PW。Textpresso:基于本体论的生物文献信息检索和提取系统。《公共科学图书馆·生物》。2004;2:e309。 [PMC免费文章][公共医学][谷歌学者] 17Salgado D、Krallinger M、Depaule M、Drula E、Tendulkar AV、Leitner F、Valencia A、Marcelle C.MyMiner:一个用于计算机辅助生物化和文本注释的web应用程序。生物信息学。2012;28:2285–2287.[公共医学][谷歌学者] 18Wei C-H,Kao H-Y.通过物种推断进行跨物种基因标准化。BMC生物信息学。2011;12:S6。 [PMC免费文章][公共医学][谷歌学者] 19.Huang M,Liu J,Zhu X.GeneTUKit:用于文档级基因规范化的软件。生物信息学。2011;27:1032–1033. [PMC免费文章][公共医学][谷歌学者] 20Wei C-H,Kao H-Y,Lu Z.SR4GN:用于基因规范化的物种识别软件工具。公共科学图书馆一号。2012;7:e38460。 [PMC免费文章][公共医学][谷歌学者] 21Wei C-H,Harris BR,Kao H-Y,Lu Z.tmVar:提取生物医学文献中序列变体的文本挖掘方法。生物信息学。2013;29:1433–1439. [PMC免费文章][公共医学][谷歌学者] 22Divoli A,Hearst MA,Wooldridge MA。在生物科学文献搜索界面中显示基因/蛋白质名称建议的证据。派克靴。交响乐团。生物计算机。2008:568–579.[公共医学][谷歌学者] 23Wei C-H,Harris BR,Li D,Berardini TZ,Huala E,Kao H-Y,Lu Z。使用文本管理工具加速文献管理:使用PubTator管理PubMed摘要中的基因的案例研究。数据库(牛津)2012;2012:bas041。 [PMC免费文章][公共医学][谷歌学者] 24Laulederkind SJ、Tutaj M、Shimoyama M、Hayman GT、Lowry TF、Nigam R、Petri V、Smith JR、Wang S-J、de Pons J等。大鼠基因组数据库的本体搜索和浏览。数据库(牛津)2012;2012:bas016。 [PMC免费文章][公共医学][谷歌学者]