BMC生物信息学。2005; 6(补充1):S1。
BioCreAtIvE概述:生物学信息提取的关键评估
,1 ,1 ,2和三 勒奈特·赫希曼
1美国马萨诸塞州贝德福德市伯灵顿路202号MITRE公司,邮编01730
亚历山大·叶
1美国马萨诸塞州贝德福德市伯灵顿路202号MITRE公司,邮编01730
克里斯蒂安·布拉施克
2西班牙马德里Tres Cantos C-D 28760室4–2楼Ronda de Poniente Bioalma
阿方索·巴伦西亚
三西班牙马德里E-28049 Cantoblanco CNB-CSIC国家生物技术中心蛋白质设计小组
1美国马萨诸塞州贝德福德市伯灵顿路202号MITRE公司,邮编01730
2西班牙马德里Tres Cantos C-D 28760室4–2楼Ronda de Poniente Bioalma
三西班牙马德里E-28049 Cantoblanco CNB-CSIC国家生物技术中心蛋白质设计小组
通讯作者。 补充
分子生物学中文本挖掘方法的批判性评价
Christian Blaschke、Lynette Hirschman、Alfonso Valencia、Alexander Yeh
会议
分子生物学中文本挖掘方法的批判性评价
2004年3月28日至31日
西班牙格拉纳达
版权©2005 Hirschman等人;被许可方BioMed Central Ltd 摘要
背景
第一个BioCreAtIvE挑战(生物学信息提取的关键评估)的目标是提供一组通用评估任务,以评估应用于生物问题的文本挖掘的最新技术。研究结果于2004年3月28日至31日在西班牙格拉纳达举行的研讨会上公布。本文收集的文章BMC生物信息学题为“分子生物学中文本挖掘方法的批判性评估”的补充文章描述了BioCreAtIvE的任务、系统、结果及其独立评估。
结果
BioCreAtIvE专注于两项任务。第一个涉及从文本中提取基因或蛋白质名称,并将其映射到三个模型生物数据库(苍蝇、老鼠、酵母)的标准化基因标识符。第二个任务解决了功能注释的问题,要求系统在给定全文文章的情况下,识别支持特定蛋白质的基因本体注释的特定文本片段。
结论
第一次BioCreAtIvE评估实现了高水平的国际参与(来自10个国家的27个小组)。该评估为基本任务(基因名称查找和标准化)提供了最先进的性能结果,其中最佳系统达到了平衡的80%准确度/召回率或更好,这可能使它们适合于生物学中的实际应用。高级任务(自由文本的功能注释)的结果明显较低,这表明了文本挖掘方法的当前局限性,即需要进行知识外推和解释。此外,BioCreAtIvE的一个重要贡献是为这两项任务创建和发布训练和测试数据集。本期特刊共有22篇文章,其中6篇文章对数据集的结果或数据质量进行了分析,包括对任务2中使用的测试集进行了一次新的说话人间一致性评估。
介绍
我们在这里提供了BioCreAtIvE的概述,作为本期特刊中包含的论文的介绍。本文描述了我们创建BioCreAtIvE的动机,我们对生物重要性应用的强调,以及我们对构建文本挖掘关键评估基础设施的承诺,包括评估培训和测试数据的质量。
BioCreAtIvE专注于两项任务。第一个涉及从文本中提取基因或蛋白质名称,并将其映射到三个模型生物数据库(苍蝇、老鼠、酵母)的标准化基因标识符。第二个任务解决了功能注释的问题,要求系统在给定全文文章的情况下,识别支持特定蛋白质的基因本体注释的短文本片段。
专刊共有22篇文章:14篇文章与BioCreAtIvE中的第一个任务相关(分为两个子任务),8篇文章与第二个任务相关。物品列于表中以及作者、从属关系和任务。
表1
裁判 | 任务 | 作者 | 机构 | 国家 | 标题 |
| 全部的 | Hirschman,L.,Yeh,A。, C.布拉斯科。, A.巴伦西亚。 | 米特里 《生物年鉴》 CNB-CSIC国家生物技术中心 | 美国 西班牙 | BioCreAtIvE概述:生物学信息提取的关键评估 |
|
1 | 1安培 | 是的A.摩根A。, Colosimo,M.Hirschman,L。 | 米特里 | 美国 | BioCreAtIvE任务1A:基因提及发现评估 |
|
2 | 1安培 | Tanabe,L.,Xie,T.N。 Thom,L.H.、Matten,W。 W.J.威尔伯。 | 无人机 综合安全性 无人机 | 美国 | Genetag:用于基因/蛋白质命名实体识别的标记语料库 |
|
三 | 1安培 | 南卡罗来纳州基诺西塔。 | 科罗拉多大学医学院和富士通 | 美国/日本 | BioCreAtIvE任务1A:使用随机标记的实体识别 |
| 科恩,K.B.,奥格伦,P.V。 | 科罗拉多大学医学院 | 美国 | |
| 亨特,L。 | 科罗拉多大学医学院计算药理学中心 | 美国 | |
|
4 | 1安培 | J.芬克尔。 丁加雷,S。 C.D.曼宁。 Nissim,M.,Alex,B。, 格罗弗,C。 | 斯坦福大学 爱丁堡大学 斯坦福大学 爱丁堡大学 | 美国 英国 美国 英国 英国 | 探索边界:生物医学文本中的基因和蛋白质识别 |
|
5 | 1安培 | 麦克唐纳,R.,佩雷拉,F。 | 宾夕法尼亚大学 | 美国 | 使用条件随机场识别文本中的基因和蛋白质提及 |
|
6 | 1安培 | G.D.周。 | 新加坡大学信息通信研究所 | 新加坡 | 基于分类器集成的文本蛋白质/基因名称识别 |
| Shen,D.、Zhang,J.、Su,J.和Tan,S.H。 | 信息通信研究院 | |
|
7 | 1安培 | Mitsumori,T.、Fation,S。 | 奈良先端科学技术大学院大学 | 日本 | 基于支持向量机的以词典为特征的基因/蛋白质名称识别 |
| M.村田。 | 国家信息通信技术研究所 | |
| Doi,K.,Doi,H。 | 奈良先端科学技术大学院大学 | |
|
8 | 1安培 | Hakenberg,J.、Bickel,S.、Plake,C.、Brefeld,U.、Zahn,H.、Faulstich,L.、Leser,U..、Scheffer,T。 | 柏林洪堡大学计算机科学系 | 德国 | 基因名称识别的系统特征评价 |
|
9 | 1A、1B | J·塔米姆斯。 | 《生物年鉴》 | 西班牙 | 文本检测:生物医学文本中基于规则的基因注释系统 |
|
10 | 1磅 | Hirschman,L.,Colosimo,M.,Morgan,A.,Yeh,A。 | 米特 | 美国 | BioCreAtIvE任务1B概述:标准化基因列表 |
|
11 | 1磅 | Colosimo,M.、Morgan,A.、Yeh,A.、Colombe,J.、Hirschman,L。 | 米特里 | 美国 | 数据准备和制造商间协议:BioCreAtIvE任务1B |
|
12 | 1磅 | 克里姆·J、麦克唐纳·R、佩雷拉·F。 | 宾夕法尼亚大学 | 美国 | 使用标准化基因列表自动注释文档 |
|
13 | 1磅 | Hanisch博士。 芬德尔,K。 H.T.米维森。 R.齐默。 弗拉克,J。 | SCAI弗劳恩霍夫研究所 信息学研究所 SCAI弗劳恩霍夫研究所 信息学研究所 SCAI弗劳恩霍夫研究所 | 德国 | ProMiner:基于规则的蛋白质和基因实体识别 |
|
14 | 1磅 | Fundel,K.,Guttler,D。, Zimmer,R.,Apostolakis,J | 福尔信息研究所 | 德国 | 蛋白质名称识别的简单方法:前景与局限 |
|
15 | 2 | C.布拉斯科。 Krallinger,M.,Leon,E.A。, A.巴伦西亚。 | 《生物年鉴》 CNB-CSIC国家生物技术中心 | 西班牙 | 任务2的BioCreAtIvE评估评估 |
|
16 | 2 | 卡蒙,E.B.,巴雷尔,D.G.,迪默,E.C.,李,V.,马格伦,M.,马塞伦,J.,宾斯,D.,阿普韦勒,R。 | 欧洲分子生物学实验室-欧洲生物信息学研究所 | 英国 | BioCreAtIvE和GOA的GO注释检索评价 |
|
17 | 2 | Ray,S.、Craven,M。 | 威斯康星大学 | 美国 | 使用生物医学文本学习用功能信息注释蛋白质的统计模型 |
|
18 | 2 | Krallinger,M.、Padron,M.和Valencia,A。 | CNB-CSIC国家生物技术中心 | 西班牙 | 一种从生物医学文章中提取蛋白质注释的句子滑动窗口方法 |
|
19 | 2 | Verspoor,K.、Cohn,J.、Joslyn,C.、Mniszewski,S.、Rechsteiner,A。 | 洛斯阿拉莫斯国家实验室 | 美国 | 利用词邻近网络将蛋白质注释作为基因本体中的术语分类 |
| Rocha,L.、Simas,T。 | 印第安纳大学 | 美国 | |
|
20 | 2 | F.库托、M.席尔瓦。 | 葡萄牙里斯本里斯本大学Ciöncias da Universidade de Lisboa立面 | 葡萄牙 | 在非结构化文本中发现基因组本体术语 |
| 库蒂尼奥,P。 | 大分子生物结构与功能 | 法国 | |
|
21 | 2 | Rice,S.、Nenadic,G.、。, 斯台普,G。 | 曼彻斯特大学 | 英国 | 使用基于术语的支持向量机从文本中挖掘蛋白质函数 |
|
22 | 2 | 埃勒,F。 | 日内瓦大学和日内瓦大学医院 | 瑞士 | Swiss-Prot中基因本体注释的数据差分类和通路检索 |
| A.吉梅诺。 | 日内瓦大学医院和欧洲核子研究中心,日内瓦 | |
| 拉奇,P | 日内瓦大学医院 | |
任务1a侧重于从MEDLINE摘要中的单个句子中提取基因提及;有8篇关于任务1a的论文,包括一篇综述文章[1],一篇关于训练和测试数据构建的文章[2]和6篇描述特定系统方法的文章[三-9]。
任务1b需要为三个模型生物数据库之一中的文章摘要中提到的基因生成独特的基因标识符列表。任务1b有6篇论文,包括概述[10],一篇描述测试集准备和说话人间一致性实验的文章[11],以及四篇描述任务1b的系统和结果的文章[9,12-14]。
任务2侧重于识别全文文章中的文本段落,为GO注释提供关于特定蛋白质的证据。任务2共有八篇文章:概述文章[15],EBI GOA注释团队对注释者之间协议的分析[16],以及关于任务2的系统方法的六篇文章[17-22]. 此外,BioCreAtIvE研讨会的完整会议记录可在线获取,网址为http://www.pdg.cnb.uam.es/BioLink/workshop_BioCreative_04/handout/index.html其中包括对所有27个参与组的系统描述。
背景
为什么要评估?
我们组织BioCreAtIvE的目标是对一组“积木”生物任务的最新技术进行系统评估。应用于生物文献的文本挖掘和信息提取领域的活动越来越多。然而,每个小组都解决了不同的问题,并报告了不同的数据集[23]. 使用BioCreAtIvE,我们的目标是组装一系列任务,这些任务将:
•吸引来自自然语言处理和生物信息学的研究人员;
•解决对生物和生物信息学界至关重要的问题;
•创建可用于未来应用程序开发和基准测试的遗留培训和测试数据套件。
•允许对实际生物任务的最新技术进行评估。
我们选择将这些任务框架化,以辅助生物数据库的管理
这是建立在KDD挑战杯早期工作的基础上的,这是生物文本挖掘中的首批挑战评估之一[24]. KDD杯还专注于与生物学文献管理相关的任务,即鉴定含有Flybase基因产品实验证据的文章[25]。
在创建生物文本挖掘评估框架时,我们能够基于生物学和自然语言社区的相关研究。生物学/生物信息学界已经创建了许多成功的评估,包括CASP(蛋白质结构预测技术的关键评估)[26]. 在计算机科学/文本处理领域,有两种主要的评估模型。第一次是在20世纪90年代举行的七次信息理解会议[27]; 这些研究侧重于从新闻文章中提取“命名实体”(人、组织、位置)和更复杂的关系和事件。第二个相关评估是最近引入的基因组学轨道[28]年度文本检索会议(TREC)[29]。
评估任务的选择
在设计BioCreAtIvE的任务时,我们受到几个因素的激励:首先,需要定义有意义的生物应用;第二,培训和“金标准”测试数据的可用性;第三,需要一个简单、现实的评估程序;第四,希望将自然语言处理和文本挖掘等领域以及生物信息学的参与者聚集在一起。
通过选择与一些主要生物数据库的管理过程相关的任务,我们保证这些任务将具有生物相关性,因为这些任务目前由专业的人类管理者执行。对策展的关注也使人类专家参与其中成为可能,他们对注释和生物信息处理问题有深入的了解。这也意味着将有可用的“金标准”注释数据:由专家馆长制作的注释,可以用作系统开发的培训数据,也可以用作盲测试数据的评估标准。
图显示了生物管理的典型管道,在本例中以GO注释的管理为代表。它首先从文献中选择相关文章,例如,识别所有讨论特定生物体的特定基因集的论文。一般来说,还有一个额外的要求,即论文包含“可管理”的信息——关于特定基因或基因产品的实验结果。此文档检索任务是KDD 2002挑战杯任务1的灵感来源[24]; 这也启发了TREC Genomics 2004中的分类任务[28]. BioCreAtIvE任务中没有体现这一初始步骤。
策展流程的第二步是列出文章中有足够信息来保证策展的基因或基因产品。该列表是作为特定模式生物基因的唯一基因标识符给出的。这项任务为任务1、基因名称提取和规范化(具体来说,任务1b,在论文中列出唯一的基因标识符)奠定了基础。
第三步涉及基因或基因产品的实际管理:即根据文献中报告的实验结果,将属性分配给前一步中确定的基因和基因产品。近年来的一个主要进展是跨生物体采用共享本体,即基因本体或GO[30]. GO提供本体论,允许注释者描述基因和基因产品的分子功能、生物过程和细胞定位;目前约有30个参与数据库和/或使用GO的生物体。这一管理步骤构成了BioCreAtIvE任务2的基础,根据文献中提供的证据为特定基因指定功能注释。
在BioCreAtIvE的背景下,我们选择这些任务来涵盖广泛的复杂性,从相对简单的列出基因或基因产品的任务,代表直接的信息提取问题,到非常苛刻的GO注释任务,这需要在其本体论和生物学上下文中对注释的含义进行额外的解释。
结果
任务1
任务1分为两个子任务,反映了不同的数据来源。任务1a侧重于识别连续文本中的基因或蛋白质名称。此任务的数据由Lorrie Tanabe和John Wilbur(NCBI)提供[2]并源自MEDLINE摘要中的单句注释。该任务与在自然语言处理社区中广泛使用的“命名实体标记”任务非常接近。这使得许多主要专长是自然语言处理的团队很容易参与——这是订阅量最大的BioCreAtIvE任务,共有15个团队参与。
下面是一个例句:
此外,与人类基因一样,Cacna1f基因的3’端位于小鼠突触素基因5’端5kb内,与Xp11/23同源。
在这个例子中,系统必须识别基因/蛋白质名称Cacna1f基因(或Cacna1f公司)和小鼠突触素基因(或至少,突触素). 然而,像“人类基因”这样的短语没有标记,因为它不是特定基因的名称。答案键提供了其他形式,例如。,Cacna1f基因或Cacna1f公司.
参与者接受了10000个带注释的训练句子,并接受了另外5000个盲测句子的测试。任务1a的主要发现是,四个不同的团队使用隐马尔可夫模型和支持向量机等技术,能够实现超过0.80的F度量(F度量是准确度和召回率的调和平均值)。这略低于新闻专线域中类似任务的数据。例如,组织名称的提取以超过0.90的F-measure进行。Yeh等人的文章[1]对这些差异进行了分析,将F-measure中大约一半的差异归因于这样一个事实,即对于较长的名称,系统表现出较低的性能(另请参见[三])基因和蛋白质名称的分布倾向于使用比组织名称更长的名称。
任务1a的数据准备[1,2]有几个有趣的功能。特别是,数据是由生物学家注释的,没有明确的注释指南。这是一种新的注释方法:为消息理解会议任务注释新闻专线命名实体(例如,个人、组织、位置等)需要广泛的多阶段注释指南[27]. 对于任务1a,没有为评估测试数据的质量而进行系统的参与者间一致性研究。然而,一些后评估分析表明,复合词的注释方式可能存在不一致,例如“Mek-Erk1/2途径”。
这些不一致使得很难从训练数据中学习概括,从而降低分数;这也可能是基因/蛋白质名称提取任务与新闻专线任务相比表现差异的原因。
任务1a被视为一个“积木”任务——一个可以被视为不需要重要生物学专业知识的自然语言处理任务的任务。它也是更复杂任务的第一步,例如基因名称规范化(任务1b)或基因功能注释(任务2)。
任务1b侧重于创建标准化基因列表;这是一项目前由各种模型生物数据库管理员(手动)执行的任务。这意味着有一个现成的数据集用于培训和测试。我们选择了三个生物模型数据库(fly[25],鼠标[31],酵母[32])作为与论文相关的基因列表的来源。我们选择几种模式生物的目的是鼓励可以容易地应用于不同词汇的方法。
我们致力于为此任务提供大型培训和测试集。由于难以获得大量的全文文章,我们选择只提供MEDLINE的文章摘要进行评估。这意味着我们必须编辑基因列表,使其与摘要中提到的基因相对应,而不是与全文文章中策划的所有基因相对应。我们开发了一种程序,可以自动删除在摘要中未发现的基因,并能够为这三种生物体提供大量“噪音”训练数据,以及少量经过仔细校正的开发和测试数据[11]. 我们估计了这三种生物的噪声训练数据的质量。酵母培养数据质量似乎很好(精度0.99,召回率0。86); 飞行训练数据有点杂乱(精度0.92,召回率0.86);小鼠训练数据的召回率较差(准确度0.99,召回率0.55)。我们还提供了每个生物体的同义词列表,包括唯一的基因标识符及其替代名称,如每个模型生物体数据库提供的资源中所列。
图显示了带有相关唯一基因标识符的样本摘要,以及词典中的摘录,显示了与基因相关的许多替代名称。虽然基因在摘要中可能被多次提及,但基因列表由一组独特的摘要中提到的小鼠基因。
共有八个小组参与任务1b。结果[10]差异很大,从酵母的高F值0.92到苍蝇(高F值0.82)和小鼠(高F级0.79)的分数稍低。我们的分析[10]结果表明,生物体之间的差异可归因于多种因素,包括名称的广泛歧义以及基因名称与英语术语的重叠(fly);复杂多词基因名称(小鼠);以及训练数据的质量,尤其是鼠标,其中训练数据的召回率估计为55%。
这些结果使我们相信,自动化基因名称识别和规范化的工具可能已经准备好纳入到管理过程中,至少在生物体命名高度规范的情况下,如酵母,并且作者坚持文献中的模型生物体数据库惯例。然而,在许多情况下,真正的任务甚至更加复杂,例如,当同时分析多个生物体的论文时,因为相同的名称用于不同物种的不同基因。
任务2
任务2的重点是基于全文文章自动为人类蛋白质分配GO注释。任务2有几个部分,对应于难度的增加[15]. 对于任务2,组织者有意识地决定“按原样”提供数据,以反映生物应用的现实。培训集包括大约800篇全文期刊文章及其相关注释(蛋白质和GO代码),这些注释取自GOA网址:http://www.ebi.ac.uk/GOA/这些都是在没有进一步注释的情况下发布给参与者的,也就是说,由参与者决定支持GO注释的证据段落。测试集由大约200篇文章组成,这些文章由GOA团队专门用于评估;这些数据直到评估完成后才公布,以保持数据的盲目性。与任务1相反,参与者还必须找到自己的词汇资源,例如GO术语的同义词以及蛋白质名称的同义语。
任务2.1的输入由三个部分组成,即指向全文文章的指针、蛋白质(SWISS-PROT ID)和GO代码。任务是返回一段简短的文本,为分配给该蛋白质的GO代码提供证据。理想情况下,文本段应包含对蛋白质的提及以及GO代码分配的证据。EBI GOA团队的专家馆长对这些段落的正确性进行了评判[16]. 针对任务2.1,向系统提交了大约1000个三元组。
图显示了三个三元组的例子和相应的文本段落。例子比较容易,因为蛋白质和功能或过程的描述都出现在一个句子中。图说明了为什么这项任务很难。第一句话提供了相关蛋白(RGS16)是RGS蛋白的信息:“我们报告称,钙调素以Ca2+依赖的方式与我们测试的所有RGS蛋白结合,包括RGS1、RGS2、RGS4、RGS10、RGS16和GAIP……”。这一知识使我们有可能在后面的句子中找到支持GO注释(G蛋白偶联受体蛋白信号通路的调节)的证据:“为了研究Ca2+在RGS蛋白反馈调节G蛋白信号通路中的作用,我们对……进行了表征。”最后,图更困难的是,需要一些推理来确定MIP-1alpha注释的证据。第一句话确定CCR1与G蛋白偶联受体途径相关,第二句话说明MIP-1alpha与该受体结合,这支持了这一推论,即它也与该过程相关。
SWISS-PROT ID、GO代码、PubMed ID三元组以及文章中的相应证据通道(3个示例)。
正如这些示例所示,任务2.1是一项非常困难的任务。它不仅需要对蛋白质进行名称提取和标准化(如任务1中所示),还需要能够识别GO术语的不同表达方式,而无需任何训练数据。此外,它还需要理解文章中多个句子之间的联系,包括处理共同参照和推理这些句子中提到的实体之间的联系。
我们发现,令人鼓舞的是,几个系统能够返回300多个答案(大约1000个),这些答案被评估员判定为正确。不同的系统使用了广泛的策略。例如,一些系统只在证据非常有力的情况下才返回答案;这些系统返回的答案很少,但正确率较高。
任务2.2更加困难:对于这项任务,测试数据由文本、蛋白质和GO代码数的三倍组成(但不是实际的GO代码)。系统不仅需要像以前一样返回证据通道,还需要返回蛋白质的GO代码分配。任务2.1的性能下降了大约两倍。
总的来说,任务2的表现并不令人惊讶。任务2.1包括三个子任务:蛋白质的识别、GO术语的识别以及这两者的正确关联。文本中提到的蛋白质的识别与任务1b大致相当,我们希望最好的系统能够达到70-80%的准确率。识别GO术语的提及将更加困难。结果分析[15]揭示了细胞定位的GO术语比生物过程的术语更容易。这可能与以下事实有关:与描述抽象复杂关系(如生物过程)的术语相比,细胞位置的术语更短、更“具体”。相比之下,生物过程的术语是抽象和复杂的,例如“细胞因子和趋化因子介导的信号通路”。我们预计GO术语识别的性能将显著低于蛋白质名称识别的性能。此外,发现蛋白质和GO注释之间的正确关联,尤其是在关联需要跨多个句子整合信息的情况下,这是一个额外的困难。如果这三个步骤中的每一步都以大约70%的准确度完成,那么最终结果将接近任务2.1的观察到的大约30%的总体准确度。
任务2的结果表明,目前的系统尚不能产生令人满意的生物信息提取结果,尤其是在需要复杂外推和集成的情况下。然而,这一评估代表了一个重要的基准。我们预计,随着任务2.1和2.2提交中生成的培训数据的可用性,这些结果将有所改善。此外,为GO术语和释义创建词汇资源应该会使文本中的GO术语更容易识别。
方法
评估评估至关重要。评估的成功可以通过以下几个标准来衡量:
•参与程度:评估是否吸引了来自不同群体和背景的优秀研究人员?
•结果:任务是否足够具有挑战性,但不是太容易,还是太难?
•研究:该任务是否提出了重要而有趣的研究问题?
•应用程序的相关性:评估任务是否适用于用户关心的某些应用程序?
•数据:是否有足够的培训和测试数据?数据的质量足够好吗?评估后,这些资源是否可供更大的研究团体使用,以进行进一步的基准测试?
•可重复性:人们是否希望再次这样做?再做一次容易吗?
总的来说,我们认为BioCreAtIvE评估在所有这些方面都取得了重大成功。
参与
我们吸引了来自10个国家的27个团体,包括一些主要生物信息提取团体的参与者。其中包括生物信息学小组和计算语言学小组,以及两个主要生物数据库小组参加BioCreAtIvE研讨会:EBI SWISS-PROT GOA小组(Apweiler、Camon和Lee)和MGI(Blake)。
结果
任务1的结果令人鼓舞,根据子任务的不同,分数在0.8到0.9的F-measure范围内。对于任务2,结果为未来的实验创建了良好的基线。功能注释对于人类来说是一项困难的任务,因为在[16]显示。本期特刊的结果将为这一领域的未来实验和进展设定标准。如中所述[15],未来的系统很可能通过使用第一个BioCreAtIvE挑战中提供的注释结果进行培训,从而大幅提高其结果。
研究
这些任务提出了生物相关性的有趣问题。任务1a(基因名称标记)为其他领域的类似任务提供了一个很好的比较点。任务1b(三个生物模型数据库摘要的标准化基因列表)提出了一个问题,即如何构建一个能够快速适应新词汇和不同词汇资源的系统。任务2代表了文本挖掘的一个雄心勃勃的“最终目标”,要求能够将自由文本中表达的复杂概念映射到GO中的本体概念。GO中的简单概念名称与文本中的表达之间的语义距离使得这一点特别具有挑战性。
关联
任务1b和任务2具有明显的生物学相关性。任务1b旨在模拟现在手动完成的管理任务,数据来自生物数据库。对于任务2,这项任务与策展有着如此密切的关系,以至于我们能够招募到专家策展人来花费数人月的劳动来评估任务2的结果。
数据
我们使用了三个不同的数据集。对于任务1a,数据是以一种新颖的方式准备的(没有明确的指南)。有足够的培训和开发测试集,也有足够的测试数据用于下一轮评估。对于任务1b,我们能够使用“噪音”训练数据,尽管噪音数据可能对系统性能造成了限制[10]. 达成可靠的国际飞行员协议的难度比我们预期的要大[11]. 最后,对于任务2,我们很幸运地收到了绝大多数提交的高质量专家判断。这些数据判断现在将形成一个有价值的带注释的培训集,用于未来的评估。对于这两项任务,训练和测试数据现在可供其他组在进一步的实验中使用(请参见http://www.pdg.cnb.uam.es/BioLINK/BioCreative.eval.html还有http://www.mitre.org/public/biocreative网站/).
在我们寻找合适的数据集的过程中,我们发现在为研究提供良好的数据集和提供反映真实生物应用的现实性(和混乱性)的挑战性问题之间存在着艰难的权衡。理想的研究数据集将由大量专家注释数据组成,这些数据是在实际生物任务中使用现有数据集完成的。
事实上,有许多困难。首先,尽管许多任务需要全文文章,但很难找到大量免费的全文文章集;选择通常是在大量摘要和少量全文之间进行。这是BioCreAtIvE任务1的权衡。第二,现实主义问题。要进行良好的评估,任务必须定义明确,但这可能会使评估任务不太现实。BioCreAtIvE任务1b试图通过使用来自三种不同模式生物的三个数据集来提供一定程度的真实性。然而,一个更现实的任务是将基因名称与生物联系起来,而事先没有被生物分离。我们还希望提出系统适应问题:在给定不同的词汇资源集的情况下,如何使系统适应略有不同的应用程序。然而,我们观察到,大多数小组为每个模型生物体构建了不同的系统,试图为每个特定数据集实现最佳性能。最后,还有培训数据的问题。对于研究来说,越仔细地整理培训数据越好。但是,为尚未自动化的实际任务提供培训数据可能很困难。目前,策展人在策展时并没有在论文中捕获证据片段,部分原因是没有易于使用的工具来支持这一点。因此,在策展过程结束时,所有可见的都是整个论文级别的注释,并且没有一组细粒度的策展人注释可用于任务2的培训数据。这意味着任务2是现实的,但由于缺乏培训数据,任务2更加困难;然而,对于后续评估,参与者的评估意见将可用,并可用于对证据通过进行细粒度的判断。
可重复性
研讨会的参与者似乎急于重复评估;此外,我们还收到了对各种数据集的不断请求。我们现在正在为第二轮BioCreAtIvE寻求必要的财政支持。重复评估不同部分的成本会有所不同。例如,任务1a有一个额外的盲测试集,没有进一步的工作。对于任务2,我们需要找到一种方法来减少馆长花费在评估提交文件正确性上的时间。在中有许多建议[16]。
讨论
本期特刊代表了在跟踪文本挖掘应用于迫切生物信息需求的进展方面向前迈出的一大步。“原始数据”(基因组序列、高通量实验结果)的积累速度正在迅速增长。生物数据库也在激增,以将这些数据集组织成便于进一步计算的结构。这些数据库的主要功能是通过本体论或受控词汇将生物构建块(序列数据、基因、蛋白质)与已发表文献的结果相关联。目前,这是一种昂贵且缓慢的手动操作。为了跟上这一数据洪流,有必要越来越多地依赖自动化辅助工具来加快这一进程。BioCreAtIvE评估和研讨会活动是创建基础设施和建立多学科社区以解决这些紧迫问题的重要第一步。
作者的贡献
BioCreAtIvE的想法来自AV和LH在几年内的讨论。BioCreAtIvE的执行是MITRE团队(LH、ASY负责任务1)和CNB/CSIC团队(CB、AV负责任务2)的联合活动。CB负责组织EMBO赞助的BioCreAtIvE研讨会,并执行任务2。AV是CNB/CSIC蛋白质设计小组的组长,负责创建任务2,并让EBI SWISS-PROT团队参与该任务的评估。LH负责MITRE生物技术工作,负责组织BioCreAtIvE任务1,并具体负责任务1b的监督和分析。ASY负责运行BioCreAtIvE的任务1a,并分析任务1a的结果。
致谢
AV和CB的工作由欧盟委员会资助,作为E-BioSci和ORIEL项目的一部分,合同编号为QLRI-CT-2001-30266和IST-2001-32688,属于RTD项目“生活质量和生活资源管理”和“多媒体内容和工具(KA3)”。
BioCreAtIvE研讨会由欧洲分子生物学组织赞助。
本文报告了MITRE公司在MITRE赞助研究计划和国家科学基金会(合同号:EIA-0326404)支持下所做的部分工作。
参考文献
- Yeh AS、Morgan A、Colosimo M、Hirschman L.BioCreAtIvE任务1A:基因提及发现评估。BMC生物信息学。2005;6:S2.doi:10.1186/1471-2105-6-S1-S2。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Tanabe L、Xie N、Thom LH、Matten W、Wilbur WJ。GENETAG:用于基因/蛋白质命名实体识别的标记语料库。BMC生物信息学。2005;6:S3.doi:10.1186/1471-2105-6-S1-S3。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Kinoshita S、Cohen KB、Ogren PV、Hunter L.BioCreAtIvE任务1A:随机标记的实体识别。BMC生物信息学。2005;6:S4.doi:10.1186/1471-2105-6-S1-S4。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Finkel J、Dingare S、Manning CD、Nissim M、Alex B、Grover C。探索边界:生物医学文本中的基因和蛋白质识别。BMC生物信息学。2005;6:S5.doi:10.1186/1471-2105-6-S1-S5。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- McDonald R,Pereira F.使用条件随机场识别文本中提到的基因和蛋白质。BMC生物信息学。2005;6:S6.doi:10.1186/1471-2105-6-S1-S6。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- 周国德,沈德,张杰,苏杰,谭SH.使用分类器集成从文本中识别蛋白质/基因名称。BMC生物信息学。2005;6:S7.doi:10.1186/1471-2105-6-S1-S7。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Mitsumori T、Fation S、Murata M、Doi K、Doi H。基于支持向量机的基因/蛋白质名称识别,使用字典作为特征。BMC生物信息学。2005;6:S8.doi:10.1186/1471-2105-6-S1-S8。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Hakenberg J、Bickel S、Plake C、Brefeld U、Zahn H、Faultstich L、Leser U、Scheffer T。基因名称识别的系统特征评估。BMC生物信息学。2005;6:S9.doi:10.1186/1471-2105-6-S1-S9。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Tamames J.Text Detective:生物医学文本中基因注释的基于规则的系统。BMC生物信息学。6:S10.doi:10.1186/1471-2105-6-S10-S10。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Hirschman L、Colosimo M、Morgan A、Yeh A.《BioCreAtIvE任务1B概述:标准化基因列表》。BMC生物信息学。2005;6:S11.doi:10.1186/1471-2105-6-S1-S11。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Colosimo M、Morgan A、Yeh A、Colombe J、Hirschman L.《数据准备和代言人协议:生物科技创新任务1B》。BMC生物信息学。2005;6:S12.doi:10.1186/1471-2105-6-S1-S12。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Crim J,McDonald R,Pereira F.使用标准化基因列表自动注释文档。BMC生物信息学。2005;6:S13.doi:10.1186/1471-2105-6-S1-S13。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Hanisch D、Fundel K、Mevissen HT、Zimmer R、Fluck J.ProMiner:基于规则的蛋白质和基因实体识别。BMC生物信息学。2005;6:S14.doi:10.1186/1471-2105-6-S1-S14。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Fundel K,Guttler D,Zimmer R,Apostolakis J.蛋白质名称识别的简单方法:前景与局限。BMC生物信息学。2005;6:S15.doi:10.1186/1471-2105-6-S1-S15。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Blaschke C、Krallinger M、Leon EA、Valencia A.任务2的BioCreAtIvE评估。BMC生物信息学。2005;6:S16.doi:10.186/1471-2105-6-S1-S16。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Camon EB、Barrell DG、Dimmer EC、Lee V、Magrane M、Maslen J、Binns D、Apweiler R。BioCreAtIvE和GOA的GO注释检索评估。BMC生物信息学。2005;6:S17.doi:10.186/1471-2105-6-S1-S17。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Ray S,Craven M.使用生物医学文本学习用功能信息注释蛋白质的统计模型。BMC生物信息学。2005;6:S18.doi:10.186/1471-2105-6-S1-S18。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Krallinger M,Padron M,Valencia A.从生物医学文章中提取蛋白质注释的句子滑动窗口方法。BMC生物信息学。2005;6:S19.doi:10.1186/1471-2105-6-S1-S19。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Verspoor K、Cohn J、Joslyn C、Mniszewski S、Rechsteiner A、Rocha L、Simas T。蛋白质注释作为使用词邻近网络的基因本体中的术语分类。BMC生物信息学。2005;6:S20.doi:10.1186/1471-2105-6-S1-S20。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Couto F,Silva M,Coutinho P.在非结构化文本中寻找基因组本体术语。BMC生物信息学。2005;6:S21.doi:10.1186/1471-2105-6-S1-S21。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Rice S,Nenadic G,Stapley G。使用基于术语的支持向量机从文本中挖掘蛋白质功能。BMC生物信息学。2005;6:S22.doi:10.1186/1471-2105-6-S1-S22。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Ehrler F,Jimeno A,Ruch P.Swiss-Prot中基因本体注释的数据分类和通路检索。BMC生物信息学。2005;6:S23.doi:10.1186/1471-2105-6-S1-S23。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Hirschman L、Park JC、Tsujii J、Wong L、Wu CH.生物学文献数据挖掘的成就和挑战。生物信息学。2002;18:1553–1561。doi:10.1093/bioinformatics/18.12.1553。[公共医学] [交叉参考][谷歌学者]
- Yeh AS、Hirschman L、Morgan AA。用于数据库管理的文本数据挖掘评估:从KDD挑战杯中吸取的教训。生物信息学。2003;19:i331–i339。doi:10.1093/bioinformatics/btg1046。[公共医学] [交叉参考][谷歌学者]
- FlyBase数据库:http://flybase.org/
- CASP:蛋白质结构预测技术的关键评估:http://predictioncenter.llnl.gov/casp6/casp6.html
- MUC-7:第七届信息理解会议http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_7_toc.html
- Hersh WR、Bhuptraju RT、Johnson P、Cohen AM、Kraemer DF。TREC 2004基因组学轨道概述。TREC 2004程序,作为NIST特别出版物出版。2005http://medir.ohsu.edu/~基因组学/trec-04-genomics.pdf
- 文本检索会议http://trec.nist.gov/
- 基因本体联盟基因本体:生物学统一的工具。自然遗传学。2000;25:25–29. doi:10.1038/75556。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- 小鼠基因组数据库http://www.informatics.jax.org
- 酵母基因组数据库http://www.yeastgenome.org