跳到主要内容

BioScope和Genia事件语料库中基于语言范围和基于生物事件的推测和否定注释

摘要

背景

近年来,自然语言处理中否定和模糊限制语的处理受到了广泛关注,尤其是在生物医学领域。然而,为否定和/或推测注释的开放访问语料库很难用于训练和测试应用程序,即使它们是,它们有时也遵循不同的设计原则。本文比较了包含否定注释和推测注释的两个最大语料库——BioScope和Genia Event的注释原则。BioScope标记语言线索及其否定和对冲的范围,而在Genia中,生物事件标记为不确定性和/或否定。

结果

对两个语料库注释之间的差异进行了主题分类,并估计了每个类别的出现频率。我们发现,差异最大的原因是范围(包括文本跨度)处理关键事件,而这些事件的每个参数(包括事件中的事件)也在范围之内。相比之下,Genia独立处理事件中事件的形式。

结论

对多层次注释(语言范围和生物事件)的分析表明,检测否定/模糊限制语关键字及其范围有助于确定关键事件(由主谓词表示)的形式。另一方面,为了检测事件中事件的否定和推测状态,必须使用额外的基于句法的规则来研究情态线索和事件线索之间的依赖路径。

背景

在自然语言处理(NLP)中,尤其是在信息提取(IE)中,许多应用程序都试图从文本中提取事实信息。为了将断言与不可靠/不确定信息和否定语句区分开来,必须识别否定或模糊限制语的语言手段。应用程序应以不同的方式处理检测到的修改部分。一个典型的例子是从生物文本中提取蛋白质相互作用,其目的是为相互具有特定关系的生物实体挖掘文本证据。在这里,虽然最终用户可能也会对不确定关系感兴趣,但此类信息不得与事实文本证据(可靠信息)混淆。

有几种可用的否定和对冲检测系统(通常用于临床和生物领域)。最初的系统是完全手工制作的[1]没有对专用语料库进行任何实证评估。最近,已经发布了几个带有手动注释的语料库,并且已经开发了几个基于规则的系统并对其进行了评估[4,5].

最近的方法利用了机器学习模型。梅德洛克和布里斯科[6]使用单个单词作为输入功能,以便对句子进行分类根据半自动收集的训练示例,将生物文章(FlyBase)视为推测性或非推测性。沙尔瓦斯[7]扩展了他们的方法,使用n-gram特征和关键字特征的半监督选择。使用BioScope[8]Morante等人[9]已开发句子内范围检测器用监督序列标记方法进行否定和推测,而厄兹古尔和拉德夫[10]构建了一个利用句法模式的基于规则的系统。BioScope也是CoNLL-2010共享任务的培训和评估数据集的来源[11]. 在BioNLP’09事件提取共享任务的框架内,还出版了一些相关作品[12],其中一个单独的子任务用于预测生物事件处于否定或推测之中[4].

在这篇论文中,我们主要关注为否定和推测而注释的语料库。生物医学领域之外有几个可用的语料库(例如FactBank[13],维基百科鼬鼠[11])还有。然而,我们在这里处理的是生物信息提取,据我们所知,已经为该领域构建了以下相关语料库:

Genia事件语料库[14]它用否定和两种不确定性注释生物事件(9372句)。

Biolnfer语料库[15]其中,生物关系被注释为否定(1100个句子的大小)。

BioScope语料库[8],其中包括生物医学领域的三类文本,即放射报告、生物论文全文和Genia语料库的摘要,对否定和模糊限制词及其语言范围进行了注释(20924句)。

Medlock&Briscoe开发的系统[6]利用由基因组学文献中的六篇论文组成的语料库,其中1537个句子被注释以供推测。这些带有重新注释的文本也包含在BioScope中。

Shatkay等人[16]描述一个数据库,其中10000个生物医学句子被注释为极性和三个确定性级别。

在Genia Event和BioInfer语料库中,生物概念(关系和事件)被注释为否定,在Genia事件的情况下,也被注释为模糊限制,但语言线索(即哪个关键字修改语句的语义)没有被注释。在最后两个语料库中,推测性注释可以在句子层面上找到。

与之相反,BioScope在信息提取任务中并没有进行微调,但它包含了对冲和负面线索的语言注释以及它们的句子范围。它的主要目标是以一般的、任务相关的和以语言为导向的方式来研究这些语言现象。自动识别的句子内范围(即否定或模糊文本跨度)对于许多自然语言处理应用程序来说都很重要。例如:

在临床文档分类任务中[17,18]的目标是根据有关患者的事实陈述为医疗文档指定标签。在这里,去除(或单独处理)模糊限制语或否定语文本跨度在训练和预测阶段也有很大的贡献。

在信息检索中,套期保值下的查询提及可以排名较低,

在机器翻译中,为了充分翻译意义,必须精确地知道否定或推测范围的扩展。

虽然BioScope语料库由临床和生物文档组成,但其注释指南不包含任何特定领域的说明。Council等人[19]使用BioScope作为训练语料库,从产品评论中检测否定范围进行意见挖掘,这说明了BioScope's注释在不同任务和领域中的适用性。

在下面的章节中,我们将比较BioScope和Genia Event的对冲和否定注释原则,提供差异的解决策略,并讨论BioScopec如何帮助识别生物医学论文中的“新知识”。

方法

本文定量比较了BioScope和Genia事件语料库的否定注释和推测注释。我们调查了两个语料库中出现的句子,即使用了包含958个摘要和8942个句子的两个语料的交集(忽略了两个数据库中句子层次上没有以相同方式分割的摘要)。该语料库包含1287个否定和1980个推测BioScope范围(376个嵌套范围),而2123个非列表事件和1475个可能的Genia事件(200个事件都有标签)。

至于否定,至少有一条线索发生在BioScope中的否定范围内,并在Genia Event中注释为非列表的事件被视为同意案例。关于推测,在BioScope中至少有一条线索在推测范围内,并且在Genia事件中被标记为可能的事件被接受为协议案例。不匹配一方面包括两个语料库中具有不同标签的事件(例如,在Genia event中标记为否定的事件,在BioScope中标记为推测的事件),另一方面,只在其中一个语料中注释事件。

为了理解注释原则之间的差异,并研究BioScope注释对Genia事件模态检测器的可能贡献,我们从两个语料库的交叉点随机抽取了200个句子。该样本由50个句子组成,其中事件被Genia标记为否定,其任何参数均不包含在BioScope否定范围内,50个句子中事件的至少一个参数位于BioScopen否定范围内并被Genia标识为存在(选择50+50个句子进行类推)。通过手动检查此样本,我们对这些差异进行了主题分类。

结果

注释原则

BioScope注释

在BioScope语料库中注释关键字及其范围时[8],语料库构建者遵循min-max策略。在标记关键字时,遵循了一种最简策略:将表示对冲或否定的最小单位标记为关键字。特别要注意复杂关键字的情况,即那些同时表达不确定性或否定,但不单独表达的单词(其子成分的语义解释或对冲强度与整个短语的语义解释和对冲强度都有显著差异)。

否定关键字和推测关键字的范围被扩展到尽可能最大的句法单位。因此,带注释的范围始终具有最大长度。(注释者之间的一致性费率可在语料库网站上获得:http://www.inf.u-szeged.hu/rgai/bioscope网站.)在下一个示例中,然而不受对冲提示的影响,但应包含在范围内,否则关键字和其目标短语将被分隔开(范围用括号标记,关键字用粗体表示):

[然而,右中区的肺不张,可能的].

这就是为什么语料库构建者倾向于在范围内包含所有可能的元素,而不是排除可能应该包含的元素。至于注释,最重要的是要考虑的是,模糊限制语或否定语不仅取决于明显线索的存在:而是一个关键词、上下文和句子句法结构的问题。关键字的范围可以根据选区语法确定。动词、助词、形容词和副词的范围通常延伸到关键字的右侧。对于动词成分,即动词和助词,它以分句结尾(如果动词成分在关系分句或并列分句中)或句子结尾,因此根据最大范围原则,所有补语和附加语都包括在内。如果是椭圆句子,可以删除否定关键字的范围,如下所示:

这种减少在对治疗有反应的患者以及对治疗有应答的患者中都可以看到[].

在这些情况下,范围仅包含关键字。

Genia Event模态注释

Genia事件语料库主要用于(生物)事件注释[14]数据库包含事件层面的不确定性和否定性注释。注释方案侧重于事件,事件的参数有时可以跨越子句边界找到,通常是由于回指或共指(在我们的实验中使用的35419个Genia事件中,1127个涉及外部事件,2076条线索是另一个句子中表达的事件的参数(主要是cluetypes)主题(1447个实例,70%)和原因(619例,29.8%)。

关于不确定性,事件在语料库中可以有三个标签:确定的、可能的和可疑的。如果事件正在调查中或构成假设的一部分,则标记为可疑事件。此处提供了可疑事件的示例(我们的示例中强调了事件参数):

然后我们调查了HCMV绑定导致这个翻译和分泌细胞因子.

如果无法确定事件的存在,则认为事件是可能的。可能发生的事件示例如下所示:

总之,这一证据强烈暗示英国标准协会在中规则CD19基因.

如果其他两个属性都不成立,则默认选择“确定”属性:一个无法以任何方式质疑其存在性的事件。

至于否定,事件被标记为exist或non-list。否定事件的示例如下所示:

税收突变体分析显示了两个突变体,iexc29秒和IEXL320G,无法显著反式激活这个c-sis/PDGF-B启动子.

在语料库中,既没有明确标记关键词,也没有明确标记否定和模糊限制的范围。

分歧数量

1显示了两个语料库之间一致和不一致的案例数(一致率:48%)。TP列中的数字(真正)表示两个语料库中以相同方式考虑的实例。BPGN列中的数字指的是BioScope中Genia事件的任何线索处于负/推测范围内的情况,然而,在Genia事件中则不是。与此相反,在GPBN列中,数字显示了Genia对事件的任何参数包含一些推测性/负面注释的情况,但BioScope没有。

表1 BioScope和Genia Event之间的同意和不同意数量。

差异的分类

本节介绍了Genia事件和BioScope语料库之间注释的不匹配。根据旨在解决不匹配问题的可能解决方案对系统差异进行分类,并举例说明了这些类别的子类型及其基于200个注释差异随机样本的估计频率(见表2).

表2不匹配类别的频率
以事件为中心与语言注释

两个语料库之间注释原则的一个本质区别是Genia Event遵循以事件为中心的注释原则[14]而BioScope注释并没有特别强调事件,因为它旨在对推测和否定进行任务相关的建模。以事件为中心的注释意味着注释者需要识别句子中尽可能多的生物事件,然后分别标记每个生物事件以进行否定和推测。事件通常用动词表示,然而(deverbal)形容词和名词也可以指代事件。考虑以下示例:

钙调神经磷酸酶与PMA协同行动使失去活性 I卡帕B/MAD3,一个抑制剂属于NF-κB.

这句话描述了两个事件钙调神经磷酸酶对IκB/MAD3的灭活作用IκB/MAD3对NF-κB的抑制作用。

从语言学的角度来看,事件与其论元一起被理解为谓语,谓语的作用可以由文本中的动词、名词或形容词来完成。与此相反,BioScope在上述意义上并不是面向事件的。相反,动词起着核心作用,即动词及其参数也构成BioScope中的一个事件。因此,上述句子指的是BioScope和抑制剂不被视为谓词。

因此,Genia中的事件比BioScope中的事件多得多。Genia事件中事件的多重性和BioScope中利用的最大范围原则结合在一起通常会导致Genia事件属于BioScopec关键字的范围,但不应将其视为推测或否定事件。这里我们提供一个示例:

总之,我们的数据[建议转录因子AP-1的组成发生变化是一种关键的分子机制 增加的 白介素-2 转录和可能在现象背后 协同模拟 欧盟委员会].

根据BioScope对句子的分析建议延伸到句子末尾。这意味着尽管在Genia中它只是事件是一个关键的分子机制这一现象的根源标记为可能的事件变化,增加的,转录协同模拟也包括在BioScope推测范围内。因此,在这句话中,有六个Genia事件,其中两个事件被标记为可能,然而,在BioScope中,所有六个事件都在推测范围内,导致两个同意案例和四个不同意案例。关于整个语料库,大量BPGN案例(见表12)可以用类似的方式解释。

句法问题

注释中的一些不匹配可以追溯到语法。例如,主语的处理仍然存在问题,因为在BioScope中,只有补语通常包含在关键字的范围内(也就是说,主语不包括被动结构和提升动词)与Genia不同,Genia中的事件以论据为中心(即考虑补语和主语),如:

两者都有c-Rel公司RelA公司诱导jagged1基因 表达,而一种有缺陷的反式激活突变体做了[].

在本例中,没有由表示的事件的参数诱导在BioScope范围内,这会产生分歧。

关于主语处理问题,句子/子句的依存分析可能有助于正确识别事件的形式。我们可以应用以下规则:如果用作事件触发词的动词被否定或模糊,则依存树中的所有子动词(也包括主语)都将包含在修饰语的范围内。通过这种方式,可以从GPBN集合中消除只有主语在修饰语范围内的不匹配情况(例如,在椭圆句子的情况下)。

语义问题

在某些情况下,注释中的差异源于概念差异。如果不协调语料库背后的注释原则并重新注释数据,这些差异很难解决,然而,这里给出了最典型的案例。Genia事件中标记为可疑的事件在BioScope中很少被注释为推测性事件。在Genia Event中,对某一现象的调查、检查、研究等并不一定意味着该现象的存在。然而,在BioScope中,这一方面被忽略,正在调查、检查等的现象只有在投机关键字的范围内(例如。是否).由于只有17%的可疑Genia事件线索处于推测范围内,因此我们在比较时只关注可能的类别。

有一些不匹配的例子,其中陈述了一个概括或一个被广泛接受的主张。从语法上讲,这些句子通常以被动语态出现,但没有明确标记施事(即索赔来源的施事)。这样的句子是软弱的例子[20]然而,在Genia中,它们被注释为可能发生的事件,而在BioScope中,它们并不是因为它们表达了不同类型的不确定性:它是缺失的意见的确切来源,而不是事件的真实性(众所周知,一些人持这种意见,但不知道他们是谁)。它是一种在话语层面上表达的不确定性,而不是语义层面上的不确定性。黄鼠狼句子的示例如下所示:

白细胞趋化因子受体(包括趋化因子)传统上被认为负责激活白细胞的特殊功能,如趋化性、脱颗粒和释放超氧阴离子。

利用机器学习模型可以自动检测黄鼠狼句子和提示短语。例如,CoNLL-2010共享任务数据集[11]包括维基百科文章中专门用于黄鼠狼检测的语料库。我们假设鼬现象是独立于领域的,因此在维基百科上训练的模型也可以充分应用于(生物)科学出版物。

有时,事件在BioScope中标记为否定,但在Genia中不标记为否定:

[缺乏满的激活 NF-AT公司]这可能与诱导钙流量的能力显著降低有关,并且可以用钙离子载体进行补充。

作为缺乏被理解为“没有东西的状态”,它表示否定,即不存在以下NP补语,这就是为什么它在BioScope中被标记为否定关键字的原因。然而,在Genia中,“缺少某物”被理解为状态的否定,而不是事件的否定。因此,这里事件的类类型是否定规则,但事件本身是断言的(Genia 4164中的4347个否定规则中,有一些是断言的,由于语义上的否定关键字,其中一些在BioScope中被注释为否定的)。

概念差异的另一种情况是形态否定,即在形态层面上,clueword包含一个否定前缀,例如英寸-联合国。下面是一个典型的示例:

在单核细胞中,IL-1β治疗导致生产ROI的独立的5-氧合酶但需要NADPH氧化酶活性。

事件表示为生产不是由5-LOX酶的存在触发的,因此,这里没有调节事件,这在Genia中通过将调节事件标记为属性non-list来表达,而在BioScope中,其含义被认为是词汇化的,不一定是否定的。源自形态否定的错配主要包括形容词独立。我们认为,尽管这个词在词法层面上包含否定前缀,但它的含义是词汇化的,不一定是否定的:它描述的是一种状态或其参数之间缺乏关系。这样,它可以被类似地对待缺乏也就是说,不应该否定事件本身,而应该否定其状态。另一方面,包括形态否定的线索词可以通过自动方法(将单词分割为否定前缀和现有(形容词)语素)轻松识别,这些线索词可以自动标记为否定线索。

在BioScope和Genia Event中,对一些推测性关键字的解释似乎也有所不同。最突出的例子是事件被其他表达能力的单词或短语修饰(例如。能够,能力等),在Genia中注释了概率,但在BioScope中没有注释。这里提供了一个示例:

NF-kappa B活化与CD40型诱导 抗体 分泌物ICAM-1和LFA-1的上调。

表达能力的单词的一个非常有趣的子类是派生后缀表达“能力”的意思,如可诱导的可抑制的。取以下句子:

尽管有LPS的刺激,但前体B细胞NF-kappaB信号通路的破坏导致可诱导的 10月2日 DNA 结合体外活性和体内Oct-2-定向转录的抑制。

由描述的事件可诱导的可以解释为体外可诱导Oct-2 DNA结合活性,这是辅助词的“能力”用法可以因此,在Genia中注释了概率,但在BioScope中没有注释。

词汇语义相关的差异源于两个语料库的概念差异。如果不协调语料库背后的注释原则并重新注释数据,就很难解决这些不匹配。由于BioScope注释的主要设计目标之一是与任务相关,并且Genia的模态注释与生物事件提取是微调的,因此生物信息提取器可以合并Genia的形态原理,而当目标域与生物医学域不同时,可以遵循BioScopen注释。

最后,我们注意到注释中的一些差异(约5.7%)可以明显地追溯到注释错误。

讨论

详细的事件注释

12揭示了最大的差异子集(60%)来自Genia将事件中的事件作为单独的信息源处理,而BioScope处理基于成分的文本跨度。一个值得考虑的有趣问题是,信息提取系统的预期输出是否仅由基于文本证据的事实组成,其中事件的触发因素不属于句子/文档的主要陈述。请注意,事件中这些事件的信息内容通常在文档的其他部分或其他出版物中详细介绍和讨论,或者属于琐碎的领域知识。

类似的考虑意味着“生物事件元知识注释方案”的设计[21]. 它引入了以下事件的专用标签维度:

新知识(是/否),其动机是这些事件“……可能与新知识相对应,但前提是它们代表了当前研究的观察结果,而不是从其他地方引用的观察结果。以类似的方式,从当前研究的实验结果中得出的分析可以被视为新知识,但一般来说,只有当它代表了对结果的直接解释而不是更具推测性的东西。”

知识类型(调查/观察/分析/概述),其“目的是根据生物学家的需要,形成区分最关键类型的修辞/语用意图的基础。”

克莱林格[22]还认为,从生物学家的角度来看,只有实验证据支持的事件才有意思。这意味着,没有经验证据的琐碎领域知识和断言(即鼬鼠)应该区别对待。由于BioScope语料库是设计为任务相关的,因此其范围不能直接应用于Genia的深层详细(子)事件注释,因为许多属于琐碎领域知识的子事件都属于范围。然而,它可以通过利用BioScope中标记的关键字与其触发词(表示主要事件)之间的句法关系(依赖关系)来识别主要语句的否定和对冲状态:这样就可以确定它们是否代表新知识。请注意,已发布了句内范围检测器,最近还创建了鼬鼠检测器[11].

用于事件形态检测的BioScope

我们在前一节中讨论过,BioScope的范围对于检测Genia事件的断言和确定性状态并不直接有用,但是,我们认为在事件形态检测中使用提示短语可以产生显著的贡献。例如,基利科格鲁和伯格勒[4]利用事件线索短语和推测/否定线索之间的依赖路径,构建推测和否定关键字词典,并引入识别事件情态状态的规则。Kilicoglu和Bergler使用手工编制的词汇进行线索识别,然而,关键词是模糊的,即它们仅在特定的上下文中表达推测和否定。因此,需要一个线索短语检测系统,该系统根据标记的局部上下文对标记进行分类,然后分析这些预测的推测/否定证据与事件触发器之间的依赖路径。BioScope语料库可以用作一般推测/否定线索分类器的训练数据集。最先进的修饰语线索检测器实现了80%以上的严格短语级F度量[11]. 还可以将为每种(子)类型的关键字定义的基于依赖关系的规则添加到系统中,以确定事件的否定/推测状态。作为未来的工作,我们计划开发一种事件模式检测器,该检测器使用BioScope作为识别推测/否定线索的训练数据库,并通过基于手工相关性的规则来增强,以确定事件的模式。

不同注释方案的可用性

如前所述,BioScope的注释方案依赖于语言原则,而Genia Event基于一个更详细的注释系统,专门针对生物事件注释进行定制,其中事件参与者之间的一些复杂关系被编码,通常跨越子句边界。通过这种方式,Genia Event的注释方案具有高度的领域特异性,并且语料库可以有效地用于生物医学信息提取,从而对生物事件进行深入而精确的分析,尽管这可能需要大量额外的工作才能使系统适应其他领域。另一方面,由于BioScope注释方案是基于语言的,因此在开发其他领域的否定/模糊限制语检测器时,从语料库数据中提取的范围和线索标记规则也更容易被利用。

结论

本文讨论了生物文献中否定和推测的基于语言和事件的注释之间的差异。我们为基于语言范围的BioScope和面向事件的Genia event语料库之间的差异定义了类别。它们有随机抽样的交叉文档(生物摘要),估计了不匹配类别的频率,并为它们提供了解决策略。

就不同领域的信息提取而言,由于Genia Event注释系统具有高度的领域特异性,BioScope中的注释系统似乎更容易适应非生物医学应用。

关于不匹配类别的频率,我们发现差异最大的原因是范围旨在识别句子中关键事件的否定/确定状态,这些关键事件的每个论点(包括事件本身的论点)也在BioScope的范围内。相比之下,Genia独立处理事件中事件的形式。生物学家可以从关键事件中获取有用的信息,因此,在检测“新知识”时,经过BioScope训练的自动范围检测器可以帮助生物医学信息提取。另一方面,BioScope提示短语也可用于识别事件的断言和确定性状态。为了达到这个目标,我们计划开发一个程序,该程序利用自动识别的否定/推测线索,并使用基于句法的规则(调查情态线索和事件线索之间的依赖路径)来分类事件的状态。

作者贡献

VV和TO对两个语料库之间的不匹配进行了分类。GyM实现了用于收集和可视化差异的软件工具。RF和GySz对失配进行了统计分析。

工具书类

  1. Light M,Qiu XY,Srinivasan P:生物科学的语言:事实、推测和中间的陈述。程序。生物链接2004,链接生物文献、本体论和数据库(HLT-NAACL研讨会:)。2004, 17-24.

    谷歌学者 

  2. Friedman C、Alderson PO、Austin JHM、Cimino JJ、Johnson SB:临床放射学通用自然语言文本处理器。美国医学信息学协会杂志。1994, 1 (2): 161-174. 10.1136/jamia.1994.95236146。[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC16194/]

    第条 谷歌学者 

  3. Chapman WW,Chu D,Dowling JN:ConText:一种从临床文本中识别上下文特征的算法。2007年BioNLP ACL研讨会会议记录。2007, 81-88.

    谷歌学者 

  4. Kilicoglu H,Bergler S:基于句法依赖的生物事件提取启发式。BioNLP研讨会论文集共享任务指南卷。2009, 119-127. [http://www.aclweb.org/选集/W09-1418]

    第章 谷歌学者 

  5. Aramaki E、Miura Y、Tonoike M、Ohkuma T、Mashuichi H、Ohe K:TEXT2TABLE:基于命名实体识别和模态识别的医学文本摘要系统。2009年BioNLP研讨会论文集。2009, 185-192. [http://www.aclweb.org/antology/W09-1324]

    谷歌学者 

  6. Medlock B,Briscoe T:科学文献中模糊限制分类的弱监督学习。ACL程序。2007, 992-999. [http://www.aclweb.Org/antology/P/P07/P07-1125]

    谷歌学者 

  7. Szarvas Gy:生物医学文本中模糊限制分类与弱监督关键字选择。ACL-08会议记录。2008, 281-289. [http://www.aclweb.Org/antology/P/P08/P08-1033]

    谷歌学者 

  8. Vincze V、Szarvas Gy、Farkas R、Móra Gy、Csirik J:《生物显微镜语料库:生物医学文本注释的不确定性、否定性及其范围》。BMC生物信息学。2008年9月(补充11):S9-10.1186/1471-2105-9-S11-S9。[http://www.biomedcentral.com/1471-2105/9/S11/S9]

    第条 谷歌学者 

  9. Morante R,van Asch V,van den Bosch A:基于记忆的多语言句法和语义依赖性联合学习。CoNLL会议记录。2009, 25-30.

    第章 谷歌学者 

  10. 奥兹古尔A,Radev DR:检测科学文本中的推测及其范围。2009年自然语言处理实证方法会议记录。2009, 1398-1407. [http://www.aclweb.Org/anthology/D/D09/D09-1145]

    谷歌学者 

  11. Farkas R、Vincze V、Móra Gy、Csirik J、Szarvas Gy:CoNLL-2010共同任务:学习检测模糊限制语及其在自然语言文本中的范围。第十四届计算自然语言学习会议记录(CoNLL-2010):共享任务。2010, 1-12. [http://aclweb.org/antology-new/W/W10/W10-3001.pdf]

    谷歌学者 

  12. Kim JD、Ohta T、Pyysalo S、Kano Y、Tsujii J:BioNLP’09事件提取共享任务概述。BioNLP2009共享任务研讨会指南卷会议记录。2009, 1-9. [http://www.aclweb.org/antology/W09-1401]

    谷歌学者 

  13. SauríR,Pustejovsky J:事实库:用事件真实性注释的语料库。语言资源和评估。2009, 43: 227-268. 10.1007/s10579-009-9089-9。[10.1007/sl0579-009-9089-9][http://www.springerlink.com/content/mk122157x3113678/]

    第条 谷歌学者 

  14. Kim JD、Ohta T、Tsujii J:从文献中挖掘生物医学事件的语料库注释。BMC生物信息学。2008, 9: 10-10.1186/1471-2105-9-10. [http://www.biomedcentral.com/1471-2105/9/10]

    第条 谷歌学者 

  15. Pyysalo S,Ginter F,Heimonen J,Björne J,Boberg J,Järvinen J,Salakoski T:生物信息:生物医学领域信息提取的语料库。BMC生物信息学。2007, 8-

    谷歌学者 

  16. Shatkay H,Pan F,Rzhetsky A,Wilbur WJ:生物医学文本的多维分类:向不同用户提供自动化、实用的高实用性文本。生物信息学。2008, 24 (18): 2086-2093. 10.1093/bioinformatics/btn381。[http://bioinformatics.oxfordjournals.org/cgi/content/abstract/24/18/2086]

    第条 谷歌学者 

  17. Pestian JP、Brew C、Matykiewicz P、Hovermale D、Johnson N、Cohen KB、Duch W:一项涉及临床自由文本多标签分类的共享任务。2007年BioNLP ACL研讨会会议记录。2007, 97-104. [http://www.aclweb.Org/antology/W/W07/W07-1013]

    谷歌学者 

  18. Uzuner O:识别稀疏数据中的肥胖和共病。美国医学信息学协会杂志。2009, 16 (4): 561-70. 10.1197/贾米亚。M3115[http://www.biomedsearch.com/nih/Recognizing-obesity-comorbidities-in-sparse/19390096.html]

    第条 谷歌学者 

  19. 第一委员会、麦克唐纳R、维利科维奇L:什么好,什么不好:学习分类否定的范围,以改进情绪分析。自然语言处理中否定和推测研讨会论文集。2010年,瑞典乌普萨拉,51-59。[http://www.aclweb.Org/antology/W/W10/W10-3110]

    谷歌学者 

  20. Ganter V,Strube M:通过追逐黄鼠狼寻找树篱:使用维基百科标签和肤浅的语言特征进行树篱检测。2009年ACL-IJCNLP会议论文集。2009, 173-176. [http://www.aclweb.Org/anthology/P/P09/P09-2044]

    第章 谷歌学者 

  21. Nawaz R、Thompson P、Ananiadou S:评估生物事件的元知识注释方案。自然语言处理中的否定和推测研讨会论文集。2010年,瑞典乌普萨拉,69-77。[http://www.aclweb.Org/antology/W/W10/W10-3112]

    谷歌学者 

  22. Krallinger M:否定和实验限定词在生物医学文献中的重要性。自然语言处理中否定和推测研讨会论文集。2010年,瑞典乌普萨拉,46-49。[http://www.aclweb.Org/antology/W/W10/W10-3108]

    谷歌学者 

下载参考资料

致谢

在英国剑桥Hinxton举行的2010年国际生物医学语义挖掘研讨会上,首次以非修订形式介绍了这项研究工作。

这项工作得到了匈牙利政府NKTH赠款(项目代号MASZEKER和TEXTREND)的部分支持。Richárd Farkas由德国联邦财政局732拨款资助。

作者要感谢这两个语料库的注释员所做的不懈努力。

本文已作为生物医学语义学杂志2011年第2卷增补5:第四届国际生物医学语义挖掘研讨会论文集。补遗的全部内容可以在网上找到http://www.jbiomedsem.com/supplements/2/S5.

作者信息

作者和附属机构

作者

通讯作者

与的通信维罗妮卡·文泽里查德·法卡斯.

其他信息

竞争性利益

提交人声明他们没有相互竞争的利益。

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

文斯,V.,萨洛斯,G.,莫拉,G。等。BioScope和Genia event语料库中基于语言范围和基于生物事件的推测和否定注释。J生物识别精液 2(补充5),S8(2011)。https://doi.org/10.1186/2041-1480-2-S5-S8

下载引文

  • 出版:

  • 内政部:https://doi.org/10.1186/2041-1480-2-S5-S8

关键词