注释原则
BioScope注释
在BioScope语料库中注释关键字及其范围时[8],语料库构建者遵循min-max策略。在标记关键字时,遵循了一种最简策略:将表示对冲或否定的最小单位标记为关键字。特别要注意复杂关键字的情况,即那些同时表达不确定性或否定,但不单独表达的单词(其子成分的语义解释或对冲强度与整个短语的语义解释和对冲强度都有显著差异)。
否定关键字和推测关键字的范围被扩展到尽可能最大的句法单位。因此,带注释的范围始终具有最大长度。(注释者之间的一致性费率可在语料库网站上获得:http://www.inf.u-szeged.hu/rgai/bioscope网站.)在下一个示例中,然而不受对冲提示的影响,但应包含在范围内,否则关键字和其目标短语将被分隔开(范围用括号标记,关键字用粗体表示):
[然而,右中区的肺不张,可能的].
这就是为什么语料库构建者倾向于在范围内包含所有可能的元素,而不是排除可能应该包含的元素。至于注释,最重要的是要考虑的是,模糊限制语或否定语不仅取决于明显线索的存在:而是一个关键词、上下文和句子句法结构的问题。关键字的范围可以根据选区语法确定。动词、助词、形容词和副词的范围通常延伸到关键字的右侧。对于动词成分,即动词和助词,它以分句结尾(如果动词成分在关系分句或并列分句中)或句子结尾,因此根据最大范围原则,所有补语和附加语都包括在内。如果是椭圆句子,可以删除否定关键字的范围,如下所示:
这种减少在对治疗有反应的患者以及对治疗有应答的患者中都可以看到[不].
在这些情况下,范围仅包含关键字。
Genia Event模态注释
Genia事件语料库主要用于(生物)事件注释[14]数据库包含事件层面的不确定性和否定性注释。注释方案侧重于事件,事件的参数有时可以跨越子句边界找到,通常是由于回指或共指(在我们的实验中使用的35419个Genia事件中,1127个涉及外部事件,2076条线索是另一个句子中表达的事件的参数(主要是cluetypes)主题(1447个实例,70%)和原因(619例,29.8%)。
关于不确定性,事件在语料库中可以有三个标签:确定的、可能的和可疑的。如果事件正在调查中或构成假设的一部分,则标记为可疑事件。此处提供了可疑事件的示例(我们的示例中强调了事件参数):
然后我们调查了HCMV绑定也导致这个翻译和分泌细胞因子.
如果无法确定事件的存在,则认为事件是可能的。可能发生的事件示例如下所示:
总之,这一证据强烈暗示英国标准协会在中规则的CD19基因.
如果其他两个属性都不成立,则默认选择“确定”属性:一个无法以任何方式质疑其存在性的事件。
至于否定,事件被标记为exist或non-list。否定事件的示例如下所示:
税收突变体分析显示了两个突变体,iexc29秒和IEXL320G,无法显著反式激活这个c-sis/PDGF-B启动子.
在语料库中,既没有明确标记关键词,也没有明确标记否定和模糊限制的范围。
分歧数量
表1显示了两个语料库之间一致和不一致的案例数(一致率:48%)。TP列中的数字(真正)表示两个语料库中以相同方式考虑的实例。BPGN列中的数字指的是BioScope中Genia事件的任何线索处于负/推测范围内的情况,然而,在Genia事件中则不是。与此相反,在GPBN列中,数字显示了Genia对事件的任何参数包含一些推测性/负面注释的情况,但BioScope没有。
表1 BioScope和Genia Event之间的同意和不同意数量。 差异的分类
本节介绍了Genia事件和BioScope语料库之间注释的不匹配。根据旨在解决不匹配问题的可能解决方案对系统差异进行分类,并举例说明了这些类别的子类型及其基于200个注释差异随机样本的估计频率(见表2).
以事件为中心与语言注释
两个语料库之间注释原则的一个本质区别是Genia Event遵循以事件为中心的注释原则[14]而BioScope注释并没有特别强调事件,因为它旨在对推测和否定进行任务相关的建模。以事件为中心的注释意味着注释者需要识别句子中尽可能多的生物事件,然后分别标记每个生物事件以进行否定和推测。事件通常用动词表示,然而(deverbal)形容词和名词也可以指代事件。考虑以下示例:
钙调神经磷酸酶与PMA协同行动使失去活性 I卡帕B/MAD3,一个抑制剂属于NF-κB.
这句话描述了两个事件钙调神经磷酸酶对IκB/MAD3的灭活作用和IκB/MAD3对NF-κB的抑制作用。
从语言学的角度来看,事件与其论元一起被理解为谓语,谓语的作用可以由文本中的动词、名词或形容词来完成。与此相反,BioScope在上述意义上并不是面向事件的。相反,动词起着核心作用,即动词及其参数也构成BioScope中的一个事件。因此,上述句子指的是BioScope和抑制剂不被视为谓词。
因此,Genia中的事件比BioScope中的事件多得多。Genia事件中事件的多重性和BioScope中利用的最大范围原则结合在一起通常会导致Genia事件属于BioScopec关键字的范围,但不应将其视为推测或否定事件。这里我们提供一个示例:
总之,我们的数据[建议转录因子AP-1的组成发生变化是一种关键的分子机制 增加的 白介素-2 转录和可能在现象背后 协同模拟 欧盟委员会].
根据BioScope对句子的分析建议延伸到句子末尾。这意味着尽管在Genia中它只是事件是一个关键的分子机制和这一现象的根源标记为可能的事件变化,增加的,转录和协同模拟也包括在BioScope推测范围内。因此,在这句话中,有六个Genia事件,其中两个事件被标记为可能,然而,在BioScope中,所有六个事件都在推测范围内,导致两个同意案例和四个不同意案例。关于整个语料库,大量BPGN案例(见表1和2)可以用类似的方式解释。
句法问题
注释中的一些不匹配可以追溯到语法。例如,主语的处理仍然存在问题,因为在BioScope中,只有补语通常包含在关键字的范围内(也就是说,主语不包括被动结构和提升动词)与Genia不同,Genia中的事件以论据为中心(即考虑补语和主语),如:
两者都有c-Rel公司和RelA公司诱导jagged1基因 表达,而一种有缺陷的反式激活突变体做了[不].
在本例中,没有由表示的事件的参数诱导在BioScope范围内,这会产生分歧。
关于主语处理问题,句子/子句的依存分析可能有助于正确识别事件的形式。我们可以应用以下规则:如果用作事件触发词的动词被否定或模糊,则依存树中的所有子动词(也包括主语)都将包含在修饰语的范围内。通过这种方式,可以从GPBN集合中消除只有主语在修饰语范围内的不匹配情况(例如,在椭圆句子的情况下)。
语义问题
在某些情况下,注释中的差异源于概念差异。如果不协调语料库背后的注释原则并重新注释数据,这些差异很难解决,然而,这里给出了最典型的案例。Genia事件中标记为可疑的事件在BioScope中很少被注释为推测性事件。在Genia Event中,对某一现象的调查、检查、研究等并不一定意味着该现象的存在。然而,在BioScope中,这一方面被忽略,正在调查、检查等的现象只有在投机关键字的范围内(例如。是否).由于只有17%的可疑Genia事件线索处于推测范围内,因此我们在比较时只关注可能的类别。
有一些不匹配的例子,其中陈述了一个概括或一个被广泛接受的主张。从语法上讲,这些句子通常以被动语态出现,但没有明确标记施事(即索赔来源的施事)。这样的句子是软弱的例子[20]然而,在Genia中,它们被注释为可能发生的事件,而在BioScope中,它们并不是因为它们表达了不同类型的不确定性:它是缺失的意见的确切来源,而不是事件的真实性(众所周知,一些人持这种意见,但不知道他们是谁)。它是一种在话语层面上表达的不确定性,而不是语义层面上的不确定性。黄鼠狼句子的示例如下所示:
白细胞趋化因子受体(包括趋化因子)传统上被认为负责激活白细胞的特殊功能,如趋化性、脱颗粒和释放超氧阴离子。
利用机器学习模型可以自动检测黄鼠狼句子和提示短语。例如,CoNLL-2010共享任务数据集[11]包括维基百科文章中专门用于黄鼠狼检测的语料库。我们假设鼬现象是独立于领域的,因此在维基百科上训练的模型也可以充分应用于(生物)科学出版物。
有时,事件在BioScope中标记为否定,但在Genia中不标记为否定:
[缺乏满的激活 NF-AT公司]这可能与诱导钙流量的能力显著降低有关,并且可以用钙离子载体进行补充。
作为缺乏被理解为“没有东西的状态”,它表示否定,即不存在以下NP补语,这就是为什么它在BioScope中被标记为否定关键字的原因。然而,在Genia中,“缺少某物”被理解为状态的否定,而不是事件的否定。因此,这里事件的类类型是否定规则,但事件本身是断言的(Genia 4164中的4347个否定规则中,有一些是断言的,由于语义上的否定关键字,其中一些在BioScope中被注释为否定的)。
概念差异的另一种情况是形态否定,即在形态层面上,clueword包含一个否定前缀,例如英寸-或联合国。下面是一个典型的示例:
在单核细胞中,IL-1β治疗导致生产ROI的独立的的5-氧合酶但需要NADPH氧化酶活性。
事件表示为生产不是由5-LOX酶的存在触发的,因此,这里没有调节事件,这在Genia中通过将调节事件标记为属性non-list来表达,而在BioScope中,其含义被认为是词汇化的,不一定是否定的。源自形态否定的错配主要包括形容词独立。我们认为,尽管这个词在词法层面上包含否定前缀,但它的含义是词汇化的,不一定是否定的:它描述的是一种状态或其参数之间缺乏关系。这样,它可以被类似地对待缺乏也就是说,不应该否定事件本身,而应该否定其状态。另一方面,包括形态否定的线索词可以通过自动方法(将单词分割为否定前缀和现有(形容词)语素)轻松识别,这些线索词可以自动标记为否定线索。
在BioScope和Genia Event中,对一些推测性关键字的解释似乎也有所不同。最突出的例子是事件被其他表达能力的单词或短语修饰(例如。能够,能力等),在Genia中注释了概率,但在BioScope中没有注释。这里提供了一个示例:
NF-kappa B活化与CD40型到诱导 抗体 分泌物ICAM-1和LFA-1的上调。
表达能力的单词的一个非常有趣的子类是派生后缀表达“能力”的意思,如可诱导的或可抑制的。取以下句子:
尽管有LPS的刺激,但前体B细胞NF-kappaB信号通路的破坏导致可诱导的 10月2日 DNA 结合体外活性和体内Oct-2-定向转录的抑制。
由描述的事件可诱导的可以解释为体外可诱导Oct-2 DNA结合活性,这是辅助词的“能力”用法可以因此,在Genia中注释了概率,但在BioScope中没有注释。
词汇语义相关的差异源于两个语料库的概念差异。如果不协调语料库背后的注释原则并重新注释数据,就很难解决这些不匹配。由于BioScope注释的主要设计目标之一是与任务相关,并且Genia的模态注释与生物事件提取是微调的,因此生物信息提取器可以合并Genia的形态原理,而当目标域与生物医学域不同时,可以遵循BioScopen注释。
最后,我们注意到注释中的一些差异(约5.7%)可以明显地追溯到注释错误。