跳到主要内容

西班牙语单语和跨语言残疾自动标注研究进展

摘要

背景

与疾病不同,自动识别残疾在医学NLP领域没有得到同样的重视。这方面的进展受到诸如缺乏注释语料库等障碍的阻碍。神经体系结构学习在给定一组样本的情况下,将序列从自发表示转换为相应的标准表示。本文的目的是介绍单语(西班牙语)和跨语言(从英语到西班牙语,反之亦然)自动残疾标注的最新进展。这项任务包括在与生物医学领域相关的期刊论文摘要集合中,识别西班牙语医学文本中提到的残疾。

结果

为了完成这项任务,我们将使用不同嵌入粒度进行序列到序列标记的深度学习模型与简单的首字母缩写词和缩写词检测模块相结合,以提高覆盖率。

结论

我们的单语实验表明,不同单词嵌入表征的良好组合比单一表征提供了更好的结果,显著优于西班牙语中残疾注释的最新水平。此外,我们还对英语和西班牙语之间的残疾注释进行了跨语言迁移(零快照)实验,取得了有趣的结果,这可能有助于克服数据稀缺瓶颈,特别是对残疾人而言。

同行评审报告

介绍

国际功能、残疾和健康分类(ICF)将残疾定义为一个术语,将一系列高度异质的损伤、活动限制和参与限制组合在一起。除其他外,由于一些残疾还会导致身体和/或精神疾病,残疾人更容易患上次要疾病、合并疾病和更高的过早死亡率[1,2].

据世界卫生组织(WHO)统计,世界上15%的人口患有某种残疾。世卫组织还声称缺乏关于残疾的信息或数据收集和分析,都加剧了这一群体面临的健康不公平现象,以及他们经常被排除在公共卫生干预措施之外[]. 此外,在UMLS等本体中,残疾不属于任何特定的语义类型,它们广泛分布于不同的类型;一些属于调查结果,一些到疾病或综合征和其他一些人精神或行为功能障碍虽然与上述语义类型有交叉点,但它们显示出不同的特征,例如使用形式化程度较低的语言、较长的实体和负极性术语损失,功能障碍,或变更这些事实表明了残疾鉴定的相关性和挑战,需要特别关注和研究。

自从以科学文献或电子健康记录(EHR)形式提供的文本信息大幅增加以来,医学文本处理蓬勃发展。机器学习和深度学习方法与丰富的可用文本信息一起,提供了新的表示法和算法,彻底改变了人工智能和自然语言处理领域,在最新技术上取得了惊人的进步单词和文本表示模型例如基于单词、基于子单词、基于字符或跨语言嵌入件以及相应的算法,如Seq2Seq[4]或变压器型号[5].

识别医学命名实体(MER)是任何更高级别自动工具成功的基本但关键步骤之一。命名实体识别(NER)的目标是自动识别书面文本中的相关实体,并用实体标签标记每个令牌。在临床领域,典型的实体对应于症状、疾病、身体部位和药物。大多数文献都侧重于用英语进行MER[6]. 然而,近年来,人们对其他语言的处理越来越感兴趣(参见[7]用于以英语以外的语言对临床NLP进行综述)。例如,最近有关于处理西班牙语、瑞典语或汉语的工作[8,9,10,11,12,13]. 由于数据稀缺,从事残疾工作,尤其是使用英语以外的语言,是一个具有挑战性的问题。据我们所知,DIANN任务[14]是唯一专门用于自动识别残疾提及的评估任务。该任务分为两个子任务,对应于在生物医学语料库中检测英语和西班牙语中的残疾。

在这项工作中,我们提出了一组关于检测西班牙语中提到的残疾的实验(见图1). 我们将尝试不同的方法,彻底评估不同深度学习方法的贡献,并研究每个选项的优缺点。具体来说,我们将测试文本表示的构造,如单词嵌入、字符、分段或基于单词,这可能是一个关键因素。我们还将尝试不同的深度学习算法,包括Transformer架构和多语言和跨语言方法,超越单语系统。本文旨在通过对这些特征的分析,提出一个新的建议,以得出最具影响力的特征及其有效组合的结论。

图1
图1

带注释的残疾示例(上半部分为英语,下半部分为西班牙语)

论文组织如下:下一节将研究相关工作资源我们简要描述了用于训练和评估的语料库,包括使用的其他附加文本数据。之后,小节技术分析比较了不同的技术和算法。最后,我们介绍了主要结果并讨论了涉及的主要结果。

相关工作

CoNLL 2003共享任务[15]是通用NER的里程碑,引领了当前系统的发展。从那时起,在不同的生物医学领域,特别是英语领域,已经开发了几个带注释的语料库。所涉及的实体取决于每项任务,并与诸如基因名称、蛋白质、药物、程序和疾病等要素相对应。关于其他语言,已经使用了几个带注释的语料库,如IxaMed-GS语料库[13]符合西班牙文电子健康记录(EHR),并附有药物和疾病注释。除了所有这些语料库和任务外,倡议还侧重于特定和较少研究的医疗实体类型,例如DIANN共享任务中使用的语料库[14]也出现了。

看看用于净入学率的方法,机器学习通过支持向量机(SVM)等强大的算法首次显著推动了这项任务[16],条件随机字段(CRF)[17]或Perceptron算法[18]. 它们在医学净入学率中的应用示例如下[19,20]对于英语[11]对于中文和[10]瑞典语和西班牙语。

在过去的几年里,机器学习技术用神经网络和深度学习进行了一场革命[21,22]. 这些算法大大减少了特征工程的需要,因为它们能够直接从数据的数字表示中学习关键特征。神经网络算法有不同的变体,例如递归神经网络(RNN)[23]、长短期记忆(LSTM)[24]卷积神经网络[25]或变压器架构[26]. 神经方法的一个显著特点是使用文本嵌入件[27],这是使用大量未标记文本作为输入,以无监督的方式学习的矢量表示。这些表示提供了关于单词的分布信息,并编码了相关的语言和语义信息。通过这种方式,具有相同含义的单词共享相似的表示,使用简单的操作(如两个向量之间的余弦距离)可以帮助将类似的概念组合在一起。这可以显著提高在有限数据量上学习的模型的泛化能力,自然地捕获词义。虽然最初的算法是为单词设计的,但使用向量运算还可以获得字符、单词片段(也称为子单词)、多单词术语、句子甚至整个文档的向量表示。文字2vec[27]、斯坦福手套[28]和Facebook FASTTEXT[29]是最著名的生成单词嵌入的算法。一些工作已经成功地将这些预训练嵌入作为输入,以提高在不同任务(如普通或医学NER)中的性能[8,9,11,30,31]. 当使用预训练嵌入时,它们可以从域外语料库生成,也可以从域相关语料库中生成,在我们的案例中是通用医学语料库(期刊或科学摘要),或从电子健康记录(EHR)中提取的语料库。在使用通用领域大量文本或更小的领域内语料库进行训练时,是否可以获得更好的嵌入,这仍然是一个尚未解决的问题,原则上,这些语料库在词义和用法上可能更接近。很多时候,特别是在临床数据的情况下,域内语料库很难获得或根本不可用。当前最先进的方法使用了不同的嵌入类型:

  • 经典的单词嵌入,如GLOVE或FASTTEXT。这些作品[27,28]计算超大型语料库上的预训练嵌入,试图捕获潜在的句法和语义相似性。他们在多项任务中都非常有效。

  • 字符级别嵌入件。虽然NLP和神经网络的大多数工作都将单词作为基本处理单元,但基于字符的信息很有吸引力,因为(1)字符上下文不如单词上下文稀疏,并且(2)字符可以捕获基于单词的模型无法捕获的细节,作为前缀和后缀,有助于正确识别词汇表外(OOV)或拼写错误的单词[30].

  • 子单词使用单个单词作为基本单位,在共享子结构的单词之间放弃有意义的语义结构。因此,除了基于字符的模型外,字节对编码(BPE)这一压缩算法还被用于机器翻译和文本处理等多种应用中[32,33]. 科技领域,如科学和医学文献,由前缀、后缀、词根以及复合词、同源词和借词等子词结构组成单词。例如,神经纤维瘤病这是一个复杂的词,可以归类为一个未知的OOV词,通过看它的词缀可以给它一个含义神经的--肺病,并将其归类为与神经元相关的疾病,如果以这些子单词为单位计算嵌入。

  • 多语言嵌入件。它们提供了一种跨不同语言传递和共享知识的方法,从而将信息从资源较多的语言移植到资源不足的语言[34]. 主要有两种方法:

    • 同时使用多种语言对单个语言模型(LM)进行训练,从而可以利用更大的训练语料库。通过这种方式,可以应用跨语言学习,在其中一种语言中对跨语言模型进行微调,然后在没有其他语言训练数据的零快照场景中使用。

    • 通过线性变换和双语词典,独立训练每种语言的嵌入,并在公共空间中进行后向对齐。其主要思想是使用迭代对齐方法学习从源空间到目标空间的映射,从而给出多语言表示

关于所使用的软件架构类型,我们可以区分以下几种:

  • 相继的体系结构[35]. 这些系统首次实现突破[30]在NER任务中,通过应用于序列标记的神经网络,使用双向BiLSTM体系结构,然后使用条件随机字段层(CRF),该层对联合标记依赖性进行建模,大大超过了以前的技术水平。他们将预先训练好的单词嵌入作为额外的训练输入,将字符嵌入内部用于检测前缀和后缀。我们可以根据上下文区分两种主要类型:(a)静态嵌入。这是第一种型号[30,31]它使用了预先训练好的单词嵌入。尽管这些结果改进了当前最好的系统,但一个缺点是,使用这种方法,每个单词形式都被分配了一个单独的向量,其中包含独立于上下文的表示。(b) 上下文化或动态嵌入件[36,37,38]捕获上下文中的语义以解决单词的多义性和上下文依赖性。这些动态嵌入是在考虑上下文的情况下计算的,也就是说,同一个单词可以根据其上下文接收不同的嵌入。

  • 基于转换器体系结构[26]使用注意机制解释每个单词的上下文。在递归神经网络或LSTM中,过去元素的重要性会随着距离的增加而消失。使用变换器,而不是按顺序应用相同的网络,其思想是将当前标记连接到所有元素(前元素和后元素),其中每个元素都有一个连接到它的位置嵌入。目的是在当前单词的处理中结合上下文,通过一种机制来衡量每个上下文词与当前上下文词的相关性。这种技术产生了最先进的模型,同时由于更容易并行化,减少了训练时间。

DIANN共享任务[14]致力于检测英语和西班牙语生物医学研究文本中提到的残疾,目的是评估两种不同语言的各种命名实体识别系统的性能。在第一个位置[39]提出了一个基于神经网络的体系结构系统,该系统由双向长短记忆网络(BiLSTM)和条件随机场(CRF)组成,使用两种语言的静态单词嵌入,结合基于规则的首字母缩写和缩写模块,检测与残疾相关的首字母缩略词和缩写,英语和西班牙语的F值分别为0.82和0.78。[14]为残疾人士使用了长-短期记忆结构,提高了技术水平,英语和西班牙语的F值分别为0.83和0.81。最近[40]在该语料库上进行了基于否定的迁移学习到残疾标注的实验。尽管否定信息的使用大大改善了他们的基线系统,但仍低于最新水平(英语和西班牙语的F值分别为76.9和76.5)。

表1 DIANN标注的残疾和罕见疾病语料库的一般数据

材料和方法

在这一节中,我们将探索我们用于进行实验的所有语料库和工具。第一小节描述了数据,包括带注释的数据和原始文本。接下来的两个小节将分别介绍已实施的深度学习和基于规则的方法,最后对上一小节中的主要实验设置进行描述。

资源

在本小节中,我们将首先介绍DIANN注释的残疾语料库,以及我们在小节中的西班牙语和英语实验中使用的未注释的附加文本嵌入.

DIANN注释语料库

DIANN语料库[14]是一个黄金标准的残疾人语料库。该语料库包括2017年至2018年间与罕见疾病相关的生物医学领域的科学论文的500篇摘要。文件汇编仅限于英文和西班牙文摘要中包含至少两种语言的残障人士的文件。

残疾通常用一个特定的词来表示,例如失明或人类功能的限制或缺失,例如缺乏远见.语料库脚注1可以公开访问,它将允许训练机器和深度学习系统,从而提取有关罕见病和残疾之间关系的新信息。1介绍了语料库的主要特征。

一些残疾被提及50多次,而其他残疾只被提及一次,每种疾病平均被提及1.8次。其中72%表示人体功能受损,23%表示使用了某种残疾术语。在5%的案例中,残疾对应于首字母缩写。最常提到的残疾是共济失调,与运动技能相关,其次是耳聋,痴呆(与认知功能问题有关),自闭症失明最常见的身体损伤功能与听觉、视觉和运动技能、认知能力的影响以及发育有关。

尽管标注的残疾与UMLS疾病或障碍等临床类别有共同的交叉点,但也有重要的区别。例如,与疾病(西班牙语IxaMed-GS中每种疾病12.39个字符和1.43个单词)相比,残疾的顺序更长(平均每种残疾19.79个字符和2.29个单词)[13]语料库)。我们使用最先进的西班牙语临床NER系统进行了初步实验[41]发现它只能正确检测到31%的残疾。这可以解释为,与当前的医学净入学率疾病相比,残疾人使用的专业语言较少。例如,残疾精神障碍,工作记忆中的问题语音工作记忆的容量限制标准临床NER系统无法检测到,否则其疾病的f1核心为90%。

嵌入

深度学习技术通常需要大量数据。虽然手动标注的数据可以提供最佳结果,但它非常昂贵且耗时。因此,通过以下方式以无监督的方式获取有用信息的想法嵌入件是非常有吸引力的,并且已经开发出高效和有效的方法。通过这种方式,系统可以获得有关以下事实的信息,例如,梗塞(打、击等的)一下是类似的术语,即使后者没有出现在带注释的语料库中。

为此,我们利用其他几个语料库向系统中添加非监督知识,要么直接处理文本语料库以获得不同的嵌入,要么间接通过使用预先计算的嵌入。这允许测量使用通用可用资源或特定于域的资源的影响。

对于后一种情况,我们使用了一个EHR语料库(以下简称西班牙EHR语料),该语料库包括2012年至2016年期间在巴斯克卫生系统地区医院收集的300000个未命名EHR,约有2亿代币。该语料库由受保密协议约束的已取消身份的患者记录组成。EHR遵循标准的SOAP注释方法(主观、客观、评估、计划),并且是半结构化的。为了试验各种可能性,我们在单语环境下测试了以下类型的嵌入(训练和测试同一种语言,在我们的案例中是西班牙语):

  • FASTTEXT预埋[29],在西班牙维基百科(797 M令牌)和CommonCrawl(72000 M令牌)上接受培训。

  • Wikipedia2Vec预着色嵌入[42]来自维基百科的单词和实体。此工具使用户能够学习以Wikipedia转储文件作为参数的嵌入。

  • 跳过NGram单词嵌入[43]根据西班牙EHR语料库进行训练。为了更好地为EHR中包含的语言建模,我们训练了自己的LM。虽然这个语料库比以前的语料库小,但它具有包含领域内文本的优点,这对许多任务都有帮助。

  • 从西班牙EHR语料库训练出的天才语境化字符嵌入[38].

  • 基于变压器的LM[44]. BETO是BERT[45]该模型在一个大型通用西班牙语语料库(维基百科和新闻等)上进行训练,其大小与BERT-Base相似,并使用整词屏蔽技术进行训练。

对于跨语言环境(培训一种语言,评估另一种语言),我们选择了以下选项:

  • MUSE公司[46]是一个图书馆,旨在通过大规模高质量双语词典,在公共空间中提供最先进的多语言静态单词嵌入(FASTTEXT嵌入)。

  • 金属嵌件[47]集成从文本或知识库等互补源创建的多个单词嵌入,使用线性变换和平均将单词向量投影到公共语义空间。对于英语,它们结合了谷歌新闻(1000亿单词)中的Word2Vec嵌入、通用爬行(6000亿单词)的GloVe和FastText嵌入,而对于西班牙语,它们使用在西班牙语十亿单词语料库(14亿单词)上训练的向量。

  • 多语言BERT(mBERT)为104种语言提供了上下文嵌入表示,已应用于许多多语言或跨语言任务[45].

  • XLM-RoBERTa(XLM-R)[48]是一个基于transformer的语言模型,基于子词嵌入,在100种语言的通用领域文本上进行预训练。

图2
图2

系统的主要架构

深度学习:单语和多语言方法

基于上一小节中描述的资源,我们已经使用最先进的神经架构对不同的选项进行了实验。一方面,为了评估不同嵌入类型在单语环境中的贡献,我们选择了基于上下文字符嵌入的Flair架构。对于跨语言实验,我们测试了对天赋以及基于变压器的XLM-R架构(见下一小节)。2介绍了我们使用的主要体系结构,包括不同类型的嵌入、字符、单词和上下文(参见图的左侧)、双向LSTM层(中间)和将产生最终输出的最终CRF层。

上下文化字符串嵌入

Akbik等人[38]提出了一个上下文化的特征级单词嵌入模型,该模型试图结合不同嵌入类型的最佳属性。他们的框架允许测试不同的NLP模型,例如NER、部分语言标记(PoS)和给定文本的分类。该系统最显著的特点是:

  • 文本被建模为以下序列字符而不是使用标准的顺序BiLSTM-CRF模型的单词。这种激进的方法可以更好地处理OOV和拼写错误的单词以及前缀和后缀等子结构。即使系统基于字符嵌入,它也能够为任何字符串生成嵌入[37]. 例如,可以将单词建模为前向LM中单词中最后一个字符后的输出隐藏状态与后向LM中词中第一个字符的隐藏状态的串联。

  • 对大型未标记语料库进行预处理的能力。通过这种方式,我们可以利用在大量文本(如BERT嵌入)上计算的预处理LM嵌入[45]、ELMo埋件[36],FASTEXT嵌入[29]或Flair嵌入件[37])或者根据每个用户自己的未注释数据生成新的LM。通过第二轮关于最终目标的培训,这些一般的预训练LM(也称为堆叠嵌入)可以针对特定任务进行微调,并取得成功。

  • 由于嵌入是上下文的,它们捕捉上下文中的词义,根据多义词的用法产生不同的嵌入。

多语言变压器

XLM-RoBERTa(XLM-R)[48]使用基于变换器的多语言屏蔽语言模型,对100种语言的文本进行预训练,在多个NLP任务(包括序列标记)上获得最先进的性能。与Flair中使用的替代方法相反,该系统使用的LM同时根据所有语言的文本进行训练。

表2根据西班牙数据测试的用于自动残疾注释的不同方法概述

用于处理的单位是子字(也称为单词块)它允许将单词分解为较小的组件,非常适合于泛化、OOV、拼写错误和跨语言处理。不同的语言可以共享子词汇表,可以按字面意思共享,也可以通过局部转换共享,这在医学等专业子域中更为常见(表2).

缩写词检测模块

为了检测深度学习技术无法识别的缩略语所代表的某些残疾,我们创建了一个基于规则的缩略语和缩略语检测模块。本模块负责检测与神经网络识别的残疾(最大一个单词距离)相近的残疾首字母缩写。要检测为首字母缩写,首字母缩写必须在括号中,并且只有大写字母(多个大写字母)。一旦检测到首字母缩写词,模块会在整个文本中将其标记为残疾。显示了规则应用的示例。在第一种情况下,深度学习方法无法捕捉缩写词(CP)。在第二种情况下(表的下部),添加规则可以检测两个CP残疾实例。

表3使用深度学习(上图)和使用缩略语和缩写词检测模块(下图)进行残疾识别的示例。确定的残疾以粗体显示

实验设置

2介绍了将在本文中进行比较的不同类型的系统。在单语部分(表的上侧2)我们描述了一组使用西班牙语DIANN语料库进行训练、开发和测试的实验。前两个系统对应于迄今为止发表的最佳结果,这两个系统都基于使用静态单词嵌入和BiLSTM CRF架构进行训练,代表了当前的技术状态。接下来的系统使用上下文化字符嵌入的Flair框架,采用不同的外部嵌入源:FASTTEXT(\(火焰{FT}\)),Wikipedia2Vec(\(FLAIR_{Wiki2V}\)),FLAIR基于Wikipedia的预着色嵌入(\(火焰{LM\_Wiki}\)),SkipNGram静态单词嵌入在我们自己的西班牙语EHR语料库中预先训练(\(FLAIR_{SkipNG\_EHR}\))和FLAIR上下文字符EHR嵌入(\(火焰{LM\_EHR}\)). 为了与变压器模型进行比较,我们还添加了BETO[44].

作为性能最佳的系统[14,49]在下一节中,我们使用了深度学习基础系统和我们启发的缩略语和缩写模块的组合来改进结果(请参阅结果)为了进行比较,我们还将展示使用和不使用此模块的结果。此外,我们还测试了几种外部(或预训练)嵌入组合的使用,以训练新的序列标记和文本分类模型,从而尝试将补充类型的知识纳入系统。我们试验了两种和三种性能最佳的嵌入类型(B2/B3表示最佳的两种/三种嵌入类型,如表的下半部分所示4).

表的下部2介绍了跨语言实验,其中系统将多语言表示作为输入,其中包括映射到单个嵌入空间的英语和西班牙语以及英语DIANN注释语料库,并应用于西班牙语DIANN测试集。这些实验可以显示,使用具有更多注释资源的源语言(英语),系统可以在多大程度上派生为目标语言(西班牙语),而该语言中没有注释数据。

在结果中,我们将提供具有不同初始化种子的多轮评估的平均值和标准偏差,以估计在复制实验时可以发现的可变性,如[50]. 在具有12 GB RAM的Titan V型硬件(TDP为250W)上进行了133小时的累计计算。总排放量估计为14.36 kgCO\(_2\)其中0个百分点被直接抵消。使用机器学习影响计算器进行评估。脚注2

表4单语实验

结果

表的上部4给出了使用不同预训练嵌入以及在西班牙DIANN语料库上进行的训练和测试的单语方法的结果。前两行给出了文献中最好的报告结果[14,49]. 2018年DIANN共享任务中的最佳系统使用了具有通用域静态单词嵌入的BiLSTM-CRF,获得了78.60的F度量值[49],同时[14]通过添加字符嵌入和大小写嵌入向量改进了这个基本架构,达到了81.00的F度量值。该表显示了如何使用基于转换器的通用域语言模型(BETO)甚至不会超过共享任务的最佳结果。基于域内EHR的预训练静态词嵌入(\(FLAIR_{SkipNG\_EHR}\))结果比最好的报告系统要好。FASTTEXT系列(\(火焰{FT}\))和Wikipedia2Vec(\(FLAIR_{Wiki2V}\))嵌入使结果略有增加。在最后一行中,我们看到添加了基于EHR的预训练上下文化字符嵌入(\(FLAIR_{LM\_EHR}\))与之前的结果相比,给出了最后的显著改进(F测量值为84.43),所有测量值都显著增加。

表的下部4呈现了二者和三者的最佳组合(\(火焰{B2}\)\(火焰{B3}\))嵌入类型,在精确度和召回率方面都有额外的提升,并获得最佳结果(86.77 F-measure)。我们必须注意,这种组合不需要对不同的系统进行独立的训练,相反,提供不同嵌入类型的单一训练阶段是必要的。

5显示了零快照设置下跨语言方法的结果,其中目标语言(西班牙语或英语)中没有注释数据,并且系统依赖于源语言上的多语言对齐嵌入和训练。这个\(火焰{ME}\)该系统在准确度和召回率之间取得了最佳平衡,西班牙语和英语的F值分别为46.31和52.34。然而,多语言BERT和XML-R系统与其他两个系统相去甚远。

表5跨语言实验(零发射)

讨论

在下文中,第一小节(分析)将评论表中所示结果的主要特征45接下来,我们将尝试检查结果,并了解不同模型中获得的主要错误、差异和改进。

结果分析

表中的结果4显示了选择正确的表示和预训练嵌入类型如何对结果产生显著影响。在表的上半部分,描述了单语实验,我们发现微调的西班牙语转换语言模型(BETO)没有达到使用BILSTM-CRF基于字符的LM(FLAIR)执行此任务的系统的性能。这是相关的,因为目前许多已实现的系统使用变压器,而BI-LSTM等其他架构不一定要放弃。这与年的实验一致[51]其中,作者得出结论,基于通用变压器的模型并不总是比更简单的方法更好。添加特定于域的静态嵌入,在本例中基于EHR(\(FLAIR_{SkipNG\_EHR}\))虽然它比现有的方法有所改进,但获得的分数略低于在更大的通用语料库上预处理的系统\(火焰{FT}\)\(FLAIR_{Wiki2V}\)这似乎表明,根据知识的性质,包含特定领域的知识的贡献是不平等的;正如许多其他作者已经得出的结论,基于上下文的字符嵌入的泛化效果更好。域内医疗EHR嵌入(\(火焰{LM\_EHR}\))显著提高(超过3分)最佳发布结果(81.00),而静态域内嵌入(\(FLAIR_{SkipNG\_EHR}\))没有显著改善。

表的下部4显示了几种嵌入类型组合时的结果,使用最好的两种(\(FLAIR_{B2}\))或三个(\(火焰{B3}\))嵌入类型(得分分别为86.28分和87.05分)。我们必须注意,组合系统不是训练不同系统的结果,但它们使用单个训练阶段,以不同类型的嵌入作为输入。

关于跨语言实验(见表5)基于MUSE的系统以较低的召回率为代价,获得了西班牙语最高的精确度。基于mBERT的系统和XLM-R系统的召回率较低,而基于Meta-embeddings的系统提供了最佳的F-measure。尽管这些结果在任何应用中都远远没有用处,但它们提供了一条有希望的研究途径。这些结果表明,以无监督的方式对大量文本进行高质量的跨语言嵌入训练,有助于将带注释的知识从一种语言移植到另一种语言,而无需对目标语言进行注释。似乎在一种语言上训练的模型推广到其他语言的潜力取决于语言邻近性等因素,因为我们的案例获得的相对较好的结果与其他作品相比[52]这表明俄英英语迁移对EHR的影响要差得多(英语疾病的F分为3.07\(向右箭头)RU和0.97(RU)\(向右箭头)英语)。

误差分析

我们检查了不同系统的结果,试图阐明每种方法管理的不同类型的信息。6显示了每个模型捕获的不同残疾实例。

表中的第一行给出了一个示例,其中较弱的模型无法正确检测实体,而较强的模型(\(火焰{LM\_EHR}\))在第二行和第三行中,我们看到了更强大的模型通常可以改善较弱模型的结果,尽管在某些情况下存在分歧,如第4行和第5行中\(FLAIR_{Wiki2V}\)模型优于\(FLAIR_{SkipNG\_EHR}\)一个。第6、7和8行提供了使用基于EHR的模型检测到的实体的几个示例。最后,表的最后两行给出了示例,可以利用不同单个模型中包含的综合知识来获得正确的分析。

表6错误分析,单语实验

7使用元嵌入的最佳方法,在跨语言环境中提供正确和错误识别实体的示例(\(火焰{ME}\))和MUSE(\(闪光灯{MUSE}\)). 示例1-3显示了用不同语言(英语)训练的系统如何在应用于不同语言(西班牙语)时仍然有用。其中一个主要原因是,在医学等专业领域,许多术语和单词共享前缀、后缀和中缀,使用字符或分词等子词元素会特别有帮助(-神经、感觉、额、颞、双侧,。。。)这有助于缩小两种语言之间的差距。一般来说,\(闪光灯{MUSE}\)虽然召回率低,但精确度高,而\(火焰{ME}\)在精确性和召回率之间取得更好的平衡。第6行和第7行给出了两个系统都失败的例子,我们可以看到在这些例子中,英语和西班牙语之间的差异是如何更大的,这可能是失败的原因。

表7错误分析、跨语言实验(在部分匹配的情况下,重叠范围以粗体显示)

除了检查表中所示的正确术语之外7,我们还检查了由\(火焰{ME}\)系统(假阳性):

  • patologías auditivas公司(听觉病理学)

  • 可能的虚构认知(可能的认知缺陷)

  • 人的认知功能(认知功能较差)

  • 帕拉利斯核上性进展(进行性核上性麻痹)

  • 双极晶体管(双相情感障碍)

我们可以看到,即使这些实体与残疾并不完全对应,它们也是疾病的实例,可以在语义上靠近残疾,并显示跨语言嵌入如何在某种意义上传达与疾病相关的含义。然而,在其他情况下,当某些实体对应于非负面质量时,系统会错误地将其标记为残疾,例如潜在残疾。”可能的认知缺陷“或在测试和测量中(”Se evaluel函数对认知的影响)”.

结论

在这项工作中,我们测试了不同类型的嵌入粒度(如静态单词嵌入、子单词嵌入和上下文字符嵌入)对西班牙语医学文本中提到的残疾命名实体识别的影响。这显示了语言(西班牙语相对于英语)和子域(与疾病或药物相比,残疾)的低资源场景。我们已经彻底评估了不同深度学习方法的贡献,并研究了每个选项的优缺点。具体来说,我们表明基于字符、段或单词的单词嵌入结构是改进的关键因素。

在单语环境下,我们的系统在西班牙语残疾注释方面显著优于最新技术,使用在临床领域语料库(EHR)上训练的上下文字符嵌入,F度量值为84.43,而最佳报告结果为81.00。我们的实验表明,对于这个任务,微调的西班牙语转换语言模型(BETO)并不一定比基于BILSTM-CRF字符的LM(FLAIR)好。虽然特定领域的知识可以提高结果,但根据知识的性质,其包含的贡献是不平等的;基于上下文特征的嵌入泛化效果更好,而静态域内嵌入远未获得类似的结果。

我们表明,基于动态上下文字符的嵌入具有最佳性能。此外,我们还研究了形成集合的不同嵌入类型的组合,研究它们是传递互补信息还是冗余信息(F-measure为86.77)。在这种情况下,更多并不意味着更好,因为三个最佳嵌入的集合比仅两个最佳嵌入的组合获得的结果最差。

我们还试验了英语和西班牙语之间跨语言迁移(零快照)用于残疾注释的可行性,取得了令人满意的结果。这项工作的目的之一是探索跨语言知识在多大程度上有助于跨类型远距离语言传输医学信息,以克服其中一种语言(本例中为西班牙语)的数据稀缺性,这表明当目标语言中没有注释数据时,这可能是一个很好的起点。

数据和材料的可用性

获得的材料(嵌入式、缩写词和缩写模块以及软件)将根据要求从相应作者处获得。

笔记

  1. https://github.com/gildofabregat/DIANN-IBEREVAL-2018.

  2. https://mlco2.github.io/impact/#home.

工具书类

  1. 世界卫生组织和世界银行。残疾问题世界报告。2011https://www.who.int/disabilities/world_report/2011/report.pdf.

  2. Kinnear D、Morrison J、Allan L、Henderson A、Smiley E、Cooper S-A。患有和不患有唐氏综合征的智力残疾成年人队列中身体状况和多重发病率的患病率:横断面研究。BMJ公开赛。2018https://doi.org/10.1136/bmjopen-2017-018292.

    第条 公共医学 公共医学中心 谷歌学者 

  3. 世界卫生组织。多党制药物安全:技术报告。2019https://www.who.int/publications/i/item/medication-safety-inpolypharmacy-technical-report.

  4. Sutskever I,Vinyals O,Le Q.使用神经网络进行序列到序列学习。收录:神经信息处理系统进展,第27卷。2014

  5. Vaswani A、Shazeer N、Parmar N、Uszkoreit J、Jones L、Gomez A.N、Kaiser L、Polosukhin I。你只需要注意。主题:神经信息处理系统的进展。2017

  6. Jagannatha AN,Yu H.临床文本中基于RNN的序列标记的结构化预测模型。摘自:自然语言处理经验方法会议记录。自然语言处理经验方法会议。2016年,第856–65页。https://doi.org/10.18653/v1/d16-1082.

  7. Névéol A、Dalianis H、Velupillai S、Savova G、Zweigenbaum P。非英语语言的临床自然语言处理:机遇与挑战。《生物医学杂志》。2018;9(1):1–13.

    第条 谷歌学者 

  8. Casillas A、Ezeiza N、Goenaga I、Perez A、Soto X。测量不同类型的无监督单词表示对医学命名实体识别的影响。国际医学杂志。2019https://doi.org/10.1016/j.ijmedinf.2019.05.022.

    第条 公共医学 谷歌学者 

  9. Weegar R、Perez A、Casillas A、Oronoz M。使用深层神经方法在临床文本中识别瑞典和西班牙医学实体的最新进展。BMC Med通知Decis Mak。2020https://doi.org/10.1186/s12911-019-0981-y.

    第条 谷歌学者 

  10. Perez A、Weegar R、Casillas A、Gojenola K、Oronoz M、Dalianis H.半监督医疗实体识别:对西班牙和瑞典临床语料库的研究。J生物识别信息。2017https://doi.org/10.1016/j.jbi.2017.05.009.

    第条 公共医学 谷歌学者 

  11. Zhang Y,Wang X,Hou Z,Li J.通过机器学习方法从中文电子健康记录中识别临床命名实体。JMIR医学信息。2018https://doi.org/10.2196/medinform.9965.

    第条 公共医学 公共医学中心 谷歌学者 

  12. Campillos Llanos L、Valverde Mateos A、Capllonch Carrión A、Moreno Sandoval A。一个用UMLS实体注释的临床试验语料库,以加强循证医学的获取。BMC Med Inform Decis Mak公司。2021;21(1):1–19.

    谷歌学者 

  13. Oronoz M、Gojenola K、Pérez A、Díaz de Ilarraza A、Casillas A。关于创建西班牙语临床金标准语料库:挖掘药物不良反应。J生物识别信息。2015;56:1.https://doi.org/10.1016/j.jbi.2015.06.016.

    第条 谷歌学者 

  14. Fabrega H,Martínez-Romo J,Araujo L.了解并改进医疗文件中的残疾识别。IEEE接入。2020https://doi.org/10.109/ACCESS.2020.301917.

    第条 谷歌学者 

  15. Tjong Kim Sang EF,De Meulder F.CoNLL-2003共享任务简介:独立于语言的命名实体识别。摘自:HLT-NAACL第七届自然语言学习会议记录。2003年,第142-7页。https://www.aclweb.org/antology/W03-0419.

  16. Vapnik V.统计学习理论的本质。柏林:施普林格;1995

     谷歌学者 

  17. Lafferty JD,McCallum A,Pereira F.条件随机场:分割和标记序列数据的概率模型。摘自:第十八届机器学习国际会议论文集。2004年,第282-9页。

  18. Collins M.隐马尔可夫模型的判别训练方法:感知机算法的理论和实验。摘自:2002年自然语言处理经验方法会议记录(EMNLP 2002)。2002年,第1-8页。https://www.aclweb.org/antology/W02-1001.

  19. 罗萨里奥B,赫斯特M。生物科学文本中语义关系的分类。收录:计算语言学协会第42届年会会议记录(ACL-04)。2004年,第430-7页。https://doi.org/10.1115/1218955.1219010.

  20. Uzuner O,South BR,Shen S,DuVall SL.2010 i2b2/VA对临床文本中概念、断言和关系的挑战。贾米亚。2011https://doi.org/10.1136/amiajnl-2011-000203.

    第条 公共医学 公共医学中心 谷歌学者 

  21. Goodfellow I、Bengio Y、Courville A.深度学习。剑桥:麻省理工学院出版社;2016

    谷歌学者 

  22. Goldberg Y,Hirst G.自然语言处理中的神经网络方法。圣拉斐尔:摩根&克莱普尔出版社;2017

     谷歌学者 

  23. 唐丹,秦波,刘涛。基于门限递归神经网络的情感分类文档建模。摘自:2015年自然语言处理实证方法会议记录。2015年,第1422–32页。https://doi.org/10.18653/v1/D15-1167.

  24. Hochreiter S,Schmidhuber J.长期短期记忆。神经计算。1997https://doi.org/10.1162/neco.1997.9.8.1735.

    第条 公共医学 谷歌学者 

  25. Kim Y.用于句子分类的卷积神经网络。摘自:2014年自然语言处理实证方法会议记录。2014年,第1746–51页。https://doi.org/10.115/v1/D14-1181.

  26. Vaswani A、Shazeer N、Parmar N、Uszkoreit J、Jones L、Gomez A、Kaiser L、Polosukhin I。你只需要注意。摘自:NIPS’17:第31届神经信息处理系统国际会议记录。2017年,第6000-10页。

  27. Mikolov T,Chen K,Corrado G,Dean J.向量空间中单词表示的有效估计。参加:学习表现国际会议。2013arxiv:abs/1301.3781.

  28. Chen K,Socher R,Manning C.GloVe:单词表示的全局向量。In:自然语言处理中的经验方法(EMNLP)。2014http://www.aclweb.org/antology/D14-1162.

  29. Mikolov T,Grave E,Bojanowski P,Puhrsch C,Joulin A.分布式单词表征预训练的进展。摘自:语言资源与评估国际会议记录(LREC 2018)。2018https://www.aclweb.org/antology/L18-1008.

  30. Lample G,Ballesteros M,Subramanian S,Kawakami K,Dyer C.命名实体识别的神经架构。摘自:计算语言学协会北美分会2016年会议记录:人类语言技术。2016年,第260-70页。https://doi.org/10.18653/v1/N16-1030.

  31. Ma X,Hovy E.通过双向LSTM-CNNs-CRF进行端到端序列标记。收录:计算语言学协会第54届年会会议记录(第1卷:长篇论文)。2016年,第1064–74页。https://doi.org/10.18653/v1/P16-1101.

  32. Sennrich R,Haddow B,Birch A.使用子单词单位的罕见单词的神经机器翻译。收录:计算语言学协会第54届年会会议记录(第1卷:长篇论文)。2016年,第1715–25页。https://doi.org/10.18653/v1/P16-1162.

  33. Heinzerling B,Strube M.BPEmb:275种语言中的无标记预处理子单词嵌入。摘自:语言资源与评估国际会议记录(LREC 2018)。2018https://www.aclweb.org/antology/L18-1473.

  34. Artetxe M,Schwenk H。大规模多语种句子嵌入,用于零快照跨语言迁移及其他。收录:计算语言学协会学报。597–610. 2019https://doi.org/10.1162/tacl_a_00288.

  35. Hochreiter S,Schmidhuber J.长期短期记忆。神经计算。1997;9:1735–80.https://doi.org/10.1162/neco.1997.9.8.1735.

    第条 中国科学院 公共医学 谷歌学者 

  36. Peters P、Neumann M、Iyyer M、Gardner M、Clark C、Lee K、Zettlemoyer L.深入语境化的词语表征。摘自:计算语言学协会北美分会2018年会议记录:人类语言技术,第1卷(长篇论文)。2018年,第2227-37页。https://doi.org/10.18653/v1/N18-1202.

  37. Akbik A、Blythe D、Vollgraf R.序列标记的上下文字符串嵌入。摘自:第27届计算语言学国际会议论文集。2018年,第1638–49页。https://www.aclweb.org/antology/C18-1139.

  38. Akbik A、Bergmann T、Blythe D、Rasul K、Schweter S、Vollgraf R.FLAIR:最新NLP的易用框架。摘自:计算语言学协会北美分会2019年会议记录(演示)。2019年,第54–9页。https://doi.org/10.18653/v1/N19-4010.

  39. Goenaga I、Atutxa A、Gojenola K、Casillas A、Diaz de Ilarraza A、Ezeiza N、Oronoz M、Perez A、Perez-de Viñaspre O。自动残疾注释的混合方法。参见:伊比利亚语言人类语言技术评估第三次研讨会会议记录(IberEval 2018)。2018年,第31–6页。

  40. Fabrega H,Duque A,Martinez-Romo J,Araujo L.用于改进生物医学命名实体识别和关系提取的基于否定的迁移学习。J生物识别信息。2023https://doi.org/10.1016/j.jbi.2022.104279.

    第条 公共医学 谷歌学者 

  41. Casillas A、Ezeiza N、Goenaga I、Pérez A、Soto S。测量不同类型的无监督单词表征对医学命名实体识别的影响。国际医学杂志。2019;129:100–6.https://doi.org/10.1016/j.ijmedinf.2019.05.022.

    第条 公共医学 谷歌学者 

  42. Yamada I、Asai A、Sakuma J、Shindo H、Takeda H、Take fuji Y、Matsumoto Y。Wikipedia2Vec:一个有效的工具包,用于学习和可视化维基百科中单词和实体的嵌入。摘自:2020年自然语言处理实证方法会议记录:系统演示。2020https://doi.org/10.18653/v1/2020。emnlp-demos。4.

  43. Ling W、Tsvetkov Y、Amir A、Fernandez R、Dyer C、Black AW、Trancoso I、Lin C。并非所有上下文都是平等的:不同注意力的更好的单词表达。摘自:2015年自然语言处理实证方法会议记录。2015年,第1367–1372页。https://doi.org/10.18653/v1/D15-1161.

  44. Cañete J、Chaperon G、Fuentes R、Ho J、Kang H、Pérez J。西班牙预处理BERT模型和评估数据。ICLR的PML4DC。2020

  45. Devlin J,Chang M,Lee K,Toutanova K。BERT:用于语言理解的深层双向变压器的预培训。摘自:计算语言学协会北美分会2019年会议记录:人类语言技术,第1卷(长篇和短篇论文)。2019年,第4171–86页。https://doi.org/10.18653/v1/N19-1423.

  46. Lample G、Conneau A、Ranzato M、Denoyer L、Jégou H。无平行数据的单词翻译。参加:学习表现国际会议。2018https://openreview.net/forum?id=H196sainb.

  47. García I,Agerri R,Rigau G.单语和跨语元嵌入的共同语义空间。在:CoRR.2020。arxiv:abs/2001.06381.

  48. Conneau A、Khandelwal K、Goyal N、Chaudhary V、Wenzek G、GuzmáN F、Grave E、Ott M、Zettlemoyer L、Stoyanov V。预训练语言模型中新兴的跨语言结构。收录:计算语言学协会第58届年会会议记录。2020年,第6022–34页。https://doi.org/10.18653/v1/2020.acl-main.536.

  49. Fabrega H,Martínez-Romo J,Araujo L。DIANN任务概述:残疾注释任务。致:会议记录IberEval@SEPLN公司。2018http://ceur-ws.org/Vol-2150/overview-diann-task.pdf.

  50. Reimers N,Gurevych I.报告分数分布会有所不同:用于序列标记的LSTM网络的性能研究。摘自:2017年自然语言处理实证方法会议记录。丹麦哥本哈根,9月7-11日。2017年,第338-48页。

  51. Alekseev A、Miftahutdinov Z、Tutubalina E、Shelmanov A、Ivanov V、Kokh V.Nesterov A、Avetisian M、Chertok A、Nikolenko S。医学交叉:临床实体链接的跨语言评估。收录:2022年第十三届语言资源和评估会议记录,欧洲语言资源协会。https://aclantology.org/2022.lrec-1.447.

  52. Miftahutdinov Z、Alimova I、Tutubalina E。生物医学命名实体识别:临床和社交媒体文本的语际迁移实验。参加:欧洲信息检索会议。LNCS公司。2020

下载参考资料

致谢

不适用。

基金

这项工作的部分资金由西班牙科学与创新部(MCI/AEI/FEDER,UE,DOTT-HEALTH/PAT-MED PID2019-106942RB-C31)、巴斯克政府(IXA IT1570-22)、MCIN/AEI/10.13039/501100011033和欧盟下一代EU/PRTR(DeepR3,TED2021-130295B-C31)提供以及欧盟ERA-Net CHIST-ERA和西班牙研究机构(ANTIDOTE PCI2020-120717-2)。

作者信息

作者和附属机构

作者

贡献

AA和KG设计了这项研究,并参与了实验设置。IG进行了实验并起草了手稿。EA和KG在结果解释方面进行了合作。IG、EA和AA审查并编辑了手稿。所有作者阅读并批准了最终手稿。

通讯作者

与的通信科尔多·戈杰诺拉.

道德声明

道德批准和参与同意

不适用。

出版同意书

不适用。

竞争性利益

作者声明没有相互竞争的利益。

其他信息

出版说明

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,只要您对原始作者和来源给予适当的信任,提供指向Creative Commons许可证的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中,除非材料的信用额度中另有说明。如果文章的知识共享许可证中没有包含材料,并且您的预期用途不被法律法规允许或超出了允许的用途,则您需要直接获得版权所有者的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非数据的信贷额度中另有规定。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Goenaga,I.,Andres,E.,Gojenola,K。等。西班牙语单语和跨语言自动残疾注释的进展。BMC生物信息学 24, 265 (2023). https://doi.org/10.1186/s12859-023-05372-3

下载引文

  • 收到以下为:

  • 认可的以下为:

  • 出版以下为:

  • 内政部以下为:https://doi.org/10.1186/s12859-023-05372-3

关键词