摘要
背景
结果
结论
介绍
相关工作
-
经典的 单词嵌入,如GLOVE或FASTTEXT。 这些作品[ 27 , 28 ]计算超大型语料库上的预训练嵌入,试图捕获潜在的句法和语义相似性。 他们在多项任务中都非常有效。 -
字符级别 嵌入件。 虽然NLP和神经网络的大多数工作都将单词作为基本处理单元,但基于字符的信息很有吸引力,因为(1)字符上下文不如单词上下文稀疏,并且(2)字符可以捕获基于单词的模型无法捕获的细节, 作为前缀和后缀,有助于正确识别词汇表外(OOV)或拼写错误的单词[ 30 ]. -
子单词 使用单个单词作为基本单位,在共享子结构的单词之间放弃有意义的语义结构。 因此,除了基于字符的模型外,字节对编码(BPE)这一压缩算法还被用于机器翻译和文本处理等多种应用中[ 32 , 33 ]. 科技领域,如科学和医学文献,由前缀、后缀、词根以及复合词、同源词和借词等子词结构组成单词。 例如, 神经纤维瘤病 这是一个复杂的词,可以归类为一个未知的OOV词,通过看它的词缀可以给它一个含义 神经的- 和 -肺病 ,并将其归类为与神经元相关的疾病,如果以这些子单词为单位计算嵌入。 -
多语言 嵌入件。 它们提供了一种跨不同语言传递和共享知识的方法,从而将信息从资源较多的语言移植到资源不足的语言[ 34 ]. 主要有两种方法: -
同时使用多种语言对单个语言模型(LM)进行训练,从而可以利用更大的训练语料库。 通过这种方式,可以应用跨语言学习,在其中一种语言中对跨语言模型进行微调,然后在没有其他语言训练数据的零快照场景中使用。 -
通过线性变换和双语词典,独立训练每种语言的嵌入,并在公共空间中进行后向对齐。 其主要思想是使用迭代对齐方法学习从源空间到目标空间的映射,从而给出多语言表示
-
-
相继的 体系结构[ 35 ]. 这些系统首次实现突破[ 30 ]在NER任务中,通过应用于序列标记的神经网络,使用双向BiLSTM体系结构,然后使用条件随机字段层(CRF),该层对联合标记依赖性进行建模,大大超过了以前的技术水平。 他们将预先训练好的单词嵌入作为额外的训练输入,将字符嵌入内部用于检测前缀和后缀。 我们可以根据上下文区分两种主要类型:(a)静态嵌入。 这是第一种型号[ 30 , 31 ]它使用了预先训练好的单词嵌入。 尽管这些结果改进了当前最好的系统,但一个缺点是,使用这种方法,每个单词形式都被分配了一个单独的向量,其中包含独立于上下文的表示。 (b) 上下文化或 动态 嵌入件[ 36 , 37 , 38 ]捕获上下文中的语义以解决单词的多义性和上下文依赖性。 这些动态嵌入是在考虑上下文的情况下计算的,也就是说,同一个单词可以根据其上下文接收不同的嵌入。 -
基于转换器 体系结构[ 26 ]使用注意机制解释每个单词的上下文。 在递归神经网络或LSTM中,过去元素的重要性会随着距离的增加而消失。 使用变换器,而不是按顺序应用相同的网络,其思想是将当前标记连接到所有元素(前元素和后元素),其中每个元素都有一个连接到它的位置嵌入。目的是在当前单词的处理中结合上下文, 通过一种机制来衡量每个上下文词与当前上下文词的相关性。 这种技术产生了最先进的模型,同时由于更容易并行化,减少了训练时间。
材料和方法
资源
DIANN注释语料库
嵌入
-
FASTTEXT预埋[ 29 ],在西班牙维基百科(797 M令牌)和CommonCrawl(72000 M令牌)上接受培训。 -
Wikipedia2Vec预着色嵌入[ 42 ]来自维基百科的单词和实体。 此工具使用户能够学习以Wikipedia转储文件作为参数的嵌入。 -
跳过NGram单词嵌入[ 43 ]根据西班牙EHR语料库进行训练。 为了更好地为EHR中包含的语言建模,我们训练了自己的LM。 虽然这个语料库比以前的语料库小,但它具有包含领域内文本的优点,这对许多任务都有帮助。 -
从西班牙EHR语料库训练出的天才语境化字符嵌入[ 38 ]. -
基于变压器的LM[ 44 ]. BETO是BERT[ 45 ]该模型在一个大型通用西班牙语语料库(维基百科和新闻等)上进行训练,其大小与BERT-Base相似,并使用整词屏蔽技术进行训练。
-
MUSE公司[ 46 ]是一个图书馆,旨在通过大规模高质量双语词典,在公共空间中提供最先进的多语言静态单词嵌入(FASTTEXT嵌入)。 -
金属嵌件[ 47 ]集成从文本或知识库等互补源创建的多个单词嵌入,使用线性变换和平均将单词向量投影到公共语义空间。 对于英语,它们结合了谷歌新闻(1000亿单词)中的Word2Vec嵌入、通用爬行(6000亿单词)的GloVe和FastText嵌入,而对于西班牙语,它们使用在西班牙语十亿单词语料库(14亿单词)上训练的向量。 -
多语言BERT(mBERT)为104种语言提供了上下文嵌入表示,已应用于许多多语言或跨语言任务[ 45 ]. -
XLM-RoBERTa(XLM-R)[ 48 ]是一个基于transformer的语言模型,基于子词嵌入,在100种语言的通用领域文本上进行预训练。
深度学习:单语和多语言方法
上下文化字符串嵌入
-
文本被建模为以下序列 字符 而不是使用标准的顺序BiLSTM-CRF模型的单词。 这种激进的方法可以更好地处理OOV和拼写错误的单词以及前缀和后缀等子结构。 即使系统基于字符嵌入,它也能够为任何字符串生成嵌入[ 37 ]. 例如,可以将单词建模为前向LM中单词中最后一个字符后的输出隐藏状态与后向LM中词中第一个字符的隐藏状态的串联。 -
对大型未标记语料库进行预处理的能力。 通过这种方式,我们可以利用在大量文本(如BERT嵌入)上计算的预处理LM嵌入[ 45 ]、ELMo埋件[ 36 ],FASTEXT嵌入[ 29 ]或Flair嵌入件[ 37 ])或者根据每个用户自己的未注释数据生成新的LM。 通过第二轮关于最终目标的培训,这些一般的预训练LM(也称为堆叠嵌入)可以针对特定任务进行微调,并取得成功。 -
由于嵌入是上下文的,它们捕捉上下文中的词义,根据多义词的用法产生不同的嵌入。
多语言变压器
缩写词检测模块
实验设置
结果
讨论
结果分析
误差分析
-
patologías auditivas公司 (听觉病理学) -
可能的虚构认知 (可能的认知缺陷) -
人的认知功能 (认知功能较差) -
帕拉利斯核上性进展 (进行性核上性麻痹) -
双极晶体管 (双相情感障碍)
结论
数据和材料的可用性
工具书类
世界卫生组织和世界银行。 残疾问题世界报告。 2011 https://www.who.int/disabilities/world_report/2011/report.pdf . Kinnear D、Morrison J、Allan L、Henderson A、Smiley E、Cooper S-A。患有和不患有唐氏综合征的智力残疾成年人队列中身体状况和多重发病率的患病率:横断面研究。 BMJ公开赛。 2018 https://doi.org/10.1136/bmjopen-2017-018292 . 世界卫生组织。 多党制药物安全:技术报告。 2019 https://www.who.int/publications/i/item/medication-safety-inpolypharmacy-technical-report . Sutskever I,Vinyals O,Le Q.使用神经网络进行序列到序列学习。 收录:神经信息处理系统进展,第27卷。 2014 Vaswani A、Shazeer N、Parmar N、Uszkoreit J、Jones L、Gomez A.N、Kaiser L、Polosukhin I。你只需要注意。 主题:神经信息处理系统的进展。 2017 Jagannatha AN,Yu H.临床文本中基于RNN的序列标记的结构化预测模型。 摘自:自然语言处理经验方法会议记录。 自然语言处理经验方法会议。 2016年,第856–65页。 https://doi.org/10.18653/v1/d16-1082 . Névéol A、Dalianis H、Velupillai S、Savova G、Zweigenbaum P。非英语语言的临床自然语言处理:机遇与挑战。 《生物医学杂志》。 2018; 9(1):1–13. Casillas A、Ezeiza N、Goenaga I、Perez A、Soto X。测量不同类型的无监督单词表示对医学命名实体识别的影响。 国际医学杂志。 2019 https://doi.org/10.1016/j.ijmedinf.2019.05.022 . Weegar R、Perez A、Casillas A、Oronoz M。使用深层神经方法在临床文本中识别瑞典和西班牙医学实体的最新进展。 BMC Med通知Decis Mak。 2020 https://doi.org/10.1186/s12911-019-0981-y . Perez A、Weegar R、Casillas A、Gojenola K、Oronoz M、Dalianis H.半监督医疗实体识别:对西班牙和瑞典临床语料库的研究。 J生物识别信息。 2017 https://doi.org/10.1016/j.jbi.2017.05.009 . Zhang Y,Wang X,Hou Z,Li J.通过机器学习方法从中文电子健康记录中识别临床命名实体。 JMIR医学信息。 2018 https://doi.org/10.2196/medinform.9965 . Campillos Llanos L、Valverde Mateos A、Capllonch Carrión A、Moreno Sandoval A。一个用UMLS实体注释的临床试验语料库,以加强循证医学的获取。 BMC Med Inform Decis Mak公司。 2021; 21(1):1–19. Oronoz M、Gojenola K、Pérez A、Díaz de Ilarraza A、Casillas A。关于创建西班牙语临床金标准语料库:挖掘药物不良反应。 J生物识别信息。 2015; 56:1. https://doi.org/10.1016/j.jbi.2015.06.016 . Fabrega H,Martínez-Romo J,Araujo L.了解并改进医疗文件中的残疾识别。 IEEE接入。 2020 https://doi.org/10.109/ACCESS.2020.301917 . Tjong Kim Sang EF,De Meulder F.CoNLL-2003共享任务简介:独立于语言的命名实体识别。 摘自:HLT-NAACL第七届自然语言学习会议记录。 2003年,第142-7页。 https://www.aclweb.org/antology/W03-0419 . Vapnik V.统计学习理论的本质。 柏林:施普林格; 1995 Lafferty JD,McCallum A,Pereira F.条件随机场:分割和标记序列数据的概率模型。 摘自:第十八届机器学习国际会议论文集。 2004年,第282-9页。 Collins M.隐马尔可夫模型的判别训练方法:感知机算法的理论和实验。 摘自:2002年自然语言处理经验方法会议记录(EMNLP 2002)。 2002年,第1-8页。 https://www.aclweb.org/antology/W02-1001 . 罗萨里奥B,赫斯特M。生物科学文本中语义关系的分类。 收录:计算语言学协会第42届年会会议记录(ACL-04)。 2004年,第430-7页。 https://doi.org/10.1115/1218955.1219010 . Uzuner O,South BR,Shen S,DuVall SL.2010 i2b2/VA对临床文本中概念、断言和关系的挑战。 贾米亚。 2011 https://doi.org/10.1136/amiajnl-2011-000203 . Goodfellow I、Bengio Y、Courville A.深度学习。 剑桥:麻省理工学院出版社; 2016 Goldberg Y,Hirst G.自然语言处理中的神经网络方法。 圣拉斐尔:摩根&克莱普尔出版社; 2017 唐丹,秦波,刘涛。基于门限递归神经网络的情感分类文档建模。 摘自:2015年自然语言处理实证方法会议记录。 2015年,第1422–32页。 https://doi.org/10.18653/v1/D15-1167 . Hochreiter S,Schmidhuber J.长期短期记忆。 神经计算。 1997 https://doi.org/10.1162/neco.1997.9.8.1735 . Kim Y.用于句子分类的卷积神经网络。 摘自:2014年自然语言处理实证方法会议记录。 2014年,第1746–51页。 https://doi.org/10.115/v1/D14-1181 . Vaswani A、Shazeer N、Parmar N、Uszkoreit J、Jones L、Gomez A、Kaiser L、Polosukhin I。你只需要注意。 摘自:NIPS’17:第31届神经信息处理系统国际会议记录。 2017年,第6000-10页。 Mikolov T,Chen K,Corrado G,Dean J.向量空间中单词表示的有效估计。 参加:学习表现国际会议。 2013 arxiv:abs/1301.3781 . Chen K,Socher R,Manning C.GloVe:单词表示的全局向量。 In:自然语言处理中的经验方法(EMNLP)。 2014 http://www.aclweb.org/antology/D14-1162 . Mikolov T,Grave E,Bojanowski P,Puhrsch C,Joulin A.分布式单词表征预训练的进展。 摘自:语言资源与评估国际会议记录(LREC 2018)。 2018 https://www.aclweb.org/antology/L18-1008 . Lample G,Ballesteros M,Subramanian S,Kawakami K,Dyer C.命名实体识别的神经架构。 摘自:计算语言学协会北美分会2016年会议记录:人类语言技术。 2016年,第260-70页。 https://doi.org/10.18653/v1/N16-1030 . Ma X,Hovy E.通过双向LSTM-CNNs-CRF进行端到端序列标记。 收录:计算语言学协会第54届年会会议记录(第1卷:长篇论文)。 2016年,第1064–74页。 https://doi.org/10.18653/v1/P16-1101 . Sennrich R,Haddow B,Birch A.使用子单词单位的罕见单词的神经机器翻译。 收录:计算语言学协会第54届年会会议记录(第1卷:长篇论文)。 2016年,第1715–25页。 https://doi.org/10.18653/v1/P16-1162 . Heinzerling B,Strube M.BPEmb:275种语言中的无标记预处理子单词嵌入。 摘自:语言资源与评估国际会议记录(LREC 2018)。 2018 https://www.aclweb.org/antology/L18-1473 . Artetxe M,Schwenk H。大规模多语种句子嵌入,用于零快照跨语言迁移及其他。 收录:计算语言学协会学报。 597–610. 2019 https://doi.org/10.1162/tacl_a_00288 . Hochreiter S,Schmidhuber J.长期短期记忆。 神经计算。 1997; 9:1735–80. https://doi.org/10.1162/neco.1997.9.8.1735 . Peters P、Neumann M、Iyyer M、Gardner M、Clark C、Lee K、Zettlemoyer L.深入语境化的词语表征。 摘自:计算语言学协会北美分会2018年会议记录:人类语言技术,第1卷(长篇论文)。 2018年,第2227-37页。 https://doi.org/10.18653/v1/N18-1202 . Akbik A、Blythe D、Vollgraf R.序列标记的上下文字符串嵌入。 摘自:第27届计算语言学国际会议论文集。 2018年,第1638–49页。 https://www.aclweb.org/antology/C18-1139 . Akbik A、Bergmann T、Blythe D、Rasul K、Schweter S、Vollgraf R.FLAIR:最新NLP的易用框架。 摘自:计算语言学协会北美分会2019年会议记录(演示)。 2019年,第54–9页。 https://doi.org/10.18653/v1/N19-4010 . Goenaga I、Atutxa A、Gojenola K、Casillas A、Diaz de Ilarraza A、Ezeiza N、Oronoz M、Perez A、Perez-de Viñaspre O。自动残疾注释的混合方法。 参见:伊比利亚语言人类语言技术评估第三次研讨会会议记录(IberEval 2018)。 2018年,第31–6页。 Fabrega H,Duque A,Martinez-Romo J,Araujo L.用于改进生物医学命名实体识别和关系提取的基于否定的迁移学习。 J生物识别信息。 2023 https://doi.org/10.1016/j.jbi.2022.104279 . Casillas A、Ezeiza N、Goenaga I、Pérez A、Soto S。测量不同类型的无监督单词表征对医学命名实体识别的影响。 国际医学杂志。 2019; 129:100–6. https://doi.org/10.1016/j.ijmedinf.2019.05.022 . Yamada I、Asai A、Sakuma J、Shindo H、Takeda H、Take fuji Y、Matsumoto Y。Wikipedia2Vec:一个有效的工具包,用于学习和可视化维基百科中单词和实体的嵌入。 摘自:2020年自然语言处理实证方法会议记录:系统演示。 2020 https://doi.org/10.18653/v1/2020。emnlp-demos。4 . Ling W、Tsvetkov Y、Amir A、Fernandez R、Dyer C、Black AW、Trancoso I、Lin C。并非所有上下文都是平等的:不同注意力的更好的单词表达。 摘自:2015年自然语言处理实证方法会议记录。 2015年,第1367–1372页。 https://doi.org/10.18653/v1/D15-1161 . Cañete J、Chaperon G、Fuentes R、Ho J、Kang H、Pérez J。西班牙预处理BERT模型和评估数据。 ICLR的PML4DC。 2020 Devlin J,Chang M,Lee K,Toutanova K。BERT:用于语言理解的深层双向变压器的预培训。 摘自:计算语言学协会北美分会2019年会议记录:人类语言技术,第1卷(长篇和短篇论文)。 2019年,第4171–86页。 https://doi.org/10.18653/v1/N19-1423 . Lample G、Conneau A、Ranzato M、Denoyer L、Jégou H。无平行数据的单词翻译。 参加:学习表现国际会议。 2018 https://openreview.net/forum?id=H196sainb . García I,Agerri R,Rigau G.单语和跨语元嵌入的共同语义空间。 在:CoRR.2020。 arxiv:abs/2001.06381 . Conneau A、Khandelwal K、Goyal N、Chaudhary V、Wenzek G、GuzmáN F、Grave E、Ott M、Zettlemoyer L、Stoyanov V。预训练语言模型中新兴的跨语言结构。 收录:计算语言学协会第58届年会会议记录。 2020年,第6022–34页。 https://doi.org/10.18653/v1/2020.acl-main.536 . Fabrega H,Martínez-Romo J,Araujo L。DIANN任务概述:残疾注释任务。 致:会议记录 IberEval@SEPLN公司。 2018 http://ceur-ws.org/Vol-2150/overview-diann-task.pdf . Reimers N,Gurevych I.报告分数分布会有所不同:用于序列标记的LSTM网络的性能研究。 摘自:2017年自然语言处理实证方法会议记录。 丹麦哥本哈根,9月7-11日。 2017年,第338-48页。 Alekseev A、Miftahutdinov Z、Tutubalina E、Shelmanov A、Ivanov V、Kokh V.Nesterov A、Avetisian M、Chertok A、Nikolenko S。医学交叉:临床实体链接的跨语言评估。 收录:2022年第十三届语言资源和评估会议记录,欧洲语言资源协会。 https://aclantology.org/2022.lrec-1.447 . Miftahutdinov Z、Alimova I、Tutubalina E。生物医学命名实体识别:临床和社交媒体文本的语际迁移实验。 参加:欧洲信息检索会议。 LNCS公司。 2020