计算机科学>计算与语言
标题: EriBERTa:一种用于临床自然语言处理的双语预训练语言模型
摘要: 将临床报告用于各种次要目的,包括健康研究和治疗监测,对于加强患者护理至关重要。 自然语言处理(NLP)工具已成为从这些报告中提取和处理相关信息的宝贵资产。 然而,西班牙语临床领域专用语言模型的可用性有限。 本文介绍了EriBERTa,一种在广泛的医学和临床语料库上预先训练的双语领域特定语言模型。 我们证明,EriBERTa在临床领域优于以前的西班牙语模型,显示了它在理解医学文本和提取有意义信息方面的卓越能力。 此外,埃里伯塔展示了良好的迁移学习能力,允许知识从一种语言转移到另一种语言。 鉴于西班牙临床数据的稀缺性,这一点尤其有益。