DrBERT: A Robust Pre-trained Model in French for Biomedical and Clinical domains

Yanis Labrak; Adrien Bazoge; Richard Dufour; Mickaël Rouvier; Emmanuel Morin; Béatrice Daille; Pierre-Antoine Gourraud

doi:10.18653/v1/2023.acl-long.896

D类第页BERT（误码率）：中的稳健预训练模型F类生物医学和临床领域

亚尼斯·拉布拉克,阿德里安·巴佐格,理查德·杜福尔,米克尔·鲁维尔,艾曼纽尔·莫林,贝亚特里·戴勒,皮埃尔·安托因·古拉德

摘要

近年来，预训练语言模型（PLM）在广泛的自然语言处理（NLP）任务中取得了最佳性能。虽然第一个模型是基于一般领域数据进行训练的，但出现了更有效地处理特定领域的专门模型。在本文中，我们提出了一项关于法语医学领域PLM的原创性研究。我们首次比较了基于网络公共数据和医疗机构私人数据训练的PLM的性能。我们还评估了一组生物医学任务的不同学习策略。特别是，我们表明，通过进一步对目标数据进行预处理，我们可以利用外语中已有的生物医学PLM。最后，我们发布了法语生物医学领域的第一个专用PLM，称为DrBERT，以及在免费许可下训练这些模型的最大医学数据语料库。

选集ID：: 2023.acl长896
体积：: 计算语言学协会第61届年会论文集（第一卷：长篇论文）
月份：: 七月
年份：: 2023
地址：: 加拿大多伦多
编辑：: 安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直（Naoaki Okazaki）
地点：: 国际计算语言学协会
SIG公司：
发布者：: 计算语言学协会
注：
页：: 16207–16221
语言：
网址：: https://aclantology.org/2023.acl-long.896
DOI（操作界面）：: 10.18653/v1/2023.acl长896
比比键：
引用（ACL）：: 亚尼斯·拉布拉克（Yanis Labrak）、阿德里安·巴佐奇（Adrien Bazoge）、理查德·杜福尔（Richard Dufour）、米凯尔·罗维尔（Mickael Rouvier）、艾曼纽尔·莫林（Emmanuel Morin）、贝亚特里斯·戴耶（Béatrice Daille）和皮。2023DrBERT：用于生物医学和临床领域的法语稳健预训练模型.英寸计算语言学协会第61届年会论文集（第一卷：长篇论文），第16207–16221页，加拿大多伦多。计算语言学协会。
引用（非正式）：: DrBERT：用于生物医学和临床领域的法语稳健预训练模型（Labrak等人，ACL 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.acl-long.896.pdf
视频：: https://aclantology.org/2023.acl-long.896.mp4

PDF格式引用搜索视频