D类第页BERT(误码率):中的稳健预训练模型F类生物医学和临床领域

亚尼斯·拉布拉克,阿德里安·巴佐格,理查德·杜福尔,米克尔·鲁维尔,艾曼纽尔·莫林,贝亚特里·戴勒,皮埃尔·安托因·古拉德


摘要
近年来,预训练语言模型(PLM)在广泛的自然语言处理(NLP)任务中取得了最佳性能。虽然第一个模型是基于一般领域数据进行训练的,但出现了更有效地处理特定领域的专门模型。在本文中,我们提出了一项关于法语医学领域PLM的原创性研究。我们首次比较了基于网络公共数据和医疗机构私人数据训练的PLM的性能。我们还评估了一组生物医学任务的不同学习策略。特别是,我们表明,通过进一步对目标数据进行预处理,我们可以利用外语中已有的生物医学PLM。最后,我们发布了法语生物医学领域的第一个专用PLM,称为DrBERT,以及在免费许可下训练这些模型的最大医学数据语料库。
选集ID:
2023.acl长896
体积:
计算语言学协会第61届年会论文集(第一卷:长篇论文)
月份:
七月
年份:
2023
地址:
加拿大多伦多
编辑:
安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直(Naoaki Okazaki)
地点:
国际计算语言学协会
SIG公司:
发布者:
计算语言学协会
注:
页:
16207–16221
语言:
网址:
https://aclantology.org/2023.acl-long.896
DOI(操作界面):
10.18653/v1/2023.acl长896
比比键:
引用(ACL):
亚尼斯·拉布拉克(Yanis Labrak)、阿德里安·巴佐奇(Adrien Bazoge)、理查德·杜福尔(Richard Dufour)、米凯尔·罗维尔(Mickael Rouvier)、艾曼纽尔·莫林(Emmanuel Morin)、贝亚特里斯·戴耶(Béatrice Daille)和皮。2023DrBERT:用于生物医学和临床领域的法语稳健预训练模型.英寸计算语言学协会第61届年会论文集(第一卷:长篇论文),第16207–16221页,加拿大多伦多。计算语言学协会。
引用(非正式):
DrBERT:用于生物医学和临床领域的法语稳健预训练模型(Labrak等人,ACL 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.acl-long.896.pdf
视频:
 https://aclantology.org/2023.acl-long.896.mp4