精细化深度学习语言模型的比较分析ICD公司-10分类任务B类奥尔良语

鲍里斯·维利奇科夫,西尔维亚·瓦西列娃,西蒙·格吉诺夫,鲍里斯·克莱切夫,伊瓦洛·伊万诺夫,菲利普·伊万诺夫,伊万·科切夫,斯维特拉·博伊切娃


摘要
将自动诊断编码为标准医学分类和本体的任务在医学中非常重要,这既可以支持医生编写和报告临床文档的日常任务,也可以自动处理临床报告。本文研究了不同深度学习变换器在保加利亚临床文本ICD-10自动编码中的应用和性能。对比分析试图找出哪种方法更有效地用于微调预处理BERT系列变压器,以处理保加利亚语这一罕见语言的特定领域术语。一方面是使用SlavicBERT和MultiligualBERT,这两种语言已经过保加利亚通用词汇的预训练,但缺乏医学术语。另一方面,在分析中使用了BioBERT、ClinicalBERT、SapBERT、BlueBERT,它们是针对英语医学术语进行预训练的,但缺乏保加利亚语语言模型的训练,更多的是针对西里尔语词汇。在我们的研究中,所有BERT模型都与保加利亚语的其他医学文本进行了微调,然后应用于分类任务,将保加利亚语的医学诊断编码为ICD-10代码。分类任务使用带有ICD-10代码注释的保加利亚大型诊断语料库。这样的分析很好地说明了哪些模型适合于类似类型和领域的任务。实验和评估结果表明,这两种方法具有相当的准确性。
选集ID:
2021.兰普-1.162
体积:
自然语言处理最新进展国际会议记录(RANLP 2021)
月份:
九月
年份:
2021
地址:
在线保留
编辑:
鲁斯兰·米特科夫,加利亚·安吉洛娃
地点:
兰普
信号:
出版商:
收入有限公司。
注:
页:
1448–1454
语言:
网址:
https://aclantology.org/2021.ranlp-1.162
DOI(操作界面):
比比键:
引用(ACL):
鲍里斯·维利奇科夫(Boris Velichkov)、西尔维亚·瓦西列娃(Sylvia Vassileva)、西蒙·格尔吉尼诺夫(Simeon Gerginov)、鲍里斯·克莱切夫(Boris-Kraychev)、伊瓦约洛·伊万诺夫(Ivaylo Ivanov)、菲利普·伊万诺夫(Philip I。2021保加利亚语ICD-10分类任务的微调深度学习语言模型的比较分析.英寸自然语言处理最新进展国际会议记录(RANLP 2021),第1448–1454页,在线保存。INCOMA有限公司。。
引用(非正式):
保加利亚语ICD-10分类任务精细化深度学习语言模型的比较分析(Velichkov等人,RANLP 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.ranlp-1.162.pdf
数据
蓝色