Comparative Analysis of Fine-tuned Deep Learning Language Models for ICD-10 Classification Task for Bulgarian Language

Boris Velichkov; Sylvia Vassileva; Simeon Gerginov; Boris Kraychev; Ivaylo Ivanov; Philip Ivanov; Ivan Koychev; Svetla Boytcheva

精细化深度学习语言模型的比较分析ICD公司-10分类任务B类奥尔良语

鲍里斯·维利奇科夫,西尔维亚·瓦西列娃,西蒙·格吉诺夫,鲍里斯·克莱切夫,伊瓦洛·伊万诺夫,菲利普·伊万诺夫,伊万·科切夫,斯维特拉·博伊切娃

摘要

将自动诊断编码为标准医学分类和本体的任务在医学中非常重要，这既可以支持医生编写和报告临床文档的日常任务，也可以自动处理临床报告。本文研究了不同深度学习变换器在保加利亚临床文本ICD-10自动编码中的应用和性能。对比分析试图找出哪种方法更有效地用于微调预处理BERT系列变压器，以处理保加利亚语这一罕见语言的特定领域术语。一方面是使用SlavicBERT和MultiligualBERT，这两种语言已经过保加利亚通用词汇的预训练，但缺乏医学术语。另一方面，在分析中使用了BioBERT、ClinicalBERT、SapBERT、BlueBERT，它们是针对英语医学术语进行预训练的，但缺乏保加利亚语语言模型的训练，更多的是针对西里尔语词汇。在我们的研究中，所有BERT模型都与保加利亚语的其他医学文本进行了微调，然后应用于分类任务，将保加利亚语的医学诊断编码为ICD-10代码。分类任务使用带有ICD-10代码注释的保加利亚大型诊断语料库。这样的分析很好地说明了哪些模型适合于类似类型和领域的任务。实验和评估结果表明，这两种方法具有相当的准确性。

选集ID：: 2021.兰普-1.162
体积：: 自然语言处理最新进展国际会议记录（RANLP 2021）
月份：: 九月
年份：: 2021
地址：: 在线保留
编辑：: 鲁斯兰·米特科夫,加利亚·安吉洛娃
地点：: 兰普
信号：
出版商：: 收入有限公司。
注：
页：: 1448–1454
语言：
网址：: https://aclantology.org/2021.ranlp-1.162
DOI（操作界面）：
比比键：
引用（ACL）：: 鲍里斯·维利奇科夫（Boris Velichkov）、西尔维亚·瓦西列娃（Sylvia Vassileva）、西蒙·格尔吉尼诺夫（Simeon Gerginov）、鲍里斯·克莱切夫（Boris-Kraychev）、伊瓦约洛·伊万诺夫（Ivaylo Ivanov）、菲利普·伊万诺夫（Philip I。2021保加利亚语ICD-10分类任务的微调深度学习语言模型的比较分析.英寸自然语言处理最新进展国际会议记录（RANLP 2021），第1448–1454页，在线保存。INCOMA有限公司。。
引用（非正式）：: 保加利亚语ICD-10分类任务精细化深度学习语言模型的比较分析（Velichkov等人，RANLP 2021）
复制引文：
PDF格式：: https://aclantology.org/2021.ranlp-1.162.pdf
数据: 蓝色

PDF格式引用搜索