计算机工程与应用››2024,第60卷››问题(6): 188-198.内政部:10.3778/j.issn.102至8331.2211至0094

模式识别与人工智能 • 上一篇   下一篇

融合多特征及协同注意力的医学命名实体识别

刘歆宁  

  1. 大连东软信息学院 软件工程系,辽宁 大连 116023
  • 出版日期:2024-03-15 发布日期:2024-03-15

基于多特征和协同注意的医学命名实体识别

刘新宁  

  1. 大连东软信息学院软件系,辽宁大连116023
  • 在线:2024-03-15 出版:2024-03-15

摘要:针对当前中文医疗命名实体识别中未融合医学领域文本独有的特征信息导致实体识别准确率无法有效提升的情况,及单注意力机制影响实体分类效果的问题,提出一种基于多特征融合和协同注意力机制的中文医疗命名实体识别方法。利用预训练模型得到原始医学文本的向量表示,再利用双向门控循环神经网络(比格鲁)获取字粒度的特征向量。结合医疗领域命名实体鲜明的部首特征,利用迭代膨胀卷积神经网络(IDCNN)提取部首级别的特征向量。使用协同注意力网络(共同关注网络)整合特征向量,生成<文字-部首>对的双相关特征,再利用条件随机场(通用报告格式)输出实体识别结果。实验结果表明,在CCKS公司数据集上,相较于其他的实体识别模型能取得更高的准确率、召回率和一层楼值,同时虽然增加了识别模型的复杂程度,但性能并没有明显的降低。

关键词: 中文医学文本, 命名实体识别, 多特征融合, 协同注意力机制, 比特币

摘要:针对当前中医命名实体识别中由于缺乏融合医学文本的独特特征信息而无法有效提高实体识别准确性的情况,以及单一注意机制影响实体分类有效性的问题,提出了一种基于多特征融合和协同注意机制的中医命名实体识别方法。首先利用预训练模型获得原始医学文本的向量表示,然后利用双向选通递归神经网络(BiGRU)获得单词粒度的特征向量。其次,结合医学命名实体的独特根特征,利用迭代膨胀卷积神经网络(IDCNN)提取根级特征向量。最后,使用共同注意网络集成医学向量特征,生成<特征-根>对的双重相关特征,然后使用条件随机场(CRF)输出实体识别结果。实验结果表明,与其他实体识别模型相比,它可以在CCKS数据集上实现更高的准确性、召回率和F1值。同时,虽然识别模型的复杂度增加了,但性能并没有显著下降。

关键词: 中文医学文本, 名称实体识别, 多特征融合, 共同注意机制, 变压器的双向编码器表示(BERT)