计算机应用》唯一官方网站››2024,第44卷››问题(2): 377-384.内政部:10.11772/j.issn.1001-9081.2023020239

• 人工智能 • 上一篇   

实体类别增强的汽车领域嵌套命名实体识别

黄子麒,胡建鹏()  

  1. 上海工程技术大学 电子电气工程学院,上海 201620
  • 收稿日期:2023-03-06 修回日期:2023-05-16 接受日期:2023-05-22 发布日期:2023-08-14 出版日期:2024-02-10
  • 通讯作者:胡建鹏
  • 作者简介:黄子麒(1997—),男,江西赣州人,硕士研究生,共因失效学生会员,主要研究方向:自然语言处理;
  • 基金资助:
    科技创新2030—“新一代人工智能”重大项目(2020AAA0109300)

汽车领域实体类别增强的嵌套命名实体识别

黄子棋,胡建鹏()  

  1. 上海工程科技大学电气与电子工程学院,上海201620,中国
  • 收到:2023-03-06 修订过的:2023-05-16 认可的:2023-05-22 在线:2023-08-14 出版:2024-02-10
  • 联系人:胡建鹏
  • 关于作者:黄子奇,1997年出生,硕士研究生。他的研究兴趣包括自然语言处理。
  • 支持单位:
    科技创新2030——“新一代人工智能”重大项目(2020AAA0109300)

摘要:

针对中文汽车领域实体抽取任务中对嵌套实体、长实体识别效果差的问题,提出一种实体类别增强的嵌套实体抽取(ECE-NER)模型。首先,基于特征融合编码,提高模型对领域实体边界的感知能力;然后,尾词识别模块利用多层感知机得到实体尾词集合;最后,前向边界识别模块基于义原构造的实体类别特征和自注意力机制得到实体类别增强的候选尾词表征,融合领域实体类别特征,利用双仿射编码器计算特定尾词和实体类型的实体跨度概率,从而确定命名实体。在某汽车企业生产线故障数据集、汽车工业故障抽取评测数据集CCL2022号和中文医学文本数据集智利2020上进行模型验证。实验结果表明,所提模型在前两个数据集上的实体识别一层楼值比序列标注模型(BERT+BiLSTM+CRF)、基于跨度的实体抽取模型(PURE(普林斯顿大学关系抽取)、SpERT(基于空间的实体和关系变换器)、4.1、1.8、1.6和9.0、5.4、7.3个百分点;在第一个数据集和第三个数据集中嵌套实体识别F1 PURE、SpERT模型相比提高了13.3、8.3个百分点和21.7、9.3个百分点,验证了所提模型在嵌套实体识别上的有效性。

关键词: 特征融合, 义原特征, 自注意力机制, 双仿射编码器, 中文嵌套命名实体识别

摘要:

针对中国汽车领域实体提取任务中嵌套实体和长实体识别能力差的问题,提出了一种实体类别增强的嵌套命名实体识别(ECE-NER)模型。首先,基于特征融合编码改进了模型对领域实体边界的感知。然后,使用尾词识别模块通过多层感知器获取实体尾词集。最后,基于语义构建的实体类别特征和自关注机制,使用前向边界识别模块获得候选尾词的实体类别增强实体表示。通过融合领域实体类别特征,使用biaffine编码器计算特定尾词的实体跨度概率,以确定命名实体。对汽车生产线的故障数据集、汽车行业的故障提取与评估数据集CCL2022和中文医学文本数据集CHIP2020进行了实验评估。前两个数据集的实验结果表明,ECE-NER模型与包括序列标记模型(BERT+BiLSTM+CRF)在内的基线模型相比,F1值分别增加了4.1、1.8、1.6个百分点和9.0、5.4、7.3个百分点以及基于span的实体提取模型(PURE(普林斯顿大学关系提取)、SpERT(基于span的图元和关系转换器))。特别是,与PURE和SpERT模型相比,ECE-NER模型使嵌套实体识别的F1值增加了13.3、8.3和21.7个百分点,在第一和第三个数据集中增加了9.3个百分点。实验结果验证了该模型在嵌套实体识别中的有效性。

关键词: 特征融合, 义位特征, 自动关注机制, 双频编码器, 中文嵌套命名实体识别

中图分类号: