计算机工程与应用››2024第60卷››问题(9): 203-211.内政部:10.3778/j.issn.1002-8331.2212-0363

模式识别与人工智能 • 上一篇   下一篇

多层级信息增强异构图的篇章级话题分割模型

张洋宁,朱静,董瑞,尤泽顺,王震  

  1. 1新疆农业大学 计算机与信息工程学院,乌鲁木齐 830052
    2中国科学院 新疆理化技术研究所,乌鲁木齐 830011
    三。中国100049
  • 出版日期:2024-05-01 发布日期:2024-04-29

基于多级信息增强异构图网络的语篇级主题分割模型

张阳宁、朱静、董瑞、尤泽顺、王震  

  1. 1.新疆农业大学计算机与信息工程学院,乌鲁木齐830052
    2.中国科学院新疆理化技术研究所,乌鲁木齐830011
    3.中国科学院大学,北京100049
  • 在线:2024-05-01 出版:2024-04-29

摘要:话题分割是自然语言处理领域的基础任务之一,按照话题相关性原则将文本分割为多个话题相关的文本块。针对现有话题分割模型提取句子深层语义信息方面明显不足,并且忽略了篇章中的层次信息和上下文交互等问题,提出了一种多层级信息增强异构图的篇章级话题分割模型MHG-TS公司该方法利用篇章中的句子和关键词构建异构图网络,引入BERT(误码率)预训练语言模型捕获图中节点的深层语义特征,在句子节点一阶邻域层级,利用图注意力机制为语义关联的节点分配更大的边权重,增强了一阶邻域中语义关联节点的信息交互;在关键词节点层级,引入关键词信息加强句子语义特征表示;在句子高阶邻域层级,利用关键词节点作为中介,构建了句子节点高阶邻域中的跨句信息交互,丰富了句子节点之间的非序列关系,最终通过融合多层级信息实现包含全局语义信息的句子表示。相较于当下流行的模型,在多个数据集上,三个评价指标性能平均值分别提高了3.08%、2.56%、5.92%,取得了最佳的实验结果。

关键词: 图注意力机制, 预训练语言模型, 话题分割, 句子表示

摘要:主题分割是自然语言处理领域的一项基本任务,它根据语义相关性原理将文本划分为几个语义相关的文本块。然而,现有的主题切分模型不足以提取句子的深层语义信息,并进一步忽视了语篇中的层次信息和语境交互。为了解决上述问题,本文提出了一种语篇级主题分割模型MHG-TS,该模型通过多级信息增强异构图。MHG-TS从语篇中的句子和关键词构建异构图网络,采用预训练语言模型BERT捕捉图中节点的深层语义特征。在一阶邻域层次上,该模型利用图注意机制为语义关联节点分配更多权重,增强了语义关联节点在一阶邻居中的信息交互。在关键词节点层,采用关键词信息来加强语义特征的表示。在高阶邻域层次上,采用关键词节点作为中介,在高阶邻居中构建跨句子信息交互,丰富句子节点之间的非顺序关系,通过与多层次信息的集成,最终实现了包含全局语义信息的句子表示。与现有模型相比,MHG-TS在多个数据集上的三个评价指标的性能平均值分别提高了3.08%、2.56%和5.92%,获得了最佳的实验效果。

关键词: 图形注意机制, 预训练语言模型, 主题分割, 句子编码