计算机工程与应用››2020,第56卷››发行(16): 124-131.DOI(操作界面):10.3778/j.issn.1002-8331.1905-0456

模式识别与人工智能 • 上一篇   下一篇

基于图模型的多文档摘要生成算法

张云纯,张琨,徐济铭,袁卫平,蔡颖,高雅  

  1. 1南京理工大学 计算机科学与工程学院,南京 210094
    2国家计算机网络与信息安全管理中心江苏分中心 互联网信息处,南京 210019
  • 出版日期:2020-08-15 发布日期:2020-08-11

基于图模型的多文档摘要生成算法

张云春、张坤、徐继明、袁卫平、蔡莹、高雅  

  1. 1.南京理工大学计算机科学与工程学院,南京210094
    2.中国南京210019国家计算机网络与信息安全管理中心江苏分中心互联网信息部
  • 在线:2020-08-15 出版:2020-08-11

摘要:

提出一种基于图模型的多文档摘要生成算法,对海外大量新闻文档进行主题划分,并提取每个主题的摘要。利用传统的基于图模型方法得到的摘要,其冗余度较高,亦不能够充分考虑新闻文本时效性强、主题明确的特征。在文本特征向量化方面,引入了热度系数,改进了传统的TF-IDF公司算法。在主题的划分方面,采用基于密度的两阶段聚类方法,改进了传统的基于[K] -手段进行聚类的方法的不足,同时对文本进行更明确、更具层次性的主题划分。在摘要抽取方面,为句子设计了符合新闻文本特征的重要度计算公式。实验结果表明,基于图模型的自动文本摘要生成算法的效果优于传统算法。

关键词: 文本聚类, 自动摘要, 图模型, 多特征融合

摘要:

提出了一种基于图模型的多文档文本摘要算法,将大量海外新闻文档划分为主题并提取每个主题的摘要。传统的基于图模型的摘要生成方法生成的摘要冗余度高,不能充分考虑新闻文本的时效性和主题清晰性。在文本特征矢量化方面,引入指数衰减系数来改进传统的TF-IDF算法。在主题分类方面,采用了基于密度的快速聚类方法,改进了传统[K]-Means聚类方法的不足。同时,使用两阶段文本聚类将文本划分为更明确和层次化的主题。在抽象提取方面,该算法设计了一个符合新闻文本特征的句子意义公式。实验结果表明,改进算法优于传统算法。

关键词: 文本聚类, 自动汇总, 图形模型, 多特征融合