摘要:
提出一种基于图模型的多文档摘要生成算法,对海外大量新闻文档进行主题划分,并提取每个主题的摘要。利用传统的基于图模型方法得到的摘要,其冗余度较高,亦不能够充分考虑新闻文本时效性强、主题明确的特征。在文本特征向量化方面,引入了热度系数,改进了传统的TF-IDF公司算法。在主题的划分方面,采用基于密度的两阶段聚类方法,改进了传统的基于[K] -手段进行聚类的方法的不足,同时对文本进行更明确、更具层次性的主题划分。在摘要抽取方面,为句子设计了符合新闻文本特征的重要度计算公式。实验结果表明,基于图模型的自动文本摘要生成算法的效果优于传统算法。
张云纯,张琨,徐济铭,袁卫平,蔡颖,高雅. 基于图模型的多文档摘要生成算法[J] ●●●●。计算机工程与应用, 2020, 56(16): 124-131.
张云春、张坤、徐继明、袁卫平、蔡莹、高雅。基于图模型的多文档摘要生成算法[J]。计算机工程与应用,2020,56(16):124-131。