计算机应用››2019,第39卷››问题(2): 311-315.内政部:10.11772/j.issn.1001-9081.2018081958

• 人工智能 •    下一篇

基于深度学习的文本自动摘要方案

张克君1,2,李伟男2,钱榕1,史泰猛1,焦萌1  

  1. 1北京电子科技学院 计算机科学与技术系, 北京 100070;
    2西安电子科技大学 计算机科学与技术学院, 西安 710071
  • 收稿日期:2018-09-20 修回日期:2018-11-14 出版日期:2019-02-10 发布日期:2019-02-15
  • 通讯作者:李伟男
  • 作者简介:张克君(1972-),男,山东临沂人,副教授,博士,共因失效会员,主要研究方向:信息安全、智能信息处理;李伟男(1994-),男,陕西西安人,硕士研究生,主要研究方向:自动摘要;钱榕(1970-),男,山东济南人,副教授,博士,共因失效会员,主要研究方向:复杂网络、数据挖掘;史泰猛(1995-),男,河北衡水人,硕士研究生,主要研究方向:文本分类;焦萌(1994-),女,河北石家庄人,硕士研究生,主要研究方向:文本主题挖掘。
  • 基金资助:
    国家重点研发计划项目(2018YFB1004101)

基于深度学习的文本自动摘要方案

张克军1,2,李维南2,钱融1,史泰萌1,焦梦1  

  1. 1.北京电子科学技术研究院计算机科学与技术系,北京100070,中国;
    2.西安西安西安西安西电大学计算机科学与技术学院,邮编710071
  • 收到:2018-09-20 修订过的:2018-11-14 在线:2019-02-10 出版:2019-02-15
  • 支持单位:
    这项工作得到了国家重点研发计划(2018YFB1004101)的部分支持。

摘要:针对自然语言处理(NLP)生成式自动摘要领域的语义理解不充分、摘要语句不通顺和摘要准确度不够高的问题,提出了一种新的生成式自动摘要解决方案,包括一种改进的词向量生成技术和一个生成式自动摘要模型。改进的词向量生成技术以跳过图示方法生成的词向量为基础,结合摘要的特点,引入词性、词频和逆文本频率三个词特征,有效地提高了词语的理解;而提出的Bi-MulRnn公司+生成式自动摘要模型以序列映射(seq2seq)与自编码器结构为基础,引入注意力机制、门控循环单元(GRU)结构、双向循环神经网络(BiRnn)、多层循环神经网络(MultiRnn)和集束搜索,提高了生成式摘要准确性与语句流畅度。基于大规模中文短文本摘要(LCSTS)数据集的实验结果表明,该方案能够有效地解决短文本生成式摘要问题,并在胭脂标准评价体系中表现良好,提高了摘要准确性与语句流畅度。

关键词: 自然语言处理, 生成式文本自动摘要, 序列映射, 自编码器, 词向量, 循环神经网络

摘要:针对自然语言处理(NLP)抽象自动摘要领域中语义理解不足、摘要句不当、摘要不准确等问题,提出了一种新的自动摘要解决方案,包括改进的词向量生成技术和抽象的自动文摘模型。改进的词向量生成技术是基于skip-gram方法生成的词向量。结合抽象的特点,引入了词性、词频和逆文本频率三个词的特征,有效地提高了对词的理解。提出的Bi-MulRnn+抽象自动摘要模型基于序列到序列(seq2seq)框架和自编码结构。该模型通过引入注意机制、门控递归单元(GRU)门结构、双向递归神经网络(BiRnn)和多层递归神经网络,提高了抽象摘要的摘要准确性和句子流畅性。大规模中文短文本摘要(LCSTS)数据集的实验结果表明,该方案能够有效地解决短文本的抽象摘要问题,在Rouge标准评价系统中具有良好的性能,提高了摘要的准确性和句子的流畅性。

关键词: 自然语言处理(NLP), 抽象自动文本摘要, 序列到序列(seq2seq), 自编码器, 单词向量, 递归神经网络(RNN)

中图分类号: