摘要

自动文本摘要。摘要是自然语言处理中的一个难题,因为要正确地进行摘要,就必须真正理解文本的意义。这需要语义分析、语篇处理和推理解释(使用世界知识对内容进行分组)。最后一步尤其复杂,因为没有大量世界知识的系统根本无法做到这一点。因此,到目前为止,尝试执行真正的抽象(将抽象作为摘要创建)并不十分成功。不过,幸运的是,一种称为提取的近似方法在今天更为可行。要创建摘要,系统只需确定文本中最重要的/主题/中心主题,并将它们返回给读者。虽然摘要不一定连贯,但读者可以对原文的内容形成意见。现在大多数自动摘要系统只生成摘要。SUMMARIST试图尽可能地开发健壮的提取技术,然后继续研究和开发执行抽象的技术。这项工作面临深度与健壮性的权衡:要么系统对输入进行足够深入的分析/解释,以产生良好的摘要(但仅限于小的应用程序域),要么它们对或多或少不受限制的文本进行健壮的工作(但无法进行足够深入的分析以将输入融合为真正的摘要,因此只执行主题提取)。特别是,使用解析器、语法和语义表示的符号技术无法扩展到真实世界的大小,而基于单词计数和单词聚类的信息检索和其他统计技术无法创建真正的摘要,因为它们在单词(表面)级别而不是在概念级别操作。到目前为止,SUMMARIST以五种语言生成摘要摘要(并已链接到MuST系统中这些语言的翻译引擎)。工作正在进行中,既要扩展SUMMARIST的基于抽取的功能,又要建立基于推理的抽象所需的大量知识集合。