计算机科学>计算与语言
标题: SPACE-IDEAS:空间创新中显著信息检测的数据集
摘要: 使用自然语言处理检测文本中的显著部分已被广泛用于缓解信息溢出的影响。 然而,这项任务可用的大多数数据集主要来自学术出版物。 我们引入了SPACE-IDEAS,这是一个数据集,用于从与空间领域相关的创新理念中检测显著信息。 SPACE-IDEAS中的文本差异很大,包括非正式、技术、学术和商业导向的写作风格。 除了手动注释的数据集之外,我们还发布了一个扩展版本,该版本使用大型生成语言模型进行注释。 我们训练不同的句子和顺序句子分类器,并表明可以利用自动标注的数据集使用多任务学习来训练更好的分类器。