SciREX公司 swMATH ID: 43605 软件作者: Sarthak Jain、Madeleine van Zuylen、Hannaneh Hajishirzi、Iz Beltagy 说明: SciREX:文档级信息提取的挑战数据集。从完整文档中提取信息在许多领域都是一个重要问题,但以前的大多数工作都集中在识别句子或段落中的关系上。在文档级别创建大规模信息提取(IE)数据集是一项挑战,因为它需要了解整个文档,以注释实体及其文档级别的关系,这些关系通常跨越句子甚至部分。在本文中,我们介绍了SciREX,这是一个文档级IE数据集,它包含多个IE任务,包括显著实体识别和来自科学文章的文档级N元关系识别。我们利用现有的科学知识资源,通过集成自动注释和人工注释来注释数据集。我们开发了一个神经模型作为强大的基线,将以前最先进的IE模型扩展到文档级IE。分析模型性能表明,人的性能与当前基线之间存在显著差距,邀请社区使用我们的数据集来开发文档级的IE模型。我们的数据和代码可在以下网址公开获取:https://github.com/allenai/SicREX网站 主页: https://arxiv.org/abs/2005.00512 源代码: https://github.com/allenai/SicREX网站 关键词: SciREX公司;文档级IE数据集;文档级信息提取;机器学习;arXiv_cs。LG公司 相关软件: GPT-3级;张紧器2传感器;BERTS核心;维基Asp;捷运局;SummaRuNNer公司;Review机器人;ScisummNet公司;真实;GSum公司;TLDR公司;审查顾问;SciBERT公司;BERT(误码率);亚当 引用于: 1文件 3位作者引用 1 刘鹏飞 1 格雷厄姆·纽比格 1 袁伟哲 在1个序列中引用 1 人工智能研究杂志 在1个字段中引用 1 计算机科学(68至XX) 按年份列出的引文