A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers

Pradeep Dasigi; Kyle Lo; Iz Beltagy; Arman Cohan; Noah A. Smith; Matt Gardner

doi:10.18653/v1/2021.naacl-main.365

研究论文中的信息寻求问题和答案数据集

Pradeep Dasigi公司,凯尔·洛,伊兹·贝尔塔基,阿曼·科汉,诺亚·A·史密斯,马特·加德纳

摘要

学术研究论文的读者通常以回答特定问题为目的进行阅读。能够回答这些问题的问答系统可以使内容的使用效率大大提高。然而，构建此类工具需要数据来反映由于对论文多个部分中的声明进行复杂推理而产生的任务难度。相比之下，现有的信息搜索问答数据集通常包含关于一般虚构类型信息的问题。因此，我们提出了Qasper，这是一个包含1585篇自然语言处理论文中5049个问题的数据集。每个问题都由NLP从业者撰写，他只阅读相应论文的标题和摘要，该问题寻求全文中的信息。然后由一组独立的NLP从业者回答这些问题，他们也为答案提供支持性证据。我们发现，在其他QA任务中表现良好的现有模型在回答这些问题时表现不佳，在从整篇论文中回答问题时，表现比人类低至少27个F1分，这激发了对文档全面、信息搜索QA的进一步研究，我们的数据集旨在促进这方面的研究。

选集ID：: 2021.naacl-main.365年
体积：: 计算语言学协会北美分会2021年会议记录：人类语言技术
月份：: 六月
年份：: 2021
地址：: 在线的
编辑：: 克里斯蒂娜·图塔诺娃,安娜·拉姆希斯基,卢克·泽特莫耶,Dilek Hakkani-Tur（迪列克·哈卡尼·图尔）,伊兹·贝尔塔基,史蒂文·贝萨德,瑞恩·科特雷尔,Tanmoy Chakraborty公司,周一超
地点：: NAACL公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 4599–4610
语言：
网址：: https://acl选集.org/2021.naacl-main.365
内政部：: 10.18653/v1/2021.naacl-main.365
比比键：
引用（ACL）：: Pradeep Dasigi、Kyle Lo、Iz Beltagy、Arman Cohan、Noah A.Smith和Matt Gardner。2021研究论文中的信息寻求问题和答案数据集.英寸计算语言学协会北美分会2021年会议记录：人类语言技术，第4599–4610页，在线。计算语言学协会。
引用（非正式）：: 研究论文中的信息寻求问题和答案数据集（Dasigi等人，NAACL 2021）
复制引文：
PDF格式：: https://aclantology.org/2021.naacl-main.365.pdf
视频：: https://aclantology.org/2021.naacl-main.365.mp4网站
代码: 阿勒奈/qasper-led-baseline
数据: QASPER公司, S2ORC公司

PDF格式引用搜索代码视频