@正在处理{dasigi-etal-2021数据集,title=“研究论文中的信息寻求问题和答案数据集”,author=“Dasigi、Pradeep和Lo、Kyle和贝尔塔基、伊茨和Cohan、Arman和诺亚·A·史密斯和马特·加德纳“,editor=“Toutanova、Kristina和拉姆西斯基、安娜和Zettlemoyer、Luke和Hakkani-Tur、Dilek和贝尔塔基、伊茨和Bethard、Steven和科特雷尔、瑞恩和查克拉波蒂、坦莫伊和周一超“,booktitle=“计算语言学协会北美分会2021年会议记录:人类语言技术”,月=六月,年=“2021”,address=“在线”,publisher=“计算语言学协会”,url=“https://aclantology.org/2021.naacl-main.365”,doi=“10.18653/v1/2021.naacl-main.365”,pages=“4599--4610”,摘要=“学术研究论文的读者通常以回答特定问题为阅读目标。能够回答这些问题的问答系统可以使内容的使用效率大大提高。然而,构建这样的工具需要数据,这些数据反映了对mul翻纸。相比之下,现有的信息搜索问答数据集通常包含关于一般虚构类型信息的问题。因此,我们提出了Qasper,这是一个包含1585篇自然语言处理论文中5049个问题的数据集。每个问题都是由NLP从业者编写的,他们只阅读相应论文的标题和摘要,问题寻求全文中的信息。然后由一组独立的NLP从业者回答这些问题,他们也为答案提供支持性证据。我们发现,在其他QA任务中表现良好的现有模型在回答这些问题时表现不佳,在回答整篇论文时,其表现比人类差至少27个F1分,这推动了对基于文档的信息寻求QA的进一步研究,而我们的数据集正是为了促进这一研究而设计的。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“网址:http://www.loc.gov/mods/v3"><mods ID=“dasigi-etal-2021-dataset”><标题信息><title>研究论文中的信息寻求问题和答案数据集</titleInfo><name type=“personal”>普拉迪普<namePart type=“family”>Dasigi</namePart><角色>作者</角色></name><name type=“personal”>凯尔<namePart type=“family”>Lo</namePart><角色>作者</角色></name><name type=“personal”>Iz</namePart>贝尔塔基<角色>作者</角色></name><name type=“personal”><namePart type=“given”>阿曼</namePart>科汉<角色>作者</角色></name><name type=“personal”>诺亚<namePart type=“given”>A</namePart>史密斯<角色>作者</角色></name><name type=“personal”><namePart type=“given”>马特加德纳<角色>作者</角色></name><originInfo><发布日期>2021-06</发布日期></originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会北美分会2021年会议记录:人类语言技术</titleInfo><name type=“personal”>克里斯蒂娜图塔诺娃<角色>编辑器</角色></name><name type=“personal”>安娜<namePart type=“family”>Rumshisky</namePart><角色>编辑器</角色></name><name type=“personal”>卢克Zettlemoyer公司<角色>编辑器</角色></name><name type=“personal”>Dilek(Dilek)哈卡尼·图尔<角色>编辑器</角色></name><name type=“personal”>Iz</namePart>贝尔塔基<角色>编辑器</角色></name><name type=“personal”>史蒂文贝瑟德<角色>编辑器</角色></name><name type=“personal”>Ryan科特雷尔<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>坦莫伊</namePart>查克拉波蒂<角色>编辑器</角色></name><name type=“personal”>宜昌<namePart type=“family”>周<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>在线</place></originInfo>会议出版物</relatedItem>学术研究论文的读者通常以回答特定问题为目的进行阅读。能够回答这些问题的问答系统可以使内容的使用效率大大提高。然而,构建此类工具需要数据来反映由于对论文多个部分中的声明进行复杂推理而产生的任务难度。相比之下,现有的信息寻求问答数据集通常包含关于一般事实类型信息的问题。因此,我们提出了Qasper,这是一个包含1585篇自然语言处理论文中5049个问题的数据集。每个问题都是由NLP从业者编写的,他们只阅读相应论文的标题和摘要,问题寻求全文中的信息。然后由一组独立的NLP从业者回答这些问题,他们也为答案提供支持性证据。我们发现,在其他QA任务中表现良好的现有模型在回答这些问题时表现不佳,在从整篇论文中回答问题时,表现比人类低至少27个F1分,这激发了对文档全面、信息搜索QA的进一步研究,我们的数据集旨在促进这方面的研究</摘要>dasigi-etal-2021数据集10.18653/v1/2021.naacl-main.365<位置><网址>https://acl选集.org/2021.naacl-main.365</url></位置><部分>2021-06年<扩展单元=“page”><开始>4599</开始><end>4610</范围></部分></mods></modsCollection>
%0会议记录%研究论文中的信息寻求问题和答案数据集%A Dasigi,普拉迪普%A Lo,凯尔%贝尔塔基,伊茨%阿曼·A·科汉%诺亚·A·史密斯。%加德纳,马特%克里斯蒂娜·托塔诺娃%Y Rumshisky,安娜%Y Zettlemoyer,卢克%Y Hakkani-Tur、Dilek%伊茨贝尔塔基%Y Bethard,Steven%Y Cotterell,瑞安%Y Chakraborty,坦莫伊%Yu Zhou,宜昌%计算语言学协会北美分会2021年会议记录:人类语言技术%D 2021年%6月8日%计算语言学协会%C在线%F dasigi-etal-2021数据集%X学术研究论文的读者通常以回答特定问题为目的阅读。能够回答这些问题的问答系统可以使内容的使用效率大大提高。然而,构建这样的工具需要的数据能够反映出对论文多个部分提出的主张进行复杂推理所带来的任务难度。相比之下,现有的信息搜索问答数据集通常包含关于一般虚构类型信息的问题。因此,我们提出了Qasper,这是一个包含1585篇自然语言处理论文中5049个问题的数据集。每个问题都是由NLP从业者编写的,他们只阅读相应论文的标题和摘要,问题寻求全文中的信息。然后由一组独立的NLP从业者回答这些问题,他们也为答案提供支持性证据。我们发现,在其他QA任务中表现良好的现有模型在回答这些问题时表现不佳,在从整篇论文中回答问题时,表现比人类低至少27个F1分,这激发了对文档全面、信息搜索QA的进一步研究,我们的数据集旨在促进这方面的研究。%R 10.18653/v1/2021.naacl-main.365%U型https://aclantology.org/2021.naacl-main.365%U型https://doi.org/10.18653/v1/2021-naacl-main.365网址%电话:4599-4610
降价(非正式)
[研究论文中的信息寻求问题和答案数据集](https://aclantology.org/2021.naacl-main.365)(Dasigi等人,NAACL 2021)
国际计算语言学协会
- Pradeep Dassigi、Kyle Lo、Iz Beltagy、Arman Cohan、Noah A.Smith和Matt Gardner。2021研究论文中的信息寻求问题和答案数据集.英寸计算语言学协会北美分会2021年会议记录:人类语言技术,第4599–4610页,在线。计算语言学协会。