MCTest公司

MCTest:开放域机器文本理解的挑战数据集。我们提出了MCTest,一套免费提供的故事和相关问题,旨在研究机器对文本的理解。以前关于机器理解(例如语义建模)的工作已经取得了很大的进展,但主要集中在有限的领域数据集上,或者解决一个更为受限的目标(例如,开放域关系提取)。相比之下,MCTest要求机器回答关于虚构故事的多项选择阅读理解问题,直接解决开放领域机器理解的高级目标。阅读理解可以测试高级能力,如因果推理和理解世界,但通过选择题,仍然可以提供一个明确的衡量标准。通过虚构,答案通常只能在故事本身中找到。故事和问题也被小心地限制在幼儿能够理解的范围内,减少了完成任务所需的世界知识。我们提出了可伸缩的众包方法,使我们能够廉价地构建一个包含500个故事和2000个问题的数据集。通过筛选工作人员(通过语法测试)和故事(通过评分),我们确保了数据的质量与我们手工编辑的另一组数据质量相同,但成本仅为编辑成本的十分之一。我们希望MCTest是一个开放的领域,但受到严格的限制,它将有助于鼓励研究,并为机器理解文本提供一个明确的衡量标准