根据基准列表推断出一些任务。
基准测试部分列出了使用给定数据集或它的变体。我们使用变量来区分评估结果同一数据集的版本略有不同。例如,ImageNet 32⨉32和ImageNet 64⨉64是ImageNet数据集的变体。
OpenBookQA是一种新的问答数据集,它是在开卷考试之后建模的,用于评估人类对某一主题的理解。它由5957个多项选择基本科学问题组成(4957题列,500题,500测试),探究对1326个核心科学事实的小“书”的理解以及这些事实在新情况下的应用。对于培训,数据集包括从每个问题到其设计要探究的核心科学事实的映射。回答OpenBookQA问题需要额外的广泛常识,这本书中没有包含。根据设计,基于检索的算法和单词共现算法都无法正确回答这些问题。此外,该数据集还包括5167个众包公共知识事实的集合,以及一个扩展版的训练/开发/测试问题,其中每个问题都与其原始核心事实、人类准确性分数、清晰度分数和匿名众工ID相关联。