根据基准列表推断出一些任务。
基准测试部分列出了使用给定数据集或它的变体。我们使用变量来区分评估结果同一数据集的版本略有不同。例如,ImageNet 32⨉32和ImageNet 64⨉64是ImageNet数据集的变体。
这个通用QA是一个用于常识性问答任务的数据集。数据集由12247个问题组成,每个问题有5个选项。数据集由Amazon Mechanical Turk工人在以下过程中生成(括号中提供了一个示例):