根据基准列表推断出一些任务。
基准测试部分列出了使用给定数据集或它的变体。我们使用变量来区分评估结果同一数据集的版本略有不同。例如,ImageNet 32⨉32和ImageNet 64⨉64是ImageNet数据集的变体。
Quoref是一个QA数据集,用于测试阅读理解系统的关联推理能力。在这个跨度选择基准中,包含来自维基百科的24K个问题和4.7K个段落,系统必须先解决硬引用,然后才能在段落中选择合适的跨度来回答问题。