数据集集合
IfQA反事实推理基准 3800个开放域问题,用于评估NLP模型的反事实推理能力 亚里士多德• 2023 EMNLP-2023论文《IfQA:反事实假设下开放域问题回答的数据集》中引入了反事实推理基准。 数字苏格拉底 DS评论库包含对“学生”模型的答案和解释的注释评论。 亚里士多德• 2023 DS评论库(DSCB)是一个多选题数据集,由“学生模型”提供相关答案和解释,以及“评论模型”提供的解释的“评论”。 许多实例都有人工注释。 萨特拉斯探险家 Satlas Explorer将ML应用于卫星图像,以获取广泛的地理空间数据。 • 2023 Satlas Explorer演示了如何使用人工智能从卫星图像中提取各种有趣的数据,从而可以近实时地了解我们的星球是如何变化的。 当前版本包含以下预测:(1)… ParRoT(零件和事物关系) 11720“X关系Y?”关于日常事物和关系信息部分的对/错问题 关于这些部件 亚里士多德• 2023 这是ACL 2023“语言模型是否具有日常事物的连贯心理模型?”中的数据集。 信念和推理数据集 BaRDA:一个区分事实准确性和推理能力的信念和重新推理数据集 亚里士多德• 2023 BaRDa是一个新的信念和推理数据集,用于评估新语言模型的事实正确性(“真理”)和推理准确性(“合理性”或“诚实”)。 它是与开放慈善组织合作并在其支持下创建的… 莉拉 用Python程序注释的超过140K个自然语言问题的数学推理基准 亚里士多德• 2022 一个数学推理的综合基准,包含超过140K个自然语言问题,用Python程序和自然语言指令进行注释。 该数据集具有多个分割:Lila-IID(train,dev,test)、Lila-OOD(train、dev、test… WANLI:工人和AI NLI 通过语言模型和众工作者之间的协作方法创建的NLI数据集 • 2022 WANLI是一个包含108K个示例的NLI数据集,该数据集是通过基于工人和人工智能协作的数据集创建新方法创建的,它将语言模型的生成能力和人类的评估能力结合在一起。 在…上训练的模型… Entailer公司 EMNLP 2022“主持人:用忠实和真实的推理链回答问题”的数据 亚里士多德• 2022 “Entailer:用忠实和真实的推理链回答问题”的数据,EMNLP 2022 教我 EMNLP 2022“走向可教推理系统:使用动态存储器……”的补充数据 亚里士多德• 2022 EMNLP 2022“走向可教推理系统:使用动态存储器……”的补充数据 自然指令 任务及其语言指令的大型基准 • 2022 Natural-Instructions项目的目标是为测量未知任务的泛化提供一个良好的质量基准。 这种概括取决于(并受益于)对自然语言指令的理解和推理,这些指令简单明了…