视觉常识推理(录像机)是一个用于认知级视觉理解的新任务和大规模数据集。
只要看一眼图像,我们就可以毫不费力地想象像素之外的世界(例如[人员1]点了薄煎饼)。虽然这项任务对人类来说很容易,但对今天的视觉系统来说却非常困难,需要对世界进行高阶认知和常识推理。我们将此任务形式化为可视常识推理。除了回答用自然语言表达的具有挑战性的视觉问题外,模型还必须提供解释其答案为真的理由.
概述录像机
- 290k道多项选择题
- 290k个正确答案和理由:每个问题一个
- 11万张图像
- 通过我们的新对手匹配方法,以最小偏差获得反事实选择
- 答案平均为7.5个单词;基本原理是16个单词。
- 高度一致(>90%)
- 在COCO的80个物体类别上搭建脚手架
- 问题非常多样且具有挑战性:浏览并亲自查看!
从认知到认知:视觉常识推理
如果这篇论文启发了你,请引用我们的话:
@正在进行{zellers2019vcr,author={Zellers、Rowan和Bisk、Yonatan和Farhadi、Ali和Choi、Yejin},title={从识别到认知:视觉常识推理},booktitle={IEEE计算机视觉和模式识别会议(CVPR)},月={6月},年份={2019}}
作者
VCR是华盛顿大学和AI2的研究人员以及一群对数据进行注释的优秀人群工作人员共同努力的结果。我们还感谢以下赞助商: