视觉基因组

视觉基因组:使用众包密集图像注释连接语言和视觉。尽管在图像分类等感知任务方面取得了进展,但计算机在图像描述和问题回答等认知任务上的表现仍然很差。但不仅仅是认识到我们的核心世界。然而,用于处理认知任务图像中丰富内容的模型仍在使用为感知任务设计的相同数据集进行训练。为了在认知任务中取得成功,模型需要理解图像中物体之间的相互作用和关系。当被问到“人骑的是什么交通工具?”时,计算机将需要识别图像中的对象以及骑(人、马车)和拉(马、马车)的关系,以便正确回答“人骑的是马车”。在这篇论文中,我们提出了可视化的基因组数据集,使这种关系的建模成为可能。我们收集每个图像中对象、属性和关系的密集注释,以学习这些模型。具体地说,我们的数据集包含超过10万张图像,其中每个图像平均有21个对象、18个属性和18个对象之间的成对关系。我们对WordNet语法集的区域描述和问答对中的对象、属性、关系和名词短语进行规范化。这些注释一起表示图像描述、对象、属性、关系和问题答案的最密集和最大的数据集。

zbMATH中的参考文献(参考文献1条)

显示结果1/1。
按年份排序(引用)

  1. 汉、伯;潘元刚;Tsang,Ivor W.:稳健的Plackett-Luce模型(k)-ary众包偏好(2018)


更多出版物请访问:https://visualgenome.org/paper