CounTR:基于变换的广义视觉计数

刘畅(Chang Liu)1
钟玉杰2
安德鲁·齐瑟曼
谢伟迪1, 3

1CMIC,上海交通大学
2美团股份有限公司,中国
牛津大学VGG

BMVC 2022公司



代码

纸类

Biptex公司



替换文本


摘要

在本文中,我们考虑广义视觉对象计数问题,目的是开发一个计算模型,使用任意数量的“样本”(即~zero-shot或few-shot计数)计算任意语义类别中的对象数。为此,我们做出了以下四个贡献:(1)我们引入了一种新的基于变换器的广义视觉对象计数体系结构,称为计数变换器(CounTR),它通过注意机制显式地捕捉图像块之间或与给定“样本”之间的相似性;(2) 我们采用两阶段的训练机制,首先用自我监督学习对模型进行预训练,然后进行监督微调;(3) 我们提出了一个简单、可扩展的管道,用于合成具有大量实例或来自不同语义类别的训练图像,明确地强制模型使用给定的“示例”;(4) 我们对大规模计数基准(如FSC-147)进行了彻底的消融研究,并证明了在零速和少速设置下的最先进性能。


结果

FSC-147数据集上的任意快照类判断计数结果

烧蚀研究结果

Val-COCO和Test-COCO数据集上的任意快照类gnostic计数结果

CARPK数据集上的少量特定类别计数结果



定性结果



鸣谢

AZ得到了英国皇家学会研究教授RP\R1\191132的EPSRC项目资助VisualAI EP/T028572/1的支持。我们感谢张晓曼和吴朝义的校对。

网页模板修改自张曦轲.