摘要

在本文中，我们考虑广义视觉对象计数问题，目的是开发一个计算模型，使用任意数量的“样本”（即~zero-shot或few-shot计数）计算任意语义类别中的对象数。为此，我们做出了以下四个贡献：（1）我们引入了一种新的基于变换器的广义视觉对象计数体系结构，称为计数变换器（CounTR），它通过注意机制显式地捕捉图像块之间或与给定“样本”之间的相似性；（2）我们采用两阶段的训练机制，首先用自我监督学习对模型进行预训练，然后进行监督微调；（3）我们提出了一个简单、可扩展的管道，用于合成具有大量实例或来自不同语义类别的训练图像，明确地强制模型使用给定的“示例”；（4）我们对大规模计数基准（如FSC-147）进行了彻底的消融研究，并证明了在零速和少速设置下的最先进性能。

结果

FSC-147数据集上的任意快照类判断计数结果

烧蚀研究结果

Val-COCO和Test-COCO数据集上的任意快照类gnostic计数结果

CARPK数据集上的少量特定类别计数结果

定性结果

鸣谢

AZ得到了英国皇家学会研究教授RP\R1\191132的EPSRC项目资助VisualAI EP/T028572/1的支持。我们感谢张晓曼和吴朝义的校对。

网页模板修改自张曦轲.