CounTX:开放世界文本特定对象计数

戏弄者

我们的CounTX模型可以计算以下对象任意的类,例如桔子或硬币,由问题的自然语言响应指定应该计算什么对象?,没有新课程的额外培训或数据。CounTX的工作原理是生成密度图,并对密度图进行求和以估计物体数量。在本例中,两个文本输入用于预测同一图像中不同对象的计数。注意,在任何阶段都不需要视觉样本。

摘要

我们的目标是在图像中计算开放世界对象,其中目标对象类由文本描述指定。为此,我们建议CounTX公司,一个类认知者,基于预处理接头顶部变压器-解码器计数头的单级模型文本图像表示。CounTX能够计算任何类的实例数只给出目标对象类的图像和文本描述,并且可以进行训练端到端。据我们所知,我们是第一个应对开放世界的国家以这种方式计算问题。除此模型外,我们还做出了以下贡献:(i) 我们将CounTX的性能与之前在开放世界对象上的工作进行了比较计算,并表明我们的方法在所有度量上都超过了最先进的水平使用文本指定任务的方法的FSC-147基准;(ii)我方出席并发布FSC-147-D,FSC-147的增强版,带有文本描述,因此对象类可以用比简单类名更详细的语言来描述。

示例结果

fsc-147-测试图像 fsc-147-测试图像
CounTX在应用于FSC-147测试集时生成的密度图。这些图像中显示的类是看不见的在培训期间。尽管如此,CounTX清楚地突出了密度图中的每个对象实例,并根据图像上方的自然语言描述准确估计了对象数。特别令人印象深刻的是,CounTX在顶行的第二和第五张图像中以两种截然不同的排列方式准确定位苹果。CounTX还统计了第三排第一张图片中的漫画书,尽管相机的视角很复杂。
fsc-147-img-mosacs公司
上述图像是使用FSC-147测试集拼接在一起的。因此,图像和类都是看不见的在培训期间。尽管如此,CounTX正确地使用类描述来标识要计数的对象。这一点很明显,因为密度贴图仅高亮显示了每个示例中类描述指定的区域。
计数员
为了进一步研究CounTX对具有少量类实例的图像的泛化能力,我们为CountBench的一个子集构造了“应该计算哪些对象?”问题的答案,并将CounTX应用于该子集。上面显示了CounTX从这项调查中生成的一些密度图。
木匠
CounTX生成的密度图,在没有微调的情况下应用于CARPK测试集时,经过FSC-147培训。在上面的图像中,CounTX精确地定位每个汽车实例以估计对象数,尽管尚未对CARPK中的任何数据进行训练。

代码

  • Github回购用于代码(PyTorch)、FSC-147-D和预处理模型

出版物

  • Niki Amini-Naieni,Kiana Amini Naieni,腾达汉、和安德鲁·齐瑟曼
    英国机器视觉会议(BMVC公司) 2023
    arXiv公司

    BibTeX公司
    @诉讼中{AminiNaieni23,author=“Amini-Naieni,N.和Amini-Naeeni,K.以及Han,T.和Zisserman,A.”,title=“Open-world文本特定对象计数”,booktitle=“英国机器视觉会议”,年=“2023”,}