摘要
我们的目标是在图像中计算开放世界对象,其中目标对象类由文本描述指定。为此,我们建议CounTX公司,一个类认知者,基于预处理接头顶部变压器-解码器计数头的单级模型文本图像表示。CounTX能够计算任何类的实例数只给出目标对象类的图像和文本描述,并且可以进行训练端到端。据我们所知,我们是第一个应对开放世界的国家以这种方式计算问题。除此模型外,我们还做出了以下贡献:(i) 我们将CounTX的性能与之前在开放世界对象上的工作进行了比较计算,并表明我们的方法在所有度量上都超过了最先进的水平使用文本指定任务的方法的FSC-147基准;(ii)我方出席并发布FSC-147-D,FSC-147的增强版,带有文本描述,因此对象类可以用比简单类名更详细的语言来描述。