计算机科学>计算机视觉和模式识别
标题: 计算机视觉多任务自回归译码器的研究
摘要: 最近出现了大量计算机视觉模型,它们执行许多任务,由图像编码器(通常是ViT)和自回归解码器(通常是Transformer)组成。 然而,大多数这项工作只是简单地介绍了一个系统及其结果,留下了许多关于此类系统的设计决策和权衡的问题没有得到回答。 在这项工作中,我们旨在提供这样的答案。 我们仔细研究了多模式计算机视觉中用于多任务学习的自回归解码器,包括分类、字幕、视觉问答和光学字符识别。 通过广泛的系统实验,我们研究了任务和数据混合、训练和正则化超参数、条件反射类型和特异性、模态组合等因素的影响。 重要的是,我们将这些与调整良好的单任务基线进行比较,以突出多任务所产生的成本。 一个关键发现是,在冻结的预处理编码器上学习的小解码器工作得出奇地好。 我们将此设置称为带解码器的锁定图像调谐(LiT-解码器)。 它可以被视为教解码器通过自然语言与预处理视觉模型进行交互。