A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision

Beyer, Lucas; Wan, Bo; Madan, Gagan; Pavetic, Filip; Steiner, Andreas; Kolesnikov, Alexander; Pinto, André Susano; Bugliarello, Emanuele; Wang, Xiao; Yu, Qihang; Chen, Liang-Chieh; Zhai, Xiaohua

计算机科学>计算机视觉和模式识别

arXiv:2303.17376（cs）

【于2023年3月30日提交】

标题：计算机视觉多任务自回归译码器的研究

作者：卢卡斯·拜尔,薄湾,加甘·马丹,菲利普铺装,安德烈亚斯·斯坦纳,亚历山大·科列斯尼科夫,安德烈·苏萨诺·平托,伊曼纽尔·布利亚雷洛,小王,余启航（Qihang Yu）,陈良杰,翟晓华

查看PDF

摘要：最近出现了大量计算机视觉模型，它们执行许多任务，由图像编码器（通常是ViT）和自回归解码器（通常是Transformer）组成。然而，大多数这项工作只是简单地介绍了一个系统及其结果，留下了许多关于此类系统的设计决策和权衡的问题没有得到回答。在这项工作中，我们旨在提供这样的答案。我们仔细研究了多模式计算机视觉中用于多任务学习的自回归解码器，包括分类、字幕、视觉问答和光学字符识别。通过广泛的系统实验，我们研究了任务和数据混合、训练和正则化超参数、条件反射类型和特异性、模态组合等因素的影响。重要的是，我们将这些与调整良好的单任务基线进行比较，以突出多任务所产生的成本。一个关键发现是，在冻结的预处理编码器上学习的小解码器工作得出奇地好。我们将此设置称为带解码器的锁定图像调谐（LiT-解码器）。它可以被视为教解码器通过自然语言与预处理视觉模型进行交互。

学科：	计算机视觉和模式识别（cs.CV）; 人工智能；机器学习（cs.LG）
引用为：	arXiv:2303.17376[cs.CV]
	（或 arXiv：2303.17376v1[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2303.17376

提交历史记录

发件人：Lucas Beyer[查看电子邮件]
[v1]2023年3月30日星期四13:42:58 UTC（152 KB）

计算机科学>计算机视觉和模式识别

标题：计算机视觉多任务自回归译码器的研究

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐程序和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

标题：计算机视觉多任务自回归译码器的研究

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐程序和搜索工具

arXivLabs：与社区合作者合作的实验项目