InstructSeq: Unifying Vision Tasks with Instruction-conditioned Multi-modal Sequence Generation

Fang, Rongyao; Yan, Shilin; Huang, Zhaoyang; Zhou, Jingqiu; Tian, Hao; Dai, Jifeng; Li, Hongsheng

计算机科学>计算机视觉和模式识别

arXiv:2311.18835（cs）

【于2023年11月30日提交】

职务：InstructSeq：将视觉任务与教学条件下的多模序列生成统一起来

作者：容耀芳,石林岩,黄兆阳,周靖丘,郝天,戴纪峰,李洪生

查看PDF

摘要：赋予模型以动态完成通过自然语言指令指定的任务的能力，是实现更强大和通用的人工智能的一条有希望的道路。在这项工作中，我们介绍了InstructionSeq，这是一个指令条件下的多模态建模框架，它通过灵活的自然语言控制和处理视觉数据和文本数据来统一各种视觉任务。InstructSeq采用了一种包含视觉、语言和顺序建模的多模式变压器架构。我们使用视觉编码器提取图像特征，使用文本编码器编码指令。自回归变换器融合表示并生成顺序任务输出。通过使用LLM生成的自然语言指令进行训练，InstructSeq对指定视觉任务的自由形式指令有了很强的理解。这为使用灵活的自然指令指导功能提供了直观的界面。在没有任何特定任务调整的情况下，InstructSeq在语义分割、引用表达式分割/理解和图像字幕方面取得了引人注目的性能。灵活的控制和多任务的统一使模型具有更人性化的通用性和计算机视觉的通用性。代码将于稍后发布此https URL.

评论：	10页
学科：	计算机视觉和模式识别（cs.CV）
引用为：	arXiv:2311.18835[cs.CV]
	（或 arXiv:2311.18835v1型[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2311.18835

提交历史记录

发件人：方荣尧[查看电子邮件]
[第1版]2023年11月30日星期四18:59:51 UTC（2697 KB）

计算机科学>计算机视觉和模式识别

职务：InstructSeq：将视觉任务与教学条件下的多模序列生成统一起来

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

职务：InstructSeq：将视觉任务与教学条件下的多模序列生成统一起来

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目