计算机科学>计算机视觉和模式识别
职务: InstructSeq:将视觉任务与教学条件下的多模序列生成统一起来
摘要: 赋予模型以动态完成通过自然语言指令指定的任务的能力,是实现更强大和通用的人工智能的一条有希望的道路。 在这项工作中,我们介绍了InstructionSeq,这是一个指令条件下的多模态建模框架,它通过灵活的自然语言控制和处理视觉数据和文本数据来统一各种视觉任务。 InstructSeq采用了一种包含视觉、语言和顺序建模的多模式变压器架构。 我们使用视觉编码器提取图像特征,使用文本编码器编码指令。 自回归变换器融合表示并生成顺序任务输出。 通过使用LLM生成的自然语言指令进行训练,InstructSeq对指定视觉任务的自由形式指令有了很强的理解。 这为使用灵活的自然指令指导功能提供了直观的界面。 在没有任何特定任务调整的情况下,InstructSeq在语义分割、引用表达式分割/理解和图像字幕方面取得了引人注目的性能。 灵活的控制和多任务的统一使模型具有更人性化的通用性和计算机视觉的通用性。 代码将于稍后发布 此https URL .