×

单位

swMATH ID: 42622
软件作者: 陈彦春、李林杰、于立成、艾哈迈德·艾尔·科利、费萨尔·艾哈迈德、哲甘、于成、刘晶晶
说明: UNITER:UNiversal Image-TExt表征学习。联合图像-文本嵌入是大多数视觉和语言(V+L)任务的基础,其中多模态输入被同时处理,以实现联合视觉和文本理解。在本文中,我们介绍了UNITER,一种UNiversal Image-TExt表示法,它是通过对四个图像文本数据集(COCO、Visual Genome、Conceptual Caption和SBU Caption)进行大规模预训练而获得的,它可以通过联合多模式嵌入来支持异构下游V+L任务。我们设计了四个预训练任务:屏蔽语言建模(MLM)、屏蔽区域建模(MRM,有三种变体)、图像文本匹配(ITM)和单词区域对齐(WRA)。与之前将联合随机掩蔽应用于两种模式的工作不同,我们在预训练任务中使用条件掩蔽(即,掩蔽语言/区域建模以图像/文本的完全观察为条件)。除了用于全局图像-文本对齐的ITM之外,我们还建议通过使用最优传输(OT)来实现WRA,以明确鼓励在预培训期间在单词和图像区域之间进行细粒度对齐。综合分析表明,条件掩蔽和基于OT的WRA都有助于更好的预训练。我们还进行了彻底的消融研究,以找到预训练任务的最佳组合。大量实验表明,UNITER在六个V+L任务(超过九个数据集)中达到了最新水平,包括视觉问答、图文检索、指称表达式理解、视觉常识推理、视觉蕴涵和NLVR2。代码位于https://github.com/ChenRocks/UNITER网站
主页: https://arxiv.org/abs/1909.11740
源代码:  https://github.com/ChenRocks/UNITER网站
相关软件: S4L系列;轴向深度实验室;视频BERT;振动贝特;视觉BERT;GShard公司;亚当;CCNet公司;BERT(误码率);CIFAR公司;ImageNet公司;ViT公司
引用于: 0个文档