×

像素-BERT

swMATH ID: 43934
软件作者: 黄志成、曾兆阳、刘蓓、傅冬梅、傅建龙
描述: 像素-BERT:通过深度多模式变换器将图像像素与文本对齐。我们建议使用Pixel-BERT,通过深度多模式变换器将图像像素与文本对齐,从而在统一的端到端框架中联合学习视觉和语言嵌入。我们的目标是直接从图像和句子对中建立图像像素和语言语义之间更准确和彻底的联系,而不是使用基于区域的图像特征作为最新的视觉和语言任务。我们的Pixel BERT将像素和文本级别的语义连接对齐,解决了视觉和语言任务的特定任务视觉表示的限制。它还降低了边界框注释的成本,克服了视觉任务中语义标签与语言语义之间的不平衡。为了更好地表示下游任务,我们使用来自Visual Genome数据集和MS-COCO数据集的图像和句子对预训练了一个通用的端到端模型。我们建议使用随机像素采样机制来增强视觉表现的鲁棒性,并将屏蔽语言模型和图像文本匹配作为预训练任务。使用我们的预训练模型对下游任务进行的大量实验表明,我们的方法在下游任务中取得了最好的状态,包括视觉问答(VQA)、图像文本检索、真实视觉推理自然语言(NLVR)。特别是,在公平比较的情况下,与SOTA相比,我们将单个模型在VQA任务中的性能提高了2.17点。
主页: https://arxiv.org/abs/2004.00849
关键词: 计算机视觉;模式识别;arXiv_cs。个人简历;arXiv_cs。;机器学习;arXiv_cs。LG公司;多媒体;arXiv_cs。MM(毫米);视觉和语言;表征学习
相关软件: 交通运输部;款式GAN2;ResMLP公司;布里斯克;效率检测;面2面;打开姿势;NIMA公司;网格实验室;SegStereo公司;锚网;软剪刀;MVS网络;效率网;时尚-MNIST;摄像头网络;DISN公司;群集适配;PWC-网络;Flickr30K手机;位置CNN
引用于: 1文件

1位作者引用

1 理查德·塞利斯基

在1个字段中引用

1 计算机科学(68至XX)

按年份列出的引文