LXMERT公司 swMATH编号: 42494 软件作者: 郝坦、莫希特·班萨尔 描述: LXMERT:从变压器学习交叉模式编码器表示。视觉和语言推理需要理解视觉概念、语言语义,最重要的是,这两种方式之间的对齐和关系。因此,我们提出了LXMERT(从变形金刚学习跨模式编码器表示)框架来学习这些视觉和语言联系。在LXMERT中,我们构建了一个由三个编码器组成的大型Transformer模型:对象关系编码器、语言编码器和交叉模态编码器。接下来,为了赋予我们的模型连接视觉和语言语义的能力,我们通过五个不同的具有代表性的预训练任务,用大量的图像和句子对对模型进行预训练:屏蔽语言建模、屏蔽对象预测(特征回归和标签分类)、跨模态匹配、,这些任务有助于学习模态内和模态间的关系。在对预训练参数进行微调后,我们的模型在两个可视问答数据集(即VQA和GQA)上获得了最先进的结果。我们还通过将预训练的交叉模态模型应用于具有挑战性的视觉推理任务NLVR2,展示了其通用性,并将之前的最佳结果提高了22 主页: https://arxiv.org/abs/1908.07490 源代码: https://github.com/airsplay/lxmert 依赖项: 蟒蛇 相关软件: 手套;振动贝特;BLEU公司;更快的R-CNN;Flickr30K手机;ArraMon公司;木屋;西班牙;火炬工艺品;阿尔弗雷德;MINOS公司;SQIL公司;TEACh公司;进化图;艾吉布森;XLNet公司;亚当;胭脂;婴儿行走;AllenAct公司 引用于: 2文件 全部的 前5名9位作者引用 1 奥赞·卡格拉扬 1 乔纳森·弗朗西斯 1 维内塔哈拉兰皮耶娃 1 奈木北村 1 费利克斯·拉贝尔 1 Lu,小鹏 1 英格丽德·纳瓦罗 1 哦,琼 1 露西娅·斯佩西亚 连载1篇 2 人工智能研究杂志 在1个字段中引用 2 计算机科学(68至XX) 按年份列出的引文