大规模预处理和特定任务的微调现在是计算机视觉和自然语言处理中许多任务的标准方法。最近,人们提出了多种视觉和语言预训练方法BERT(误码率)这些模型可以分为单流或双流编码器。我们研究了这两个类别之间的差异,并展示了如何在一个单一的理论框架下统一它们。然后,我们进行了控制实验,以辨别五种视觉和语言之间的经验差异BERT(误码率)我们的实验表明,训练数据和超参数是造成报告结果之间大多数差异的原因,但它们也揭示了嵌入层在这些海量模型中起着关键作用。

从与句子配对的图像中学习通用的多模态表示是实现视觉和语言单一界面的基本步骤(价值与负债)任务。为了实现这个目标,许多人都经过了预先训练价值与负债受计算机视觉预训练成功的启发,去年提出了模型(Sharif Razavian等人。,2014)和自然语言处理(Devlin等人。,2019). 所有这些价值与负债模型扩展BERT(误码率)(Devlin等人。,2019)学习基于这两种方式的表征。它们可以归类为(i)单流,其中图像和文本由单个编码器联合处理(例如,Zhou等人。,2020),或(ii)双流,其中输入在联合建模之前单独编码(例如Tan和Bansal,2019).

单流和双流模型之间下游性能的差异目前尚不清楚,一些论文声称一个家族优于另一个家族(Lu等人。,2019; Chen等人。,2020)而其他人则认为很难得出任何结论(Qi等人。,2020).

本文的第一个目标是了解单流和双流模型之间的数学差异。我们的分析导致了一个统一的框架,其中当前提出的架构,无论是单流还是双流,都是特定的实例。然后,我们在这个框架内实现了几个提出的编码器,以在受控环境中凭经验测量它们的差异。我们认为,这种比较分析对于更好地理解和指导人工智能这一充满活力的领域中大规模模型的未来研究至关重要,确保进展不会因混淆而模糊。

事实上,用于训练的协议有很多不同价值与负债BERT(误码率)s.为了更好地理解这些模型,我们进行了一系列受控研究,以调查下游绩效差异是否由以下因素解释:(i)预培训数据量和预培训目标(例如。,图2); (ii)用于控制学习过程的超参数;(iii)预培训时随机初始化引起的差异(例如。,图1); (iv)下游任务多次微调导致的差异;(v) 单流或双流架构;或(vi)嵌入层的选择。

图1:

预培训数据量如何影响V&L的下游绩效BERT(误码率)是吗?我们发现这些模型的性能更相似在接受培训时相同条件此图显示了论文的结果()每个模型在概念标题数据集上预处理10次,并在NLVR2验证任务(∘)上微调一次。标记的面积与预处理数据的数量成正比。结果来自视觉BERT纸张在虚线框中突出显示。

图1:

预培训数据量如何影响V&L的下游绩效BERT(误码率)是吗?我们发现这些模型的性能更相似在接受培训时相同的条件此图显示了论文的结果()每个模型在概念标题数据集上预处理10次,并在NLVR2验证任务(∘)上微调一次。标记的面积与预训练数据的数量成比例。结果来自视觉BERT纸张在虚线框中突出显示。

关闭模态
图2:

拟议V&L的比较BERT(误码率)VQAv2(最常见的下游任务),作为其预处理数据(大小和类型)的函数。

图2:

拟议V&L的比较BERT(误码率)VQAv2(最常见的下游任务),作为其预处理数据(大小和类型)的函数。

关闭模态

总之,我们在本文中的贡献是:

  • 我们引入了一个统一的数学框架,其中当前提出了价值与负债BERT(误码率)s只是可能性的子集。

  • 我们发布的代码伏特(V(V)isi公司石油语言学的T型变压器建筑),1该框架的PyTorch实现,以加快多模式预处理的研究。

  • 我们进行了一系列对照研究2发现几个模型在相同条件下训练时表现相似。

  • 虽然我们发现单流和双流家族表现同样好,但两种模型之间的性能可能存在显著差异,嵌入层起着关键作用。

  • 然而,这些V&LBERT(误码率)s对重量初始化很敏感,不应单次运行就提出最先进的要求。

给定一系列标记{w个1,…,w个T型}和一组视觉特征{v(v)1,…,v(v)K(K)},共同的目标价值与负债BERT(误码率)模型是为了生成对基于这两种模式的下游任务有用的跨模式表示。

在本节中,我们首先回顾了这些模型如何将其输入嵌入到特征空间中。接下来,我们讨论编码器的主要差异,最后,强调可能影响这些模型实现的性能的各种混淆。

2.1输入嵌入

语言输入

全部V和LBERT(误码率)我们采用的方法是BERT(误码率)输入序列首先被标记为子字单元(Wu et al。,2016; Sennrich等人。,2016)和两个特殊代币[CLS公司]和[九月]被添加以生成文本序列{[CLS],w个1,…,w个T型,[SEP]}。然后,每个标记的嵌入由三个可学习向量之和给出,对应于其形式、在序列中的位置和段(Devlin等人。,2019). 此外,VL-贝特(Su等人。,2020)还将整个图像的视觉特征添加到每个标记中。

视觉输入

通常,所有的视觉输入也非常相似价值与负债BERT(误码率)s.对于给定的图像,使用预处理目标检测器提取感兴趣的区域,代表显著的图像区域。对于每个区域,除了其特征向量外,对象检测器还返回其边界框的空间位置价值与负债BERT(误码率)s以不同的方式编码,类似于语言形式中的单词位置。虽然大多数方法都提供了非常类似的嵌入空间位置的方法,VL-贝特依赖于更复杂的几何嵌入,而它们在视觉BERT(Li等人。,2019). 一些模型还包括一个表示整个图像表示的特殊特征[IMG](例如,具有与整个图像对应的空间编码的平均视觉特征)。最后,Pixel-BERT(Huang等人。,2020)不依赖于对象检测器,而是直接从原始图像中提取一组视觉嵌入。

2.2编码器

单流编码器

大多数价值与负债BERT(误码率)s遵循单流范式(Su等人。,2020; Li等人。,2019; Chen等人。,2020; Li等人。,2020年; Zhou等人。,2020; Lin等人。,2020; Li等人。,2020亿). 这里是一个标准BERT(误码率)架构是将图像-文本对的视觉和语言特征串联起来作为输入(图3a). 这种设计允许跨模态信息的早期无约束融合。

图3:

(a)单流、(b)双流模式内和(c)双流模块间变压器层的可视化。(d) 显示了我们的选通双模层。模态间层跨模态进行处理,而模型内层在每个模态内进行处理。我们可以兼顾其中之一或两者。

图3:

(a)单流、(b)双流模式内和(c)双流模块间变压器层的可视化。(d) 显示了我们的选通双模层。跨模态层参与,而模型内层参与每个模态。我们可以兼顾其中之一或两者。

关闭模态
双流编码器

振动贝特(Lu等人。,2019),LXMERT公司(Tan和Bansal,2019)、和欧尼埃·维尔(Yu等人。,2021)基于双流范式。在这里,视觉和语言特征首先由两个独立的Transformer层堆栈处理。4然后将结果表示馈送到跨模式Transformer层中,其中模式内的在相互作用中多式联运交互(请参见图3bc(c)). 有趣的是,两者都是振动贝特LXMERT公司以相同的方式对模式间交互进行建模:每个流首先计算其查询、键和值矩阵,然后将键和值传递给其他模式。通过这样做,这些模型明确限制了每一层模态之间的交互,抑制了单流编码器中可能出现的一些交互,同时通过单独的可学习参数集增加了它们的表达能力。

2.3培训前目标

价值与负债BERT(误码率)通过(加权)尺度化,在标记和图像区域上联合优化多个不同的自监督目标,对s进行预处理:(θ)=o个λo个o个(θ)在这里,θ表示模型参数,o个o个-目标,以及λo个是其相应的重量。通常采用的目标有三种类型:语言、视觉和跨模态预测。

对于语言预测,BERT(误码率)通常使用的是去噪屏蔽语言建模(MLM)目标。MLM用[面具]符号,然后通过使用双向文本上下文和图像区域来预测。

通过蒙版区域建模目标将MLM目标扩展到图像区域。这些通常采取对象分类或特征回归的形式,一些论文显示了在对两者进行建模时的优势(例如,Chen et al。,2020). 一些模型,例如LXMERT公司在对象属性预测方面也进行了优化。

最后,两种模式之间的相互作用是通过跨模式目标来明确实施的。这里的典型任务是图像-文本匹配(ITM;例如,Chen等人。,2020),它扩展了BERT(误码率)的下一句预测目标价值与负债输入:给定一系列标记和一组图像区域,模型的任务是预测标记是否描述图像。

2.4进一步的区别

到目前为止,我们已经概述了V&L中的核心组件BERT(误码率)s.然而,它们之间存在一些实现差异。

例如,LXMERT公司对上述双流模型的描述提出了两个主要变化。首先,在其模态间层中,注意子层的参数在两个流之间共享。这导致模型学习一个单一的函数来将图像和文本输入上下文化,而不管哪种形式扮演查询或上下文的角色。其次,它的模式内层仅由多头部注意块组成。

此外,更广泛的选择可能会影响这些模型的性能。从使用的目标检测器(以及在预处理期间是否也进行了微调),到图像区域的数量和最大文本序列长度,到层的数量及其隐藏大小,到池方法和微调MLP大小,再到纯文本数据的使用,优化超参数(如预训练的epoch数)。

另一个重要区别是预训练数据的大小和类型,这可能会影响任务性能(图2). 预训练数据集的大小在一系列预训练任务中从3M到10M的图像-文本对不等。文献对“域内”和“域外”数据进行了区分,每个数据都可能包含多个数据集。域内数据集与常见的下游任务重叠,例如,使用VQAv2(Goyal等人。,2017)作为预训练任务和下游任务,而域外数据集没有预期的重叠,例如概念标题(Sharma等人。,2018).

在本节中,我们在相同的数学框架下统一了最近提出的单流和双流架构。我们首先回顾了构成这些架构核心的Transformer层,然后解释了该层是如何被用于对V&L BERT中的多模式数据进行编码的,并引入一个门控双模变压器层,该层作为特殊情况实现所有架构变体。

3.1变压器层

基于变压器的架构由一堆变压器层组成(Vaswani等人。,2017),每个通常具有一个多头部注意块(MAB)和一个前馈块(FFB)。

多头注意块
鉴于N个q个查询向量,每个维度d日q个,R(右)N个q个×d日q个、和N个v(v)键-值对K(K)R(右)N个v(v)×d日q个,V(V)R(右)N个v(v)×d日v(v),一个注意力函数Att(,K(K),V(V))使用缩放的点产品将查询映射到输出向量:
收件人(,K(K),V(V))=ω(K(K))V(V)
(1)
哪里ω表示按行缩放的softmax:ω()=软最大值(/d日q个)在这里,S公司=K(K)R(右)N个q个×N个v(v)是一个分数矩阵,用于度量每对查询和密钥向量之间的相似性。等式的输出(1)是以下各项的加权和V(V),其中,如果值的对应键与查询的点积较大,则该值的权重较高。
多头注意力(MHA)通过首先投影来扩展此功能,K(K),V(V)进入之内H(H)不同的矩阵和计算每个投影的注意力(等式(1)). 这些H(H)将不同的输出向量串联在一起([‖]),并用线性变换投影串联W公司O(运行):
MHA公司(,K(K),V(V))=[O(运行)1O(运行)H(H)]W公司O(运行),哪里O(运行)小时=附件W公司小时,K(K)W公司小时K(K),W公司小时V(V).
(2)
在这里,{W公司小时,W公司小时K(K),W公司小时V(V)}小时=1H(H)W公司O(运行)是学习的参数。通常,d日q个=d日v(v)=d日,W公司O(运行)d日×d日、和W公司小时,W公司小时K(K),W公司小时V(V)R(右)d日×d日哪里d日=d日/H(H).
最后,给定输入X(X),Y(Y)N个×d日,多头部注意块定义为:
MAB公司(X(X),Y(Y))=液态氮(X(X)+MHA公司(X(X),Y(Y),Y(Y))),
(3)
其中LN是层归一化(Ba等人。,2016).
前馈块
对于输入矩阵M(M)N个×d日,前馈块由以下公式给出:
FFB公司(M(M))=液态氮(M(M)+ReLU公司(M(M)W公司1)W公司2),
(4)
哪里W公司1,W公司2R(右)d日×d日(f)(f)是可学习的矩阵。
标准变压器层
X(X)N个×d日作为一个嵌入式输入序列,执行自我关注的标准Transformer层是一个参数化函数(f)θ:R(右)N个×d日R(右)N个×d日使得:
(f)θ(X(X))=FFB公司(MAB公司(X(X),X(X))).
(5)
一堆对输入进行编码的转换器层X(X),例如BERT(误码率),然后被视为变压器层,每个参数化为θ:
编码器(X(X))=(f)θ(f)θ1(X(X)).
(6)

3.2单流多模变压器

单流式价值与负债BERT(误码率)s扩展BERT(误码率)通过连接嵌入的视觉输入X(X)V(V)R(右)N个V(V)×d日和嵌入的文本输入X(X)R(右)N个×d日作为单个输入,因此命名为“single-stream”(图3a). 明确地,X(X)=[X(X)X(X)V(V)]R(右)N个×d日,其中N个=N个+N个V(V),并且关注的是这两种方式(图4a). 因此,所有单流模型都是上一节中定义的类型:编码器(X(X)). 各种方法仅在初始阶段有所不同价值与负债嵌入、预训练任务和训练数据。

图4:

可视化(a)单流、(b)文本-文本、(c)视觉-视觉、(d)文本-视觉和(e)视觉-文本交互的得分矩阵。绿色阴影表示文本形态,而紫色阴影表示视觉形态。双流分数是单流分数矩阵的子矩阵。

图4:

可视化(a)单流、(b)文本-文本、(c)视觉-视觉、(d)文本-视觉和(e)视觉-文本交互的得分矩阵。绿色阴影表示文本形态,而紫色阴影表示视觉形态。双流分数是单流分数矩阵的子矩阵。

关闭模态

3.3双流多模式变压器

两者都有振动贝特LXMERT公司同时引入了模态间和模态内层。

模式间变压器层
跨模态层通过跨模态注意模块显式建模跨模态交互。具体来说,让M(M){,V(V)}表示语言(ℒ) 或视觉(V(V))情态,以及它的互补性。模态ℳ的模态间多头部注意由下式给出(图3c):
M(M)M(M)M(M)=MAB公司(X(X)M(M),X(X)M(M)).
(7)
注意,多头部注意块的第二个输入(等式())取自互补情态,这意味着关键K(K)和值V(V)在规模化的网络传播注意力中(等式(1))跨模式操作(参见图4de(电子)). 该层的其余部分如下所示(4).
模式内变压器层
另一方面,模态内层是一个Transformer层,它独立计算每个模态的注意力(请参见图3b). 对于模态ℳ:
M(M)M(M)M(M)=MAB公司(X(X)M(M),X(X)M(M)).
(8)
该层的其余部分如下所示(4)的振动贝特中没有FFB块LXMERT公司.

3.4双流注意作为限制性单流注意

回想一下,在单流模型中,Transformer层的输入是两种模式的串联,X(X)=[X(X)X(X)V(V)]因此,在每个单流注意头中,查询表示形式如下:
=X(X)W公司=X(X)X(X)V(V)W公司=V(V)
(9)
哪里V(V)是输入和结果输出的语言和可视子矩阵。键也有类似的表达式K(K)和值V(V)我们注意到得分矩阵S公司可以定义为四个子矩阵(图4a):
S公司=K(K)=V(V)K(K)K(K)V(V)=K(K)K(K)V(V)V(V)K(K)V(V)K(K)V(V)=S公司S公司V(V)S公司V(V)S公司V(V)V(V)
(10)

从等式中回忆(1)注意矩阵是一个标准化的得分矩阵S公司,因此每个单个流层计算两个模态内(S公司)和模态间注意(反对角线S公司). 换句话说,双流模式间和模式内注意功能在任何单流层中都充当注意功能的受限版本(参见图4).5因此,通过交错模态间和模态内层,双流模型引入了归纳偏倚模型在每个层中对哪些交互进行强制。

3.5门控双模变压器层

在前一节中,我们展示了单流注意块捕获了模态间和模态内的交互,并分别由双流架构建模。我们现在介绍一个通用的门控双模变压器层(图3d)其中,单流层和双流层都是特殊情况。通过这样做,我们可以定义现有的价值与负债BERT(误码率)它允许我们在一个受控环境中实现和评估其中的几个模型(请参阅下一节)。除了文本X(X)和视觉嵌入X(X)V(V),该层采用一组固定的二进制变量{γ,τ}作为其输入的一部分:γ={γV(V),γV(V),γ,γV(V)V(V)}、和τ======================================================================================{τMHA公司,τ液态氮1,τFF公司,τ液态氮2}. 这个γ值充当控制层内跨模式交互的门,而τ值控制参数是否在模式之间绑定。

我们选通层的主要区别在于它的注意函数,最初在公式(1)和等式(2). 这里,我们将其扩展到具有可控多峰相互作用的双峰输入,如下所示:
MHA公司(X(X),X(X)V(V))=[O(运行)1O(运行)H(H)]W公司O(运行)W公司V(V)O(运行)
(11)
哪里W公司O(运行)W公司V(V)O(运行)是语言和视觉输出矩阵。注意力输出Att(,K(K),V(V)),具有一组选通值γ是:
O(运行)=附件X(X)W公司X(X)V(V)W公司V(V),X(X)W公司K(K)X(X)V(V)W公司V(V)K(K),X(X)W公司V(V)X(X)V(V)W公司V(V)V(V);γ=附件V(V),K(K)K(K)V(V),V(V)V(V)V(V);γ=ω(S公司γ)V(V)V(V)V(V)
(12)
从等式中调用(10)得分矩阵S公司γ可以用模态内和模态间子矩阵来定义。这里是选通值γ={γ,γV(V),γV(V),γV(V)V(V)}定义允许的模式内和模式间交互。ε,S公司γ由以下公式给出:
S公司γ=εγS公司εγV(V)S公司V(V)εγV(V)S公司V(V)εγV(V)V(V)S公司V(V)V(V)
(13)

也就是说,当一个注意力闸门γ设置为1时,相应的子矩阵趋向于,而当γ设置为0。通过子矩阵,我们可以有效地计算其他子矩阵上的行向softmax(即注意),从而恢复模式间和模式内的注意。6这类似于自回归变压器解码器中应用的输入屏蔽(Vaswani等人。,2017).

这个公式允许我们控制层内模式间和模式内关注的程度,允许我们在统一数学框架我们可以恢复模态间块(等式(7))通过设置γV(V)=γV(V)=0γ=γV(V)V(V)=1类似地,单流块(等式())可以通过设置恢复γ=0和绑定可学习参数(τ=1)在两条流之间(例如。,W公司=W公司V(V)=W公司在每个注意头部)。

此外,门控双模变压器层允许我们对迄今为止考虑的几个组合的超集进行建模,以便通过多模变压器编码器进行交叉模式融合。人们可以探索两种模式与双模输入以不同方式交互的非对称流,或者探索传统单流和双流块交错的不同方式,甚至探索不同级别的参数共享。例如,非对称视觉和语言层可能有利于导航(例如,Hill等人。,2021)或语言条件下的图像生成(例如,Cho等人。,2020). 对这些可能性的探索有待于未来的工作。

在本节中,我们将介绍我们的受控研究的实验装置价值与负债编码器。

伏特

为了促进价值与负债训练前,我们发布伏特(V(V)isi公司石油语言学的T型变压器架构),在PyTorch中实现我们的统一框架(Paszke等人。,2019). 我们的代码构建在振动钻-MT存储库,7基于PyTorch-Tranformers,由于其支持广泛的V和L任务。我们强调,对于本研究来说,有一个统一的实现是很重要的,它允许我们消除由于实现细节而可能产生的混淆,并有效地测量提议的架构所给出的差异。

实施详细信息

V和LBERT(误码率)s通常使用Faster R-CNN提取图像特征(Ren等人。,2015)根据视觉基因组数据集进行培训(VG;Krishna等人。2017),或者用ResNet-101(He等人。,2016)或ResNeXT-152主干(Xie等人。,2017). 功能的数量从10到100不等。我们的模型使用ResNet-101主干的Faster R-CNN提取的36个感兴趣区域进行训练(Anderson等人。,2018). 每个模型都使用以下参数进行初始化BERT(误码率),遵循原始论文中描述的方法。8随机初始化的权重按照PyTorch-Transformers中的标准方法进行初始化(这些模型基于此):完全连接和嵌入层从平均值为0.0、标准偏差为0.02的正态分布进行初始化,偏差向量初始设置为0.0,层规范化权重向量为1.0。我们在4个NVIDIA P100 GPU上训练所有模型,并依靠梯度累积获得需要的更大批次。基于预训练目标提供最佳验证性能的参数集用于下游任务。

训练前

如§所述2.4,价值与负债BERT(误码率)对不同大小和类型的数据集进行了预处理。9在本文中,我们在概念字幕数据集(CC;Sharma et al。2018)它由330万张图像组成,这些图像带有从数十亿网页中自动收集的弱关联字幕。这与其他数据集形成对比,例如COCO(Lin等人。,2014)或VQA(Antol等人。,2015)图片与众包字幕或问答对紧密相关。CC数据集是学习通用多模态表示的一个很好的候选者,因为它的大小,它是从Web上刮来的,并且它具有广泛的主题覆盖范围。10请注意,由于链接断开,以及随后的修剪阶段,其中的图像还可以在常见的测试集中找到价值与负债任务11删除后,我们将在2.77M的概念标题图片-标题对上对所有模型进行预处理。

下游评估任务

我们考虑用于评估的最常见任务价值与负债BERT(误码率)s、 跨越四个组:基于语音的VQA(Goyal等人。,2017; 哈德森和曼宁,2019),图像-文本检索(Lin等人。,2014; 普卢默等人。,2015),指代表达式(Kazemzadeh等人。,2014; Mao等人。,2016)和多模式验证(Suhr等人。,2019; Xie等人。,2019). 请参见表1了解详细信息。12对于每个模型,使用验证集中性能最佳的参数集进行测试。

表1:

下游统计V和L任务。

数据集图像源列车测试公制
VQAv2版本COCO公司65.5万44.8万VQA-内核
GQA公司COCO+Flickr公司110万12.6公里准确性
参考COCO+COCO公司120公里10.6公里准确性
参考COCOgCOCO公司8万9.6公里准确性
NLVR2型已爬网8.6万7公里准确性
SNLI-VE公司Flickr公司5.29万17.9公里准确性
COCO公司COCO公司56.7万1公里召回@1 
Flirckr30k公司Flickr公司14.5万1公里召回@1 
数据集图像来源列车测试公制
VQAv2版COCO公司65.5万44.8万VQA-内核
GQA公司COCO+Flickr公司110万12.6公里准确性
参考COCO+COCO公司120公里10.6公里准确性
参考COCOgCOCO公司8万9.6公里准确性
NLVR2型已爬网8.6万7公里准确性
SNLI-VE公司Flickr公司5.29万17.9公里准确性
COCO公司COCO公司56.7万1公里召回@1 
Flirckr30k公司Flickr14.5万1公里召回@1 

我们进行了仔细控制的实验,以调查报告中两组之间性能差异的可能原因价值与负债BERT(误码率)第条。

5.1统一数据和重新实现

我们首先检查价值与负债BERT(误码率)在相同的2.7M CC数据集上进行预处理。从调用图2那个价值与负债BERT(误码率)已经对不同的数据集组合进行了预处理,这可能解释了下游任务性能的大多数声称差异。在这里,我们使用官方发布的代码评估了三种模型:振动贝特,13LXMERT公司,VL-贝特.

相同的数据,相似的性能

图5显示了控制预训练数据和预训练任务的结果。报告论文的结果()以及我们使用官方代码对这些模型进行的培训(). 与论文中报告的性能相比,我们在VQAv2、NLVR2和图像检索任务中训练的模型的性能有所下降。考虑到模型的预处理数据少于论文。特别是考虑到振动贝特也在CC上进行了预处理,但使用更多的图像-文本对,我们的结果证实了先前的研究表明,预处理数据大小会降低收益(例如,Lu等人。,2019; Li等人。,2020年). 然而,这些模型之间声称的性能差距变窄当对同一数据进行预处理时。例如,根据文献,LXMERT公司显然是VQA任务中的最佳模型,这可能是因为它使用了大量域内数据和VQA预训练目标。14

图5:

统一数据和重新实施结果。选定的性能V和LBERT(误码率)关于原始论文中的多个任务(),以及当使用其官方代码对2.7M概念字幕进行预训练时()或在中伏特(∘).

图5:

统一数据和重新实施结果。选定的性能价值与负债BERT(误码率)关于原始论文中的多个任务(),以及在使用官方代码对2.7M概念性字幕进行预训练时()或在中伏特(∘).

关闭模态
伏特实施

我们还在中实现了这些模型伏特并使用官方程序和超参数对他们进行培训。图5显示了这些模型(∘)的性能与这些下游任务中的官方实现密切相关,从而证实了我们的框架的正确性。然而,对于某些任务,存在一些较大的差异:在VQAv2中,我们现在看到振动贝特性能略低于其他模型(与我们通过官方代码获得的结果相反),在GQA中,LXMERT公司缩小差距振动贝特.振动贝特的NLVR2和COCO图像检索性能在伏特框架。As伏特基于振动贝特代码库中,这些差异可能是由于权重初始化造成的,我们将在后面的部分中测试这一假设。

通过第一项研究,我们发现价值与负债BERT(误码率)当对同一数据进行训练时,s是相似的。此外,我们在中演示了实现的正确性伏特,其中这些模型是按照§然而,在这些模型所采用的培训过程中,仍然存在许多可能的混淆,这些混淆可能会干扰这些架构的公平比较。在下一节中,我们控制这些变量以揭示由多模式编码器引入的真实增益。

5.2受控设置

我们定义了一组固定的超参数来计算振动贝特,LXMERT公司,VL-贝特,视觉BERT、和单位四个下游任务:VQAv2、RefCOCO+、NLVR2和Flickr30K。

  • 输入:每个模型使用不同的最大令牌数量,并且LXMERT公司没有总体[国际海事组织]功能。我们固定了相同的最大令牌数量,并添加[国际海事组织]每个架构的功能。

  • 编码器:我们注意到振动贝特对视觉流使用了更高维的表示。我们确定了与语言流中相同的维度,以便进行更公平的比较LXMERT公司和更直观的单流模型。

  • 联营:While期间VL-贝特是唯一没有池层的体系结构,其他价值与负债BERT(误码率)我们将其用于图像-文本匹配目标。我们将模型修正为使用乘法池(Lu等人。,2019)对于所有模型,以便分别学习句子级和图像级表示,并对它们的交互进行建模。

  • 培训前目标:每个模型都使用一组不同的预训练目标。我们将其修复为三个:MLM,使用KL离散度的掩蔽对象分类,15和ITM。

  • 微调:我们使用相同的协议和MLP大小对每个模型进行微调。

  • 超参数:同时振动贝特VL-贝特最初经过10个世纪的预训练,LXMERT公司预处理20次。我们将预训练的epoch数固定为10,并将其他超参数(例如,学习率或其预热比例)设置为初始化时的一组随机值,从而使所有模型都能顺利训练,训练曲线紧跟使用原始超参数获得的曲线。16

结果

表2显示了我们对照研究的结果。首先,我们注意到振动贝特VL-贝特与使用其原始超参数进行训练相比类似。事实上,VQAv2性能提高了ViLBERT公司,表明双流模型确实在两个流中需要不同的大小。VL-误码率其性能也与官方设置类似,表明我们控制设置中的附加ITM预训练目标不会影响下游任务性能(与他们论文中报告的结果相反)。然而,我们确实注意到LXMERT公司在我们的受控设置中,NLVR2和VQAv2的性能不如其原始超参数,这表明LXMERT公司可能需要更多的预训练步骤才能收敛。总的来说,结果表明,与官方设置相比,大多数被检查的模型在我们的受控设置中表现相似。

表2:

我们控制设置的结果。每个模型都使用伏特框架在2.7M CC数据集上使用相同的固定超参数,并对下游任务进行微调。

模型VQAv2版参考COCO+NLVR2型Flickr30k手机
测试-dev测试d日试验-P测试IR测试TR
振动贝特底座 68.7 71.4 72.4 59.8 76.7 
LXMERT公司67.1 68.8 69.1 50.4 62.5 
VL-贝特底座 68.3 71.1 72.6 57.9 68.5 
视觉BERT68.2 69.771.3 61.1个75.5 
单位底座 68.871.9 72.9 60.9 74.2 
模型VQAv2版参考COCO+NLVR2型Flickr30k手机
测试-dev测试d日试验-P测试IR测试TR
振动贝特底座 68.7 71.4 72.4 59.8 76.7 
LXMERT公司67.1 68.8 69.1 50.4 62.5 
VL-贝特底座 68.3 71.1 72.6 57.9 68.5 
视觉BERT68.2 69.7 71.361.1 75.5
单位底座 68.8 71.972.9 60.9 74.2 

5.3微调方差

现在,我们将注意力转向微调方差对任务性能的影响。已经观察到BERT(误码率)对初始化和数据排序中的随机性敏感(Dodge等人。,2020). 在此,我们研究了对照研究中使用的五种模型的敏感性。通过改变种子,我们对RefCOCO+和NLVR2任务中的每个模型进行了10次微调。这将更改训练数据顺序和分类层的权重初始化。图7显示了结果分布的小提琴图,其中圆点表示实验观察结果。我们还报告了这两个任务中这些模型的平均标准偏差为0.3点。然而,给定模型的最小和最大分数通常相差1分或更多,这表明了一次微调运行这些模型可以导致不正确的结论。

5.4训练前差异

在上一节中,我们发现价值与负债BERT(误码率)10次微调运行。我们现在调查预训练阶段是否同样受到不同跑步的影响。在这里,我们控制设置中的每个模型都经过10次预处理,并在四个任务上进行一次微调:VQAv2、RefCOCO+、NLVR2和Flickr30K图像-文本检索。通过改变种子,我们修改了训练数据顺序以及所有未从BERT初始化的层(例如,单流模型中的视觉嵌入、屏蔽对象分类头和ITM头)。图6显示了每个任务的小提琴情节。我们首先注意到我们的第一次训练前跑步(表2)第页,共页LXMERT公司是最糟糕的一个(它在Flickr30K上的文本检索召回率比平均值低10个百分点)。我们还确认LXMERT公司收敛速度较慢,其任务性能在10个周期后的差异最大价值与负债BERT(误码率)我们进行了测试。另一方面,我们发现其中一些体系结构不太容易因预处理种子而发生变化,例如振动贝特用于VQA和检索任务,以及单位用于引用表达式。然而,仅由于随机初始化,所有这些模型在几个任务中的性能差异可能超过1点。

图6:

V&L的预训练方差BERT(误码率)s.每个模型预处理10次,微调一次。

图6:

V&L的预训练方差BERT(误码率)s.每个模型预处理10次,微调一次。

关闭模态
图7:

V&L的微调方差BERT(误码率)RefCOCO+和NLVR2上的。每个模型预处理一次,每个任务微调10次。

图7:

V&L的微调方差BERT(误码率)RefCOCO+和NLVR2上的。每个模型预处理一次,每个任务微调10次。

关闭模态

5.5评估局部决策边界

先前的工作表明,最先进的系统可以利用数据中的系统性缺口来学习简单的决策规则,从而在测试数据上实现高性能(Gururangan等人。,2018; Geva等人。,2019; Ribeiro等人。,2019). 为了更准确地估计模型性能,Gardner等人(2020)提议对比度集:数据集,其中现有的测试实例有较小但不断变化的修改,以描述其附近的正确决策边界。图8显示了我们分析的模型在NLVR2对比集上的性能。类似于Gardner等人(2020),我们看到了LXMERT公司在扰动样本上评估时,损失大约15分。此外,在标准测试集上表现更好的模型现在的性能与LXMERT公司表明他们利用了系统性差距。就是说,所有这些价值与负债BERT(误码率)在对分布外数据进行评估时,s的性能类似。

图8:

V&L方差BERT(误码率)当每个模型被预训练10次并微调一次(a),或预训练一次并微调10次(b)时,在NLVR2的Constrastive Set上的s。

图8:

V&L方差BERT(误码率)当每个模型被预训练10次并微调一次(a),或预训练一次并微调10次(b)时,在NLVR2的Constrastive Set上的s。

关闭模态

5.6单流或双流架构

区别于价值与负债BERT(误码率)s是编码器用于处理视觉和语言输入的“流”数。Lu等人(2019)显示了他们的单流基线表现如何比双流基线差振动贝特建筑,而Chen等人(2020)声称的单流单位表现优异振动贝特我们对多个任务和不同的预训练初始化进行了对照研究,这使我们能够通过统计测试提供答案。为此,我们将模型分为双流和单流架构17并进行单向方差分析(表3). 在Bonferroni校正后,我们仅在<0.005(Benjamin等人。,2018)在这两个组之间进行Flickr30K文本检索任务。

表3:

单流和双流架构之间以及所有测试之间的方差分析价值与负债BERT(误码率)s(右)。*表示在Bonferroni校正后<0.005。

数据集单流/双流价值与负债BERT(误码率)
F检验p值F检验p值
VQAv2版11.40 1.7e-03日12.75 2006年8月8日* 
参考COCO+0.10 7.6e-01号111.612.7e-18页* 
NLVR2型8.28 6.5e-03号13.412006年5月5日* 
Flickr30k红外9.64 3月6日-03日13.27 2006年5月5日* 
Flickr30k TR31.14 2.0e-06年* 29.74 7.5e-10条* 
数据集单流/双流价值与负债BERT(误码率)
F检验p值F检验p值
VQAv2版11.40 1.7e-03日12.75 2006年8月8日* 
参考COCO+0.10 7.6e-01号111.61 2.7e-18页* 
NLVR2型8.28 6.5e-03号13.41 2006年5月5日* 
Flickr30k红外9.64 3月6日-03日13.27 2006年5月5日* 
Flickr30k TR2014年11月31日2.0e-06年* 29.74 7.5至10* 

另一方面,在不同的价值与负债BERT(误码率)s、 在不将它们分组为单流或双流架构的情况下,返回每个任务的统计显著性(表3). 该表告诉我们,模型具有相同的平均性能的零假设不成立。然而,它不允许我们辨别统计差异所在。为此,我们在显著性水平上进行了事后精确测试< 0.005.图9显示了相应的成对-并强调了Bonferroni修正后任何两个模型之间的显著差异。例如,振动贝特在Flickr30k上的文本检索中与所有其他模型相比有显著差异,而单位在RefCOCO+上有显著差异。

图9:

任意两个之间的精确测试价值与负债BERT(误码率)s.每个框显示-对应模型对的值。绿色方框表示Bonferroni校正后0.005的统计显著性。如果模型位于-axis的表现优于x个-轴,反之亦然。

图9:

任意两个之间的精确测试价值与负债BERT(误码率)s.每个框显示-对应模型对的值。绿框表示Bonferroni校正后的统计显著性为0.005。如果模型位于-轴的性能优于x个-轴,反之亦然。

关闭模态

5.7嵌入的重要性

最后,我们的受控设置让我们找到了一个有趣的发现:嵌入层(§2.1)在价值与负债BERT(误码率)事实上VL-贝特,视觉BERT,单位在我们的设置中是它们的嵌入层。图6图7表明这可能会对下游性能产生重大影响,尽管文献很少关注这一细节。例如,Chen等人(2020)声称单位是一组预训练任务,而我们的结果(其中所有模型都是针对相同的预训练任务训练的)强调了它们的嵌入层是最终性能的一个重要混淆因素。有趣的是,视觉BERT是唯一一个在其嵌入中不编码感兴趣区域位置的模型。这导致它在RefCOCO+上的性能大大降低,表明此信息对于此任务非常有用。

鉴于这个结果,我们进行了一个额外的实验,以查看嵌入层是否会对我们的结论产生偏差,从而影响双流和单流性能。为了测试这一点,我们交换了振动贝特(最佳双流)和单位(整体上更好的单流),我们对其进行一次预处理和微调(图10). 与我们之前的结果类似,嵌入对于引用表达式和检索任务特别重要。然而,没有一个单独的嵌入层表现得更好,这证实了双流和单流架构的表现不相上下,并表明需要不同的嵌入策略来最大限度地提高这两个系列的性能价值与负债BERT(误码率)第条。

图10:

交换的结果振动贝特单位嵌入件(★) 与它们预训练10次时的性能相比(方框图)。

图10:

交换的结果振动贝特单位嵌入件(★) 与预处理10次时的性能相比(箱线图)。

关闭模态

5.8限制

本文中的所有实验仅限于使用特定类型的预处理和冻结视觉编码器的模型。虽然大多数价值与负债BERT(误码率)遵循这一范式,一些研究发现,与语言共同学习视觉编码器是有益的(Su等人。,2020; Huang等人。,2020; Radford等人。,2021; Kim等人。,2021). 此外,我们只考虑基本架构变体(用初始化BERT(误码率)底座)研究视觉编码器、预处理数据和更大模型的效果是未来的工作。

虽然我们预计较长的预处理时间对每个模型都有好处,但在我们的受控设置中,我们对每个模型预处理10个小时,以减少资源消耗。在这里,我们还将超参数搜索限制在文献中使用的小网格值上。最后,我们将对各种预训练目标进行彻底、可控的研究,以供未来工作使用。

从可重复研究的角度来看,使用伏特框架价值与负债编码器。第一,伏特减少了因实现差异而产生的混淆,同时还可以与相关工作进行公平比较。其次,可视化和文本数据只需预处理一次,而不需要为每个数据创建特定于模型的格式价值与负债BERT(误码率).

从财务角度来看,预培训所涉及的成本阻碍了许多学术机构的贡献,并阻碍了对多种培训模式的评估,我们表明这对于价值与负债BERT(误码率)s.我们估计,在我们的4个下游任务的受控设置中,预培训单个型号10×需要在AWS上使用一台4-GPU机器两个月,成本约为6000美元,相当于200个GPU计算日。幸运的是,我们可以访问内部服务器,但我们的实验仍然需要1500 GPU天来进行培训和评估。虽然我们能够降低财务成本,但在价值与负债预培训(Strubell等人。,2019).18

我们希望伏特将作为研究的基础价值与负债预培训,实现跨体系结构的简单公平比较,并确保进展不会被混淆。

我们引入并实现了一个统一的数学框架,最近在该框架下提出V和LBERT(误码率)s可以指定为特殊情况。我们在此框架内进行了一系列对照研究,以更好地了解几种模型之间的差异。我们发现,由于随机初始化,所考虑模型的性能在预训练和微调中都有显著差异。我们还发现,当使用相同的超参数和数据进行训练时,这些模型可以获得相似的性能。值得注意的是,一些模型的性能优于其他模型,但我们发现(a)单流和双流模型族不相上下,(b)嵌入层对模型的最终性能起着至关重要的作用。

我们的快节奏领域奖励新方法和最先进成果的贡献(罗杰斯和奥根斯坦,2020)这通常与受控比较和训练多个模型进行方差估计形成对比。在本文中,我们证明了几种视觉和语言表征学习方法在受控环境下相比没有显著差异。这一发现与对LSTM变体的类似研究相呼应(Greff等人。,2017)和变压器(Narang等人。,2021)这并没有比原始模型好多少。展望未来,我们建议价值与负债BERT(误码率)s是在相似的数据集上进行预处理的,研究人员报告了微调方差,以及他们最好的模型。我们希望,我们的研究结果将鼓励对新提出的视觉和语言架构以及其他架构进行更可控的评估。

我们感谢动作编辑雅各布·艾森斯坦(Jacob Eisenstein)和TACL匿名评论员的建设性评论和讨论。该项目获得了欧盟地平线2020研究与创新计划(Marie Skłodowska-Curie赠款协议第801199号)和“高级多语言语音翻译深度学习技术的研究与开发”的资助日本国家信息通信技术研究所(NICT)委托研究。

 ;

欧尼埃·维尔使用双流振动贝特编码器。

4

实际上,振动贝特直接输入从目标探测器获得的图像表示,而LXMERT公司进一步处理它们V(V)层。

5

请注意,为了准确起见,MHA功能的可学习参数需要在模式之间共享(例如,通过LXMERT公司在其模式间块中)。

6

在实践中,我们的实现是高效的,并且不计算对应门设置为1的子矩阵。

8

只有Tan和Bansal(2019)报告称,在从头开始进行预训练时,性能稍好,但他们依赖于大量领域内的人工注释数据。

9

VL-贝特还添加了纯文本数据,以避免过度使用典型的简短句子价值与负债数据集。

10

我们还预计,未来对于低资源语言,这种类型的数据集将更容易收集。

11

中列出的数据集表1,Visual 7W(Zhu等人。,2016),RefCOCO(Kazemzadeh等人。,2014),猜测什么(de Vries等人。,2017)和VCR(Zellers等人。,2019).

12

根据之前的工作,参照Yu等人的区域建议评估了指称表达的准确性(2018).

13

振动贝特按照Lu等人的描述接受培训(2020).

14

令人惊讶的是,对于VQAv2,每个模型在培训期间使用了不同比例的验证集。相反,在我们的实验中,我们使用了官方的训练集,这解释了为什么这里的表现下降幅度最大。

15

Chen等人(2020)结果表明,该对象分类目标是预测遮挡区域的唯一最佳目标。

16

此设置的配置文件是我们存储库的一部分。

17

我们只考虑振动贝特对于双流编码器,由于LXMERT公司的次优性能。

18

我们分发了许多经过预训练的价值与负债BERT(误码率)中的伏特摊销环境成本。

彼得
安德森
,
小东
,
克里斯
比勒
,
达米恩
特尼
,
作记号
约翰逊
,
史蒂芬
古尔德
、和
.
2018
.
自下而上和自上而下关注图像字幕和可视问答
.英寸
IEEE/CVF计算机视觉和模式识别(CVPR)会议记录
,页
6077
6086
.
斯坦尼斯瓦夫
安托尔
,
艾西瓦娅
阿格拉瓦尔
,
佳森
,
玛格丽特
米切尔
,
德鲁夫
巴特拉
,
C、。
劳伦斯·齐特尼克
、和
德维
帕里克
.
2015
.
视觉问答
.英寸
IEEE/CVF国际计算机视觉会议(ICCV)会议记录
,页
2425
2433
.  
吉米·雷
文学士
,
杰米·瑞安
奇洛斯
、和
杰弗里·E·。
辛顿
.
2016
.
层规范化
.
arXiv预打印arXiv:1607.06450
.
丹尼尔·J。
本杰明
,
詹姆斯O。
伯杰
,
马格纳斯
约翰内松
,
布莱恩·A。
诺塞克
,
E.-J.公司。
工资制造者
,
理查德
伯克
,
肯尼思A。
博伦
,
比约恩
布雷姆斯
,
劳伦斯
棕色
,
科林
摄像师
,
大卫
切萨里尼
,
克里斯托弗·D·。
钱伯斯
,
梅利斯
克莱德
,
托马斯·D·。
厨师
,
保罗·德
伯克
,
佐尔坦
迪恩斯
,
安娜
德雷贝
,
肯尼
伊斯瓦兰
,
查尔斯
埃弗森
,
恩斯特
费尔
,
菲奥娜
菲德勒
,
安迪·P。
字段
,
马尔科姆
福斯特
,
爱德华一世。
乔治
,
理查德
冈萨雷斯
,
史蒂文
古德曼
,
埃德温
绿色
,
唐纳德·P·。
绿色
,
安东尼·G。
格林沃尔德
,
贾罗德·D。
哈德菲尔德
,
拉里·V·。
对冲
,
莱昂哈德
持有
,
Teck Hua公司
,
赫伯特
霍伊丁克
,
丹尼尔·J。
赫鲁施卡
,
孝介
今井
,
圭多
Imbens公司
,
约翰P.A。
约安尼迪斯
,
明琼
Jeon(吉恩)
,
詹姆斯·霍兰德
琼斯
,
迈克尔
科奇勒
,
大卫
伯森
,
约翰
列表
,
罗德里克
,
亚瑟
卢皮亚
,
爱德华
机械
,
斯科特·E·。
麦克斯韦
,
迈克尔
麦卡锡
,
唐·A。
摩尔
,
斯蒂芬·L·。
摩根
,
马库斯
穆纳夫
,
信一
中川
,
布伦丹
尼汉
,
蒂莫西·H·。
帕克
,
路易斯
佩里基
,
马尔科
佩鲁吉尼
,
杰夫
鲁德
,
朱迪思
卢梭
,
维多利亚
萨瓦莱
,
费利克斯·D·。
Schönbrodt公司
,
托马斯
塞尔克
,
贝特西
辛克莱
,
达斯汀
廷利
,
特里沙·凡
赞特
,
西蒙
瓦齐雷
,
邓肯·J。
瓦茨
,
克里斯托弗
胜利
,
罗伯特·L·。
沃尔伯特
,
,
克里斯托瓦尔
年轻
,
乔纳森
津曼
、和
瓦伦·E。
约翰逊
.
2018
.
重新定义统计显著性
.
自然-人类行为
,
2
(
1
):
6
10
.,
严纯
,
林杰
,
历城
,
艾哈迈德·艾尔
科利
,
费萨尔
艾哈迈德
,
,
、和
晶晶
线路接口单元
.
2020
.
Uniter:通用图文表示学习
.英寸
欧洲计算机视觉会议
,页
104
120
.
施普林格
.
杰明
,
佳森
,
达斯汀
施温克
,
汉纳纳
哈吉什尔齐
、和
阿那律
肯巴维
.
2020
.
X-LXMERT:多模变压器的绘制、说明和回答问题
.英寸
2020年自然语言处理实证方法会议记录
,页
8785
8805
,
在线
.
计算语言学协会
.
危害
德弗里斯
,
弗洛里安
支柱
,
萨拉斯
钱达尔
,
奥利维尔
派琴
,
雨果
拉罗谢勒
、和
亚伦
库尔维尔
.
2017
.
猜猜怎么了?!通过多模态对话发现视觉对象
.英寸
IEEE计算机视觉和模式识别会议记录
,页
4466
4475
.
雅各布
德夫林
,
明伟
,
肯顿
、和
克里斯蒂娜
图塔诺娃
.
2019
.
BERT:用于语言理解的深层双向变压器的预培训
.英寸
计算语言学协会北美分会2019年会议记录:人类语言技术,第1卷(长篇和短篇论文)
,页
4171
4186
,
明尼苏达州明尼阿波利斯
.
计算语言学协会
.
杰西
道奇牌汽车
,
加布里埃尔
伊尔哈科
,
罗伊
施瓦茨
,
阿里
法尔哈迪
,
汉纳
哈吉什尔齐
、和
诺亚
史密斯
.
2020
.
微调预处理语言模型:权重初始化、数据顺序和提前停止
.
arXiv预打印arXiv:2002.06305
.
马特
加德纳
,
约夫
阿尔齐
,
维多利亚
巴斯莫夫
,
乔纳森
贝兰特
,
博金
,
商山四皓
,
普拉迪普
达西吉
,
迪鲁
杜瓦
,
亚奈
拉扎尔
,
阿南斯
戈图穆卡拉
,
尼提斯语
古普塔
,
汉纳纳
哈吉什尔齐
,
加布里埃尔
伊尔哈科
,
丹尼尔
卡沙比
,
凯文
,
江明
线路接口单元
,
纳尔逊·F·。
线路接口单元
,
菲比
穆尔凯尔
,
羌族
,
萨米尔
辛格
,
诺亚A。
史密斯
,
桑贾伊
Subramanian语
,
雷特
沙法提
,
埃里克
华莱士
,
盟友
、和
.
2020
.
利用对比集评价模型的局部决策边界
.英寸
计算语言学协会的研究结果:EMNLP 2020
,页
1307
1323
,
在线
.
计算语言学协会
.
莫尔
盖娃
,
约夫
戈德伯格
、和
乔纳森
贝兰特
.
2019
.
我们是为任务建模还是为注释器建模?自然语言理解数据集中注释者偏见的研究
.英寸
2019年自然语言处理实证方法会议和第九届自然语言处理国际联席会议(EMNLP-IJCNLP)论文集
,页
1161
1166
,
中国香港
.
计算语言学协会
.
亚什
戈亚尔
,
特哈斯
科特
,
道格拉斯
夏季住宿
,
德鲁夫
巴特拉
、和
德维
帕里克
.
2017
.
让VQA中的V变得重要:提升图像理解在视觉问答中的作用
.英寸
IEEE/CVF计算机视觉和模式识别(CVPR)会议记录
,页
6325
6334
.
克劳斯
格雷夫
,
鲁佩什·K。
斯里瓦斯塔瓦
,
库特尼克
,
巴斯·R。
Steunebrink公司
、和
尤尔根
施米德胡贝
.
2017
.
LSTM:搜索空间之旅
.
IEEE神经网络和学习系统汇刊
,
28
(
10
):
2222
2232
.,
素臣
古鲁兰根
,
斯瓦巴
斯瓦亚姆迪普塔
,
奥马尔
征收
,
罗伊
施瓦茨
,
塞缪尔
鲍曼
、和
诺亚A。
史密斯
.
2018
.
自然语言推理数据中的注释工件
.英寸
计算语言学协会北美分会2018年会议记录:人类语言技术,第2卷(短文)
,页
107
112
,
路易斯安那州新奥尔良
.
计算语言学协会
.
开明
,
香玉
,
邵庆
、和
太阳
.
2016
.
用于图像识别的深度残差学习
.英寸
IEEE/CVF计算机视觉和模式识别(CVPR)会议记录
,页
770
778
.
费利克斯
希尔
,
奥利维尔
蒂勒曼
,
塔马拉·冯
格伦(Glehn)
,
纳撒尼尔
Wong(王)
,
哈姆扎
Merzic公司
、和
史蒂芬
克拉克
.
2021
.
扎根的语言学习速度快而慢
.英寸
学习代表国际会议
.
志诚
,
昭阳
,
线路接口单元
,
冬梅
、和
建龙
.
2020
.
像素-局部:通过深度多模式变换器将图像像素与文本对齐
.
arXiv预印本arXiv:2004.00849
.
德鲁A。
哈德逊
克里斯托弗·D·。
曼宁
.
2019
.
GQA:一个用于真实世界视觉推理和合成问答的新数据集
.英寸
IEEE/CFF计算机视觉与模式识别会议论文集(CVPR)
,页
6700
6709
.
萨哈尔
卡齐姆扎德
,
维森特
奥多涅斯
,
作记号
马顿
、和
塔马拉
伯格
.
2014
.
裁判游戏:指自然场景照片中的物体
.英寸
2014年自然语言处理实证方法会议记录
,页
787
798
,
卡塔尔多哈
.
计算语言学协会
.
Wonjae村
基姆
,
博京
儿子
、和
伊尔杜
基姆
.
2021
.
VILT:无卷积或区域监督的视觉和语言转换器
.
arXiv预打印arXiv:2102.03334
.
岚吉
克里希纳
,
尤克
,
奥利弗
格罗斯
,
贾斯廷
约翰逊
,
Kenji公司
哈塔
,
约书亚
克拉维茨
,
斯蒂芬妮
,
亚尼斯
卡拉迪斯
,
李佳
,
大卫·A·。
沙玛
,
迈克尔·S。
伯恩斯坦
飞飞
.
2017
.
视觉基因组:使用众包密集图像注释连接语言和视觉
.
国际计算机视觉杂志
,
123
(
1
):
32
73
.
发电机
,
,
岳建
,
、和
大新县
.
2020年
.
Unicoder-VL:通过跨模式预训练实现的视觉和语言通用编码器
.
AAAI人工智能会议记录
,
34
(
07
):
11336
11344
.
流年哈罗德
,
作记号
Yatskar公司
,
Da公司
,
赵菊(Cho-Jui)
、和
凯威
.
2019
.
VisualBERT:视觉和语言的简单而有效的基线
.
arXiv预印本arXiv:1908.03557
.
秀军
,
Xi(希)
,
春园
,
彭川
,
小伟
,
,
丽娟
,
后东
,
,
富鲁
世界环境学会
等。
2020亿
.
奥斯卡:视觉语言任务的目标语义一致的预训练
.英寸
欧洲计算机视觉会议
,页
121
137
.
施普林格
.
君阳
,
,
宜昌
,
线路接口单元
,
景仁
、和
红霞
.
2020
.
Interbert:多模式预训练的视觉和语言交互
.
arXiv预打印arXiv:2003.13198
.
宗毅
,
迈克尔
梅尔
,
谢尔盖
属于
,
詹姆斯
海斯
,
彼得罗
佩罗娜
,
德瓦
拉马南
,
彼得
多拉
、和
C、。
劳伦斯·齐特尼克
.
2014
.
Microsoft COCO:上下文中的通用对象
.英寸
欧洲计算机视觉会议
,页
740
755
,
查姆
.
施普林格
.
佳森
,
德鲁夫
巴特拉
,
德维
帕里克
、和
斯特凡
.
2019
.
VilBERT:为视觉和语言任务预先训练任务认知视觉语言表征
.英寸
神经信息处理系统研究进展
,页
13
23
.
Curran Associates公司。
佳森
,
韦达努吉
戈斯瓦米
,
马库斯
罗尔巴赫
,
德维
帕里克
、和
斯特凡
.
2020
.
12合1:多任务视觉和语言表征学习
.英寸
IEEE/CVF计算机视觉和模式识别(CVPR)会议记录
,页
10434
10443
.
J。
毛泽东
,
J。
,
答:。
托舍夫
,
O。
坎布鲁
,
答:。
尤伊尔
、和
英国。
墨菲
.
2016
.
生成和理解明确的对象描述
.英寸
IEEE/CVF计算机视觉和模式识别(CVPR)会议记录
,页
11
20
.
沙兰
纳朗
,
Hyung Won先生
,
泰伊
,
威廉
费杜斯
,
蒂伯特
费夫里
,
迈克尔
马泰纳
,
卡里什马
马尔康语
,
诺亚
费德尔
,
诺姆
沙泽尔
,
镇中
局域网
,
焉耆
,
世界环境学会
,
,
满意的
马库斯
,
亚当
罗伯茨
、和
科林
拉斐尔
.
2021
.
变压器修改是否会在实现和应用程序之间转移?
arXiv预印arXiv:2102.11972
.
亚当
帕斯克
,
山姆
总量
,
弗朗西斯科
马萨
,
亚当
莱雷尔
,
詹姆斯
布拉德伯里
,
格雷戈里
沙南
,
特雷弗
基林
,
Zeming公司
,
纳塔利娅
吉梅尔谢恩
,
卢卡
安蒂加
,
奥尔本
德迈松
,
安德烈亚斯
科普夫
,
爱德华
,
扎卡里
德维托
,
马丁
Raison公司
,
阿利坎
特贾尼语
,
萨桑克
奇拉姆库蒂
,
贝诺特
斯坦纳
,
,
俊杰
、和
苏米思
钦塔拉
.
2019
.
PyTorch:一个命令式、高性能的深度学习库
.英寸
H。
瓦拉赫
,
H。
拉罗谢勒
,
答:。
贝格尔齐默
,
F、。
d'Alché-Buc
,
E.公司。
福克斯
、和
R。
加内特
,编辑,
神经信息处理系统研究进展
,页
8024
8035
,
柯兰联合公司。
布莱恩A。
水管工
,
李伟
,
克里斯·M·。
塞万提斯
,
胡安·C。
凯塞多
,
朱莉娅
曲棍球运动员
、和
斯维特拉纳
拉泽布尼克
.
2015
.
Flickr30k实体:为更丰富的图像到句子模型收集区域到短语的对应关系
.英寸
IEEE/CVF国际计算机视觉会议(ICCV)会议记录
,页
2641
2649
,
美国
.
IEEE计算机学会
.
,
,
歌曲
,
爱德华
,
鞑靼
巴蒂
、和
阿伦
萨凯蒂
.
2020
.
ImageBERT:使用大规模弱监督图像文本数据进行跨模式预训练
.
arXiv预打印arXiv:2001.07966
.
亚历克
拉德福德
,
钟郁(Jong Wook)
基姆
,
克里斯
神圣性
,
阿迪亚
拉梅什
,
加布里埃尔
,
桑迪尼
阿加瓦尔
,
吉里什
萨斯特里
,
阿曼达
阿斯科尔
,
帕梅拉
米什金
,
杰克
克拉克
,
格雷琴
克鲁格
、和
伊利亚
Sutskever公司
.
2021
.
从自然语言监控中学习可转换的视觉模型
.
arXiv预打印arXiv:2103.0020
.
邵庆
,
开明
,
罗斯
吉尔西克
、和
太阳
.
2015
.
更快的R-CNN:利用区域建议网络实现实时目标检测
.英寸
C、。
科尔特斯
,
N.D.公司。
劳伦斯
,
D.D.博士。
,
M。
杉山
、和
R。
加内特
,编辑,
神经信息处理系统研究进展
,页
91
99
.
Curran Associates公司。
马尔科·图里奥
里韦罗
,
卡洛斯
嘉宾林
、和
萨米尔
辛格
.
2019
.
红玫瑰是红色的吗?评估问题回答模型的一致性
.英寸
计算语言学协会第57届年会会议记录
,页
6174
6184
,
意大利佛罗伦萨
.
计算语言学协会
.
安娜
罗杰斯
伊莎贝尔
奥根斯坦
.
2020
.
我们可以做些什么来改进NLP中的同行评审?
计算语言学协会的研究结果:EMNLP 2020
,页
1256
1262
,
在线
.
计算语言学协会
.
里科
森里希
,
巴里
哈多
、和
亚历山德拉
桦木
.
2016
.
带有子词单元的稀有词的神经机器翻译
.英寸
计算语言学协会第54届年会论文集(第一卷:长篇论文)
,页
1715
1725
,
德国柏林
.
计算语言学协会
.
阿里·谢里夫
拉扎维亚语
,
侯赛因
阿齐兹普尔
,
约瑟芬
沙利文
、和
斯特凡
卡尔森
.
2014
.
美国有线电视新闻网(CNN)的特辑:一个令人震惊的识别基线
.英寸
IEEE/CVF计算机视觉和模式识别(CVPR)研讨会会议记录
,页
512
519
.
皮尤什
沙尔马
,
,
塞巴斯蒂安
古德曼
、和
Radu公司
索里科特
.
2018
.
概念性字幕:用于自动图像字幕的干净的、超名的图像互文数据集
.英寸
计算语言学协会第56届年会论文集(第一卷:长篇论文)
,页
2556
2565
,
澳大利亚墨尔本
.
计算语言学协会
.
艾玛
斯特鲁贝尔
,
阿纳尼亚
加内什
、和
安德鲁
麦卡卢姆
.
2019
.
NLP深度学习的能源和政策考虑
.英寸
计算语言学协会第57届年会会议记录
,页
3645
3650
,
意大利佛罗伦萨
.
计算语言学协会
.
魏杰
,
溪州
,
,
箱子
,
莱韦
,
富鲁
世界环境学会
、和
机锋网
.
2020
.
Vl-BERT:通用视觉语言表示的预训练
.英寸
学习代表国际会议
.
阿兰
苏尔
,
斯蒂芬妮
,
盟友
,
鸢尾花
,
华骏
、和
约夫
阿尔齐
.
2019
.
基于照片的自然语言推理语料库
.英寸
计算语言学协会第57届年会会议记录
,页
6418
6428
,
意大利佛罗伦萨
.
计算语言学协会
.
棕褐色
莫希特
班萨尔
.
2019
.
LXMERT:从变压器学习交叉模态编码器表示
.英寸
2019年自然语言处理实证方法会议和第九届国际自然语言处理联合会议(EMNLP-IJCNLP)会议记录
,页
5100
5111
,
中国香港
.
计算语言学协会
.
阿施施
瓦斯瓦尼
,
诺姆
沙泽尔
,
尼基
帕尔玛
,
雅各布
乌兹科雷特
,
利昂
琼斯
,
艾丹·N。
戈麦斯
,
Ł乌卡斯
凯撒
、和
伊利亚
波洛苏欣
.
2017
.
注意力就是你所需要的
.
一、。
盖恩
,
紫外线。
卢克斯堡
,
美国。
本吉奥
,
H。
瓦拉赫
,
R。
弗格斯
,
美国。
维什瓦纳坦
、和
R。
加内特
,编辑,
神经信息处理系统研究进展
,页
5998
6008
.
Curran Associates公司。
永辉
,
迈克
舒斯特
,
志峰
,
Quoc V.公司。
,
穆罕默德
诺鲁齐
,
沃尔夫冈
马舍雷
,
马克西姆
克里昆
,
,
,
克劳斯
马舍雷
,
杰夫
克林纳
,
普瓦
沙阿
,
梅尔文
约翰逊
,
小兵
线路接口单元
,
Ł乌卡斯
凯撒
,
斯蒂芬
葫芦
,
吉隆坡(Yoshikiyo)
加藤
,
塔库
工藤
,
Hideto公司
哈萨克斯坦
,
基思
史蒂文斯
,
乔治
库里亚语
,
尼尚特
帕蒂尔
,
世界环境学会
,
悬崖
年轻
,
杰森
史密斯
,
杰森
里萨
,
亚历克斯
鲁德尼克
,
奥里奥尔
葡萄酒
,
格雷格
科拉多
,
麦克达夫
休斯
、和
杰弗里
院长
.
2016
.
谷歌的神经机器翻译系统:缩小人机翻译之间的差距
.
arXiv预打印arXiv:1609.08144
.
,
法利
,
德里克
多兰
、和
阿西姆
卡达夫
.
2019
.
视觉蕴涵:细粒度图像理解的新任务
.
arXiv预打印arXiv:1901.06706
.
赛宁
,
罗斯
吉尔西克
,
彼得
多拉
,
卓文
、和
开明
.
2017
.
深度神经网络的聚合残差变换
.英寸
IEEE/CVF计算机视觉和模式识别(CVPR)会议记录
,页
5987
5995
.
,
吉吉
,
魏冲
,
太阳
,
,
、和
海丰
.
2021
.
Ernie-vil:通过场景图进行知识增强的视觉语言表示
.
AAAI人工智能会议记录
.
历城
,
,
小慧
,
集美
,
Xin(新)
,
莫希特
班萨尔
、和
塔马拉L。
伯格
.
2018
.
Mattnet:用于参考表达理解的模块化注意力网络
.英寸
IEEE计算机视觉和模式识别会议记录
,页
1307
1315
.
罗文
Zellers公司
,
约纳坦
比斯克
,
阿里
法尔哈迪
、和
Yejin公司
.
2019
.
从认知到认知:视觉常识推理
.英寸
IEEE/CVF计算机视觉和模式识别(CVPR)会议记录
,页
6713
6724
.
罗威
,
哈米德
帕朗吉
,
,
后东
,
杰森
科尔索
、和
尖峰
.
2020
.
图像字幕和vqa的统一视觉语言预培训
.
AAAI人工智能会议记录
,
34
(
07
):
13041
13049
.
年。
,
O。
格罗斯
,
M。
伯恩斯坦
、和
L。
飞飞
.
2016
.
Visual7w:图像中的接地问答
.英寸
2016年IEEE计算机视觉与模式识别会议(CVPR)
,页
4995
5004
.
这是一篇根据Creative Commons Attribution 4.0 International License条款发布的开放存取文章,该条款允许在任何媒体上不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。有关许可证的完整描述,请访问https://creativecommons.org/licenses/by/4.0/legalcode