Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs

Bugliarello, Emanuele; Cotterell, Ryan; Okazaki, Naoaki; Elliott, Desmond

doi:10.1162/tacl_a_00408

摘要

大规模预处理和特定任务的微调现在是计算机视觉和自然语言处理中许多任务的标准方法。最近，人们提出了多种视觉和语言预训练方法BERT（误码率）这些模型可以分为单流或双流编码器。我们研究了这两个类别之间的差异，并展示了如何在一个单一的理论框架下统一它们。然后，我们进行了控制实验，以辨别五种视觉和语言之间的经验差异BERT（误码率）我们的实验表明，训练数据和超参数是造成报告结果之间大多数差异的原因，但它们也揭示了嵌入层在这些海量模型中起着关键作用。

1 介绍

从与句子配对的图像中学习通用的多模态表示是实现视觉和语言单一界面的基本步骤(价值与负债)任务。为了实现这个目标，许多人都经过了预先训练价值与负债受计算机视觉预训练成功的启发，去年提出了模型（Sharif Razavian等人。，2014)和自然语言处理（Devlin等人。，2019). 所有这些价值与负债模型扩展BERT（误码率）（Devlin等人。，2019)学习基于这两种方式的表征。它们可以归类为（i）单流，其中图像和文本由单个编码器联合处理（例如，Zhou等人。，2020)，或（ii）双流，其中输入在联合建模之前单独编码（例如Tan和Bansal，2019).

单流和双流模型之间下游性能的差异目前尚不清楚，一些论文声称一个家族优于另一个家族（Lu等人。，2019; Chen等人。，2020)而其他人则认为很难得出任何结论（Qi等人。，2020).

本文的第一个目标是了解单流和双流模型之间的数学差异。我们的分析导致了一个统一的框架，其中当前提出的架构，无论是单流还是双流，都是特定的实例。然后，我们在这个框架内实现了几个提出的编码器，以在受控环境中凭经验测量它们的差异。我们认为，这种比较分析对于更好地理解和指导人工智能这一充满活力的领域中大规模模型的未来研究至关重要，确保进展不会因混淆而模糊。

事实上，用于训练的协议有很多不同价值与负债BERT（误码率）s.为了更好地理解这些模型，我们进行了一系列受控研究，以调查下游绩效差异是否由以下因素解释：（i）预培训数据量和预培训目标（例如。，图2); （ii）用于控制学习过程的超参数；（iii）预培训时随机初始化引起的差异（例如。，图1); （iv）下游任务多次微调导致的差异；（v）单流或双流架构；或（vi）嵌入层的选择。

图1：

预训练数据量如何影响V&L BERT的下游性能？我们发现，在相同条件下训练时，这些模型的表现更为相似。这个图显示了论文的结果(◊), 当每个模型在概念标题数据集上预处理10次，并在NLVR2验证任务上微调一次时（∘）。标记的面积与预处理数据的数量成正比。VisualBERT论文的结果以虚线框突出显示。

查看大型下载幻灯片

预培训数据量如何影响V&L的下游绩效BERT（误码率）是吗？我们发现这些模型的性能更相似在接受培训时相同条件此图显示了论文的结果(◊)每个模型在概念标题数据集上预处理10次，并在NLVR2验证任务（∘）上微调一次。标记的面积与预处理数据的数量成正比。结果来自视觉BERT纸张在虚线框中突出显示。

图2：

VQAv2（最常见的下游任务）上拟议V&L BERT的比较，作为其预处理数据（大小和类型）的函数。

查看大型下载幻灯片

拟议V&L的比较BERT（误码率）VQAv2（最常见的下游任务），作为其预处理数据（大小和类型）的函数。

总之，我们在本文中的贡献是：

我们引入了一个统一的数学框架，其中当前提出了价值与负债BERT（误码率）s只是可能性的子集。
我们发布的代码伏特(V（V）isi公司石油语言学的T型变压器一建筑），^¹该框架的PyTorch实现，以加快多模式预处理的研究。
我们进行了一系列对照研究^²发现几个模型在相同条件下训练时表现相似。
虽然我们发现单流和双流家族表现同样好，但两种模型之间的性能可能存在显著差异，嵌入层起着关键作用。
然而，这些V&LBERT（误码率）s对重量初始化很敏感，不应单次运行就提出最先进的要求。

2 愿景与语言BERT（误码率）秒

给定一系列标记{w个₁,…,w个_T型}和一组视觉特征{v（v）₁,…,v（v）_K（K）}，共同的目标价值与负债BERT（误码率）模型是为了生成对基于这两种模式的下游任务有用的跨模式表示。

在本节中，我们首先回顾了这些模型如何将其输入嵌入到特征空间中。接下来，我们讨论编码器的主要差异，最后，强调可能影响这些模型实现的性能的各种混淆。

2.1 输入嵌入

语言输入

全部V和LBERT（误码率）我们采用的方法是BERT（误码率）输入序列首先被标记为子字单元（Wu et al。，2016; Sennrich等人。，2016)和两个特殊代币[CLS公司]和[九月]被添加以生成文本序列{[CLS]，w个₁,…,w个_T型，[SEP]}。然后，每个标记的嵌入由三个可学习向量之和给出，对应于其形式、在序列中的位置和段（Devlin等人。，2019). 此外，VL-贝特（Su等人。，2020)还将整个图像的视觉特征添加到每个标记中。

视觉输入

通常，所有的视觉输入也非常相似价值与负债BERT（误码率）s.对于给定的图像，使用预处理目标检测器提取感兴趣的区域，代表显著的图像区域。对于每个区域，除了其特征向量外，对象检测器还返回其边界框的空间位置价值与负债BERT（误码率）s以不同的方式编码，类似于语言形式中的单词位置。虽然大多数方法都提供了非常类似的嵌入空间位置的方法，VL-贝特依赖于更复杂的几何嵌入，而它们在视觉BERT（Li等人。，2019). 一些模型还包括一个表示整个图像表示的特殊特征[IMG]（例如，具有与整个图像对应的空间编码的平均视觉特征）。最后，Pixel-BERT（Huang等人。，2020)不依赖于对象检测器，而是直接从原始图像中提取一组视觉嵌入。

2.2 编码器

单流编码器

大多数价值与负债BERT（误码率）s遵循单流范式（Su等人。，2020; Li等人。，2019; Chen等人。，2020; Li等人。，2020年; Zhou等人。，2020; Lin等人。，2020; Li等人。，2020亿). 这里是一个标准BERT（误码率）架构是将图像-文本对的视觉和语言特征串联起来作为输入(图3a). 这种设计允许跨模态信息的早期无约束融合。

图3：

（a）单流、（b）双流模式内和（c）双流模块间变压器层的可视化。（d）显示了我们的选通双模层。跨模态层参与，而模型内层参与每个模态。我们可以兼顾其中之一或两者。

查看大型下载幻灯片

（a）单流、（b）双流模式内和（c）双流模块间变压器层的可视化。（d）显示了我们的选通双模层。模态间层跨模态进行处理，而模型内层在每个模态内进行处理。我们可以兼顾其中之一或两者。

双流编码器

振动贝特（Lu等人。，2019),LXMERT公司（Tan和Bansal，2019)、和欧尼埃·维尔（Yu等人。，2021)^{^三}基于双流范式。在这里，视觉和语言特征首先由两个独立的Transformer层堆栈处理。^⁴然后将结果表示馈送到跨模式Transformer层中，其中模式内的在相互作用中多式联运交互（请参见图3b和c（c）). 有趣的是，两者都是振动贝特和LXMERT公司以相同的方式对模式间交互进行建模：每个流首先计算其查询、键和值矩阵，然后将键和值传递给其他模式。通过这样做，这些模型明确限制了每一层模态之间的交互，抑制了单流编码器中可能出现的一些交互，同时通过单独的可学习参数集增加了它们的表达能力。

2.3 培训前目标

价值与负债BERT（误码率）通过（加权）尺度化，在标记和图像区域上联合优化多个不同的自监督目标，对s进行预处理： $我 (θ) = \sum_{o个} λ_{o个} 我_{o个} (θ)$ ⁠在这里，θ表示模型参数，ℒ_o个是o个-目标，以及λ_o个是其相应的重量。通常采用的目标有三种类型：语言、视觉和跨模态预测。

对于语言预测，BERT（误码率）通常使用的是去噪屏蔽语言建模（MLM）目标。MLM用[面具]符号，然后通过使用双向文本上下文和图像区域来预测。

通过蒙版区域建模目标将MLM目标扩展到图像区域。这些通常采取对象分类或特征回归的形式，一些论文显示了在对两者进行建模时的优势（例如，Chen et al。，2020). 一些模型，例如LXMERT公司在对象属性预测方面也进行了优化。

最后，两种模式之间的相互作用是通过跨模式目标来明确实施的。这里的典型任务是图像-文本匹配（ITM；例如，Chen等人。，2020)，它扩展了BERT（误码率）的下一句预测目标价值与负债输入：给定一系列标记和一组图像区域，模型的任务是预测标记是否描述图像。

2.4 进一步的区别

到目前为止，我们已经概述了V&L中的核心组件BERT（误码率）s.然而，它们之间存在一些实现差异。

例如，LXMERT公司对上述双流模型的描述提出了两个主要变化。首先，在其模态间层中，注意子层的参数在两个流之间共享。这导致模型学习一个单一的函数来将图像和文本输入上下文化，而不管哪种形式扮演查询或上下文的角色。其次，它的模式内层仅由多头部注意块组成。

此外，更广泛的选择可能会影响这些模型的性能。从使用的目标检测器（以及在预处理期间是否也进行了微调），到图像区域的数量和最大文本序列长度，到层的数量及其隐藏大小，到池方法和微调MLP大小，再到纯文本数据的使用，优化超参数（如预训练的epoch数）。

另一个重要区别是预训练数据的大小和类型，这可能会影响任务性能(图2). 预训练数据集的大小在一系列预训练任务中从3M到10M的图像-文本对不等。文献对“域内”和“域外”数据进行了区分，每个数据都可能包含多个数据集。域内数据集与常见的下游任务重叠，例如，使用VQAv2（Goyal等人。，2017)作为预训练任务和下游任务，而域外数据集没有预期的重叠，例如概念标题（Sharma等人。，2018).

三统一框架

在本节中，我们在相同的数学框架下统一了最近提出的单流和双流架构。我们首先回顾了构成这些架构核心的Transformer层，然后解释了该层是如何被用于对V&L BERT中的多模式数据进行编码的，并引入一个门控双模变压器层，该层作为特殊情况实现所有架构变体。

3.1 变压器层

基于变压器的架构由一堆变压器层组成（Vaswani等人。，2017)，每个通常具有一个多头部注意块（MAB）和一个前馈块（FFB）。

多头注意块

鉴于N个_q个查询向量，每个维度d日_q个,

问 \in {R（右）}^{{N个}_{q个} \times {d日}_{q个}}

⁠、和N个_v（v）键-值对

K（K） \in {R（右）}^{{N个}_{v（v）} \times {d日}_{q个}}, V（V） \in {R（右）}^{{N个}_{v（v）} \times {d日}_{v（v）}}

⁠，一个注意力函数Att(问,K（K）,V（V）)使用缩放的点产品将查询映射到输出向量：

收件人 (问, K（K）, V（V）) = ω (问 {K（K）}^{⊤}) V（V）

(1)

哪里ω表示按行缩放的softmax：

ω_{我} (\cdot) = 软最大值 (\cdot / \sqrt{{d日}_{q个}})

⁠在这里，

S公司 = 问 {K（K）}^{⊤} \in {R（右）}^{{N个}_{q个} \times {N个}_{v（v）}}

是一个分数矩阵，用于度量每对查询和密钥向量之间的相似性。等式的输出()是以下各项的加权和V（V），其中，如果值的对应键与查询的点积较大，则该值的权重较高。

多头注意力（MHA）通过首先投影来扩展此功能问,K（K）,V（V）进入之内H（H）不同的矩阵和计算每个投影的注意力（等式()). 这些H（H）将不同的输出向量串联在一起（[‖]），并用线性变换投影串联W公司^{O（运行）}:

\begin{array}{l} MHA公司 (问, K（K）, V（V）) = [{O（运行）}_{1} ∥ \dots ∥ {O（运行）}_{H（H）}] {W公司}^{O（运行）}, \\ 哪里 {O（运行）}_{小时} = 附件 (问 {W公司}_{小时}^{问}, K（K） {W公司}_{小时}^{K（K）}, 问 {W公司}_{小时}^{V（V）}) . \end{array}

(2)

在这里，

{{W公司}_{小时}^{问}, {W公司}_{小时}^{K（K）}, {W公司}_{小时}^{V（V）}}_{小时 = 1}^{H（H）}

和W公司^{O（运行）}是学习的参数。通常，d日_q个=d日_v（v）=d日,W公司^{O（运行）}∈ℝ^d日×d日、和

{W公司}_{小时}^{问}, {W公司}_{小时}^{K（K）}, {W公司}_{小时}^{V（V）} \in {R（右）}^{d日 \times {d日}_{一}}

哪里d日_一=d日/H（H）.

最后，给定输入X（X）,Y（Y）∈ℝ^N个×d日，多头部注意块定义为：

MAB公司 (X（X）, Y（Y）) = 液态氮 (X（X） + MHA公司 (X（X）, Y（Y）, Y（Y）)),

(3)

其中LN是层归一化（Ba等人。，2016).

前馈块

对于输入矩阵M（M）∈ℝ^N个×d日，前馈块由以下公式给出：

FFB公司 (M（M）) = 液态氮 (M（M） + ReLU公司 (M（M） {W公司}_{1}) {W公司}_{2}),

(4)

哪里

{W公司}_{1}, {W公司}_{2}^{⊤} \in {R（右）}^{d日 \times {d日}_{（f） （f）}}

是可学习的矩阵。

标准变压器层

让X（X）∈ℝ^N个×d日作为一个嵌入式输入序列，执行自我关注的标准Transformer层是一个参数化函数

{（f）}_{θ} : {R（右）}^{N个 \times d日} \to {R（右）}^{N个 \times d日}

使得：

{（f）}_{θ} (X（X）) = FFB公司 (MAB公司 (X（X）, X（X）)) .

(5)

一堆我对输入进行编码的转换器层X（X），例如BERT（误码率），然后被视为我变压器层，每个参数化为θ_我:

编码器 (X（X）) = {（f）}_{θ_{我}} \circ \dots \circ {（f）}_{θ_{1}} (X（X）) .

(6)

3.2 单流多模变压器

单流式价值与负债BERT（误码率）s扩展BERT（误码率）通过连接嵌入的视觉输入 ${X（X）}_{V（V）} \in {R（右）}^{{N个}_{V（V）} \times d日}$ 和嵌入的文本输入 ${X（X）}_{我} \in {R（右）}^{{N个}_{我} \times d日}$ 作为单个输入，因此命名为“single-stream”(图3a). 明确地， $X（X） = [{X（X）}_{我} ∥ {X（X）}_{V（V）}] \in {R（右）}^{N个 \times d日}$ ⁠，其中 $N个 = {N个}_{我} + {N个}_{V（V）}$ ⁠，并且关注的是这两种方式(图4a). 因此，所有单流模型都是上一节中定义的类型：编码器(X（X）). 各种方法仅在初始阶段有所不同价值与负债嵌入、预训练任务和训练数据。

图4：

查看大型下载幻灯片

可视化（a）单流、（b）文本-文本、（c）视觉-视觉、（d）文本-视觉和（e）视觉-文本交互的得分矩阵。绿色阴影表示文本形态，而紫色阴影表示视觉形态。双流分数是单流分数矩阵的子矩阵。

3.3 双流多模式变压器

两者都有振动贝特和LXMERT公司同时引入了模态间和模态内层。

模式间变压器层

跨模态层通过跨模态注意模块显式建模跨模态交互。具体来说，让

M（M） \in {我, V（V）}

表示语言(ℒ) 或视觉(⁠

V（V）

⁠)情态，以及它的互补性。模态ℳ的模态间多头部注意由下式给出(图3c):

{M（M）}_{M（M） ∖ M（M）} = MAB公司 ({X（X）}_{M（M）}, {X（X）}_{M（M）}) .

(7)

注意，多头部注意块的第二个输入（等式())取自互补情态，这意味着关键K（K）和值V（V）在规模化的网络传播注意力中（等式())跨模式操作（参见图4d和e（电子）). 该层的其余部分如下所示().

模式内变压器层

另一方面，模态内层是一个Transformer层，它独立计算每个模态的注意力（请参见图3b). 对于模态ℳ：

{M（M）}_{M（M） M（M）} = MAB公司 ({X（X）}_{M（M）}, {X（X）}_{M（M）}) .

(8)

该层的其余部分如下所示()的振动贝特中没有FFB块LXMERT公司.

3.4 双流注意作为限制性单流注意

回想一下，在单流模型中，Transformer层的输入是两种模式的串联，

X（X） = [{X（X）}_{我} ∥ {X（X）}_{V（V）}]

⁠因此，在每个单流注意头中，查询表示形式如下：

问 = X（X） {W公司}^{问} = (\begin{matrix} {X（X）}_{我} \\ {X（X）}_{V（V）} \end{matrix}) {W公司}^{问} = (\begin{matrix} 问_{我} \\ 问_{V（V）} \end{matrix})

(9)

哪里

(\cdot_{我} \cdot_{V（V）})

是输入和结果输出的语言和可视子矩阵。键也有类似的表达式K（K）和值V（V）我们注意到得分矩阵S公司可以定义为四个子矩阵(图4a):

\begin{array}{l} S公司 = 问 {K（K）}^{⊤} = (\begin{matrix} 问_{我} \\ 问_{V（V）} \end{matrix}) ({K（K）}_{我}^{⊤} {K（K）}_{V（V）}^{⊤}) \\ = (\begin{matrix} 问_{我} {K（K）}_{我}^{⊤} & 问_{我} {K（K）}_{V（V）}^{⊤} \\ 问_{V（V）} {K（K）}_{我}^{⊤} & 问_{V（V）} {K（K）}_{V（V）}^{⊤} \end{matrix}) \\ = (\begin{matrix} {S公司}_{我 我} & {S公司}_{我 V（V）} \\ {S公司}_{V（V） 我} & {S公司}_{V（V） V（V）} \end{matrix}) \end{array}

(10)

从等式中回忆(1)注意矩阵是一个标准化的得分矩阵S公司，因此每个单个流层计算两个模态内（S公司)和模态间注意（反对角线S公司). 换句话说，双流模式间和模式内注意功能在任何单流层中都充当注意功能的受限版本（参见图4).^⁵因此，通过交错模态间和模态内层，双流模型引入了归纳偏倚模型在每个层中对哪些交互进行强制。

3.5 门控双模变压器层

在前一节中，我们展示了单流注意块捕获了模态间和模态内的交互，并分别由双流架构建模。我们现在介绍一个通用的门控双模变压器层(图3d)其中，单流层和双流层都是特殊情况。通过这样做，我们可以定义现有的价值与负债BERT（误码率）它允许我们在一个受控环境中实现和评估其中的几个模型（请参阅下一节）。除了文本X（X）_ℒ和视觉嵌入 ${X（X）}_{V（V）}$ ⁠，该层采用一组固定的二进制变量{γ,τ}作为其输入的一部分： $γ = {γ_{我 V（V）}, γ_{V（V）我}, γ_{我我}, γ_{V（V） V（V）}}$ ⁠、和τ======================================================================================{τ_MHA公司,τ_液态氮1,τ_FF公司,τ_液态氮2}. 这个γ值充当控制层内跨模式交互的门，而τ值控制参数是否在模式之间绑定。

我们选通层的主要区别在于它的注意函数，最初在公式()和等式(). 这里，我们将其扩展到具有可控多峰相互作用的双峰输入，如下所示：

MHA公司 ({X（X）}_{我}, {X（X）}_{V（V）}) = [{O（运行）}_{1} ∥ \dots ∥ {O（运行）}_{H（H）}] (\begin{matrix} {W公司}_{我}^{O（运行）} \\ {W公司}_{V（V）}^{O（运行）} \end{matrix})

(11)

哪里

{W公司}_{我}^{O（运行）}

和

{W公司}_{V（V）}^{O（运行）}

是语言和视觉输出矩阵。注意力输出Att(问,K（K）,V（V）)，具有一组选通值γ是：

\begin{array}{l} O（运行） = 附件 ((\begin{matrix} {X（X）}_{我} {W公司}_{我}^{问} \\ {X（X）}_{V（V）} {W公司}_{V（V）}^{问} \end{matrix}), (\begin{matrix} {X（X）}_{我} {W公司}_{我}^{K（K）} \\ {X（X）}_{V（V）} {W公司}_{V（V）}^{K（K）} \end{matrix}), (\begin{matrix} {X（X）}_{我} {W公司}_{我}^{V（V）} \\ {X（X）}_{V（V）} {W公司}_{V（V）}^{V（V）} \end{matrix}); γ) \\ = 附件 ((\begin{matrix} 问_{我} \\ 问_{V（V）} \end{matrix}), (\begin{matrix} {K（K）}_{我} \\ {K（K）}_{V（V）} \end{matrix}), (\begin{matrix} {V（V）}_{我} \\ {V（V）}_{V（V）} \end{matrix}); γ) \\ = ω ({S公司}_{γ}) (\begin{matrix} {V（V）}_{我} \\ {V（V）}_{V（V）} \end{matrix}) \end{array}

(12)

从等式中调用()得分矩阵S公司_γ可以用模态内和模态间子矩阵来定义。这里是选通值

γ = {γ_{我 我}, γ_{我 V（V）}, γ_{V（V） 我}, γ_{V（V） V（V）}}

定义允许的模式内和模式间交互。让

ε \to - \infty

⁠,S公司_γ由以下公式给出：

{S公司}_{γ} = (\begin{matrix} ε^{γ_{我 我}} {S公司}_{我 我} & ε^{γ_{我 V（V）}} {S公司}_{我 V（V）} \\ ε^{γ_{V（V） 我}} {S公司}_{V（V） 我} & ε^{γ_{V（V） V（V）}} {S公司}_{V（V） V（V）} \end{matrix})

（13）

也就是说，当一个注意力闸门γ设置为1时，相应的子矩阵趋向于 $- \infty$ ⁠，而当γ设置为0。通过子矩阵 $- \infty$ ⁠，我们可以有效地计算其他子矩阵上的行向softmax（即注意），从而恢复模式间和模式内的注意。^⁶这类似于自回归变压器解码器中应用的输入屏蔽（Vaswani等人。，2017).

这个公式允许我们控制层内模式间和模式内关注的程度，允许我们在统一数学框架我们可以恢复模态间块（等式(7))通过设置 $γ_{我 V（V）} = γ_{V（V）我} = 0$ 和 $γ_{我我} = γ_{V（V） V（V）} = 1$ ⁠类似地，单流块（等式(三))可以通过设置恢复γ=0和绑定可学习参数(τ=1)在两条流之间（例如。， ${W公司}_{我}^{问} = {W公司}_{V（V）}^{问} = {W公司}^{问}$ 在每个注意头部）。

此外，门控双模变压器层允许我们对迄今为止考虑的几个组合的超集进行建模，以便通过多模变压器编码器进行交叉模式融合。人们可以探索两种模式与双模输入以不同方式交互的非对称流，或者探索传统单流和双流块交错的不同方式，甚至探索不同级别的参数共享。例如，非对称视觉和语言层可能有利于导航（例如，Hill等人。，2021)或语言条件下的图像生成（例如，Cho等人。，2020). 对这些可能性的探索有待于未来的工作。

4 实验装置

在本节中，我们将介绍我们的受控研究的实验装置价值与负债编码器。

伏特

为了促进价值与负债训练前，我们发布伏特(V（V）isi公司石油语言学的T型变压器一架构），在PyTorch中实现我们的统一框架（Paszke等人。，2019). 我们的代码构建在振动钻-MT存储库，^⁷基于PyTorch-Tranformers，由于其支持广泛的V和L任务。我们强调，对于本研究来说，有一个统一的实现是很重要的，它允许我们消除由于实现细节而可能产生的混淆，并有效地测量提议的架构所给出的差异。

实施详细信息

V和LBERT（误码率）s通常使用Faster R-CNN提取图像特征（Ren等人。，2015)根据视觉基因组数据集进行培训（VG；Krishna等人。2017)，或者用ResNet-101（He等人。，2016)或ResNeXT-152主干（Xie等人。，2017). 功能的数量从10到100不等。我们的模型使用ResNet-101主干的Faster R-CNN提取的36个感兴趣区域进行训练（Anderson等人。，2018). 每个模型都使用以下参数进行初始化BERT（误码率），遵循原始论文中描述的方法。^⁸随机初始化的权重按照PyTorch-Transformers中的标准方法进行初始化（这些模型基于此）：完全连接和嵌入层从平均值为0.0、标准偏差为0.02的正态分布进行初始化，偏差向量初始设置为0.0，层规范化权重向量为1.0。我们在4个NVIDIA P100 GPU上训练所有模型，并依靠梯度累积获得需要的更大批次。基于预训练目标提供最佳验证性能的参数集用于下游任务。

训练前

如§所述2.4,价值与负债BERT（误码率）对不同大小和类型的数据集进行了预处理。^⁹在本文中，我们在概念字幕数据集（CC；Sharma et al。2018)它由330万张图像组成，这些图像带有从数十亿网页中自动收集的弱关联字幕。这与其他数据集形成对比，例如COCO（Lin等人。，2014)或VQA（Antol等人。，2015)图片与众包字幕或问答对紧密相关。CC数据集是学习通用多模态表示的一个很好的候选者，因为它的大小，它是从Web上刮来的，并且它具有广泛的主题覆盖范围。^¹⁰请注意，由于链接断开，以及随后的修剪阶段，其中的图像还可以在常见的测试集中找到价值与负债任务^¹¹删除后，我们将在2.77M的概念标题图片-标题对上对所有模型进行预处理。

下游评估任务

我们考虑用于评估的最常见任务价值与负债BERT（误码率）s、跨越四个组：基于语音的VQA（Goyal等人。，2017; 哈德森和曼宁，2019)，图像-文本检索（Lin等人。，2014; 普卢默等人。，2015)，指代表达式（Kazemzadeh等人。，2014; Mao等人。，2016)和多模式验证（Suhr等人。，2019; Xie等人。，2019). 请参见表1了解详细信息。^¹²对于每个模型，使用验证集中性能最佳的参数集进行测试。

表1：

下游统计V和L任务。

数据集	图像源	列车	测试	公制
VQAv2版本	COCO公司	65.5万	44.8万	VQA-内核
GQA公司	COCO+Flickr公司	110万	12.6公里	准确性
参考COCO+	COCO公司	120公里	10.6公里	准确性
参考COCOg	COCO公司	8万	9.6公里	准确性
NLVR2型	已爬网	8.6万	7公里	准确性
SNLI-VE公司	Flickr公司	5.29万	17.9公里	准确性
COCO公司	COCO公司	56.7万	1公里	召回@1
Flirckr30k公司	Flickr公司	14.5万	1公里	召回@1

数据集	图像来源	列车	测试	公制
VQAv2版	COCO公司	65.5万	44.8万	VQA-内核
GQA公司	COCO+Flickr公司	110万	12.6公里	准确性
参考COCO+	COCO公司	120公里	10.6公里	准确性
参考COCOg	COCO公司	8万	9.6公里	准确性
NLVR2型	已爬网	8.6万	7公里	准确性
SNLI-VE公司	Flickr公司	5.29万	17.9公里	准确性
COCO公司	COCO公司	56.7万	1公里	召回@1
Flirckr30k公司	Flickr	14.5万	1公里	召回@1

5 结果

我们进行了仔细控制的实验，以调查报告中两组之间性能差异的可能原因价值与负债BERT（误码率）第条。

5.1 统一数据和重新实现

我们首先检查价值与负债BERT（误码率）在相同的2.7M CC数据集上进行预处理。从调用图2那个价值与负债BERT（误码率）已经对不同的数据集组合进行了预处理，这可能解释了下游任务性能的大多数声称差异。在这里，我们使用官方发布的代码评估了三种模型：振动贝特,^¹³LXMERT公司，和VL-贝特.

相同的数据，相似的性能

图5显示了控制预训练数据和预训练任务的结果。报告论文的结果(◊)以及我们使用官方代码对这些模型进行的培训(⁠ $□$ ⁠). 与论文中报告的性能相比，我们在VQAv2、NLVR2和图像检索任务中训练的模型的性能有所下降。考虑到 $□$ 模型的预处理数据少于论文。特别是考虑到振动贝特也在CC上进行了预处理，但使用更多的图像-文本对，我们的结果证实了先前的研究表明，预处理数据大小会降低收益（例如，Lu等人。，2019; Li等人。，2020年). 然而，这些模型之间声称的性能差距变窄当对同一数据进行预处理时。例如，根据文献，LXMERT公司显然是VQA任务中的最佳模型，这可能是因为它使用了大量域内数据和VQA预训练目标。^¹⁴

图5：

统一数据和重新实施结果。原始论文中选定的V&LBERT在多个任务上的表现(◊), 以及使用官方代码对2.7M概念性字幕进行预训练时(□) 或者用伏尔塔（Volta）（∘）表示。

查看大型下载幻灯片

统一数据和重新实施结果。选定的性能V和LBERT（误码率）关于原始论文中的多个任务(◊)，以及当使用其官方代码对2.7M概念字幕进行预训练时(⁠ $□$ ⁠)或在中伏特(∘).

伏特实施

我们还在中实现了这些模型伏特并使用官方程序和超参数对他们进行培训。图5显示了这些模型（∘）的性能与这些下游任务中的官方实现密切相关，从而证实了我们的框架的正确性。然而，对于某些任务，存在一些较大的差异：在VQAv2中，我们现在看到振动贝特性能略低于其他模型（与我们通过官方代码获得的结果相反），在GQA中，LXMERT公司缩小差距振动贝特.振动贝特的NLVR2和COCO图像检索性能在伏特框架。As伏特基于振动贝特代码库中，这些差异可能是由于权重初始化造成的，我们将在后面的部分中测试这一假设。

通过第一项研究，我们发现价值与负债BERT（误码率）当对同一数据进行训练时，s是相似的。此外，我们在中演示了实现的正确性伏特，其中这些模型是按照§三然而，在这些模型所采用的培训过程中，仍然存在许多可能的混淆，这些混淆可能会干扰这些架构的公平比较。在下一节中，我们控制这些变量以揭示由多模式编码器引入的真实增益。

5.2 受控设置

我们定义了一组固定的超参数来计算振动贝特,LXMERT公司,VL-贝特,视觉BERT、和单位四个下游任务：VQAv2、RefCOCO+、NLVR2和Flickr30K。

输入：每个模型使用不同的最大令牌数量，并且LXMERT公司没有总体[国际海事组织]功能。我们固定了相同的最大令牌数量，并添加[国际海事组织]每个架构的功能。
编码器：我们注意到振动贝特对视觉流使用了更高维的表示。我们确定了与语言流中相同的维度，以便进行更公平的比较LXMERT公司和更直观的单流模型。
•
联营：While期间VL-贝特是唯一没有池层的体系结构，其他价值与负债BERT（误码率）我们将其用于图像-文本匹配目标。我们将模型修正为使用乘法池（Lu等人。，2019)对于所有模型，以便分别学习句子级和图像级表示，并对它们的交互进行建模。
培训前目标：每个模型都使用一组不同的预训练目标。我们将其修复为三个：MLM，使用KL离散度的掩蔽对象分类，^¹⁵和ITM。
微调：我们使用相同的协议和MLP大小对每个模型进行微调。
超参数：同时振动贝特和VL-贝特最初经过10个世纪的预训练，LXMERT公司预处理20次。我们将预训练的epoch数固定为10，并将其他超参数（例如，学习率或其预热比例）设置为初始化时的一组随机值，从而使所有模型都能顺利训练，训练曲线紧跟使用原始超参数获得的曲线。^¹⁶

结果

表2显示了我们对照研究的结果。首先，我们注意到振动贝特和VL-贝特与使用其原始超参数进行训练相比类似。事实上，VQAv2性能提高了ViLBERT公司，表明双流模型确实不在两个流中需要不同的大小。VL-误码率其性能也与官方设置类似，表明我们控制设置中的附加ITM预训练目标不会影响下游任务性能（与他们论文中报告的结果相反）。然而，我们确实注意到LXMERT公司在我们的受控设置中，NLVR2和VQAv2的性能不如其原始超参数，这表明LXMERT公司可能需要更多的预训练步骤才能收敛。总的来说，结果表明，与官方设置相比，大多数被检查的模型在我们的受控设置中表现相似。

表2：

我们控制设置的结果。每个模型都使用伏特框架在2.7M CC数据集上使用相同的固定超参数，并对下游任务进行微调。

模型	VQAv2版	参考COCO+	NLVR2型	Flickr30k手机
模型	测试-dev	测试^d日	试验-P	测试IR	测试TR
振动贝特_底座	68.7	71.4	72.4	59.8	76.7
LXMERT公司	67.1	68.8	69.1	50.4	62.5
VL-贝特_底座	68.3	71.1	72.6	57.9	68.5
视觉BERT	68.2	69.7	71.3	61.1个	75.5
单位_底座	68.8	71.9	72.9	60.9	74.2

模型	VQAv2版	参考COCO+	NLVR2型	Flickr30k手机
模型	测试-dev	测试^d日	试验-P	测试IR	测试TR
振动贝特_底座	68.7	71.4	72.4	59.8	76.7
LXMERT公司	67.1	68.8	69.1	50.4	62.5
VL-贝特_底座	68.3	71.1	72.6	57.9	68.5
视觉BERT	68.2	69.7	71.3	61.1	75.5
单位_底座	68.8	71.9	72.9	60.9	74.2

5.3 微调方差

现在，我们将注意力转向微调方差对任务性能的影响。已经观察到BERT（误码率）对初始化和数据排序中的随机性敏感（Dodge等人。，2020). 在此，我们研究了对照研究中使用的五种模型的敏感性。通过改变种子，我们对RefCOCO+和NLVR2任务中的每个模型进行了10次微调。这将更改训练数据顺序和分类层的权重初始化。图7显示了结果分布的小提琴图，其中圆点表示实验观察结果。我们还报告了这两个任务中这些模型的平均标准偏差为0.3点。然而，给定模型的最小和最大分数通常相差1分或更多，这表明了一次微调运行这些模型可以导致不正确的结论。

5.4 训练前差异

在上一节中，我们发现价值与负债BERT（误码率）10次微调运行。我们现在调查预训练阶段是否同样受到不同跑步的影响。在这里，我们控制设置中的每个模型都经过10次预处理，并在四个任务上进行一次微调：VQAv2、RefCOCO+、NLVR2和Flickr30K图像-文本检索。通过改变种子，我们修改了训练数据顺序以及所有未从BERT初始化的层（例如，单流模型中的视觉嵌入、屏蔽对象分类头和ITM头）。图6显示了每个任务的小提琴情节。我们首先注意到我们的第一次训练前跑步(表2)第页，共页LXMERT公司是最糟糕的一个（它在Flickr30K上的文本检索召回率比平均值低10个百分点）。我们还确认LXMERT公司收敛速度较慢，其任务性能在10个周期后的差异最大价值与负债BERT（误码率）我们进行了测试。另一方面，我们发现其中一些体系结构不太容易因预处理种子而发生变化，例如振动贝特用于VQA和检索任务，以及单位用于引用表达式。然而，仅由于随机初始化，所有这些模型在几个任务中的性能差异可能超过1点。

图6：

查看大型下载幻灯片

V&L的预训练方差BERT（误码率）s.每个模型预处理10次，微调一次。

图7：

RefCOCO+和NLVR2上V&L BERT的微调方差。每个模型预处理一次，每个任务微调10次。

查看大型下载幻灯片

V&L的微调方差BERT（误码率）RefCOCO+和NLVR2上的。每个模型预处理一次，每个任务微调10次。

5.5 评估局部决策边界

先前的工作表明，最先进的系统可以利用数据中的系统性缺口来学习简单的决策规则，从而在测试数据上实现高性能（Gururangan等人。，2018; Geva等人。，2019; Ribeiro等人。，2019). 为了更准确地估计模型性能，Gardner等人(2020)提议对比度集：数据集，其中现有的测试实例有较小但不断变化的修改，以描述其附近的正确决策边界。图8显示了我们分析的模型在NLVR2对比集上的性能。类似于Gardner等人(2020)，我们看到了LXMERT公司在扰动样本上评估时，损失大约15分。此外，在标准测试集上表现更好的模型现在的性能与LXMERT公司表明他们利用了系统性差距。就是说，所有这些价值与负债BERT（误码率）在对分布外数据进行评估时，s的性能类似。

图8：

当每个模型被预训练10次并微调一次（a），或预训练一次并微调10次（b）时，NLVR2的Constrastive Set上的V&L BERT的方差。

查看大型下载幻灯片

V&L方差BERT（误码率）当每个模型被预训练10次并微调一次（a），或预训练一次并微调10次（b）时，在NLVR2的Constrastive Set上的s。

5.6 单流或双流架构

区别于价值与负债BERT（误码率）s是编码器用于处理视觉和语言输入的“流”数。Lu等人(2019)显示了他们的单流基线表现如何比双流基线差振动贝特建筑，而Chen等人(2020)声称的单流单位表现优异振动贝特我们对多个任务和不同的预训练初始化进行了对照研究，这使我们能够通过统计测试提供答案。为此，我们将模型分为双流和单流架构^¹⁷并进行单向方差分析(表3). 在Bonferroni校正后，我们仅在对<0.005（Benjamin等人。，2018)在这两个组之间进行Flickr30K文本检索任务。

表3：

单流和双流架构之间以及所有测试之间的方差分析价值与负债BERT（误码率）s（右）。^*表示在对Bonferroni校正后<0.005。

数据集	单流/双流		价值与负债BERT（误码率）秒
数据集	F检验	p值	F检验	p值
VQAv2版	11.40	1.7e-03日	12.75	2006年8月8日^*
参考COCO+	0.10	7.6e-01号	111.61	2.7e-18页^*
NLVR2型	8.28	6.5e-03号	13.41	2006年5月5日^*
Flickr30k红外	9.64	3月6日-03日	13.27	2006年5月5日^*
Flickr30k TR	31.14	2.0e-06年^*	29.74	7.5e-10条^*

数据集	单流/双流		价值与负债BERT（误码率）秒
数据集	F检验	p值	F检验	p值
VQAv2版	11.40	1.7e-03日	12.75	2006年8月8日^*
参考COCO+	0.10	7.6e-01号	111.61	2.7e-18页^*
NLVR2型	8.28	6.5e-03号	13.41	2006年5月5日^*
Flickr30k红外	9.64	3月6日-03日	13.27	2006年5月5日^*
Flickr30k TR	2014年11月31日	2.0e-06年^*	29.74	7.5至10^*

另一方面，在不同的价值与负债BERT（误码率）s、在不将它们分组为单流或双流架构的情况下，返回每个任务的统计显著性(表3). 该表告诉我们，模型具有相同的平均性能的零假设不成立。然而，它不允许我们辨别统计差异所在。为此，我们在显著性水平上进行了事后精确测试对< 0.005.图9显示了相应的成对对-并强调了Bonferroni修正后任何两个模型之间的显著差异。例如，振动贝特在Flickr30k上的文本检索中与所有其他模型相比有显著差异，而单位在RefCOCO+上有显著差异。

图9：

任何两个V&LBERT之间的精确测试。每个框显示相应模型对的p值。绿色方框表示Bonferroni校正后0.005的统计显著性。如果y轴上的模型优于x轴上的，则框为深绿色，反之亦然。

查看大型下载幻灯片

任意两个之间的精确测试价值与负债BERT（误码率）s.每个框显示对-对应模型对的值。绿色方框表示Bonferroni校正后0.005的统计显著性。如果模型位于年-axis的表现优于x个-轴，反之亦然。

5.7 嵌入的重要性

最后，我们的受控设置让我们找到了一个有趣的发现：嵌入层（§2.1)在价值与负债BERT（误码率）事实上VL-贝特,视觉BERT，和单位在我们的设置中是它们的嵌入层。图6和图7表明这可能会对下游性能产生重大影响，尽管文献很少关注这一细节。例如，Chen等人(2020)声称单位是一组预训练任务，而我们的结果（其中所有模型都是针对相同的预训练任务训练的）强调了它们的嵌入层是最终性能的一个重要混淆因素。有趣的是，视觉BERT是唯一一个在其嵌入中不编码感兴趣区域位置的模型。这导致它在RefCOCO+上的性能大大降低，表明此信息对于此任务非常有用。

鉴于这个结果，我们进行了一个额外的实验，以查看嵌入层是否会对我们的结论产生偏差，从而影响双流和单流性能。为了测试这一点，我们交换了振动贝特（最佳双流）和单位（整体上更好的单流），我们对其进行一次预处理和微调(图10). 与我们之前的结果类似，嵌入对于引用表达式和检索任务特别重要。然而，没有一个单独的嵌入层表现得更好，这证实了双流和单流架构的表现不相上下，并表明需要不同的嵌入策略来最大限度地提高这两个系列的性能价值与负债BERT（误码率）第条。

图10：

更换ViLBERT和UNITER嵌入件的结果(★) 与预处理10次时的性能相比（箱线图）。

查看大型下载幻灯片

交换的结果振动贝特和单位嵌入件(★) 与它们预训练10次时的性能相比（方框图）。

5.8 限制

本文中的所有实验仅限于使用特定类型的预处理和冻结视觉编码器的模型。虽然大多数价值与负债BERT（误码率）遵循这一范式，一些研究发现，与语言共同学习视觉编码器是有益的（Su等人。，2020; Huang等人。，2020; Radford等人。，2021; Kim等人。，2021). 此外，我们只考虑基本架构变体（用初始化BERT（误码率）_底座)研究视觉编码器、预处理数据和更大模型的效果是未来的工作。

虽然我们预计较长的预处理时间对每个模型都有好处，但在我们的受控设置中，我们对每个模型预处理10个小时，以减少资源消耗。在这里，我们还将超参数搜索限制在文献中使用的小网格值上。最后，我们将对各种预训练目标进行彻底、可控的研究，以供未来工作使用。

6 再现性与环境

从可重复研究的角度来看，使用伏特框架价值与负债编码器。第一，伏特减少了因实现差异而产生的混淆，同时还可以与相关工作进行公平比较。其次，可视化和文本数据只需预处理一次，而不需要为每个数据创建特定于模型的格式价值与负债BERT（误码率）.

从财务角度来看，预培训所涉及的成本阻碍了许多学术机构的贡献，并阻碍了对多种培训模式的评估，我们表明这对于价值与负债BERT（误码率）s.我们估计，在我们的4个下游任务的受控设置中，预培训单个型号10×需要在AWS上使用一台4-GPU机器两个月，成本约为6000美元，相当于200个GPU计算日。幸运的是，我们可以访问内部服务器，但我们的实验仍然需要1500 GPU天来进行培训和评估。虽然我们能够降低财务成本，但在价值与负债预培训（Strubell等人。，2019).^¹⁸

我们希望伏特将作为研究的基础价值与负债预培训，实现跨体系结构的简单公平比较，并确保进展不会被混淆。

7 结论

我们引入并实现了一个统一的数学框架，最近在该框架下提出V和LBERT（误码率）s可以指定为特殊情况。我们在此框架内进行了一系列对照研究，以更好地了解几种模型之间的差异。我们发现，由于随机初始化，所考虑模型的性能在预训练和微调中都有显著差异。我们还发现，当使用相同的超参数和数据进行训练时，这些模型可以获得相似的性能。值得注意的是，一些模型的性能优于其他模型，但我们发现（a）单流和双流模型族不相上下，（b）嵌入层对模型的最终性能起着至关重要的作用。

我们的快节奏领域奖励新方法和最先进成果的贡献（罗杰斯和奥根斯坦，2020)这通常与受控比较和训练多个模型进行方差估计形成对比。在本文中，我们证明了几种视觉和语言表征学习方法在受控环境下相比没有显著差异。这一发现与对LSTM变体的类似研究相呼应（Greff等人。，2017)和变压器（Narang等人。，2021)这并没有比原始模型好多少。展望未来，我们建议价值与负债BERT（误码率）s是在相似的数据集上进行预处理的，研究人员报告了微调方差，以及他们最好的模型。我们希望，我们的研究结果将鼓励对新提出的视觉和语言架构以及其他架构进行更可控的评估。

致谢

我们感谢动作编辑雅各布·艾森斯坦（Jacob Eisenstein）和TACL匿名评论员的建设性评论和讨论。该项目获得了欧盟地平线2020研究与创新计划（Marie Skłodowska-Curie赠款协议第801199号）和“高级多语言语音翻译深度学习技术的研究与开发”的资助日本国家信息通信技术研究所（NICT）委托研究。

笔记

¹

https://github.com/e-bug/volta.

²

https://github.com/e-bug/mpre-unmasked.

^三 ;

欧尼埃·维尔使用双流振动贝特编码器。

⁴

实际上，振动贝特直接输入从目标探测器获得的图像表示，而LXMERT公司进一步处理它们 $我_{V（V）}$ 层。

⁵

请注意，为了准确起见，MHA功能的可学习参数需要在模式之间共享（例如，通过LXMERT公司在其模式间块中）。

6

在实践中，我们的实现是高效的，并且不计算对应门设置为1的子矩阵。

⁷

https://github.com/facebookresearch/vilbert-multi-task网站/.

⁸

只有Tan和Bansal(2019)报告称，在从头开始进行预训练时，性能稍好，但他们依赖于大量领域内的人工注释数据。

⁹

VL-贝特还添加了纯文本数据，以避免过度使用典型的简短句子价值与负债数据集。

¹⁰

我们还预计，未来对于低资源语言，这种类型的数据集将更容易收集。

11

中列出的数据集表1，Visual 7W（Zhu等人。，2016)，RefCOCO（Kazemzadeh等人。，2014)，猜测什么（de Vries等人。，2017)和VCR（Zellers等人。，2019).

¹²

根据之前的工作，参照Yu等人的区域建议评估了指称表达的准确性(2018).

¹³

振动贝特按照Lu等人的描述接受培训(2020).

¹⁴

令人惊讶的是，对于VQAv2，每个模型在培训期间使用了不同比例的验证集。相反，在我们的实验中，我们使用了官方的训练集，这解释了为什么这里的表现下降幅度最大。

¹⁵

Chen等人(2020)结果表明，该对象分类目标是预测遮挡区域的唯一最佳目标。

¹⁶

此设置的配置文件是我们存储库的一部分。

¹⁷

我们只考虑振动贝特对于双流编码器，由于LXMERT公司的次优性能。

¹⁸

我们分发了许多经过预训练的价值与负债BERT（误码率）中的伏特摊销环境成本。

工具书类

彼得

安德森

,

小东

他

,

克里斯

比勒

,

达米恩

特尼

,

作记号

约翰逊

,

史蒂芬

古尔德

、和

雷

张

.

2018

.

自下而上和自上而下关注图像字幕和可视问答

.英寸

IEEE/CVF计算机视觉和模式识别（CVPR）会议记录

，页

6077

–

6086

.

https://doi.org/10.109/CVPR.2018.00636

谷歌学者

交叉参考

斯坦尼斯瓦夫

安托尔

,

艾西瓦娅

阿格拉瓦尔

,

佳森

卢

,

玛格丽特

米切尔

,

德鲁夫

巴特拉

,

C、。

劳伦斯·齐特尼克

、和

德维

帕里克

.

2015

.

视觉问答

.英寸

IEEE/CVF国际计算机视觉会议（ICCV）会议记录

，页

2425

–

2433

.

https://doi.org/10.109/ICCV.2015.279

谷歌学者

交叉参考

吉米·雷

文学士

,

杰米·瑞安

奇洛斯

、和

杰弗里·E·。

辛顿

.

2016

.

层规范化

.

arXiv预打印arXiv:1607.06450

.

谷歌学者

丹尼尔·J。

本杰明

,

詹姆斯O。

伯杰

,

马格纳斯

约翰内松

,

布莱恩·A。

诺塞克

,

E.-J.公司。

工资制造者

,

理查德

伯克

,

肯尼思A。

博伦

,

比约恩

布雷姆斯

,

劳伦斯

棕色

,

科林

摄像师

,

大卫

切萨里尼

,

克里斯托弗·D·。

钱伯斯

,

梅利斯

克莱德

,

托马斯·D·。

厨师

,

保罗·德

伯克

,

佐尔坦

迪恩斯

,

安娜

德雷贝

,

肯尼

伊斯瓦兰

,

查尔斯

埃弗森

,

恩斯特

费尔

,

菲奥娜

菲德勒

,

安迪·P。

字段

,

马尔科姆

福斯特

,

爱德华一世。

乔治

,

理查德

冈萨雷斯

,

史蒂文

古德曼

,

埃德温

绿色

,

唐纳德·P·。

绿色

,

安东尼·G。

格林沃尔德

,

贾罗德·D。

哈德菲尔德

,

拉里·V·。

对冲

,

莱昂哈德

持有

,

Teck Hua公司

霍

,

赫伯特

霍伊丁克

,

丹尼尔·J。

赫鲁施卡

,

孝介

今井

,

圭多

Imbens公司

,

约翰P.A。

约安尼迪斯

,

明琼

Jeon（吉恩）

,

詹姆斯·霍兰德

琼斯

,

迈克尔

科奇勒

,

大卫

伯森

,

约翰

列表

,

罗德里克

小

,

亚瑟

卢皮亚

,

爱德华

机械

,

斯科特·E·。

麦克斯韦

,

迈克尔

麦卡锡

,

唐·A。

摩尔

,

斯蒂芬·L·。

摩根

,

马库斯

穆纳夫

,

信一

中川

,

布伦丹

尼汉

,

蒂莫西·H·。

帕克

,

路易斯

佩里基

,

马尔科

佩鲁吉尼

,

杰夫

鲁德

,

朱迪思

卢梭

,

维多利亚

萨瓦莱

,

费利克斯·D·。

Schönbrodt公司

,

托马斯

塞尔克

,

贝特西

辛克莱

,

达斯汀

廷利

,

特里沙·凡

赞特

,

西蒙

瓦齐雷

,

邓肯·J。

瓦茨

,

克里斯托弗

胜利

,

罗伯特·L·。

沃尔伯特

,

于

谢

,

克里斯托瓦尔

年轻

,

乔纳森

津曼

、和

瓦伦·E。

约翰逊

.

2018

.

重新定义统计显著性

.

自然-人类行为

,

2

(

1

):

6

–

10

.

https://doi.org/10.1038/s41562-017-0189-z

,

严纯

陈

,

林杰

锂

,

历城

于

,

艾哈迈德·艾尔

科利

,

费萨尔

艾哈迈德

,

哲

甘

,

于

程

、和

晶晶

线路接口单元

.

2020

.

Uniter：通用图文表示学习

.英寸

欧洲计算机视觉会议

，页

104

–

120

.

施普林格

.

https://doi.org/10.1007/978-3-030-58577-8_7

谷歌学者

杰明

赵

,

佳森

卢

,

达斯汀

施温克

,

汉纳纳

哈吉什尔齐

、和

阿那律

肯巴维

.

2020

.

X-LXMERT：多模变压器的绘制、说明和回答问题

.英寸

2020年自然语言处理实证方法会议记录

，页

8785

–

8805

,

在线

.

计算语言学协会

.

https://doi.org/10.18653/v1/2020.emnlp-main.707

谷歌学者

危害

德弗里斯

,

弗洛里安

支柱

,

萨拉斯

钱达尔

,

奥利维尔

派琴

,

雨果

拉罗谢勒

、和

亚伦

库尔维尔

.

2017

.

猜猜怎么了？！通过多模态对话发现视觉对象

.英寸

IEEE计算机视觉和模式识别会议记录

，页

4466

–

4475

.

谷歌学者

交叉参考

雅各布

德夫林

,

明伟

张

,

肯顿

李

、和

克里斯蒂娜

图塔诺娃

.

2019

.

BERT：用于语言理解的深层双向变压器的预培训

.英寸

计算语言学协会北美分会2019年会议记录：人类语言技术，第1卷（长篇和短篇论文）

，页

4171

–

4186

,

明尼苏达州明尼阿波利斯

.

计算语言学协会

.

谷歌学者

杰西

道奇牌汽车

,

加布里埃尔

伊尔哈科

,

罗伊

施瓦茨

,

阿里

法尔哈迪

,

汉纳

哈吉什尔齐

、和

诺亚

史密斯

.

2020

.

微调预处理语言模型：权重初始化、数据顺序和提前停止

.

arXiv预打印arXiv:2002.06305

.

谷歌学者

马特

加德纳

,

约夫

阿尔齐

,

维多利亚

巴斯莫夫

,

乔纳森

贝兰特

,

本

博金

,

商山四皓

陈

,

普拉迪普

达西吉

,

迪鲁

杜瓦

,

亚奈

拉扎尔

,

阿南斯

戈图穆卡拉

,

尼提斯语

古普塔

,

汉纳纳

哈吉什尔齐

,

加布里埃尔

伊尔哈科

,

丹尼尔

卡沙比

,

凯文

林

,

江明

线路接口单元

,

纳尔逊·F·。

线路接口单元

,

菲比

穆尔凯尔

,

羌族

宁

,

萨米尔

辛格

,

诺亚A。

史密斯

,

桑贾伊

Subramanian语

,

雷特

沙法提

,

埃里克

华莱士

,

盟友

张

、和

本

周

.

2020

.

利用对比集评价模型的局部决策边界

.英寸

计算语言学协会的研究结果：EMNLP 2020

，页

1307

–

1323

,

在线

.

计算语言学协会

.

https://doi.org/10.18653/v1/2020.findings-emnlp.117

谷歌学者

莫尔

盖娃

,

约夫

戈德伯格

、和

乔纳森

贝兰特

.

2019

.

我们是为任务建模还是为注释器建模？自然语言理解数据集中注释者偏见的研究

.英寸

2019年自然语言处理实证方法会议和第九届自然语言处理国际联席会议（EMNLP-IJCNLP）论文集

，页

1161

–

1166

,

中国香港

.

计算语言学协会

.

https://doi.org/10.18653/v1/D19-1107

谷歌学者

交叉参考

亚什

戈亚尔

,

特哈斯

科特

,

道格拉斯

夏季住宿

,

德鲁夫

巴特拉

、和

德维

帕里克

.

2017

.

让VQA中的V变得重要：提升图像理解在视觉问答中的作用

.英寸

IEEE/CVF计算机视觉和模式识别（CVPR）会议记录

，页

6325

–

6334

.

https://doi.org/10.109/CVPR.2017.670

谷歌学者

交叉参考

克劳斯

格雷夫

,

鲁佩什·K。

斯里瓦斯塔瓦

,

简

库特尼克

,

巴斯·R。

Steunebrink公司

、和

尤尔根

施米德胡贝

.

2017

.

LSTM：搜索空间之旅

.

IEEE神经网络和学习系统汇刊

,

28

(

10

):

2222

–

2232

.

https://doi.org/10.109/TNNLS.2016.2582924

,

素臣

古鲁兰根

,

斯瓦巴

斯瓦亚姆迪普塔

,

奥马尔

征收

,

罗伊

施瓦茨

,

塞缪尔

鲍曼

、和

诺亚A。

史密斯

.

2018

.

自然语言推理数据中的注释工件

.英寸

计算语言学协会北美分会2018年会议记录：人类语言技术，第2卷（短文）

，页

107

–

112

,

路易斯安那州新奥尔良

.

计算语言学协会

.

https://doi.org/10.18653/v1/N18-2017

谷歌学者

交叉参考

开明

他

,

香玉

张

,

邵庆

任

、和

健

太阳

.

2016

.

用于图像识别的深度残差学习

.英寸

IEEE/CVF计算机视觉和模式识别（CVPR）会议记录

，页

770

–

778

.

谷歌学者

交叉参考

费利克斯

希尔

,

奥利维尔

蒂勒曼

,

塔马拉·冯

格伦（Glehn）

,

纳撒尼尔

Wong（王）

,

哈姆扎

Merzic公司

、和

史蒂芬

克拉克

.

2021

.

扎根的语言学习速度快而慢

.英寸

学习代表国际会议

.

谷歌学者

志诚

黄

,

昭阳

曾

,

贝

线路接口单元

,

冬梅

傅

、和

建龙

傅

.

2020

.

像素-局部：通过深度多模式变换器将图像像素与文本对齐

.

arXiv预印本arXiv：2004.00849

.

谷歌学者

德鲁A。

哈德逊

和

克里斯托弗·D·。

曼宁

.

2019

.

GQA：一个用于真实世界视觉推理和合成问答的新数据集

.英寸

IEEE/CFF计算机视觉与模式识别会议论文集（CVPR）

，页

6700

–

6709

.

https://doi.org/10.109/CVPR.2019.00686

谷歌学者

交叉参考

萨哈尔

卡齐姆扎德

,

维森特

奥多涅斯

,

作记号

马顿

、和

塔马拉

伯格

.

2014

.

裁判游戏：指自然场景照片中的物体

.英寸

2014年自然语言处理实证方法会议记录

，页

787

–

798

,

卡塔尔多哈

.

计算语言学协会

.

https://doi.org/10.115/v1/D14-1086

谷歌学者

交叉参考

Wonjae村

基姆

,

博京

儿子

、和

伊尔杜

基姆

.

2021

.

VILT：无卷积或区域监督的视觉和语言转换器

.

arXiv预打印arXiv:2102.03334

.

谷歌学者

岚吉

克里希纳

,

尤克

朱

,

奥利弗

格罗斯

,

贾斯廷

约翰逊

,

Kenji公司

哈塔

,

约书亚

克拉维茨

,

斯蒂芬妮

陈

,

亚尼斯

卡拉迪斯

,

李佳

锂

,

大卫·A·。

沙玛

,

迈克尔·S。

伯恩斯坦

和

锂

飞飞

.

2017

.

视觉基因组：使用众包密集图像注释连接语言和视觉

.

国际计算机视觉杂志

,

123

(

1

):

32

–

73

.

https://doi.org/10.1007/s11263-016-0981-7

谷歌学者

交叉参考

发电机

锂

,

南

段

,

岳建

方

,

明

龚

、和

大新县

江

.

2020年

.

Unicoder-VL：通过跨模式预训练实现的视觉和语言通用编码器

.

AAAI人工智能会议记录

,

34

(

07

):

11336

–

11344

.

https://doi.org/10.1609/aaai.v34i07.6795

谷歌学者

交叉参考

流年哈罗德

锂

,

作记号

Yatskar公司

,

Da公司

阴

,

赵菊（Cho-Jui）

谢

、和

凯威

张

.

2019

.

VisualBERT：视觉和语言的简单而有效的基线

.

arXiv预印本arXiv：1908.03557

.

谷歌学者

秀军

锂

,

Xi（希）

阴

,

春园

锂

,

彭川

张

,

小伟

胡

,

雷

张

,

丽娟

王

,

后东

胡

,

锂

东

,

富鲁

世界环境学会

等。

2020亿

.

奥斯卡：视觉语言任务的目标语义一致的预训练

.英寸

欧洲计算机视觉会议

，页

121

–

137

.

施普林格

.

https://doi.org/10.1007/978-3-030-58577-8_8

谷歌学者

君阳

林

,

安

杨

,

宜昌

张

,

杰

线路接口单元

,

景仁

周

、和

红霞

杨

.

2020

.

Interbert：多模式预训练的视觉和语言交互

.

arXiv预打印arXiv:2003.13198

.

谷歌学者

宗毅

林

,

迈克尔

梅尔

,

谢尔盖

属于

,

詹姆斯

海斯

,

彼得罗

佩罗娜

,

德瓦

拉马南

,

彼得

多拉

、和

C、。

劳伦斯·齐特尼克

.

2014

.

Microsoft COCO:上下文中的通用对象

.英寸

欧洲计算机视觉会议

，页

740

–

755

,

查姆

.

施普林格

.

https://doi.org/10.1007/978-3-319-10602-1_48

谷歌学者

交叉参考

佳森

卢

,

德鲁夫

巴特拉

,

德维

帕里克

、和

斯特凡

李

.

2019

.

VilBERT：为视觉和语言任务预先训练任务认知视觉语言表征

.英寸

神经信息处理系统研究进展

，页

13

–

23

.

Curran Associates公司。

谷歌学者

佳森

卢

,

韦达努吉

戈斯瓦米

,

马库斯

罗尔巴赫

,

德维

帕里克

、和

斯特凡

李

.

2020

.

12合1：多任务视觉和语言表征学习

.英寸

IEEE/CVF计算机视觉和模式识别（CVPR）会议记录

，页

10434

–

10443

.

谷歌学者

J。

毛泽东

,

J。

黄

,

答：。

托舍夫

,

O。

坎布鲁

,

答：。

尤伊尔

、和

英国。

墨菲

.

2016

.

生成和理解明确的对象描述

.英寸

IEEE/CVF计算机视觉和模式识别（CVPR）会议记录

，页

11

–

20

.

https://doi.org/10.1109/CVPR.2016.9（中文）

谷歌学者

交叉参考

沙兰

纳朗

,

Hyung Won先生

钟

,

易

泰伊

,

威廉

费杜斯

,

蒂伯特

费夫里

,

迈克尔

马泰纳

,

卡里什马

马尔康语

,

诺亚

费德尔

,

诺姆

沙泽尔

,

镇中

局域网

,

焉耆

周

,

世界环境学会

锂

,

南

丁

,

满意的

马库斯

,

亚当

罗伯茨

、和

科林

拉斐尔

.

2021

.

变压器修改是否会在实现和应用程序之间转移？

arXiv预印arXiv:2102.11972

.

谷歌学者

亚当

帕斯克

,

山姆

总量

,

弗朗西斯科

马萨

,

亚当

莱雷尔

,

詹姆斯

布拉德伯里

,

格雷戈里

沙南

,

特雷弗

基林

,

Zeming公司

林

,

纳塔利娅

吉梅尔谢恩

,

卢卡

安蒂加

,

奥尔本

德迈松

,

安德烈亚斯

科普夫

,

爱德华

杨

,

扎卡里

德维托

,

马丁

Raison公司

,

阿利坎

特贾尼语

,

萨桑克

奇拉姆库蒂

,

贝诺特

斯坦纳

,

卢

方

,

俊杰

白

、和

苏米思

钦塔拉

.

2019

.

PyTorch：一个命令式、高性能的深度学习库

.英寸

H。

瓦拉赫

,

H。

拉罗谢勒

,

答：。

贝格尔齐默

,

F、。

d'Alché-Buc

,

E.公司。

福克斯

、和

R。

加内特

，编辑，

神经信息处理系统研究进展

，页

8024

–

8035

,

柯兰联合公司。

谷歌学者

布莱恩A。

水管工

,

李伟

王

,

克里斯·M·。

塞万提斯

,

胡安·C。

凯塞多

,

朱莉娅

曲棍球运动员

、和

斯维特拉纳

拉泽布尼克

.

2015

.

Flickr30k实体：为更丰富的图像到句子模型收集区域到短语的对应关系

.英寸

IEEE/CVF国际计算机视觉会议（ICCV）会议记录

，页

2641

–

2649

,

美国

.

IEEE计算机学会

.

https://doi.org/10.109/ICCV.2015.303

谷歌学者

交叉参考

迪

气

,

林

苏

,

贾

歌曲

,

爱德华

崔

,

鞑靼

巴蒂

、和

阿伦

萨凯蒂

.

2020

.

ImageBERT：使用大规模弱监督图像文本数据进行跨模式预训练

.

arXiv预打印arXiv:2001.07966

.

谷歌学者

亚历克

拉德福德

,

钟郁（Jong Wook）

基姆

,

克里斯

神圣性

,

阿迪亚

拉梅什

,

加布里埃尔

吴

,

桑迪尼

阿加瓦尔

,

吉里什

萨斯特里

,

阿曼达

阿斯科尔

,

帕梅拉

米什金

,

杰克

克拉克

,

格雷琴

克鲁格

、和

伊利亚

Sutskever公司

.

2021

.

从自然语言监控中学习可转换的视觉模型

.

arXiv预打印arXiv:2103.0020

.

谷歌学者

邵庆

任

,

开明

他

,

罗斯

吉尔西克

、和

健

太阳

.

2015

.

更快的R-CNN：利用区域建议网络实现实时目标检测

.英寸

C、。

科尔特斯

,

N.D.公司。

劳伦斯

,

D.D.博士。

李

,

M。

杉山

、和

R。

加内特

，编辑，

神经信息处理系统研究进展

，页

91

–

99

.

Curran Associates公司。

谷歌学者

交叉参考

马尔科·图里奥

里韦罗

,

卡洛斯

嘉宾林

、和

萨米尔

辛格

.

2019

.

红玫瑰是红色的吗？评估问题回答模型的一致性

.英寸

计算语言学协会第57届年会会议记录

，页

6174

–

6184

,

意大利佛罗伦萨

.

计算语言学协会

.

https://doi.org/10.18653/v1/P19-1621

谷歌学者

交叉参考

安娜

罗杰斯

和

伊莎贝尔

奥根斯坦

.

2020

.

我们可以做些什么来改进NLP中的同行评审？

在

计算语言学协会的研究结果：EMNLP 2020

，页

1256

–

1262

,

在线

.

计算语言学协会

.

https://doi.org/10.18653/v1/2020.findings-emnlp.112

谷歌学者

里科

森里希

,

巴里

哈多

、和

亚历山德拉

桦木

.

2016

.

带有子词单元的稀有词的神经机器翻译

.英寸

计算语言学协会第54届年会论文集（第一卷：长篇论文）

，页

1715

–

1725

,

德国柏林

.

计算语言学协会

.

https://doi.org/10.18653/v1/P16-1162

谷歌学者

交叉参考

阿里·谢里夫

拉扎维亚语

,

侯赛因

阿齐兹普尔

,

约瑟芬

沙利文

、和

斯特凡

卡尔森

.

2014

.

美国有线电视新闻网（CNN）的特辑：一个令人震惊的识别基线

.英寸

IEEE/CVF计算机视觉和模式识别（CVPR）研讨会会议记录

，页

512

–

519

.

https://doi.org/10.109/CVPRW.2014.131

谷歌学者

交叉参考

皮尤什

沙尔马

,

南

丁

,

塞巴斯蒂安

古德曼

、和

Radu公司

索里科特

.

2018

.

概念性字幕：用于自动图像字幕的干净的、超名的图像互文数据集

.英寸

计算语言学协会第56届年会论文集（第一卷：长篇论文）

，页

2556

–

2565

,

澳大利亚墨尔本

.

计算语言学协会

.

谷歌学者

交叉参考

艾玛

斯特鲁贝尔

,

阿纳尼亚

加内什

、和

安德鲁

麦卡卢姆

.

2019

.

NLP深度学习的能源和政策考虑

.英寸

计算语言学协会第57届年会会议记录

，页

3645

–

3650

,

意大利佛罗伦萨

.

计算语言学协会

.

https://doi.org/10.18653/v1/P18-1238

谷歌学者

交叉参考

魏杰

苏

,

溪州

朱

,

岳

曹

,

箱子

锂

,

莱韦

卢

,

富鲁

世界环境学会

、和

机锋网

戴

.

2020

.

Vl-BERT：通用视觉语言表示的预训练

.英寸

学习代表国际会议

.

谷歌学者

阿兰

苏尔

,

斯蒂芬妮

周

,

盟友

张

,

鸢尾花

张

,

华骏

白

、和

约夫

阿尔齐

.

2019

.

基于照片的自然语言推理语料库

.英寸

计算语言学协会第57届年会会议记录

，页

6418

–

6428

,

意大利佛罗伦萨

.

计算语言学协会

.

谷歌学者

交叉参考

郝

棕褐色

和

莫希特

班萨尔

.

2019

.

LXMERT：从变压器学习交叉模态编码器表示

.英寸

2019年自然语言处理实证方法会议和第九届国际自然语言处理联合会议（EMNLP-IJCNLP）会议记录

，页

5100

–

5111

,

中国香港

.

计算语言学协会

.

https://doi.org/10.18653/v1/D19-1514

谷歌学者

交叉参考

阿施施

瓦斯瓦尼

,

诺姆

沙泽尔

,

尼基

帕尔玛

,

雅各布

乌兹科雷特

,

利昂

琼斯

,

艾丹·N。

戈麦斯

,

Ł乌卡斯

凯撒

、和

伊利亚

波洛苏欣

.

2017

.

注意力就是你所需要的

.

一、。

盖恩

,

紫外线。

卢克斯堡

,

美国。

本吉奥

,

H。

瓦拉赫

,

R。

弗格斯

,

美国。

维什瓦纳坦

、和

R。

加内特

，编辑，

神经信息处理系统研究进展

，页

5998

–

6008

.

Curran Associates公司。

谷歌学者

永辉

吴

,

迈克

舒斯特

,

志峰

陈

,

Quoc V.公司。

勒

,

穆罕默德

诺鲁齐

,

沃尔夫冈

马舍雷

,

马克西姆

克里昆

,

元

曹

,

秦

高

,

克劳斯

马舍雷

,

杰夫

克林纳

,

普瓦

沙阿

,

梅尔文

约翰逊

,

小兵

线路接口单元

,

Ł乌卡斯

凯撒

,

斯蒂芬

葫芦

,

吉隆坡（Yoshikiyo）

加藤

,

塔库

工藤

,

Hideto公司

哈萨克斯坦

,

基思

史蒂文斯

,

乔治

库里亚语

,

尼尚特

帕蒂尔

,

世界环境学会

王

,

悬崖

年轻

,

杰森

史密斯

,

杰森

里萨

,

亚历克斯

鲁德尼克

,

奥里奥尔

葡萄酒

,

格雷格

科拉多

,

麦克达夫

休斯

、和

杰弗里

院长

.

2016

.

谷歌的神经机器翻译系统：缩小人机翻译之间的差距

.

arXiv预打印arXiv:1609.08144

.

谷歌学者

宁

谢

,

法利

赖

,

德里克

多兰

、和

阿西姆

卡达夫

.

2019

.

视觉蕴涵：细粒度图像理解的新任务

.

arXiv预打印arXiv:1901.06706

.

谷歌学者

赛宁

谢

,

罗斯

吉尔西克

,

彼得

多拉

,

卓文

图

、和

开明

他

.

2017

.

深度神经网络的聚合残差变换

.英寸

IEEE/CVF计算机视觉和模式识别（CVPR）会议记录

，页

5987

–

5995

.

谷歌学者

交叉参考

费

于

,

吉吉

唐

,

魏冲

阴

,

于

太阳

,

郝

田

,

华

吴

、和

海丰

王

.

2021

.

Ernie-vil：通过场景图进行知识增强的视觉语言表示

.

AAAI人工智能会议记录

.

谷歌学者

历城

于

,

哲

林

,

小慧

沈

,

集美

杨

,

Xin（新）

卢

,

莫希特

班萨尔

、和

塔马拉L。

伯格

.

2018

.

Mattnet：用于参考表达理解的模块化注意力网络

.英寸

IEEE计算机视觉和模式识别会议记录

，页

1307

–

1315

.

谷歌学者

罗文

Zellers公司

,

约纳坦

比斯克

,

阿里

法尔哈迪

、和

Yejin公司

崔

.

2019

.

从认知到认知：视觉常识推理

.英寸

IEEE/CVF计算机视觉和模式识别（CVPR）会议记录

，页

6713

–

6724

.

https://doi.org/10.109/CVPR.2019.00688

谷歌学者

交叉参考

罗威

周

,

哈米德

帕朗吉

,

雷

张

,

后东

胡

,

杰森

科尔索

、和

尖峰

高

.

2020

.

图像字幕和vqa的统一视觉语言预培训

.

AAAI人工智能会议记录

,

34

(

07

):

13041

–

13049

.

https://doi.org/10.1609/aaai.v34i07.7005

谷歌学者

交叉参考

年。

朱

,

O。

格罗斯

,

M。

伯恩斯坦

、和

L。

飞飞

.

2016

.

Visual7w：图像中的接地问答

.英寸

2016年IEEE计算机视觉与模式识别会议（CVPR）

，页

4995

–

5004

.

https://doi.org/10.1109/CVPR.2016.540

谷歌学者

交叉参考

2021

计算语言学协会。根据CC-BY 4.0许可证分发。

这是一篇根据Creative Commons Attribution 4.0 International License条款发布的开放存取文章，该条款允许在任何媒体上不受限制地使用、分发和复制原始作品，前提是正确引用了原始作品。有关许可证的完整描述，请访问https://creativecommons.org/licenses/by/4.0/legalcode

无遮罩的多模态预训练：一种元分析和视觉与语言BERT的统一框架

摘要

1 介绍

2 愿景与语言BERT（误码率）秒

2.1 输入嵌入

语言输入

视觉输入

2.2 编码器

单流编码器

双流编码器

2.3 培训前目标

2.4 进一步的区别

三 统一框架

3.1 变压器层

多头注意块

前馈块

标准变压器层

3.2 单流多模变压器

3.3 双流多模式变压器

模式间变压器层

模式内变压器层

3.4 双流注意作为限制性单流注意

3.5 门控双模变压器层

4 实验装置

伏特

实施详细信息

训练前

下游评估任务

5 结果

5.1 统一数据和重新实现

相同的数据，相似的性能

伏特实施

5.2 受控设置

结果

5.3 微调方差

5.4 训练前差异

5.5 评估局部决策边界

5.6 单流或双流架构

5.7 嵌入的重要性

5.8 限制

6 再现性与环境

7 结论

致谢

笔记

工具书类

电子邮件警报

引用人

相关文章

相关书籍章节

产品麻省理工学院出版社

麻省理工学院直接出版社

问询处

麻省理工学院出版社

联系我们

此功能仅对订阅服务器可用

三统一框架