在前一节中,我们展示了单流注意块捕获了模态间和模态内的交互,并分别由双流架构建模。我们现在介绍一个通用的门控双模变压器层(图3d)其中,单流层和双流层都是特殊情况。通过这样做,我们可以定义现有的价值与负债BERT(误码率)它允许我们在一个受控环境中实现和评估其中的几个模型(请参阅下一节)。除了文本X(X)ℒ和视觉嵌入,该层采用一组固定的二进制变量{γ,τ}作为其输入的一部分:、和τ======================================================================================{τMHA公司,τ液态氮1,τFF公司,τ液态氮2}. 这个γ值充当控制层内跨模式交互的门,而τ值控制参数是否在模式之间绑定。
也就是说,当一个注意力闸门γ设置为1时,相应的子矩阵趋向于,而当γ设置为0。通过子矩阵,我们可以有效地计算其他子矩阵上的行向softmax(即注意),从而恢复模式间和模式内的注意。6这类似于自回归变压器解码器中应用的输入屏蔽(Vaswani等人。,2017).
这个公式允许我们控制层内模式间和模式内关注的程度,允许我们在统一数学框架我们可以恢复模态间块(等式(7))通过设置和类似地,单流块(等式(三))可以通过设置恢复γ=0和绑定可学习参数(τ=1)在两条流之间(例如。,在每个注意头部)。
此外,门控双模变压器层允许我们对迄今为止考虑的几个组合的超集进行建模,以便通过多模变压器编码器进行交叉模式融合。人们可以探索两种模式与双模输入以不同方式交互的非对称流,或者探索传统单流和双流块交错的不同方式,甚至探索不同级别的参数共享。例如,非对称视觉和语言层可能有利于导航(例如,Hill等人。,2021)或语言条件下的图像生成(例如,Cho等人。,2020). 对这些可能性的探索有待于未来的工作。