ALBEF：对齐再融合的视觉语言预训练

TL;DR：我们提出了一种新的视觉语言表示学习框架，该框架通过在融合之前首先对齐单模态表示来实现最先进的性能。

1. 背景

视觉和语言是人类感知世界的两个最基本渠道。构建能够共同理解视觉数据（图像）和语言数据（文本）的智能机器，一直是人工智能领域的长期目标。视觉语言预训练（Vision-Language Pre-training，VLP）已成为解决这一问题的有效方法。然而，现有方法存在三个主要局限：

局限 1：以 CLIP 和 ALIGN 为代表的方法学习单模态图像编码器和文本编码器，在表示学习任务上取得了令人印象深刻的性能。但它们缺乏对图像和文本之间复杂交互进行建模的能力，因此不擅长需要细粒度图像-文本理解的任务。
局限 2：以 UNITER 为代表的方法采用多模态编码器对图像和文本进行联合建模。然而，多模态 Transformer 的输入包含未对齐的基于区域的图像特征和单词 token 嵌入。由于视觉特征和文本特征驻留在各自的空间中，多模态编码器学习对它们的交互进行建模具有挑战性。此外，大多数方法使用预训练的目标检测器提取图像特征，这既昂贵又计算开销大。
局限 3：用于预训练的数据集主要由从网络收集的噪声图像-文本对组成。广泛使用的预训练目标，例如掩码语言模型（MLM），很容易过拟合噪声文本，从而损害表示学习。

为了解决这些局限，我们提出了 ALBEF（ALign BEfore Fuse），一种新的视觉语言表示学习框架。ALBEF 在图像-文本检索、视觉问答（VQA）和自然语言视觉推理（NLVR）等多种视觉语言下游任务上实现了最先进的性能。

ALBEF 框架

如上图所示，ALBEF 包含图像编码器（ViT-B/16）、文本编码器（BERT 的前 6 层）和多模态编码器（BERT 的后 6 层，带有额外的交叉注意力层）。ALBEF 通过联合优化以下三个目标进行预训练：

目标 1：图像-文本对比学习（ITC） 应用于单模态图像编码器和文本编码器。它将图像特征和文本特征对齐，并训练单模态编码器以更好地理解图像和文本的语义。
目标 2：图像-文本匹配（ITM） 应用于多模态编码器，预测一对图像和文本是正（匹配）还是负（不匹配）。我们提出了对比难负例挖掘（contrastive hard negative mining），选择具有更高对比相似性的信息丰富的负例。
目标 3：掩码语言建模（MLM） 应用于多模态编码器。我们随机掩码文本 token，并训练模型使用图像和掩码文本来预测被掩码的 token。

从网络收集的图像-文本对通常是弱相关的：文本可能包含与图像无关的单词，或者图像可能包含文本中未描述的实体。为了从噪声数据中学习，我们提出了动量蒸馏（Momentum Distillation），其中使用动量模型为图像-文本对比学习和掩码语言建模生成伪目标。

下图展示了图像的伪正文本示例，它产生了“年轻女子”和“树”等新概念。我们还从互信息最大化的角度提供了理论解释，表明动量蒸馏可以解释为为每个图像-文本对生成视图。

图像的伪正文本

图像的伪正文本示例。

ALBEF 是一个简单、端到端且功能强大的视觉语言表示学习框架。相关资源如下：

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation. arXiv preprint arXiv:2107.07651, 2021.
Learning Transferable Visual Models from Natural Language Supervision. arXiv preprint arXiv:2103.00020, 2021.
Scaling Up Visual and Vision-Language Representation Learning with Noisy Text Supervision. arXiv preprint arXiv:2102.05918, 2021.
UNITER: Universal Image-Text Representation Learning. ECCV, 2020.