Skip to content

ALBEF:对齐再融合的视觉语言预训练

TL;DR:我们提出了一种新的视觉语言表示学习框架,该框架通过在融合之前首先对齐单模态表示来实现最先进的性能。

1. 背景

视觉和语言是人类感知世界的两个最基本渠道。构建能够共同理解视觉数据(图像)和语言数据(文本)的智能机器,一直是人工智能领域的长期目标。视觉语言预训练(Vision-Language Pre-training,VLP)已成为解决这一问题的有效方法。然而,现有方法存在三个主要局限:

  • 局限 1:以 CLIP 和 ALIGN 为代表的方法学习单模态图像编码器和文本编码器,在表示学习任务上取得了令人印象深刻的性能。但它们缺乏对图像和文本之间复杂交互进行建模的能力,因此不擅长需要细粒度图像-文本理解的任务。
  • 局限 2:以 UNITER 为代表的方法采用多模态编码器对图像和文本进行联合建模。然而,多模态 Transformer 的输入包含未对齐的基于区域的图像特征和单词 token 嵌入。由于视觉特征和文本特征驻留在各自的空间中,多模态编码器学习对它们的交互进行建模具有挑战性。此外,大多数方法使用预训练的目标检测器提取图像特征,这既昂贵又计算开销大。
  • 局限 3:用于预训练的数据集主要由从网络收集的噪声图像-文本对组成。广泛使用的预训练目标,例如掩码语言模型(MLM),很容易过拟合噪声文本,从而损害表示学习。

为了解决这些局限,我们提出了 ALBEF(ALign BEfore Fuse),一种新的视觉语言表示学习框架。ALBEF 在图像-文本检索、视觉问答(VQA)和自然语言视觉推理(NLVR)等多种视觉语言下游任务上实现了最先进的性能。

2. 将单模态表示与图像-文本对比学习结合

ALBEF 框架

如上图所示,ALBEF 包含图像编码器(ViT-B/16)、文本编码器(BERT 的前 6 层)和多模态编码器(BERT 的后 6 层,带有额外的交叉注意力层)。ALBEF 通过联合优化以下三个目标进行预训练:

  • 目标 1:图像-文本对比学习(ITC) 应用于单模态图像编码器和文本编码器。它将图像特征和文本特征对齐,并训练单模态编码器以更好地理解图像和文本的语义。
  • 目标 2:图像-文本匹配(ITM) 应用于多模态编码器,预测一对图像和文本是正(匹配)还是负(不匹配)。我们提出了对比难负例挖掘(contrastive hard negative mining),选择具有更高对比相似性的信息丰富的负例。
  • 目标 3:掩码语言建模(MLM) 应用于多模态编码器。我们随机掩码文本 token,并训练模型使用图像和掩码文本来预测被掩码的 token。

3. 从噪声图像-文本对中学习的动量蒸馏

从网络收集的图像-文本对通常是弱相关的:文本可能包含与图像无关的单词,或者图像可能包含文本中未描述的实体。为了从噪声数据中学习,我们提出了动量蒸馏(Momentum Distillation),其中使用动量模型为图像-文本对比学习和掩码语言建模生成伪目标。

下图展示了图像的伪正文本示例,它产生了“年轻女子”和“树”等新概念。我们还从互信息最大化的角度提供了理论解释,表明动量蒸馏可以解释为为每个图像-文本对生成视图。

图像的伪正文本

图像的伪正文本示例。

4. 总结与资源

ALBEF 是一个简单、端到端且功能强大的视觉语言表示学习框架。相关资源如下:

参考

  1. Align before Fuse: Vision and Language Representation Learning with Momentum Distillation. arXiv preprint arXiv:2107.07651, 2021.
  2. Learning Transferable Visual Models from Natural Language Supervision. arXiv preprint arXiv:2103.00020, 2021.
  3. Scaling Up Visual and Vision-Language Representation Learning with Noisy Text Supervision. arXiv preprint arXiv:2102.05918, 2021.
  4. UNITER: Universal Image-Text Representation Learning. ECCV, 2020.

Maintained by Robin