多模态学习概述
1. 什么是多模态学习
模态(modality) 是事物被经历、表达或感知的方式。我们生活在一个由多种模态信息构成的世界中,包括视觉、听觉、文本、嗅觉等。日常生活中常见的文字、语音、图片,就是不同模态数据的典型例子。如果进一步拓宽视野,几乎任何一种不同的信息存储或表达方式都可以被视为一种模态:有的模态更接近传感器的原始数据(如语音、图像),有的模态则涉及更抽象的概念(如情绪、物体类别)。
过去,研究者更倾向于处理单一模态的数据,例如仅在文本上进行情感分析、摘要生成或翻译,或仅在图像上进行目标检测与分类。这些任务通常只用到单一模态,彼此之间关联度不高,尤其是在 Transformer 出现之前。
多模态学习(Multimodal Learning) 则是在深度学习的框架下,将多种不同类型的数据整合到同一个模型中进行建模。与多模态学习相对的是 单模态学习(Unimodal Learning),即只在单一模态的数据上进行建模。

从本质上讲,多模态学习希望从具有异构性但又相互关联的数据中学习并理解信息。如下图所示,不同形状的数据点可以代表不同模态的基本单元:在文本中,基本单元可能是字符或 token;在视频中,基本单元可能是每一帧图像。

不同模态的数据既有各自的独特性质,也存在某种关联性。例如,视频中的字幕与画面内容相互关联,文本与图像也容易构成自然的多模态数据。然而,这种关联性不一定体现在数据的最基本单元上,而需要通过更深层次的学习方式去发现。
大约在 2017 年,Transformer 的出现显著提高了不同模态之间的耦合度。由于 Transformer 具有较强的通用性,各种不同模态的数据开始向着统一的单一框架靠拢。

因此,可以把多模态学习理解为:将不同模态的数据都作为模型的输入,通过深度学习方法构建一个 AI 模型。这个模型不仅能完成原来单模态模型能完成的任务(如文本摘要、对话生成、目标检测、图像分类等),还要具备跨模态能力,例如:
- 图像描述生成(Image Captioning)
- 视觉问答(Visual Question Answering,VQA)
- 基于图像的推理

1.1 统一表示空间
多模态学习的一个核心目标,是把语音、图片、文本等不同模态的数据映射到一个统一的表示空间中。如果只针对单一模态训练,得到的表示向量往往分布在差异很大的空间中,缺乏可比性。而多模态学习希望通过同时建模不同模态的数据,让模型生成的向量具有对齐关系。
例如,文本中的“猫”与图片中的猫应该在表示空间中彼此对应。一旦所有信息都被建模到同一个空间中,从数学或模型的视角看,模态差异的概念就被抹平了,它们都变成了同质的向量。

1.2 模态交互:冗余与非冗余
多模态数据之间具有异构性,即不同模态的信息表达方式不同;同时也具有关联性,放在一起建模时能够产生交互,带来单模态无法提供的信息。
假设有两个模态的数据 A 和 B,每个模态单独都能产生某种输出:
- 如果
A和B的信息是冗余的,将它们一起输入模型可能得到与单一模态相同的结果,或者得到一个信息被加强后的结果。 - 如果
A和B的信息是非冗余的,例如A包含方形、B包含圆形,那么它们的合并可能产生不同的结果:保持各自形状、一个模态调节另一个模态,或者交互产生全新的信息(例如三角形)。

通过不同模态之间的关联与交互,模型可以学到一些在单模态情况下很难学到、或需要更多数据才能学到的信息。这就是多模态学习的价值所在,也是该领域热度持续提升的原因。

近年来,对比学习(Contrastive Learning) 已成为训练多模态模型的常用方法,使得大规模多模态模型的训练更加有效。
2. 为什么需要多模态学习
很多现代应用本质上是跨模态的。例如,使用文本检索图片库中的图片,或者使用图片在文本库中检索相关文本。如今使用 Google 或百度进行这类搜索看起来很自然,但在十年前,这类问题的解决方案并不理想:那时以文搜图主要依赖图片周围网页中的文本,结果中噪音较大。
现在,得益于跨模态能力和语义搜索,这类任务已经变得非常简单。

其他跨模态任务还包括视觉问答(VQA)、推理、文本生成等。这些任务在最近一两年因为多模态生成模型的发展取得了显著进步。例如,Stable Diffusion 和 Midjourney 等文本到图像生成模型都利用了生成式多模态学习。

2.1 能力迁移与数据效率
从模型性能角度看,多模态学习可以在不同模态之间进行能力迁移。当某个模态数据较少或学习能力较弱时,可以通过从较强模态迁移能力来优化弱模态的学习结果。

以往的研究认为,只有在 LLM 达到约 1000 亿参数规模时才可能表现出思维链(Chain-of-Thought,CoT)能力。但亚马逊的最新研究发现,当语言模型接入视觉信息后,即使在 10 亿参数规模下也能展现出强大的 CoT 能力。
此外,从零开始训练大型模型需要大量计算资源,尤其是涉及图片或视频模态时。因此,小公司通常选择在公开的大模型基础上进行模型微调。经验表明,在相同资源下,微调多模态模型往往比微调单模态模型效果更好,所需的数据量也显著更小,性价比更高。
2.2 多模态与 AGI
关于 LLM 能否通向通用人工智能(AGI),学界存在广泛讨论。Yann LeCun 认为,单靠语言模型无法实现 AGI,因为人类本身是多模态学习的生物,很多信息在纯语言中难以体现。当 GPT-3.5 或 GPT-4 刚出现时,人们似乎觉得离 AGI 越来越近,但 LLM 仍存在许多难以解决的问题,在参数达到 1000 亿级别后继续增加参数只能带来递减的收益。

一种观点认为,向 AGI 进军需要让模型接触更多模态的数据。这也是 Meta 等公司在多模态学习上投入大量精力的原因之一:它们不仅在图像处理方面具有传统优势,也在多模态领域开源了许多模型。尽管这一观点并非共识,但确实有不少人相信多模态模型更有可能推动 AGI 的发展。
3. 多模态学习的发展阶段
3.1 2014—2018:深度学习任务优化期
在这一阶段,研究者逐渐意识到深度学习在许多任务中优于传统机器学习方法,因此大量研究专注于改造和优化各种具体任务与应用的模型。
3.2 2019—2021:BERT 与高质量标注数据期
BERT 的诞生带来了深度学习的黄金发展期,文本领域尤其引人注目。这一阶段,研究者开始广泛使用高质量的人工标注数据进行多模态模型预训练,并验证了这种方式训练得到的模型可以有效地在同一向量空间内表示不同模态的数据。这是通用多模态模型的重要目标,因为在同一空间中才能对不同模态数据进行有效的比较和操作。
3.3 2021 年后:GPT-3 与 CLIP
2021 年 GPT-3 的出现让人们意识到,模型足够大时即使在极少样本或零样本情况下也能表现良好,这极大地冲击了业界。

CLIP 是这一阶段不得不提的多模态模型。CLIP 使用海量的有噪声图像-文本对数据进行训练,结果发现其效果优于使用人工标注的高质量数据。CLIP 让大家意识到,只要数据规模足够大,使用有噪声的网络数据训练也是可行的。自此,多模态学习领域的发展速度持续加快,Meta 的 FLAVA、DeepMind 的 Flamingo、华为诺亚方舟的悟空等模型相继出现。
3.4 ChatGPT 之后:融合大模型能力
ChatGPT 发布后,各个领域都在思考如何将其能力融合到自己的任务中。多模态学习中有两个主要趋势:
- 将 LLM 的语言理解和推理能力融合到多模态模型中;
- 增加更多模态的融合,提升模型在已训练模态上的性能,并迁移到未训练过的模态上。
4. 多模态学习的典型任务与挑战
4.1 典型任务
4.1.1 跨模态预训练
- 图像/视频与语言预训练
- 跨任务预训练
4.1.2 语言-音频
- Text-to-Speech Synthesis:给定文本生成对应的语音。
- Audio Captioning:给定语音生成一句话描述其主要内容(不是语音识别)。
4.1.3 视觉-音频
- Audio-Visual Speech Recognition:给定人物视频及语音进行语音识别。
- Video Sound Separation:给定视频和包含多个声源的声音信号,进行声源定位与分离。
- Image Generation from Audio:给定声音生成相关图像。
- Speech-conditioned Face Generation:给定一段话生成说话人的视频。
- Audio-Driven 3D Facial Animation:给定一段话与 3D 人脸模板,生成说话的人脸 3D 动画。
4.1.4 视觉-语言
- Image/Video-Text Retrieval:图像/视频与文本的相互检索。
- Image/Video Captioning:给定图像/视频生成文本描述。
- Visual Question Answering(VQA):给定图像/视频与问题预测答案。
- Image/Video Generation from Text:给定文本生成图像或视频。
- Multimodal Machine Translation:给定一种语言的文本及对应图像,翻译为另一种语言。
- Vision-and-Language Navigation:给定自然语言指导,使智能体根据视觉传感器导航到目标。
- Multimodal Dialog:给定图像、历史对话与相关问题,预测回答。
4.1.5 定位相关任务
- Visual Grounding:给定图像与文本,定位文本描述的物体。
- Temporal Language Localization:给定视频与文本,定位文本描述动作的起止时间。
- Video Summarization from Text Query:根据文本查询对视频进行摘要。
- Video Segmentation from Natural Language Query:根据文本查询分割视频中的目标。
- Video-Language Inference:判断视频内容是否包含某段文本的语义。
- Object Tracking from Natural Language Query:根据文本描述追踪视频中的目标。
- Language-guided Image/Video Editing:根据文本指令自动编辑图像或视频。
4.1.6 更多模态
- Affect Computing(情感计算):使用语音、视觉、文本、心电、脑电等模态进行情感识别。
- Medical Image:融合 CT、MRI、PET 等不同医疗图像模态;RGB-D:RGB 图与深度图。
4.2 多模态技术挑战

4.2.1 表征(Representation)
第一个基本挑战是学习如何利用多种模态的互补性和冗余性来表示和总结多模态数据。多模态数据的异质性使得构建这种表示具有挑战性:语言通常是符号化的,而音频和视觉形式则需要表示为信号。
单模态表征负责将信息编码为计算机可处理的数值向量或更高层特征,而多模态表征则通过利用模态间的互补性、剔除冗余性,学习到更好的特征表示。
联合表征(Joint Representation) 将多个模态的信息一起映射到一个统一的多模态向量空间,注重捕捉多模态的互补性。
协同表征(Coordinated Representation) 将每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关),通过最小化余弦距离等方式建模模态间的相关性。
4.2.2 翻译(Translation)
第二个挑战涉及如何将数据从一种模态转化(映射)到另一种模态。不仅数据是异构的,模态之间的关系通常也是开放式的或主观的。例如,描述同一张图像可以有多种正确方式,并不存在完美的翻译。
常见应用包括机器翻译、唇读、语音翻译、图像/视频描述、语音合成等。
翻译任务还面临评估困境:语音识别等任务只有一个正确答案,而语音合成和媒体描述等任务则没有唯一答案。常用方法包括:
- 人工评价:最理想但耗时耗钱,需要多样化打分人群以避免偏见。
- 自动化指标:如 BLEU、METEOR、CIDEr、ROUGE 等,但与人工评价相关性较弱。
- 基于检索的评估和弱化任务:例如将图像描述中的一对多映射简化为 VQA 中的一对一映射。
4.2.3 对齐(Alignment)
第三个挑战是从两种或多种不同模态中识别(子)元素之间的直接关系。例如,将食谱中的步骤与展示烹饪过程的视频对齐。这需要测量不同模态之间的相似性,并处理可能的长期依赖与歧义。
- 显式对齐:模型的主要目标是对齐来自多个模态的子元素,关键工作是相似性度量。
- 隐式对齐:对齐作为另一个任务的中间(通常是潜在)步骤,模型在训练期间学习潜在对齐,而不依赖显式对齐监督。
4.2.4 融合(Fusion)
第四个挑战是结合来自两个或多个模态的信息来执行预测。例如,在视听语音识别中,将嘴唇运动的视觉描述与语音信号融合以预测口语。不同模态的信息可能具有不同的预测能力和噪声特性,并且可能在至少一种模态中丢失数据。
- 早期融合(Early Fusion):在模型浅层或输入层将多个模态的特征拼接,然后级联深度网络。优点是只需要训练一个共同模型,复杂度可控;缺点是拼接难度大,对数据预处理敏感。
- 晚期融合(Late Fusion):独立训练多个模型,在预测层进行融合,类似集成方法。优点是灵活、鲁棒,某个模态缺失也能训练;缺点是没有充分利用模态间底层特征的相关性,计算复杂度较大。
- 混合融合(Hybrid Fusion):结合早期融合、晚期融合与中间层特征交互,逐级在不同层级融合,综合利用两种方式的优点,是目前主流方法。
4.2.5 协同学习(Co-learning)
第五个挑战是在模态的表示和预测模型之间转移知识。协同学习探索从一种模态中学习的知识如何帮助在不同模态上训练的计算模型,当其中一种模态资源有限(例如标注数据少)时尤为重要。辅助模态通常只参与训练过程,不参与推理过程。
5. 多模态模型整体架构
多模态模型的总体思路可以概括为:首先对输入数据(如文本、图像)进行编码得到表示向量;然后将这些向量进行融合,可能还包括融合外部知识(如知识图谱、语言模型、视觉模型等);最后基于单模态数据和融合数据输出表示向量。

模型最后一部分是损失函数(目标函数),它决定了模型的学习目标以及如何量化模型表现。
在特征编码阶段,文本通常使用 Transformer 架构编码,图像则可以通过卷积神经网络(CNN)、基于目标检测的方法,或直接对 Patch 进行编码。
在信息融合过程中,有两种主要框架:
- 单流模型:将所有模态的编码放在同一个大框架下处理。
- 双流模型:让各个模态各自建模,然后使用简单连接或轻量级层集成。

常用损失函数包括:
- Masked Language Modeling(MLM):遮盖部分文本 token 让模型预测。
- Masked Region Modeling(MRM):遮盖部分图像区域让模型预测。
- Image-Text Matching(ITM) 与 Image-Text Contrastive(ITC):学习图像与文本的全局表示,判断它们是否匹配。

6. 多模态学习中的代表性模型
6.1 ViLBERT
ViLBERT 在文本和图像编码方面分别使用了 Transformer 和目标检测结果。将文本和图像转化为向量后,通过名为 Co-Transformer 的方式将二者融合。

6.2 CLIP
CLIP 的思路非常简单:将图片和文本分别用 Transformer 编码为向量,然后使用图像-文本对比学习(ITC)训练,使来自同一对的图片和文本向量在空间中尽可能靠近,来自不同对的向量尽可能远离。
CLIP 不预先定义图像和文本的类别标签,而是直接利用从互联网爬取的 4 亿个图像-文本对进行图文匹配训练,并成功迁移到 30 个现有的计算机视觉分类任务上。
6.2.1 训练与推理流程
- Contrastive Pre-training:使用图像-文本对进行对比学习训练。
- Create Dataset Classifier from Label Text:提取预测类别的文本特征。
- Zero-shot Prediction:进行零样本推理预测。


阶段 1:Contrastive Pre-training
在预训练阶段,对比学习只需要定义好正样本对与负样本对。能够配对的 image-text 对即为正样本。具体来说,先分别对图像和文本提取特征,生成图像特征向量
阶段 2:Create Dataset Classifier from Label Text
基于 4 亿数据上学得的先验,仅用数据集的标签文本就可以得到很强的图像分类性能。通过 prompt label text 创建待分类的文本特征向量。
阶段 3:Zero-shot Prediction
对于测试图片,使用 Image Encoder 提取特征,生成一维图像特征向量,然后与
CLIP 可用于零样本分类(zero-shot classification)。相比传统分类模型,多模态模型可以处理未见过的类别。例如,如果训练数据只有猫和狗的图片,测试时出现熊猫的图片,多模态模型仍有可能正确识别。
6.2.2 实现伪代码

6.2.3 后续工作
- StyleCLIP:结合 CLIP 与 StyleGAN,通过文本引导图像生成。
- CLIPDraw:利用预训练 CLIP 作为度量,最大化给定描述与生成的简笔画之间的相似性,无需额外训练。
- ViLD:使用 CLIP 进行开集物体检测与分割。
- CLIPasso:使用 CLIP 提炼语义概念,生成目标的抽象线条画。
6.2.4 应用
- 图像生成:多模态模型可与生成模型结合,根据文本生成图像。
- 目标追踪:在视频处理中,利用多模态模型识别并追踪每一帧中的目标。

6.3 ImageBind
一个新兴趋势是融合更多模态数据的多模态模型。Meta 开源的 ImageBind 利用 6 个模态的数据进行训练,包括视觉、文本、声音、深度图、热力图以及运动向量图。
ImageBind 的训练过程相当于训练了五个双模态模型,每个模型都是其他五个模态与视觉模态的结合。通过这种方式,所有模态都被对齐到图像模态的表示空间,从而统一到一个共享表示空间。

这种方式训练得到的模型具有很强的跨模态检索能力,例如通过声音检索图片、视频、深度图和文本。ImageBind 还可以进行跨模态计算与跨模态生成,例如将鸽子的图片与摩托车引擎声音相加,检索出人骑摩托车、鸽子被吓飞的场景;或通过企鹅声音生成企鹅相关图片。
此外,ImageBind 还展示了“强模态”(如视觉)对“弱模态”(如声音或深度图)的提升作用。通过多模态联合训练,强模态的性能可以迁移到弱模态上,从而提升弱模态任务效果。
6.4 Multimodal-CoT
Multimodal-CoT 是亚马逊李沐团队的工作,目标是探索添加视觉信息是否能使小型语言模型也具有推理能力。研究结论是:引入视觉信息后,小型语言模型确实能够实现一定程度的推理能力;而如果没有视觉信息,仅依赖文本,语言模型通常需要达到约 1000 亿参数规模才能具备类似能力。

6.5 BLIP-2
BLIP-2 是 Salesforce 的工作,主要目标是在多模态模型中引入已训练好的模型,通过只训练少量参数获得良好性能。它有点像用“胶水”将功能强大的单模态模型粘连在一起:使用 CLIP 中训练好的图像编码器,并在此基础上添加语言模型(OPT 或 Flan-T5),生成的模型可以执行视觉问答(VQA)任务。
这种方法的优点是能够复用预训练模型,只需要训练相对较少的参数,从而降低训练资源消耗并保持不错的效果。BLIP-2 的可训练参数量是 DeepMind Flamingo 的

当前的一个趋势是使用大型预训练模型(如 7B 或 33B 的 LLM)来增强多模态模型性能。由于研究者通常没有足够资源从零训练大型模型,使用已有公开模型并用少量数据和参数训练出具有类似能力的模型,是一种可行方案。
7. 多模态学习面临的挑战和未来发展方向
7.1 数据采集与对齐
数据越干净、越多,模型性能通常越好。但某些类型的数据很难采集,尤其是需要与其他模态对齐的数据。训练时可以同时使用对齐数据和单模态数据,因为收集对齐训练数据非常困难。图像-文本对齐数据在互联网上较易获得,但其他类型的对齐数据则较难收集。

数据对齐还可以分为粗粒度对齐和细粒度对齐。细粒度对齐非常困难,例如将名词准确对齐到图像中的特定部分,或将动词与具体动作对齐。如果需要对齐的数据具有层级关系,任务将更加困难。
7.2 模型面临的挑战
模型的表示与对齐也存在很大挑战。不同模态的数据可能需要融合,因为它们可能代表相同的概念;同时,某些模态之间可能需要相互协同工作。对齐过程可以做显式对齐或隐式对齐,对序列数据还涉及切分后对齐。

另一个重要挑战是模型的可迁移能力:一个数据集上训练的多模态模型能否在其他数据集上表现良好?如何利用强模态增强弱模态?如何推广到其他模态?这些都是当前的研究方向。

模型方面的其他挑战还包括:
- 合并越来越多的模态以增强跨模态能力。
- 与外部知识融合:如何更好地将模型与外部知识(如闭源 LLM)融合。
- 统一模型框架:让不同模态的数据使用同一种框架编码,甚至共享参数。
- 涌现能力(Emergent Ability):处理多模态数据时可能出现类似 LLM 的涌现能力。

7.3 更高效地训练模型
如何高效地训练多模态模型是另一个重要挑战,尤其是当训练数据达到十亿到百亿量级时,从头训练需要大量计算资源,小公司难以承受。
优化训练效率的方法包括:
- 训练更少的参数:融合其他预训练模型,只训练部分参数,如 BLIP-2、Prismer;或在已有模型上加小模块,如 LoRA、QLoRA。
- 更高效地利用样本:更好地定义目标函数、设计更高效的模型结构以提升样本利用率。研究发现单流模型的样本利用率通常高于双流模型。

总结
多模态学习是指从多个有差异但相关联的模态数据中学习知识的技术。它可以使模型在单模态任务上的性能提升,同时实现跨模态应用。目前已经发现多模态模型具备某些单模态模型不具备的能力,例如一些大型多模态模型自带 OCR(光学字符识别)能力——而训练数据中并没有显式地包含这项任务。
自 OpenAI 的 ChatGPT 发布以来,多模态学习领域发生了很大变化,例如如何与现有大模型融合、如何用更少参数实现类似效果、如何融合更多模态,以及如何更高效地利用数据和资源训练模型。总体目标是开发出具有更通用能力、跨模态和跨应用能力的模型。
有些观点认为多模态学习可能是实现 AGI 的重要方向。
尽管多模态学习已取得很大进展,但挑战依然巨大:如何采集噪音小的多模态对齐数据?如何让模型学习不同粒度的对齐能力和可迁移能力?这些问题仍有待解决。

参考
- https://www.breezedeus.com/
- [Multimodal Learning:比 LLM 更重要的多模态学习 - 原文 PDF(Notion 链接已过期,待更新)]
- https://imzhanghao.com/2022/10/27/multimodal-learning/
- CLIP: Connecting Text and Images / OpenAI Blog
- Awesome-CLIP / yzhuoning
- Yutong-Zhou-cv/Awesome-Multimodality: A Survey on Multimodal Learning Research
- BradyFU/Awesome-Multimodal-Large-Language-Models: Latest Papers and Datasets on Multimodal Large Language Models