Skip to content

Main Navigation 首页

大语言模型

大规模并行

主题切换

Sidebar Navigation

多模态

概述

多模态学习概述

大型多模态模型

ALBEF

BLIP

BLIP-2

CoCa

Flamingo

Whisper 视频语音转文本

文生视频

文章目录

多模态学习

本板块系统梳理多模态学习的核心技术、代表性模型与典型应用，帮助读者建立从基础概念到前沿实践的全景认识。

1. 多模态基础

多模态学习概述
大型多模态模型（LMM）概述

2. 代表性模型

ALBEF：对齐再融合的视觉语言预训练
BLIP：统一视觉语言理解与生成
BLIP-2：可扩展的多模态预训练
CoCa：对比字幕生成的视觉语言基础模型
Flamingo：少样本视觉语言模型

3. 应用方向

使用 OpenAI Whisper 实现视频语音转文本
文生视频：任务、挑战与现状

在 GitHub 上编辑此页

最后更新于:

Pager

下一篇多模态学习概述

Maintained by Robin

© 2017 — 2026. Powered by VitePress