Skip to content
Robin's AI Lab
Search
⌘
Ctrl
K
Main Navigation
首页
AI 技术
大语言模型
强化微调
推理部署
大规模并行
扩散模型
多模态
强化学习
Ascend生态
主题切换
菜单
回到顶部
文章目录
多模态学习
本板块系统梳理多模态学习的核心技术、代表性模型与典型应用,帮助读者建立从基础概念到前沿实践的全景认识。
1. 多模态基础
多模态学习概述
大型多模态模型(LMM)概述
2. 代表性模型
ALBEF:对齐再融合的视觉语言预训练
BLIP:统一视觉语言理解与生成
BLIP-2:可扩展的多模态预训练
CoCa:对比字幕生成的视觉语言基础模型
Flamingo:少样本视觉语言模型
3. 应用方向
使用 OpenAI Whisper 实现视频语音转文本
文生视频:任务、挑战与现状