Skip to content
Robin's AI Lab
Search
⌘
Ctrl
K
Main Navigation
首页
AI 技术
大语言模型
强化微调
推理部署
大规模并行
扩散模型
多模态
强化学习
Ascend生态
主题切换
菜单
回到顶部
文章目录
大规模分布式训练
本板块系统介绍大规模分布式训练的核心技术与工具框架。
1. 基础概念
大模型训练技术概论
Ray 核心概念
2. DeepSpeed
DeepSpeed 入门指南
ZeRO 技术原理:基础与实现
ZeRO 技术原理:进阶与 Offload
3. PyTorch 分布式
PyTorch 分布式训练详解
PyTorch FSDP 深度解析
TorchTitan 生产级预训练方案
深入理解 PyTorch DTensor
分布式集合通信与通信原语
4. MMEngine
MMEngine 开发使用指南
执行器 Runner
模型设计
钩子机制
日志系统