AI News Daily
← Wiki / 概念

Distributed Training / 分布式训练

草稿 约 5 分钟阅读

Distributed Training / 分布式训练

概述

分布式训练是将大语言模型(LLM)的训练任务拆分到多块 GPU / 多台服务器上协同进行的技术。随着模型参数从几十亿增长到数千亿甚至万亿级别,单 GPU 的显存和算力已远远不够,分布式训练成为行业标配。核心挑战在于:如何在保持代码简洁性的同时,高效利用数百甚至数千块 GPU。

工作原理

现代大模型分布式训练通常组合多种并行策略:

flowchart TB
    Model["模型定义 单GPU代码"] --> Plan["并行计划 Plan"]
    Plan --> DP["数据并行 DP"]
    Plan --> TP["张量并行 TP"]
    Plan --> PP["流水线并行 PP"]
    Plan --> SP["序列并行 SP"]
    Plan --> EP["专家并行 EP MoE"]
    DP --> Comm["集合通信 AllReduce / AllGather"]
    TP --> Comm
    PP --> Comm
    SP --> Comm
    EP --> Comm
    Comm --> Train["分布式训练执行"]

关键变体 / 系统

系统范式核心特点代表论文/年份
Megatron-LM手动并行高性能,需深层修改模型代码NVIDIA, 2019+
DeepSpeed ZeRO元素级分片内存高效,AllGather 碎片化Microsoft, 2020
PyTorch FSDP2行级分片易用,Copy-Out/In 开销 5-23msMeta, 2023
PyTorch DTensorSPMD单 GPU 代码,一致性差/性能差Meta
TorchTitanSPMDPyTorch 官方 3D 并行方案Meta, 2024
JAX / Alpa编译式 SPMD自动优化,难以调试Google, 2021+
veScale即时 SPMD单机语义一致性 + 零 DTensor 开销ByteDance, 2025

最新进展

相关概念

相关实体

来源引用

日期报告关键发现
2026-06-04veScale 深度解读SPMD 单机语义,2.2x 加速
2026-06-04veScale-FSDP 深度解读RaggedShard, 8K GPU 线性扩展