veScale
草稿 约 4 分钟阅读
veScale
概述
veScale 是 ByteDance Seed 开源的分布式训练框架,核心理念是”让大模型分布式训练像单机编程一样简单”。它包含两个子项目:veScale(SPMD 编程框架)和 veScale-FSDP(灵活分片数据并行)。代码已开源在 github.com/ByteDance/veScale。
关键贡献
- distributed-training — SPMD 单程序多数据范式,用一份单 GPU 代码定义模型,通过 Plan 声明并行策略
- Thread-based 分布式 RNG — 将单/多设备随机数差异从 0.16~1.59 压缩到 < 6e-5
- 四层 DTensor 优化 — 规则绕过 → 分片缓存(76%) → C++ 核心 → Static Eager(零开销)
- fsdp — veScale-FSDP 子项目提出 RaggedShard + DBuffer,解决 FSDP 块结构计算冲突
近期动态
- 2026-06-04 | veScale-FSDP: RaggedShard 打破”元素级 or 行级”二元分片困境,支持任意块大小,8K GPU 线性扩展 | 来源: veScale-FSDP 解读
- 2026-06-04 | veScale 核心框架: 单机语义 SPMD,相比 Megatron-LM 1.8x 加速,代码量减少 78% | 来源: veScale 解读
相关实体
- bytedance — 开发团队 ByteDance Seed
- nvidia — Megatron-LM 是主要对比基线
- meta — PyTorch DTensor / TorchTitan 对比基线,veScale 计划 upstream 到 PyTorch
来源引用
| 日期 | 报告 | 关键发现 |
|---|---|---|
| 2026-06-04 | veScale 深度解读 | SPMD, RNG一致性, Static Eager, 2.2x 加速 |
| 2026-06-04 | veScale-FSDP 深度解读 | RaggedShard, DBuffer, 规划算法, 8K GPU |