Mixture of Experts (MoE)
占位 约 2 分钟阅读
Mixture of Experts (MoE)
概述
Mixture of Experts 是一种神经网络架构模式,将模型的部分计算拆分为多个”专家”子网络,每次推理仅激活部分专家(稀疏激活),从而在保持计算量可控的前提下大幅增加模型总参数量。是现代大语言模型(如 Mixtral、DeepSeek-V3)的关键架构技术。
工作原理
关键变体
| 变体 | 年份 | 论文 | 核心改进 |
|---|---|---|---|
| — | — | — | 待补充 |
最新进展
相关概念
- distributed-training — MoE 引入专家并行 (EP),对分布式系统提出额外要求
- fsdp — MoE 场景中 FSDP 需与 EP 组合使用
相关实体
- bytedance — veScale-FSDP 在 MoE 模型中验证了性能
来源引用
| 日期 | 报告 | 关键发现 |
|---|---|---|
| — | 待补充 | — |