Mixture of Experts (MoE)

更新于 2026年6月6日占位约 2 分钟阅读

概述

Mixture of Experts 是一种神经网络架构模式，将模型的部分计算拆分为多个”专家”子网络，每次推理仅激活部分专家（稀疏激活），从而在保持计算量可控的前提下大幅增加模型总参数量。是现代大语言模型（如 Mixtral、DeepSeek-V3）的关键架构技术。

变体	年份	论文	核心改进
—	—	—	待补充

日期	报告	关键发现
—	待补充	—