Skip to content

Main Navigation 首页

大语言模型

大规模并行

主题切换

Sidebar Navigation

概述

生态对比

GPU vs 昇腾全景对比

适配与部署

LLaMA-Factory NPU Docker

并行训练

分布式并行训练技术

上下文并行

训练优化

Data Packing

RL 训练技巧

WandB Tables 记录文本

性能优化

NPU 融合注意力算子

MFU 计算方法

模型评测

lm-evaluation-harness 昇腾后端

文章目录

Ascend NPU 生态

本板块汇总华为昇腾 NPU 相关的开发资料，包括 PyTorch 适配方案、MindSpeed 训练框架使用、NPU 算子接口以及大规模分布式训练技术。

1. 生态调研

GPU vs 昇腾：大模型训练推理全景对比

2. 适配与部署

LLaMA-Factory NPU Docker 镜像配置

3. 并行训练

SPMD 并行训练技术详解
长上下文序列训练方案

4. 训练优化

Data Packing 数据打包策略
强化学习训练技巧总结
使用 WandB Tables 记录生成的文本数据

5. 性能优化

NPU 融合注意力算子详解与迁移指南
LLM 中 MFU 的计算方法

6. 模型评测

lm-evaluation-harness 新增华为昇腾 NPU 与 MindSpeed-LLM 后端支持

在 GitHub 上编辑此页

最后更新于:

Pager

下一篇GPU vs 昇腾全景对比

Maintained by Robin

© 2017 — 2026. Powered by VitePress