大模型推理部署
本板块系统介绍大语言模型推理部署的核心技术,从基础解码策略到生产级推理框架的性能调优。
1. 推理基础
2. 推理优化
- KV Cache 机制详解
- KV Cache 管理与优化架构
- KV Cache Offloading 技术
- LMCache:推理缓存系统
- FlashAttention:从 Online Softmax 到高效注意力
- 连续批处理原理与优化
- Prefill-Decode 解耦架构
3. vLLM
- PagedAttention 原理详解
- vLLM 架构设计
- vLLM 自动前缀缓存
- vLLM 性能调优指南
- vLLM 基准测试指南
- vLLM Ascend 图模式优化
- vLLM Ascend ACL Graph 详解
- vLLM 数据并行部署