大模型推理基础
- 大语言模型解码采样参数解析
- 解码策略基础
- 解码策略高级方法
- LLM Inference 常用指标
- 计算大模型推理所需的 GPU 内存
- KVCaching 机制详解
- FlashAttention 原理详解
- Continuous-Batching 介绍
- Prefill-Decode-Disaggregation 机制详解
VLLM
- PagedAttention 原理详解
- vLLM 设计文档
- Auto Prefix Caching
- vLLM 性能调优
- vLLM 性能基准测试指南
- vLLM 大模型服务:图模式部署
- vLLM 大模型服务:Ascend ACL 图模式部署
- vLLM 大模型服务:数据并行(DP)部署模式深度解析与优化实践