主题切换
专注于大语言模型、强化学习、深度学习等前沿 AI 技术的研究与实践
RLHF / DPO / GRPO / Verl / OpenRLHF
LLM 原理、训练、微调、Agent、量化压缩
vLLM / SGLang / 解码策略 / KVCache
华为昇腾 NPU 训练与性能优化
DeepSpeed / FSDP / TorchTitan / Ray
Diffusion Models 理论与实现
BLIP / Flamingo / ALBEF / CoCa
DQN / PPO / MCTS / MARL
Git / Python / Kindle
查看 RLHF、推理部署、Ascend 等最新文章