主题切换
专注于大语言模型、强化学习、深度学习等前沿AI技术的研究与实践
LLM 原理、训练、微调、Agent、量化压缩
RLHF / DPO / GRPO / Verl / OpenRLHF
vLLM / SGLang / 解码策略 / KVCache
DeepSpeed / FSDP / TorchTitan / Ray
华为昇腾 MindSpeed / NPU 适配
Diffusion Models 理论与实现
BLIP / Flamingo / ALBEF / CoCa
DQN / PPO / MCTS / MARL
Git / Linux / 开发环境配置