Hey, I'm Robin 👋
RSS FeedHi, I'm Robin. I build production-grade LLM systems and scalable reinforcement learning frameworks, based in Shenzhen.
My work spans LLM post-training, inference optimization, and distributed training. I run a tech blog — Robin's AI Lab — where I write about LLMs, RLHF/GRPO, vLLM/SGLang, DeepSpeed, and the Ascend ecosystem. Find my open source work on GitHub .
Tech stack: PyTorch, Ray, vLLM, DeepSpeed, Megatron, veRL, HuggingFace, CUDA, Docker, Kubernetes.
Featured
-
从 Online Softmax 到 FlashAttention
从数值稳定的 Safe Softmax 出发,推导 Online Softmax 的递推公式,最终理解 FlashAttention 如何将注意力计算融合为单轮遍历的 IO 感知算法。
-
KL散度的近似计算方法
探讨使用蒙特卡洛方法对KL散度进行近似估计的技术,分析三种估计量的偏差与方差特性,并推广至任意f-散度。
-
Trackio:Hugging Face 开源的免费实验追踪库,wandb 的即插即用替代方案
Trackio 是 Hugging Face 推出的开源免费 Python 实验追踪库,API 与 wandb 完全兼容,支持本地可视化仪表板和 Spaces 云端共享。
-
拒绝 GRPO 焦虑!离线强化学习也能造就数学最强基座?PCL-Reasoner-V1.5 技术深度解析
PCL-Reasoner-V1.5 基于离线强化学习在 Qwen2.5-32B 上实现 AIME 2024/2025 SOTA 成绩,探讨 Offline RL 作为 GRPO 替代方案的技术路径。