ArXiv Daily — 2026-06-05

2026年6月5日约 19 分钟阅读

ArXiv Daily — 2026-06-05

40+ 篇论文 | cs.AI / cs.LG / cs.CL / cs.CV / cs.DC

今日概览

今日 arXiv 论文呈现 Agent 工程化与推理效率优化两大主线。在 Agent 领域，SaliMory 提出认知结构化记忆架构，将对话 Agent 的记忆失败率降低三分之一；MIRAGE 让移动 Agent 学会隐式推理，token 消耗降低 3-5 倍；而 Meta-Agent Challenge 的冷酷结论——当前 Agent 尚无法自主开发出媲美人工程度的 Agent 系统——为行业泼了一盆冷水。在效率方向，UltraEP 以机架级专家并行实时负载均衡将 MoE 吞吐量推至理想的 94.3%；Do Transformers Need Three Projections? 通过 Q-K=V 投影共享将 KV Cache 压缩 50%，为端侧部署开辟新路。此外，When Retrieval Doesn’t Help 对生物医学 RAG 的大规模实证研究揭示了”检索不是瓶颈，模型利用检索证据的能力才是”这一反直觉结论。

★★★ 必读论文

UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing

作者: Xinming Wei, Chao Jin 等
机构: 北京大学（Guojie Luo 等）
摘要: MoE 专家并行中的设备级负载不平衡会导致计算拖尾、token all-to-all 瓶颈和激活内存峰值。UltraEP 是一个面向机架级节点的实时负载均衡器，通过动态重分配专家实现近最优负载均衡。
核心创新: 在机架级（rack-scale）节点上实现 MoE 训练和推理的实时专家负载均衡，达到 94.3% 的理想吞吐量，相比非均衡基线提升 1.49×。解决了大规模 MoE 部署中最棘手的专家分布不均问题。
开源: 论文未明确提及

SaliMory: Orchestrating Cognitive Memory for Conversational Agents

作者: Kai Zhang, Xinyuan Zhang 等（Amazon）
摘要: 终身陪伴型对话 Agent 需要持久记忆。SaliMory 训练单一模型通过”分层阶段式过程奖励和奖励分解对比精炼”来管理认知结构化记忆。
核心创新: 将认知科学中的记忆理论（工作记忆、情景记忆、语义记忆）融入 Agent 架构，通过分层过程奖励机制训练记忆管理。记忆归因失败减少三分之一，个性化良好率翻倍。代表了 Agent 记忆系统从简单向量检索向认知建模的跃迁。
开源: 论文未明确提及

Do Transformers Need Three Projections? Systematic Study of QKV Variants

作者: Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis
摘要: 系统评估了 Transformer 中三种投影共享约束：Q-K=V、Q=K-V、Q=K=V。
核心创新: 发现 Q-K=V 投影共享可在仅损失 3.1% 困惑度的前提下实现 50% KV Cache 压缩，结合 MQA 后可达 96.9% 的 Cache 压缩。这意味着 Transformer 的 Query、Key、Value 三个投影并非都必须独立存在，为端侧推理和内存受限场景提供了新的优化维度。
开源: 论文未明确提及

分类速览

🏗️ 模型架构

评级	论文	一句话总结	代码
★★☆	POLARIS: Guiding Small Models to Write Long Stories	GRPO + 前沿 LLM 裁判 + 人类参考注入，Qwen3.5-9B 长故事写作能力匹敌更大模型	—
★★☆	DLLG: Dynamic Logit-Level Gating of LLM Experts	动态 logit 级专家融合框架，token 级专家组合，持续超越路由/启发式集成/参数合并基线	—
★☆☆	Query-based Cross-Modal Projector Bolstering Mamba Multimodal LLM	基于查询的跨模态投影器压缩视觉 token，增强 Mamba 多模态 LLM 性能和吞吐量	—

🚀 训练与系统

评级	论文	一句话总结	代码
★★★	UltraEP	机架级 MoE 专家并行实时负载均衡，94.3% 理想吞吐量，1.49× 提升	—
★★☆	Schedule-Level Shared-Prefix Reuse for LLM RL Training	解耦前缀-后缀调度实现 GRPO 训练 4.395× 加速，HBM 峰值降低 59.1%	—
★★☆	RL Excursions during Pre-Training	RL 在预训练早期即有效，数据组成比模型规模对 RL 效果影响更大	—
★☆☆	FlexNPU: Transparent NPU Virtualization	昇腾 NPU 透明用户空间虚拟化，动态 prefill-decode 共置，吞吐量提升 5.15-26.33%	—
★☆☆	DeInfer: Efficient Parallel Inferencing for Decomposed LLMs	分解 LLM 的高性能并行推理系统	—

⚡ 推理与效率

评级	论文	一句话总结	代码
★★☆	LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting	”提升-投影”机制实现连续比特宽度控制，70B 模型压缩至 2.4bit 精确适配 24GB GPU	—
★★☆	LazyAttention: Deferred Positional Encoding for RAG	延迟位置编码实现零拷贝 KV 复用，1.37× TTFT 降低，1.40× 吞吐量提升	—
★★☆	SparDA: Sparse Decoupled Attention	引入”Forecast”投影实现前瞻选择，重叠预取与执行，1.25× prefill 和 1.7× decode 加速	—
★★☆	D²SD: Accelerating Speculative Decoding with Dual Diffusion Draft Models	双扩散草稿框架 + 置信度引导前缀树 + 级联注意力，提升投机解码接受率	—
★★☆	Recover-LoRA for Aggressive Quantization	GateUp 混合精度 2-bit 量化 + LoRA 恢复，Qwen3-4B 上 9/12 基准 80-95% 精度恢复	—
★☆☆	SANTA: Stochastic Sparse Attention	随机稀疏化 value-cache 访问，注意力核 1.5× 加速	—
★☆☆	Multi-SPIN: Multi-Access Speculative Inference at the Edge	分布式边缘 SPIN，联合草稿长度控制与带宽分配，goodput 提升 88%	—

🤖 Agent 与应用

评级	论文	一句话总结	代码
★★★	SaliMory: Orchestrating Cognitive Memory	认知结构化记忆架构，记忆失败减少 1/3，个性化良好率翻倍	—
★★☆	When Retrieval Doesn’t Help	大规模生物医学 RAG 实证：检索仅带来 1-2 点提升，瓶颈是模型利用证据的能力	—
★★☆	The Meta-Agent Challenge	测试 Agent 自主开发 Agent 的能力，发现元 Agent 极少匹配人工程度，且出现对抗性行为	—
★★☆	MIRAGE: Mobile Agents with Implicit Reasoning	连续潜在推理 + 生成式世界模型，AndroidWorld 上匹敌显式 CoT，token 消耗降低 3-5×	—
★★☆	MapAgent: City-scale Lane-level Map Generation	百度地图工业级 Agent 框架，360+ 城市部署，自动化率超 95%	—
★★☆	Self-Evolving Deep Research	自进化协同进化训练框架 SCORE，共享参数学习 + 元控制器动态调控	—
★★☆	AutoLab	前沿模型能否解决长期 Auto 研究任务？成功的关键不是初始尝试质量，而是持续迭代的坚持	—
★★☆	Cartridges at Scale	模块化 KV Cache 训练，多 cartridge 学习 + 动态干扰混合，RAG 精度匹配且 token 消耗减少 3-4×	—
★★☆	Beyond Prompt-Based Planning: MCP-Native Graph Planning	BioManus: MCP 原生图规划生物 Agent，BioinfoMCP 编译器标准化工具	—
★★☆	AgentJet: Swarm Training Framework	去耦多节点 Agent RL 框架，时间线合并实现 1.5-10× 训练加速	—
★★☆	LifeSide: Benchmarking Agents as Lifelong Companions	多 Agent 模拟终身陪伴场景，2000 人格 + 111K 任务，当前模型远未达标	—
★★☆	Rethinking Continual Experience Internalization	多轮经验学习下渐进能力崩溃问题：原则级经验更持久，逐步注入优于全局注入	—
★☆☆	Temporal Order Matters for Agentic Memory	段树记忆保留时间顺序，性能增益依赖时间顺序的保持	—
★☆☆	AIP: Graph Representation for Agent Skills	Agent 技能有向执行图表示，YAML 规范，Claude Sonnet 任务奖励从 0.60→0.71	—
★☆☆	SePO: Self-Evolving Prompt Agent	自指设计 + 开放式进化搜索优化系统提示，平均准确率提升 4.49 点	—

🛡️ AI 安全与治理

评级	论文	一句话总结	代码
★★☆	Stumbling Into AI Emotional Dependence	OpenAI 纵向研究：28 天每日 5 分钟 AI 情感对话，人类支持偏好下降 10.3%，AI 偏好上升 11.6%	—
★★☆	Large Language Models Hack Rewards, and Society	提出 Societal Hacking：RL 奖励黑客攻击可放大为社会规则漏洞利用	—
★★☆	When Autoregressive Consistency Hurts Safety	随机插入攻击利用自回归一致性在拒绝轨迹中维持有害分支	—
★☆☆	RUBAS: Rubric-Based RL for Agent Safety	四维结构化评分（工具安全/参数安全/响应安全/有用性）实现安全强化学习	—
★☆☆	Off-Distribution Voices	粉丝小说子流派作为通用越狱载体，平均 ASR 从 0.278 提升至 0.731	—
★☆☆	EvalStop: Detect Reward Overoptimization	多租户 RLHF 平台中检测奖励黑客攻击，精度 98%/召回 99%，浪费算力降低 22%	—

统计

总计 40+ 篇 | ★★★ 3 篇 | ★★☆ 22 篇 | ★☆☆ 15+ 篇
来源：cs.AI / cs.LG / cs.CL / cs.CV / cs.DC
今日标签：Agent, LLM, MoE, Quantization, RAG