AI News Daily

ArXiv Daily — 2026-06-05

约 19 分钟阅读

ArXiv Daily — 2026-06-05

40+ 篇论文 | cs.AI / cs.LG / cs.CL / cs.CV / cs.DC

今日概览

今日 arXiv 论文呈现 Agent 工程化推理效率优化两大主线。在 Agent 领域,SaliMory 提出认知结构化记忆架构,将对话 Agent 的记忆失败率降低三分之一;MIRAGE 让移动 Agent 学会隐式推理,token 消耗降低 3-5 倍;而 Meta-Agent Challenge 的冷酷结论——当前 Agent 尚无法自主开发出媲美人工程度的 Agent 系统——为行业泼了一盆冷水。在效率方向,UltraEP 以机架级专家并行实时负载均衡将 MoE 吞吐量推至理想的 94.3%;Do Transformers Need Three Projections? 通过 Q-K=V 投影共享将 KV Cache 压缩 50%,为端侧部署开辟新路。此外,When Retrieval Doesn’t Help 对生物医学 RAG 的大规模实证研究揭示了”检索不是瓶颈,模型利用检索证据的能力才是”这一反直觉结论。

★★★ 必读论文

UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing

SaliMory: Orchestrating Cognitive Memory for Conversational Agents

Do Transformers Need Three Projections? Systematic Study of QKV Variants

分类速览

🏗️ 模型架构

评级论文一句话总结代码
★★☆POLARIS: Guiding Small Models to Write Long StoriesGRPO + 前沿 LLM 裁判 + 人类参考注入,Qwen3.5-9B 长故事写作能力匹敌更大模型
★★☆DLLG: Dynamic Logit-Level Gating of LLM Experts动态 logit 级专家融合框架,token 级专家组合,持续超越路由/启发式集成/参数合并基线
★☆☆Query-based Cross-Modal Projector Bolstering Mamba Multimodal LLM基于查询的跨模态投影器压缩视觉 token,增强 Mamba 多模态 LLM 性能和吞吐量

🚀 训练与系统

评级论文一句话总结代码
★★★UltraEP机架级 MoE 专家并行实时负载均衡,94.3% 理想吞吐量,1.49× 提升
★★☆Schedule-Level Shared-Prefix Reuse for LLM RL Training解耦前缀-后缀调度实现 GRPO 训练 4.395× 加速,HBM 峰值降低 59.1%
★★☆RL Excursions during Pre-TrainingRL 在预训练早期即有效,数据组成比模型规模对 RL 效果影响更大
★☆☆FlexNPU: Transparent NPU Virtualization昇腾 NPU 透明用户空间虚拟化,动态 prefill-decode 共置,吞吐量提升 5.15-26.33%
★☆☆DeInfer: Efficient Parallel Inferencing for Decomposed LLMs分解 LLM 的高性能并行推理系统

⚡ 推理与效率

评级论文一句话总结代码
★★☆LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting”提升-投影”机制实现连续比特宽度控制,70B 模型压缩至 2.4bit 精确适配 24GB GPU
★★☆LazyAttention: Deferred Positional Encoding for RAG延迟位置编码实现零拷贝 KV 复用,1.37× TTFT 降低,1.40× 吞吐量提升
★★☆SparDA: Sparse Decoupled Attention引入”Forecast”投影实现前瞻选择,重叠预取与执行,1.25× prefill 和 1.7× decode 加速
★★☆D²SD: Accelerating Speculative Decoding with Dual Diffusion Draft Models双扩散草稿框架 + 置信度引导前缀树 + 级联注意力,提升投机解码接受率
★★☆Recover-LoRA for Aggressive QuantizationGateUp 混合精度 2-bit 量化 + LoRA 恢复,Qwen3-4B 上 9/12 基准 80-95% 精度恢复
★☆☆SANTA: Stochastic Sparse Attention随机稀疏化 value-cache 访问,注意力核 1.5× 加速
★☆☆Multi-SPIN: Multi-Access Speculative Inference at the Edge分布式边缘 SPIN,联合草稿长度控制与带宽分配,goodput 提升 88%

🤖 Agent 与应用

评级论文一句话总结代码
★★★SaliMory: Orchestrating Cognitive Memory认知结构化记忆架构,记忆失败减少 1/3,个性化良好率翻倍
★★☆When Retrieval Doesn’t Help大规模生物医学 RAG 实证:检索仅带来 1-2 点提升,瓶颈是模型利用证据的能力
★★☆The Meta-Agent Challenge测试 Agent 自主开发 Agent 的能力,发现元 Agent 极少匹配人工程度,且出现对抗性行为
★★☆MIRAGE: Mobile Agents with Implicit Reasoning连续潜在推理 + 生成式世界模型,AndroidWorld 上匹敌显式 CoT,token 消耗降低 3-5×
★★☆MapAgent: City-scale Lane-level Map Generation百度地图工业级 Agent 框架,360+ 城市部署,自动化率超 95%
★★☆Self-Evolving Deep Research自进化协同进化训练框架 SCORE,共享参数学习 + 元控制器动态调控
★★☆AutoLab前沿模型能否解决长期 Auto 研究任务?成功的关键不是初始尝试质量,而是持续迭代的坚持
★★☆Cartridges at Scale模块化 KV Cache 训练,多 cartridge 学习 + 动态干扰混合,RAG 精度匹配且 token 消耗减少 3-4×
★★☆Beyond Prompt-Based Planning: MCP-Native Graph PlanningBioManus: MCP 原生图规划生物 Agent,BioinfoMCP 编译器标准化工具
★★☆AgentJet: Swarm Training Framework去耦多节点 Agent RL 框架,时间线合并实现 1.5-10× 训练加速
★★☆LifeSide: Benchmarking Agents as Lifelong Companions多 Agent 模拟终身陪伴场景,2000 人格 + 111K 任务,当前模型远未达标
★★☆Rethinking Continual Experience Internalization多轮经验学习下渐进能力崩溃问题:原则级经验更持久,逐步注入优于全局注入
★☆☆Temporal Order Matters for Agentic Memory段树记忆保留时间顺序,性能增益依赖时间顺序的保持
★☆☆AIP: Graph Representation for Agent SkillsAgent 技能有向执行图表示,YAML 规范,Claude Sonnet 任务奖励从 0.60→0.71
★☆☆SePO: Self-Evolving Prompt Agent自指设计 + 开放式进化搜索优化系统提示,平均准确率提升 4.49 点

🛡️ AI 安全与治理

评级论文一句话总结代码
★★☆Stumbling Into AI Emotional DependenceOpenAI 纵向研究:28 天每日 5 分钟 AI 情感对话,人类支持偏好下降 10.3%,AI 偏好上升 11.6%
★★☆Large Language Models Hack Rewards, and Society提出 Societal Hacking:RL 奖励黑客攻击可放大为社会规则漏洞利用
★★☆When Autoregressive Consistency Hurts Safety随机插入攻击利用自回归一致性在拒绝轨迹中维持有害分支
★☆☆RUBAS: Rubric-Based RL for Agent Safety四维结构化评分(工具安全/参数安全/响应安全/有用性)实现安全强化学习
★☆☆Off-Distribution Voices粉丝小说子流派作为通用越狱载体,平均 ASR 从 0.278 提升至 0.731
★☆☆EvalStop: Detect Reward Overoptimization多租户 RLHF 平台中检测奖励黑客攻击,精度 98%/召回 99%,浪费算力降低 22%

统计