ArXiv Daily — 2026-06-04
约 24 分钟阅读
ArXiv Daily — 2026-06-04
40 篇论文 | cs.AI / cs.LG / cs.CL / cs.CV / cs.DC
今日概览
今日 ArXiv 呈现 Agentic AI 全面爆发的态势。cs.AI 单分类即涌现十余篇 Agent 相关研究,涵盖隐式推理世界模型 (MIRAGE)、自进化参数化记忆 (TMEM)、长期自主研究基准 (AutoLab)、MCP-native 生物医学代理 (BioManus) 等。与此同时,推理效率仍是高频主题:投机解码 (D^2SD)、稀疏注意力 (SparDA)、连续比特宽度量化 (LiftQuant) 三管齐下。系统层面,UltraEP 首次实现机架级 MoE 近最优负载均衡,将专家并行推向新高度。
★★★ 必读论文
UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing
- 摘要: 提出机架级专家并行系统,通过近最优负载均衡解决 MoE 训练中的设备级负载不均、计算拖尾和 All-to-All 通信瓶颈。
- 核心创新: 现有专家并行 (EP) 在机架级扩展时,设备级专家负载不均会放大为计算拖尾、token All-to-All 瓶颈和激活内存尖峰。UltraEP 设计了接近理论最优的负载均衡策略,在机架规模节点上实现 MoE 训练和推理的高效扩展,为前沿 MoE 模型的大规模部署提供关键基础设施。
- 开源: 未提及
MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models
- 摘要: 将显式链式思考转化为紧凑隐式状态,让移动 Agent 在不解码长推理过程的情况下进行内部推理,并引入生成式世界模型对齐潜在推理与未来屏幕状态。
- 核心创新: 现有移动 Agent 依赖显式 CoT 进行推理,导致大量 token 开销。MIRAGE 将显式推理转化为紧凑隐式状态,使 Agent 能够内部推理而无需解码长推理链。同时引入生成式世界模型目标,将潜在推理与未来屏幕状态对齐。在 AndroidWorld 上匹配显式 CoT 性能的同时,解码 token 预算降低 3-5 倍;在 AndroidControl 上,动作定位准确率提升的同时 token 减少 75% 以上。
- 开源: 未提及
AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?
- 摘要: 构建 36 个真实长期研究工程任务基准,发现前沿 Agent 的成功率关键不在于初始尝试质量,而在于持续迭代优化和整合实证反馈的 persistence。
- 核心创新: 现有 Agent 基准多为短期任务,无法反映真实研究工程的长期复杂性。AutoLab 构建 36 个跨越系统优化、谜题挑战、模型开发和 CUDA 内核优化的真实任务。关键发现:成功的首要预测因子不是 Agent 初始尝试的质量,而是其在反复基准测试、编辑和整合实证反馈中的 persistence。揭示了当前前沿模型在长期自主研究工程方面的能力与差距。
- 开源: 未提及
分类速览
🏗️ 模型架构
| 评级 | 论文 | 一句话总结 | 代码 |
|---|---|---|---|
| ★★☆ | Do Transformers Need Three Projections? Systematic Study of QKV Variants | 系统评估 QKV 投影共享约束:Q-K=V、Q=K-V、Q=K=V 三种变体,探索 Transformer 架构简化空间 | - |
| ★★☆ | Unlocking Feature Learning in Gated Delta Networks at Scale | 推导出 Gated Delta Network 的 scaling rules,实验确认配置可实现稳定学习率迁移 | - |
| ★★☆ | Spectral Scaling Laws of Muon | 追踪 77M 到 2.8B 参数模型的动量缓冲奇异值分位数,揭示 Muon 优化器的一致频谱 scaling 规律 | - |
| ★★☆ | Query-based Cross-Modal Projector Bolstering Mamba Multimodal LLM | 用查询式跨模态投影器增强 Mamba 多模态 LLM,缓解 Transformer 二次复杂度问题 | - |
| ★☆☆ | KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models | 基于核优化的差异分析框架,用于视觉-语言基础模型的对比表示对齐 | - |
🚀 训练与系统
| 评级 | 论文 | 一句话总结 | 代码 |
|---|---|---|---|
| ★★☆ | FlexNPU: Transparent NPU Virtualization for Dynamic LLM Prefill-Decode Co-location | 透明 NPU 虚拟化技术,实现 LLM 预填充与解码的动态共置,提升 AI 服务基础设施效率 | - |
| ★★☆ | Schedule-Level Shared-Prefix Reuse for LLM RL Training | GRPO 后训练中同 prompt 多轨迹采样的共享前缀调度级复用,提升 RL 训练效率 | - |
| ★★☆ | DeInfer: Efficient Parallel Inferencing for Decomposed Large Language Models | 分解式 LLM 的高效并行推理,解决现有分解工作主要关注下游任务性能而非推理效率的问题 | - |
| ★★☆ | Ekka: Automated Diagnosis of Silent Errors in LLM Inference | 自动化诊断 LLM 推理中的静默错误,应对快速演进的复杂软件栈和大量优化 | - |
| ★☆☆ | Design Space Exploration of DMA based Finer-Grain Compute Communication Overlap | 基于 DMA 的细粒度计算通信重叠设计空间探索,面向现代 ML 工作负载多 GPU 分布需求 | - |
⚡ 推理与效率
🤖 Agent 与应用
🛡️ 安全与对齐
| 评级 | 论文 | 一句话总结 | 代码 |
|---|---|---|---|
| ★★☆ | When Autoregressive Consistency Hurts Safety Alignment | 揭示自回归一致性会破坏安全对齐:下一 token 预测倾向于保留和延伸当前响应轨迹,导致有害内容持续生成 | - |
| ★★☆ | BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization | GRPO 稳定化偏见缓解,跨多个基准优于 DPO 和 PPO | - |
| ★★☆ | Expert-Aware Refusal Steering | 专家感知拒绝引导,提升指令微调 LLM 对有害请求的可靠拒绝能力 | - |
| ★☆☆ | Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories | 揭示浅层安全只是更广泛的推理时漏洞特例,短 token 注入可在任意生成步骤改变后续安全行为 | - |
| ★☆☆ | RUBAS: Rubric-Based Reinforcement Learning for Agent Safety | 基于量规的强化学习 Agent 安全,将 Agent 行为分解为工具使用安全、参数安全、响应安全和有用性四个维度 | - |
统计
- 总计 40 篇 | ★★★ 3 篇 | ★★☆ 24 篇 | ★☆☆ 13 篇
- 来源:cs.AI / cs.LG / cs.CL / cs.CV / cs.DC
- 今日标签:
Agentic-AI,Inference-Efficiency,MoE-Scaling,Agent-Memory,Quantization