ArXiv Daily — 2026-06-04

2026年6月4日约 24 分钟阅读

ArXiv Daily — 2026-06-04

40 篇论文 | cs.AI / cs.LG / cs.CL / cs.CV / cs.DC

今日概览

今日 ArXiv 呈现 Agentic AI 全面爆发的态势。cs.AI 单分类即涌现十余篇 Agent 相关研究，涵盖隐式推理世界模型 (MIRAGE)、自进化参数化记忆 (TMEM)、长期自主研究基准 (AutoLab)、MCP-native 生物医学代理 (BioManus) 等。与此同时，推理效率仍是高频主题：投机解码 (D^2SD)、稀疏注意力 (SparDA)、连续比特宽度量化 (LiftQuant) 三管齐下。系统层面，UltraEP 首次实现机架级 MoE 近最优负载均衡，将专家并行推向新高度。

★★★ 必读论文

UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing

摘要: 提出机架级专家并行系统，通过近最优负载均衡解决 MoE 训练中的设备级负载不均、计算拖尾和 All-to-All 通信瓶颈。
核心创新: 现有专家并行 (EP) 在机架级扩展时，设备级专家负载不均会放大为计算拖尾、token All-to-All 瓶颈和激活内存尖峰。UltraEP 设计了接近理论最优的负载均衡策略，在机架规模节点上实现 MoE 训练和推理的高效扩展，为前沿 MoE 模型的大规模部署提供关键基础设施。
开源: 未提及

MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models

摘要: 将显式链式思考转化为紧凑隐式状态，让移动 Agent 在不解码长推理过程的情况下进行内部推理，并引入生成式世界模型对齐潜在推理与未来屏幕状态。
核心创新: 现有移动 Agent 依赖显式 CoT 进行推理，导致大量 token 开销。MIRAGE 将显式推理转化为紧凑隐式状态，使 Agent 能够内部推理而无需解码长推理链。同时引入生成式世界模型目标，将潜在推理与未来屏幕状态对齐。在 AndroidWorld 上匹配显式 CoT 性能的同时，解码 token 预算降低 3-5 倍；在 AndroidControl 上，动作定位准确率提升的同时 token 减少 75% 以上。
开源: 未提及

AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

摘要: 构建 36 个真实长期研究工程任务基准，发现前沿 Agent 的成功率关键不在于初始尝试质量，而在于持续迭代优化和整合实证反馈的 persistence。
核心创新: 现有 Agent 基准多为短期任务，无法反映真实研究工程的长期复杂性。AutoLab 构建 36 个跨越系统优化、谜题挑战、模型开发和 CUDA 内核优化的真实任务。关键发现：成功的首要预测因子不是 Agent 初始尝试的质量，而是其在反复基准测试、编辑和整合实证反馈中的 persistence。揭示了当前前沿模型在长期自主研究工程方面的能力与差距。
开源: 未提及

分类速览

🏗️ 模型架构

评级	论文	一句话总结	代码
★★☆	Do Transformers Need Three Projections? Systematic Study of QKV Variants	系统评估 QKV 投影共享约束：Q-K=V、Q=K-V、Q=K=V 三种变体，探索 Transformer 架构简化空间	-
★★☆	Unlocking Feature Learning in Gated Delta Networks at Scale	推导出 Gated Delta Network 的 scaling rules，实验确认配置可实现稳定学习率迁移	-
★★☆	Spectral Scaling Laws of Muon	追踪 77M 到 2.8B 参数模型的动量缓冲奇异值分位数，揭示 Muon 优化器的一致频谱 scaling 规律	-
★★☆	Query-based Cross-Modal Projector Bolstering Mamba Multimodal LLM	用查询式跨模态投影器增强 Mamba 多模态 LLM，缓解 Transformer 二次复杂度问题	-
★☆☆	KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models	基于核优化的差异分析框架，用于视觉-语言基础模型的对比表示对齐	-

🚀 训练与系统

评级	论文	一句话总结	代码
★★☆	FlexNPU: Transparent NPU Virtualization for Dynamic LLM Prefill-Decode Co-location	透明 NPU 虚拟化技术，实现 LLM 预填充与解码的动态共置，提升 AI 服务基础设施效率	-
★★☆	Schedule-Level Shared-Prefix Reuse for LLM RL Training	GRPO 后训练中同 prompt 多轨迹采样的共享前缀调度级复用，提升 RL 训练效率	-
★★☆	DeInfer: Efficient Parallel Inferencing for Decomposed Large Language Models	分解式 LLM 的高效并行推理，解决现有分解工作主要关注下游任务性能而非推理效率的问题	-
★★☆	Ekka: Automated Diagnosis of Silent Errors in LLM Inference	自动化诊断 LLM 推理中的静默错误，应对快速演进的复杂软件栈和大量优化	-
★☆☆	Design Space Exploration of DMA based Finer-Grain Compute Communication Overlap	基于 DMA 的细粒度计算通信重叠设计空间探索，面向现代 ML 工作负载多 GPU 分布需求	-

⚡ 推理与效率

评级	论文	一句话总结	代码
★★☆	D^2SD: Accelerating Speculative Decoding with Dual Diffusion Draft Models	双扩散草稿模型加速投机解码，通过双草稿模型并行生成候选 token 提升验证效率	-
★★☆	SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference	稀疏解耦注意力，降低长上下文 LLM 推理的计算和内存带宽开销	-
★★☆	LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection	通过维度提升和投影实现连续比特宽度控制，获得真正的帕累托最优部署	-
★★☆	MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models	模态感知量化，解决 4-bit 全模态 LLM 因跨模态分布异质性和异常值模式差异导致的 PTQ 困难	-
★★☆	Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge	边缘场景多接入投机推理，多设备协作生成 token 加速 LLM 推理	-
★★☆	Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data	2-bit 激进量化 + LoRA 知识蒸馏恢复精度，仅对 MLP 门控和上投影层量化到 2-bit	-
★★☆	Stochastic Sparse Attention for Memory-Bound Inference	随机稀疏注意力，缓解长上下文自回归解码的 KV Cache 带宽瓶颈	-
★☆☆	dMX: Differentiable Mixed-Precision Assignment for Low-Precision Floating-Point Formats	可微混合精度分配，为低精度浮点格式学习可变的比特宽度	-
★☆☆	LLM Compression with Jointly Optimizing Architectural and Quantization choices	可微 NAS 框架联合优化架构配置和混合精度量化	-

🤖 Agent 与应用

评级	论文	一句话总结	代码
★★☆	Scaling Self-Evolving Agents via Parametric Memory	TMEM 自进化参数化记忆，Agent 通过轻量级在线更新将监督信号吸收到快速 LoRA 权重中，单集内真正改变未来行为	-
★★☆	The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?	测试前沿模型能否自主开发 Agent 系统，发现 Meta-Agent 很少达到人工基线，高优化压力会诱发对抗行为	-
★★☆	Beyond Prompt-Based Planning: MCP-Native Graph Planning-based Biomedical Agent System	BioManus，MCP-native 生物医学代理，BioinfoMCP 编译器将异质生物信息软件转为标准化 MCP 服务器，上下文压缩比 Θ(N/(h·m̄))	-
★★☆	MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation	Baidu Maps 工业级 Agent 框架，Judge-Planner-Worker 循环下确定性地图编辑，支持 360+ 城市、95%+ 生产自动化	-
★★☆	SaliMory: Orchestrating Cognitive Memory for Conversational Agents	对话 Agent 的认知记忆编排系统，维护跨所有交互的持久记忆	-
★★☆	Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline	重新审视 8 个记忆系统跨 5 个场景，发现 Agent 主动控制存储检索的记忆性能最佳，提出 AutoMEM	-
★★☆	AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning	解耦多节点集群训练框架，支持异构多模型 RL、多任务鸡尾酒训练、容错执行，1.5-10x 训练加速	-
★★☆	Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval	状态感知动态检索实现 Web Agent 逐步技能复用，GPT-4.1 在 WebArena 上达 37.5% 成功率	-
★★☆	SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification	构建 SCIPRM70K 数据集，Chain-of-Tool 轨迹交错推理与科学工具执行，提供细粒度工具选择、执行准确性监督	-
★★☆	Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation	形式化 Agentic RAG 中的级联幻觉，CHARM 实现 89.4% 级联检测率和 82.1% 错误传播降低	-
★★☆	LazyAttention: Efficient Retrieval-Augmented Generation with Deferred Positional Encoding	延迟位置编码的高效 RAG，通过推迟 KV cache 的位置编码降低推理开销	-
★☆☆	SePO: Self-Evolving Prompt Agent for System Prompt Optimization	自进化提示代理优化系统提示，无需修改底层模型	-
★☆☆	Notarized Agents: Receiver-Attested Confidential Receipts for AI Agent Actions	接收方验证的保密收据，解决 AI Agent 可观察性中活动日志生产者与被记录实体相同的结构性问题	-
★☆☆	memorywire: A Vendor-Neutral Wire Format for Agent Memory Operations	Agent 内存操作的无厂商中性线格式，统一 mem0、Letta/MemGPT、Cognee 等异构内存框架	-

🛡️ 安全与对齐

评级	论文	一句话总结	代码
★★☆	When Autoregressive Consistency Hurts Safety Alignment	揭示自回归一致性会破坏安全对齐：下一 token 预测倾向于保留和延伸当前响应轨迹，导致有害内容持续生成	-
★★☆	BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization	GRPO 稳定化偏见缓解，跨多个基准优于 DPO 和 PPO	-
★★☆	Expert-Aware Refusal Steering	专家感知拒绝引导，提升指令微调 LLM 对有害请求的可靠拒绝能力	-
★☆☆	Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories	揭示浅层安全只是更广泛的推理时漏洞特例，短 token 注入可在任意生成步骤改变后续安全行为	-
★☆☆	RUBAS: Rubric-Based Reinforcement Learning for Agent Safety	基于量规的强化学习 Agent 安全，将 Agent 行为分解为工具使用安全、参数安全、响应安全和有用性四个维度	-

统计

总计 40 篇 | ★★★ 3 篇 | ★★☆ 24 篇 | ★☆☆ 13 篇
来源：cs.AI / cs.LG / cs.CL / cs.CV / cs.DC
今日标签：Agentic-AI, Inference-Efficiency, MoE-Scaling, Agent-Memory, Quantization