AI News Daily

ArXiv Daily — 2026-06-04

约 24 分钟阅读

ArXiv Daily — 2026-06-04

40 篇论文 | cs.AI / cs.LG / cs.CL / cs.CV / cs.DC

今日概览

今日 ArXiv 呈现 Agentic AI 全面爆发的态势。cs.AI 单分类即涌现十余篇 Agent 相关研究,涵盖隐式推理世界模型 (MIRAGE)、自进化参数化记忆 (TMEM)、长期自主研究基准 (AutoLab)、MCP-native 生物医学代理 (BioManus) 等。与此同时,推理效率仍是高频主题:投机解码 (D^2SD)、稀疏注意力 (SparDA)、连续比特宽度量化 (LiftQuant) 三管齐下。系统层面,UltraEP 首次实现机架级 MoE 近最优负载均衡,将专家并行推向新高度。


★★★ 必读论文

UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing

MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models

AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?


分类速览

🏗️ 模型架构

评级论文一句话总结代码
★★☆Do Transformers Need Three Projections? Systematic Study of QKV Variants系统评估 QKV 投影共享约束:Q-K=V、Q=K-V、Q=K=V 三种变体,探索 Transformer 架构简化空间-
★★☆Unlocking Feature Learning in Gated Delta Networks at Scale推导出 Gated Delta Network 的 scaling rules,实验确认配置可实现稳定学习率迁移-
★★☆Spectral Scaling Laws of Muon追踪 77M 到 2.8B 参数模型的动量缓冲奇异值分位数,揭示 Muon 优化器的一致频谱 scaling 规律-
★★☆Query-based Cross-Modal Projector Bolstering Mamba Multimodal LLM用查询式跨模态投影器增强 Mamba 多模态 LLM,缓解 Transformer 二次复杂度问题-
★☆☆KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models基于核优化的差异分析框架,用于视觉-语言基础模型的对比表示对齐-

🚀 训练与系统

评级论文一句话总结代码
★★☆FlexNPU: Transparent NPU Virtualization for Dynamic LLM Prefill-Decode Co-location透明 NPU 虚拟化技术,实现 LLM 预填充与解码的动态共置,提升 AI 服务基础设施效率-
★★☆Schedule-Level Shared-Prefix Reuse for LLM RL TrainingGRPO 后训练中同 prompt 多轨迹采样的共享前缀调度级复用,提升 RL 训练效率-
★★☆DeInfer: Efficient Parallel Inferencing for Decomposed Large Language Models分解式 LLM 的高效并行推理,解决现有分解工作主要关注下游任务性能而非推理效率的问题-
★★☆Ekka: Automated Diagnosis of Silent Errors in LLM Inference自动化诊断 LLM 推理中的静默错误,应对快速演进的复杂软件栈和大量优化-
★☆☆Design Space Exploration of DMA based Finer-Grain Compute Communication Overlap基于 DMA 的细粒度计算通信重叠设计空间探索,面向现代 ML 工作负载多 GPU 分布需求-

⚡ 推理与效率

评级论文一句话总结代码
★★☆D^2SD: Accelerating Speculative Decoding with Dual Diffusion Draft Models双扩散草稿模型加速投机解码,通过双草稿模型并行生成候选 token 提升验证效率-
★★☆SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference稀疏解耦注意力,降低长上下文 LLM 推理的计算和内存带宽开销-
★★☆LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection通过维度提升和投影实现连续比特宽度控制,获得真正的帕累托最优部署-
★★☆MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models模态感知量化,解决 4-bit 全模态 LLM 因跨模态分布异质性和异常值模式差异导致的 PTQ 困难-
★★☆Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge边缘场景多接入投机推理,多设备协作生成 token 加速 LLM 推理-
★★☆Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data2-bit 激进量化 + LoRA 知识蒸馏恢复精度,仅对 MLP 门控和上投影层量化到 2-bit-
★★☆Stochastic Sparse Attention for Memory-Bound Inference随机稀疏注意力,缓解长上下文自回归解码的 KV Cache 带宽瓶颈-
★☆☆dMX: Differentiable Mixed-Precision Assignment for Low-Precision Floating-Point Formats可微混合精度分配,为低精度浮点格式学习可变的比特宽度-
★☆☆LLM Compression with Jointly Optimizing Architectural and Quantization choices可微 NAS 框架联合优化架构配置和混合精度量化-

🤖 Agent 与应用

评级论文一句话总结代码
★★☆Scaling Self-Evolving Agents via Parametric MemoryTMEM 自进化参数化记忆,Agent 通过轻量级在线更新将监督信号吸收到快速 LoRA 权重中,单集内真正改变未来行为-
★★☆The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?测试前沿模型能否自主开发 Agent 系统,发现 Meta-Agent 很少达到人工基线,高优化压力会诱发对抗行为-
★★☆Beyond Prompt-Based Planning: MCP-Native Graph Planning-based Biomedical Agent SystemBioManus,MCP-native 生物医学代理,BioinfoMCP 编译器将异质生物信息软件转为标准化 MCP 服务器,上下文压缩比 Θ(N/(h·m̄))-
★★☆MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map GenerationBaidu Maps 工业级 Agent 框架,Judge-Planner-Worker 循环下确定性地图编辑,支持 360+ 城市、95%+ 生产自动化-
★★☆SaliMory: Orchestrating Cognitive Memory for Conversational Agents对话 Agent 的认知记忆编排系统,维护跨所有交互的持久记忆-
★★☆Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline重新审视 8 个记忆系统跨 5 个场景,发现 Agent 主动控制存储检索的记忆性能最佳,提出 AutoMEM-
★★☆AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning解耦多节点集群训练框架,支持异构多模型 RL、多任务鸡尾酒训练、容错执行,1.5-10x 训练加速-
★★☆Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval状态感知动态检索实现 Web Agent 逐步技能复用,GPT-4.1 在 WebArena 上达 37.5% 成功率-
★★☆SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification构建 SCIPRM70K 数据集,Chain-of-Tool 轨迹交错推理与科学工具执行,提供细粒度工具选择、执行准确性监督-
★★☆Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation形式化 Agentic RAG 中的级联幻觉,CHARM 实现 89.4% 级联检测率和 82.1% 错误传播降低-
★★☆LazyAttention: Efficient Retrieval-Augmented Generation with Deferred Positional Encoding延迟位置编码的高效 RAG,通过推迟 KV cache 的位置编码降低推理开销-
★☆☆SePO: Self-Evolving Prompt Agent for System Prompt Optimization自进化提示代理优化系统提示,无需修改底层模型-
★☆☆Notarized Agents: Receiver-Attested Confidential Receipts for AI Agent Actions接收方验证的保密收据,解决 AI Agent 可观察性中活动日志生产者与被记录实体相同的结构性问题-
★☆☆memorywire: A Vendor-Neutral Wire Format for Agent Memory OperationsAgent 内存操作的无厂商中性线格式,统一 mem0、Letta/MemGPT、Cognee 等异构内存框架-

🛡️ 安全与对齐

评级论文一句话总结代码
★★☆When Autoregressive Consistency Hurts Safety Alignment揭示自回归一致性会破坏安全对齐:下一 token 预测倾向于保留和延伸当前响应轨迹,导致有害内容持续生成-
★★☆BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy OptimizationGRPO 稳定化偏见缓解,跨多个基准优于 DPO 和 PPO-
★★☆Expert-Aware Refusal Steering专家感知拒绝引导,提升指令微调 LLM 对有害请求的可靠拒绝能力-
★☆☆Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories揭示浅层安全只是更广泛的推理时漏洞特例,短 token 注入可在任意生成步骤改变后续安全行为-
★☆☆RUBAS: Rubric-Based Reinforcement Learning for Agent Safety基于量规的强化学习 Agent 安全,将 Agent 行为分解为工具使用安全、参数安全、响应安全和有用性四个维度-

统计