作者:Hongxiang Lin, Zhirui Kuai, Erpeng Xue*, Lei Wang
机构:美团 (Meituan)
在基于大语言模型的Agentic RL(智能体强化学习)中,执行长视野(Long-horizon)任务是一项极具挑战的诉求。为了提升探索效率和样本利用率,引入结构化技能提示(Structured Skill Prompts)已成为当前的主流范式。然而,关于如何使用这些Skills,业界主要分为两条路线,也各自面临显著痛点:
痛点:内化盲区(Internalization Blindness)
现有的内化方法往往只停留在“外部干预”层面(例如基于验证集胜率硬切断技能供应——Curriculum Control),而没有触及RL优化过程本身。在标准的 GRPO 算法更新步中,同一Prompt条件下的所有Rollouts被混在一起进行优势归一化(Advantage Normalization)。当技能注入(Skill-injected)的轨迹占据高Reward时,会无形中抬高整体Baseline,反而压制了那些偶然成功的无技能(Skill-free)轨迹的优势值(Advantage)。导致的结果是:模型根本无法在梯度层面区分哪些是“依赖技能的成功”,哪些是“自主能力的成功”,导致模型迟迟无法真正独立。
为了解决上述的“内化盲区”,美团团队提出了一种全新的框架 SKILLC,其核心思想是将“技能内化”的差距转化为显式的对比信用分配(Contrastive Skill Credit Assignment, CSCA)信号,直接作用于策略更新(Policy Update)。
虽然本文并未提供具体的对话Case,但其在 ALFWorld 多任务环境中的训练动态轨迹 构成了极佳的“宏观Case Study”,清晰展示了SKILLC是如何引导Agent从“依赖”走向“独立”的:
SKILLC 并不改变模型结构,而是从 RL 的采样与优势估计函数入手,设计极为优雅。以下是三大核心实现细节:
让 $z \in \{0, 1\}$ 表示是否注入技能,任务级的内部差距定义为模型在有无技能下期望回报的差值:
$\Delta(x) = \mathbb{E}[R \mid x, z=1; \pi_\theta] - \mathbb{E}[R \mid x, z=0; \pi_\theta]$
为能在同一批次内观测到该信号,SKILLC 在每个更新步,强制针对同一Task同时分配有技能和无技能的 Rollouts(成对对比),通过平滑均值差得到 Batch 级的对比信号 $\hat{\Delta}(x)$。
这是 SKILLC 最精髓的改动。传统的 GRPO 计算出 Advantage 后直接更新策略,而 SKILLC 将 Advantage 拆解为两个“流”(Stream):
$\hat{A}_{CSCA}(i, x) = \Phi(R_i, \mathcal{R}_{batch}) + \omega \cdot A_{contra}^{cond}(i, x)$
妙处在于: 这是一个过渡性(Transient)信号。当模型内化完成时,$\hat{\Delta}(x) \leq 0$,修正项自动归零,算法退化为无偏差的分层归一化(Stratified Normalization)。
除了在 Batch 级别的细粒度指导,SKILLC 还使用周期验证集(Validation)产出的平滑 Gap 信号 $\bar{\Delta}^{(t)}_{\text{val}}(k)$ 来计算 Gate 值。这个 Gate 会动态且单调地控制三个变量:
实验设置:
核心结果:
站在 LLM 训练与后训练(Post-training)的前沿视角,SKILLC 的贡献不仅是刷高了指标,更重要的是为 Agentic RL 中的 Curriculum Learning 提供了一种极其优雅且具备数学闭环的思路:
作者:Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang
机构:Microsoft Research, KAIST
近年来,将强化学习(RL)与大型语言模型(LLM)结合,使Agent能够基于环境反馈自我进化(如 GRPO 算法)已成为重要范式。然而,在复杂的多步具身推理(Embodied Reasoning)任务中,当前基于 RL 训练的 LLM Agent 面临着一个致命瓶颈:探索(Exploration)能力严重不足。
具体而言,面临以下痛点:
微软研究院提出了 EMPO² (Exploratory Memory-Augmented On- and Off-Policy Optimization),一种统一的混合强化学习框架,成功打破了“外部提示工程”与“内部参数优化”的次元壁。其主要贡献包括:
以下展示在 ScienceWorld 的 <power-component> 任务中,EMPO² 是如何通过记忆增强打破“行为死锁”的:
任务要求: 找到红灯泡,建立电路并点亮它。Agent 初始出生在“走廊(Hallway)”。
[无记忆的 GRPO Agent 行为 - 陷入死循环]
Observation: 房间是走廊,你看到了门、画等。
Action: focus on red bulb (试图聚焦红灯泡)
结果: 任务失败。因为当前房间根本没有红灯泡,由于没有记忆,Agent在后续多次 Rollout 训练中,像无头苍蝇一样重复这条失败指令,分数彻底停滞。
[EMPO² 借助自我生成的 Tips 破局]
在之前的 Trial 中,Agent 同样失败了,但它在当前回合结束时生成了一条总结并存入 Memory Buffer:
"Focus on red light bulb but cannot find it in the hallway... Eventually you got the score -100.0/100."
新的 Rollout (带有记忆增强的 Prompting):
Tips: 检索到了上述失败经验。
Action: go to workshop (前往工作室寻找)
结果: 成功转移房间并在新房间找到了红灯泡,跳出了局部最优,开始进行有意义的探索,随后这些优质轨迹被用于进一步优化策略模型。

EMPO² 的核心在于将 Rollout 和 Update 阶段进行解耦,通过不同的条件组合实现“基于记忆的探索”和“剥离记忆的内化”。
在每次交互生成数据时,Agent 依概率 $p$ 选择是否使用外挂记忆:
通过“无记忆采样”获取的轨迹,按标准的 GRPO 直接更新。而通过“记忆增强采样”获取的轨迹,则分为两种情况进行强化学习更新:
由于 Off-Policy 强行去掉了 Tips 导致的分布偏移,极易造成重要性采样比率(Likelihood ratios)无界爆发。为此,作者设计了一个低概率截断的 Masking 机制:当某个 Token 在无提示条件下的生成概率低于阈值 $\delta$ 时,丢弃其 Advantage 带来的梯度更新:
$$ \mathbb{E} \left[ \frac{1}{NT} \sum_{i=1}^N \sum_{t=1}^T \min \left( \rho_\theta^{(i,t)} A(a_t^{(i)}), \text{clip}\left(\rho_\theta^{(i,t)}, 1-\epsilon, 1+\epsilon\right) A(a_t^{(i)}) \right) \cdot \mathbf{1}_{\pi_\theta(a_t^{(i)} | s_t^{(i)}, u) \geq \delta} - \beta D_{\text{KL}}(\dots) \right] $$
此外,为了鼓励长期探索,EMPO² 还结合了基于状态新颖性的内在奖励(Intrinsic Rewards, $r_{\text{intrinsic}} = 1/n$),防止策略早期坍塌到单一的行为模式上。
实验配置:基座模型采用 Qwen2.5-7B-Instruct,训练框架基于 verl 进行多步 (multi-step) 和离线损失 (off-policy loss) 计算的改造。对比 Baseline 包括 Naive (直接推理), Reflexion (非参数化记忆 RL), Retrospex (离线 RL), GRPO 及 GiGPO (在线 RL)。
Off-policy distillation 是一步妙棋。把“拿着作弊小抄做对的题目”,转化为了“模型自身的内化肌肉记忆”,使得最终部署时不再需要繁重的 RAG 或长 Prompt,推理效率极高。中文标题:LLM Agent 应该看到多少个工具?一个基于随机概率校正的答案
作者团队:Vyzantinos Repantis, Ameya Gawde, Harshvardhan Singh, Joey Blackwell II
所属机构:Meta Platforms
在构建 LLM Agent 框架(如基于 MCP 的系统、Function Calling 管道或 Tool-augmented RAG)时,开发者普遍面临一个相同的设计抉择:对于每次查询,应该给大模型展示多少个候选工具(即搜索深度 $K$)?
目前的痛点在于:
本文没有去卷“如何设计更好的召回模型”,而是将“展示给 LLM 的工具数量”本身作为优化的第一优先级目标。主要贡献如下:
论文以 ToolBench (包含 3,251 个工具) 和 Claude Sonnet 4.6 的下游调用 为例,清晰展示了固定 $K$ 值与自适应深度的差异:
1. Bits-over-Random (BoR) 指标设计
BoR 的核心思想是计算观测到的成功率相比于“闭着眼睛随机抓取同样数量的工具”的优势倍数(以比特为单位)。假设工具池大小为 $N$,相关工具数量为 $R_q$,我们展示了 $K$ 个工具。随机选中至少一个正确工具的概率为:
$$ P_{rand} = 1 - \frac{\binom{N-R_q}{K}}{\binom{N}{K}} $$
对于单工具查询($R_q=1$),它退化为 $P_{rand} = K/N$。定义 BoR 为观测成功率 $P_{obs}$ 与随机概率的比值对数:
$$ BoR = \log_2 \left( \frac{P_{obs}}{P_{rand}} \right) $$
2. 强化学习中的“自剪枝”机制 (Self-Pruning Property)
传统强化学习为了控制长度,往往需要设定一个手工调节的惩罚项(比如论文基线测试的 $F_1 = 2/(K+1)$)。但 BoR 截然不同:当候选列表变长($K$ 增加)时,$P_{rand}$ 会不可避免地升高。这意味着在 $K=100$ 时找到正确工具带来的奖励,远远低于在 $K=3$ 时找到正确工具的奖励。这种数学结构内生地惩罚了无脑堆砌候选工具的行为。
3. MDP (马尔可夫决策过程) 构建
作者在三个工具选择 Benchmark (BFCL, MetaTool, ToolBench) 以及三个传统文档检索 Benchmark (SciFact, NFCorpus, MS MARCO) 上测试了 BoR Agent。底层使用了极为轻量级的 RL 架构(DQN / Tabular Q-learning)。
对于 LLM Agent 开发者而言,这篇论文提供了几个极其务实的系统设计 Insight:
Authors: Mingju Chen, Guibin Zhang, Heng Chang, Yuchen Guo, Shiji Zhou
Institutions: 北京航空航天大学 (Beihang University), 新加坡国立大学 (NUS), 清华大学 (Tsinghua University)
📄 查看 ArXiv 原文当前基于大语言模型(LLM)的多智能体系统(MAS)在深度研究(Deep Research)任务中表现出色,这类任务侧重于迭代式、垂直结构的逻辑推理与信息搜索。然而,真实世界中存在大量广度搜索(Wide Search)任务,这类任务的特点是大规模、侧重覆盖率(Breadth-oriented)的实体与属性检索(例如:“请列出2019-2024年福布斯全球亿万富豪榜前10名,包含姓名、净资产、财富来源等,输出Markdown表格”)。
在面对广度搜索任务时,现有的多智能体框架暴露出了两个致命的困境(Dilemmas):
因此,作者提出:广度搜索不应继续沿用垂直递归推理(Vertical recursive reasoning),而应被建模为水平结构化检索范式(Horizontal structured retrieval paradigm)。
论文中展示了一个极具代表性的 WideSearch 实例,直观展现了 A-MapReduce 与传统 MAS 的差异:
用户输入 (Query):“请列出2019至2024年福布斯全球亿万富豪榜各年的前10名个人。包含姓名、排名、净资产、财富来源和年龄。请将结果整理成一个Markdown表格...”
系统采用基于年份的串行搜索(Sequential Search),一年一年地查询。当执行到后期时,长周期的上下文堆叠导致模型记忆发生混乱。最终输出:“Error: Cannot find markdown in agent output... 收集的信息高度碎片化和过载,无法可靠验证。” Row F1 = 0.0,彻底失败。
第一阶段 (无记忆):将任务转化为一个 $6 \times 10$ 的任务矩阵 (Task Matrix)。制定了 per_atom 的 Batching 策略,直接拉起 60 个子智能体并行执行。虽然能够完成任务(Item F1 = 0.76),但耗时 39 分钟,花费 $1.56。
第二阶段 (引入经验记忆后):系统从历史经验中提取到 “对于按年份发布的榜单,按年份分组可避免冗余请求” 的优化策略。系统随即将 Batching 策略修改为 by_attr(Year),只需拉起 6 个子智能体。结果:耗时下降至 32 分钟,成本降至 $1.20,结构一致性大幅提升,Item F1 升至 0.79,Row F1 = 0.58。
A-MapReduce 将复杂的广度搜索建模为一个多智能体随机决策采样过程。核心由三大模块构成:
框架将顶层规划决策具象化为一个元组 $\Theta_q \triangleq (M_q, P_q, B_q)$:
per_atom(独立执行)、by_attr(按属性分组)、open(自适应分块) 等模式,决定了并行度与上下文复用率。为了让系统在多次运行中寻找最优的 $\Theta_q$,作者设计了经验记忆机制 $\mathcal{M} \triangleq \{\mathcal{D}, \mathcal{H}, F_\psi\}$:
作者在5个包含高度广度搜索特性的评测集上进行了测试:WideSearch、DeepWideSearch,以及基于 xBench、WebWalkerQA、TaskCraft 筛选出的 Agentic-Wide Subset。
by_attr 分组,什么时候该单点查询),这为构建自我演进的 Agentic OS 提供了一个非常好的工程范本。作者:Haoran Li, Shulun Chen, Shaoyuan Sun, Hanchen Wang
机构:南京大学,悉尼科技大学 (UTS),新南威尔士大学 (UNSW)
随着大语言模型(LLM)能力的提升,多智能体系统(Multi-Agent Systems, MAS)被广泛应用于复杂任务拆解与集体推理(如 ChatDev, MetaGPT 等)。然而,随着任务复杂度和系统规模的扩展,如何在结构稳定性(Structural Stability)与动态适应性(Dynamic Adaptability)之间取得平衡,成为了一个巨大的挑战。当前该领域主要存在两种截然不同的演进范式,但各有明显的局限性:
更深层次的根本问题在于:当前的系统将“多智能体协作”视为一个单一的、单体式(Monolithic)的过程,忽略了结构先验与动态编排之间的解耦。此外,资源预算(如 Token 限制)通常只作为外部约束,并未在优化中被内化为影响协调空间的信号。
本文提出了 MACA(Multi-Agent Coordination Adaptation),一种基于概率视角的自动协同框架。作者首次将多智能体协同建模为基于结构变量和编排变量的后验推断(Posterior Inference)问题。具体贡献如下:
为直观展示 MACA “结构引导 + 动态编排”的效果,我们对比了其在 HumanEval 数据集中不同难度代码生成任务时的协调路径(参考原论文 Table 9 & 10):
场景对比:代码生成任务 (Task: find_zero)
AlgorithmDesigner → CodeWriting → UnitTestWriter → BugFixerAlgorithmDesigner → CodeWriting → EdgeCaseHunter → CodeReviewer → BugFixer → UnitTestWriter → STOPEdgeCaseHunter(挖掘边界情况)和 CodeReviewer,使得 BugFixer 拿到了更明确的反馈。虽然这道题多消耗了 Token,但保证了高难度任务的正确率。智能体任务感知特化 (Agent Specialization):
在系统过滤阶段,面对同一个问题,AlgorithmDesigner (偏向算法设计) 与 CodeWriting (偏向代码实现) 会根据输入文本生成截然不同的 Relevance Score (如 0.66 vs 0.88)。这意味着 MACA 并不是粗暴地开启所有领域相关的 Agent,而是对“角色能力”与“当前上下文”进行了细粒度匹配。
MACA 将协同系统定义为 $\mathcal{M} = \{\mathcal{G}, \mathcal{T}\}$,其中 $\mathcal{G}$ 是结构图,$\mathcal{T}$ 是编排轨迹。寻找最佳协同方案被转化为最大化后验概率问题:
$$ p(G, \tau | x, b, y^\star) \propto \underbrace{p(y^\star | \tau, x)}_{\text{输出保真度}} \cdot \underbrace{p(\tau | G, x, b)}_{\text{动态编排}} \cdot \underbrace{p(G | x, b)}_{\text{结构先验}} $$
由于该后验推断难以直接计算,作者使用变分推断(Variational Inference)来最大化证据下界(ELBO)。整个系统在实现上被拆分为两大核心模块:
该模块生成一个被称为 GraphSpec 的概率约束空间:
基于 GraphSpec,MACA 将编排过程建模为马尔可夫决策过程(MDP),并利用 GRPO(Group Relative Policy Optimization) 训练策略 $\pi_\theta(a_t | s_t)$。其核心在于将结构先验和 Token 消耗注入到 RL 的优化中:
Self-Refine 的自修正模式(生成器 ↔ 验证器)。同时,模型自主学习到了分层协调(Hierarchical Coordination)结构:高层规划 (Router/Designer) 负责分解任务,中间层 (Parser/Analyzer) 负责表征,底层 (Solver/Checker) 负责具体计算。这证明了无需人工写死 SOP (Standard Operating Procedure),优质的协同模式可以在结构引导下被 RL 自主发现。从大模型工程实践和 Agent 架构演进的角度来看,MACA 的设计哲学具有极强的启发意义:
GraphSpec + RL Policy 是一种非常优雅的 “粗筛 (Prior) + 精调 (Posterior)” 范式,极大地收敛了 RL 的动作空间。