作者:Yifei Zhou, Song Jiang, Yuandong Tian, Jason Weston, Sergey Levine, Sainbayar Sukhbaatar, Xian Li
机构:FAIR at Meta, UC Berkeley
多轮 Agent 任务最大的难点不是单步回复质量,而是长链路信用分配。传统 PPO/DPO 在多轮交互中很难判断哪一轮真正推动了最终成功,训练信号高方差、泛化差,且现有评测环境往往工程过重。
在后端编程任务里,普通模型会在需求不完整时“自信脑补”边界条件,最终单测不过;SWEET-RL 训练后的 Agent 会持续追问关键条件,例如比例阈值、特殊输入分支、证件约束,再在信息充分后给出代码,因此通过率显著提升。
核心思想是让 Critic 在训练时看到参考答案/目标图像等特权信息 c,从而更准确地估计每一轮动作的好坏,而不是硬拟合全局 value。
其优势学习采用 Bradley-Terry 风格目标:$$ \mathcal{J}_A(\theta)=-\log\sigma\Big(\sum_t \beta A_\theta(o_t^+,a_t^+,c)-\sum_t \beta A_\theta(o_t^-,a_t^-,c)\Big) $$
更关键的是,作者不再外挂 regression head,而是直接复用语言模型 head 的对数概率残差去表征 advantage,这样更贴合 LLM 预训练分布。
在 ColBench 上,SWEET-RL 相比多轮 DPO 在后端编程与前端设计任务上都取得稳定提升;对 8B 模型而言,增幅足以追平或超越部分更大规模或闭源基线。
作者:Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, 等
机构:Oxford、上海 AI Lab、NUS、UIUC 等
传统 RLHF / DPO 实际上只是在单轮文本生成上对齐静态偏好,而真正的 Agent 要面对动态环境、部分可观测状态、结构化动作和延迟奖励。两者不是小修小补的差异,而是从退化单步 MDP 到完整 POMDP 的范式迁移。
论文用 Deep Research、形式化数学、具身环境等案例说明:RL 不只是提升回答风格,而是在塑造“何时搜索、何时回溯、何时调用工具、何时验证”的策略结构。

论文把 Agentic RL 定义为在动态环境中的长期累积奖励优化:$$ J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}\left[\sum_{t=0}^{T-1}\gamma^t \mathcal{R}(s_t,a_t)\right] $$
动作空间不再只是自然语言 token,还包含结构化工具调用与环境操作。因此 RL 训练必须同时处理推理 token 与外部 action 的联合信用分配问题。
作为综述,重点不在单一实验,而在证明各类前沿工作已在搜索、代码、GUI、具身和数学场景中形成清晰脉络:验证奖励、过程奖励、异步环境与 GRPO/PPO 变体是当前主线。
作者:Zhiheng Xi, Jixuan Huang, Chenyang Liao, et al.
机构:复旦大学、字节 Seed、上海创新学院
单轮 RL 已经能提高推理,但长程外部交互任务会带来新的难题:轨迹更长、回报更稀疏、探索更容易崩。直接把交互轮数拉满,经常导致模型在早期陷入无意义尝试。
在网页导航任务中,普通模型容易在点错链接后卡死循环;经过训练的 Agent 会主动回退、重新搜索、调整策略。在具身任务中,它也更擅长战略性回溯,而不是无效打转。

作者将任务建模为 POMDP,并用逐步增加交互上限的课程式训练降低 early-stage 崩溃风险。目标形式仍是最大化期望回报:$$ J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}[r(\tau)] $$
ScalingInter-RL 的关键在于:早期小 horizon 强迫模型先学会高价值短链行为;当这些基础能力稳定后,再增加交互预算,释放更深层探索能力。
在 WebArena、TextCraft、BabyAI、SciWorld 等场景中,该方法相较固定长交互训练更稳定,最终回报更高,且 GRPO 在长轨迹下显著优于 REINFORCE++。
作者:Hanchen Zhang, Xiao Liu, et al.
机构:清华大学, Z.AI
一旦从单任务走向多任务、多环境、多轮交互,RL 系统不只面临算法挑战,还会遇到异步 rollout、环境调度、梯度干扰和探索坍塌等工程与优化双重瓶颈。
在知识图谱任务中,单一模型可能卡在“会推理但不调用工具”或“敢调工具但参数乱填”的局部失败模式。交叉策略采样允许不同策略片段在同一轨迹中接力,形成单一策略难以达到的成功路径。

交叉策略采样可写作:$$ a^{c,(t)} \sim \mathrm{random}(\mathcal{M})(\cdot\mid s^{(t)}) $$ 其中 \(\mathcal{M}\) 是由历史 checkpoint 或多个策略构成的模型池。
任务级 advantage 归一化则在每个任务内部做零均值单位方差标准化:$$ \tilde{A}_{i}=\frac{A_i-\mu_i}{\sigma_i} $$ 这样能显著降低多任务梯度量纲不一致带来的训练震荡。
在 AgentBench-FC 多环境评测中,AgentRL 对 Qwen 系列模型带来大幅提升,多任务统一模型能逼近甚至达到“多个专家模型取最优”的组合效果。
作者:Zheyue Tan, Mustapha Abdullahi, Tuo Shi, Huining Yuan, Zelai Xu, Chao Yu, Boxun Li, Bo Zhao
机构:Aalto University, Tsinghua University, Infinigence-AI
Agentic RL 在系统层的主要痛点是上下文长度爆炸和中间张量传输瓶颈。长轨迹会把 KV cache 和中间状态拉到极端规模,导致 OOM、低吞吐和中心化调度拥堵。
论文用井字棋等多轮任务展示:一旦上下文触碰硬上限,粗暴截断会把低质量轨迹送回经验池,形成负反馈飞轮,最终把回报曲线拉崩。问题根源不是算法不会,而是系统承载不住。
EARL 的关键不是发明新 RL 损失,而是根据序列长度与系统负载动态选择并行配置,使 tokens-per-GPU-per-second 最大化。吞吐提升可写作:$$ \mathrm{Speedup}(a,b)=\frac{TGS(b)-TGS(a)}{TGS(a)}\times 100\% $$
另一关键点是识别哪些中间张量不需要全局聚合,直接进行点对点或 all-to-all 布局感知分发,从而大幅降低大规模训练时的数据传输时间。
在 128 张 H100 的实验中,EARL 在长上下文设置下显著降低 OOM 风险,并把关键传输阶段的延迟压缩到原来的十分之一量级。