作者:Jian Li, Dongsheng Chen, Xiaotong Yuan 等
机构:南京大学 (Nanjing University),腾讯优图实验室 (Tencent YoutuLab)
随着DeepSeek-R1的爆发,基于工具的智能强化学习(Tool-based Agentic RL, TARL)成为了训练Search Agent的核心范式。其中,GRPO (Group Relative Policy Optimization) 凭借其摒弃Value Model的轻量化特性,被广泛应用于多轮信息检索场景的Post-training。
然而,作者在实践中发现了一个致命的训练不稳定性问题,导致模型常常陷入灾难性崩溃(Catastrophic model collapse)。他们将其命名为:重要性采样分布漂移 (Importance Sampling Distribution Drift, ISDD)。
为了打破 ISDD 的死亡螺旋,作者提出了一种极其轻量且优雅的解法:SAPO (Search Agent Policy Optimization)。
kl_term_loss),做到了即插即用,零额外显存负担。为了直观感受 SAPO 训练出的 Agentic RAG 能力,我们来看一个摘自 2WikiMultihopQA 数据集的真实推理轨迹:
Question: Which film has the director who died earlier, Deuces Wild or Cavalcade Of The West?
<think> 为了确定哪部电影的导演死得更早,我需要收集这两部电影的导演信息以及他们的死亡日期。我先从搜索开始... </think>
<search> Director of Deuces Wild </search>
<documents> ...Deuces Wild is a 2002 American crime drama film directed by Scott Kalvert... </documents>
<search> Director of Cavalcade Of The West </search>
<documents> ...Cavalcade of the West is a 1936 American Western film directed by Harry L. Fraser... </documents>
<search> Harry L. Fraser </search>
<documents> ...Fraser was born on June 7, 1884 and died on May 13, 1950. </documents>
<search> Scott Kalvert </search>
<documents> ...Scott Kalvert died on March 5, 2014... </documents>
<think> 根据上述信息,Scott Kalvert 死于 2014,Harry L. Fraser 死于 1950。因此死得更早的导演是 Harry L. Fraser,他执导了 "Cavalcade Of The West"。</think>
<answer> Cavalcade Of The West </answer>
点评:传统 RAG 只能一次性检索,遇到这种需要“实体桥接”的多跳问题直接抓瞎。SAPO Agent 展现了极强的自主决策能力,交替执行内部思维 (Think) 和外部工具调用 (Search),四次精准查库,成功锁定答案。这种长链路交互对 Policy 的稳定性要求极高,这正是 SAPO 解决的核心痛点。
作者在分析 ISDD 时给出了一条漂亮的数学推导:在一条轨迹中,重要性权重的期望可拆解为“推理漂移 (Reasoning Drift)”和“交互漂移 (Interaction Drift)”:
$$ \mathbb{E} \left[ \prod_{t=1}^L r_t \right] = \underbrace{\exp(L_z \lambda_z)}_{\text{Reasoning Drift}} \cdot \underbrace{\exp(L_a \lambda_a)}_{\text{Interaction Drift}} $$
由于工具选择的低熵和瓶颈特性,Action tokens 对策略漂移极其敏感($\lambda_a \ll \lambda_z < 0$)。为了抑制这种暴跌,SAPO 在 GRPO 原本的目标函数上增加了一个 Token 维度的惩罚项:
SAPO 目标函数:
$$ \mathcal{J}_{SAPO}(\theta) = \mathbb{E} \left[ \dots \min (r_{i,t}\hat{A}_{i,t}, \text{clip}(r_{i,t}) \hat{A}_{i,t}) \mathbf{+ \gamma \text{KL}_{cond}[\pi_\theta || \pi_{old}]} \right] $$
其中的条件KL散度定义为:
$$ \text{KL}_{cond} = \mathbb{I}(r_{i,t}(\theta) < \tau, \hat{A}_{i,t} > 0) \log r_{i,t}(\theta) $$
这一设计的精妙之处在于它包含了三个前置门控:
在工程实现上(基于 VeRL),这仅仅是将 PPO/GRPO Loss 的 negative_approx_kl 用 mask 过滤一下再加回 Total Loss 里,极为优雅。
作者:Linhao Yu, Tianmeng Yang, Siyu Ding, Renren Jin, 等
机构:天津大学,百度,中国科学院信息工程研究所
KnowRL 聚焦 RLVR 中最棘手的 Reward Sparsity:面对难题时,rollout 常常全错,GRPO 无法形成有效 advantage,训练样本白白浪费。
已有 hint-based RL 方案习惯于“给更多提示”,但作者指出这会导致关键片段效应、跨提示不一致性,以及指导冗余与吞吐下降。
在“刷漆面积换算”问题上,KnowRL 不直接给出解法,而只注入最少必要知识:单位换算规则、面积计算前必须统一量纲、条带可视作长方形。
这类提示不会替模型完成推导,却会强迫 Policy 自行补全逻辑链,形成可迁移的内化能力。
方法的核心是从候选 KPs 中筛选真正的 minimal-sufficient 子集。作者先做原子知识点抽取与 leakage verification,再用 CSS 解决 Leave-One-Out 易受交互依赖影响的问题。
CSS 通过预剪枝把原本接近 $O(2^n)$ 的组合爆炸压缩到可穷举的小集合中,最终找到最优 KP 子集。
作者:Huaijie Wang, Shibo Hao, Hanze Dong, Shenao Zhang, 等
机构:UC San Diego, Tsinghua University, Salesforce Research, Northwestern University
OREO 针对 DPO 在多步推理里的结构性短板:pairwise 数据难构造、缺少 step-level credit assignment,导致真正关键的推理 token 得不到应有的学习信号。
论文通过复数幂求值案例比较了 DPO 的隐式 advantage 与 OREO 的显式 value advantage。结果显示,DPO 会把正确中间步骤误判成负收益,而 OREO 的显式价值网络能给出更符合过程推进性的正向判断。
OREO 将软 Bellman 一致性引入离线 LLM 对齐: $$V^*(s_t) - V^*(s_{t+1}) = r(s_t, a_t) - \beta \log \frac{\pi^*(a_t|s_t)}{\pi_{ref}(a_t|s_t)}$$ 进而在稀疏奖励下做 telescoping,把尾部回报与 KL 正则统一进一个 actor-critic 式训练框架里。
作者:Zhoujun Cheng, Shibo Hao, Tianyang Liu, et al.
机构:UC San Diego, MBZUAI, Carnegie Mellon University, Purdue University
论文链接:📄 查看 ArXiv 原文
这篇论文的核心问题很直接:开源 RL reasoning 研究几乎只在 Math / Code 两个领域兜圈子,导致我们对 RL 是“激发已有能力”还是“学到新技能”的认识严重失真。
在 simulation 域的 RSA 逆向案例里,模型基于输出状态反推原始输入参数,体现出跨数学、程序执行与状态推断的复合推理能力。
方法重点不在新 RL loss,而在高质量跨域数据工程:按领域定制 verifier,利用强弱模型差异做 difficulty filtering,优先保留 $P_{strong}-P_{weak}$ 高的样本。
HER: Human-like Reasoning and Reinforcement Learning for LLM Role-playing
作者 / 机构:Chengyu Du, Xintao Wang, Yanghua Xiao 等 / 复旦大学, MiniMax
HER 关注 role-playing 中最难的那一层:不是模仿台词,而是模拟角色行为背后的 inner reasoning。现有方法要么没有深层推理数据,要么奖励模型极易被 reward hacking。
在 Elizabeth Bennet 的案例里,模型先以第三人称系统视角分析上下文、情绪与行动计划,再输出角色可见的内心活动、动作与台词。这种拆分能明显降低 OOC(出戏)问题。
HER 的关键不是单纯多一层 CoT,而是把“上帝视角规划”与“角色沉浸视角输出”分开,并通过 diversity reformatting 避免 RL 后输出结构模式坍塌。