大模型 Agent 与强化学习 (RL) 深度学术解读报告

Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers

自发结果势能:无验证器Agent的回合级信用分配

作者:Senkang Hu, Yong Dai, Xudong Han, Zhengru Fang, Yuzhi Zhao, Sam Tak Wu Kwong, Yuguang Fang

机构:香港城市大学,牛津大学,复旦大学,萨塞克斯大学,华中科技大学,岭南大学等

📄 查看 ArXiv 原文

🔍 研究背景与痛点 (Background & Pain Points)

随着 OpenAI o1 和 DeepSeek-R1 的问世,大模型(LLM)正从静态的单次生成向包含长程推理(Long-horizon Reasoning)和外部交互(如搜索、工具调用)的 Agent 范式演进。在强化学习(RL)微调阶段,这种范式转变暴露出一个核心痛点:信用分配问题(Credit Assignment)

本文提出 SIOP (Self-Induced Outcome Potential),目标是在没有人工标签和外部验证器的情况下,仅利用模型自身输出分布,为多轮 Agent 提供精细的过程奖励。

💡 核心贡献 (Core Contributions)

  1. 提出无验证器回合级信用分配范式:把最终答案的语义聚类看作潜在未来状态。
  2. 设计 Self-Induced Outcome Potential,通过经验频率与证据可靠度校准构建势函数。
  3. 改造 GRPO 广播机制,使优势只分配给当前回合生成 Token。
  4. 给出理论退化分析与 7 个搜索增强 QA 基准上的强实验结果。

📖 具体案例剖析 (Case Study)

问题:“When is Zeinab Jammeh’s husband’s birthday?”

这个例子说明,SIOP 可以在没有人工过程标签时,直接惩罚误导性检索并奖励有价值的探索。

核心架构图
图注:SIOP 方法架构概览。先对多条 rollouts 的最终答案做语义聚类,再结合证据可靠度构造目标分布,最后把“前缀对命中语义簇的支持度变化”转成 turn-level 奖励。

⚙️ 方法论与技术实现 (Methodology)

核心流程包含:语义结果模式构建、可靠度校准、势能差过程奖励、Turn-conditioned policy optimization 四部分。

校准后的目标分布为:$$ q_\theta(c \mid q)=\frac{m(c \mid q)\exp(u_\theta(c,q))}{\sum_{c'} m(c' \mid q)\exp(u_\theta(c',q))} $$

过程奖励定义为:$$ r_{t,\text{proc}}^{(k)} = \Phi_\theta(\tau_{\le t}^{(k)}, c(k)) - \Phi_\theta(\tau_{\le t-1}^{(k)}, c(k)) $$

相比全轨迹优势广播,SIOP 只把当前 turn 的优势赋给当前 turn 的 token,显著降低噪声。

📊 实验设置与结论分析

覆盖 NQ、TriviaQA、HotpotQA、2Wiki、MuSiQue、Bamboogle、PopQA 7 个搜索增强 QA 基准,基座模型为 Qwen3-4B/8B。

🌟 关键技术亮点分析

TopoCurate: Modeling Interaction Topology for Tool-Use Agent Training

TopoCurate:为工具使用智能体训练构建交互拓扑模型

作者:Jinluan Yang, Yuxin Liu, Zhengyu Chen, Chengcheng Han, Yueqing Sun, Qi Gu, Hui Su, Xunliang Cai, Fei Wu, Kun Kuang

机构:浙江大学,美团

📄 查看 ArXiv 原文

🔍 研究背景与痛点

传统 tool-use agent 训练严重依赖 outcome-based filtering:SFT 只挑成功轨迹,RL 只看任务通过率。作者指出这会产生“结果等价错觉”:成功轨迹里可能充满冗余、死循环或脆弱捷径,导致模型学到的是低鲁棒性的行为。

💡 核心贡献

🛠️ 具体案例剖析

论文展示了订单修改任务中的两条成功轨迹:一条高效完成定位订单、计算差价、确认礼品卡并提交;另一条则多次插入无必要的状态确认和用户复述。标准 outcome filtering 认为两者都“成功”,但 TopoCurate 会利用拓扑最短路与恢复模式,优先保留前者、降低后者权重。

⚙️ 方法论与技术实现

通过语义相似度把等价 action-observation state 合并入同一图节点,定义节点成功潜力 $\Phi(v)$。SFT 阶段用恢复性、效率、多样性重加权成功轨迹;RL 阶段用结构性失败分支和策略异质性提升梯度信噪比。

Error Branch Ratio 示例:$$V_{struct}(\mathcal{T}) = \frac{1}{|\mathcal{B}|}\sum_{v\in\mathcal{B}}\frac{|\{u\in children(v):\Phi(u)<\epsilon_{fail}\}|}{|children(v)|}$$

📊 实验设置与结论分析

🌟 关键技术亮点分析

AT²PO: Agentic Turn-based Policy Optimization via Tree Search

基于树搜索的智能体回合级策略优化

作者机构:Tencent Inc, 中山大学, 深圳北理莫斯科大学

📄 查看 ArXiv 原文

💡 研究背景与痛点

  1. 探索多样性受限:固定 rollout 预算下,现有扩展策略不够聪明。
  2. 信用分配稀疏:结果奖励往往只在多轮交互结束时出现。
  3. 优化粒度错位:传统 GRPO/PPO 把整个交互展平成 token 序列,而 agent 自然结构是 turn-based。

🚀 核心贡献

🔍 具体案例剖析

HotpotQA 多跳案例里,Agent 先搜 Kasper Schmeichel 的父亲,定位到 Peter Schmeichel,再搜索其 1992 年 IFFHS 奖项,最终输出 “World's Best Goalkeeper”。AT²PO 能把最终正确奖励精确回传到两次关键 search turn,而不是粗糙广播给全轨迹所有 token。

⚙️ 方法论与技术实现

节点策略熵近似为:$$ H_{\pi_\theta}(n) \approx \frac{1}{|y^k|} \sum_{y_t \in y^k} -\log \pi_\theta(y_t|x,y^{

树上的节点价值通过叶子奖励自底向上回溯。ATPO 再按 turn 计算重要性采样比率与 clipping,兼顾 token 级求导与 turn 级 trust region。

📊 实验设置与结论分析

🌟 关键技术亮点分析

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

VSearcher:基于强化学习的长程多模态搜索智能体

作者:Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng

机构:University of Macau, IDEA

📄 查看 ArXiv 原文

🔍 研究背景与痛点

当前强 Agent 进展主要聚焦 text-only LLM,而现实世界的大量检索任务天然是 multimodal 的。多模态模型虽然有视觉能力,但缺乏长程工具调用训练,仍被困在静态知识边界内。

💡 核心贡献

🕵️ 具体案例剖析

艺术品分类案例中,Agent 先用 image search 识别图片中的 “Cage d'oiseau”,再多轮 text search 验证它与 Duchamp 的 Bicycle Wheel 是否同属 installation art,最终输出 Yes。整个过程体现了视觉识别 -> 文本检索 -> 深度验证的多模态长链推理。

核心架构图
图注:VSearcher 的两阶段后训练框架:先做 rejection sampling finetuning,再在真实 Web 环境中进行 GRPO 强化学习。

⚙️ 方法论与技术实现

通过 Wikidata/Wikipedia 进行实体隐藏、冷门信息注入和图片注入,构造必须依赖外部搜索的难题。教师模型在真实 Web 工具环境中生成高质量轨迹,经 RFT 注入基础 agent 能力;随后在真实工具链上做 GRPO,奖励设计保持极稀疏、格式检查极严格。

SFT 损失:$$ \mathcal{L}_{SFT} = -\frac{1}{N} \sum_{i=1}^{N} \sum_{t=1}^{T_i} \log \pi_\theta(o_{i,t} \mid o_{i,

📊 实验设置与结论分析

🚀 关键技术亮点分析

KARL: Knowledge Agents via Reinforcement Learning

KARL:通过强化学习构建的知识智能体

作者 / 机构:Databricks AI Research

📄 查看 ArXiv 原文

🔍 研究背景与核心痛点

企业级 grounded reasoning 依赖未见过的私有知识库。现有评测不全面、训练数据稀缺,而 online RL 在复杂模型与推理基础设施上工程代价极高。

💡 核心贡献

🔬 具体案例剖析

在 BrowseComp-Plus 案例中,基础模型要么过早放弃,要么陷入无限验证;KARL 学会在证据足够时进行 probabilistic commitment,既保持搜索韧性,也能及时收束。另一个 TREC-Biogen 案例则展示了它如何从“癫痫发作可能导致骨折”这一线索出发,动态调整 query 深挖隐藏原因。

核心架构图
图注:KARL 的 Agentic Synthesis 第一阶段:智能体主动探索知识库、提出 grounded QA,并通过去重与过滤形成高质量 RL 训练数据。

⚙️ 方法论与技术实现

Agentic Synthesis 包含 QA 生成与 solution synthesis/filtering 两阶段。OAPL 则直接在旧策略样本上做最小二乘回归,天然容忍 off-policy。

其核心目标:$$\min_{\pi} \sum_x \sum_{i=1}^G \left( \beta \ln \frac{\pi(y_i|x)}{\pi_{\text{ref}}(y_i|x)} - \left(r(x,y_i)-\hat{V}^*(x)\right) \right)^2$$

同时,作者把 context compression 本身也纳入 Agent 动作空间,通过最终 reward 端到端训练模型的“记忆压缩”策略。

📊 实验设置与结论分析

🌟 关键技术亮点分析