Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers

自发结果势能：无验证器Agent的回合级信用分配

作者：Senkang Hu, Yong Dai, Xudong Han, Zhengru Fang, Yuzhi Zhao, Sam Tak Wu Kwong, Yuguang Fang

机构：香港城市大学，牛津大学，复旦大学，萨塞克斯大学，华中科技大学，岭南大学等

🔍 研究背景与痛点 (Background & Pain Points)

随着 OpenAI o1 和 DeepSeek-R1 的问世，大模型（LLM）正从静态的单次生成向包含长程推理（Long-horizon Reasoning）和外部交互（如搜索、工具调用）的 Agent 范式演进。在强化学习（RL）微调阶段，这种范式转变暴露出一个核心痛点：信用分配问题（Credit Assignment）。

结果级奖励（Outcome-level Reward）的稀疏性：当前主流 RL 训练只在轨迹末尾给奖励，难以定位中间哪一步检索或工具调用导致成败。
过程监督昂贵：现有回合级奖励塑造方法通常依赖 Gold Answer 或 task-specific verifier，在开放式 Agent 任务里往往不可得。
无标签 RL 粒度不足：像语义熵、自一致性等 label-free 方法多停留在 trajectory 级别，不能精细做到 turn-level credit assignment。

本文提出 SIOP (Self-Induced Outcome Potential)，目标是在没有人工标签和外部验证器的情况下，仅利用模型自身输出分布，为多轮 Agent 提供精细的过程奖励。

💡 核心贡献 (Core Contributions)

提出无验证器回合级信用分配范式：把最终答案的语义聚类看作潜在未来状态。
设计 Self-Induced Outcome Potential，通过经验频率与证据可靠度校准构建势函数。
改造 GRPO 广播机制，使优势只分配给当前回合生成 Token。
给出理论退化分析与 7 个搜索增强 QA 基准上的强实验结果。

📖 具体案例剖析 (Case Study)

问题：“When is Zeinab Jammeh’s husband’s birthday?”

Turn 1：错误检索导致正确语义簇概率从 0.147 降到 0.019，得到负奖励 $r_1=-1.45$。
Turn 2：修正检索为 “Yahya Jammeh date of birth”，支持度回升，得到 $r_2=+0.20$。
Turn 3：输出答案 “May 25, 1965”，最终支持度大幅提升，得到 $r_3=+2.79$。

这个例子说明，SIOP 可以在没有人工过程标签时，直接惩罚误导性检索并奖励有价值的探索。

核心架构图 — 图注：SIOP 方法架构概览。先对多条 rollouts 的最终答案做语义聚类，再结合证据可靠度构造目标分布，最后把“前缀对命中语义簇的支持度变化”转成 turn-level 奖励。

⚙️ 方法论与技术实现 (Methodology)

核心流程包含：语义结果模式构建、可靠度校准、势能差过程奖励、Turn-conditioned policy optimization 四部分。

校准后的目标分布为：$$ q_\theta(c \mid q)=\frac{m(c \mid q)\exp(u_\theta(c,q))}{\sum_{c'} m(c' \mid q)\exp(u_\theta(c',q))} $$

过程奖励定义为：$$ r_{t,\text{proc}}^{(k)} = \Phi_\theta(\tau_{\le t}^{(k)}, c(k)) - \Phi_\theta(\tau_{\le t-1}^{(k)}, c(k)) $$

相比全轨迹优势广播，SIOP 只把当前 turn 的优势赋给当前 turn 的 token，显著降低噪声。

📊 实验设置与结论分析

覆盖 NQ、TriviaQA、HotpotQA、2Wiki、MuSiQue、Bamboogle、PopQA 7 个搜索增强 QA 基准，基座模型为 Qwen3-4B/8B。

EM/F1 显著超越无验证器基线 TTRL、EMPO。
在多跳任务如 2Wiki、HotpotQA 上提升尤为明显。
在不使用 Gold Answer 的前提下，性能已逼近甚至局部追平带 Gold 的 outcome-level GRPO。

🌟 关键技术亮点分析

把“输出聚类”转化为 RL 状态空间，给零标签 Agentic RL 提供了新范式。
势能函数设计具备 telescoping 性质，理论漂亮且不易 reward hacking。
通过证据校准抑制“错误共识”。
工程上只额外引入轻量 NLI/聚类负担，具备落地价值。

TopoCurate: Modeling Interaction Topology for Tool-Use Agent Training

TopoCurate：为工具使用智能体训练构建交互拓扑模型

作者：Jinluan Yang, Yuxin Liu, Zhengyu Chen, Chengcheng Han, Yueqing Sun, Qi Gu, Hui Su, Xunliang Cai, Fei Wu, Kun Kuang

机构：浙江大学，美团

📄 查看 ArXiv 原文

🔍 研究背景与痛点

传统 tool-use agent 训练严重依赖 outcome-based filtering：SFT 只挑成功轨迹，RL 只看任务通过率。作者指出这会产生“结果等价错觉”：成功轨迹里可能充满冗余、死循环或脆弱捷径，导致模型学到的是低鲁棒性的行为。

💡 核心贡献

引入 semantic quotient topology，把同任务多条轨迹压成统一状态图。
为 SFT 定义 Reflective Recovery、Semantic Efficiency、Distributional Diversity 三类拓扑指标。
为 RL 定义 Error Branch Ratio 与 Strategic Heterogeneity，挑选更有梯度价值的任务。
在 Tau2 Bench 与 BFCLv3 上显著超越强基线。

🛠️ 具体案例剖析

论文展示了订单修改任务中的两条成功轨迹：一条高效完成定位订单、计算差价、确认礼品卡并提交；另一条则多次插入无必要的状态确认和用户复述。标准 outcome filtering 认为两者都“成功”，但 TopoCurate 会利用拓扑最短路与恢复模式，优先保留前者、降低后者权重。

⚙️ 方法论与技术实现

通过语义相似度把等价 action-observation state 合并入同一图节点，定义节点成功潜力 $\Phi(v)$。SFT 阶段用恢复性、效率、多样性重加权成功轨迹；RL 阶段用结构性失败分支和策略异质性提升梯度信噪比。

Error Branch Ratio 示例：$$V_{struct}(\mathcal{T}) = \frac{1}{|\mathcal{B}|}\sum_{v\in\mathcal{B}}\frac{|\{u\in children(v):\Phi(u)<\epsilon_{fail}\}|}{|children(v)|}$$

📊 实验设置与结论分析

在 Tau2 测试中，TopoCurate-SFT 明显优于 APIGen-MT 与 Simia-Tau。
相同初始化下，拓扑任务筛选 RL 比均匀采样收敛更快、最终 reward 更高。
Reflective Recovery 与 Diversity 是最关键的两类信号。

🌟 关键技术亮点分析

从“结果对不对”升级到“过程好不好”。
把理论上的 KL/自然梯度分析和工程上的数据选择真正打通。
提供了 data-centric agent training 的很强范式。

AT²PO: Agentic Turn-based Policy Optimization via Tree Search

基于树搜索的智能体回合级策略优化

作者机构：Tencent Inc, 中山大学, 深圳北理莫斯科大学

📄 查看 ArXiv 原文

💡 研究背景与痛点

探索多样性受限：固定 rollout 预算下，现有扩展策略不够聪明。
信用分配稀疏：结果奖励往往只在多轮交互结束时出现。
优化粒度错位：传统 GRPO/PPO 把整个交互展平成 token 序列，而 agent 自然结构是 turn-based。

🚀 核心贡献

熵导向树扩展：优先扩展高不确定性节点。
回合级信用分配：用树拓扑把叶子奖励向上回传。
ATPO：把 importance sampling 与 clipping 锚定在 turn 级别，而不是 token 或整序列级别。

🔍 具体案例剖析

HotpotQA 多跳案例里，Agent 先搜 Kasper Schmeichel 的父亲，定位到 Peter Schmeichel，再搜索其 1992 年 IFFHS 奖项，最终输出 “World's Best Goalkeeper”。AT²PO 能把最终正确奖励精确回传到两次关键 search turn，而不是粗糙广播给全轨迹所有 token。

⚙️ 方法论与技术实现

节点策略熵近似为：$$ H_{\pi_\theta}(n) \approx \frac{1}{|y^k|} \sum_{y_t \in y^k} -\log \pi_\theta(y_t|x,y^{

树上的节点价值通过叶子奖励自底向上回溯。ATPO 再按 turn 计算重要性采样比率与 clipping，兼顾 token 级求导与 turn 级 trust region。

📊 实验设置与结论分析

在多跳 QA 上平均 EM 明显优于 GRPO、DAPO、GSPO、Tree-GRPO。
越是长 horizon、多 turn 的任务，提升越明显。
训练过程中的 turn entropy 更稳定，不容易早期熵坍塌。

🌟 关键技术亮点分析

明确指出 agentic RL 不该再用“平坦 token”视角优化。
树搜索用于训练阶段的 directed exploration 很有现实意义。
文中对 retokenization drift 的工程分析非常值钱。

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

VSearcher：基于强化学习的长程多模态搜索智能体

作者：Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng

机构：University of Macau, IDEA

📄 查看 ArXiv 原文

🔍 研究背景与痛点

当前强 Agent 进展主要聚焦 text-only LLM，而现实世界的大量检索任务天然是 multimodal 的。多模态模型虽然有视觉能力，但缺乏长程工具调用训练，仍被困在静态知识边界内。

💡 核心贡献

提出 Iterative Injection 数据合成流，自动构造多模态长程搜索题。
采用 RFT + GRPO 的系统化 post-training 流程。
构建高难度 MM-SearchExam 基准。
VSearcher 在多个多模态搜索基准上击败多种开源甚至闭源模型。

🕵️ 具体案例剖析

艺术品分类案例中，Agent 先用 image search 识别图片中的 “Cage d'oiseau”，再多轮 text search 验证它与 Duchamp 的 Bicycle Wheel 是否同属 installation art，最终输出 Yes。整个过程体现了视觉识别 -> 文本检索 -> 深度验证的多模态长链推理。

⚙️ 方法论与技术实现

通过 Wikidata/Wikipedia 进行实体隐藏、冷门信息注入和图片注入，构造必须依赖外部搜索的难题。教师模型在真实 Web 工具环境中生成高质量轨迹，经 RFT 注入基础 agent 能力；随后在真实工具链上做 GRPO，奖励设计保持极稀疏、格式检查极严格。

SFT 损失：$$ \mathcal{L}_{SFT} = -\frac{1}{N} \sum_{i=1}^{N} \sum_{t=1}^{T_i} \log \pi_\theta(o_{i,t} \mid o_{i,

📊 实验设置与结论分析

在 MMSearch、BrowseComp-VL、MM-BrowseComp 等基准上表现极强。
MM-SearchExam 难度很高，但 VSearcher 依然取得明显领先。
RL 后 visit 工具调用显著增加，说明模型学会“深入网页读证据”，而不只是停留在 snippet 层。

🚀 关键技术亮点分析

真实 Web 驱动的 RL 比静态沙盒更能逼出鲁棒策略。
Iterative Injection 是很漂亮的数据飞轮方案。
严格格式控制对 Agentic RL 收敛非常关键。

KARL: Knowledge Agents via Reinforcement Learning

KARL：通过强化学习构建的知识智能体

作者 / 机构：Databricks AI Research

📄 查看 ArXiv 原文

🔍 研究背景与核心痛点

企业级 grounded reasoning 依赖未见过的私有知识库。现有评测不全面、训练数据稀缺，而 online RL 在复杂模型与推理基础设施上工程代价极高。

💡 核心贡献

提出 KARLBench，多能力异构搜索基准。
设计 Agentic Synthesis，让 Agent 自己探索语料并合成高质量 grounded QA/trajectory。
提出 OAPL，大批量离线 off-policy RL 框架。
在成本、延迟、质量上取得极强 Pareto 表现。

🔬 具体案例剖析

在 BrowseComp-Plus 案例中，基础模型要么过早放弃，要么陷入无限验证；KARL 学会在证据足够时进行 probabilistic commitment，既保持搜索韧性，也能及时收束。另一个 TREC-Biogen 案例则展示了它如何从“癫痫发作可能导致骨折”这一线索出发，动态调整 query 深挖隐藏原因。

⚙️ 方法论与技术实现

Agentic Synthesis 包含 QA 生成与 solution synthesis/filtering 两阶段。OAPL 则直接在旧策略样本上做最小二乘回归，天然容忍 off-policy。

其核心目标：$$\min_{\pi} \sum_x \sum_{i=1}^G \left( \beta \ln \frac{\pi(y_i|x)}{\pi_{\text{ref}}(y_i|x)} - \left(r(x,y_i)-\hat{V}^*(x)\right) \right)^2$$

同时，作者把 context compression 本身也纳入 Agent 动作空间，通过最终 reward 端到端训练模型的“记忆压缩”策略。

📊 实验设置与结论分析

Multi-task RL 相比 SFT 蒸馏在 OOD 任务上更有泛化力。
借助 Parallel Thinking / VGS 等 TTC 手段，KARL 进一步逼近甚至持平顶级闭源模型。
即使并行采样，查询成本和延迟仍显著优于高价闭源对手。

🌟 关键技术亮点分析

给出 RL 不只是 sharpening，而是真能学到新搜索策略的强证据。
OAPL 为工业界提供了 online RL 的高性价比替代方案。
把 memory/compression 也内化进 Agent 决策，方向很前沿。

大模型 Agent 与强化学习 (RL) 深度学术解读报告

Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers

自发结果势能：无验证器Agent的回合级信用分配

🔍 研究背景与痛点 (Background & Pain Points)

💡 核心贡献 (Core Contributions)

📖 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现 (Methodology)

📊 实验设置与结论分析

🌟 关键技术亮点分析

TopoCurate: Modeling Interaction Topology for Tool-Use Agent Training

TopoCurate：为工具使用智能体训练构建交互拓扑模型

🔍 研究背景与痛点

💡 核心贡献

🛠️ 具体案例剖析

⚙️ 方法论与技术实现

📊 实验设置与结论分析

🌟 关键技术亮点分析

AT²PO: Agentic Turn-based Policy Optimization via Tree Search

基于树搜索的智能体回合级策略优化

💡 研究背景与痛点

🚀 核心贡献

🔍 具体案例剖析

⚙️ 方法论与技术实现

📊 实验设置与结论分析

🌟 关键技术亮点分析

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

VSearcher：基于强化学习的长程多模态搜索智能体

🔍 研究背景与痛点

💡 核心贡献

🕵️ 具体案例剖析

⚙️ 方法论与技术实现

📊 实验设置与结论分析

🚀 关键技术亮点分析

KARL: Knowledge Agents via Reinforcement Learning

KARL：通过强化学习构建的知识智能体

🔍 研究背景与核心痛点

💡 核心贡献

🔬 具体案例剖析

⚙️ 方法论与技术实现

📊 实验设置与结论分析

🌟 关键技术亮点分析