作者:Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
机构:厦门大学,阿里高德地图(AMAP, Alibaba Group),南方科技大学
开源代码:GitHub 仓库
强化学习(RL)正在成为大语言模型(LLMs)后训练(Post-training)的核心范式。以 DeepSeek-R1、OpenAI o1 为代表的模型证明了通过纯结果奖励(Outcome Rewards)的 RL 可以激发模型极强的复杂推理能力。然而,当将这种 RL 范式扩展到包含动态环境和多轮交互的复杂智能体(Agent)任务时,现有方法遭遇了严重的瓶颈:
为了解决过程监督的问题,以往的做法往往是引入过程奖励模型(PRMs),但这需要极高的人工标注成本且难以泛化。因此,本文提出了一个核心反思:能否在有限的 Rollout 预算下,仅依赖最终的 Outcome Reward,就能为 Agent RL 构建出细粒度的过程监督信号?
本文提出了一种全新的基于树搜索的组相对策略优化方法——Tree-GRPO (Tree-based Group Relative Policy Optimization),其核心贡献总结如下:
(思考 Thought - 动作 Action - 观察 Observation) 作为树节点进行展开。这种共享前缀的搜索策略在固定的 Token/API 预算下显著增加了有效探索轨迹的数量。为了直观展示 Tree-GRPO 训练出的 LLM Agent 的能力,我们选取了原论文附录中的复杂 Multi-hop QA 任务:
问题 (Question): Who is the owner of the record label of the performer of Groovy Little Summer Song?
正确答案 (Ground Truth): Warner Music Group, Warner Music
[Tree-GRPO (14B) 输出轨迹追踪]
<think>
要回答这个问题,我需要先确定 "Groovy Little Summer Song" 的表演者,然后再找出这位表演者所在的唱片公司,最后找出这家唱片公司的所有者。
</think>
<search> Performer of the song "Groovy Little Summer Song" </search>
<information> [检索内容]... "Groovy Little Summer Song" 是一首由美国乡村音乐艺术家 James Otto 录制的歌曲... </information>
<think>
从搜索结果来看,表演者是 James Otto。现在我要找出他关联的唱片公司属于谁。
</think>
<search> Record label of the performer James Otto </search>
<information> [检索内容]... Otto 的职业生涯始于 2002 年在 Mercury Nashville Records ... 此外在 2015 年他与 Blaster Records 签约... </information>
<think>
看起来 James Otto 与 Mercury Nashville Records 和 Warner Bros. Records 等厂牌有关。我现在需要找出是谁拥有这些唱片公司。
</think>
<search> Who owns Mercury Nashville Records and Warner Bros. Records </search>
<information> [检索内容]... Warner Bros. Records 是一家美国主流唱片公司,由 Warner Music Group (华纳音乐集团) 拥有... </information>
<think>
基于搜索结果,这些唱片公司归 Warner Music Group 所有。得出最终答案。
</think>
<answer> Warner Music Group </answer>
深度点评: 这个案例生动体现了 Tree-GRPO 赋予模型的动态分解规划与多步探索能力。面对未知的“Owner -> Record Label -> Performer”关系链,Agent 没有选择盲目瞎猜或一次性输入冗长 Query,而是稳扎稳打执行了严格的 Thought-Action-Observation 闭环,这正是由于 Tree-GRPO 在训练阶段将每一轮 Agent Step 均作为决策树节点,并在树分支的成败中提供了清晰的过程监督偏好信号。
RLTR (Reinforcement Learning with Tool-use Rewards) 框架分为三个清晰的工程阶段:
使用强大的 Teacher LLM(如 Qwen3-32B)通过知识蒸馏(Knowledge Distillation)生成轨迹。随后使用拒绝采样(Rejection Sampling)保留Best-of-N的数据,仅对 Planner 的动作轨迹进行 SFT。
论文定义了一个完整性检查函数 $\gamma : \mathcal{S} \to \{0, 1\}$,利用验证模型(Comp. Checker,配合特定Prompt)来判断当前状态 $s$ 下的动作序列是否完整(1为完整,0为不完整)。
最终的过程奖励通过多次采样求平均得到:
$$R_{comp} = \frac{1}{N} \sum_{i=1}^{N} \gamma_i(\tau)$$
核心逻辑:判断“一件事是否可以被完成”远比“判断答案是否100%正确”要容易且可靠,极大提升了Reward模型的一致性。
为了保证训练稳定性并引导Agent聚焦动作,框架设计了复合Reward并对梯度进行了特殊处理:
实验设置:基于在工业界收集的中文Agent数据集(涵盖搜索和代码工具,测试集区分 Normal 和 Hard)以及开源中文问答数据集(ChineseSimpleQA 过滤后的高难子集)。使用 Qwen3-1.7B 和 8B 为基座模型,对比了 DIRECT (Zero-shot)、E2E SFT 和 E2E RL。
核心结论:
微信 AI 团队这篇论文非常具有浓厚的“工业界落地解决实际问题”的风格。其最大的亮点在于“思路转换”:与其在海量业务数据中痛苦地寻找Ground Truth来做结果校验(这在开放域检索和推理中几乎是不可能的),不如退而求其次,用 LLM 去校验执行步骤(Process)是否闭环。
此外,通过在训练流程中将 Planner 从 Summarizer 中彻底剥离并采用 Loss Masking 技术,极大地缓解了以往强化学习训练 Agent 时环境长上下文导致的梯度弥散和收敛缓慢问题。这种“重过程、轻结果”的单目标对齐思想,对当前大量纠结于如何构建复杂高保真Reward Model的Agent研发团队来说,提供了一条极具性价比的突围路径。