大模型 Agent 与强化学习 (RL) 深度学术解读报告

结合LLM引导的动态动作空间与强化学习进行可合成先导化合物优化

原名:Reinforcement Learning with LLM-Guided Action Spaces for Synthesizable Lead Optimization

作者:Tao Li, Kaiyuan Hou, Tuan Vinh, Monika Raj, Zhichun Guo, Carl Yang

机构:Emory University, University of Oxford

📄 查看 ArXiv 原文

🔬 研究背景与痛点 (Background & Pain Points)

在AI驱动的药物发现(AI4Science/Drug Discovery)领域,先导化合物优化(Lead Optimization)处于极度核心的环节。在现实的药物化学流程中,专家们需要在初始“Hit”分子上进行局部结构调整(如修改官能团),以提高其药效、选择性和安全性。对于计算方法而言,这项任务面临着一对天然的矛盾:

因此,如何既发挥 LLM 的化学直觉压缩搜索空间,又利用 RL 强大的长期信用分配(Credit Assignment)能力,成为当前 AI 辅助制药亟待解决的挑战。

💡 核心贡献 (Core Contributions)

本文提出了一种全新的双轨制框架 MolReAct。其核心思路是:剥离“化学合法性检验”与“长期策略规划”的职责。用一个挂载工具的重型 LLM 作为“动态环境生成器”,为轻量级的 RL 策略模型提供高度浓缩、绝对合法的动态候选动作空间(Action Space)。

🔍 具体案例剖析 (Case Study / Examples)

论文对基于特定靶点(如 DRD2、sEH、GSK3$\beta$ 和 JNK3)的优化轨迹进行了可视化,清晰地展示了框架如何精准“打补丁”:

通过商用库(Enamine)对比,LLM 生成的反应构建块中有 66.1%~76.2% 是可以直接网购得到的,证明了生成路线的极高现实可行性。

核心架构图
图注:MolReAct 框架全景图。左侧为动态反应环境(由缓存、大模型 Agent 和外接 RDKit 分析工具组成),负责在匹配的化学反应模板下生成至多10个合法候选产物;右侧为策略优化模块(由 Qwen 驱动的多动作头网络),在候选动作和中止动作中做 RL 序列决策。

⚙️ 方法论与技术实现 (Methodology)

MolReAct 将先导化合物优化建模为具有可变动作空间的马尔可夫决策过程(MDP): $\mathcal{M} = (\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R})$。核心实现分为三大模块:

1. 动态的、基于工具增强 LLM 的环境构建

由于可合成空间的巨大组合性质,论文不使用传统 RL 固定长度的动作字典,而是为每个状态 $s_t$ 动态生成动作空间 $\mathcal{A}(s_t)$:

2. 基于 GRPO 的多步轨迹优化

轻量级策略模型 $\pi_\theta(a_t \mid s_t)$ 采用 Qwen-3-4B-Instruct,附加一个线性动作头。由于每个分子的候选反应在插槽中的语义不同,模型被强制要求基于输入的 Structured Prompt(含反应模板名、构建块 SMILES 等)来打分。那些无用的 action 槽位将被掩码(Logits 设为 $-\infty$)。

使用 DeepSeek-R1 同款的 GRPO 算法进行优化。对于每个初始分子,采样一组 $G$ 条轨迹,并在轨迹终端通过 Oracle 获得最终奖励 $r_T$。通过组内中心化标准化(减均值除标准差)得到优势函数 $A$。GRPO 损失函数不仅通过重要性采样比例截断防止策略更新幅度过大,还引入了与旧策略(Reference Policy)的 KL 散度约束,确保模型不崩溃:

$$ \mathcal{L}_{GRPO}(\theta) = \mathbb{E} \left[ \min(\rho_t(\theta) A, \text{clip}(\rho_t(\theta), 1-\epsilon, 1+\epsilon) A) \right] - \beta \mathbb{D}_{KL}\big(\pi_\theta(\cdot \mid s_t) \parallel \pi_{ref}(\cdot \mid s_t)\big) $$

3. SMILES 驱动的缓存机制 (Reaction Caching)

在 RL 强化阶段(尤其是 GRPO 需要大量 Rollout 的机制下),状态经常出现交叉重叠。系统使用分子的 Canonical SMILES 为键,缓存 LLM 推理生成的 action space 和状态转移结果。后续相同分子遇到状态请求时,直接触发 Cache hit 进行瞬间 O(1) 查找,彻底绕过庞大 Llama-70B 的推理。这保证了在 10000 次 Oracle 预算下训练能在 40 小时单卡上完成。

📊 实验设置与结论分析 (Experiments & Results)

实验设置:基于从 ZINC-250K 筛选出的分子。在 Therapeutics Data Commons (TDC) 平台选取 14 个评测基准任务(包括多参数 MPO、目标分子重发现、中值优化、激酶和 GPCR 的结合活性预测以及一个基于 AutoDock Vina 物理模型的代理优化任务)。Oracle 调用上限严格限制为 10,000 次。

对比基线:基于图/遗传算法的 GraphGA;基于反应规则和投影的 ReaSyn, SynFormer;基于 LLM 指令直接生成的 DrugAssist, LDMOL, mCLM。

核心结果:

⭐ 关键技术亮点分析 (Takeaways for LLM Practitioners)

作为资深 LLM / RL 从业者,这篇论文在架构设计层面上为我们提供了极具价值的启示:

  1. 环境(Environment)与策略(Policy)的巧妙分离: 将大模型(70B)用作 MDP 的状态转移引擎和动作空间界定者(生成紧凑的 Legal Actions),而将小模型(4B)用作 RL 的决策代理(Actor)。这种 Heavy Environment + Light Policy 的范式,非常巧妙地解决了大模型做 RL 调参慢、难收敛的痛点,同时利用上了大模型的先验知识做剪枝。在推荐系统、工业排程等动作空间极大的场景中,这种动态 action filtering 的思路极具复用价值。
  2. GRPO 突破数学/代码象限: 以往 DeepSeek 爆火的 GRPO 主要用于具有天然绝对对错反馈的代码和数学推理(Reasoning)。本文成功将其应用于离散图构建、分子生成这种具有连续黑盒奖励信号(Oracle Property Score)的科学计算领域,证明了群体相对策略优化在平滑 Reward Landscape 时的鲁棒性。
  3. Tools 作为提示词压缩手段: 并没有让大模型生成长篇大论的 CoT,而是强行调用确定的化学工具提取属性(RingAnalyzer, BRICSFragment 等),将高维分子图结构抽象并压缩成了极简的 Structured Scratchpad。在幻觉严重的垂类任务中,通过引入精确物理/规则引擎进行 Grounding 仍是当下的最佳实践。
  4. 缓存机制极大释放瓶颈: 在带有 LLM Env 的 RL 系统中,交互延迟是最大瓶颈。作者观察到马尔可夫决策中的“中间态重叠”极高(Cache hit rate达 56.4%),通过将 MDP 节点确定性哈希,直接将计算量砍半。这种系统工程上的巧思是在真实工程落地中不可或缺的。

DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

DeepDive:通过知识图谱与多轮强化学习推进深度搜索智能体

作者:Rui Lu, Zhenyu Hou, Zihan Wang, Hanchen Zhang, Xiao Liu, Yujiang Li, Shi Feng, Jie Tang, Yuxiao Dong

机构:清华大学,Z.AI,东北大学

📄 查看 ArXiv 原文

背景与痛点 (Background & Challenges)

随着大语言模型(LLMs)在复杂推理任务中的表现日益提升,将它们与外部浏览工具结合以解决现实世界复杂问题的 Deep Search Agents(深度搜索智能体) 成为前沿探索的热点。这类任务通常要求智能体在数以百计的在线网页中进行深度的、多跳的搜索与信息聚合(例如应对 BrowseComp 等高难度基准测试)。

然而,现有的开源模型在复杂 Deep Search 任务上远远落后于闭源系统(如 OpenAI DeepResearch),主要面临两大核心痛点:

核心贡献 (Core Contributions)

具体案例剖析 (Case Study)

为了直观说明传统多跳 QA 和真正的 Deep Search QA 的难度差异,论文对比了 HotpotQA 与 BrowseComp 的经典场景:

[浅层多跳] HotpotQA 示例:
Input: "How high is the mountain that is located east of the WorldFellowship Center?"
分析: 题目中包含了绝对明确的实体("WorldFellowship Center"),模型只需直接通过搜索引擎即可快速顺藤摸瓜,检索难度极低(Definite Entity)。

[深度搜索] BrowseComp 示例 (DeepDive 应对的靶向难题):
Input: "Please identify the fictional character who occasionally breaks the fourth wall with the audience, has a backstory involving help from selfless ascetics, is known for his humor, and had a TV show that aired between the 1960s and 1980s with fewer than 50 episodes."
分析: 这是一个典型的“模糊实体(Blurry Entity)”查询。输入条件极度碎片化(经常打破第四面墙、背景与无私的苦行僧有关、幽默、60-80年代的电视节目且少于50集)。模型不可能一次 Query 得到答案,必须设计多轮子查询,分别验证各个条件,并在巨量网页中进行信息排除与交叉比对(Reasoning & Browse 的深度耦合)。

方法论与技术实现 (Methodology)

1. 基于知识图谱的自动化数据合成 (Automated Data Synthesis from KGs)

为了批量制造前文所述的“模糊实体”问题,作者利用了知识图谱(KGs)的客观可验证性(verifiability)和多跳结构。合成过程如下:

2. 端到端多轮强化学习 (End-to-End Multi-Turn RL)

在获得了难例数据集后,DeepDive 采用基于 GRPO 算法的多轮 RL 让模型掌握边推理边搜索(Reason-and-Search)的节奏。Agent 输出的轨迹 $\mathcal{T} = [q, (c_1, a_1, o_1), \dots, a_{eos}]$ 包含了一系列思维链、操作和观察。

核心亮点:带冗余惩罚的 Reward 塑形 (Redundant Penalty)
在 Deep Search 中,模型极易陷入死胡同,反复下发相同的 Search query。为鼓励模型从不同维度探索线索,DeepDive 引入了多样性惩罚。给定轨迹 $\mathcal{T}$ 中的查询列表 $Q = [q_1, q_2, \dots, q_T]$,基于 Jaccard 相似度计算所有查询间的重合度: $$ S(\mathcal{T}) = \frac{1}{T(T-1)} \sum_{i \neq j} \text{sim}(q_i, q_j), \quad S(\mathcal{T}) \in [0,1] $$ 结合需要 LLM Judge 验证的严苛二分类(正确/错误且格式正确)奖励 $r(\mathcal{T}) \in \{0,1\}$,最终计算的 Reward 为: $$ r'(\mathcal{T}) = r(\mathcal{T}) - \lambda \cdot S(\mathcal{T}) $$ 通过此公式,RL 梯度显著偏向那些能够利用更发散、更少重合度的 Query 来达成最终正确答案的策略。

实验设置与结论分析 (Experiments & Results)

关键技术亮点分析 (Technical Highlights)

作为 LLM 领域推进 Agent 化落地的突破性研究,DeepDive 在思路上有几个极其出彩的借鉴点:

  1. 用“图”破“冰”,解决复杂推理数据获取的困局: 长视距搜索极度缺乏训练语料。作者回归经典 Knowledge Graph,并非用作 RAG 的外挂库,而是将其视为天然的多跳推理拓扑图。通过强制混淆节点的实体与属性,完美模拟了真实人类搜索时那种“只记得某些侧面特征却叫不上具体名字”的“模糊实体”检索困境。这种合成数据直接打通了向 RL 提供极高难度正负样本的通道。
  2. 为 RL 搜索注入“反直觉”的 Jaccard 惩罚项: 在 LLM 工具调用中,“重复调用同样的词去搜无效信息”是长期存在的顽疾。Jaccard 惩罚机制巧妙且轻量,逼迫模型在 RL 探索空间中放弃简单的文字复用,转而去挖掘潜在的新维度线索。实验发现,模型在训练后期自发学会了更高级的搜索引擎高级语法(如 Minus 排除法和 OR 操作符),正是这一惩罚项带来的良性突变。
  3. 洞察 Test-Time 机制的偏见: 针对长链路任务,传统的 Majority Voting 往往失效,因为系统可能会在某些短视但错误的路径上大量撞车。作者洞悉到的“使用 Tool calls 最少的答案反而最准”为大规模搜索 Agent 的评估过滤与 Test-time Compute 的分配提供了一个非常有启发的后处理 heuristics。

基于信息增益的策略优化:一种简单有效的多轮搜索Agent训练方法

INFORMATION GAIN-BASED POLICY OPTIMIZATION: A SIMPLE AND EFFECTIVE APPROACH FOR MULTI-TURN SEARCH AGENTS

作者:Guoqing Wang, Sunhao Dai, Guangze Ye, Zeyu Gan, Wei Yao, Yong Deng, Xiaofeng Wu, Zhenzhe Ying

机构:蚂蚁集团 (Ant Group), 中国人民大学

📄 查看 ArXiv 原文

🔍 研究背景与痛点

近年来,通过强化学习(RL)来提升大语言模型(LLM)的智能体能力(Agentic Capabilities)成为了通向通用人工智能的必经之路,尤其是在依赖外部工具(如搜索引擎)进行长程多轮交互的场景(Agentic Search)中。当前主流的对齐范式(如 GRPO)在单轮任务上表现优异,但面对长轨迹、多轮次的任务时,主要依赖Outcome-based Rewards(仅根据最终答案的正确性给予奖励),这暴露出三大致命缺陷:

尽管业界尝试引入过程奖励(Process Reward),但现有路线要么依赖外部 Reward Model(成本高且存在不可靠性偏见),要么依赖蒙特卡洛树搜索(MCTS)进行步骤价值评估(方差大,推理成本令人望而生畏)。

💡 核心贡献

为打破基于稀疏结果奖励的瓶颈,本文提出了一种内生驱动且极具计算性价比的 RL 框架——基于信息增益的策略优化(Information Gain-Based Policy Optimization, IGPO)。其核心贡献如下:

🔎 具体案例剖析 (Case Study)

为了直观展示 IGPO 如何实现细粒度的信用分配,论文给出了极其生动的案例(基于真实训练轨迹的复盘):

⚙️ 方法论与技术实现

IGPO 的设计优雅而严谨,可以无缝嵌入目前大火的 GRPO 框架。其核心推导过程包含三个关键步骤:

1. 基于信息增益的 Turn-Level Reward 构造

设 $a=(a_1, \dots, a_L)$ 为 Ground Truth 答案序列。在第 $i$ 个 Rollout 的第 $t$ 轮,模型生成正确答案的 Log-probability 定义为:

$$ \log \pi_\theta(a \mid q, o_{i, \le t}) = \frac{1}{L} \sum_{j=1}^L \log \pi_\theta(a_j \mid q, o_{i, \le t}, a_{

将当前轮次相对于上一轮次对齐 Ground Truth 的概率增量作为 Immediate Reward(即信息增益):

$$ r_{i,t}^{IG} = \text{IG}(a \mid q, o_{i,t}) = \log \pi_\theta(a \mid q, o_{i, \le t}) - \log \pi_\theta(a \mid q, o_{i, \le t-1}) $$

工程巧思:直接计算需循环前向传播。IGPO 在 Trajectory 尾端拼接了 $T$ 个 Ground Truth 的拷贝,并设计了专用的 Attention Mask 矩阵:每个拷贝仅能 Attend 到自身对应的 Turn Prefix。只需 $1$ 次 Forward 即可算完所有轮次的 Log-prob,速度提升极其显著

2. Turn-Level Discounted Return 的计算

为了抹平内在增益(可能极小)和外在结果奖励(一般为1或0)的尺度差异,IGPO 对这两类 Reward 在组内(Group-wise)分别进行 z-normalization 得到 $\tilde{r}_{i,t}$,并引入折扣因子 $\gamma$ 进行后向累加,捕捉长期依赖关系:

$$ \tilde{R}_{i,t} = \sum_{k=t}^T \gamma^{k-t} \tilde{r}_{i,k} $$

3. Surrogate Objective 优化策略

采用类似 GRPO/PPO 的 Clipped Surrogate Objective 机制,利用前文计算出的细粒度 Return 更新策略参数,并且仅对决策 Token(如 Reasoning, Tool calls, Answers)反向传播梯度:

$$ \mathcal{J}_{\text{IGPO}}(\theta) = \mathbb{E}_{\dots} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min \left( \frac{\pi_\theta(o_{i,t})}{\pi_{\text{old}}(o_{i,t})} \tilde{R}_{i,t}, \text{clip}(\dots) \right) - \beta \mathbb{D}_{\text{KL}}(\pi_\theta \parallel \pi_{\text{ref}}) \right] $$

📊 实验设置与结论分析

实验配置:基于 Qwen2.5-7B-Instruct 和 3B 版本作为基座。评测涵盖 4 个域内(In-domain,如 HotpotQA, 2Wiki)和 3 个域外数据集(OOD,如 Musique, PopQA),评估指标为 F1 Score。

核心结论速览:

🌟 关键技术亮点分析

从资深算法从业者的角度来看,IGPO 的破局之处在于大道至简且极具工程落地价值

  1. 将 Teacher Forcing 作为无偏裁判: 当前构建 Process Reward 极易陷入 Reward Hacking(模型迎合外部奖励模型的偏好瞎写过程)。IGPO 创造性地利用模型自身的预测似然(Log-prob on Ground Truth)作为奖励,将“向答案靠拢”的微观物理量具象化。这种 Intrinsic 的监督信号不依赖外部黑盒,具有内生的抗 Hacking 属性。
  2. 优雅破解雪球误差 (Snowball Error) 的数学论证: 论文附录甚至给出了严格的证明,论证了多轮推理中最终失败的下界是由每一步的信息丢失累积(雪球误差)决定的。IGPO 追求最大化各步的 Information Gain,数学等价于在遏制和逼近 Snowball Error 的积累上限,使得算法原理十分夯实。
  3. 工程优化的极致: 强化学习由于采样成本高昂,常常让中小团队望而却步。作者提出的 Custom Attention Mask 将 $O(T)$ 复杂度的前向过程拍平成 $O(1)$。这种“白嫖”级的高效 Process Reward 计算方案,绝对是开源 Agent RL 训练框架(如 verl/OpenRLHF)未来必定吸纳的标配范式。

Reinforcement Learning for Long-Horizon Multi-Turn Search Agents

面向长周期多轮搜索Agent的强化学习

作者:Vivek Kalyan, Martin Andrews

机构:Red Cat Labs, Singapore 等

📄 查看 ArXiv 原文

背景与痛点 (Background & Pain Points)

在当前的LLM工程实践中,检索增强生成(RAG)已经成为解决幻觉和知识过时的标配方案。然而,主流的工业级RAG系统通常为了优化延迟(Latency)而采用“单轮检索(Single-turn RAG)”的范式,即一次性执行Keyword+Semantic搜索后直接把Top-K塞给大模型生成答案。这种朴素范式(Naïve RAG)在面对需要复杂探究、长上下文依赖的任务(如法律案例文档检索)时,表现出极大的局限性。

虽然通过Prompt Engineering赋予前沿模型(如Gemini 1.5/2.5 Pro或GPT-4o)使用工具的能力,可以让它们在一定程度上执行多轮搜索(Multi-turn search),但在长周期的交互场景中,仅靠Prompt激发的能力容易触及天花板。LLM在面对陌生工具或专有文档库时,缺乏“通过试错积累搜索策略”的能力,经常会在多次搜索无效后陷入死循环或产生幻觉。

核心贡献 (Core Contributions)

具体案例剖析 (Case Study: Multi-turn Agent Workflow)

论文中采用的Agent交互逻辑是经典的 <think> -> <tool> -> Environment Response -> <answer> 循环。为了让读者直观理解RL训练后的模型如何执行多步探究,我们根据附录A.1的System Prompt重构一个典型的多轮法律搜索轨迹:

[用户提问]: "在2021年的SGCA判决中,法院对违约金的判定标准是什么?" [Turn 1] - 宽泛探索 (Broad Exploration) <think> 我需要先通过语义搜索或关键字搜索找到2021年SGCA(新加坡上诉法院)关于违约金的判决文件。 </think> <tool> {"name": "search_semantic", "args": {"query": "2021 SGCA liquidated damages standard", "num": 3}} </tool> [Environment]: 返回了 snippet 以及部分文档的ID,如 `2021_SGCA_3:judgement:introduction:p1` [Turn 2] - 定向阅读 (Targeted Reading) <think> 搜索结果提到了 2021_SGCA_3 案件涉及违约金的判定,但只给了摘要,我需要读取该判决书主体部分获取确切的标准。我会利用层次化ID向父节点跳跃。 </think> <tool> {"name": "read_document_part", "args": {"part_id": "2021_SGCA_3:judgement"}} </tool> [Environment]: 返回了整个案件的完整裁判段落。 [Turn 3] - 最终回答 (Final Answer Generation) <think> 我已经掌握了足够的证据。该法院判定违约金必须是真实的预估损失,而不是惩罚性的。 </think> <answer> 在2021年的SGCA判决中,法院判定违约金必须是对潜在损失的真实预估(genuine pre-estimate of loss),如果金额过高且属于威慑性惩罚,则该条款不可执行。 <sources> <source>2021_SGCA_3</source> </sources> </answer>

解读:这种两阶段搜索模式(广泛语义搜索 -> 定向读取完整内容)是很难仅通过Prompt就让模型稳健执行的,尤其是在格式严谨性(不能瞎编ID)和中途放弃(及时止损)的决策上,RL训练为模型提供了强大的策略直觉。

方法论与技术实现 (Methodology)

1. Agent 架构与工具集

模型在环境中共拥有三种工具:

2. 强化学习与GRPO训练设置

研究团队没有采用传统的PPO,而是采用了在数学推理领域大放异彩的 GRPO (Group Relative Policy Optimization)。基础模型为仅 14B 参数的 Qwen3-14B,训练时仅更新其 LoRA 权重以节约显存。为了支持长周期多轮Rollout所需的超长上下文,使用了 vLLM 结合 YaRN 将上下文窗口扩展至 128k tokens。每次训练步骤中,group_size 设为 6,产生多条轨迹供 GRPO 比较相对优势。

N轮交互的过程可用如下序列化表达:

$query \rightarrow response \rightarrow \{reformulate\ search \rightarrow response\}^{\wedge N} \rightarrow answer$

3. 巧妙的奖励函数设计 (Reward Shaping)

由于多轮检索是一项稀疏奖励任务,如果没有得到正确的答案,模型很难学习。作者设计了一套基于分段的行为约束规则(Behavioural bands),对中间过程(Partial Rewards)进行奖励和惩罚。这个设计对于落地应用极具参考价值:

在这个奖励体系下,幻觉(回答错误 [-1.0, 0.0])受到的惩罚远大于表示不知道([0.0, 1.0]),这迫使模型在证据不足时学会示弱,而不是胡编乱造。

实验设置与结论分析 (Experiments & Results)

1. 数据集准备

收集了5年的新加坡法院判决书,解析为保留层级结构的XML格式。通过Gemini 2.5 Pro生成问答对,经过严苛的难度与多样性过滤,最终形成 2300 个具备“Ground-truth文档+问答”的高质量评测对。

2. 核心性能对比

Model Accuracy (%) Avg. Turns
Naïve RAG (Gemini 2.5 Pro)331.0
Qwen3-14B (Base, multi-turn)533.7
Gemini 2.5 Pro785.3
OpenAI o3817.1
Qwen3-14B + RL (Ours)856.2

结果显示,单轮朴素RAG准确率仅33%,说明任务极其依赖多步搜索。经过RL微调的14B模型,以85%的准确率越级战胜了OpenAI o3(81%)。

3. 轮数受限(Turn-restricted)的重要发现

关键技术亮点分析 (Key Highlights)

1. 从“教它怎么做”到“让它自己悟”:在LLM Agent开发中,传统的做法是写巨长无比的Prompt或者做SFT,这本质上是把人类搜索规律强加给模型;而这篇论文走通了通过RL对Tool-use行为进行优化的路子,模型自己通过与环境(法庭文件检索库)的Trial and Error,摸索出了最高效的搜索方式。

2. 极低成本的Verifiable Reward系统构建:全文在RL训练中追踪了13个Metric,其中12个全都可以自动校验(Verifiable)(比如有没有触发正确ID的搜索、格式对不对、轮数是否用完等)。唯独“最终答案正误”需要动用Gemini 2.5 Pro做Judge。这种通过规则检查(格式/ID有效性)提供细粒度Reward的方式,大大降低了Agent RL的标注和计算成本,对工业界复现极具指导意义。

3. 解决“不知不觉的幻觉”:通过Reward机制设计(把瞎答错误奖励设为负,把承认不懂奖励设为正),论文用最直白的方式在强化学习层面规避了长链条Agent最头疼的“在没有证据时为了完成任务而编造事实”的问题。

基于对比动态分支采样训练多轮搜索Agent

英文标题:Training Multi-Turn Search Agent via Contrastive Dynamic Branch Sampling

作者:Yubao Zhao, Weiquan Huang, Sudong Wang, Ruochen Zhao, Chen Chen, Yao Shu, Chengwei Qin

机构:香港科技大学(广州)、南洋理工大学

📄 查看 ArXiv 原文

一、研究背景与痛点

在强化学习(RL)赋能大语言模型(LLM)实现多轮规划和工具调用的浪潮中,长视距(long-horizon)Agentic RL 的训练目前面临着一个关键瓶颈:极度稀疏的轨迹级奖励(Trajectory-level outcome rewards)与信用分配(Credit Assignment)的模糊性

这意味着,对于早期的可靠推理,没必要反复蒙特卡洛采样;我们只需要集中火力对轨迹尾部进行对比采样,就能获取信息量最大、最高效的训练监督信号。

二、核心贡献

基于上述洞察,本文提出了 BranPO(Branching Relative Policy Optimization),一种无需训练 Value 网络的、提供步级对比监督信号的强化学习算法。具体贡献包括:

  1. 提出 BranPO 框架:从轨迹尾部截断并重新采样替代后缀(Suffixes),从而在固定的前缀(Prefix)上构建对比轨迹。这种方式不仅降低了长视距任务中信用分配的模糊性,还在数学上巧妙统一了 GRPO 和 DPO 的范式。
  2. 引入难度感知分支采样(Difficulty-aware branch sampling):动态分配分支计算预算。对于简单任务只做单次尾部分支,对于复杂或初始错误轨迹则递归地向后回溯分支,极大提高了探索效率和样本利用率。
  3. 设计冗余步掩蔽机制(Redundant Step Masking, RSM):有效识别并抑制 Agent 训练中容易出现的无意义重复调用工具行为,缓解了因过度采样导致模型养成验证强迫症的偏差。

三、具体案例剖析

作者分析了长视距搜索任务中失败轨迹的典型 Case,以此说明常规 Trajectory-level RL 在纠偏时的乏力,以及为何需要在尾部进行干预:

四、方法论与技术实现

BranPO 的核心思想是通过将决策树裁剪为“共享前缀+差异后缀”,实现低开销、高方差缩减的策略优化。

1. 难度感知动态采样 (Dynamic Branching)

为了控制开销,BranPO 在初始 rollout 后评估任务难度。假设生成了 $N$ 条轨迹: 如果该 prompt 下的初始 Accuracy 极高,属于简单任务,则只在最终生成步尝试替换分支;若发现回答冗长,则触发冗余检测(Redundancy Detect)。 对于低准确率(困难任务)或失败轨迹,算法从最后一个 action 往前进行递归回溯(Recursive Branching),直到采样到一个具有不同奖励结果的对比分支(Contrastive Suffixes)。这样可以确保每次消耗算力构造的树枝,都能提供高纯度差异信号。

2. 分支相对优势评估 (Branching Advantage Estimation)

对于一条带有分支的轨迹,BranPO 将奖励分解给“前缀 $B$” 和“后缀 $C$”。假设在前缀 $B_{q,n}$ 后采样出了多个分支集合 $\mathcal{C}_{q,n}$。

3. 数学本质揭秘:GRPO + DPO 的缝合怪

作者在附录 B 提供了一个优雅的数学推导,证明了 BranPO 的理论优越性:

对于前缀部分,BranPO 是一个低方差的 GRPO,因为前缀汇聚了多个分支的期待奖励 $Q^{\pi_\theta}(B)$;
对于对比分支部分,其策略梯度方向实质上等价于直接偏好优化 (DPO) 类型的更新: $$\nabla_\theta \mathcal{L}_{\text{suffix}} \propto \nabla_\theta \log \pi(C^+ \mid B) - \nabla_\theta \log \pi(C^- \mid B)$$ 通过在一个错误分支和一个成功分支间构建隐式偏好对,强行拉开其概率差。这种将“轨迹级试错”无缝转化为“步级别排序学习”的做法,解释了其样本效率暴增的根本原因。

五、实验设置与结论分析

实验配置:基于 ASearcher 提供的局部搜索引擎,采用 Qwen2.5-7B-Instruct 和 Qwen3-4B-Instruct 作为基座(均先通过过滤后的高质量数据执行过 1 epoch SFT 冷启动)。对比方法包含 SFT、GRPO、GiGPO(仅第一阶段)以及 Tree-GRPO。

核心结果分析:

  1. 多跳 QA 性能全面碾压: 在限制最多 4 步搜索的第一阶段中,BranPO 在 HotpotQA、2WikiMultihopQA 以及未见过的 MuSiQue、Bamboogle 上不仅在 F1 分数上显著超越了 GRPO (如在 Qwen2.5-7B 的 HotpotQA 上提升至 60.9% 对比 58.6%),在 LLM-as-a-Judge 评估上也拉开了差距。相比 Tree-GRPO,BranPO 也显示出更强的性能。
  2. 扩展交互上限至 8 步的稳定性: 长视距任务最怕探索崩溃。当允许最大 8 步交互时,常规 GRPO 虽然性能有所提升,但其平均搜索步数暴增,大量无用功;而 BranPO (配合 RSM 机制) 不仅将多跳任务 F1 指标继续推高 (7B 模型 Avg 达到 59.2 vs GRPO的 58.9),且平均搜索步数保持在一个更合理的低位阈值,避免了“陷入无限死循环”。
  3. 真实网络泛化能力: 在难度极高的 GAIA 基准测试(带真实网页检索与摘要)上,BranPO 同样比 GRPO 高出约 4-5个百分点,证明该算法不仅仅是一个“刷榜技巧”,也能应对真实开放域的高噪声环境。
  4. 训练耗时: 得益于 BranPO 的“动态截断”和“难易度分发”,其构建分支额外消耗的 Rollout 时间,被更高效稳定的收敛所抵消(不需要那么多梯度步),总 Wall-clock time 与普通 GRPO 近似持平,比全局建树的 Tree-GRPO 快得多。

六、关键技术亮点分析(从业者视角)