Scaling Retrieval-Augmented Reasoning with Parallel Search and Explicit Merging

通过并行搜索与显式合并扩展检索增强推理

作者：Jiabei Liu*, Wenyu Mao*, Junfei Tan, Chunxu Shen, Lingling Yi, Jiancan Wu, Xiang Wang

机构：中国科学技术大学 (USTC), 腾讯微信技术架构部

1. 研究背景与核心痛点

在处理知识密集型任务时，大型语言模型（LLMs）越来越依赖基于Agent的深度搜索（Deep Search Agents / Agentic RAG）来获取外部知识。主流的 ReAct 范式通常采用“思考-单次搜索-阅读”的迭代循环（如 Search-R1 或 Search-o1）。然而，针对复杂推理，这种范式暴露出两个致命的痛点：

单查询导致检索信噪比（SNR）极低： 在每一个推理步，Agent 仅生成一个查询。如果该查询表述模糊或与外部语料存在词汇鸿沟（Lexical Mismatch），检索回来的 Top-k 文档中将充斥无关噪声。这不仅拉低了上下文的 SNR，还会诱发模型产生额外的冗余搜索步骤，甚至因为关键信息缺失而推导错误。
缺乏细粒度的过程监督： 现有的 RL 搜索方法大多采用结果导向的奖励（如最终答案正确性）。但在引入“多查询”、“去噪合并”等复杂中间机制时，单一的 Outcome Reward 信号过于稀疏，无法有效指导策略网络（Policy Model）去判断“是否检索了足够有用的信息”以及“是否成功提炼了可靠的上下文”。

2. 核心贡献

为打破单查询带来的性能瓶颈，本文提出了一种名为 MultiSearch 的端到端强化学习框架，主要贡献如下：

架构创新 (Parallel Search + Explicit Merging)： 在每个搜索步骤引入多视角（如重述、概念扩展、问题分解）的并行查询机制，并在阅读理解阶段引入强制性的 <merge> 算子，让模型显式地对召回内容进行去重与提炼。
多过程奖励体系 (Multi-Process Reward)： 设计了针对最终答案准确性（Answer Reward）、查询多样性（Multi-Query Reward）和合并有效性（Merging Reward）的细粒度奖励机制。
RL 优化算法适配： 采用 GDPO (Group reward-Decoupled Normalization Policy Optimization) 替代传统的 GRPO，解耦并分别归一化不同维度的异构奖励，防止模型在训练早期对容易达成的内容（如疯狂输出查询词）产生 Reward Hacking。

3. 具体案例剖析 (Case Study)

以多跳复杂实体推理（摘自论文 Bamboogle 验证集）为例，我们可以直观感受到 MultiSearch 的优势。

[User Question]： Are Portland International Airport and Gerald R. Ford International Airport both located in Oregon? (波特兰国际机场和杰拉尔德·R·福特国际机场都在俄勒冈州吗？)

[Ground Truth]： No.

🔴 Search-R1 (单查询基线)：

<Think> 我需要确认这两个机场是否都在俄勒冈州。
<Search> Are Portland International Airport and Gerald R. Ford International Airport both located in Oregon? （极其幼稚的单一查询）
<Info> 检索到的 Doc 1 提到 "Portland International Airport 是俄勒冈州最大的机场..." （只召回了波特兰的信息，福特机场信息缺失或排名靠后）
<Think> 根据提供的信息，我推断这两个机场都在俄勒冈州。
Output: Yes. (推理短路，产生幻觉)

🟢 MultiSearch (本文方法)：

<Think> 首先，我们需要确定这两个机场的位置，然后再检查它们是否都在俄勒冈州。
<Search> Query 1: where is Portland International Airport; Query 2: where is airport Gerald R. Ford International Airport; Query 3: are Portland International Airport located in Oregon （并行问题分解与多视角召回）
<Info> Doc 1 显示波特兰在俄勒冈州。Doc 4 显示福特机场在密歇根州大急流城东南。
<Merge> 从检索的文档中可以看出，波特兰机场在俄勒冈州，福特机场在密歇根州。这两个机场不在同一个州。（显式提炼高价值信噪比片段）
Output: No. (正确)

4. 方法论与技术实现

MultiSearch 将 Agent 的执行轨迹定义为 search → info → merge → think 的循环，直到信息充分输出 <answer>。其核心 RL 构造如下：

4.1 Multi-Process Reward 设计

为了让模型掌握这种范式，系统设计了三种维度的 Reward，并且使用强条件掩码（只有最终答案对，才给予中间过程奖励）：

Answer Reward ($r_{ans}$): 基于预测答案与 Ground-truth 的单词级 F1 Score。
$r_{ans} = \frac{2 n_{int}}{n_{pred} + n_{truth}}$
Multi-Query Reward ($r_{query}$): 鼓励模型在每个 <search> block 中生成足够多的查询语句（设定阈值为平均每步大于2个）。
$r_{query} = 0.1 \text{ if } n_q > 2 \text{ else } 0$
Merging Reward ($r_{merge}$): 监督模型是否在 <merge> 模块中真正保留了核心证据。通过判断所有的合并块 $\{M_1, M_2, ...\}$ 的并集是否覆盖了 Ground-truth。
$r_{merge} = 0.1 \text{ if } \exists M_i, M_i \cap a = a \text{ else } 0$

4.2 为什么必须用 GDPO？(Group reward-Decoupled Normalization)

DeepSeek-Math 提出的 GRPO 是将多个 Reward 直接求和并进行单一归一化：$A = \frac{r_{total} - \mu(r_{total})}{\sigma(r_{total})}$。但这在 MultiSearch 中会引发灾难：$r_{query}$（多生成几个搜索词）非常容易获得，而 $r_{ans}$ 极难获得。这会导致 Agent 直接通过疯狂输出无意义查询来刷高总体 Reward（Reward Hacking）。

本文采用 GDPO，将不同维度的 Reward 分别在组（Group Size=5）内进行归一化，然后再加权求和，计算 Advantage $A_{i,j,t}$：

$$ A^k_{i,j,t} = \frac{r^k_{i,j,t} - \text{mean}(r^k_t)}{\text{std}(r^k_t)} $$ $$ A_{i,j,t} = \sum_{k \in \{ans, query, merge\}} w_k A^k_{i,j,t} $$

这种解耦设计保证了每个子任务（生成答案、多发查询、有效提炼）都能提供精准、非干涉的策略梯度。

5. 实验设置与结论分析

实验以 Qwen2.5-3B/7B (Base/Instruct) 为基座模型，在 7 个 QA Benchmark（包括 HotpotQA, 2Wiki, Musique 等多跳复杂数据集）上进行。外部知识源为 2018 Wikipedia dump，检索器为 E5-base-v2。

全面超越 SOTA 基线： 无论是 3B 还是 7B 模型，MultiSearch 在所有测试集的平均准确率（Avg）均显著高于现有最强基线（包括 Search-o1, Search-R1, AutoRefine）。特别是在 Musique 和 Bamboogle 这种高难度多跳数据集上，提升幅度高达 5~8 个百分点。
SNR（信噪比）大幅上升与推理步数下降： 由于 Multi-Query 扩大了命中率，而 <merge> 过滤了无效信息，输入到 LLM 推理层的最终上下文 SNR 从不足 0.5 飙升至接近 0.9（见原文图3）。这直接使得 LLM 能在更少的 Search Cycle 下得出正确结论，降低了推理成本。
Base vs. Instruct 模型的有趣现象： 实验发现，Base 模型的最终泛化上限甚至高于 Instruct 模型（在 7B 上 44.5% vs 42.2%）。作者指出，Instruct-tuning 可能过拟合了既定的人类交互模式，从而限制了模型在复杂多步 RL 探索任务中的策略空间。

6. 关键技术亮点分析与启发

从“串行试错”到“并行广度优先”的工程范式转移： 以往的 ReAct 模型遇到不确定问题时，往往通过一轮又一轮的错误搜索来修正自身。MultiSearch 证明，与其花费昂贵的生成 Token 成本做深度单线串行试错，不如在每一步采用多并发（Concept expansion, Decompose, Rephrase）的方式做“广度覆盖”，然后一次性通过 LLM 的总结能力进行收敛（Merge）。这是算力经济学在 Agent 设计上的体现。
强化学习中的过程状态显式化 (Explicit Intermediate States)： 在 End-to-End RL 中，直接要求模型利用杂乱的检索结果进行推理难度极大。通过强制插入一个独立的动作单元 <merge>，一方面为推理上下文“净水去污”，另一方面也为 RL 奖励函数提供了一个极佳的“挂载点”（可以在这里直接计算实体命中率），值得所有做过程监督（PRM）和反思增强的从业者借鉴。

Learning Agentic Policy from Action Guidance

从动作引导中学习大模型智能体策略

作者：Yuxiang Ji, Zengbin Wang, Yong Wang, 等

机构：厦门大学、阿里巴巴高德地图 (AMAP)、南方科技大学

📄 查看 ArXiv 原文

💡 研究背景与痛点 (Background & Pain Points)

在当前的大模型智能体 (Agentic LLMs) 训练范式中，强化学习 (RL, 如 PPO、GRPO) 已成为激发模型复杂规划与工具调用能力的核心。然而，纯在线 RL (Zero RL) 面临着一个致命的“冷启动”陷阱：

可达性壁垒 (Reachability Barrier)： RL 依赖于模型自身的探索 (Exploration) 来获取 Reward。对于超出 Base Model 能力边界的任务（即 Out-of-region tasks，Pass@K $\approx 0$），模型在 Rollout 阶段无法触及 Reward State，导致 Advantage 估算崩溃为零梯度（Mass Collapse）。模型不仅学不到新东西，甚至可能发生能力退化。
SFT 成本高昂： 业界的标准解法是“SFT Cold-start + Curriculum Learning”，即先用大量包含高质量 Chain-of-Thought (CoT) 的演示数据进行 SFT 预热。但这将不可避免地引入高昂的标注成本，且合成 CoT 容易导致“事后合理化 (Post-hoc rationalization)”，而单纯的行为克隆 (Behavior Cloning) 则无法真正内化推理能力。
动作数据的价值洼地： 现实世界中（如日志、人类 GUI/CLI 交互、长视距游戏）存在海量的纯动作数据 (Action Data)。它们没有思维链，但极具规模。如何绕过昂贵的 SFT，直接利用这些纯动作数据引导 RL，是本文尝试解决的核心痛点。

🚀 核心贡献 (Core Contributions)

本文提出了一种全新的智能体强化学习框架 ACTGUIDE-RL，其核心思想是：将纯动作序列作为参考轨迹 (Reference Plan) 注入 Prompt，引导模型跨越探索壁垒，并在最小干预下通过混合策略优化将探索收益内化到无引导的原始策略中。

理论刻画与现象揭示： 从理论上定义了智能体 RL 中的“可达性动态 (Reachability Dynamics)”，证明了由于 Mass Collapse 导致的零梯度问题，并实证发现纯动作引导能有效修复该壁垒。
最小干预原则 (Minimal Intervention Principle)： 揭示了“过度引导会加剧 Off-policy 分布偏移”的风险，提出通过自适应的二分查找 (Binary Search) 确定刚好能拿 Reward 的最少引导步数，实现探索收益与优化风险的极致平衡。
摆脱 SFT 依赖： 在零 SFT 冷启动的前提下，ACTGUIDE-RL 在多个复杂 Search-Agent Benchmark 上大幅超越 Vanilla RL，甚至媲美“SFT + RL”范式，且避免了 SFT 常常带来的对齐税 (Alignment Tax) 和 OOD 能力退化。

🔍 具体案例剖析 (Case Study)

ACTGUIDE-RL 并不要求模型完全照搬动作，而是将动作作为“Plan-style Guidance”提供给模型。以下是训练阶段的一个真实注入案例（基于复杂网络搜索任务）：

            [原始问题]: 哪个政党上一次获得了西伯克郡议会的全面控制权，且该选举发生在一个新选区引入之前，该选区以一个伯克郡村庄命名，1974年...

            [ACTGUIDE-RL Prompt 注入]:

            Answer the given question using the given tools. For each step, you must conduct a thought section to reason before calling any tools.

            Follow the partial action trajectory hint to take actions, note that the trajectory may not complete and you still need do some extra tool calls to finish the task.

            Reference action trajectory hint:

            <1>: search ["Kennet & Avon Canal restored to Hungerford Wharf July 1974", ...]

            <2>: search ["West Berkshire Council election tied result by-elections...", ...]

            <3>: visit [https://en.wikipedia.org/wiki/West_Berkshire_Council_elections]

            ...

            [模型表现]: 模型在看到上述纯 API 调用记录后，会被迫在生成 `` 阶段去“反推”为什么需要这么搜，从而越过初期“不知道该搜什么”的探索死海，最终拿到正确答案 (The Liberal Democrats)，获得正向 Reward 信号。

洞察：这种做法极其轻量（类似给迷宫中的玩家提供前几个路口的方向），模型依然需要自己补全推理链条 (CoT) 并执行后续动作，有效避免了退化为单纯的动作复读机。

⚙️ 方法论与技术实现 (Methodology)

ACTGUIDE-RL 的实现由三个优雅的技术模块构成：

1. 动作引导作为屏障修复器 (Action Data Repairs Barriers)

设定目标策略为 $\pi_\theta(\cdot | s)$。当引入前 $k$ 步动作轨迹 $g_k = (\tilde{\alpha}_1, \dots, \tilde{\alpha}_k)$ 作为 Prompt 的条件输入后，策略变为 $\pi_\theta(\cdot | s, g_k)$。经验表明，即使仅给定动作，也能极大提升后续生成的 Pass@K 概率。

2. 最小干预原则 (Minimal Intervention Principle)

强引导虽然能确保获得 Reward，但会导致生成的 Token 序列与无引导策略产生巨大的分布偏移 (Distribution Shift)，极大地增加异策略 (Off-policy) 优化的风险 $R_k$。作者将该过程定义为带约束的优化问题，并在实践中使用自适应 Fallback 机制：

对每个 Task，先进行无引导 (Unguided) 的 Rollout。
如果全军覆没 (Reward 均为 0)，则启动二分查找，寻找能让模型刚刚好达到成功阈值 $\delta$ 的最小动作引导步数 $k^*$。

公式表示为：$k^* := \min \{k \in \{1, \dots, K\} : \max_{i=1}^N Y(\tau_i^{(k)}) \ge \delta\}$

3. 异策略内化 (Off-Policy Internalization)

由于 Inference 阶段没有 Guidance，模型必须将“被引导出的成功经验”内化到 $\pi_\theta(\cdot | x)$ 中。作者采用了混合策略优化 (Mixed-Policy Optimization)，将 Unguided 和 Guided Rollouts 放在一个 Batch 内联合优化，目标函数 $J_{mix}(\theta)$ 使用了针对数据源动态调整的 Importance Sampling (IS) Ratio：

$$ r_{i,t}^{mix}(\theta) = \begin{cases} \frac{\pi_\theta(z_{i,t} \mid z_{i,

精妙之处在于：对于 Guided 数据，其分母使用的是带有条件 $g_{adap}$ 的旧策略概率，从而正确校准了梯度，将信用 (Credit) 穿透回无引导的目标参数上。

📊 实验设置与结论分析 (Experiments & Results)

实验配置：基于多种基座模型（Qwen2.5-3B/7B, Qwen3-4B/8B），在四大多步深度搜索基准测试（GAIA, WebWalkerQA, XBench, BrowseComp-ZH）上进行验证。采用 GRPO 算法变体进行 Token-level 的策略优化。

核心结论：

大幅突破能力上限，拯救探索停滞： 在难度极高的 WebWalkerQA 和 XBench 上，Vanilla RL 几乎失效，而 ACTGUIDE-RL 在 Qwen3-4B 上分别带来了惊人的 +27.79% 和 +19.00% 的绝对胜率提升。
有效缓解 In-region 能力退化： 当训练数据太难时，Vanilla RL 往往由于奖励信号崩塌而产生负面更新，导致原有的基础能力退化。ACTGUIDE-RL 通过提供有效的 State Visitation，成功抑制了这种退化。
零冷启动媲美 SFT+RL： 实验表明，ACTGUIDE-RL 的纯 RL 效果，可以与“先做 SFT 对齐，再做 RL”的经典 Pipeline 打平。此外，在 Out-of-domain 任务（TruthfulQA, IFEval）上，ACTGUIDE-RL 保持了基座模型的强泛化性，避免了 SFT 中经常出现的 Mode-covering 退化。

🌟 关键技术亮点分析 (Technical Highlights)

从资深 LLM 研发者的视角来看，这篇工作具备极高的工业界落地价值和启发性：

对齐税 (Alignment Tax) 的优雅绕过： SFT 训练 Agent 最大的痛点是很容易拟合特定的格式或思维模板（陷入局部最优），而在 Inference 时稍微偏离就崩溃。本文通过将 Action 作为“外部参考”而非“必须生成的 Prefix”，强迫 LLM 自己去构建连接起点到终点的 CoT，这是极其高明的设计，相当于用 RL 的 Explore 能力补全了 SFT 缺失的 Reasoning 过程。
Adaptive Guidance 巧妙控制 Off-policy 风险： 许多 RLHF 引入外部数据时容易因为 KL 发散导致训练崩盘。本文理论分析了 Off-policy risk $R_k$ 的协方差结构（公式18），并用二分查找寻找“刚刚好跨越鸿沟”的 $k^*$。这种“最小干预”极其符合 RL 的探索直觉——“教练只在你跌倒的地方扶一把”，最大化保留了模型的自主探索空间。
数据护城河的降维打击： 高质量带推理的 SFT 数据获取成本是纯动作埋点数据（如用户在 APP 的点击流、Chrome 浏览器的 network logs）的数十倍。该工作证明了我们可以通过 Algorithm 层面的创新，直接吞噬海量的低阶 Action Logs 来逼出高阶的 Agentic Policy，这对于拥有大规模产品日志的互联网公司是一条黄金 Post-training 路径。

PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning

PiCA：面向搜索 Agent 强化学习的基于 Pivot 的信用分配

作者：Dongyi Liu, Yifan Niu, Qinwen Wang, Han Xiao, Jia Li

机构：香港科技大学（广州） / 香港科技大学

📄 查看 ArXiv 原文

📍 研究背景与痛点

近年来，基于大型语言模型（LLM）的搜索代理（Search Agents）通过强化学习（RL）在多跳问答（Multi-hop QA）等知识密集型任务中展现出强大的潜力。相比于传统的单次 RAG（检索增强生成），Search Agents 能够自主地进行查询生成、检索、反思和多步推理。然而，在长视距（Long-horizon）推理任务中，**信用分配（Credit Assignment）**成为了限制其性能的核心瓶颈，即模型很难判断中间的哪些推理步骤对最终的正确答案做出了贡献。现有 RL 方法主要面临三大挑战：

Reward Sparsity（奖励稀疏）： 传统的 Outcome-supervised 方法（如 RLHF/GRPO 等）仅依赖最终答案的对错来给予全局奖励，缺乏步骤级（Step-level）指导，导致模型难以区分中间 Action 的优劣（例如把奖励错误归因于多余的查询）。
Isolated Credit（孤立信用分配）： 虽然部分新方法试图提供步骤级奖励，但它们通常是对当前步的局部质量进行独立评估，忽视了搜索任务本质上是一个马尔可夫决策过程（MDP），即后一步的成功高度依赖于前序累积的信息。
Distributional Shift（分布偏移）： 一些基于密集奖励的方法通过将 Ground-truth 与中间步骤拼接来估计答案概率。但这种拼接序列并不存在于模型自然生成的分布中，容易引发严重的分布偏移并导致奖励评估偏差。

🚀 核心贡献

为了解决上述痛点，本文提出了 PiCA (Pivot-Based Credit Assignment)，一种基于“信息支点”的新型信用分配框架，其核心在于将整个搜索轨迹重构为一个累积搜索进度的序列过程：

引入 Pivot Steps 概念： 识别历史轨迹中获取到关键子查询和子答案的“信息高峰”时刻作为 Pivot steps（支点步）。直觉上，每获得一个 Pivot step，最终回答正确的概率就会大幅跃升。
理论完备的 Dense Reward 构造： 基于基于势函数的奖励塑造（Potential-Based Reward Shaping, PBRS），PiCA 将过程奖励定义为依赖历史上下文的“相对成功增益”，不仅实现了密集的轨迹依赖（Trajectory-dependent）指导，还避免了拼接造成的分布偏移。
显著的 SOTA 性能： 在 7 个多跳 QA 基准测试中，PiCA 将 PPO 基线的性能在 Qwen2.5-3B 和 7B 模型上分别提升了 15.2% 和 2.2%，在极具挑战的 MuSiQue 和 Bamboogle 数据集上更是远超现有的 Search-R1、TIPS 等强基线方法。

🔍 具体案例剖析 (Case Study)

为了直观理解 PiCA 是如何通过细粒度奖励引导模型的，我们来看一个成功的推理轨迹案例（提取自原论文附录 Figure 7）：

      Question: The mother of Megan Phelps-Roper is best known as the former spokesperson of a church located in what city?

      Ground Truth: Topeka

      [Turn 1]

      Think: 我需要先找出 Megan Phelps-Roper 的母亲是谁...

      Tool Call: {"queries": ["Who is Megan Phelps-Roper mother ..."]}

      Tool Response: ...Her mother is Shirley Phelps-Roper...

      PiCA Reward: 0.81 (成功获取第一跳关键实体，给出高额正反馈)

      [Turn 2]

      Think: 母亲是 Shirley。现在我需要找出 Shirley 曾作为发言人的教堂叫什么名字。

      Tool Call: {"queries": ["Which church is Shirley Phelps-Roper ..."]}

      Tool Response: ...former spokesperson of the Westboro Baptist Church...

      PiCA Reward: 0.86 (成功获取第二跳关键实体)

      [Turn 3]

      Think: 教堂是 Westboro Baptist Church。现在我需要查询它位于哪个城市。

      Tool Call: {"queries": ["Westboro Baptist Church location..."]}

      Tool Response: ...the west side of Topeka...

      PiCA Reward: 0.92 (获取到最终锁定答案的关键证据，给出最高奖励)

      [Final Outcome] F1 Score: 1.0

解读：在这个过程中，由于 PiCA 的 Reward Model 能够评估每一步相对于历史状态带来的“成功概率增量”（Success Gain），因此它能够在每一个有效的信息拉取时刻给出非常高的即时奖励。这极大缓解了传统 RL 只能在最后一步给出 $+1$ 导致的中间过程盲目摸索问题。反之，如果在某一步模型出现逻辑偏离或幻觉，PiCA 会给予极低甚至负的奖励（如附录 Figure 6 所示）。

⚙️ 方法论与技术实现

PiCA 的技术实现分为两大核心阶段：PiCA 奖励模型的训练（Stage 1） 和 基于 PPO 的策略优化（Stage 2）。

1. 理论基础：Relative Success Gain 与 PBRS

PiCA 将多跳搜索过程建模为“到达正确答案概率的演化”。设在时间步 $t$，根据状态 $s_t$（历史文本）和动作 $a_t$ 获得最终正确结果 $l=1$ 的成功概率为 $f(t)$：

$f(t) = P(l = 1 \mid s_t, a_t)$

为了衡量当前动作带来的信息价值，定义相对成功增益（Relative Success Gain） $g(t)$：

$g(t) = \frac{f(t) - f(t - 1)}{f(t - 1)}$

当 $g(t) > 0$ 时，说明该动作是推进性的（例如找到了有效实体）；当 $g(t) < 0$ 时，说明引入了错误或混淆。利用基于势函数的奖励塑造（PBRS），将状态势函数定义为对数成功概率 $\Phi(s_t) \equiv \log f(t)$，推导出每一步的过程奖励为：

$r_t = \Phi(s_t) - \Phi(s_{t-1}) = \log(1 + g(t))$

2. PiCA Reward Model 的混合训练（Stage 1）

为了拟合上述的 $g(t)$，作者使用全参数微调训练了一个独立的 Reward Model。因为完全标注每一步的正确与否非常困难，本文提出混合两部分 Loss：

Step-level Explicit Supervision（显式步骤级监督）： 通过自动生成的标注（借助 DeepSeek-V3 API 和大模型裁判提取出“Pivot steps”），针对确认为关键进展的 Pivot steps，显式最大化其收益：
$\mathcal{L}_{\text{gold}} = - \sum_{L \in \mathcal{D}} \sum_{t \in \mathcal{D}_p} \log(g_t)$
Outcome-level Implicit Supervision（隐式结果级监督）： 对于轨迹上的其他未标注步骤，利用最终答案的对错 $l \in \{0, 1\}$，约束整个序列末端的概率 $f(T)$：
$\mathcal{L}_{\text{final}} = \begin{cases} - \log f(T), & \text{if } l = 1 \\ - \log(1 - f(T)), & \text{if } l = 0 \end{cases}$

3. 基于 PPO 的策略优化（Stage 2）

在使用 PPO 优化 Agent 时，总优势函数融合了最终结果奖励 $r_{out}$（格式正确性+F1分数）以及前面算出的中间步奖励 $r_{step, t}$。为了避免模型通过无限次重复废话搜索来骗取奖励（Reward Hacking），作者还巧妙地加入了一个随步数指数增长的 Step Penalty：

$r_{step,t} = \begin{cases} PiCA(s_t, a_t), & \text{if } t < 3 \\ PiCA(s_t, a_t) - \lambda \cdot \alpha^{(t-3)}, & \text{if } t \ge 3 \end{cases}$

这种设计既鼓励了探索（前几步无惩罚），又抑制了低效的长链条冗余搜索。

📊 实验设置与结论分析

实验设置：基座模型选用 Qwen-2.5-3B-Instruct 和 7B-Instruct，检索器使用 E5 encoder 匹配维基百科。Reward Model 的训练数据构建自 StepSearch 衍生的 60K 条带 Pivot 标注的轨迹。评估涵盖了 NQ, HotpotQA（域内测试），以及 TriviaQA, PopQA, MuSiQue, Bamboogle 等 5 个域外（OOD）数据集。

核心结论：

极致的知识密集型任务表现： 在 3B 模型上，PiCA 在 HotpotQA (EM: 0.400) 等基准上大幅超越此前 SOTA 方案（Search-R1: 0.324, StepSearch: 0.345），体现出强大的信息整合能力。
卓越的 Out-of-Domain 泛化： 面对未见过的数据分布（如 TriviaQA 和高度复杂的 Bamboogle 组合推理），PiCA 依然保持显著优势，证明其学到的 Reward 规则是具备内在泛化逻辑的，而非单纯拟合域内分布。
消融实验揭示的机制： 移除 PiCA Reward（退化为 Standard PPO）会导致长视距下收敛困难；而如果只给 Outcome + Penalty（无 PiCA dense reward），模型前期收敛快，但在步数增加后会发生严重的 Length Hacking（即为了少受惩罚直接截断推理回答，导致性能雪崩）。PiCA 奖励能够完美平衡惩罚项，维持稳定的思考长度（如图 3b 所示）。
跨架构的可扩展性： 作者在 Qwen3-4B 和 Llama3.1-8B 上进行了泛化测试，均获得显著的绝对性能提升（在 Llama3.1-8B 上相对无 Reward 基线提升高达 34% EM）。

💡 关键技术亮点分析 (Takeaways)

作为资深从业者，我们可以从这篇论文中吸取以下几个高价值的方法论：

对马尔可夫性的深刻理解（PBRS 的复兴）： RL 在大模型推理（如 o1-like 的强化学习范式）中一直被 Credit Assignment 困扰。本文跳出了简单的局部的 LLM-as-a-judge 打分，引入 PBRS 势函数，这是一个非常优雅的数学工具——它证明了只要我们将奖励定义为“某种状态潜能（即成功率）的差值”，最优策略集是不变的。这种设计既保证了长程依赖的传递，又提供了密集信号，非常值得在 Agent RL 领域推广。
Pivot 思想降低标注成本： 不强求大模型或人类对每一步微小的 Think/Search 给绝对评价，而是去寻找“抓到了核心子实体/子答案”的那一瞬间（Pivot steps）。给这种确定性较高的“高光时刻”强烈的正反馈，剩余的交由 Outcome 隐式监督收敛。这为自动化高质量 Reward Model 数据飞轮构建提供了一条可行之路。
抵御 Reward Hacking 的工程细节： RLHF 和 PPO 极其容易被长文本、多 Turn 机制玩坏（比如发现在不搜也能骗奖励或者多搜一次能骗更多过程奖励时）。本文设置了阈值动态惩罚（$t \ge 3$ 才开始指数惩罚），这是一种极其符合 Search Agent 业务直觉的正则化手段，有效避免了退化解（Collapse）。

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

OpenSeeker-v2：用高信息量与高难度轨迹突破搜索智能体的极限

Authors: Yuwen Du, Rui Ye, Shuo Tang, Keduan Huang, et al.

Institution: Shanghai Jiao Tong University (SJTU)

📄 查看 ArXiv 原文 | 💻 GitHub Code

1. 研究背景与痛点 (Background & Motivation)

在信息爆炸的时代，深度搜索（Deep Search）已成为前沿大语言模型（LLM）Agent 不可或缺的核心能力（如 OpenAI Deep Research）。然而，作为资深从业者我们深知，训练具备强大长程搜索能力的 Agent 长期以来是少数科技巨头的“闭门游戏”。

当前的工业界主流 Recipe 痛点：

极度消耗资源： 工业界标准流程通常依赖 CPT (Continual Pre-Training) + SFT (Supervised Fine-Tuning) + RL (Reinforcement Learning) 的超重度 Pipeline。
开源社区的壁垒： 这种对庞大算力和闭源数据流水线的重度依赖，构成了巨大的技术壁垒，阻碍了学术界和开源社区在长程 Agent 领域的探索。

OpenSeeker 团队提出了一个灵魂拷问：如果仅使用最基础的 SFT，但喂给模型极高质量、高难度的搜索轨迹数据，我们能否打破这种对复杂多阶段训练的依赖，并媲美工业级模型的表现？

2. 核心贡献 (Core Contributions)

本文推出了 OpenSeeker-v2，这是首个完全由学术团队仅使用 SFT（监督微调） 训练出的 SOTA 级别 ReAct 搜索 Agent，彻底证明了“数据质量胜于管线复杂度”。

极简且高效的训练范式： 放弃了昂贵的 CPT 和复杂的 RL，仅使用 10.6k 条 高难度数据进行一次标准的 SFT。
统治级的 Benchmark 表现： 基于 Qwen3-30B-A3B-Thinking 训练的 OpenSeeker-v2-30B-SFT 在四大评测榜单上全面超越了同级别的工业界重度训练模型：
- BrowseComp: 46.0%
- BrowseComp-ZH: 58.1%
- Humanity’s Last Exam (HLE): 34.6%
- xbench: 78.0%
注：它显著击败了采用 CPT+SFT+RL 联合训练的阿里通义 DeepResearch，甚至超越了 DeepSeek-V3.1-671B 等更大参数规模的模型。
开源精神： 完全开源模型权重，为社区提供了一个极具竞争力的 Baseline，极大降低了长程搜索 Agent 的研究门槛。

3. 训练数据合成策略与案例剖析 (Case Study: High-Difficulty Trajectory)

为了直观理解什么是“高难度”与“高信息量”轨迹，我们对比一下常规 SFT 数据与 OpenSeeker-v2 合成数据的差异。OpenSeeker-v2 的轨迹平均交互步数达到了惊人的 64.67 步（远超 v1 的 46.97 步和 RedSearcher 的 36.01 步）。

❌ 常规/低难度轨迹 (将被 Strict Low-step Filtering 丢弃)：

Query: "2024年诺贝尔物理学奖得主是谁？"
Agent Trajectory:
- [Tool] WebSearch("2024 Nobel Prize Physics")
- [Observation] John Hopfield and Geoffrey Hinton...
- [Action] Output("得主是 John Hopfield 和 Geoffrey Hinton")
说明： 步数极少 ($T < T_{\min}$)，仅需单跳浅层检索即可解决，无法激发模型的长程推理能力。

✅ OpenSeeker-v2 高难度合成轨迹范例 (多跳图谱拓展 + 复杂 ReAct)：

Query: "结合 2024 年诺贝尔物理学奖得主的早期代表性网络结构，分析该结构如何影响了 2010 年代主导 NLP 领域的某一特定序列模型的演进？"
Agent Trajectory (节选):
- [Reasoning 1] 我需要先确认2024年物理学奖得主是谁。
- [Tool 1] WebSearch("2024 Nobel Prize Physics") -> [Obs 1] Hopfield, Hinton
- [Reasoning 2] 找到得主后，我需要分别搜索 Hopfield 网络和 Hinton 早期贡献的网络结构。
- [Tool 2] WikipediaSearch("Hopfield Network") -> [Obs 2] (提取关键概念：能量函数、全连接反馈)
- [Tool 3] WikipediaSearch("Geoffrey Hinton early neural networks") -> [Obs 3] Boltzmann Machine...
- [Reasoning N] 题目要求关联到 2010 年代 NLP 领域的序列模型（如 RNN/LSTM）。我需要使用学术搜索工具查找玻尔兹曼机或反馈网络对 RNN 发展的影响...
- [Tool N] ScholarSearch(...) -> [Obs N] ...
- [Final Reasoning] 综合以上超过 50 步的调用与信息聚合...
- [Action] Output(...)
说明： 由于数据合成阶段刻意扩大了知识图谱的子图规模 (Scaling graph size)，强迫模型必须通过多重 Tool-call 和长时间的 Reasoning 才能收集齐全部线索。这就是 OpenSeeker-v2 的核心魔法。

4. 方法论与数据工程实现 (Methodology)

OpenSeeker-v2 的核心假设是：只要给予足够困难和信息量丰富的训练数据，直接 SFT 就足以诱发出强大的长程搜索和推理能力。 为此，他们对数据收集 Pipeline 进行了三项极为有效的极简改进：

扩展图谱规模以实现更丰富的探索 (Scaling graph size for richer exploration):
在任务合成阶段，给定种子节点 $v_{\text{seed}} \in \mathcal{V}$，不同于原版构建较小的子图，v2 将扩展预算从 $k$ 增加到 $K$ ($K > k$)，获得更大的证据子图：
$\mathcal{G}^{(K)}_{\text{sub}} = \text{Expand}(\mathcal{G}, v_{\text{seed}}, K)$
随后基于这个更宏大的上下文生成合成 Query：
$q \sim P_{\text{gen}}\left(q \mid \mathcal{G}^{(K)}_{\text{sub}}\right)$
这保证了生成的问题在结构上强制要求模型跨多个节点进行证据聚合，而不是依赖单一信源。
扩充工具集以提升功能广度 (Expanding the tool set for broader functionality):
增加 Agent 可用的工具集合 $\mathcal{A}$。Agent 需要生成多步 ReAct 风格的轨迹：
$\tau = (r_1, a_1, o_1, r_2, a_2, o_2, \dots, r_T, a_T, o_T, r_{T+1}, y)$
其中 $r_t$ 是推理痕迹（Reasoning trace），$a_t \in \mathcal{A}$ 是工具调用，$o_t$ 是观察结果。工具集的扩大促使 Agent 学习更灵活的补救策略和功能组合。
严格的低步数过滤 (Strict low-step filtering):
为了剔除过于简单的实例（如直接查找或浅层关键词匹配），应用了基于最小工具调用阈值 $T_{\min}$ 的硬性过滤规则：
$\mathcal{D}_{v2} = \{(q, \tau) \in \mathcal{D}_{\text{raw}} \mid T(\tau) \ge T_{\min}\}$
凡是工具调用步数 $T(\tau) < T_{\min}$ 的轨迹全部被丢弃。这从根本上为 SFT 数据确立了“难度下限”。

5. 实验设置与结论 (Experiments & Results)

模型基座与设置： 使用 Qwen3-30B-A3B-Thinking-2507（总参数量30B，推理激活参数3B）。上下文窗口开到 256k，单轨迹最大允许 200 次 Tool calls。
核心对比 (越级挑战)： 相比于使用 CPT + SFT + RL 复杂流程训练的代表性开源标杆 Tongyi DeepResearch (阿里)，OpenSeeker-v2 仅依靠 SFT：
- 在 BrowseComp 上赢了 2.6% (46.0% vs 43.4%)
- 在 BrowseComp-ZH 上大幅领先 11.4% (58.1% vs 46.7%)
- 在 xbench 上领先 3.0% (78.0% vs 75.0%)
与超大模型的较量： 作为一个 30B 级别的模型，OpenSeeker-v2 的表现同样超越了千亿甚至万亿级别的通用/搜索模型，包括 DeepSeek-V3.1-671B、GLM-4.6-357B、Minimax-M2-230B，以及闭源的 Claude-4.5-Sonnet。

6. 总结与启发 (Key Highlights for LLM Practitioners)

作为 LLM 从业者，OpenSeeker-v2 给我们带来了极具冲击力的 Data-centric 启示：

算法退场，数据为王： 过去一年，工业界普遍陷入了为 Agent 堆砌复杂 RL 架构的内卷中。而本文有力地证明，如果轨迹数据足够“硬核”（步数够长、逻辑够深、信息够密），标准 SFT 依然有着深不见底的潜力尚未被挖掘。
强制提升下限 (Raising the Floor)： “Strict low-step filtering” 这一看似粗暴的策略非常关键。当训练数据中充斥着“一步命中”的捷径数据时，模型会产生惰性。直接切断退路，强迫模型拟合复杂的长程探索轨迹，是激活模型深度检索能力的关键。
学术界大有可为： 它打破了“没有千卡集群和RL工程师就做不了 Deep Research Agent”的迷思。通过精巧的数据合成 Pipeline 设计，小团队同样能通过 SFT 在 Agent 领域卷出 SOTA。

下一步： 作者指出目前 OpenSeeker 尚未达到 Scaling 饱和，未来在高质量数据的数量、多样性上继续扩大规模，有望进一步逼近甚至超越 OpenAI o3 等闭源天花板。

LiteResearcher: 深度研究智能体的可扩展Agentic RL训练框架

Authors: Wanli Li, Bince Qu, Bo Pan, Jianyu Zhang, Zheng Liu, Pan Zhang, Wei Chen, Bo Zhang

Institutions: Zhejiang University, Simplex AI, The Hong Kong Polytechnic University

📄 查看 ArXiv 原文

研究背景与痛点 (Background & Pain Points)

强化学习（RL）近期在闭源推理模型（如 DeepSeek-R1）上取得了巨大成功，证明了在稳定环境和适宜难度的数据下，RL能持续提升模型能力。然而，当将 RL 范式迁移到需要与外部工具交互的 Agentic RL（智能体强化学习），特别是深度研究（Deep Research）任务时，遇到了极为棘手的可扩展性瓶颈：

在线真实环境的高昂代价与高方差： 直接与真实互联网（Live Internet）交互进行 RL 训练，会引入巨大的环境噪声（如网页变动、网络延迟），且 API 调用成本极高（动辄几十万美元），导致奖励信号极不稳定，限制了训练规模。
本地模拟环境的局限性： 现有基于 Wikipedia 或孤立语料库的本地检索系统过于局限，无法模拟真实网络中复杂的搜索动态。
合成数据的缺陷： 现有的基于图的合成方法往往过度纠结于复杂的逻辑链（Over-engineered reasoning），却忽略了真实研究中广泛需要的基础“原子搜索能力”（如交叉验证、全量枚举）。

为了打破这一困局，本文提出了 LiteResearcher：一个完全在本地构建“轻量级虚拟世界”的 Agentic RL 训练框架，用极小规模的模型（4B）打败了现有的巨头商业模型及开源大模型。

核心贡献 (Core Contributions)

构建了镜像真实互联网的本地虚拟世界： 提出了一种训练数据与本地语料库“协同进化（Co-evolve）”的 Pipeline。通过扩展获取约 32M 网页，建立零边际成本、超低延迟的本地检索引擎与浏览器工具链。
纯本地、零成本的可扩展强化学习： 在本地环境中支持全量 RL Rollout，完成了超 7300 万次工具调用（折合在线 API 成本最高达 24.3 万美元，而本地成本为 0），验证了 Agentic RL 的持续优化潜力。
越级的模型表现（SOTA）： 仅用 4B 参数（基于 Qwen3-4B-Thinking），LiteResearcher-4B 在 GAIA 取得 71.3%、在 Xbench 取得 78.0% 的惊人成绩，不仅碾压了一众 8B-32B 开源模型（如 Tongyi DeepResearch 30B），甚至持平或超越了 Claude 4.5 Sonnet 与 GLM-4.6。

具体案例剖析 (Case Study: Synthetic Data & Atomic Capabilities)

为了让模型掌握真实世界的复杂调研能力，作者没有去死磕纯逻辑推理，而是将 Deep Research 拆解为 5 种核心的原子搜索能力（Atomic Search Capabilities）。并在生成训练问答对（QA）后，刻意掩码（Mask）掉原始的信息源网页，倒逼 Agent 学会在海量语料中自主摸索出黄金路径（Golden Path）。

Aggregation（聚合查找）：
问题：“在2024年10月完成的阿波罗·贝尔维德雷雕像修复项目中，Andrea Felice使用了什么材料来制作替换缺失左手的复制品？”
Agent必须学会： 总结所有限制条件 $\rightarrow$ 分别寻找各条件的解 $\rightarrow$ 取交集。
Enumeration（枚举与统计）：
问题：“当埃德蒙顿的Valley Line东南段在2023年11月4日开通时，总共有多少个车站？”
Agent必须学会： 头脑风暴所有可能的资料源 $\rightarrow$ 分别访问 $\rightarrow$ 取并集并计数。
Cross-verify（交叉验证）：
问题：“内蒙古伊利实业集团旗下品牌‘全聪高锌高钙学生奶粉’是否含有蔗糖？如果有，含量是多少？”
Agent必须学会： 搜索多个不同来源的网页 $\rightarrow$ 跨来源验证信息的一致性防伪。

方法论与技术实现 (Methodology)

LiteResearcher 架构基于三个核心支柱（如上图所示）：

1. 训练数据与语料库协同构建 (Co-construct Pipeline)

从高阶种子文章（如维基百科、BBC新闻）出发，使用 LLM 提取独立且客观可验证的 QA 对。为了防止 Agent 利用捷径，系统会删除 QA 的原始出处网页（Source Masking）。同时，利用这些 QA 作为 query 到真实互联网调用搜索 API 抓取相关网页（共消耗约 22 万次 API 调用，获得 32M 网页），形成一个极具多样性且隔离的 Enriched Corpus。

2. 稳定的本地工具环境 (Stable Local Tool Environment)

摒弃了传统 RAG 的 Chunk（切块）级索引，采用 Page-level Indexing（页面级索引），极大地控制了索引体积以适应高并发。构建了两个零边际成本的本地服务：

Local Search Engine： 使用 BGE-M3 生成稠密与稀疏向量，借助 Milvus + DiskANN 混合检索。延迟约 0.15s/次（是在线 API 的 10 倍速）。
Local Browse Tool： 将全量网页以 Markdown 格式存入 PostgreSQL，按 URL 索引，支持单机 1000 并发，返回延迟极低（0.17s，是商业方案 Jina Reader 的 46 倍速）。

3. 难度感知课程强化学习 (Curriculum GRPO)

Agentic RL 极易陷入“训练饱和（Training Saturation）”。如果数据太简单，梯度为零；太难则奖励为零。作者引入了难度过滤，每轮 RL 前测试 8 个 rollout 的正确次数 $c$，仅保留 $1 \le c \le 7$ 的有效 query。算法上采用了无 KL 散度和熵惩罚的 严格 On-Policy GRPO：

$$ \mathcal{J}_{GRPO}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^K \sim \pi_{\theta_{old}}} \left[ \frac{1}{K} \sum_{i=1}^K \min \left( r_i(\theta)A_i, \text{clip} \left(r_i(\theta), 1 - \epsilon_{low}, 1 + \epsilon_{high}\right)A_i \right) \right] $$

其中 $r_i(\theta)$ 为新旧策略概率比，$A_i$ 为经过组内均值和方差归一化后的相对奖励。采用 2 阶段课程学习（Stage 1 使用局部数据，Stage 2 提高温度并加入多跳/科学域数据），成功突破性能平台期。

实验设置与结论分析 (Experiments & Results)

实验配置： 模型基于 Qwen3-4B-Thinking-2507 进行 SFT（使用 Tongyi DeepResearch 的 68k 条高质量轨迹），随后在 VERL 框架上进行本地 RL。

SOTA性能表现： 在核心评测基准 GAIA（71.3%）、Frames（83.1%）和 Xbench（78.0%）上，LiteResearcher-4B 均位列开源第一。超越了 30B 级别的同类模型（如 WebSailor 30B 53.2%、Tongyi DeepResearch 30B 70.9%），甚至比肩闭源的 Claude-4.5-Sonnet (71.2%)。
RL有效纠正了SFT带来的“无效死循环”： 观察 RL 训练动态发现，SFT 模型常出现重复调用搜索或反复浏览同一 URL 的行为。RL 仅凭结果反馈（Outcome-based reward），在没有任何显式长度惩罚的情况下，自发地将平均回复长度从 ~18K 缩减到 ~12K token，将交互轮数从 ~30 轮降至 ~24 轮，彻底学会了高效搜索。
极致的成本效益： 在线调用完成 73.2M 次工具交互预计需花费 $59K~$243K 美元，而本地环境除了一次性的数据抓取费用（约 $220）外，边际成本完全为零。

关键技术亮点与从业者启发 (Insights for LLM Practitioners)

“环境的纯净度”比“无尽的在线搜索”更重要： 很多团队死磕 Live Web RL，结果被高方差的验证和不可控的网络延迟拖死（并发一高就 timeout，极大污染 Reward）。本文证明了“构建一个高质量、大尺度（30M+页面）的离线隔离沙盒”，才是实现 Agent 规模化 RL 飞轮的前置条件。
On-Policy 对长序列 Agent 极其关键： 作者通过消融实验指出，Agentic RL（动辄几十万 token、几十步工具调用）对 policy lag 非常敏感。Off-policy 算法（如把同一个 rollout batch 重复更新多次）在长视野任务中会导致采样轨迹与当前策略的严重偏离，最终使性能暴跌；严格的 On-policy 才是王道。
Data Masking 是促发“自主探索（Agentic Behavior）”的神来之笔： 合成数据最怕模型在 SFT/RL 时“背答案”。LiteResearcher 生成 QA 后直接在库中删掉那个“参考网页”，倒逼模型必须组合多个其他维度的网页进行拼凑和推理，这极其巧妙地激发了模型对检索工具的使用深度。

大模型 Agent 与强化学习 (RL) 深度学术解读报告

Scaling Retrieval-Augmented Reasoning with Parallel Search and Explicit Merging

通过并行搜索与显式合并扩展检索增强推理

1. 研究背景与核心痛点

2. 核心贡献

3. 具体案例剖析 (Case Study)

4. 方法论与技术实现

4.1 Multi-Process Reward 设计

4.2 为什么必须用 GDPO？(Group reward-Decoupled Normalization)

5. 实验设置与结论分析

6. 关键技术亮点分析与启发

Learning Agentic Policy from Action Guidance

从动作引导中学习大模型智能体策略

💡 研究背景与痛点 (Background & Pain Points)

🚀 核心贡献 (Core Contributions)

🔍 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现 (Methodology)

1. 动作引导作为屏障修复器 (Action Data Repairs Barriers)

2. 最小干预原则 (Minimal Intervention Principle)

3. 异策略内化 (Off-Policy Internalization)

📊 实验设置与结论分析 (Experiments & Results)

🌟 关键技术亮点分析 (Technical Highlights)

PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning

PiCA：面向搜索 Agent 强化学习的基于 Pivot 的信用分配

📍 研究背景与痛点

🚀 核心贡献

🔍 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现

1. 理论基础：Relative Success Gain 与 PBRS

2. PiCA Reward Model 的混合训练（Stage 1）

3. 基于 PPO 的策略优化（Stage 2）

📊 实验设置与结论分析

💡 关键技术亮点分析 (Takeaways)

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

OpenSeeker-v2：用高信息量与高难度轨迹突破搜索智能体的极限

1. 研究背景与痛点 (Background & Motivation)

2. 核心贡献 (Core Contributions)

3. 训练数据合成策略与案例剖析 (Case Study: High-Difficulty Trajectory)

4. 方法论与数据工程实现 (Methodology)

5. 实验设置与结论 (Experiments & Results)

6. 总结与启发 (Key Highlights for LLM Practitioners)

LiteResearcher: 深度研究智能体的可扩展Agentic RL训练框架

研究背景与痛点 (Background & Pain Points)

核心贡献 (Core Contributions)

具体案例剖析 (Case Study: Synthetic Data & Atomic Capabilities)

方法论与技术实现 (Methodology)

1. 训练数据与语料库协同构建 (Co-construct Pipeline)

2. 稳定的本地工具环境 (Stable Local Tool Environment)

3. 难度感知课程强化学习 (Curriculum GRPO)

实验设置与结论分析 (Experiments & Results)

关键技术亮点与从业者启发 (Insights for LLM Practitioners)