大模型 Agent 与强化学习 (RL) 深度学术解读报告

Scaling Retrieval-Augmented Reasoning with Parallel Search and Explicit Merging

通过并行搜索与显式合并扩展检索增强推理

作者:Jiabei Liu*, Wenyu Mao*, Junfei Tan, Chunxu Shen, Lingling Yi, Jiancan Wu, Xiang Wang

机构:中国科学技术大学 (USTC), 腾讯微信技术架构部

📄 查看 ArXiv 原文

1. 研究背景与核心痛点

在处理知识密集型任务时,大型语言模型(LLMs)越来越依赖基于Agent的深度搜索(Deep Search Agents / Agentic RAG)来获取外部知识。主流的 ReAct 范式通常采用“思考-单次搜索-阅读”的迭代循环(如 Search-R1 或 Search-o1)。然而,针对复杂推理,这种范式暴露出两个致命的痛点:

2. 核心贡献

为打破单查询带来的性能瓶颈,本文提出了一种名为 MultiSearch 的端到端强化学习框架,主要贡献如下:

3. 具体案例剖析 (Case Study)

以多跳复杂实体推理(摘自论文 Bamboogle 验证集)为例,我们可以直观感受到 MultiSearch 的优势。

[User Question]: Are Portland International Airport and Gerald R. Ford International Airport both located in Oregon? (波特兰国际机场和杰拉尔德·R·福特国际机场都在俄勒冈州吗?)

[Ground Truth]: No.


🔴 Search-R1 (单查询基线):

<Think> 我需要确认这两个机场是否都在俄勒冈州。
<Search> Are Portland International Airport and Gerald R. Ford International Airport both located in Oregon? (极其幼稚的单一查询)
<Info> 检索到的 Doc 1 提到 "Portland International Airport 是俄勒冈州最大的机场..." (只召回了波特兰的信息,福特机场信息缺失或排名靠后)
<Think> 根据提供的信息,我推断这两个机场都在俄勒冈州。
Output: Yes. (推理短路,产生幻觉)


🟢 MultiSearch (本文方法):

<Think> 首先,我们需要确定这两个机场的位置,然后再检查它们是否都在俄勒冈州。
<Search> Query 1: where is Portland International Airport; Query 2: where is airport Gerald R. Ford International Airport; Query 3: are Portland International Airport located in Oregon (并行问题分解与多视角召回)
<Info> Doc 1 显示波特兰在俄勒冈州。Doc 4 显示福特机场在密歇根州大急流城东南。
<Merge> 从检索的文档中可以看出,波特兰机场在俄勒冈州,福特机场在密歇根州。这两个机场不在同一个州。(显式提炼高价值信噪比片段)
Output: No. (正确)

4. 方法论与技术实现

MultiSearch 将 Agent 的执行轨迹定义为 search → info → merge → think 的循环,直到信息充分输出 <answer>。其核心 RL 构造如下:

4.1 Multi-Process Reward 设计

为了让模型掌握这种范式,系统设计了三种维度的 Reward,并且使用强条件掩码(只有最终答案对,才给予中间过程奖励):

4.2 为什么必须用 GDPO?(Group reward-Decoupled Normalization)

DeepSeek-Math 提出的 GRPO 是将多个 Reward 直接求和并进行单一归一化:$A = \frac{r_{total} - \mu(r_{total})}{\sigma(r_{total})}$。但这在 MultiSearch 中会引发灾难:$r_{query}$(多生成几个搜索词)非常容易获得,而 $r_{ans}$ 极难获得。这会导致 Agent 直接通过疯狂输出无意义查询来刷高总体 Reward(Reward Hacking)。

本文采用 GDPO,将不同维度的 Reward 分别在组(Group Size=5)内进行归一化,然后再加权求和,计算 Advantage $A_{i,j,t}$:

$$ A^k_{i,j,t} = \frac{r^k_{i,j,t} - \text{mean}(r^k_t)}{\text{std}(r^k_t)} $$ $$ A_{i,j,t} = \sum_{k \in \{ans, query, merge\}} w_k A^k_{i,j,t} $$

这种解耦设计保证了每个子任务(生成答案、多发查询、有效提炼)都能提供精准、非干涉的策略梯度。

5. 实验设置与结论分析

实验以 Qwen2.5-3B/7B (Base/Instruct) 为基座模型,在 7 个 QA Benchmark(包括 HotpotQA, 2Wiki, Musique 等多跳复杂数据集)上进行。外部知识源为 2018 Wikipedia dump,检索器为 E5-base-v2。

6. 关键技术亮点分析与启发

Learning Agentic Policy from Action Guidance

从动作引导中学习大模型智能体策略

作者:Yuxiang Ji, Zengbin Wang, Yong Wang, 等

机构:厦门大学、阿里巴巴高德地图 (AMAP)、南方科技大学

📄 查看 ArXiv 原文

💡 研究背景与痛点 (Background & Pain Points)

在当前的大模型智能体 (Agentic LLMs) 训练范式中,强化学习 (RL, 如 PPO、GRPO) 已成为激发模型复杂规划与工具调用能力的核心。然而,纯在线 RL (Zero RL) 面临着一个致命的“冷启动”陷阱

🚀 核心贡献 (Core Contributions)

本文提出了一种全新的智能体强化学习框架 ACTGUIDE-RL,其核心思想是:将纯动作序列作为参考轨迹 (Reference Plan) 注入 Prompt,引导模型跨越探索壁垒,并在最小干预下通过混合策略优化将探索收益内化到无引导的原始策略中。

🔍 具体案例剖析 (Case Study)

ACTGUIDE-RL 并不要求模型完全照搬动作,而是将动作作为“Plan-style Guidance”提供给模型。以下是训练阶段的一个真实注入案例(基于复杂网络搜索任务):

[原始问题]: 哪个政党上一次获得了西伯克郡议会的全面控制权,且该选举发生在一个新选区引入之前,该选区以一个伯克郡村庄命名,1974年...

[ACTGUIDE-RL Prompt 注入]:
Answer the given question using the given tools. For each step, you must conduct a thought section to reason before calling any tools.
Follow the partial action trajectory hint to take actions, note that the trajectory may not complete and you still need do some extra tool calls to finish the task.
Reference action trajectory hint:
<1>: search ["Kennet & Avon Canal restored to Hungerford Wharf July 1974", ...]
<2>: search ["West Berkshire Council election tied result by-elections...", ...]
<3>: visit [https://en.wikipedia.org/wiki/West_Berkshire_Council_elections]
...

[模型表现]: 模型在看到上述纯 API 调用记录后,会被迫在生成 `` 阶段去“反推”为什么需要这么搜,从而越过初期“不知道该搜什么”的探索死海,最终拿到正确答案 (The Liberal Democrats),获得正向 Reward 信号。

洞察:这种做法极其轻量(类似给迷宫中的玩家提供前几个路口的方向),模型依然需要自己补全推理链条 (CoT) 并执行后续动作,有效避免了退化为单纯的动作复读机。

⚙️ 方法论与技术实现 (Methodology)

ACTGUIDE-RL 的实现由三个优雅的技术模块构成:

1. 动作引导作为屏障修复器 (Action Data Repairs Barriers)

设定目标策略为 $\pi_\theta(\cdot | s)$。当引入前 $k$ 步动作轨迹 $g_k = (\tilde{\alpha}_1, \dots, \tilde{\alpha}_k)$ 作为 Prompt 的条件输入后,策略变为 $\pi_\theta(\cdot | s, g_k)$。经验表明,即使仅给定动作,也能极大提升后续生成的 Pass@K 概率。

2. 最小干预原则 (Minimal Intervention Principle)

强引导虽然能确保获得 Reward,但会导致生成的 Token 序列与无引导策略产生巨大的分布偏移 (Distribution Shift),极大地增加异策略 (Off-policy) 优化的风险 $R_k$。作者将该过程定义为带约束的优化问题,并在实践中使用自适应 Fallback 机制

公式表示为:$k^* := \min \{k \in \{1, \dots, K\} : \max_{i=1}^N Y(\tau_i^{(k)}) \ge \delta\}$

3. 异策略内化 (Off-Policy Internalization)

由于 Inference 阶段没有 Guidance,模型必须将“被引导出的成功经验”内化到 $\pi_\theta(\cdot | x)$ 中。作者采用了混合策略优化 (Mixed-Policy Optimization),将 Unguided 和 Guided Rollouts 放在一个 Batch 内联合优化,目标函数 $J_{mix}(\theta)$ 使用了针对数据源动态调整的 Importance Sampling (IS) Ratio:

$$ r_{i,t}^{mix}(\theta) = \begin{cases} \frac{\pi_\theta(z_{i,t} \mid z_{i,

精妙之处在于:对于 Guided 数据,其分母使用的是带有条件 $g_{adap}$ 的旧策略概率,从而正确校准了梯度,将信用 (Credit) 穿透回无引导的目标参数上。

📊 实验设置与结论分析 (Experiments & Results)

实验配置:基于多种基座模型(Qwen2.5-3B/7B, Qwen3-4B/8B),在四大多步深度搜索基准测试(GAIA, WebWalkerQA, XBench, BrowseComp-ZH)上进行验证。采用 GRPO 算法变体进行 Token-level 的策略优化。

核心结论:

  1. 大幅突破能力上限,拯救探索停滞: 在难度极高的 WebWalkerQA 和 XBench 上,Vanilla RL 几乎失效,而 ACTGUIDE-RL 在 Qwen3-4B 上分别带来了惊人的 +27.79%+19.00% 的绝对胜率提升。
  2. 有效缓解 In-region 能力退化: 当训练数据太难时,Vanilla RL 往往由于奖励信号崩塌而产生负面更新,导致原有的基础能力退化。ACTGUIDE-RL 通过提供有效的 State Visitation,成功抑制了这种退化。
  3. 零冷启动媲美 SFT+RL: 实验表明,ACTGUIDE-RL 的纯 RL 效果,可以与“先做 SFT 对齐,再做 RL”的经典 Pipeline 打平。此外,在 Out-of-domain 任务(TruthfulQA, IFEval)上,ACTGUIDE-RL 保持了基座模型的强泛化性,避免了 SFT 中经常出现的 Mode-covering 退化。

🌟 关键技术亮点分析 (Technical Highlights)

从资深 LLM 研发者的视角来看,这篇工作具备极高的工业界落地价值和启发性:

PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning

PiCA:面向搜索 Agent 强化学习的基于 Pivot 的信用分配

作者:Dongyi Liu, Yifan Niu, Qinwen Wang, Han Xiao, Jia Li

机构:香港科技大学(广州) / 香港科技大学

📄 查看 ArXiv 原文

📍 研究背景与痛点

近年来,基于大型语言模型(LLM)的搜索代理(Search Agents)通过强化学习(RL)在多跳问答(Multi-hop QA)等知识密集型任务中展现出强大的潜力。相比于传统的单次 RAG(检索增强生成),Search Agents 能够自主地进行查询生成、检索、反思和多步推理。然而,在长视距(Long-horizon)推理任务中,**信用分配(Credit Assignment)**成为了限制其性能的核心瓶颈,即模型很难判断中间的哪些推理步骤对最终的正确答案做出了贡献。现有 RL 方法主要面临三大挑战:

🚀 核心贡献

为了解决上述痛点,本文提出了 PiCA (Pivot-Based Credit Assignment),一种基于“信息支点”的新型信用分配框架,其核心在于将整个搜索轨迹重构为一个累积搜索进度的序列过程:

🔍 具体案例剖析 (Case Study)

为了直观理解 PiCA 是如何通过细粒度奖励引导模型的,我们来看一个成功的推理轨迹案例(提取自原论文附录 Figure 7):

Question: The mother of Megan Phelps-Roper is best known as the former spokesperson of a church located in what city?
Ground Truth: Topeka

[Turn 1]
Think: 我需要先找出 Megan Phelps-Roper 的母亲是谁...
Tool Call: {"queries": ["Who is Megan Phelps-Roper mother ..."]}
Tool Response: ...Her mother is Shirley Phelps-Roper...
PiCA Reward: 0.81 (成功获取第一跳关键实体,给出高额正反馈)

[Turn 2]
Think: 母亲是 Shirley。现在我需要找出 Shirley 曾作为发言人的教堂叫什么名字。
Tool Call: {"queries": ["Which church is Shirley Phelps-Roper ..."]}
Tool Response: ...former spokesperson of the Westboro Baptist Church...
PiCA Reward: 0.86 (成功获取第二跳关键实体)

[Turn 3]
Think: 教堂是 Westboro Baptist Church。现在我需要查询它位于哪个城市。
Tool Call: {"queries": ["Westboro Baptist Church location..."]}
Tool Response: ...the west side of Topeka...
PiCA Reward: 0.92 (获取到最终锁定答案的关键证据,给出最高奖励)

[Final Outcome] F1 Score: 1.0

解读:在这个过程中,由于 PiCA 的 Reward Model 能够评估每一步相对于历史状态带来的“成功概率增量”(Success Gain),因此它能够在每一个有效的信息拉取时刻给出非常高的即时奖励。这极大缓解了传统 RL 只能在最后一步给出 $+1$ 导致的中间过程盲目摸索问题。反之,如果在某一步模型出现逻辑偏离或幻觉,PiCA 会给予极低甚至负的奖励(如附录 Figure 6 所示)。

⚙️ 方法论与技术实现

PiCA 的技术实现分为两大核心阶段:PiCA 奖励模型的训练(Stage 1)基于 PPO 的策略优化(Stage 2)

1. 理论基础:Relative Success Gain 与 PBRS

PiCA 将多跳搜索过程建模为“到达正确答案概率的演化”。设在时间步 $t$,根据状态 $s_t$(历史文本)和动作 $a_t$ 获得最终正确结果 $l=1$ 的成功概率为 $f(t)$:

$f(t) = P(l = 1 \mid s_t, a_t)$

为了衡量当前动作带来的信息价值,定义相对成功增益(Relative Success Gain) $g(t)$:

$g(t) = \frac{f(t) - f(t - 1)}{f(t - 1)}$

当 $g(t) > 0$ 时,说明该动作是推进性的(例如找到了有效实体);当 $g(t) < 0$ 时,说明引入了错误或混淆。利用基于势函数的奖励塑造(PBRS),将状态势函数定义为对数成功概率 $\Phi(s_t) \equiv \log f(t)$,推导出每一步的过程奖励为:

$r_t = \Phi(s_t) - \Phi(s_{t-1}) = \log(1 + g(t))$

2. PiCA Reward Model 的混合训练(Stage 1)

为了拟合上述的 $g(t)$,作者使用全参数微调训练了一个独立的 Reward Model。因为完全标注每一步的正确与否非常困难,本文提出混合两部分 Loss:

3. 基于 PPO 的策略优化(Stage 2)

在使用 PPO 优化 Agent 时,总优势函数融合了最终结果奖励 $r_{out}$(格式正确性+F1分数)以及前面算出的中间步奖励 $r_{step, t}$。为了避免模型通过无限次重复废话搜索来骗取奖励(Reward Hacking),作者还巧妙地加入了一个随步数指数增长的 Step Penalty

$r_{step,t} = \begin{cases} PiCA(s_t, a_t), & \text{if } t < 3 \\ PiCA(s_t, a_t) - \lambda \cdot \alpha^{(t-3)}, & \text{if } t \ge 3 \end{cases}$

这种设计既鼓励了探索(前几步无惩罚),又抑制了低效的长链条冗余搜索。

📊 实验设置与结论分析

实验设置:基座模型选用 Qwen-2.5-3B-Instruct 和 7B-Instruct,检索器使用 E5 encoder 匹配维基百科。Reward Model 的训练数据构建自 StepSearch 衍生的 60K 条带 Pivot 标注的轨迹。评估涵盖了 NQ, HotpotQA(域内测试),以及 TriviaQA, PopQA, MuSiQue, Bamboogle 等 5 个域外(OOD)数据集。

核心结论:

💡 关键技术亮点分析 (Takeaways)

作为资深从业者,我们可以从这篇论文中吸取以下几个高价值的方法论:

  1. 对马尔可夫性的深刻理解(PBRS 的复兴): RL 在大模型推理(如 o1-like 的强化学习范式)中一直被 Credit Assignment 困扰。本文跳出了简单的局部的 LLM-as-a-judge 打分,引入 PBRS 势函数,这是一个非常优雅的数学工具——它证明了只要我们将奖励定义为“某种状态潜能(即成功率)的差值”,最优策略集是不变的。这种设计既保证了长程依赖的传递,又提供了密集信号,非常值得在 Agent RL 领域推广。
  2. Pivot 思想降低标注成本: 不强求大模型或人类对每一步微小的 Think/Search 给绝对评价,而是去寻找“抓到了核心子实体/子答案”的那一瞬间(Pivot steps)。给这种确定性较高的“高光时刻”强烈的正反馈,剩余的交由 Outcome 隐式监督收敛。这为自动化高质量 Reward Model 数据飞轮构建提供了一条可行之路。
  3. 抵御 Reward Hacking 的工程细节: RLHF 和 PPO 极其容易被长文本、多 Turn 机制玩坏(比如发现在不搜也能骗奖励或者多搜一次能骗更多过程奖励时)。本文设置了阈值动态惩罚($t \ge 3$ 才开始指数惩罚),这是一种极其符合 Search Agent 业务直觉的正则化手段,有效避免了退化解(Collapse)。

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

OpenSeeker-v2:用高信息量与高难度轨迹突破搜索智能体的极限

Authors: Yuwen Du, Rui Ye, Shuo Tang, Keduan Huang, et al.

Institution: Shanghai Jiao Tong University (SJTU)

📄 查看 ArXiv 原文 | 💻 GitHub Code

1. 研究背景与痛点 (Background & Motivation)

在信息爆炸的时代,深度搜索(Deep Search)已成为前沿大语言模型(LLM)Agent 不可或缺的核心能力(如 OpenAI Deep Research)。然而,作为资深从业者我们深知,训练具备强大长程搜索能力的 Agent 长期以来是少数科技巨头的“闭门游戏”。

当前的工业界主流 Recipe 痛点:

OpenSeeker 团队提出了一个灵魂拷问:如果仅使用最基础的 SFT,但喂给模型极高质量、高难度的搜索轨迹数据,我们能否打破这种对复杂多阶段训练的依赖,并媲美工业级模型的表现?

2. 核心贡献 (Core Contributions)

本文推出了 OpenSeeker-v2,这是首个完全由学术团队仅使用 SFT(监督微调) 训练出的 SOTA 级别 ReAct 搜索 Agent,彻底证明了“数据质量胜于管线复杂度”。

3. 训练数据合成策略与案例剖析 (Case Study: High-Difficulty Trajectory)

为了直观理解什么是“高难度”与“高信息量”轨迹,我们对比一下常规 SFT 数据与 OpenSeeker-v2 合成数据的差异。OpenSeeker-v2 的轨迹平均交互步数达到了惊人的 64.67 步(远超 v1 的 46.97 步和 RedSearcher 的 36.01 步)。

❌ 常规/低难度轨迹 (将被 Strict Low-step Filtering 丢弃):

Query: "2024年诺贝尔物理学奖得主是谁?"
Agent Trajectory:
- [Tool] WebSearch("2024 Nobel Prize Physics")
- [Observation] John Hopfield and Geoffrey Hinton...
- [Action] Output("得主是 John Hopfield 和 Geoffrey Hinton")
说明: 步数极少 ($T < T_{\min}$),仅需单跳浅层检索即可解决,无法激发模型的长程推理能力。

✅ OpenSeeker-v2 高难度合成轨迹范例 (多跳图谱拓展 + 复杂 ReAct):

Query: "结合 2024 年诺贝尔物理学奖得主的早期代表性网络结构,分析该结构如何影响了 2010 年代主导 NLP 领域的某一特定序列模型的演进?"
Agent Trajectory (节选):
- [Reasoning 1] 我需要先确认2024年物理学奖得主是谁。
- [Tool 1] WebSearch("2024 Nobel Prize Physics") -> [Obs 1] Hopfield, Hinton
- [Reasoning 2] 找到得主后,我需要分别搜索 Hopfield 网络和 Hinton 早期贡献的网络结构。
- [Tool 2] WikipediaSearch("Hopfield Network") -> [Obs 2] (提取关键概念:能量函数、全连接反馈)
- [Tool 3] WikipediaSearch("Geoffrey Hinton early neural networks") -> [Obs 3] Boltzmann Machine...
- [Reasoning N] 题目要求关联到 2010 年代 NLP 领域的序列模型(如 RNN/LSTM)。我需要使用学术搜索工具查找玻尔兹曼机或反馈网络对 RNN 发展的影响...
- [Tool N] ScholarSearch(...) -> [Obs N] ...
- [Final Reasoning] 综合以上超过 50 步的调用与信息聚合...
- [Action] Output(...)
说明: 由于数据合成阶段刻意扩大了知识图谱的子图规模 (Scaling graph size),强迫模型必须通过多重 Tool-call 和长时间的 Reasoning 才能收集齐全部线索。这就是 OpenSeeker-v2 的核心魔法。

4. 方法论与数据工程实现 (Methodology)

OpenSeeker-v2 的核心假设是:只要给予足够困难和信息量丰富的训练数据,直接 SFT 就足以诱发出强大的长程搜索和推理能力。 为此,他们对数据收集 Pipeline 进行了三项极为有效的极简改进:

  1. 扩展图谱规模以实现更丰富的探索 (Scaling graph size for richer exploration):
    在任务合成阶段,给定种子节点 $v_{\text{seed}} \in \mathcal{V}$,不同于原版构建较小的子图,v2 将扩展预算从 $k$ 增加到 $K$ ($K > k$),获得更大的证据子图:

    $\mathcal{G}^{(K)}_{\text{sub}} = \text{Expand}(\mathcal{G}, v_{\text{seed}}, K)$

    随后基于这个更宏大的上下文生成合成 Query:

    $q \sim P_{\text{gen}}\left(q \mid \mathcal{G}^{(K)}_{\text{sub}}\right)$

    这保证了生成的问题在结构上强制要求模型跨多个节点进行证据聚合,而不是依赖单一信源。
  2. 扩充工具集以提升功能广度 (Expanding the tool set for broader functionality):
    增加 Agent 可用的工具集合 $\mathcal{A}$。Agent 需要生成多步 ReAct 风格的轨迹:

    $\tau = (r_1, a_1, o_1, r_2, a_2, o_2, \dots, r_T, a_T, o_T, r_{T+1}, y)$

    其中 $r_t$ 是推理痕迹(Reasoning trace),$a_t \in \mathcal{A}$ 是工具调用,$o_t$ 是观察结果。工具集的扩大促使 Agent 学习更灵活的补救策略和功能组合。
  3. 严格的低步数过滤 (Strict low-step filtering):
    为了剔除过于简单的实例(如直接查找或浅层关键词匹配),应用了基于最小工具调用阈值 $T_{\min}$ 的硬性过滤规则:

    $\mathcal{D}_{v2} = \{(q, \tau) \in \mathcal{D}_{\text{raw}} \mid T(\tau) \ge T_{\min}\}$

    凡是工具调用步数 $T(\tau) < T_{\min}$ 的轨迹全部被丢弃。这从根本上为 SFT 数据确立了“难度下限”。

5. 实验设置与结论 (Experiments & Results)

6. 总结与启发 (Key Highlights for LLM Practitioners)

作为 LLM 从业者,OpenSeeker-v2 给我们带来了极具冲击力的 Data-centric 启示:

下一步: 作者指出目前 OpenSeeker 尚未达到 Scaling 饱和,未来在高质量数据的数量、多样性上继续扩大规模,有望进一步逼近甚至超越 OpenAI o3 等闭源天花板。

LiteResearcher: 深度研究智能体的可扩展Agentic RL训练框架

Authors: Wanli Li, Bince Qu, Bo Pan, Jianyu Zhang, Zheng Liu, Pan Zhang, Wei Chen, Bo Zhang

Institutions: Zhejiang University, Simplex AI, The Hong Kong Polytechnic University

📄 查看 ArXiv 原文

研究背景与痛点 (Background & Pain Points)

强化学习(RL)近期在闭源推理模型(如 DeepSeek-R1)上取得了巨大成功,证明了在稳定环境和适宜难度的数据下,RL能持续提升模型能力。然而,当将 RL 范式迁移到需要与外部工具交互的 Agentic RL(智能体强化学习),特别是深度研究(Deep Research)任务时,遇到了极为棘手的可扩展性瓶颈:

为了打破这一困局,本文提出了 LiteResearcher:一个完全在本地构建“轻量级虚拟世界”的 Agentic RL 训练框架,用极小规模的模型(4B)打败了现有的巨头商业模型及开源大模型。

核心贡献 (Core Contributions)

具体案例剖析 (Case Study: Synthetic Data & Atomic Capabilities)

为了让模型掌握真实世界的复杂调研能力,作者没有去死磕纯逻辑推理,而是将 Deep Research 拆解为 5 种核心的原子搜索能力(Atomic Search Capabilities)。并在生成训练问答对(QA)后,刻意掩码(Mask)掉原始的信息源网页,倒逼 Agent 学会在海量语料中自主摸索出黄金路径(Golden Path)。

方法论与技术实现 (Methodology)

LiteResearcher 架构基于三个核心支柱(如上图所示):

1. 训练数据与语料库协同构建 (Co-construct Pipeline)

从高阶种子文章(如维基百科、BBC新闻)出发,使用 LLM 提取独立且客观可验证的 QA 对。为了防止 Agent 利用捷径,系统会删除 QA 的原始出处网页(Source Masking)。同时,利用这些 QA 作为 query 到真实互联网调用搜索 API 抓取相关网页(共消耗约 22 万次 API 调用,获得 32M 网页),形成一个极具多样性且隔离的 Enriched Corpus

2. 稳定的本地工具环境 (Stable Local Tool Environment)

摒弃了传统 RAG 的 Chunk(切块)级索引,采用 Page-level Indexing(页面级索引),极大地控制了索引体积以适应高并发。构建了两个零边际成本的本地服务:

3. 难度感知课程强化学习 (Curriculum GRPO)

Agentic RL 极易陷入“训练饱和(Training Saturation)”。如果数据太简单,梯度为零;太难则奖励为零。作者引入了难度过滤,每轮 RL 前测试 8 个 rollout 的正确次数 $c$,仅保留 $1 \le c \le 7$ 的有效 query。算法上采用了无 KL 散度和熵惩罚的 严格 On-Policy GRPO

$$ \mathcal{J}_{GRPO}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^K \sim \pi_{\theta_{old}}} \left[ \frac{1}{K} \sum_{i=1}^K \min \left( r_i(\theta)A_i, \text{clip} \left(r_i(\theta), 1 - \epsilon_{low}, 1 + \epsilon_{high}\right)A_i \right) \right] $$

其中 $r_i(\theta)$ 为新旧策略概率比,$A_i$ 为经过组内均值和方差归一化后的相对奖励。采用 2 阶段课程学习(Stage 1 使用局部数据,Stage 2 提高温度并加入多跳/科学域数据),成功突破性能平台期。

实验设置与结论分析 (Experiments & Results)

实验配置: 模型基于 Qwen3-4B-Thinking-2507 进行 SFT(使用 Tongyi DeepResearch 的 68k 条高质量轨迹),随后在 VERL 框架上进行本地 RL。

关键技术亮点与从业者启发 (Insights for LLM Practitioners)