作者:Jiabei Liu*, Wenyu Mao*, Junfei Tan, Chunxu Shen, Lingling Yi, Jiancan Wu, Xiang Wang
机构:中国科学技术大学 (USTC), 腾讯微信技术架构部
在处理知识密集型任务时,大型语言模型(LLMs)越来越依赖基于Agent的深度搜索(Deep Search Agents / Agentic RAG)来获取外部知识。主流的 ReAct 范式通常采用“思考-单次搜索-阅读”的迭代循环(如 Search-R1 或 Search-o1)。然而,针对复杂推理,这种范式暴露出两个致命的痛点:
为打破单查询带来的性能瓶颈,本文提出了一种名为 MultiSearch 的端到端强化学习框架,主要贡献如下:
<merge> 算子,让模型显式地对召回内容进行去重与提炼。以多跳复杂实体推理(摘自论文 Bamboogle 验证集)为例,我们可以直观感受到 MultiSearch 的优势。
[User Question]: Are Portland International Airport and Gerald R. Ford International Airport both located in Oregon? (波特兰国际机场和杰拉尔德·R·福特国际机场都在俄勒冈州吗?)
[Ground Truth]: No.
🔴 Search-R1 (单查询基线):
<Think> 我需要确认这两个机场是否都在俄勒冈州。
<Search> Are Portland International Airport and Gerald R. Ford International Airport both located in Oregon? (极其幼稚的单一查询)
<Info> 检索到的 Doc 1 提到 "Portland International Airport 是俄勒冈州最大的机场..." (只召回了波特兰的信息,福特机场信息缺失或排名靠后)
<Think> 根据提供的信息,我推断这两个机场都在俄勒冈州。
Output: Yes. (推理短路,产生幻觉)
🟢 MultiSearch (本文方法):
<Think> 首先,我们需要确定这两个机场的位置,然后再检查它们是否都在俄勒冈州。
<Search> Query 1: where is Portland International Airport; Query 2: where is airport Gerald R. Ford International Airport; Query 3: are Portland International Airport located in Oregon (并行问题分解与多视角召回)
<Info> Doc 1 显示波特兰在俄勒冈州。Doc 4 显示福特机场在密歇根州大急流城东南。
<Merge> 从检索的文档中可以看出,波特兰机场在俄勒冈州,福特机场在密歇根州。这两个机场不在同一个州。(显式提炼高价值信噪比片段)
Output: No. (正确)
MultiSearch 将 Agent 的执行轨迹定义为 search → info → merge → think 的循环,直到信息充分输出 <answer>。其核心 RL 构造如下:
为了让模型掌握这种范式,系统设计了三种维度的 Reward,并且使用强条件掩码(只有最终答案对,才给予中间过程奖励):
<search> block 中生成足够多的查询语句(设定阈值为平均每步大于2个)。<merge> 模块中真正保留了核心证据。通过判断所有的合并块 $\{M_1, M_2, ...\}$ 的并集是否覆盖了 Ground-truth。DeepSeek-Math 提出的 GRPO 是将多个 Reward 直接求和并进行单一归一化:$A = \frac{r_{total} - \mu(r_{total})}{\sigma(r_{total})}$。但这在 MultiSearch 中会引发灾难:$r_{query}$(多生成几个搜索词)非常容易获得,而 $r_{ans}$ 极难获得。这会导致 Agent 直接通过疯狂输出无意义查询来刷高总体 Reward(Reward Hacking)。
本文采用 GDPO,将不同维度的 Reward 分别在组(Group Size=5)内进行归一化,然后再加权求和,计算 Advantage $A_{i,j,t}$:
$$ A^k_{i,j,t} = \frac{r^k_{i,j,t} - \text{mean}(r^k_t)}{\text{std}(r^k_t)} $$ $$ A_{i,j,t} = \sum_{k \in \{ans, query, merge\}} w_k A^k_{i,j,t} $$
这种解耦设计保证了每个子任务(生成答案、多发查询、有效提炼)都能提供精准、非干涉的策略梯度。
实验以 Qwen2.5-3B/7B (Base/Instruct) 为基座模型,在 7 个 QA Benchmark(包括 HotpotQA, 2Wiki, Musique 等多跳复杂数据集)上进行。外部知识源为 2018 Wikipedia dump,检索器为 E5-base-v2。
<merge> 过滤了无效信息,输入到 LLM 推理层的最终上下文 SNR 从不足 0.5 飙升至接近 0.9(见原文图3)。这直接使得 LLM 能在更少的 Search Cycle 下得出正确结论,降低了推理成本。<merge>,一方面为推理上下文“净水去污”,另一方面也为 RL 奖励函数提供了一个极佳的“挂载点”(可以在这里直接计算实体命中率),值得所有做过程监督(PRM)和反思增强的从业者借鉴。作者:Yuxiang Ji, Zengbin Wang, Yong Wang, 等
机构:厦门大学、阿里巴巴高德地图 (AMAP)、南方科技大学
在当前的大模型智能体 (Agentic LLMs) 训练范式中,强化学习 (RL, 如 PPO、GRPO) 已成为激发模型复杂规划与工具调用能力的核心。然而,纯在线 RL (Zero RL) 面临着一个致命的“冷启动”陷阱:
本文提出了一种全新的智能体强化学习框架 ACTGUIDE-RL,其核心思想是:将纯动作序列作为参考轨迹 (Reference Plan) 注入 Prompt,引导模型跨越探索壁垒,并在最小干预下通过混合策略优化将探索收益内化到无引导的原始策略中。
ACTGUIDE-RL 并不要求模型完全照搬动作,而是将动作作为“Plan-style Guidance”提供给模型。以下是训练阶段的一个真实注入案例(基于复杂网络搜索任务):
洞察:这种做法极其轻量(类似给迷宫中的玩家提供前几个路口的方向),模型依然需要自己补全推理链条 (CoT) 并执行后续动作,有效避免了退化为单纯的动作复读机。
ACTGUIDE-RL 的实现由三个优雅的技术模块构成:
设定目标策略为 $\pi_\theta(\cdot | s)$。当引入前 $k$ 步动作轨迹 $g_k = (\tilde{\alpha}_1, \dots, \tilde{\alpha}_k)$ 作为 Prompt 的条件输入后,策略变为 $\pi_\theta(\cdot | s, g_k)$。经验表明,即使仅给定动作,也能极大提升后续生成的 Pass@K 概率。
强引导虽然能确保获得 Reward,但会导致生成的 Token 序列与无引导策略产生巨大的分布偏移 (Distribution Shift),极大地增加异策略 (Off-policy) 优化的风险 $R_k$。作者将该过程定义为带约束的优化问题,并在实践中使用自适应 Fallback 机制:
公式表示为:$k^* := \min \{k \in \{1, \dots, K\} : \max_{i=1}^N Y(\tau_i^{(k)}) \ge \delta\}$
由于 Inference 阶段没有 Guidance,模型必须将“被引导出的成功经验”内化到 $\pi_\theta(\cdot | x)$ 中。作者采用了混合策略优化 (Mixed-Policy Optimization),将 Unguided 和 Guided Rollouts 放在一个 Batch 内联合优化,目标函数 $J_{mix}(\theta)$ 使用了针对数据源动态调整的 Importance Sampling (IS) Ratio:
$$ r_{i,t}^{mix}(\theta) = \begin{cases} \frac{\pi_\theta(z_{i,t} \mid z_{i, 精妙之处在于:对于 Guided 数据,其分母使用的是带有条件 $g_{adap}$ 的旧策略概率,从而正确校准了梯度,将信用 (Credit) 穿透回无引导的目标参数上。
实验配置:基于多种基座模型(Qwen2.5-3B/7B, Qwen3-4B/8B),在四大多步深度搜索基准测试(GAIA, WebWalkerQA, XBench, BrowseComp-ZH)上进行验证。采用 GRPO 算法变体进行 Token-level 的策略优化。
核心结论:
从资深 LLM 研发者的视角来看,这篇工作具备极高的工业界落地价值和启发性:
作者:Dongyi Liu, Yifan Niu, Qinwen Wang, Han Xiao, Jia Li
机构:香港科技大学(广州) / 香港科技大学
近年来,基于大型语言模型(LLM)的搜索代理(Search Agents)通过强化学习(RL)在多跳问答(Multi-hop QA)等知识密集型任务中展现出强大的潜力。相比于传统的单次 RAG(检索增强生成),Search Agents 能够自主地进行查询生成、检索、反思和多步推理。然而,在长视距(Long-horizon)推理任务中,**信用分配(Credit Assignment)**成为了限制其性能的核心瓶颈,即模型很难判断中间的哪些推理步骤对最终的正确答案做出了贡献。现有 RL 方法主要面临三大挑战:
为了解决上述痛点,本文提出了 PiCA (Pivot-Based Credit Assignment),一种基于“信息支点”的新型信用分配框架,其核心在于将整个搜索轨迹重构为一个累积搜索进度的序列过程:
为了直观理解 PiCA 是如何通过细粒度奖励引导模型的,我们来看一个成功的推理轨迹案例(提取自原论文附录 Figure 7):
解读:在这个过程中,由于 PiCA 的 Reward Model 能够评估每一步相对于历史状态带来的“成功概率增量”(Success Gain),因此它能够在每一个有效的信息拉取时刻给出非常高的即时奖励。这极大缓解了传统 RL 只能在最后一步给出 $+1$ 导致的中间过程盲目摸索问题。反之,如果在某一步模型出现逻辑偏离或幻觉,PiCA 会给予极低甚至负的奖励(如附录 Figure 6 所示)。
PiCA 的技术实现分为两大核心阶段:PiCA 奖励模型的训练(Stage 1) 和 基于 PPO 的策略优化(Stage 2)。
PiCA 将多跳搜索过程建模为“到达正确答案概率的演化”。设在时间步 $t$,根据状态 $s_t$(历史文本)和动作 $a_t$ 获得最终正确结果 $l=1$ 的成功概率为 $f(t)$:
$f(t) = P(l = 1 \mid s_t, a_t)$
为了衡量当前动作带来的信息价值,定义相对成功增益(Relative Success Gain) $g(t)$:
$g(t) = \frac{f(t) - f(t - 1)}{f(t - 1)}$
当 $g(t) > 0$ 时,说明该动作是推进性的(例如找到了有效实体);当 $g(t) < 0$ 时,说明引入了错误或混淆。利用基于势函数的奖励塑造(PBRS),将状态势函数定义为对数成功概率 $\Phi(s_t) \equiv \log f(t)$,推导出每一步的过程奖励为:
$r_t = \Phi(s_t) - \Phi(s_{t-1}) = \log(1 + g(t))$
为了拟合上述的 $g(t)$,作者使用全参数微调训练了一个独立的 Reward Model。因为完全标注每一步的正确与否非常困难,本文提出混合两部分 Loss:
在使用 PPO 优化 Agent 时,总优势函数融合了最终结果奖励 $r_{out}$(格式正确性+F1分数)以及前面算出的中间步奖励 $r_{step, t}$。为了避免模型通过无限次重复废话搜索来骗取奖励(Reward Hacking),作者还巧妙地加入了一个随步数指数增长的 Step Penalty:
$r_{step,t} = \begin{cases} PiCA(s_t, a_t), & \text{if } t < 3 \\ PiCA(s_t, a_t) - \lambda \cdot \alpha^{(t-3)}, & \text{if } t \ge 3 \end{cases}$
这种设计既鼓励了探索(前几步无惩罚),又抑制了低效的长链条冗余搜索。
实验设置:基座模型选用 Qwen-2.5-3B-Instruct 和 7B-Instruct,检索器使用 E5 encoder 匹配维基百科。Reward Model 的训练数据构建自 StepSearch 衍生的 60K 条带 Pivot 标注的轨迹。评估涵盖了 NQ, HotpotQA(域内测试),以及 TriviaQA, PopQA, MuSiQue, Bamboogle 等 5 个域外(OOD)数据集。
核心结论:
作为资深从业者,我们可以从这篇论文中吸取以下几个高价值的方法论:
Authors: Yuwen Du, Rui Ye, Shuo Tang, Keduan Huang, et al.
Institution: Shanghai Jiao Tong University (SJTU)
在信息爆炸的时代,深度搜索(Deep Search)已成为前沿大语言模型(LLM)Agent 不可或缺的核心能力(如 OpenAI Deep Research)。然而,作为资深从业者我们深知,训练具备强大长程搜索能力的 Agent 长期以来是少数科技巨头的“闭门游戏”。
当前的工业界主流 Recipe 痛点:
CPT (Continual Pre-Training) + SFT (Supervised Fine-Tuning) + RL (Reinforcement Learning) 的超重度 Pipeline。OpenSeeker 团队提出了一个灵魂拷问:如果仅使用最基础的 SFT,但喂给模型极高质量、高难度的搜索轨迹数据,我们能否打破这种对复杂多阶段训练的依赖,并媲美工业级模型的表现?
本文推出了 OpenSeeker-v2,这是首个完全由学术团队仅使用 SFT(监督微调) 训练出的 SOTA 级别 ReAct 搜索 Agent,彻底证明了“数据质量胜于管线复杂度”。
为了直观理解什么是“高难度”与“高信息量”轨迹,我们对比一下常规 SFT 数据与 OpenSeeker-v2 合成数据的差异。OpenSeeker-v2 的轨迹平均交互步数达到了惊人的 64.67 步(远超 v1 的 46.97 步和 RedSearcher 的 36.01 步)。
❌ 常规/低难度轨迹 (将被 Strict Low-step Filtering 丢弃):
Query: "2024年诺贝尔物理学奖得主是谁?"
Agent Trajectory:
- [Tool] WebSearch("2024 Nobel Prize Physics")
- [Observation] John Hopfield and Geoffrey Hinton...
- [Action] Output("得主是 John Hopfield 和 Geoffrey Hinton")
说明: 步数极少 ($T < T_{\min}$),仅需单跳浅层检索即可解决,无法激发模型的长程推理能力。
✅ OpenSeeker-v2 高难度合成轨迹范例 (多跳图谱拓展 + 复杂 ReAct):
Query: "结合 2024 年诺贝尔物理学奖得主的早期代表性网络结构,分析该结构如何影响了 2010 年代主导 NLP 领域的某一特定序列模型的演进?"
Agent Trajectory (节选):
- [Reasoning 1] 我需要先确认2024年物理学奖得主是谁。
- [Tool 1] WebSearch("2024 Nobel Prize Physics") -> [Obs 1] Hopfield, Hinton
- [Reasoning 2] 找到得主后,我需要分别搜索 Hopfield 网络和 Hinton 早期贡献的网络结构。
- [Tool 2] WikipediaSearch("Hopfield Network") -> [Obs 2] (提取关键概念:能量函数、全连接反馈)
- [Tool 3] WikipediaSearch("Geoffrey Hinton early neural networks") -> [Obs 3] Boltzmann Machine...
- [Reasoning N] 题目要求关联到 2010 年代 NLP 领域的序列模型(如 RNN/LSTM)。我需要使用学术搜索工具查找玻尔兹曼机或反馈网络对 RNN 发展的影响...
- [Tool N] ScholarSearch(...) -> [Obs N] ...
- [Final Reasoning] 综合以上超过 50 步的调用与信息聚合...
- [Action] Output(...)
说明: 由于数据合成阶段刻意扩大了知识图谱的子图规模 (Scaling graph size),强迫模型必须通过多重 Tool-call 和长时间的 Reasoning 才能收集齐全部线索。这就是 OpenSeeker-v2 的核心魔法。
OpenSeeker-v2 的核心假设是:只要给予足够困难和信息量丰富的训练数据,直接 SFT 就足以诱发出强大的长程搜索和推理能力。 为此,他们对数据收集 Pipeline 进行了三项极为有效的极简改进:
$\mathcal{G}^{(K)}_{\text{sub}} = \text{Expand}(\mathcal{G}, v_{\text{seed}}, K)$
随后基于这个更宏大的上下文生成合成 Query:$q \sim P_{\text{gen}}\left(q \mid \mathcal{G}^{(K)}_{\text{sub}}\right)$
这保证了生成的问题在结构上强制要求模型跨多个节点进行证据聚合,而不是依赖单一信源。$\tau = (r_1, a_1, o_1, r_2, a_2, o_2, \dots, r_T, a_T, o_T, r_{T+1}, y)$
其中 $r_t$ 是推理痕迹(Reasoning trace),$a_t \in \mathcal{A}$ 是工具调用,$o_t$ 是观察结果。工具集的扩大促使 Agent 学习更灵活的补救策略和功能组合。$\mathcal{D}_{v2} = \{(q, \tau) \in \mathcal{D}_{\text{raw}} \mid T(\tau) \ge T_{\min}\}$
凡是工具调用步数 $T(\tau) < T_{\min}$ 的轨迹全部被丢弃。这从根本上为 SFT 数据确立了“难度下限”。Qwen3-30B-A3B-Thinking-2507(总参数量30B,推理激活参数3B)。上下文窗口开到 256k,单轨迹最大允许 200 次 Tool calls。CPT + SFT + RL 复杂流程训练的代表性开源标杆 Tongyi DeepResearch (阿里),OpenSeeker-v2 仅依靠 SFT:
作为 LLM 从业者,OpenSeeker-v2 给我们带来了极具冲击力的 Data-centric 启示:
下一步: 作者指出目前 OpenSeeker 尚未达到 Scaling 饱和,未来在高质量数据的数量、多样性上继续扩大规模,有望进一步逼近甚至超越 OpenAI o3 等闭源天花板。
Authors: Wanli Li, Bince Qu, Bo Pan, Jianyu Zhang, Zheng Liu, Pan Zhang, Wei Chen, Bo Zhang
Institutions: Zhejiang University, Simplex AI, The Hong Kong Polytechnic University
强化学习(RL)近期在闭源推理模型(如 DeepSeek-R1)上取得了巨大成功,证明了在稳定环境和适宜难度的数据下,RL能持续提升模型能力。然而,当将 RL 范式迁移到需要与外部工具交互的 Agentic RL(智能体强化学习),特别是深度研究(Deep Research)任务时,遇到了极为棘手的可扩展性瓶颈:
为了打破这一困局,本文提出了 LiteResearcher:一个完全在本地构建“轻量级虚拟世界”的 Agentic RL 训练框架,用极小规模的模型(4B)打败了现有的巨头商业模型及开源大模型。
为了让模型掌握真实世界的复杂调研能力,作者没有去死磕纯逻辑推理,而是将 Deep Research 拆解为 5 种核心的原子搜索能力(Atomic Search Capabilities)。并在生成训练问答对(QA)后,刻意掩码(Mask)掉原始的信息源网页,倒逼 Agent 学会在海量语料中自主摸索出黄金路径(Golden Path)。
LiteResearcher 架构基于三个核心支柱(如上图所示):
从高阶种子文章(如维基百科、BBC新闻)出发,使用 LLM 提取独立且客观可验证的 QA 对。为了防止 Agent 利用捷径,系统会删除 QA 的原始出处网页(Source Masking)。同时,利用这些 QA 作为 query 到真实互联网调用搜索 API 抓取相关网页(共消耗约 22 万次 API 调用,获得 32M 网页),形成一个极具多样性且隔离的 Enriched Corpus。
摒弃了传统 RAG 的 Chunk(切块)级索引,采用 Page-level Indexing(页面级索引),极大地控制了索引体积以适应高并发。构建了两个零边际成本的本地服务:
Agentic RL 极易陷入“训练饱和(Training Saturation)”。如果数据太简单,梯度为零;太难则奖励为零。作者引入了难度过滤,每轮 RL 前测试 8 个 rollout 的正确次数 $c$,仅保留 $1 \le c \le 7$ 的有效 query。算法上采用了无 KL 散度和熵惩罚的 严格 On-Policy GRPO:
$$ \mathcal{J}_{GRPO}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^K \sim \pi_{\theta_{old}}} \left[ \frac{1}{K} \sum_{i=1}^K \min \left( r_i(\theta)A_i, \text{clip} \left(r_i(\theta), 1 - \epsilon_{low}, 1 + \epsilon_{high}\right)A_i \right) \right] $$
其中 $r_i(\theta)$ 为新旧策略概率比,$A_i$ 为经过组内均值和方差归一化后的相对奖励。采用 2 阶段课程学习(Stage 1 使用局部数据,Stage 2 提高温度并加入多跳/科学域数据),成功突破性能平台期。
实验配置: 模型基于 Qwen3-4B-Thinking-2507 进行 SFT(使用 Tongyi DeepResearch 的 68k 条高质量轨迹),随后在 VERL 框架上进行本地 RL。