大模型 Agent 与强化学习 (RL) 深度学术解读报告

Scaling Retrieval-Augmented Reasoning with Parallel Search and Explicit Merging

通过并行搜索和显式合并扩展检索增强推理

👨‍🔬 作者:Jiabei Liu, Wenyu Mao, Junfei Tan, Chunxu Shen, Lingling Yi, Jiancan Wu, Xiang Wang

🏢 机构:中国科学技术大学 (USTC),腾讯微信技术架构部

🔗 链接:📄 查看 ArXiv 原文

🔍 研究背景与痛点

大语言模型 (LLMs) 在知识密集型任务中通常依赖于静态内部知识。虽然检索增强生成 (RAG) 缓解了这一问题,但在处理复杂问题时,单次检索往往不够,这催生了深度搜索智能体 (Deep Search Agents) 的发展(如基于 ReAct 范式的多步检索推理)。然而,现有的深度搜索框架在具体实践中暴露出了两个核心瓶颈:

💡 核心贡献

为了打破传统串行单查询的限制,本文提出了一种基于强化学习的创新框架——MultiSearch。其核心贡献如下:

🔎 具体案例剖析 (Case Study)

以测试集中一个经典的复杂多跳推理问题为例,观察 MultiSearch 与 Baseline (Search-R1) 行为的区别:

❓ 问题:波特兰国际机场 (Portland International Airport) 和杰拉尔德·R·福特国际机场 (Gerald R. Ford International Airport) 是否都位于俄勒冈州 (Oregon)?(Ground Truth: No.)

❌ Search-R1 (Baseline):

<think> 需要确定这两个机场是不是都在 Oregon。

<search> [单查询]: Are Portland International Airport and Gerald R. Ford International Airport both located in Oregon?

<info> 召回的文档仅命中了 "Portland International Airport is the largest airport in Oregon..." 且未提及福特机场的真实位置。

<think> 根据提供的信息,我得出结论两个机场都在 Oregon。(模型被片面信息误导产生幻觉)

<Answer> Yes. (错误)

✅ MultiSearch (Ours):

<think> 首先,我们需要分别查出这两个机场的位置,然后再检查它们是否都在 Oregon。

<search> [并行多查询]: "where is Portland International Airport", "where is airport Gerald R. Ford International Airport", "are Portland... located in Oregon"

<info> 分别召回了描述 Portland 在 Oregon,以及 Ford 机场在密歇根州大急流城 (Michigan) 的确切文档。

<merge> [显式合并降噪]: From the retrieved documents, we can see that Portland International Airport is in Oregon and Gerald R. Ford International Airport is in Michigan. The two airports are not in the same state.

<Answer> No. (正确)

💡 分析:在这个案例中,单查询很难同时命中包含两个不同实体地址的网页;而 MultiSearch 通过多视角搜索完美获取了充分的拼图,并通过 <merge> 块将冗长的多篇原始文档提炼成了一句高价值的短摘要,彻底阻断了噪音对最终判决的干扰。

⚙️ 方法论与技术实现

核心架构图
图注:MultiSearch 的训练框架。左侧(a)展示了包含思考、多查询检索、信息提取与显式合并的多步推理流(search→info→merge);右侧(b)展示了通过 GDPO 进行多奖励解耦归一化的策略训练过程。

1. 基于 Multi-Query 的生成轨迹构造 (Rollout Generation)

在传统的 <think> -> <search> -> <info> 范式基础上,MultiSearch 为 Agent 赋予了三种查询扩展策略:重述 (Rephrasing)、概念扩展 (Concept expansion) 和 问题分解 (Question decomposition)。在每个检索步骤中,Agent 被指导同时生成 3 个不同的 queries 进行并行检索。随后,Agent 会阅读这些并行召回的冗长文档,并将其提纯整合到 <merge>...</merge> 标签内。

2. 多维度奖励建模 (Reward Modeling)

为了让 RL 能够有效驱动这种复杂流程,框架设计了三组独立的 Reward:

注:过程奖励 ($r_{query}$, $r_{merge}$) 是附带条件的,只有当最终答案 $r_{ans} > 0$ 时才会给入,从而保证模型不会为了“刷中间分”而牺牲最终正确性。

3. 基于 GDPO 的强化学习 (Group reward-Decoupled Normalization Policy Optimization)

如果直接使用 GRPO 对奖励进行简单的相加 $\sum r_k$,容易出现多查询奖励过快收敛并支配损失函数的问题。MultiSearch 采用了 GDPO 算法,对每一种 Reward $k \in \{\text{ans, query, merge}\}$ 单独在其所在的 Group $G$ 内计算均值和方差,并进行独立标准化:

$$A_{i,j,t}^k = \frac{r_{i,j,t}^k - \text{mean}(r_t^k)}{\text{std}(r_t^k)}$$

然后将标准化后的各类 Advantage 加权求和,计算最终的优化目标。这种 Decoupled 设计保留了细粒度奖励的独特信号,使得策略更新更加鲁棒。

📊 实验设置与结论分析

🌟 关键技术亮点分析

作为资深 LLM 实践者,这篇论文带来的最核心启发在于对 Agent Context Pipeline 的精细化控制。以往做 RAG 或 Agent,很容易陷入 Context 污染的泥潭——随着检索步数增加,Prompt 中积压了大量无用、矛盾的召回文本,最终导致 LLM Attention 崩溃。MultiSearch 提出的 “Explore-then-Merge” 范式,本质上是让模型在每一轮充当了自己的 “信息降噪压缩器” (Information Compressor)。

此外,在多目标 RL 的工程实践上,本文证明了简单将各个 Process reward 相加送给 GRPO 会导致严重的失衡(即模型学会了作弊,疯狂多搜骗取 $r_{query}$,却不管正误)。利用 GDPO 的独立 Advantage 归一化 技术是本文的一个重要工程闪光点,为后续设计更复杂的 Agent 激励对齐机制提供了非常有价值的参考。结合多查询并发,这是一套能够实际在生产环境中显著提升 Search Agent 上限的工业级解法。

Learning Agentic Policy from Action Guidance

作者 / 机构:Yuxiang Ji, Zengbin Wang 等 (厦门大学, 阿里巴巴 AMAP 团队, 南方科技大学)

链接:📄 查看 ArXiv 原文💻 GitHub

🔍 研究背景与痛点 (Background & Pain Points)

针对 Large Language Models (LLMs) 的 Agentic Reinforcement Learning (RL),其核心成功要素往往依赖于 Base Policy (基座策略) 本身的探索能力 (Exploration Capability)。在线 RL (Online RL) 极度依赖模型自我探索带来的 Reward 信号。

💡 核心贡献 (Core Contributions)

本文提出了一种全新的 Agentic RL 训练框架——ACTGUIDE-RL,主张将规模庞大且廉价的纯动作数据 (Action Data) 转化为探索引导 (Guidance),通过非侵入式的方式帮助智能体跨越探索壁垒。

🕵️‍♂️ 具体案例剖析 (Case Study)

以下是 ACTGUIDE-RL 在真实训练场景中的输入输出范式。可以看到,Action Guidance 作为一种提示词注入,而非严格的 Teacher Forcing 前缀,模型必须自己产生 Thought 来匹配这些动作。

[Prompt] 注入 Reference Action Trajectory Hint:

Question: Which political party last held overall control of the West Berkshire Council before the election that first introduced the ward named after the Berkshire village where the Kennet & Avon Canal route was restored...

Follow the partial action trajectory hint to take actions, note that the trajectory may not complete and you still need do some extra tool calls to finish the task.
Reference action trajectory hint:
<1>: search [“Kennet & Avon Canal restored to Hungerford Wharf July 1974”, ...]
<2>: search [“West Berkshire Council election tied result by-elections Conservatives secured majority...”]
<3>: visit [https://en.wikipedia.org/wiki/West_Berkshire_Council_elections]
...

[Model Generation Behavior]:

模型在收到这些 Hint 后,并不能直接得到答案,必须自主生成完整的 <thought> 分析意图,并主动触发 Tool Calls 提取网页内容以完成最终推理(Ground Truth: The Liberal Democrats)。通过这种方式,原本对 Base Model 犹如大海捞针的 Web-browsing 长轨迹探索,被有效降维。

核心架构图
图注:ACTGUIDE-RL 框架概览。左侧展示了普通 RL 中由于 Reward 不可达导致的“可达性坍塌”;右侧展示了 ACTGUIDE-RL 如何通过“最小干预”原则引入动作序列,并通过混合策略优化内化能力。

⚙️ 方法论与技术实现 (Methodology)

为了解决 Reward 稀疏,作者首先对 Agentic RL 的 可达性动力学 (Reachability Dynamics) 进行了形式化。定义 $M_t^\pi$ 为当前 rollout 还能取得成功的概率上限 (Effective state-visiting mass)。如果连续几步策略犯错,$M_t^\pi$ 会呈乘性暴跌(Mass Collapse),导致常规 PPO/GRPO 的 Advantage 无法学习。

1. 探索修复与越度:Action Data Repairs Barriers

为了越过这些 Barrier,作者把真实 Action Trajectory 定义为 $g = (\tilde{\alpha}_1, \dots, \tilde{\alpha}_L)$,并在 Prompt 层面注入 $g_k$ (前 $k$ 步动作) 作为指导。实验证明,这能让原本 0 成功率的轨迹突然恢复 non-trivial 的 Pass@K 指标。

2. 核心机制:Minimal Intervention Principle (最小干预原则)

Guidance 并非越多越好。作者计算了加入指导后在 Token 层面产生的累计对数比率偏移 (Log-ratio shift): $$ \mathcal{L}_k(\tau) := \sum_{j=1}^{|\tau|} \log \frac{\pi_\theta(z_j | z_{<j})}{\pi_\theta(z_j | z_{<j}, g_k)} $$ 及其方差 (Off-policy risk) $R_k := \text{Var}(\mathcal{L}_k(\tau))$。干预越深,$R_k$ 越大,导致离线优化极其不稳定。
因此,算法采用自适应机制:优先尝试 Unguided Rollouts,如果全部失败,再通过二分查找 (Binary Search) 寻找最小的成功指导步数 $k^*$: $$ k^* := \min \left\{ k \in \{1,\dots,K\} : \max_{i=1}^N Y(\tau_i^{(k)}) \ge \delta \right\} $$

3. 混合策略的离线内化 (Off-Policy Internalization)

在 Inference 阶段,模型是没有 Guidance 辅助的。所以需要在训练时将 Guided Rollout 的经验“内化”到基础策略中。作者设计了 Mixed-Policy 的 GRPO 目标函数,对重要性采样 (Importance Ratio) $r_{i,t}^{mix}(\theta)$ 进行了精巧的处理:

$$ r_{i,t}^{mix}(\theta) = \begin{cases} \frac{\pi_\theta(z_{i,t} | z_{i,<t})}{\pi_{\theta_{old}}(z_{i,t} | z_{i,<t})}, & \text{if } \tau_i \sim \pi_{\theta_{old}}(\cdot | x) \\ \frac{\pi_\theta(z_{i,t} | z_{i,<t})}{\pi_{\theta_{old}}(z_{i,t} | z_{i,<t}, g_{adap})}, & \text{if } \tau_i \sim \pi_{\theta_{old}}(\cdot | x, g_{adap}) \end{cases} $$

这里极为关键的一点是:在 Guided Rollout 的分支下,分母使用的是 Condition 在 Guidance 上的旧策略概率,而分子是 不带 Guidance 的新策略概率。这种构造将包含 Hint 的 Rollout 作为高质量的 Off-policy 经验,倒逼 Unguided Target Policy 提升相应 Token 的输出概率。

📊 实验设置与结论分析 (Experiments & Analysis)

实验基准 (Benchmarks): In-domain 任务包括复杂的 Search-Agent 测试如 GAIA, WebWalkerQA, XBench, BrowseComp-ZH;OOD 任务包括 GPQA-CoT, TruthfulQA, IFEval 用于观测通用能力退化。

实验模型: Qwen2.5-3B/7B-Instruct,Qwen3-4B/8B。

🌟 关键技术亮点分析 (Key Highlights)

这是一篇极具实战指导意义的 Agent Alignment 论文。其核心技术亮点在于打破了“高质量推理数据 (Reasoning/CoT) 稀缺”的紧箍咒:

  1. 对弱监督信号的降维打击: 在传统范式里,纯 Action 序列就像鸡肋——直接克隆会让模型失去思考能力,不用又太可惜(工业界最好获取的就是点击、执行日志)。本文用 Plan-reference 的方式将其优雅地变为 RL 探索阶段的路标 (Navigational Hint)。
  2. 克制的优雅 (Minimal Intervention): 在做 Off-policy RL 或 Hint-based RL 时,从业者经常遇到 Policy Collapse。本文并没有用复杂的惩罚项,而是直接从“生成逻辑”和“采样策略”源头出发:只有在原策略走投无路时才“喂饭”,且只喂到刚好不饿死为止。这种基于二分查找动态锁定干预深度的做法,是对 Explore-Exploit Trade-off 在大模型场景下一次教科书级别的应用。
  3. RL Post-Training 路线的新可能: 业界主流(如 DeepSeek-R1)验证了纯 RL (Zero SFT) 的潜力,但这通常需要极大规模且验证极快的数学/代码环境。对于 Agent (环境交互慢、反馈滞后) 来说,纯 RL 举步维艰。本文通过引入轻量级 Action Guidance,为复杂 Agent 的 Zero-SFT RL 撕开了一条极具性价比的口子。

PiCA: 基于枢纽节点的搜索智能体强化学习信用分配

PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning

作者:Dongyi Liu, Yifan Niu, Qinwen Wang, Han Xiao, Jia Li

机构:香港科技大学(广州),香港科技大学

📄 查看 ArXiv 原文

研究背景与痛点

近年来,基于大语言模型(LLM)的搜索智能体(Search Agents)在多跳问答(Multi-hop QA)和开放域信息检索等知识密集型任务中展现了极大的潜力。当前主流的范式正向强化学习(RL)演进,如采用 PPO 或 GRPO 让模型自发学习“何时搜索”、“如何生成 Query”以及“如何综合证据”。

然而,在长序列(Long-horizon)推理任务中,**信用分配(Credit Assignment)**面临极其严峻的挑战,现有方法存在三大核心痛点:

核心贡献

为解决上述问题,本文提出了一种全新的基于枢纽节点的信用分配框架——PiCA(Pivot-Based Credit Assignment)。其核心直觉在于:在多跳任务中,模型到达最终正确答案的概率,会随着累积获取**枢纽节点(Pivot steps,即挖掘出关键 Golden sub-queries 和 sub-answers 的步骤)**而提升。

具体案例剖析 (Case Study)

PiCA 奖励模型能够精准区分有信息增益的步骤与无效步骤,这在论文 Appendix H 的长序列轨迹中表现得尤为明显:

案例 1:容错的细粒度奖励分配(最终答案错误,但奖励分配正确)

点评:与传统仅给结局打分的方法不同,即使最终答案错误(Outcome reward 为 0),PiCA 依然能够给前两步正确的检索推理动作打出高分,鼓励智能体保留正确的探索路径。

案例 2:逐步逼近目标的奖励累积(完全成功)

点评:随着推理链条补齐了越来越多的知识缺失,智能体距离最终正确答案越来越近,PiCA 奖励呈现出递增的趋势,完美契合了势能函数的物理意义。

核心架构图
图注:PiCA 框架概览。阶段一(上):基于标注的 Pivot Steps(枢纽节点)和最终结果,训练 PiCA 奖励模型;阶段二(下):在 PPO 强化学习阶段,利用冻结的 PiCA 模型计算成功概率 $f(t)$,推导出相对成功增益 $g(t)$ 作为稠密奖励,结合回合惩罚和最终任务奖励来优化策略 LLM。

方法论与技术实现

本文将搜索智能体的交互过程定义为一个 MDP,状态 $s_t = (q, \tau_{\leq t-1})$ 包含问题和历史轨迹,动作 $a_t$ 为 ``。核心机制如下:

1. 相对成功增益 (Relative Success Gain)

定义状态到达正确终点的概率为 $f(t) = P(l=1|s_t, a_t)$。当获取新信息后,成功概率的相对变化量定义为:

$$ g(t) = \frac{f(t) - f(t-1)}{f(t-1)} = \frac{\Delta f(t)}{f(t-1)} $$

若 $g(t) > 0$,说明该步骤有效推进了搜索;若 $g(t) < 0$,说明引入了噪声或逻辑谬误。

2. 基于势能的奖励塑造 (PBRS) 提取稠密信号

将势能函数定义为对数成功概率 $\Phi(s_t) \equiv \log f(t)$。根据 PBRS 理论(环境中间奖励设为 0,折扣因子 $\gamma=1$),塑造后的中间步骤奖励化简为:

$$ r_t = \Phi(s_t) - \Phi(s_{t-1}) = \log f(t) - \log f(t-1) = \log(1 + g(t)) $$

3. 奖励模型 (PiCA Model) 训练

为了让奖励模型能够准确估计上述 $g(t)$,训练分为显式和隐式两种监督:

4. 策略优化 (Policy Optimization with PPO)

在使用 PPO 优化智能体策略时,为了防止 Reward Hacking(即智能体为了骗取过程奖励而进行无限轮次的冗余搜索),PiCA 引入了一个动态截断惩罚:

$$ r_{step,t} = \begin{cases} PiCA(s_t, a_t), & \text{if } t < 3 \\ PiCA(s_t, a_t) - \lambda \cdot \alpha^{(t-3)}, & \text{if } t \geq 3 \end{cases} $$

最终的 Advantage 函数 $A_t$ 会融合回合级 Dense 奖励 $r_{step}$ 以及最后一步的稀疏结果奖励 $r_{out}$(格式+F1分),使用 GAE 进行长程信用的反向传播。

实验设置与结论分析

关键技术亮点分析

推理期预算控制在大模型搜索智能体中的应用 (Inference-Time Budget Control for LLM Search Agents)

作者机构:Zhengru Fang, Senkang Hu, Zhonghao Chang 等 (香港城市大学, 清华大学, 蚂蚁集团等)

领域标签:大模型智能体 (LLM Agents) / 推理期计算扩展 (Test-Time Scaling) / 检索增强生成 (RAG) / 预算约束控制

📄 查看 ArXiv 原文

1. 研究背景与痛点剖析

随着以 ReAct、Search-o1 为代表的工具增强型智能体(Tool-augmented Agents)的发展,大语言模型(LLM)不仅用于静态文本生成,更被部署为能够与外部环境交互的搜索智能体。在这个范式下,Test-time Scaling(推理期计算扩展)成为提升模型能力的关键。然而,针对搜索智能体的计算扩展并非仅受限于“Token 数量”,而是面临真实的双重硬预算约束(Hard Dual Budgets):工具调用次数(Tool Calls)与生成 Token 数。

资深从业者在落地 Agent 时常面临以下三大痛点:

2. 核心创新与贡献

针对上述痛点,本文提出了一种免训练(Training-free)的双阶段推理期预算控制方法。核心贡献在于将智能体的预算感知问题拆解为“搜索期的动作分配”与“回答期的风险控制”。

3. 关键 Case Study 剖析

论文中 Stage 2 (Answer-time Finalization) 的设计极其克制,我们通过两个附录中的 Case 来看这种“高精度保守器”是如何运作的:

🟢 成功干预案例 (Binary-Choice Exactness Repair)

Question: Which writer was from England, Henry Roth or Robert Erskine Childers?

轨迹原始答案 (Base): Robert Erskine Childers

Refined Candidate: Robert Erskine Childers DSC

Finalizer 决策: 接受 Refined (重写)。
原因: 这是一个二选一问题,重写并没有改变核心选项,且候选答案在上下文中得到了更完整的实体支持。这属于局部的形态精确度修复,风险极低。

🔴 拒绝干预案例 (Abstention under Bridge Risk)

Question: Which performance act has a higher instrument to person ratio, Badly Drawn Boy or Wolf Alice?

轨迹原始答案 (Base): Badly Drawn Boy

Refined Candidate: Badly Drawn Boy

Finalizer 决策: 弃权 (Abstain),保留原始轨迹答案。
原因: 这个问题包含复杂的“比较语义”和“多跳桥接”结构。Finalizer 判定此时的主要风险在于路径级推理(Path-level reasoning)而非字面表达。强行介入重写极有可能扭曲因果或比较关系,因此宁可不改。

核心架构图
图注:双阶段预算控制核心架构。阶段1使用基于 VOI 得分的控制器,在剩余预算下决定下一步是检索、分解还是回答。阶段2作为极为保守的终结器,通过增益-风险权衡模型,仅在确信收益大于重写风险时进行答案替换。

4. 方法论与底层技术实现

本方案没有试图训练一个端到端的“大管家”LLM,而是构建了一个轻量级、规则化、带状态追踪的两层外挂控制系统(挂载于树搜索骨架,如 BAVT 之上)。

4.1 Stage 1: Search-Time Budget Allocation (基于 VOI 的预算分配)

在 $t$ 时刻,面对剩余工具与Token预算 $b_t = (b_{\text{tool},t}, b_{\text{tok},t})$,控制器为每个可用动作 $k \in \{\text{SEARCH, DECOMPOSE, ANSWER}\}$ 计算任务级动作效用(Task-level Action Utility):

$u_t(k) = \underbrace{\widehat{\Delta}_t(k)}_{\text{Critic 进度信号}} + \underbrace{\Psi_t(k)}_{\text{结构化信号 (防循环/提前作答风险)}} - \underbrace{\Pi_t(k; b_t)}_{\text{预算依赖的惩罚项}}$

随后将其标准化为任务级信息价值 (VOI) 分数,反映“单位预算的边际任务价值”:

$r_t(k) = \frac{[u_t(k)]_+}{d_t(k; b_t) + \epsilon}$

最后,系统应用确定性护栏操作符 $\mathfrak{G}_t$(例如:对于极其组合性的问题强制搜索,避免在事实性问题上乱拆解),得到最终可执行分数 $\tilde{\mathcal{J}}_t(k)$ 并选择 $\text{argmax}$ 执行。

4.2 Stage 2: Answer-Time Finalization (风险可控的终结器)

搜索结束后,系统从轨迹中提取 Base 答案 $a_{\text{base}}$,并生成一个精炼候选答案 $a_{\text{ref}}$。此时进入“增益-风险”阈值决策:

$F(z) = \underbrace{G(z)}_{\text{潜在增益}} - \eta \underbrace{H(z)}_{\text{干预风险}}$

决策规则为:若特征向量 $z$ 处于安全特征集 $\mathcal{S}_{\text{safe}}$ 且 $F(z) \ge \tau$,则替换为 $\hat{a} = a_{\text{ref}}$;否则(例如仍然存在未解决的桥接关系时)保持保守,拒绝重写,直接输出 $a_{\text{base}}$。在工程实现中,这被硬编码为一系列高精度的条件判定卡片,不仅零额外 LLM 调用成本,还能有效防止大模型在最后关头“胡编乱造”。

5. 实验设置与核心结论

实验环境:4 个多跳 QA 数据集(HotpotQA, 2WikiMultihopQA, MuSiQue, Bamboogle),3 种基座模型(Qwen3-32B, Qwen3.5-122B, GPT-5.4-Mini),4个梯度的严格双重预算限制。

6. 对 LLM 工程实践的启发

这篇论文在 Agentic 落地实践上有非常深刻的指导意义:

  1. 不要让大模型自己管理预算: LLM 是极其糟糕的会计师。直接 Prompt 告诉模型“你只剩2次 API 调用机会了”,它往往依然我行我素。本文通过外部白盒的公式化 Controller 强制拦截并注入指令(如强制转入 ANSWER),是目前解决工具死循环和预算穿透最靠谱的工程方案。
  2. “重写”是一把双刃剑: 我们在做 RAG 时,往往习惯让模型再执行一步 Generate a comprehensive answer based on the context。本文揭示了这种操作对于复杂逻辑链(多跳、比较)的破坏力。生产级 Agent 必须具备“放弃优化、保留原样” (Abstain) 的防劣化机制。
  3. Test-Time Scaling 走向动作级调优: OpenAI o1 证明了 Token 维度的 Scaling,而对于需要真实调用外界 API 的搜索 Agent,单纯增加思考时长意味着更多的幻觉或者 API 限流。因此,未来 Agent 的 Scaling Law 必然是沿着动作路由 (Action-routing) 和价值评估 (VOI) 的方向演进的。

LongSeeker: Elastic Context Orchestration for Long-Horizon Search Agents

中文标题:LongSeeker:面向长程搜索智能体的弹性上下文编排

作者:Yijun Lu, Rui Ye, Yuwen Du, Jiajun Wang, Songhua Liu, Siheng Chen

机构:上海交通大学

📄 查看 ArXiv 原文

1. 研究背景与痛点

当前顶尖的搜索智能体(如 OpenAI 的 Deep Research)主要建立在 ReAct(Reasoning + Acting)范式之上。然而,在处理 长程(Long-Horizon) 任务时,ReAct 范式面临着严重的上下文瓶颈(Context Bottleneck)

由于标准的 ReAct 采用只增不减(append-only)的策略,随着观察结果(Observations)、推理轨迹(Reasoning Traces)和工具调用记录的不断累积,工作上下文(Working Context)会变得极其嘈杂且冗余,最终甚至超出 LLM 的 Context Window。

现有的上下文管理方案存在明显缺陷:

核心洞察:高效的上下文管理需要的是弹性工作上下文(Elastic Working Context)。在长程搜索中,信息的形态应具有“状态依赖的保真度(State-dependent fidelity)”——新鲜证据需保持原样以供验证,已解决的信息可提炼为结论,精确细节需作为片段保留,而失败的分支则应被彻底删除或回滚。

2. 核心贡献

3. 具体案例剖析 (Case Study)

论文在附录 A 提供了一个极具代表性的长程搜索案例。任务是:“根据三个线索寻找某个国家的首任总理:1. 它是内陆国且有两个邻国也是内陆国;2. 2022年识字率比2014年增长 1.16%;3. 拥有以其正模标本收集者命名的变色龙物种。”

LongSeeker 展示了令人惊叹的动态上下文控制能力(见图6/图7):

最终输出结构:在同一次前向推理中,模型输出了 <think> -> <meta_tool_call> -> <motivation> -> <standard_tool_call>。这种一体化(Co-generated)的设计让上下文管理与推理高度同频。

核心架构图
图注:Context-ReAct 范式概览。左侧展示了模型如何通过 Meta tools(Skip, Compress, Rollback, Delete, Snippet)动态重塑历史轨迹(Managed Context)。右侧展示了自回归的单步输出结构:在标准工具调用(Standard tool call)之前,模型会先输出思考过程并调用上下文管理元工具。

4. 方法论与技术实现

4.1 智能体范式:Context-ReAct

标准的 ReAct 状态由 $(r_i, c_i, o_i)$ 组成(推理、调用、观察),历史 $H_t$ 单调增长。而 Context-ReAct 在此基础上插入了元操作(Meta-operations) $M_i$:

$$ S_i^{\text{meta}} = (r_i, M_i, c_i, o_i) $$

下一步使用的有效上下文变为:$ H'_t = T(H_t, M_t) $,从而保证工作记忆的紧凑性。

4.2 五大原子元操作 (Atomic Meta-Operations)

  1. SKIP(H) = H:恒等算子,当上下文已经足够紧凑时使用,零额外开销。
  2. COMPRESS(H, a, b, \Sigma):抽象压缩算子。将区间 $[a, b]$ 的历史步骤替换为生成的总结字符串 $\Sigma$。它支持“后见之明”,即模型可以回过头去压缩早期的冗余历史。
  3. ROLLBACK(H, k, \Sigma):结构化回溯算子。丢弃步骤 $k$ 之后的所有内容,并追加总结 $\Sigma$。它赋予了模型类似树搜索(DFS/MCTS)中“放弃死胡同分支”的先验能力。
  4. SNIPPET(H, k, pre, suf):基于指针的无损提取。只保留关键的数字、实体或代码段,防止生成式压缩带来的信息丢失与幻觉。
  5. DELETE(H, k):硬删除算子。用于彻底清除毫无价值的噪音步骤(如检索失败或报错)。

4.3 理论证明与数据合成

作者在 定理 3.1 中证明了该操作集的表达完备性(Expressive Completeness)。实际上,仅靠 COMPRESS 就能实现任意字符串的重写。提供额外的四个特化算子,是为了符合最小描述长度原则(MDL),引导模型更高效、更稳定地学习特定场景的管理策略。

在训练数据层面,团队使用 DeepSeek-V3.2 作为 Teacher,采用完整的 Context-ReAct 设定(即同时生成思维链、元工具、动机、标准工具)生成了 10,000 条多跳高质量搜索轨迹,并对 Qwen3-30B-A3B 进行了标准 SFT 训练(目标损失函数计算覆盖整个结构化输出)。

5. 实验设置与结论分析

评测基准:涵盖 BrowseComp, BrowseComp-ZH, xbench (专业级长程深度研究), 以及 GAIA。

对比基线:1) 专有基座模型(GPT-5, Gemini-3.0-Pro, Claude 4.5 Opus, DeepSeek-V3.2 等); 2) 开源长程搜索智能体(MiroThinker系列, RedSearcher, AgentFold, Tongyi-DeepResearch 等)。

关键结论:

6. 关键技术亮点分析