Scaling Retrieval-Augmented Reasoning with Parallel Search and Explicit Merging

通过并行搜索和显式合并扩展检索增强推理

👨‍🔬 作者：Jiabei Liu, Wenyu Mao, Junfei Tan, Chunxu Shen, Lingling Yi, Jiancan Wu, Xiang Wang

🏢 机构：中国科学技术大学 (USTC)，腾讯微信技术架构部

🔍 研究背景与痛点

大语言模型 (LLMs) 在知识密集型任务中通常依赖于静态内部知识。虽然检索增强生成 (RAG) 缓解了这一问题，但在处理复杂问题时，单次检索往往不够，这催生了深度搜索智能体 (Deep Search Agents) 的发展（如基于 ReAct 范式的多步检索推理）。然而，现有的深度搜索框架在具体实践中暴露出了两个核心瓶颈：

检索的信噪比 (SNR) 极低：现有方法在每个推理步骤通常只生成单个查询 (Single Query)。面对多跳或者包含多个实体/子问题的复杂任务，单查询只能获取局部信息。如果生成的 query 存在歧义或与语料库存在词汇不匹配，还会召回大量不相关噪声，导致整个推理上下文的信噪比急剧下降，从而引发模型产生幻觉或陷入无意义的循环搜索。
细粒度中间过程监督的缺失：最近基于强化学习 (RL) 的 Agent 训练（如 Search-R1）通常依赖于结果级奖励 (Outcome-level Rewards)，即仅通过最终答案的正误来更新策略。这种稀疏奖励难以给“是否检索了足够信息”、“是否有效去除了噪音”等中间行为 (Intermediate behaviors) 提供准确的指导。

💡 核心贡献

为了打破传统串行单查询的限制，本文提出了一种基于强化学习的创新框架——MultiSearch。其核心贡献如下：

引入并行多查询检索 (Multi-Query Retrieval) 与显式合并 (Explicit Merging) 机制：在每个推理步骤并发生成多个视角的 query 以扩大信息覆盖面，随后通过显式的“整合”动作来过滤噪声，大幅提升送入下一步推理的上下文 SNR。
设计多过程奖励模型 (Multi-process Reward Design)：除了最终答案准确性外，专门设计了针对多查询行为和信息整合行为的过程奖励，从而为智能体提供了针对性的中间步骤监督信号。
采用去耦多目标强化学习 (GDPO)：摒弃了传统的标量求和奖励，采用组内奖励去耦归一化策略优化 (GDPO) 进行模型训练，避免了单一简单奖励（如查询次数）主导整个策略更新。在 7 个 QA 基准测试中均达到了 SOTA。

🔎 具体案例剖析 (Case Study)

以测试集中一个经典的复杂多跳推理问题为例，观察 MultiSearch 与 Baseline (Search-R1) 行为的区别：

❓ 问题：波特兰国际机场 (Portland International Airport) 和杰拉尔德·R·福特国际机场 (Gerald R. Ford International Airport) 是否都位于俄勒冈州 (Oregon)？（Ground Truth: No.）

❌ Search-R1 (Baseline)：

<think> 需要确定这两个机场是不是都在 Oregon。

<search> [单查询]: Are Portland International Airport and Gerald R. Ford International Airport both located in Oregon?

<info> 召回的文档仅命中了 "Portland International Airport is the largest airport in Oregon..." 且未提及福特机场的真实位置。

<think> 根据提供的信息，我得出结论两个机场都在 Oregon。（模型被片面信息误导产生幻觉）

<Answer> Yes. (错误)

✅ MultiSearch (Ours)：

<think> 首先，我们需要分别查出这两个机场的位置，然后再检查它们是否都在 Oregon。

<search> [并行多查询]: "where is Portland International Airport", "where is airport Gerald R. Ford International Airport", "are Portland... located in Oregon"

<info> 分别召回了描述 Portland 在 Oregon，以及 Ford 机场在密歇根州大急流城 (Michigan) 的确切文档。

<merge> [显式合并降噪]: From the retrieved documents, we can see that Portland International Airport is in Oregon and Gerald R. Ford International Airport is in Michigan. The two airports are not in the same state.

<Answer> No. (正确)

💡 分析：在这个案例中，单查询很难同时命中包含两个不同实体地址的网页；而 MultiSearch 通过多视角搜索完美获取了充分的拼图，并通过 <merge> 块将冗长的多篇原始文档提炼成了一句高价值的短摘要，彻底阻断了噪音对最终判决的干扰。

⚙️ 方法论与技术实现

核心架构图 — 图注：MultiSearch 的训练框架。左侧(a)展示了包含思考、多查询检索、信息提取与显式合并的多步推理流(search→info→merge)；右侧(b)展示了通过 GDPO 进行多奖励解耦归一化的策略训练过程。

1. 基于 Multi-Query 的生成轨迹构造 (Rollout Generation)

在传统的 <think> -> <search> -> <info> 范式基础上，MultiSearch 为 Agent 赋予了三种查询扩展策略：重述 (Rephrasing)、概念扩展 (Concept expansion) 和问题分解 (Question decomposition)。在每个检索步骤中，Agent 被指导同时生成 3 个不同的 queries 进行并行检索。随后，Agent 会阅读这些并行召回的冗长文档，并将其提纯整合到 <merge>...</merge> 标签内。

2. 多维度奖励建模 (Reward Modeling)

为了让 RL 能够有效驱动这种复杂流程，框架设计了三组独立的 Reward：

答案奖励 ($r_{ans}$): 计算最终预测答案与真实答案之间的词级 F1 score。$r_{ans} = \frac{2n_{int}}{n_{pred} + n_{truth}}$，比纯粹的 EM (Exact Match) 能提供更连续的梯度。
多查询奖励 ($r_{query}$): 如果当前 step Agent 能够生成大于 2 个 query，则奖励 0.1，以激励其探索更广阔的信息面。
合并奖励 ($r_{merge}$): 检查所有 <merge> 块内的提取文本。如果 Ground Truth 答案出现在这些 merge 内容中，则奖励 0.1。这迫使 Agent 学会在降噪的同时绝不漏掉关键的答案依据。

注：过程奖励 ($r_{query}$, $r_{merge}$) 是附带条件的，只有当最终答案 $r_{ans} > 0$ 时才会给入，从而保证模型不会为了“刷中间分”而牺牲最终正确性。

3. 基于 GDPO 的强化学习 (Group reward-Decoupled Normalization Policy Optimization)

如果直接使用 GRPO 对奖励进行简单的相加 $\sum r_k$，容易出现多查询奖励过快收敛并支配损失函数的问题。MultiSearch 采用了 GDPO 算法，对每一种 Reward $k \in \{\text{ans, query, merge}\}$ 单独在其所在的 Group $G$ 内计算均值和方差，并进行独立标准化：

$$A_{i,j,t}^k = \frac{r_{i,j,t}^k - \text{mean}(r_t^k)}{\text{std}(r_t^k)}$$

然后将标准化后的各类 Advantage 加权求和，计算最终的优化目标。这种 Decoupled 设计保留了细粒度奖励的独特信号，使得策略更新更加鲁棒。

📊 实验设置与结论分析

实验基座：基于 Qwen2.5-3B 和 7B，分别测试了 Base 和 Instruct 版本。外部知识库使用 Wikipedia 2018 dump。联合使用单跳数据集 (NQ) 和多跳数据集 (HotpotQA) 进行 RL 训练。
性能全面领先 (Main Results)：在测试涵盖的 7 个单/多跳 QA 数据集中，MultiSearch-Base (3B 达到 42.2%，7B 达到 44.5%) 全面超越现有的 Search-o1, ReSearch, AutoRefine 等开源 SOTA。在 Musique 等极端多跳推理集上，更是取得了接近翻倍的提升。
高信噪比带来更高效率：定量评估表明，经过 explicit merge 操作后，中间文本的 SNR 实现了阶梯式的上升。由于每一跳获取的信息更加准确和完备，MultiSearch 整体的 Search Steps（搜索轮次）反而明显下降，证明高质量的并行检索可以替代低效的“盲目试错式”反复检索。
Base vs. Instruct：一个有趣的发现是，基座模型 (Base) 在 MultiSearch 框架下的最终表现优于指令微调模型 (Instruct)。作者推测，SFT 虽然增强了初始跟随能力，但也可能破坏了模型在新多步推理任务空间内的探索泛化能力。

🌟 关键技术亮点分析

作为资深 LLM 实践者，这篇论文带来的最核心启发在于对 Agent Context Pipeline 的精细化控制。以往做 RAG 或 Agent，很容易陷入 Context 污染的泥潭——随着检索步数增加，Prompt 中积压了大量无用、矛盾的召回文本，最终导致 LLM Attention 崩溃。MultiSearch 提出的 “Explore-then-Merge” 范式，本质上是让模型在每一轮充当了自己的 “信息降噪压缩器” (Information Compressor)。

此外，在多目标 RL 的工程实践上，本文证明了简单将各个 Process reward 相加送给 GRPO 会导致严重的失衡（即模型学会了作弊，疯狂多搜骗取 $r_{query}$，却不管正误）。利用 GDPO 的独立 Advantage 归一化 技术是本文的一个重要工程闪光点，为后续设计更复杂的 Agent 激励对齐机制提供了非常有价值的参考。结合多查询并发，这是一套能够实际在生产环境中显著提升 Search Agent 上限的工业级解法。

Learning Agentic Policy from Action Guidance

作者 / 机构：Yuxiang Ji, Zengbin Wang 等 (厦门大学, 阿里巴巴 AMAP 团队, 南方科技大学)

链接：📄 查看 ArXiv 原文｜ 💻 GitHub

🔍 研究背景与痛点 (Background & Pain Points)

针对 Large Language Models (LLMs) 的 Agentic Reinforcement Learning (RL)，其核心成功要素往往依赖于 Base Policy (基座策略) 本身的探索能力 (Exploration Capability)。在线 RL (Online RL) 极度依赖模型自我探索带来的 Reward 信号。

痛点一：Reachability Barrier (可达性壁垒) 导致 RL 训练停滞。 对于复杂任务，当 Reward 状态落在模型当前能力的边界之外（Out-region），基于组比较的 Advantage 计算会因完全无法获得成功样本而导致梯度归零，出现冷启动困难。
痛点二：对昂贵 SFT 数据的过度依赖。 目前主流的解决办法是“SFT 冷启动 + 课程学习 (Curriculum Learning)”。但这种 Pipeline 严重依赖包含高质量推理过程 (Reasoning traces/CoT) 且与环境高度绑定的微调数据，构建成本极高。
痛点三：纯动作数据 (Action Data) 难以利用。 真实世界中存在海量的“纯操作日志”（如 API 调用序列、GUI/CLI 点击记录、人类演示），但这些数据缺乏推理过程。直接做行为克隆 (Behavior Imitation) 容易让模型死记硬背表面模式；事后合成思维链 (Synthesized CoT) 则极易引发幻觉 (Hallucination) 和过度合理化。

💡 核心贡献 (Core Contributions)

本文提出了一种全新的 Agentic RL 训练框架——ACTGUIDE-RL，主张将规模庞大且廉价的纯动作数据 (Action Data) 转化为探索引导 (Guidance)，通过非侵入式的方式帮助智能体跨越探索壁垒。

轻量级的 Action Guidance 注入： 不强制模型逐字拟合，而是将 Action Data 以 “Plan-style Reference” (计划参考) 的形式放在 Prompt 中，引导模型到达有效 Reward 状态，同时留白让模型自主生成 Reasoning (Thought)。
提出 Minimal Intervention (最小干预) 原则： 理论和实证均揭示了 Guidance 虽能提升成功率，但过度 Guidance 会导致严重的 Off-policy distribution shift (分布偏移)。通过自适应的动态回退机制，为每个任务寻找恰好能跨越壁垒的“最小干预量”。
实现平滑的 Off-Policy Internalization (离线策略内化)： 通过 Mixed-Policy 联合优化，巧妙修改重要性采样比率 (Importance Ratio)，将引导状态下的能力无缝内化 (Internalize) 给基础的无引导策略 (Unguided Policy)。
实证颠覆 SFT 依赖： 在四项 Search-Agent 复杂基准上大幅战胜 Zero RL baseline，更关键的是，即使完全没有 SFT 冷启动，其表现也足以比肩甚至超越传统的 SFT+RL 范式，且不损害模型的通用域外 (OOD) 泛化能力。

🕵️‍♂️ 具体案例剖析 (Case Study)

以下是 ACTGUIDE-RL 在真实训练场景中的输入输出范式。可以看到，Action Guidance 作为一种提示词注入，而非严格的 Teacher Forcing 前缀，模型必须自己产生 Thought 来匹配这些动作。

[Prompt] 注入 Reference Action Trajectory Hint:
Question: Which political party last held overall control of the West Berkshire Council before the election that first introduced the ward named after the Berkshire village where the Kennet & Avon Canal route was restored...
Follow the partial action trajectory hint to take actions, note that the trajectory may not complete and you still need do some extra tool calls to finish the task.

      Reference action trajectory hint:

      <1>: search [“Kennet & Avon Canal restored to Hungerford Wharf July 1974”, ...]

      <2>: search [“West Berkshire Council election tied result by-elections Conservatives secured majority...”]

      <3>: visit [https://en.wikipedia.org/wiki/West_Berkshire_Council_elections]

      ...
[Model Generation Behavior]:
模型在收到这些 Hint 后，并不能直接得到答案，必须自主生成完整的 <thought> 分析意图，并主动触发 Tool Calls 提取网页内容以完成最终推理（Ground Truth: The Liberal Democrats）。通过这种方式，原本对 Base Model 犹如大海捞针的 Web-browsing 长轨迹探索，被有效降维。

⚙️ 方法论与技术实现 (Methodology)

为了解决 Reward 稀疏，作者首先对 Agentic RL 的 可达性动力学 (Reachability Dynamics) 进行了形式化。定义 $M_t^\pi$ 为当前 rollout 还能取得成功的概率上限 (Effective state-visiting mass)。如果连续几步策略犯错，$M_t^\pi$ 会呈乘性暴跌（Mass Collapse），导致常规 PPO/GRPO 的 Advantage 无法学习。

1. 探索修复与越度：Action Data Repairs Barriers

为了越过这些 Barrier，作者把真实 Action Trajectory 定义为 $g = (\tilde{\alpha}_1, \dots, \tilde{\alpha}_L)$，并在 Prompt 层面注入 $g_k$ (前 $k$ 步动作) 作为指导。实验证明，这能让原本 0 成功率的轨迹突然恢复 non-trivial 的 Pass@K 指标。

2. 核心机制：Minimal Intervention Principle (最小干预原则)

Guidance 并非越多越好。作者计算了加入指导后在 Token 层面产生的累计对数比率偏移 (Log-ratio shift)： $$ \mathcal{L}_k(\tau) := \sum_{j=1}^{|\tau|} \log \frac{\pi_\theta(z_j | z_{<j})}{\pi_\theta(z_j | z_{<j}, g_k)} $$ 及其方差 (Off-policy risk) $R_k := \text{Var}(\mathcal{L}_k(\tau))$。干预越深，$R_k$ 越大，导致离线优化极其不稳定。
因此，算法采用自适应机制：优先尝试 Unguided Rollouts，如果全部失败，再通过二分查找 (Binary Search) 寻找最小的成功指导步数 $k^*$： $$ k^* := \min \left\{ k \in \{1,\dots,K\} : \max_{i=1}^N Y(\tau_i^{(k)}) \ge \delta \right\} $$

3. 混合策略的离线内化 (Off-Policy Internalization)

在 Inference 阶段，模型是没有 Guidance 辅助的。所以需要在训练时将 Guided Rollout 的经验“内化”到基础策略中。作者设计了 Mixed-Policy 的 GRPO 目标函数，对重要性采样 (Importance Ratio) $r_{i,t}^{mix}(\theta)$ 进行了精巧的处理：

$$ r_{i,t}^{mix}(\theta) = \begin{cases} \frac{\pi_\theta(z_{i,t} | z_{i,<t})}{\pi_{\theta_{old}}(z_{i,t} | z_{i,<t})}, & \text{if } \tau_i \sim \pi_{\theta_{old}}(\cdot | x) \\ \frac{\pi_\theta(z_{i,t} | z_{i,<t})}{\pi_{\theta_{old}}(z_{i,t} | z_{i,<t}, g_{adap})}, & \text{if } \tau_i \sim \pi_{\theta_{old}}(\cdot | x, g_{adap}) \end{cases} $$

这里极为关键的一点是：在 Guided Rollout 的分支下，分母使用的是 Condition 在 Guidance 上的旧策略概率，而分子是 不带 Guidance 的新策略概率。这种构造将包含 Hint 的 Rollout 作为高质量的 Off-policy 经验，倒逼 Unguided Target Policy 提升相应 Token 的输出概率。

📊 实验设置与结论分析 (Experiments & Analysis)

实验基准 (Benchmarks)： In-domain 任务包括复杂的 Search-Agent 测试如 GAIA, WebWalkerQA, XBench, BrowseComp-ZH；OOD 任务包括 GPQA-CoT, TruthfulQA, IFEval 用于观测通用能力退化。

实验模型： Qwen2.5-3B/7B-Instruct，Qwen3-4B/8B。

拯救“能力倒退”并大幅提分： 当训练任务难度远超 Base Model 能力时，标准的 Vanilla RL 往往因为在低质状态空间里乱撞而导致性能退化。ACTGUIDE-RL 使全线模型稳定涨点，例如在 Qwen3-4B-Instruct 上，XBench 从 18.00% 暴涨至 37.00%（+19.00 pp），WebWalkerQA 提升高达 27.79 pp。
媲美甚至超越 SFT+RL 范式： 惊人的是，在 Zero SFT (无冷启动) 的极简设定下，ACTGUIDE-RL 打平了经历了重度 SFT 初始化的两阶段模型。并且由于免去了 SFT，有效规避了 SFT 常规带来的模式坍塌和泛化性退化（OOD 测评上不掉分）。
消融实验： 移除 Adaptive Fallback (二分查找最小干预) 会导致 GAIA 性能从 35.92 下降至 27.18（证明过强的 Hint 反而有害）；移除 Mixed-Policy 机制则剧降至 22.32，证明重要性采样的重赋权不可或缺。即便在 Action Data 包含 10% 随机噪声的情况下，方法依然保持鲁棒。

🌟 关键技术亮点分析 (Key Highlights)

这是一篇极具实战指导意义的 Agent Alignment 论文。其核心技术亮点在于打破了“高质量推理数据 (Reasoning/CoT) 稀缺”的紧箍咒：

对弱监督信号的降维打击： 在传统范式里，纯 Action 序列就像鸡肋——直接克隆会让模型失去思考能力，不用又太可惜（工业界最好获取的就是点击、执行日志）。本文用 Plan-reference 的方式将其优雅地变为 RL 探索阶段的路标 (Navigational Hint)。
克制的优雅 (Minimal Intervention)： 在做 Off-policy RL 或 Hint-based RL 时，从业者经常遇到 Policy Collapse。本文并没有用复杂的惩罚项，而是直接从“生成逻辑”和“采样策略”源头出发：只有在原策略走投无路时才“喂饭”，且只喂到刚好不饿死为止。这种基于二分查找动态锁定干预深度的做法，是对 Explore-Exploit Trade-off 在大模型场景下一次教科书级别的应用。
RL Post-Training 路线的新可能： 业界主流（如 DeepSeek-R1）验证了纯 RL (Zero SFT) 的潜力，但这通常需要极大规模且验证极快的数学/代码环境。对于 Agent (环境交互慢、反馈滞后) 来说，纯 RL 举步维艰。本文通过引入轻量级 Action Guidance，为复杂 Agent 的 Zero-SFT RL 撕开了一条极具性价比的口子。

PiCA: 基于枢纽节点的搜索智能体强化学习信用分配

PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning

作者：Dongyi Liu, Yifan Niu, Qinwen Wang, Han Xiao, Jia Li

机构：香港科技大学（广州），香港科技大学

📄 查看 ArXiv 原文

研究背景与痛点

近年来，基于大语言模型（LLM）的搜索智能体（Search Agents）在多跳问答（Multi-hop QA）和开放域信息检索等知识密集型任务中展现了极大的潜力。当前主流的范式正向强化学习（RL）演进，如采用 PPO 或 GRPO 让模型自发学习“何时搜索”、“如何生成 Query”以及“如何综合证据”。

然而，在长序列（Long-horizon）推理任务中，**信用分配（Credit Assignment）**面临极其严峻的挑战，现有方法存在三大核心痛点：

稀疏奖励（Reward Sparsity）：早期工作仅依赖最终的回答正确率（Outcome-only）作为奖励信号。这导致严重的偏差：即使中间包含了冗余甚至错误的搜索轮次，只要最终碰巧答对，所有中间步骤都会被错误地赋予高奖励。
孤立信用分配（Isolated Credit Assignment）：新近尝试引入细粒度过程奖励的方法（如 StepSearch），往往只基于当前步的局部质量进行打分，忽略了搜索任务本质上是一个**马尔可夫决策过程（MDP）**，未能捕捉序列依赖性。
分布偏移（Distributional Shift）：部分方法（如 TIPS）将 Ground-truth 与中间步骤拼接来估计答案概率，从而提供稠密奖励。但这种拼接序列在模型自然生成时并不存在，导致训练过程中出现严重的分布偏移，进而使奖励信号失真。

核心贡献

为解决上述问题，本文提出了一种全新的基于枢纽节点的信用分配框架——PiCA（Pivot-Based Credit Assignment）。其核心直觉在于：在多跳任务中，模型到达最终正确答案的概率，会随着累积获取**枢纽节点（Pivot steps，即挖掘出关键 Golden sub-queries 和 sub-answers 的步骤）**而提升。

理论驱动的稠密奖励：PiCA 将搜索轨迹重构为“累积搜索进度”的序列过程，并基于**基于势能的奖励塑造（Potential-Based Reward Shaping, PBRS）**，将过程奖励定义为依赖于历史上下文的“成功概率增益”。
Pivot 节点感知与无分布偏移：通过显式约束 Pivot 节点带来的概率增益，PiCA 能够在维持生成分布一致性的前提下，提供稠密、轨迹依赖的引导信号。
卓越的通用与泛化性能：在 Qwen2.5-3B 和 7B 模型上，PiCA 在 7 个知识密集型 QA 基准测试中分别取得了平均 15.2% 和 2.2% 的显著提升，全面超越了 RAG、Search-o1、Search-R1 和 TIPS 等强基线模型，并在 Qwen3-4B 和 Llama3.1-8B 上展现了强大的可扩展性。

具体案例剖析 (Case Study)

PiCA 奖励模型能够精准区分有信息增益的步骤与无效步骤，这在论文 Appendix H 的长序列轨迹中表现得尤为明显：

案例 1：容错的细粒度奖励分配（最终答案错误，但奖励分配正确）

Question: Where does David Flair's father work at? (David Flair 的父亲在哪里工作？)
Step 1 (Pivot): 模型思考需要先找出父亲是谁，调用 `` 查 "Who is David Flair's father?"。获得准确响应（Ric Flair）。
PiCA 奖励: +0.807 （精准捕获到巨大的信息增益）
Step 2 (Pivot): 接着查询 "Who does Ric Flair work for?"，返回多条包含 WCW, WWF, TNA 等信息。
PiCA 奖励: +0.768 （正确推进了搜索进度）
Step 3 (Error): 模型的 `` 过程出现幻觉，错误地提取了 "WWE"，而非 Ground Truth "TNA"。
PiCA 奖励: +0.129 （因偏离正确推理路径，奖励被大幅削减）

点评：与传统仅给结局打分的方法不同，即使最终答案错误（Outcome reward 为 0），PiCA 依然能够给前两步正确的检索推理动作打出高分，鼓励智能体保留正确的探索路径。

案例 2：逐步逼近目标的奖励累积（完全成功）

Question: The mother of Megan Phelps-Roper is best known as the former spokesperson of a church located in what city? (Topeka)
Step 1: 搜索其母亲是谁 (Shirley Phelps-Roper) -> 奖励: +0.81
Step 2: 搜索其担任发言人的教会 (Westboro Baptist Church) -> 奖励: +0.86
Step 3: 搜索该教会所在城市 (Topeka) -> 奖励: +0.92

点评：随着推理链条补齐了越来越多的知识缺失，智能体距离最终正确答案越来越近，PiCA 奖励呈现出递增的趋势，完美契合了势能函数的物理意义。

方法论与技术实现

本文将搜索智能体的交互过程定义为一个 MDP，状态 $s_t = (q, \tau_{\leq t-1})$ 包含问题和历史轨迹，动作 $a_t$ 为 `

`。核心机制如下：

1. 相对成功增益 (Relative Success Gain)

定义状态到达正确终点的概率为 $f(t) = P(l=1|s_t, a_t)$。当获取新信息后，成功概率的相对变化量定义为：

$$ g(t) = \frac{f(t) - f(t-1)}{f(t-1)} = \frac{\Delta f(t)}{f(t-1)} $$

若 $g(t) > 0$，说明该步骤有效推进了搜索；若 $g(t) < 0$，说明引入了噪声或逻辑谬误。

2. 基于势能的奖励塑造 (PBRS) 提取稠密信号

将势能函数定义为对数成功概率 $\Phi(s_t) \equiv \log f(t)$。根据 PBRS 理论（环境中间奖励设为 0，折扣因子 $\gamma=1$），塑造后的中间步骤奖励化简为：

$$ r_t = \Phi(s_t) - \Phi(s_{t-1}) = \log f(t) - \log f(t-1) = \log(1 + g(t)) $$

3. 奖励模型 (PiCA Model) 训练

为了让奖励模型能够准确估计上述 $g(t)$，训练分为显式和隐式两种监督：

Step-level Explicit Supervision: 针对轨迹中通过启发式标注出来的黄金 Pivot 节点，显式最大化其正向增益：
$$ \mathcal{L}_{\text{gold}} = - \sum_{L \in \mathcal{D}} \sum_{t \in \mathcal{D}_p} \log(g_t) $$
Outcome-level Implicit Supervision: 对完整轨迹，利用最终结果 $l \in \{0, 1\}$ 隐式监督终止状态的成功概率 $f(T)$，使模型自发学会评判非 Pivot 节点：
$$ \mathcal{L}_{\text{final}} = \begin{cases} - \log f(T), & \text{if } l=1 \\ - \log (1 - f(T)), & \text{if } l=0 \end{cases} $$

4. 策略优化 (Policy Optimization with PPO)

在使用 PPO 优化智能体策略时，为了防止 Reward Hacking（即智能体为了骗取过程奖励而进行无限轮次的冗余搜索），PiCA 引入了一个动态截断惩罚：

$$ r_{step,t} = \begin{cases} PiCA(s_t, a_t), & \text{if } t < 3 \\ PiCA(s_t, a_t) - \lambda \cdot \alpha^{(t-3)}, & \text{if } t \geq 3 \end{cases} $$

最终的 Advantage 函数 $A_t$ 会融合回合级 Dense 奖励 $r_{step}$ 以及最后一步的稀疏结果奖励 $r_{out}$（格式+F1分），使用 GAE 进行长程信用的反向传播。

实验设置与结论分析

模型基座：Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct。并在 Qwen3-4B 和 Llama3.1-8B 上做了泛化测试。检索器使用 E5 匹配 Wikipedia 2018 库。
评测基准：涵盖域内（NQ, HotpotQA）和域外（TriviaQA, PopQA, 2WikiMultiHopQA, MuSiQue, Bamboogle）共 7 个数据集。
核心实验结果：
1. PiCA 在域内和域外任务上均取得了最佳性能。在 Qwen2.5-3B 上，HotpotQA EM 从基线最高 0.345(StepSearch) 提升至 0.400。
2. 在最具挑战性的 Bamboogle 和 MuSiQue 数据集上，PiCA 依然稳压 TIPS 和 MT-PPO，展示出极强的 Zero-shot OOD 泛化能力。平均而言，在 3B 规模模型上提升了 15.2%，在 7B 规模上提升了 2.2%。
消融实验 (Ablation Study)： 论文对比了仅用 Final Reward（w/ F1）、F1+惩罚（w/ F1+penalty）和完整 PiCA。结果表明，仅靠长度惩罚（Penalty）会在训练后期（约 40 步后）导致严重的模型崩溃（长度坍塌），而 PiCA 奖励通过引导有意义的推理节点，不仅加速了收敛，还极大地维持了中后期的优化稳定性，保证了响应质量。
基座模型扩展性：在 Qwen3-4B 上 EM 相对提升 6.6%，在 Llama3.1-8B 上相对提升 34.0%，说明 PiCA 并未过拟合于特定模型家族，而是学到了通用的信用分配范式。

关键技术亮点分析

突破性的连续概率建模：摒弃了基于 Prompt 或基于 Heuristic 的中间步硬打分，直接通过拟合转移概率 $\Delta f(t)$ 并引入经典的 PBRS 定理，保证了稠密奖励注入后不改变原 MDP 的最优策略（Policy Invariance），理论极其优美。
优雅解决“分布偏移”：很多生成式 Dense Reward 方案由于需要让模型“看一眼未来”（例如拼接后文）来评估当前步，导致奖励模型学到的概率分布与策略模型实际运行时的自回归分布不一致。PiCA 巧妙地通过“轨迹概率增益”规避了这个问题，利用隐式终态监督替代了显式后向拼接。
自愈式 Reward Hacking 防御：在多智能体与 RLHF 中，模型极易发现“无限调用无害 API”的漏洞来刷分。PiCA 提出的指数级增长 step 惩罚项与 PBRS 奖励形成强力约束对抗，迫使模型兼顾探索深度与检索效率。

推理期预算控制在大模型搜索智能体中的应用 (Inference-Time Budget Control for LLM Search Agents)

作者机构：Zhengru Fang, Senkang Hu, Zhonghao Chang 等 (香港城市大学, 清华大学, 蚂蚁集团等)

领域标签：大模型智能体 (LLM Agents) / 推理期计算扩展 (Test-Time Scaling) / 检索增强生成 (RAG) / 预算约束控制

📄 查看 ArXiv 原文

1. 研究背景与痛点剖析

随着以 ReAct、Search-o1 为代表的工具增强型智能体（Tool-augmented Agents）的发展，大语言模型（LLM）不仅用于静态文本生成，更被部署为能够与外部环境交互的搜索智能体。在这个范式下，Test-time Scaling（推理期计算扩展）成为提升模型能力的关键。然而，针对搜索智能体的计算扩展并非仅受限于“Token 数量”，而是面临真实的双重硬预算约束（Hard Dual Budgets）：工具调用次数（Tool Calls）与生成 Token 数。

资深从业者在落地 Agent 时常面临以下三大痛点：

异构动作的预算分配难题： 智能体在每一步都可以选择“检索（Search）”、“分解问题（Decompose）”或“直接回答（Answer）”。简单地增加预算往往导致“过度搜索”和边际收益递减。模型无法自发地在剩余预算和当前证据状态之间做出最优的动作级权衡。
搜索成功但答案形态错误： 即便智能体找齐了正确的证据，最终生成的答案依然可能在 exactness（精确性）上翻车，例如：是非问答极性搞反、单选变多选、槽位类型不匹配等。
无条件重写的“干预风险（Intervention Risk）”： 常规的 Self-Refine（自我反思重写）在多跳 QA 中非常危险。过度流畅的重写可能会抹除原有的桥接实体，或者改变比较语义，导致“越改越错”。

2. 核心创新与贡献

针对上述痛点，本文提出了一种免训练（Training-free）的双阶段推理期预算控制方法。核心贡献在于将智能体的预算感知问题拆解为“搜索期的动作分配”与“回答期的风险控制”。

两阶段预算控制范式： 第一阶段在耦合的工具与Token预算下进行在线动作分配（Action Allocation）；第二阶段在干预风险约束下进行答案确认（Answer Finalization）。
任务级 VOI（Value-of-Information）动作控制器： 引入了一个免训练的打分器，基于当前轨迹状态和剩余预算，评估检索、分解、回答等动作的“单位预算边际任务价值”，并加入预算动态惩罚和保守护栏策略。
风险可控的答案终结器（Evidence-grounded Finalizer）： 一种保守的选择机制。仅在确信存在低风险答案形态错误（如极性、二分类、支持的事实补全）时才进行重写；当存在多跳逻辑或比较语义未解决时，坚决拒绝重写，保留原始轨迹答案。
极其严格的硬预算审计（Hard Dual-budget Audit）： 在四个 Multi-hop QA 数据集上，对超过预算限制的样本实行“一票否决”判定，真实反映生产环境中 API 速率限制下的性能。

3. 关键 Case Study 剖析

论文中 Stage 2 (Answer-time Finalization) 的设计极其克制，我们通过两个附录中的 Case 来看这种“高精度保守器”是如何运作的：

🟢 成功干预案例 (Binary-Choice Exactness Repair)

Question: Which writer was from England, Henry Roth or Robert Erskine Childers?

轨迹原始答案 (Base): Robert Erskine Childers

Refined Candidate: Robert Erskine Childers DSC

Finalizer 决策： 接受 Refined (重写)。
原因： 这是一个二选一问题，重写并没有改变核心选项，且候选答案在上下文中得到了更完整的实体支持。这属于局部的形态精确度修复，风险极低。

🔴 拒绝干预案例 (Abstention under Bridge Risk)

Question: Which performance act has a higher instrument to person ratio, Badly Drawn Boy or Wolf Alice?

轨迹原始答案 (Base): Badly Drawn Boy

Refined Candidate: Badly Drawn Boy

Finalizer 决策： 弃权 (Abstain)，保留原始轨迹答案。
原因： 这个问题包含复杂的“比较语义”和“多跳桥接”结构。Finalizer 判定此时的主要风险在于路径级推理（Path-level reasoning）而非字面表达。强行介入重写极有可能扭曲因果或比较关系，因此宁可不改。

4. 方法论与底层技术实现

本方案没有试图训练一个端到端的“大管家”LLM，而是构建了一个轻量级、规则化、带状态追踪的两层外挂控制系统（挂载于树搜索骨架，如 BAVT 之上）。

4.1 Stage 1: Search-Time Budget Allocation (基于 VOI 的预算分配)

在 $t$ 时刻，面对剩余工具与Token预算 $b_t = (b_{\text{tool},t}, b_{\text{tok},t})$，控制器为每个可用动作 $k \in \{\text{SEARCH, DECOMPOSE, ANSWER}\}$ 计算任务级动作效用（Task-level Action Utility）：

$u_t(k) = \underbrace{\widehat{\Delta}_t(k)}_{\text{Critic 进度信号}} + \underbrace{\Psi_t(k)}_{\text{结构化信号 (防循环/提前作答风险)}} - \underbrace{\Pi_t(k; b_t)}_{\text{预算依赖的惩罚项}}$

随后将其标准化为任务级信息价值 (VOI) 分数，反映“单位预算的边际任务价值”：

$r_t(k) = \frac{[u_t(k)]_+}{d_t(k; b_t) + \epsilon}$

最后，系统应用确定性护栏操作符 $\mathfrak{G}_t$（例如：对于极其组合性的问题强制搜索，避免在事实性问题上乱拆解），得到最终可执行分数 $\tilde{\mathcal{J}}_t(k)$ 并选择 $\text{argmax}$ 执行。

4.2 Stage 2: Answer-Time Finalization (风险可控的终结器)

搜索结束后，系统从轨迹中提取 Base 答案 $a_{\text{base}}$，并生成一个精炼候选答案 $a_{\text{ref}}$。此时进入“增益-风险”阈值决策：

$F(z) = \underbrace{G(z)}_{\text{潜在增益}} - \eta \underbrace{H(z)}_{\text{干预风险}}$

决策规则为：若特征向量 $z$ 处于安全特征集 $\mathcal{S}_{\text{safe}}$ 且 $F(z) \ge \tau$，则替换为 $\hat{a} = a_{\text{ref}}$；否则（例如仍然存在未解决的桥接关系时）保持保守，拒绝重写，直接输出 $a_{\text{base}}$。在工程实现中，这被硬编码为一系列高精度的条件判定卡片，不仅零额外 LLM 调用成本，还能有效防止大模型在最后关头“胡编乱造”。

5. 实验设置与核心结论

实验环境：4 个多跳 QA 数据集（HotpotQA, 2WikiMultihopQA, MuSiQue, Bamboogle），3 种基座模型（Qwen3-32B, Qwen3.5-122B, GPT-5.4-Mini），4个梯度的严格双重预算限制。

横扫硬预算场景的胜利： 在 Qwen3-32B 上，VOI 方法在 16 个“数据集-预算”网格中取得了 7 项 F1 绝对第一，显著超越了 BAVT、BATS、AFlow 和 Search-o1。特别是在 Low 和 Lower-mid 预算下，VOI 通过提前斩断无效搜索分支，避免预算枯竭，优势极其明显（HotpotQA 上 F1 平均提升 21.9%）。
组件消融 (Ablation)： 剥离 budget-dependent penalty (预算惩罚项) 导致的性能下降最为严重。这证明了将预算消耗显式作为打分扣减项是控制大模型不瞎搜的核心抓手。
时间成本优化： 由于避免了低价值操作，完整 VOI 算法虽然增加了规则打分，但端到端推理耗时反而比基线（BAVT）降低了 27.2% (20.91s -> 15.23s)。
大模型能力的边际递减： 在更强大的模型（如 Qwen3.5-122B）和高预算上限下，各种方法的差距缩小，基线方法（如 BATS 等通过海量采样的波束搜索）也能达到不错的效果，这也符合 Test-time Scaling 收益边际递减的共识。

6. 对 LLM 工程实践的启发

这篇论文在 Agentic 落地实践上有非常深刻的指导意义：

不要让大模型自己管理预算： LLM 是极其糟糕的会计师。直接 Prompt 告诉模型“你只剩2次 API 调用机会了”，它往往依然我行我素。本文通过外部白盒的公式化 Controller 强制拦截并注入指令（如强制转入 ANSWER），是目前解决工具死循环和预算穿透最靠谱的工程方案。
“重写”是一把双刃剑： 我们在做 RAG 时，往往习惯让模型再执行一步 Generate a comprehensive answer based on the context。本文揭示了这种操作对于复杂逻辑链（多跳、比较）的破坏力。生产级 Agent 必须具备“放弃优化、保留原样” (Abstain) 的防劣化机制。
Test-Time Scaling 走向动作级调优： OpenAI o1 证明了 Token 维度的 Scaling，而对于需要真实调用外界 API 的搜索 Agent，单纯增加思考时长意味着更多的幻觉或者 API 限流。因此，未来 Agent 的 Scaling Law 必然是沿着动作路由 (Action-routing) 和价值评估 (VOI) 的方向演进的。

LongSeeker: Elastic Context Orchestration for Long-Horizon Search Agents

中文标题：LongSeeker：面向长程搜索智能体的弹性上下文编排

作者：Yijun Lu, Rui Ye, Yuwen Du, Jiajun Wang, Songhua Liu, Siheng Chen

机构：上海交通大学

📄 查看 ArXiv 原文

1. 研究背景与痛点

当前顶尖的搜索智能体（如 OpenAI 的 Deep Research）主要建立在 ReAct（Reasoning + Acting）范式之上。然而，在处理 长程（Long-Horizon） 任务时，ReAct 范式面临着严重的上下文瓶颈（Context Bottleneck）。

由于标准的 ReAct 采用只增不减（append-only）的策略，随着观察结果（Observations）、推理轨迹（Reasoning Traces）和工具调用记录的不断累积，工作上下文（Working Context）会变得极其嘈杂且冗余，最终甚至超出 LLM 的 Context Window。

现有的上下文管理方案存在明显缺陷：

滑动窗口截断（Sliding-window / keep-last-k）：例如 MiroThinker 采用的方法，这种策略无视信息重要度，容易丢弃早期关键线索。
阈值触发重启（Threshold-triggered re-starting）：例如 DeepSeek-V3.2 的 discard-all 策略，清空历史会严重打断智能体的推理连贯性。
定期总结（Periodic summarization）：如 MEM1，固定粒度的压缩会导致抽象误差（Abstraction Errors）的持续累积。
主动化简（Proactive curation）：如 AgentFold，依然缺乏细粒度干预手段，无法“回溯”并清除过期的死胡同内容。

核心洞察：高效的上下文管理需要的是弹性工作上下文（Elastic Working Context）。在长程搜索中，信息的形态应具有“状态依赖的保真度（State-dependent fidelity）”——新鲜证据需保持原样以供验证，已解决的信息可提炼为结论，精确细节需作为片段保留，而失败的分支则应被彻底删除或回滚。

2. 核心贡献

全新范式 (Context-ReAct)：提出了一种支持弹性上下文编排的通用智能体范式，让智能体在每一步 ReAct 循环中，自主决定何时（When）、何地（Where）以及如何（How）重塑其工作上下文。
元操作词表 (Meta-operations)：设计了 5 个原子的上下文元操作（Skip, Compress, Rollback, Snippet, Delete）。作者在理论上证明了其具备表达完备性（Expressively complete），并提供了多分辨率的上下文控制能力。
模型与SOTA性能 (LongSeeker-30B)：基于 Qwen3-30B-A3B，在 10k 高质量合成轨迹上进行 SFT（监督微调），得到 LongSeeker。它在长程搜索基准 BrowseComp (61.5%) 和 BrowseComp-ZH (62.5%) 上，大幅超越了 Tongyi DeepResearch (43.2%) 和 AgentFold (36.2%)，甚至击败了 GPT-5 等千亿级基座模型。

3. 具体案例剖析 (Case Study)

论文在附录 A 提供了一个极具代表性的长程搜索案例。任务是：“根据三个线索寻找某个国家的首任总理：1. 它是内陆国且有两个邻国也是内陆国；2. 2022年识字率比2014年增长 1.16%；3. 拥有以其正模标本收集者命名的变色龙物种。”

LongSeeker 展示了令人惊叹的动态上下文控制能力（见图6/图7）：

COMPRESS (步骤1-5)：模型尝试检索符合线索的变色龙并排查了部分国家，但未果。模型意识到这部分探索太过冗长，将其压缩为一段精炼的总结：“我们搜了44个内陆国和Jackson变色龙，发现它在肯尼亚（非内陆），还没找到符合1.16%识字率的国家，需进一步缩小范围。”
ROLLBACK (步骤6)：在步骤6中，模型误入歧途，认为乌干达是候选国，但随后发现其识字率增幅不符（12.08% vs 1.16%）。模型果断执行了 Rollback to Step 6，丢弃了失败路径，并记录了“避坑指南”（需寻找其他非洲内陆国）。这就好比树搜索中的 DFS 回溯。
DELETE (步骤14)：模型发现步骤14的某次网页搜索完全是无效冗余信息，直接将其抹除，降低 Context 噪声。
SNIPPET (步骤16)：模型查到津巴布韦识字率从88.7%涨到89.85%，增幅1.15%（近似1.16%）。对于这种极其关键的数值型证据，模型没有使用抽象总结，而是使用 Snippet 精准摘录，防止幻觉。

最终输出结构：在同一次前向推理中，模型输出了 <think> -> <meta_tool_call> -> <motivation> -> <standard_tool_call>。这种一体化（Co-generated）的设计让上下文管理与推理高度同频。

4. 方法论与技术实现

4.1 智能体范式：Context-ReAct

标准的 ReAct 状态由 $(r_i, c_i, o_i)$ 组成（推理、调用、观察），历史 $H_t$ 单调增长。而 Context-ReAct 在此基础上插入了元操作（Meta-operations） $M_i$：

$$ S_i^{\text{meta}} = (r_i, M_i, c_i, o_i) $$

下一步使用的有效上下文变为：$ H'_t = T(H_t, M_t) $，从而保证工作记忆的紧凑性。

4.2 五大原子元操作 (Atomic Meta-Operations)

SKIP(H) = H：恒等算子，当上下文已经足够紧凑时使用，零额外开销。
COMPRESS(H, a, b, \Sigma)：抽象压缩算子。将区间 $[a, b]$ 的历史步骤替换为生成的总结字符串 $\Sigma$。它支持“后见之明”，即模型可以回过头去压缩早期的冗余历史。
ROLLBACK(H, k, \Sigma)：结构化回溯算子。丢弃步骤 $k$ 之后的所有内容，并追加总结 $\Sigma$。它赋予了模型类似树搜索（DFS/MCTS）中“放弃死胡同分支”的先验能力。
SNIPPET(H, k, pre, suf)：基于指针的无损提取。只保留关键的数字、实体或代码段，防止生成式压缩带来的信息丢失与幻觉。
DELETE(H, k)：硬删除算子。用于彻底清除毫无价值的噪音步骤（如检索失败或报错）。

4.3 理论证明与数据合成

作者在 定理 3.1 中证明了该操作集的表达完备性（Expressive Completeness）。实际上，仅靠 COMPRESS 就能实现任意字符串的重写。提供额外的四个特化算子，是为了符合最小描述长度原则（MDL），引导模型更高效、更稳定地学习特定场景的管理策略。

在训练数据层面，团队使用 DeepSeek-V3.2 作为 Teacher，采用完整的 Context-ReAct 设定（即同时生成思维链、元工具、动机、标准工具）生成了 10,000 条多跳高质量搜索轨迹，并对 Qwen3-30B-A3B 进行了标准 SFT 训练（目标损失函数计算覆盖整个结构化输出）。

5. 实验设置与结论分析

评测基准：涵盖 BrowseComp, BrowseComp-ZH, xbench (专业级长程深度研究), 以及 GAIA。

对比基线：1) 专有基座模型（GPT-5, Gemini-3.0-Pro, Claude 4.5 Opus, DeepSeek-V3.2 等）; 2) 开源长程搜索智能体（MiroThinker系列, RedSearcher, AgentFold, Tongyi-DeepResearch 等）。

关键结论：

绝对性能飙升：在 30B 参数量级，LongSeeker 在 BrowseComp 上取得了 61.5%，显著超越 MiroThinker-1.5-mini (56.1%) 和 Tongyi-DeepResearch (43.4%)，甚至击败了 GPT-5 (54.9%) 和 Gemini-3.0-Pro (59.2%)。在 GAIA 上也达到了 77.7%。
突破线性灾难（Token Count Dynamics）：通过对长程任务积累 Token 的追踪（图4a），标准 ReAct（如 DeepSeek-V3.2）的 Token 数量随步数线性爆炸。而 LongSeeker 的 Context 规模在最初增长后迅速进入平稳期（Plateau），稳定在约 1.5 万 Token 左右，即便是面对长达 300 步的超深探索任务。极大地释放了底座模型 256k 的上下文窗口压力。
消融实验印证范式优越性：在同底座（DS-V3.2）下对比，Context-ReAct 的表现稳定优于粗暴的 Discard-all（清空重来）和 Summary（全文总结压缩）。

6. 关键技术亮点分析

将“上下文控制”内化为智能体的原生策略：过去的 Context Window 应对策略多是工程级别的外挂（如固定触发词、超出 token 截断）。LongSeeker 将对历史上下文的增删改查变成了 Agent 动作空间（Action Space）的 First-class citizen，与 Search/Click 工具平起平坐，实现了自回归式的端到端生成。
状态依赖的保真度（State-dependent fidelity）：破除了“所有历史都必须以同等颗粒度保存”的思维定势。核心线索（Snippet 逐字保留），推理大纲（Compress 抽象留存），失败尝试（Rollback 经验总结+剪枝），纯净噪声（Delete 物理擦除）。这体现了极高的信息论审美。
极高的落地价值与泛化潜力：该范式与垂类无关（Domain-agnostic）。它可以被无缝迁移到需要长时间跨度试错的场景，例如自动软件工程（SWE-agent 遇到报错回滚）、大规模法律文书发现或多模态科学实验推理，是彻底解决 LLM “长上下文失焦与成本暴涨”的一条极具前景的路径。

大模型 Agent 与强化学习 (RL) 深度学术解读报告

Scaling Retrieval-Augmented Reasoning with Parallel Search and Explicit Merging

通过并行搜索和显式合并扩展检索增强推理

🔍 研究背景与痛点

💡 核心贡献

🔎 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现

1. 基于 Multi-Query 的生成轨迹构造 (Rollout Generation)

2. 多维度奖励建模 (Reward Modeling)

3. 基于 GDPO 的强化学习 (Group reward-Decoupled Normalization Policy Optimization)

📊 实验设置与结论分析

🌟 关键技术亮点分析

Learning Agentic Policy from Action Guidance

🔍 研究背景与痛点 (Background & Pain Points)

💡 核心贡献 (Core Contributions)

🕵️‍♂️ 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现 (Methodology)

1. 探索修复与越度：Action Data Repairs Barriers

2. 核心机制：Minimal Intervention Principle (最小干预原则)

3. 混合策略的离线内化 (Off-Policy Internalization)

📊 实验设置与结论分析 (Experiments & Analysis)

🌟 关键技术亮点分析 (Key Highlights)

PiCA: 基于枢纽节点的搜索智能体强化学习信用分配

PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning

研究背景与痛点

核心贡献

具体案例剖析 (Case Study)

方法论与技术实现

1. 相对成功增益 (Relative Success Gain)

2. 基于势能的奖励塑造 (PBRS) 提取稠密信号

3. 奖励模型 (PiCA Model) 训练

4. 策略优化 (Policy Optimization with PPO)

实验设置与结论分析

关键技术亮点分析

推理期预算控制在大模型搜索智能体中的应用 (Inference-Time Budget Control for LLM Search Agents)

1. 研究背景与痛点剖析

2. 核心创新与贡献

3. 关键 Case Study 剖析

4. 方法论与底层技术实现

4.1 Stage 1: Search-Time Budget Allocation (基于 VOI 的预算分配)

4.2 Stage 2: Answer-Time Finalization (风险可控的终结器)

5. 实验设置与核心结论

6. 对 LLM 工程实践的启发

LongSeeker: Elastic Context Orchestration for Long-Horizon Search Agents

1. 研究背景与痛点

2. 核心贡献

3. 具体案例剖析 (Case Study)

4. 方法论与技术实现

5. 实验设置与结论分析

6. 关键技术亮点分析