GrepSeek: Training Search Agents for Direct Corpus Interaction

GrepSeek：训练用于直接语料库交互的搜索智能体

作者：Alireza Salemi, Chang Zeng, Atharva Nijasure, Jui-Hui Chung, Razieh Rahimi, Fernando Diaz, Hamed Zamani

机构：UMass Amherst, Princeton University, Carnegie Mellon University

📍 研究背景与痛点 (Background & Pain Points)

在知识密集型任务中，大语言模型（LLM）通常依赖检索增强生成（RAG）或 Agentic Search 来获取外部信息。传统的范式重度依赖于预先计算好的文档表征（如 BM25 稀疏索引或基于 E5/Qwen-Embedding 的稠密向量索引），并通过黑盒排序器返回 Top-K 文档供模型阅读。然而，这种范式在实际应用中暴露出以下痛点：

语义坍缩 (Semantic Conflation)与实体混淆： 稠密检索倾向于在嵌入空间中平滑细微的词汇差异。在多跳推理或精确实体匹配场景下（如区分母公司与同名子公司，或检索极其生僻的化学分子式），稠密检索往往返回“语义相关但事实错误”的文档，导致推理链条断裂。
索引开销极其昂贵： 维持数十亿规模文档的向量索引需要极高的离线计算成本（数百 A100-hours）以及海量的运行时内存（RAM）占用，不适合资源受限或需要实时更新语料的场景。
检索颗粒度受限： 传统 RAG 的 Chunking 策略在构建索引时就已经固定，智能体无法根据当前推理状态动态调整检索颗粒度或执行复杂的过滤逻辑。

🚀 核心贡献 (Core Contributions)

本文提出了一种全新的补充性视角：直接语料交互（Direct Corpus Interaction, DCI）。智能体跳过预计算的检索索引，直接将原始语料库视为搜索环境，通过生成可执行的 Unix Shell 命令（如 rg, grep, head, wc）来寻找、过滤和组合证据。

GrepSeek 智能体： 训练了一个紧凑的 9B 参数规模的 DCI 搜索智能体。它可以像高级程序员一样，通过灵活组合 Shell Pipeline 在海量纯文本中进行“外科手术式”的精确检索与多步过滤。
防作弊的两阶段训练流： 提出了一种创新的合成数据生成管线。通过“答案感知的 Tutor 后向验证”与“答案盲区的 Planner 前向推演”相结合，生成了无数据泄露（Anti-leak）的高质量冷启动轨迹，随后通过 GRPO 进行强化学习对齐。
语义等价的分片并行执行引擎： 为解决 GB 级别语料直接 grep 过慢的问题，开发了一个分片并行执行引擎（Sharded-parallel Execution Engine）。它能动态解析 Shell 管道并分配到多个分片并行执行，在保证与串行执行字节级结果完全一致的前提下，将检索延迟降低了 7.6 倍（单次检索约 0.7 秒）。

💡 具体案例剖析 (Case Studies)

通过与当前最强的基于 RL 的稠密检索智能体 (Search-R1 + Qwen3-Emb-4B) 的对比，可以清晰看出 DCI 的威力与局限：

Case 1: 符号与罕见 Token 精确匹配 (赢)
Question: Which component of shellite has the formula (ON)CHOH?
GrepSeek (DCI): 执行 rg -F "(ON)CHOH" corpus.jsonl。基于精确字符串匹配，瞬间定位到 Picric acid (苦味酸)。
Search-R1 (Dense): 稠密检索无法准确 Embedding 化学分子式，返回了大量关于“化合物成分”的语义相近但毫无用处的文档，最终推理失败。
分析： 符号、代码或特定格式的精确召回是词汇匹配的绝对强项。
Case 2: 实体消除歧义 (赢)
Question: Paul DeBoy 出演了哪家公司开发的西部游戏？
GrepSeek (DCI): 先 rg -F "Paul DeBoy" 查到游戏是 Red Dead Redemption，再通过管道 rg -F "Red Dead Redemption" | rg -i -F "developed"，精确定位到其开发工作室 Rockstar San Diego。
Search-R1 (Dense): 检索后，被向量相似度带偏，将答案坍缩为知名度更高的母公司 Rockstar Games。
分析： 级联过滤（Piping）让 DCI 能够在海量文本中强制执行逻辑交集，避免语义漂移。
Case 3: 表面形态脆弱性 (输)
Question: In what city was Édouard Vaillant born?
GrepSeek (DCI): 智能体使用了严格的精确匹配 rg -F "Édouard Vaillant" 以及不带变音符号的 "Edouard Vaillant"，但由于语料库中可能存在排版差异，未能命中包含出生地的核心段落，最终瞎猜。
Search-R1 (Dense): 向量检索天生具备对音标、拼写变体的鲁棒性，轻松召回了正确的文档。
分析： DCI 极度依赖字面匹配，在处理长尾实体、错别字或同义复述时显得脆弱，凸显了与稠密检索相互补充的必要性。

⚙️ 方法论与技术实现 (Methodology & Implementation)

训练一个能够熟练使用 grep 并在海量语料上保持行为稳定的模型并非易事，直接使用 RL 会导致探索空间爆炸（例如过度宽泛的查询导致 OOM）。因此，作者设计了两阶段训练法：

阶段 1：冷启动数据合成 (Cold-Start Data Generation)

构造高质量的多跳 Shell 检索轨迹。核心难点在于：如何确保合成的推理轨迹在逻辑上是因果连贯的（Forward Causal），而没有“提前泄露未检索到的答案”。作者采用了一套精妙的机制：

后向验证 (Backward Phase, 依赖 Tutor 模型): Tutor 知道标准答案 $y$。它将问题分解，并从最后一步倒推，生成目标掩码 (Target-masked) 的 Shell 命令 $c_i$，确保文档 $d_i$ 确实包含答案。这一步严格禁止在 query 中使用目标实体的别名。
前向组装 (Forward Phase, 依赖 Planner 模型): 随后将步骤倒序，交给不知道答案的 Planner 生成初稿推理。
Tutor 修正与质量过滤 (Tutor-Guided Edit): Tutor 在保证“只基于当前历史信息”的前提下，润色 Planner 的推理过程，使其自然地推导出正确的 $c_i$。最后通过严格的时序边界检查（Trajectory Coherence Judge）剔除所有隐性泄露未来信息的样本。

阶段 2：基于 GRPO 的强化学习 (Reinforcement Learning with GRPO)

使用监督微调 (SFT) 模型作为初始化策略 $\pi_\theta$，引入组相对策略优化（Group Relative Policy Optimization, GRPO）进一步提升检索与推理能力。对于查询 $q$，采样组大小 $n=5$ 的轨迹 $\tau^{(1)}, ..., \tau^{(n)}$。奖励函数设计极具针对性：

设定格式指示符 $\phi(\tau^{(i)}) \in \{0, 1\}$，仅当模型严格遵循 <think>, <tool_call>, <answer> 的 XML 结构时才为 1。同时结合 Token 级别的 F1 分数 $R_{ans}(\tau^{(i)})$ 作为基础奖励：

$R(\tau^{(i)}) = \phi(\tau^{(i)}) R_{ans}(\tau^{(i)})$

随后在组内对奖励进行归一化计算优势函数 (Advantage)：

$A^{(i)} = \frac{R(\tau^{(i)}) - \text{mean}(\{R(\tau^{(j)})\}_{j=1}^n)}{\text{std}(\{R(\tau^{(j)})\}_{j=1}^n) + \epsilon}$

分片并行引擎优化 (Sharded-Parallel Corpus Search)

为了让单次交互能在 1 秒内完成，底层重写了管道执行逻辑：引擎动态解析 Shell Pipeline，若是无状态操作（如 rg, cut, tr, sed），则将其分发到 $S$ 个按行划分的子语料库（内存盘中）并发执行；根据最后的操作（如 head -n 或 wc -l）采用对应的 Reduce 策略合并结果。这在不改变任何行为语义的情况下，将检索延迟由 5.39s 降到了 0.71s。

📊 实验设置与结论分析 (Experiments & Results)

实验设置：在 7 个 QA 数据集上评估（3个单跳，4个多跳）。基座模型使用 Qwen3.5-9B。对比基线包括 Direct LLM, 标准 RAG, IRCoT, Search-O1, 以及当前 SOTA 的 Search-R1（同样使用 GRPO 训练）。检索器配置包含 BM25, E5-110M 和最新的 Qwen3-Embedding-4B。

核心结论：

性能霸榜： GrepSeek 在 7 个数据集中的 4 个（NQ, HotpotQA, 2Wiki, MuSiQue）取得最高 Token-level F1 成绩，特别是在多跳推理基准上，压倒性地胜过使用最强 4B 稠密检索模型的 Search-R1。微平均 F1 达到 0.5691。
动态行为演进： 通过跟踪 RL 训练过程，作者发现基础的句法特征（如管道深度、过滤模式）在 SFT 阶段就已确立；而 RL 阶段促使模型学会“减少不必要的工具调用”、“单次提取更多上下文（调大 head 行数）”以及“分配更多 Token 用于内部推理（Thinking）”。
工程效率突破： GrepSeek 的运行内存足迹仅等于原始纯文本大小 (14GB)，彻底省去了 Qwen3-4B 检索器所需的 A100 Embedding 生成时间（62.4h）以及极度庞大的 HNSW 向量库内存占用 (221GB)。

💡 关键技术亮点分析 (Key Highlights)

从资深 LLM 开发者的视角来看，这篇工作的价值不仅在于刷榜，更在于揭示了 Retrieval 范式演进的新路径：

Tool Use 视角的彻底转换： 以前大家总是想着“如何训练更强的 Retriever 适配 LLM”，而 GrepSeek 证明了“LLM 原生就可以通过强大的 Code/Shell 基础能力接管搜索控制权”。对于复杂的长逻辑链条，“按需组装的正则与关键词过滤管道”比“一维降维的相似度打分”要可控得多。
Agent 训练中的 Leakage 防御： 合成数据的“时间旅行泄漏”（因知道答案而导致早期动作不自然）是目前构建 RL 奖励模型的普遍痛点。本文在 Prompt 层面使用极其严苛的 Tutor-Planner 角色分离及 Trajectory Coherence Judge 审查机制，这对业界合成复杂多步操作数据具有极强的参考意义。
未来技术走向 (Hybrid)： 本文也很客观地指出了 DCI 的软肋（缺乏语义相似性泛化与相关性排序）。显而易见，未来的杀手级 Agentic Search 架构将是 DCI 与 Dense Retrieval 的结合体 (Hybrid)：使用稠密向量进行宽泛的 Initial Recall 应对语义模糊，在缩小范围后利用 DCI（Grep/Regex）进行手术刀级别的实体过滤与逻辑链拼图。

MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning

中文标题：MemSearcher：通过端到端强化学习训练大模型进行推理、搜索与记忆管理

核心作者：Qianhao Yuan, Jie Lou, Zichao Li 等

核心机构：中国科学院软件研究所（ISCAS）、小红书（Xiaohongshu Inc）、中国科学院大学

📄 查看 ArXiv 原文

研究背景与痛点

目前，基于大语言模型（LLM）的搜索智能体（Search Agents）在知识获取和多跳推理任务中展现出强大的能力。相比于传统的RAG系统，这些Agents以 ReAct（Reason + Act）为代表范式，能够自主决定何时调用搜索引擎以及如何整合外部信息。然而，随着交互轮数的增加，ReAct 范式暴露出致命瓶颈：

上下文长度的线性灾难： ReAct 将所有的历史 Thoughts、Actions、Observations（通常是大量的网页片段）直接拼接到当前上下文中。这导致计算成本（FLOPs）和 GPU 显存（KV Cache）开销随轮数呈现 $O(n^2)$ 级暴增。
“迷失在中间”与信息噪音： 检索到的外部文档往往夹杂大量与当前问题无关的噪音。冗长且嘈杂的上下文会严重削弱 LLM 提取关键信息的推理能力（即“Lost in the Middle”现象）。

核心贡献

提出 MemSearcher 架构： 摒弃了 ReAct 机械拼接历史的做法，利用骨干 LLM 作为“记忆管理器”（Memory Manager），在每轮交互中迭代并维持一个极度紧凑的记忆文本，仅保留对回答问题有价值的浓缩信息，使上下文长度保持常数级别。
引入 Multi-Context GRPO 算法： 由于 MemSearcher 每一轮所基于的 LLM Context 各不相同（记忆被不断覆写），传统的 RL 算法难以直接优化。作者提出了多上下文的 Group Relative Policy Optimization (GRPO)，将轨迹级别的奖励（Trajectory-level Advantages）广播给每个独立的回合，实现了完全端到端的 RL 训练。
显著的性能与效率跨级击杀： 仅有 3B 和 7B 参数的 MemSearcher 模型，在 NQ、HotpotQA 等复杂基准测试中不仅完胜同级竞争者，甚至超越了体积大得多的 ReSearch-32B 模型，同时将单轮回合推理的计算复杂度从 $O(n)$ 降维至 $O(1)$。

具体案例剖析 (Case Study)

论文中展示了一个复杂的多跳信息搜集过程，问题为：“What was the form of the language that the last name Sylvester comes from, used in the era of Rotrude's father, later known as?（Sylvester 姓氏来源语言在 Rotrude 父亲——即后来的神圣罗马帝国皇帝——那个时代的形式是什么？）”

MemSearcher 的交互流如下：

Turn 1： 模型决定先查 Sylvester 的语言来源。获取维基信息后，提取出核心知识：<memory> Sylvester 这个姓氏来源于拉丁语（Latin）。</memory>
Turn 2： 模型根据记忆，意识到需要查 Rotrude 的父亲是谁。搜索后发现父亲是 Charlemagne（查理曼大帝）。此时模型将新旧知识融合，更新记忆：<memory> Sylvester 来源于拉丁语。Rotrude 的父亲是 Charlemagne。</memory>
Turn 3-4： 模型进一步搜索 Charlemagne 后来的头衔（神圣罗马帝国皇帝）以及他所处时代的拉丁语形式。搜索结果返回了 Medieval Latin。
Turn 5 (最终解答)： 模型直接读取最新的记忆流，推断出当时使用的是 Medieval Latin（中世纪拉丁语），并以此直接输出最终答案。

剖析： 在整个过程中，MemSearcher 的输入始终只有“初始问题”和“上一轮浓缩的 Memory”，无论交互多少轮，被舍弃的网页原文噪音都被清理掉了，记忆始终保持在极短的字数内，思路极其清晰。

核心架构图 — 图注：Multi-Context GRPO 训练框架。该框架对同一问题采样多条轨迹，计算整个轨迹的奖励并生成 Advantage，然后将该 Advantage 传播回这条轨迹内的所有独立的轮次上下文（Context），以此更新策略大模型。

方法论与技术实现

1. Agent 迭代记忆整合模型 (Iterative Memory Integration)

在传统的 ReAct 中，第 $i$ 轮的 LLM 输入为 $c_i = (q, t_1, a_1, o_1, \dots, t_{i-1}, a_{i-1}, o_{i-1})$，输入呈线性增长。而在 MemSearcher 中，输入被精简为：

$$c_i = (q, m_{i-1})$$

其中 $q$ 是用户查询，$m_{i-1}$ 是上一轮的浓缩记忆（被 <memory> 包裹）。模型基于此生成思考 $t_i$ 和工具调用 $a_i$。在执行搜索得到庞杂的网页反馈 $o_i$ 后，LLM 读取 $o_i$ 并融合 $m_{i-1}$ 中仍然有用的信息，覆写生成新的紧凑记忆 $m_i$，彻底抛弃原始的网页片段。

2. Multi-Context GRPO 强化学习

由于 MemSearcher 的设计机制，轨迹（Trajectory）跨越多个回合，而且每一回合的 LLM 感受野（Context）被主动切断且各不相同。为了能够端到端地优化这种模式，作者对 DeepSeek 提出的 GRPO 算法进行了变体改造：

首先，对每个查询 $q$ 采样 $G$ 条轨迹。每条轨迹 $T_i$ 包含 $n_i$ 轮次，最终计算轨迹级别的总体奖励 $R_i$。
利用组内的均值和标准差计算相对优势（Advantage）$A_i$：
$$A_i = \frac{R_i - \text{mean}(\{R_1, R_2, \cdots, R_G\})}{\text{std}(\{R_1, R_2, \cdots, R_G\})}$$
然后，关键步骤是 Advantage 传播：假设该轨迹优势为 $A_i$，则将其平均分配给该轨迹下包含的所有切断状态轮次，即 $A_{i,j} = A_i$。
最终优化目标对每个独立轮次最大化策略梯度，并在生成的 Token 上施加 KL 惩罚，过滤掉从搜索引擎抓取的 Token 掩码计算，使得模型稳定收敛于最优“提取和遗忘”策略。

3. 奖励函数设计 (Reward Modeling)

采用了双重硬编码奖励机制：格式奖励（检查 XML tag的正确性，以及 \boxed{} 的存在）与回答奖励（利用 F1 Score 计算 \boxed{} 内部内容与 Ground Truth 的重合度）。这确保了不需要训练专门的 Reward Model 即可驱动 RL 飞轮。

实验设置与结论分析

基线对比 (Performance)： 作者在基于 Qwen2.5-Instruct 初始化的模型上进行了实验。在 NQ, HotpotQA, TriviaQA 等七个经典复杂 QA 验证集上，MemSearcher 3B 的均分 (43.8) 竟高于其他基线方法的 7B 模型，而 MemSearcher 7B 达到了 48.9 分，超过了基于 32B 参数量的 ReSearch 模型。
计算效率 (Efficiency)： 追踪 LLM 推理的 Context 消耗发现，相比于 ReAct 系列随轮数急剧飙升至上万 Token，MemSearcher 的平均 Context 消耗始终横向平稳维持在 4K 以内。这意味着在处理包含 10 轮以上的复杂检索任务时，MemSearcher 对计算资源的占用只有同侪的几分之一。
消融实验：为什么不能只用 SFT？ 文中揭示，如果只用监督微调（SFT）而不是 RL 去训练 Agent 管理记忆，性能会大幅滑坡（以 3B 为例，均分从 43.8 暴降至 28.5）。这说明“保留什么、丢弃什么”这种动态的记忆管理行为，很难通过显式标注的蒸馏数据完美呈现，只能通过 RL 的最终目标回传（探索利用）来内化。
记忆长度的影响： 强制截断记忆区长度的消融显示，1024 Token 是一个理想的甜点区。给出的容量太少（如 256）会使模型丢失复杂多跳信息；太多则导致自我冗余并稀释注意力。

关键技术亮点分析

对于 LLM Agent 从业者来说，这篇论文指出了一个极其务实的优化方向：从无脑拼接走向显式的状态更新。

从 RNN 汲取灵感的 Prompt Engineering： MemSearcher 相当于在 Prompt 层级手搓了一个 RNN / LSTM 的隐藏状态更新机制。模型不再被动阅读全文，而是主动承担“信息压缩机”的角色。这一范式让超长多跳任务脱离了对无限长 Context 模型的依赖，将内存成本降为 $O(1)$。
有效解决环境状态非马尔可夫性的 RL 训练： 通常将一整个交互流切断成各个单独 Context 会让 RL 难以进行（Credit Assignment 问题）。Multi-Context GRPO 通过最朴素的 Trajectory-level 组归一化并进行回合间的 Advantage 平均广播，证明了在生成式任务中，这种简单暴力的优势分配足以驱动 LLM 学会极其复杂的记忆擦写策略。这对未来其他多阶段、分步骤解耦的 Agent 训练有着巨大的参考价值。

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

超越单查询局限：使用强化学习训练大模型进行查询扩展

作者：Shu Zhao, Tan Yu, Anbang Xu

机构：NVIDIA, Pennsylvania State University

📄 查看 ArXiv 原文

🔍 1. 研究背景与核心痛点

随着强化学习在大型语言模型（LLM）中的应用突破，具备推理增强与搜索能力的智能体（如 Search-R1）在复杂问答任务中展现出巨大潜力。这类系统能够动态调用外部检索引擎，以克服静态参数化知识的局限性。然而，面对真实场景下复杂的多跳（Multi-hop）推理需求，现有搜索 Agent 面临着两个根源性的结构瓶颈：

痛点一：查询语义贫乏导致的信息遗漏（Semantic Incompleteness）。现有智能体往往在每轮交互中只生成单一的 Query。面对需要多维度证据支撑的复杂问题，单一查询很容易遗漏关键语义，由于当前 Embedding 模型对表面字词的脆弱性，单次召回率极易触顶。
痛点二：查询扩展引发的信息过载（Information Overload）。如果简单粗暴地让模型生成多个查询以提高召回率，将导致检索结果成倍增加（Noise-to-signal ratio 飙升）。这不仅会造成 LLM 陷入 "Lost in the Middle" 困境，还会极大地拉长上下文（Context Length），在 RL 训练和推理阶段造成无法承受的显存开销与计算瓶颈。

💡 2. 核心贡献

为了解决高召回率与低噪声之间的矛盾，NVIDIA 研究团队提出了 ExpandSearch 框架，其核心贡献包括：

Expand-then-Squeeze 范式： 模仿人类“先广泛搜集、后提炼甄别”的信息获取行为，创新性地将搜索切分为“多查询扩展并行检索 (Expand)”与“相关性选择与压缩 (Squeeze)”两个解耦阶段。
端到端 RL 训练： 证明了在不引入外部监督信号的情况下，通过强化学习（PPO），能够使模型自发学会生成语法上（Syntax）与语义上（Semantic）高度互补的复杂扩展查询。
显著的性能跃升： 即使是较小的 3B 模型，在注入该范式后也能以巨大的优势超越 7B 级别的 SOTA 基线模型。在 7 个 QA Benchmark 上平均绝对准确率提升了 4.4%。

🎯 3. 具体案例剖析 (Case Study)

以下是 ExpandSearch 处理 HotpotQA 复杂多跳推理任务的真实生成轨迹，展现了其多查询并行与信息浓缩的威力：

Question: 2014 S/S is the debut album of a South Korean boy group that was formed by who?
Ground Truth: YG Entertainment

[ExpandSearch 推理轨迹]
<think> 为了确定谁组建了这个男团，我需要先找出这个男团是谁。</think>

<search> boy group that debuted with the album 2014 S/S ## male group first album 2014 S/S debut ## K-pop boy groups debut albums 2014 rookie artists </search>
(注：模型并行生成了3个不同视角的 Query 来对抗检索模型的遗漏)

<information> 基于提供的上下文，以下是针对查询的回答：WINNER 就是那个男团。 </information>
(注：这一步是 Squeezer 的输出，将几十个冗杂的文本块浓缩成了一句话，喂给主干 Agent)

<think> 现在我知道以 2014 S/S 出道的男团是 WINNER。我可以直接查找谁组建了他们。</think>

<search> who formed the boy group WINNER ## WINNER boy group created by who ## who created the WINNER </search>

<information> 基于提供的上下文，以下是针对查询的回答：YG Entertainment。 </information>

<answer> YG Entertainment </answer>

⚙️ 4. 方法论与技术实现

ExpandSearch 框架由两个核心步骤的迭代循环构成，并依托于强化学习的优化。

4.1 多查询扩展 (Expand Phase)

在需要检索时，LLM 会在一个 <search></search> 块内输出多个用 ## 分隔的 Query 变体。对于生成的每个变体 $q_i$，系统调用搜索引擎 $\mathcal{R}$ 获取 $k$ 个最相关的文本块（Chunks）：

$$\mathcal{C}_i = [c_i^1, \cdots, c_i^k] \leftarrow \mathcal{R}(q_i)$$

这从根本上克服了单向 Vector Embedding 带来的检索召回瓶颈（Weller et al., 2025）。

4.2 知识挤压器 (Squeeze Phase)

为了处理海量的 $n \times k$ 个文本块 $\mathcal{C}$，作者引入了一个冻结权重的预训练 LLM 作为 Squeezer（挤压器）。它通过 Few-shot Prompt 的形式，将用户的多个查询 $q$ 和大量长文本 $\mathcal{C}$ 压缩成干练的短摘要 $s$：

$$s = \pi_s([q_1, \cdots, q_n], [\mathcal{C}_1, \cdots, \mathcal{C}_n])$$

经过浓缩的信息 $s$ 被包裹在 <information></information> 标签内返回给主搜索 Agent，参与下一轮的 Reasoning。这使得 RL Rollout 阶段的显存消耗呈数量级下降，避免了 RL 优化因长文本爆显存的问题。

4.3 强化学习与奖励机制

Agent 在 PPO 算法下进行训练，不依赖人工标注的最佳搜索路径，仅依靠最终答案的对错进行奖惩。Reward 函数结合了 Exact-Match (EM) 与格式惩罚：

$$r = r_{\text{EM}} + \lambda r_{\text{f}}$$

只要系统通过复杂的自我扩展和反思最终得到了正确的 Answer 实体，即可获得正向 Reward。

📊 5. 实验设置与结论分析

实验模型与算力： Agent 骨干选用 Qwen-2.5 3B/7B 系列（Base 及 Instruct版），Embedding 采用 E5，训练平台为 8 张 H100。RL 训练步骤达 500 step。
全面碾压基线： 在 NQ, HotpotQA, Bamboogle 等 7 个数据集上，Qwen-2.5-3b-Instruct 加持 ExpandSearch 后，平均 EM 达到 0.457，不仅超越了同尺度的 Search-R1 (0.325)，甚至击败了规模大一倍的 Qwen2.5-7B Search-R1 (0.385)。
消融实验揭示 RL 的不可或缺： 直接在普通 Baseline 的 Prompt 里加上“生成多个查询”和“Squeezer 总结”，结果反而会导致性能下降（从 0.332 降到 0.330）。原因在于：未经 RL 训练的模型，乱扩展 Query 反而会引入巨大噪音。这印证了：“有效的高质量扩展分布”必须由 RL 来打通。
Squeezer 模型的选型博弈： 实验发现，70B 参数的超大模型 Squeezer 更擅长通用问答事实抽取（General QA），而对于复杂多跳问题（Multi-Hop QA），17B 模型（LLaMA-4-17b）表现竟然更好，这证明了在强推理场景下，“总结归纳”与“多跳事实拼凑”是两种不同的能力维度。

✨ 6. 关键技术亮点与从业者启发

从工业界落地与资深从业者的视角，这篇论文带来了多个深刻的 Insight：

Embedding 模型本质是脆弱的： 作者对训练后模型生成的查询扩展类型进行了分类，发现 63.35% 是 Syntax Expansion（语法/句式重构），仅 36.65% 是 Semantic Expansion（概念发散）。这暗示了当前的 Dense Retriever（如 E5）存在严重的“表面词汇敏感性”。强化学习敏锐地捕捉到了这一点，并自发学会通过 Paraphrase（同义改写）来打补丁。
RL 训练架构的模块化解耦： 论文非常聪明地没有让 Agent 自己去吃掉海量检索文档。将 Information Distillation 剥离给一个静态的 API 节点（Squeezer），彻底解放了 PPO 的 Policy 模型，不仅将 rollout 的长度截断到了百 Token 级别，也大大降低了 Critic 网络估计 Value 时的方差。
极强的 Inference 可替换性： 作者证明，在部署（Inference）阶段，即便把训练时使用的笨重 17B Squeezer 降级替换为 8B 模型，Agent 依然能保持相当高的性能。这意味着系统可以在训练阶段用重型模型打通逻辑闭环，在线上推理侧换上便宜的“小杯”模型，具备极高的降本工程价值。

Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents

Stratified GRPO：处理LLM搜索智能体强化学习中的结构异质性

作者：Mingkang Zhu, Xi Chen, Bei Yu, Hengshuang Zhao, Jiaya Jia

机构：香港中文大学 (CUHK)、香港大学 (HKU)、香港科技大学 (HKUST)

📄 查看 ArXiv 原文

背景与痛点

随着大型语言模型（LLMs）能力的提升，为其配备外部工具（如搜索引擎）来解决复杂、多步问题（Search Agents）已成为当前 Agentic LLM（如 Search-R1 等类似系统）的核心演进方向。而强化学习（RL）是当前直接从结果导向的奖励（outcome-based rewards）中让模型学习高级工具使用策略的主流范式。

然而，在训练 LLM 搜索智能体时，往往被忽略的一个根本性挑战是：**智能体轨迹的结构异质性 (Structural Heterogeneity)**。

痛点剖析：跨层偏差 (Cross-Stratum Bias)
与传统强化学习（如 RLHF 或纯代码/数学推理的 RLVR）中轨迹模式相对单一不同，Search Agent 生成的轨迹（Trajectories）在结构上截然不同。一条调用了 0 次搜索的轨迹与调用了 3 次搜索的轨迹，其所面临的上下文、可能达成的奖励分布有着天壤之别。
当前主流的 RL 算法（如 GRPO）在估计策略梯度时，通常计算一个**单一的全局基线 (Single Global Baseline)**（如在整个 prompt 生成的样本 batch 内算均值）。这就导致了一种“把苹果和橘子进行对比”的系统性谬误：它强制将不同策略结构产生的异质轨迹拉入同一个池子中进行优势计算（Advantage estimation）。这不仅扭曲了信用分配（Credit Assignment），还阻碍了模型去探索那些暂时处于劣势但极具潜力的复杂多步搜索策略。

核心贡献

理论界定与形式化：首次提出并形式化了 Cross-Stratum Bias (跨层偏差) 概念。通过数学分解，证明了基于全局基线计算的 Advantage 会引入一种跨层的结构性偏移（Offset），这是导致 RL 训练方差膨胀和探索受阻的根本元凶。
提出 Stratified GRPO 算法：引入了一种极其优雅的改进——分层优势归一化 (Stratified Advantage Normalization, SAN)。通过将批次内的轨迹根据其结构属性（如搜索调用的次数）划分到不同的层级 (Strata) 中，并在每一层内部局部计算 Advantage，确保每个轨迹只与同类进行公平比较。
严密的统计学证明：从理论上证明了 SAN 消除了跨层偏差，能在每个 stratum 内部实现**条件无偏 (Conditionally Unbiased)** 和**单位方差 (Unit Variance)**，产生比全局归一化 (Global Normalization) 更纯净和尺度稳定的学习信号。
显著的实验突破：在包含单跳和多跳的 7 个问答基准测试上，Stratified GRPO 比标准 GRPO 绝对平均性能提升最高达 11.3 个点。此外，它彻底解决了 Instruct 模型在训练中的“奖励崩溃”问题，并成功使模型学会了有效迭代多步搜索的策略（平均搜索次数从 1 提升至约 2.5 次）。

具体案例剖析 (Case Study / 逻辑示例)

虽然论文中未给出具体的文本对话 Case，但根据其理论推导，我们可以构建一个直观的逻辑示例来理解 Cross-Stratum Bias 对探索的毁灭性打击：

假设针对某一个困难问题，当前策略模型采样了 8 条轨迹。其中有 4 条没有使用搜索（第0层），因为纯靠幻觉作答，平均得分为 0.2；另外 4 条调用了 2 次搜索（第2层），因为获取了外部知识，平均得分为 0.8。此时 8 条轨迹的全局平均分为 0.5。

在普通 GRPO (全局归一化) 中：
如果一条“0次搜索”的轨迹超常发挥拿到了 0.4 分（实际上在这个层级里表现绝佳），其优势值为 $0.4 - 0.5 = -0.1$。它被无情地惩罚了。
如果一条“2次搜索”的轨迹表现极差拿到了 0.6 分（实际上在这个层级里表现最拉垮），其优势值为 $0.6 - 0.5 = +0.1$。它被错误地奖励了。
同时，因为第2层整体由于探索初期的各种失误如果均值低于全局，普通 GRPO 会系统性地“贬低”整个第2层，导致模型放弃探索多步搜索，退化为只猜测。
在 Stratified GRPO 中：
将轨迹分为“0次搜索层”和“2次搜索层”。
上述表现好的0次搜索轨迹，优势值为 $0.4 - 0.2 = +0.2$（受到鼓励）。
上述表现差的2次搜索轨迹，优势值为 $0.6 - 0.8 = -0.2$（受到惩罚）。
结论：模型在每个策略动作分支上都学到了真正的“相对好坏”，从而鼓励它在继续保留搜索行为的同时，去优化搜索的质量。

方法论与技术实现

论文对 Global Normalization (GN) 的缺陷进行了代数拆解，并由此引出了 Stratified Advantage Normalization (SAN)。

1. 普通全局归一化的缺陷

标准 GRPO 中定义的 Global Normalized Advantage 为：

$A_{GN}(\tau_i) := \frac{R(\tau_i) - \bar{R}_{\text{global}}}{\hat{\sigma}_{\text{global}} + \varepsilon}$

论文在 Proposition 3 中证明，GN 可以严格等于 SAN 乘以一个缩放系数，再加上一个跨层偏移量 (Cross-Stratum Offset) $\Delta_k(x)$：

$\Delta_k(x) = \frac{\hat{\mu}_k(x) - \bar{R}_{\text{global}}(x)}{\hat{\sigma}_{\text{global}}(x) + \varepsilon}$

这个 $\Delta_k(x)$ 会带着 $(\hat{\mu}_k - \bar{R}_{\text{global}})$ 的符号，系统性地惩罚那些平均奖励低于全局均值的探索层，扼杀了模型对长序列复杂动作组合（如多次迭代搜索）的早期探索。

2. Stratified Advantage Normalization (SAN)

SAN 根据预定义的结构（例如：当前轨迹的 search count 是 $k$ 次）将批次集合划分为不同的子层 $B_k(x)$。对于属于第 $k$ 层的轨迹 $\tau_i$，其 Advantage 只跟同类比较：

$A_{SAN}(\tau_i) = \frac{R(\tau_i) - \hat{\mu}_k(x)}{\hat{\sigma}_k(x) + \varepsilon}$

$\hat{\mu}_k(x)$ 和 $\hat{\sigma}_k(x)$ 仅根据当前 prompt 下、同样进行了 $k$ 次搜索的样本进行统计。论文在 Theorem 4 中证明，这保证了每一层内的学习信号是条件零均值和单位方差的纯净载体（Signal Carrier）。

3. 应对小样本的混合优势 (Blended Advantage)

在有限样本机制（Finite-Sample Regimes）下，例如每条 prompt 仅采样 8 条响应，可能会出现某些层级（Strata）只有 1~2 条轨迹，导致局部均值和方差的估计噪音极大。为了兼顾局部的纯净性与全局的稳定性，作者提出了将 SAN 与 GN 线性混合的工程实践方案：

$A_{\text{blend}}(\tau) = \alpha A_{SAN}(\tau) + (1 - \alpha) A_{GN}(\tau), \quad \alpha \in [0, 1]$

当 $\alpha = 1$ 时退化为纯 SAN，$\alpha = 0$ 时为普通 GRPO。实验中，Base 模型取 $\alpha=0.6$，Instruct 模型取 $\alpha=0.8$ 取得了最优的稳定效果。

实验设置与结论分析

实验模型与任务：在 Qwen-2.5-3B 的 Base 和 Instruct 模型上进行 RL 训练；数据集涵盖单跳 QA (NQ, TriviaQA, PopQA) 和极度考验多步工具调用能力的多跳 QA (HotpotQA, 2Wiki, Musique, Bamboogle) 共 7 个 Benchmark。评估指标为 Exact Match (EM)。
对比基线：非常全面，包括直接生成、SFT、RAG、Agent 提示方法 (Search-o1, IRCoT)，以及各种 RL 方法 (RL 无搜索 R1, ReSearch, PPO-based Search-R1, 标准 GRPO)。
核心结论 1：大幅性能提升
在所有的基准测试上，Stratified GRPO 均表现最佳。相比标准 GRPO，在 Qwen-2.5-3B-Base 上平均提升了 8.3 个百分点 (33.3 -> 41.6)，在 Instruct 版本上更是暴涨 11.3 个百分点 (29.2 -> 40.5)。在难度最高的 Musique (多跳) 数据集上，相比所有基线几乎翻倍领先。
核心结论 2：拯救训练崩溃，挖掘极优探索策略
论文展示的训练动态（Training Dynamics）揭示：当在 Instruct 模型上跑标准 GRPO 时，在几步之后模型便遭遇“奖励崩溃”，搜索调用次数坍缩到极低甚至不再调用；而 Stratified GRPO 保持了奖励曲线的稳定攀升，并且模型最终学会了平均对每个问题调用 2.5 次搜索的迭代式策略，证明了消除 Cross-Stratum Bias 后，模型真正拥有了多步试错与长程信用的学习能力。

关键技术亮点分析

在当前业界狂热追逐 DeepSeek-R1 式的大规模强化学习与搜索 / 工具结合的浪潮中，这篇论文可谓切中了工程实践中最隐秘但极其痛的一环。几点深刻的行业启示：

“结构异质性”是 Agent RL 的核心绊脚石：我们过去常疑惑：为什么用 PPO 或 GRPO 训练复杂的多轮对话/工具调用时很容易崩？这篇论文明确指出，不同行为模式（如调工具和不调工具）的 Return 分布根本不是一个数量级的。全局的 Critic（无论是 PPO 的 Value Network，还是 GRPO 的 Global Mean Baseline）在面对这种方差极大的混合分布时都会严重失真。
四两拨千斤的“分层统计”Trick：比起花巨大代价去训练一个更庞大、能够 Conditioned On 历史调用的 Critic 模型，作者在 GRPO 算法中仅仅加入了“根据 Search Count 分组算均值和方差，并用一个 $\alpha$ 做平滑” 这样一个极简的代码改动，就彻底从数学机制上化解了这个问题。这是一种非常极致的、具有优雅数学证明的工程智慧。
高普适性：该方法不仅仅适用于 Search Agents。对于任何具有“离散状态跃迁（如调用代码执行器、调用计算器、选择不同思考路径分支）”从而导致后续轨迹异质化（长短、奖励分布突变）的 LLM Agent RL 训练场景，Stratified GRPO 都极有潜力成为替代原生 GRPO 的标准组件。即插即用，零额外计算开销。

ReSeek: 具备指导性奖励的自纠错搜索Agent框架

ReSeek: A Self-Correcting Framework for Search Agents with Instructive Rewards

作者：Shiyu Li, Yifan Wang, Peiming Li, Zheng Wei, Yang Tang

机构：腾讯 PCG 基础算法中心，清华大学深圳国际研究生院

📄 查看 ArXiv 原文

💡 研究背景与痛点 (Background & Pain Points)

在知识密集型任务中，将大语言模型（LLMs）与外部搜索引擎结合（即 Search Agents）已成为解决幻觉和知识过时的主流范式。近期，使用强化学习（RL）来优化此类 Agent 的多步推理能力（如 Search-R1、Search-o1）展现了巨大潜力。然而，该领域仍面临两个核心痛点：

稀疏奖励导致错误级联： 现有的 RL 训练方法过度依赖“最终答案是否正确（Exact Match）”这种稀疏、延迟的奖励。在多步推理中，一旦 Agent 在早期步骤（如提取了误导性的查询词）走错，缺乏过程级指导会让其陷入“死胡同”，无法自我评估并纠正路径。
数据污染掩盖真实推理能力： 现有的评测基准（如 NQ, TriviaQA）的内容大量存在于 LLM 的预训练语料中。模型往往是依赖预训练参数“背出”答案，而不是真正通过检索和推理（Procedural Reasoning）得出结论，这导致我们在评估 Search Agent 时存在严重的水分。

🎯 核心贡献 (Core Contributions)

ReSeek 动态自纠错框架： 引入了一个极其显式的 JUDGE (判断) 内部动作，使 Agent 具备在单轮 Episode 内部评估检索信息效用、暂停推理并动态调整搜索策略的“元认知”能力。
基于过程的指导性奖励函数 (Instructive Process Reward)： 设计了一种密集的中间步奖励机制。它通过外置的 Reranker 模型对检索结果与 Ground Truth 的语义相关性进行打分，来监督 JUDGE 动作的合理性，彻底解决了多步长序列信用分配（Credit Assignment）的问题。
抗污染评估基准 FictionalHot： 创造性地提出了一个“纯虚构实体”组成的闭集评测基准。通过 LLM 将真实世界的数据替换为合理的虚构实体和虚构维基百科文档，从根本上阻断了模型的参数记忆作弊路径。

🔍 具体案例剖析 (Case Study)

为了直观展示 ReSeek 的纠错能力，对比 多跳问题：“When was the creator of Saddle Rash born?” (《Saddle Rash》的创作者出生于何时？)：

❌ 传统 Agent (Search-R1) 的失败路径：

<search> creator of Saddle Rash -> 返回文档：包含作者名字 Loren Bouchard 及动画设定。 -> 行为： 发现作者名字，但没有出生日期。模型由于缺乏重规划机制，直接强行猜测（幻觉）停止搜索。 -> <answer> 1985 (错误答案)

✅ ReSeek 的动态自纠错路径：

<search> creator of Saddle Rash -> 返回文档：包含作者名字 Loren Bouchard。 -> <judge> No </judge> (Agent 推理：检索到了作者 Loren Bouchard，但没有他的出生日期，该信息不足以回答原问题，需发起二次检索) -> <search> Loren Bouchard birth date -> 返回文档：1969年10月10日出生... -> <judge> Yes </judge> -> <answer> October 10, 1969

⚙️ 方法论与技术实现 (Methodology)

1. 强化学习架构与 GRPO

研究团队将检索推理建模为 MDP。由于长思维链 (CoT) 很容易导致 PPO 算法发生 策略崩溃 (Policy Collapse)（作者发现 PPO 奖励和策略熵会同时断崖式下跌），他们最终采用了 DeepSeek-Math 等常用的 GRPO (Group Relative Policy Optimization) 算法。该方法在处理复杂逻辑和长跨度生成时展现了极高的稳定性。

2. 强制结构的 Prompt 与 JUDGE 动作

通过设定严格的系统 Prompt，模型被强制遵循 <think> -> <search> -> <information> -> <judge> -> (循环或 <answer>) 的链条。其中，判断标签 $j_t \in \{Yes, No\}$ 充当了认知过滤器 (Cognitive Filter) 的作用。判断为 'No' 标志着当前路径对最终答案无益，有效“阻断”了错误逻辑的延续，避免重复犯错。

3. 核心：稠密的指导性奖励设计 (Instructive Rewards)

为了让 Agent 学会“什么是有用的信息”，ReSeek 引入了双层奖励函数：

任务完成奖励 ($R_{answer}$)： 在最后一步基于答案与 Ground Truth (GT) 的精确匹配（Exact Match）给出。
中间步纠错奖励 ($R_{judge}$)： 每次调用 JUDGE 时触发。利用外部轻量级 Reranker 模型（BGE-reranker-large）计算当前 observation 与 GT 答案的语义相似度，若分数 > 0.7 则定义理想判断 $j_t^*$ 为 'Yes'，否则为 'No'。

🚨 关键细节：非对称惩罚 (Asymmetric Penalty)
作者发现，“召回导向（Recall-Oriented）”在复杂搜索中会导致上下文充斥无关噪声（幻觉）。因此他们设计了非对称惩罚：正确判断给 +0.3 奖励；但如果发生了 False Positive (接受了错误信息，即把没用的当成有用的) 惩罚高达 -0.6；而 False Negative (丢弃了有用信息) 惩罚仅为 -0.3。这极大抑制了模型接收“脏”上下文的冲动。

📊 实验设置与结论分析 (Experiments & Insights)

基础配置： 基于 Qwen2.5-3B/7B-Instruct，纯使用 FlashRAG 的 NQ 和 HotpotQA 训练集，在 8 个基准上测试。最多允许 4 轮 API 工具调用。
整体性能碾压： 在所有 8 个 QA 任务上，ReSeek 平均 EM 稳居第一 (7B: 37.7%, 3B: 31.2%)，显著领先于 ZeroSearch、Search-R1、Search-o1 及单路 RAG。且模型规模扩展到 Qwen3-30B-Thinking 时，性能继续跃升至 43.3%。
真实推理能力测试 (FictionalHot基准)： 这个指标非常震撼。在 TriviaQA 等传统集上各路基准能刷到 60%+，但在完全阻断数据污染的 FictionalHot 上，Zero-shot/Vanilla 仅得 0.001（近乎于 0），而 ReSeek-7B 仍能取得 0.061 的高分，这证明其优异表现是来源于真正的搜索决策能力而非“题海背诵”。
关于搜索轮数的边际效应： Ablation 实验证明，随轮数增加性能提升在 $T=4$ 时达到平台期。这意味着过多的强行多步搜索反而会因累积延迟与上下文杂讯带来收益递减。

🌟 资深从业者 Takeaways (Highlights & Analysis)

PRM (Process Reward Model) 的高性价比替代方案： 相比于像 DeepSeek-Math 那样人工标注或训练极其昂贵的 PRM 步骤奖励模型，ReSeek 采用了一个极低成本的 BGE-Reranker，通过对比“中间搜索内容”和“最终纯文本答案”的语义匹配度来平替 PRM。这是一个极其巧妙且工程易落地的设计。
RL中的非对称奖励整形 (Reward Shaping)： 在 Agent 轨迹中，引入垃圾信息的后果比漏掉部分信息的后果严重得多。ReSeek -0.6 (FP) vs -0.3 (FN) 的非对称惩罚告诉我们，在基于外部知识池的环境中，“宁缺毋滥” 是维护 LLM 上下文纯洁性的核心原则。
结构化思考 (Structured Prompting) 融合强化学习： 仅在 Prompt 里让模型 <judge> 是不够的（消融实验表明只加 Prompt 不加 RL 提升有限），必须通过 RL 强行矫正模型的价值网络。模型经过 80 个 step 的训练后，Format Violation 的错误率直接降为 0，说明模型内化了“停顿-审视-再行动”的逻辑范式。
评测“脱水”： FictionalHot 这种把 NQ/TriviaQA 改写为“平行宇宙”（保留图谱逻辑但全部替换为虚构实体，论文原话使用了 GPT-5 进行改写）的思路，堪称 Agent 领域防作弊评估的典范，值得所有从事垂类 Agent 评测的团队效仿。

大模型 Agent 与强化学习 (RL) 深度学术解读报告

GrepSeek: Training Search Agents for Direct Corpus Interaction

GrepSeek：训练用于直接语料库交互的搜索智能体

📍 研究背景与痛点 (Background & Pain Points)

🚀 核心贡献 (Core Contributions)

💡 具体案例剖析 (Case Studies)

⚙️ 方法论与技术实现 (Methodology & Implementation)

阶段 1：冷启动数据合成 (Cold-Start Data Generation)

阶段 2：基于 GRPO 的强化学习 (Reinforcement Learning with GRPO)

分片并行引擎优化 (Sharded-Parallel Corpus Search)

📊 实验设置与结论分析 (Experiments & Results)

💡 关键技术亮点分析 (Key Highlights)

MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning

研究背景与痛点

核心贡献

具体案例剖析 (Case Study)

方法论与技术实现

实验设置与结论分析

关键技术亮点分析

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

超越单查询局限：使用强化学习训练大模型进行查询扩展

🔍 1. 研究背景与核心痛点

💡 2. 核心贡献

🎯 3. 具体案例剖析 (Case Study)

⚙️ 4. 方法论与技术实现

4.1 多查询扩展 (Expand Phase)

4.2 知识挤压器 (Squeeze Phase)

4.3 强化学习与奖励机制

📊 5. 实验设置与结论分析

✨ 6. 关键技术亮点与从业者启发

Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents

背景与痛点

核心贡献

具体案例剖析 (Case Study / 逻辑示例)

方法论与技术实现

1. 普通全局归一化的缺陷

2. Stratified Advantage Normalization (SAN)

3. 应对小样本的混合优势 (Blended Advantage)

实验设置与结论分析

关键技术亮点分析

ReSeek: 具备指导性奖励的自纠错搜索Agent框架

ReSeek: A Self-Correcting Framework for Search Agents with Instructive Rewards

💡 研究背景与痛点 (Background & Pain Points)

🎯 核心贡献 (Core Contributions)

🔍 具体案例剖析 (Case Study)

❌ 传统 Agent (Search-R1) 的失败路径：

✅ ReSeek 的动态自纠错路径：

⚙️ 方法论与技术实现 (Methodology)

1. 强化学习架构与 GRPO

2. 强制结构的 Prompt 与 JUDGE 动作

3. 核心：稠密的指导性奖励设计 (Instructive Rewards)

📊 实验设置与结论分析 (Experiments & Insights)

🌟 资深从业者 Takeaways (Highlights & Analysis)