大模型 Agent 与强化学习 (RL) 深度学术解读报告

GrepSeek: Training Search Agents for Direct Corpus Interaction

GrepSeek:训练用于直接语料库交互的搜索智能体

作者:Alireza Salemi, Chang Zeng, Atharva Nijasure, Jui-Hui Chung, Razieh Rahimi, Fernando Diaz, Hamed Zamani

机构:UMass Amherst, Princeton University, Carnegie Mellon University

📄 查看 ArXiv 原文

📍 研究背景与痛点 (Background & Pain Points)

在知识密集型任务中,大语言模型(LLM)通常依赖检索增强生成(RAG)或 Agentic Search 来获取外部信息。传统的范式重度依赖于预先计算好的文档表征(如 BM25 稀疏索引或基于 E5/Qwen-Embedding 的稠密向量索引),并通过黑盒排序器返回 Top-K 文档供模型阅读。然而,这种范式在实际应用中暴露出以下痛点:

🚀 核心贡献 (Core Contributions)

本文提出了一种全新的补充性视角:直接语料交互(Direct Corpus Interaction, DCI)。智能体跳过预计算的检索索引,直接将原始语料库视为搜索环境,通过生成可执行的 Unix Shell 命令(如 rg, grep, head, wc)来寻找、过滤和组合证据。

💡 具体案例剖析 (Case Studies)

通过与当前最强的基于 RL 的稠密检索智能体 (Search-R1 + Qwen3-Emb-4B) 的对比,可以清晰看出 DCI 的威力与局限:

⚙️ 方法论与技术实现 (Methodology & Implementation)

训练一个能够熟练使用 grep 并在海量语料上保持行为稳定的模型并非易事,直接使用 RL 会导致探索空间爆炸(例如过度宽泛的查询导致 OOM)。因此,作者设计了两阶段训练法:

阶段 1:冷启动数据合成 (Cold-Start Data Generation)

构造高质量的多跳 Shell 检索轨迹。核心难点在于:如何确保合成的推理轨迹在逻辑上是因果连贯的(Forward Causal),而没有“提前泄露未检索到的答案”。作者采用了一套精妙的机制:

  1. 后向验证 (Backward Phase, 依赖 Tutor 模型): Tutor 知道标准答案 $y$。它将问题分解,并从最后一步倒推,生成目标掩码 (Target-masked) 的 Shell 命令 $c_i$,确保文档 $d_i$ 确实包含答案。这一步严格禁止在 query 中使用目标实体的别名。
  2. 前向组装 (Forward Phase, 依赖 Planner 模型): 随后将步骤倒序,交给不知道答案的 Planner 生成初稿推理。
  3. Tutor 修正与质量过滤 (Tutor-Guided Edit): Tutor 在保证“只基于当前历史信息”的前提下,润色 Planner 的推理过程,使其自然地推导出正确的 $c_i$。最后通过严格的时序边界检查(Trajectory Coherence Judge)剔除所有隐性泄露未来信息的样本。

阶段 2:基于 GRPO 的强化学习 (Reinforcement Learning with GRPO)

使用监督微调 (SFT) 模型作为初始化策略 $\pi_\theta$,引入组相对策略优化(Group Relative Policy Optimization, GRPO)进一步提升检索与推理能力。对于查询 $q$,采样组大小 $n=5$ 的轨迹 $\tau^{(1)}, ..., \tau^{(n)}$。奖励函数设计极具针对性:

设定格式指示符 $\phi(\tau^{(i)}) \in \{0, 1\}$,仅当模型严格遵循 <think>, <tool_call>, <answer> 的 XML 结构时才为 1。同时结合 Token 级别的 F1 分数 $R_{ans}(\tau^{(i)})$ 作为基础奖励:

$R(\tau^{(i)}) = \phi(\tau^{(i)}) R_{ans}(\tau^{(i)})$

随后在组内对奖励进行归一化计算优势函数 (Advantage):

$A^{(i)} = \frac{R(\tau^{(i)}) - \text{mean}(\{R(\tau^{(j)})\}_{j=1}^n)}{\text{std}(\{R(\tau^{(j)})\}_{j=1}^n) + \epsilon}$

分片并行引擎优化 (Sharded-Parallel Corpus Search)

为了让单次交互能在 1 秒内完成,底层重写了管道执行逻辑:引擎动态解析 Shell Pipeline,若是无状态操作(如 rg, cut, tr, sed),则将其分发到 $S$ 个按行划分的子语料库(内存盘中)并发执行;根据最后的操作(如 head -nwc -l)采用对应的 Reduce 策略合并结果。这在不改变任何行为语义的情况下,将检索延迟由 5.39s 降到了 0.71s。

📊 实验设置与结论分析 (Experiments & Results)

实验设置:在 7 个 QA 数据集上评估(3个单跳,4个多跳)。基座模型使用 Qwen3.5-9B。对比基线包括 Direct LLM, 标准 RAG, IRCoT, Search-O1, 以及当前 SOTA 的 Search-R1(同样使用 GRPO 训练)。检索器配置包含 BM25, E5-110M 和最新的 Qwen3-Embedding-4B。

核心结论:

💡 关键技术亮点分析 (Key Highlights)

从资深 LLM 开发者的视角来看,这篇工作的价值不仅在于刷榜,更在于揭示了 Retrieval 范式演进的新路径:

MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning

中文标题:MemSearcher:通过端到端强化学习训练大模型进行推理、搜索与记忆管理

核心作者:Qianhao Yuan, Jie Lou, Zichao Li 等

核心机构:中国科学院软件研究所(ISCAS)、小红书(Xiaohongshu Inc)、中国科学院大学

📄 查看 ArXiv 原文

研究背景与痛点

目前,基于大语言模型(LLM)的搜索智能体(Search Agents)在知识获取和多跳推理任务中展现出强大的能力。相比于传统的RAG系统,这些Agents以 ReAct(Reason + Act)为代表范式,能够自主决定何时调用搜索引擎以及如何整合外部信息。然而,随着交互轮数的增加,ReAct 范式暴露出致命瓶颈:

核心贡献

具体案例剖析 (Case Study)

论文中展示了一个复杂的多跳信息搜集过程,问题为:“What was the form of the language that the last name Sylvester comes from, used in the era of Rotrude's father, later known as?(Sylvester 姓氏来源语言在 Rotrude 父亲——即后来的神圣罗马帝国皇帝——那个时代的形式是什么?)

MemSearcher 的交互流如下:

剖析: 在整个过程中,MemSearcher 的输入始终只有“初始问题”和“上一轮浓缩的 Memory”,无论交互多少轮,被舍弃的网页原文噪音都被清理掉了,记忆始终保持在极短的字数内,思路极其清晰。

核心架构图
图注:Multi-Context GRPO 训练框架。该框架对同一问题采样多条轨迹,计算整个轨迹的奖励并生成 Advantage,然后将该 Advantage 传播回这条轨迹内的所有独立的轮次上下文(Context),以此更新策略大模型。

方法论与技术实现

1. Agent 迭代记忆整合模型 (Iterative Memory Integration)

在传统的 ReAct 中,第 $i$ 轮的 LLM 输入为 $c_i = (q, t_1, a_1, o_1, \dots, t_{i-1}, a_{i-1}, o_{i-1})$,输入呈线性增长。而在 MemSearcher 中,输入被精简为:

$$c_i = (q, m_{i-1})$$

其中 $q$ 是用户查询,$m_{i-1}$ 是上一轮的浓缩记忆(被 <memory> 包裹)。模型基于此生成思考 $t_i$ 和工具调用 $a_i$。在执行搜索得到庞杂的网页反馈 $o_i$ 后,LLM 读取 $o_i$ 并融合 $m_{i-1}$ 中仍然有用的信息,覆写生成新的紧凑记忆 $m_i$,彻底抛弃原始的网页片段。

2. Multi-Context GRPO 强化学习

由于 MemSearcher 的设计机制,轨迹(Trajectory)跨越多个回合,而且每一回合的 LLM 感受野(Context)被主动切断且各不相同。为了能够端到端地优化这种模式,作者对 DeepSeek 提出的 GRPO 算法进行了变体改造:

3. 奖励函数设计 (Reward Modeling)

采用了双重硬编码奖励机制:格式奖励(检查 XML tag的正确性,以及 \boxed{} 的存在)与回答奖励(利用 F1 Score 计算 \boxed{} 内部内容与 Ground Truth 的重合度)。这确保了不需要训练专门的 Reward Model 即可驱动 RL 飞轮。

实验设置与结论分析

关键技术亮点分析

对于 LLM Agent 从业者来说,这篇论文指出了一个极其务实的优化方向:从无脑拼接走向显式的状态更新。

  1. 从 RNN 汲取灵感的 Prompt Engineering: MemSearcher 相当于在 Prompt 层级手搓了一个 RNN / LSTM 的隐藏状态更新机制。模型不再被动阅读全文,而是主动承担“信息压缩机”的角色。这一范式让超长多跳任务脱离了对无限长 Context 模型的依赖,将内存成本降为 $O(1)$。
  2. 有效解决环境状态非马尔可夫性的 RL 训练: 通常将一整个交互流切断成各个单独 Context 会让 RL 难以进行(Credit Assignment 问题)。Multi-Context GRPO 通过最朴素的 Trajectory-level 组归一化并进行回合间的 Advantage 平均广播,证明了在生成式任务中,这种简单暴力的优势分配足以驱动 LLM 学会极其复杂的记忆擦写策略。这对未来其他多阶段、分步骤解耦的 Agent 训练有着巨大的参考价值。

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

超越单查询局限:使用强化学习训练大模型进行查询扩展

作者:Shu Zhao, Tan Yu, Anbang Xu

机构:NVIDIA, Pennsylvania State University

📄 查看 ArXiv 原文

🔍 1. 研究背景与核心痛点

随着强化学习在大型语言模型(LLM)中的应用突破,具备推理增强与搜索能力的智能体(如 Search-R1)在复杂问答任务中展现出巨大潜力。这类系统能够动态调用外部检索引擎,以克服静态参数化知识的局限性。然而,面对真实场景下复杂的多跳(Multi-hop)推理需求,现有搜索 Agent 面临着两个根源性的结构瓶颈:

💡 2. 核心贡献

为了解决高召回率与低噪声之间的矛盾,NVIDIA 研究团队提出了 ExpandSearch 框架,其核心贡献包括:

🎯 3. 具体案例剖析 (Case Study)

以下是 ExpandSearch 处理 HotpotQA 复杂多跳推理任务的真实生成轨迹,展现了其多查询并行与信息浓缩的威力:

Question: 2014 S/S is the debut album of a South Korean boy group that was formed by who? Ground Truth: YG Entertainment [ExpandSearch 推理轨迹] <think> 为了确定谁组建了这个男团,我需要先找出这个男团是谁。</think> <search> boy group that debuted with the album 2014 S/S ## male group first album 2014 S/S debut ## K-pop boy groups debut albums 2014 rookie artists </search> (注:模型并行生成了3个不同视角的 Query 来对抗检索模型的遗漏) <information> 基于提供的上下文,以下是针对查询的回答:WINNER 就是那个男团。 </information> (注:这一步是 Squeezer 的输出,将几十个冗杂的文本块浓缩成了一句话,喂给主干 Agent) <think> 现在我知道以 2014 S/S 出道的男团是 WINNER。我可以直接查找谁组建了他们。</think> <search> who formed the boy group WINNER ## WINNER boy group created by who ## who created the WINNER </search> <information> 基于提供的上下文,以下是针对查询的回答:YG Entertainment。 </information> <answer> YG Entertainment </answer>

⚙️ 4. 方法论与技术实现

ExpandSearch 框架由两个核心步骤的迭代循环构成,并依托于强化学习的优化。

4.1 多查询扩展 (Expand Phase)

在需要检索时,LLM 会在一个 <search></search> 块内输出多个用 ## 分隔的 Query 变体。对于生成的每个变体 $q_i$,系统调用搜索引擎 $\mathcal{R}$ 获取 $k$ 个最相关的文本块(Chunks):

$$\mathcal{C}_i = [c_i^1, \cdots, c_i^k] \leftarrow \mathcal{R}(q_i)$$

这从根本上克服了单向 Vector Embedding 带来的检索召回瓶颈(Weller et al., 2025)。

4.2 知识挤压器 (Squeeze Phase)

为了处理海量的 $n \times k$ 个文本块 $\mathcal{C}$,作者引入了一个冻结权重的预训练 LLM 作为 Squeezer(挤压器)。它通过 Few-shot Prompt 的形式,将用户的多个查询 $q$ 和大量长文本 $\mathcal{C}$ 压缩成干练的短摘要 $s$:

$$s = \pi_s([q_1, \cdots, q_n], [\mathcal{C}_1, \cdots, \mathcal{C}_n])$$

经过浓缩的信息 $s$ 被包裹在 <information></information> 标签内返回给主搜索 Agent,参与下一轮的 Reasoning。这使得 RL Rollout 阶段的显存消耗呈数量级下降,避免了 RL 优化因长文本爆显存的问题。

4.3 强化学习与奖励机制

Agent 在 PPO 算法下进行训练,不依赖人工标注的最佳搜索路径,仅依靠最终答案的对错进行奖惩。Reward 函数结合了 Exact-Match (EM) 与格式惩罚:

$$r = r_{\text{EM}} + \lambda r_{\text{f}}$$

只要系统通过复杂的自我扩展和反思最终得到了正确的 Answer 实体,即可获得正向 Reward。

📊 5. 实验设置与结论分析

✨ 6. 关键技术亮点与从业者启发

从工业界落地与资深从业者的视角,这篇论文带来了多个深刻的 Insight:

  1. Embedding 模型本质是脆弱的: 作者对训练后模型生成的查询扩展类型进行了分类,发现 63.35% 是 Syntax Expansion(语法/句式重构),仅 36.65% 是 Semantic Expansion(概念发散)。这暗示了当前的 Dense Retriever(如 E5)存在严重的“表面词汇敏感性”。强化学习敏锐地捕捉到了这一点,并自发学会通过 Paraphrase(同义改写)来打补丁。
  2. RL 训练架构的模块化解耦: 论文非常聪明地没有让 Agent 自己去吃掉海量检索文档。将 Information Distillation 剥离给一个静态的 API 节点(Squeezer),彻底解放了 PPO 的 Policy 模型,不仅将 rollout 的长度截断到了百 Token 级别,也大大降低了 Critic 网络估计 Value 时的方差。
  3. 极强的 Inference 可替换性: 作者证明,在部署(Inference)阶段,即便把训练时使用的笨重 17B Squeezer 降级替换为 8B 模型,Agent 依然能保持相当高的性能。这意味着系统可以在训练阶段用重型模型打通逻辑闭环,在线上推理侧换上便宜的“小杯”模型,具备极高的降本工程价值。

Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents

Stratified GRPO:处理LLM搜索智能体强化学习中的结构异质性

作者:Mingkang Zhu, Xi Chen, Bei Yu, Hengshuang Zhao, Jiaya Jia

机构:香港中文大学 (CUHK)、香港大学 (HKU)、香港科技大学 (HKUST)

📄 查看 ArXiv 原文

背景与痛点

随着大型语言模型(LLMs)能力的提升,为其配备外部工具(如搜索引擎)来解决复杂、多步问题(Search Agents)已成为当前 Agentic LLM(如 Search-R1 等类似系统)的核心演进方向。而强化学习(RL)是当前直接从结果导向的奖励(outcome-based rewards)中让模型学习高级工具使用策略的主流范式。

然而,在训练 LLM 搜索智能体时,往往被忽略的一个根本性挑战是:**智能体轨迹的结构异质性 (Structural Heterogeneity)**。

痛点剖析:跨层偏差 (Cross-Stratum Bias)
与传统强化学习(如 RLHF 或纯代码/数学推理的 RLVR)中轨迹模式相对单一不同,Search Agent 生成的轨迹(Trajectories)在结构上截然不同。一条调用了 0 次搜索的轨迹与调用了 3 次搜索的轨迹,其所面临的上下文、可能达成的奖励分布有着天壤之别。
当前主流的 RL 算法(如 GRPO)在估计策略梯度时,通常计算一个**单一的全局基线 (Single Global Baseline)**(如在整个 prompt 生成的样本 batch 内算均值)。这就导致了一种“把苹果和橘子进行对比”的系统性谬误:它强制将不同策略结构产生的异质轨迹拉入同一个池子中进行优势计算(Advantage estimation)。这不仅扭曲了信用分配(Credit Assignment),还阻碍了模型去探索那些暂时处于劣势但极具潜力的复杂多步搜索策略。

核心贡献

具体案例剖析 (Case Study / 逻辑示例)

虽然论文中未给出具体的文本对话 Case,但根据其理论推导,我们可以构建一个直观的逻辑示例来理解 Cross-Stratum Bias 对探索的毁灭性打击

假设针对某一个困难问题,当前策略模型采样了 8 条轨迹。其中有 4 条没有使用搜索(第0层),因为纯靠幻觉作答,平均得分为 0.2;另外 4 条调用了 2 次搜索(第2层),因为获取了外部知识,平均得分为 0.8。此时 8 条轨迹的全局平均分为 0.5

方法论与技术实现

论文对 Global Normalization (GN) 的缺陷进行了代数拆解,并由此引出了 Stratified Advantage Normalization (SAN)。

1. 普通全局归一化的缺陷

标准 GRPO 中定义的 Global Normalized Advantage 为:

$A_{GN}(\tau_i) := \frac{R(\tau_i) - \bar{R}_{\text{global}}}{\hat{\sigma}_{\text{global}} + \varepsilon}$

论文在 Proposition 3 中证明,GN 可以严格等于 SAN 乘以一个缩放系数,再加上一个跨层偏移量 (Cross-Stratum Offset) $\Delta_k(x)$:

$\Delta_k(x) = \frac{\hat{\mu}_k(x) - \bar{R}_{\text{global}}(x)}{\hat{\sigma}_{\text{global}}(x) + \varepsilon}$

这个 $\Delta_k(x)$ 会带着 $(\hat{\mu}_k - \bar{R}_{\text{global}})$ 的符号,系统性地惩罚那些平均奖励低于全局均值的探索层,扼杀了模型对长序列复杂动作组合(如多次迭代搜索)的早期探索。

2. Stratified Advantage Normalization (SAN)

SAN 根据预定义的结构(例如:当前轨迹的 search count 是 $k$ 次)将批次集合划分为不同的子层 $B_k(x)$。对于属于第 $k$ 层的轨迹 $\tau_i$,其 Advantage 只跟同类比较:

$A_{SAN}(\tau_i) = \frac{R(\tau_i) - \hat{\mu}_k(x)}{\hat{\sigma}_k(x) + \varepsilon}$

$\hat{\mu}_k(x)$ 和 $\hat{\sigma}_k(x)$ 仅根据当前 prompt 下、同样进行了 $k$ 次搜索的样本进行统计。论文在 Theorem 4 中证明,这保证了每一层内的学习信号是条件零均值和单位方差的纯净载体(Signal Carrier)。

3. 应对小样本的混合优势 (Blended Advantage)

在有限样本机制(Finite-Sample Regimes)下,例如每条 prompt 仅采样 8 条响应,可能会出现某些层级(Strata)只有 1~2 条轨迹,导致局部均值和方差的估计噪音极大。为了兼顾局部的纯净性与全局的稳定性,作者提出了将 SAN 与 GN 线性混合的工程实践方案:

$A_{\text{blend}}(\tau) = \alpha A_{SAN}(\tau) + (1 - \alpha) A_{GN}(\tau), \quad \alpha \in [0, 1]$

当 $\alpha = 1$ 时退化为纯 SAN,$\alpha = 0$ 时为普通 GRPO。实验中,Base 模型取 $\alpha=0.6$,Instruct 模型取 $\alpha=0.8$ 取得了最优的稳定效果。

实验设置与结论分析

关键技术亮点分析

在当前业界狂热追逐 DeepSeek-R1 式的大规模强化学习与搜索 / 工具结合的浪潮中,这篇论文可谓切中了工程实践中最隐秘但极其痛的一环。几点深刻的行业启示:

  1. “结构异质性”是 Agent RL 的核心绊脚石:我们过去常疑惑:为什么用 PPO 或 GRPO 训练复杂的多轮对话/工具调用时很容易崩?这篇论文明确指出,不同行为模式(如调工具和不调工具)的 Return 分布根本不是一个数量级的。全局的 Critic(无论是 PPO 的 Value Network,还是 GRPO 的 Global Mean Baseline)在面对这种方差极大的混合分布时都会严重失真。
  2. 四两拨千斤的“分层统计”Trick:比起花巨大代价去训练一个更庞大、能够 Conditioned On 历史调用的 Critic 模型,作者在 GRPO 算法中仅仅加入了“根据 Search Count 分组算均值和方差,并用一个 $\alpha$ 做平滑” 这样一个极简的代码改动,就彻底从数学机制上化解了这个问题。这是一种非常极致的、具有优雅数学证明的工程智慧。
  3. 高普适性:该方法不仅仅适用于 Search Agents。对于任何具有“离散状态跃迁(如调用代码执行器、调用计算器、选择不同思考路径分支)”从而导致后续轨迹异质化(长短、奖励分布突变)的 LLM Agent RL 训练场景,Stratified GRPO 都极有潜力成为替代原生 GRPO 的标准组件。即插即用,零额外计算开销。

ReSeek: 具备指导性奖励的自纠错搜索Agent框架

ReSeek: A Self-Correcting Framework for Search Agents with Instructive Rewards

作者:Shiyu Li, Yifan Wang, Peiming Li, Zheng Wei, Yang Tang

机构:腾讯 PCG 基础算法中心,清华大学深圳国际研究生院

📄 查看 ArXiv 原文

💡 研究背景与痛点 (Background & Pain Points)

在知识密集型任务中,将大语言模型(LLMs)与外部搜索引擎结合(即 Search Agents)已成为解决幻觉和知识过时的主流范式。近期,使用强化学习(RL)来优化此类 Agent 的多步推理能力(如 Search-R1、Search-o1)展现了巨大潜力。然而,该领域仍面临两个核心痛点:

🎯 核心贡献 (Core Contributions)

🔍 具体案例剖析 (Case Study)

为了直观展示 ReSeek 的纠错能力,对比 多跳问题:“When was the creator of Saddle Rash born?” (《Saddle Rash》的创作者出生于何时?)

❌ 传统 Agent (Search-R1) 的失败路径:

<search> creator of Saddle Rash -> 返回文档:包含作者名字 Loren Bouchard 及动画设定。 -> 行为: 发现作者名字,但没有出生日期。模型由于缺乏重规划机制,直接强行猜测(幻觉)停止搜索。 -> <answer> 1985 (错误答案)

✅ ReSeek 的动态自纠错路径:

<search> creator of Saddle Rash -> 返回文档:包含作者名字 Loren Bouchard。 -> <judge> No </judge> (Agent 推理:检索到了作者 Loren Bouchard,但没有他的出生日期,该信息不足以回答原问题,需发起二次检索) -> <search> Loren Bouchard birth date -> 返回文档:1969年10月10日出生... -> <judge> Yes </judge> -> <answer> October 10, 1969

⚙️ 方法论与技术实现 (Methodology)

核心架构图
图注:ReSeek 框架的自我评估能力训练流程。Agent 在每步搜索后必须输出 JUDGE 动作,训练时使用外部 Reranker 评分生成“理想判断(GT)”作为稠密奖励信号。

1. 强化学习架构与 GRPO

研究团队将检索推理建模为 MDP。由于长思维链 (CoT) 很容易导致 PPO 算法发生 策略崩溃 (Policy Collapse)(作者发现 PPO 奖励和策略熵会同时断崖式下跌),他们最终采用了 DeepSeek-Math 等常用的 GRPO (Group Relative Policy Optimization) 算法。该方法在处理复杂逻辑和长跨度生成时展现了极高的稳定性。

2. 强制结构的 Prompt 与 JUDGE 动作

通过设定严格的系统 Prompt,模型被强制遵循 <think> -> <search> -> <information> -> <judge> -> (循环或 <answer>) 的链条。其中,判断标签 $j_t \in \{Yes, No\}$ 充当了认知过滤器 (Cognitive Filter) 的作用。判断为 'No' 标志着当前路径对最终答案无益,有效“阻断”了错误逻辑的延续,避免重复犯错。

3. 核心:稠密的指导性奖励设计 (Instructive Rewards)

为了让 Agent 学会“什么是有用的信息”,ReSeek 引入了双层奖励函数:

🚨 关键细节:非对称惩罚 (Asymmetric Penalty)
作者发现,“召回导向(Recall-Oriented)”在复杂搜索中会导致上下文充斥无关噪声(幻觉)。因此他们设计了非对称惩罚: 正确判断给 +0.3 奖励;但如果发生了 False Positive (接受了错误信息,即把没用的当成有用的) 惩罚高达 -0.6;而 False Negative (丢弃了有用信息) 惩罚仅为 -0.3。这极大抑制了模型接收“脏”上下文的冲动。

📊 实验设置与结论分析 (Experiments & Insights)

🌟 资深从业者 Takeaways (Highlights & Analysis)

  1. PRM (Process Reward Model) 的高性价比替代方案: 相比于像 DeepSeek-Math 那样人工标注或训练极其昂贵的 PRM 步骤奖励模型,ReSeek 采用了一个极低成本的 BGE-Reranker,通过对比“中间搜索内容”和“最终纯文本答案”的语义匹配度来平替 PRM。这是一个极其巧妙且工程易落地的设计。
  2. RL中的非对称奖励整形 (Reward Shaping): 在 Agent 轨迹中,引入垃圾信息的后果比漏掉部分信息的后果严重得多。ReSeek -0.6 (FP) vs -0.3 (FN) 的非对称惩罚告诉我们,在基于外部知识池的环境中,“宁缺毋滥” 是维护 LLM 上下文纯洁性的核心原则。
  3. 结构化思考 (Structured Prompting) 融合强化学习: 仅在 Prompt 里让模型 <judge> 是不够的(消融实验表明只加 Prompt 不加 RL 提升有限),必须通过 RL 强行矫正模型的价值网络。模型经过 80 个 step 的训练后,Format Violation 的错误率直接降为 0,说明模型内化了“停顿-审视-再行动”的逻辑范式。
  4. 评测“脱水”: FictionalHot 这种把 NQ/TriviaQA 改写为“平行宇宙”(保留图谱逻辑但全部替换为虚构实体,论文原话使用了 GPT-5 进行改写)的思路,堪称 Agent 领域防作弊评估的典范,值得所有从事垂类 Agent 评测的团队效仿。