作者:Alireza Salemi, Chang Zeng, Atharva Nijasure, Jui-Hui Chung, Razieh Rahimi, Fernando Diaz, Hamed Zamani
机构:UMass Amherst, Princeton University, Carnegie Mellon University
在知识密集型任务中,大语言模型(LLM)通常依赖检索增强生成(RAG)或 Agentic Search 来获取外部信息。传统的范式重度依赖于预先计算好的文档表征(如 BM25 稀疏索引或基于 E5/Qwen-Embedding 的稠密向量索引),并通过黑盒排序器返回 Top-K 文档供模型阅读。然而,这种范式在实际应用中暴露出以下痛点:
本文提出了一种全新的补充性视角:直接语料交互(Direct Corpus Interaction, DCI)。智能体跳过预计算的检索索引,直接将原始语料库视为搜索环境,通过生成可执行的 Unix Shell 命令(如 rg, grep, head, wc)来寻找、过滤和组合证据。
通过与当前最强的基于 RL 的稠密检索智能体 (Search-R1 + Qwen3-Emb-4B) 的对比,可以清晰看出 DCI 的威力与局限:
rg -F "(ON)CHOH" corpus.jsonl。基于精确字符串匹配,瞬间定位到 Picric acid (苦味酸)。rg -F "Paul DeBoy" 查到游戏是 Red Dead Redemption,再通过管道 rg -F "Red Dead Redemption" | rg -i -F "developed",精确定位到其开发工作室 Rockstar San Diego。rg -F "Édouard Vaillant" 以及不带变音符号的 "Edouard Vaillant",但由于语料库中可能存在排版差异,未能命中包含出生地的核心段落,最终瞎猜。训练一个能够熟练使用 grep 并在海量语料上保持行为稳定的模型并非易事,直接使用 RL 会导致探索空间爆炸(例如过度宽泛的查询导致 OOM)。因此,作者设计了两阶段训练法:
构造高质量的多跳 Shell 检索轨迹。核心难点在于:如何确保合成的推理轨迹在逻辑上是因果连贯的(Forward Causal),而没有“提前泄露未检索到的答案”。作者采用了一套精妙的机制:
使用监督微调 (SFT) 模型作为初始化策略 $\pi_\theta$,引入组相对策略优化(Group Relative Policy Optimization, GRPO)进一步提升检索与推理能力。对于查询 $q$,采样组大小 $n=5$ 的轨迹 $\tau^{(1)}, ..., \tau^{(n)}$。奖励函数设计极具针对性:
设定格式指示符 $\phi(\tau^{(i)}) \in \{0, 1\}$,仅当模型严格遵循 <think>, <tool_call>, <answer> 的 XML 结构时才为 1。同时结合 Token 级别的 F1 分数 $R_{ans}(\tau^{(i)})$ 作为基础奖励:
$R(\tau^{(i)}) = \phi(\tau^{(i)}) R_{ans}(\tau^{(i)})$
随后在组内对奖励进行归一化计算优势函数 (Advantage):
$A^{(i)} = \frac{R(\tau^{(i)}) - \text{mean}(\{R(\tau^{(j)})\}_{j=1}^n)}{\text{std}(\{R(\tau^{(j)})\}_{j=1}^n) + \epsilon}$
为了让单次交互能在 1 秒内完成,底层重写了管道执行逻辑:引擎动态解析 Shell Pipeline,若是无状态操作(如 rg, cut, tr, sed),则将其分发到 $S$ 个按行划分的子语料库(内存盘中)并发执行;根据最后的操作(如 head -n 或 wc -l)采用对应的 Reduce 策略合并结果。这在不改变任何行为语义的情况下,将检索延迟由 5.39s 降到了 0.71s。
实验设置:在 7 个 QA 数据集上评估(3个单跳,4个多跳)。基座模型使用 Qwen3.5-9B。对比基线包括 Direct LLM, 标准 RAG, IRCoT, Search-O1, 以及当前 SOTA 的 Search-R1(同样使用 GRPO 训练)。检索器配置包含 BM25, E5-110M 和最新的 Qwen3-Embedding-4B。
核心结论:
从资深 LLM 开发者的视角来看,这篇工作的价值不仅在于刷榜,更在于揭示了 Retrieval 范式演进的新路径:
中文标题:MemSearcher:通过端到端强化学习训练大模型进行推理、搜索与记忆管理
核心作者:Qianhao Yuan, Jie Lou, Zichao Li 等
核心机构:中国科学院软件研究所(ISCAS)、小红书(Xiaohongshu Inc)、中国科学院大学
目前,基于大语言模型(LLM)的搜索智能体(Search Agents)在知识获取和多跳推理任务中展现出强大的能力。相比于传统的RAG系统,这些Agents以 ReAct(Reason + Act)为代表范式,能够自主决定何时调用搜索引擎以及如何整合外部信息。然而,随着交互轮数的增加,ReAct 范式暴露出致命瓶颈:
论文中展示了一个复杂的多跳信息搜集过程,问题为:“What was the form of the language that the last name Sylvester comes from, used in the era of Rotrude's father, later known as?(Sylvester 姓氏来源语言在 Rotrude 父亲——即后来的神圣罗马帝国皇帝——那个时代的形式是什么?)”
MemSearcher 的交互流如下:
<memory> Sylvester 这个姓氏来源于拉丁语(Latin)。</memory><memory> Sylvester 来源于拉丁语。Rotrude 的父亲是 Charlemagne。</memory>剖析: 在整个过程中,MemSearcher 的输入始终只有“初始问题”和“上一轮浓缩的 Memory”,无论交互多少轮,被舍弃的网页原文噪音都被清理掉了,记忆始终保持在极短的字数内,思路极其清晰。
1. Agent 迭代记忆整合模型 (Iterative Memory Integration)
在传统的 ReAct 中,第 $i$ 轮的 LLM 输入为 $c_i = (q, t_1, a_1, o_1, \dots, t_{i-1}, a_{i-1}, o_{i-1})$,输入呈线性增长。而在 MemSearcher 中,输入被精简为:
$$c_i = (q, m_{i-1})$$
其中 $q$ 是用户查询,$m_{i-1}$ 是上一轮的浓缩记忆(被 <memory> 包裹)。模型基于此生成思考 $t_i$ 和工具调用 $a_i$。在执行搜索得到庞杂的网页反馈 $o_i$ 后,LLM 读取 $o_i$ 并融合 $m_{i-1}$ 中仍然有用的信息,覆写生成新的紧凑记忆 $m_i$,彻底抛弃原始的网页片段。
2. Multi-Context GRPO 强化学习
由于 MemSearcher 的设计机制,轨迹(Trajectory)跨越多个回合,而且每一回合的 LLM 感受野(Context)被主动切断且各不相同。为了能够端到端地优化这种模式,作者对 DeepSeek 提出的 GRPO 算法进行了变体改造:
3. 奖励函数设计 (Reward Modeling)
采用了双重硬编码奖励机制:格式奖励(检查 XML tag的正确性,以及 \boxed{} 的存在)与回答奖励(利用 F1 Score 计算 \boxed{} 内部内容与 Ground Truth 的重合度)。这确保了不需要训练专门的 Reward Model 即可驱动 RL 飞轮。
对于 LLM Agent 从业者来说,这篇论文指出了一个极其务实的优化方向:从无脑拼接走向显式的状态更新。
作者:Shu Zhao, Tan Yu, Anbang Xu
机构:NVIDIA, Pennsylvania State University
随着强化学习在大型语言模型(LLM)中的应用突破,具备推理增强与搜索能力的智能体(如 Search-R1)在复杂问答任务中展现出巨大潜力。这类系统能够动态调用外部检索引擎,以克服静态参数化知识的局限性。然而,面对真实场景下复杂的多跳(Multi-hop)推理需求,现有搜索 Agent 面临着两个根源性的结构瓶颈:
为了解决高召回率与低噪声之间的矛盾,NVIDIA 研究团队提出了 ExpandSearch 框架,其核心贡献包括:
以下是 ExpandSearch 处理 HotpotQA 复杂多跳推理任务的真实生成轨迹,展现了其多查询并行与信息浓缩的威力:
ExpandSearch 框架由两个核心步骤的迭代循环构成,并依托于强化学习的优化。
在需要检索时,LLM 会在一个 <search></search> 块内输出多个用 ## 分隔的 Query 变体。对于生成的每个变体 $q_i$,系统调用搜索引擎 $\mathcal{R}$ 获取 $k$ 个最相关的文本块(Chunks):
$$\mathcal{C}_i = [c_i^1, \cdots, c_i^k] \leftarrow \mathcal{R}(q_i)$$
这从根本上克服了单向 Vector Embedding 带来的检索召回瓶颈(Weller et al., 2025)。
为了处理海量的 $n \times k$ 个文本块 $\mathcal{C}$,作者引入了一个冻结权重的预训练 LLM 作为 Squeezer(挤压器)。它通过 Few-shot Prompt 的形式,将用户的多个查询 $q$ 和大量长文本 $\mathcal{C}$ 压缩成干练的短摘要 $s$:
$$s = \pi_s([q_1, \cdots, q_n], [\mathcal{C}_1, \cdots, \mathcal{C}_n])$$
经过浓缩的信息 $s$ 被包裹在 <information></information> 标签内返回给主搜索 Agent,参与下一轮的 Reasoning。这使得 RL Rollout 阶段的显存消耗呈数量级下降,避免了 RL 优化因长文本爆显存的问题。
Agent 在 PPO 算法下进行训练,不依赖人工标注的最佳搜索路径,仅依靠最终答案的对错进行奖惩。Reward 函数结合了 Exact-Match (EM) 与格式惩罚:
$$r = r_{\text{EM}} + \lambda r_{\text{f}}$$
只要系统通过复杂的自我扩展和反思最终得到了正确的 Answer 实体,即可获得正向 Reward。
从工业界落地与资深从业者的视角,这篇论文带来了多个深刻的 Insight:
Stratified GRPO:处理LLM搜索智能体强化学习中的结构异质性
作者:Mingkang Zhu, Xi Chen, Bei Yu, Hengshuang Zhao, Jiaya Jia
机构:香港中文大学 (CUHK)、香港大学 (HKU)、香港科技大学 (HKUST)
📄 查看 ArXiv 原文随着大型语言模型(LLMs)能力的提升,为其配备外部工具(如搜索引擎)来解决复杂、多步问题(Search Agents)已成为当前 Agentic LLM(如 Search-R1 等类似系统)的核心演进方向。而强化学习(RL)是当前直接从结果导向的奖励(outcome-based rewards)中让模型学习高级工具使用策略的主流范式。
然而,在训练 LLM 搜索智能体时,往往被忽略的一个根本性挑战是:**智能体轨迹的结构异质性 (Structural Heterogeneity)**。
痛点剖析:跨层偏差 (Cross-Stratum Bias)
与传统强化学习(如 RLHF 或纯代码/数学推理的 RLVR)中轨迹模式相对单一不同,Search Agent 生成的轨迹(Trajectories)在结构上截然不同。一条调用了 0 次搜索的轨迹与调用了 3 次搜索的轨迹,其所面临的上下文、可能达成的奖励分布有着天壤之别。
当前主流的 RL 算法(如 GRPO)在估计策略梯度时,通常计算一个**单一的全局基线 (Single Global Baseline)**(如在整个 prompt 生成的样本 batch 内算均值)。这就导致了一种“把苹果和橘子进行对比”的系统性谬误:它强制将不同策略结构产生的异质轨迹拉入同一个池子中进行优势计算(Advantage estimation)。这不仅扭曲了信用分配(Credit Assignment),还阻碍了模型去探索那些暂时处于劣势但极具潜力的复杂多步搜索策略。
虽然论文中未给出具体的文本对话 Case,但根据其理论推导,我们可以构建一个直观的逻辑示例来理解 Cross-Stratum Bias 对探索的毁灭性打击:
假设针对某一个困难问题,当前策略模型采样了 8 条轨迹。其中有 4 条没有使用搜索(第0层),因为纯靠幻觉作答,平均得分为 0.2;另外 4 条调用了 2 次搜索(第2层),因为获取了外部知识,平均得分为 0.8。此时 8 条轨迹的全局平均分为 0.5。
论文对 Global Normalization (GN) 的缺陷进行了代数拆解,并由此引出了 Stratified Advantage Normalization (SAN)。
标准 GRPO 中定义的 Global Normalized Advantage 为:
$A_{GN}(\tau_i) := \frac{R(\tau_i) - \bar{R}_{\text{global}}}{\hat{\sigma}_{\text{global}} + \varepsilon}$
论文在 Proposition 3 中证明,GN 可以严格等于 SAN 乘以一个缩放系数,再加上一个跨层偏移量 (Cross-Stratum Offset) $\Delta_k(x)$:
$\Delta_k(x) = \frac{\hat{\mu}_k(x) - \bar{R}_{\text{global}}(x)}{\hat{\sigma}_{\text{global}}(x) + \varepsilon}$
这个 $\Delta_k(x)$ 会带着 $(\hat{\mu}_k - \bar{R}_{\text{global}})$ 的符号,系统性地惩罚那些平均奖励低于全局均值的探索层,扼杀了模型对长序列复杂动作组合(如多次迭代搜索)的早期探索。
SAN 根据预定义的结构(例如:当前轨迹的 search count 是 $k$ 次)将批次集合划分为不同的子层 $B_k(x)$。对于属于第 $k$ 层的轨迹 $\tau_i$,其 Advantage 只跟同类比较:
$A_{SAN}(\tau_i) = \frac{R(\tau_i) - \hat{\mu}_k(x)}{\hat{\sigma}_k(x) + \varepsilon}$
$\hat{\mu}_k(x)$ 和 $\hat{\sigma}_k(x)$ 仅根据当前 prompt 下、同样进行了 $k$ 次搜索的样本进行统计。论文在 Theorem 4 中证明,这保证了每一层内的学习信号是条件零均值和单位方差的纯净载体(Signal Carrier)。
在有限样本机制(Finite-Sample Regimes)下,例如每条 prompt 仅采样 8 条响应,可能会出现某些层级(Strata)只有 1~2 条轨迹,导致局部均值和方差的估计噪音极大。为了兼顾局部的纯净性与全局的稳定性,作者提出了将 SAN 与 GN 线性混合的工程实践方案:
$A_{\text{blend}}(\tau) = \alpha A_{SAN}(\tau) + (1 - \alpha) A_{GN}(\tau), \quad \alpha \in [0, 1]$
当 $\alpha = 1$ 时退化为纯 SAN,$\alpha = 0$ 时为普通 GRPO。实验中,Base 模型取 $\alpha=0.6$,Instruct 模型取 $\alpha=0.8$ 取得了最优的稳定效果。
在当前业界狂热追逐 DeepSeek-R1 式的大规模强化学习与搜索 / 工具结合的浪潮中,这篇论文可谓切中了工程实践中最隐秘但极其痛的一环。几点深刻的行业启示:
作者:Shiyu Li, Yifan Wang, Peiming Li, Zheng Wei, Yang Tang
机构:腾讯 PCG 基础算法中心,清华大学深圳国际研究生院
📄 查看 ArXiv 原文在知识密集型任务中,将大语言模型(LLMs)与外部搜索引擎结合(即 Search Agents)已成为解决幻觉和知识过时的主流范式。近期,使用强化学习(RL)来优化此类 Agent 的多步推理能力(如 Search-R1、Search-o1)展现了巨大潜力。然而,该领域仍面临两个核心痛点:
JUDGE (判断) 内部动作,使 Agent 具备在单轮 Episode 内部评估检索信息效用、暂停推理并动态调整搜索策略的“元认知”能力。JUDGE 动作的合理性,彻底解决了多步长序列信用分配(Credit Assignment)的问题。为了直观展示 ReSeek 的纠错能力,对比 多跳问题:“When was the creator of Saddle Rash born?” (《Saddle Rash》的创作者出生于何时?):
<search> creator of Saddle Rash
-> 返回文档:包含作者名字 Loren Bouchard 及动画设定。
-> 行为: 发现作者名字,但没有出生日期。模型由于缺乏重规划机制,直接强行猜测(幻觉)停止搜索。
-> <answer> 1985 (错误答案)
<search> creator of Saddle Rash
-> 返回文档:包含作者名字 Loren Bouchard。
-> <judge> No </judge>
(Agent 推理:检索到了作者 Loren Bouchard,但没有他的出生日期,该信息不足以回答原问题,需发起二次检索)
-> <search> Loren Bouchard birth date
-> 返回文档:1969年10月10日出生...
-> <judge> Yes </judge>
-> <answer> October 10, 1969
研究团队将检索推理建模为 MDP。由于长思维链 (CoT) 很容易导致 PPO 算法发生 策略崩溃 (Policy Collapse)(作者发现 PPO 奖励和策略熵会同时断崖式下跌),他们最终采用了 DeepSeek-Math 等常用的 GRPO (Group Relative Policy Optimization) 算法。该方法在处理复杂逻辑和长跨度生成时展现了极高的稳定性。
通过设定严格的系统 Prompt,模型被强制遵循 <think> -> <search> -> <information> -> <judge> -> (循环或 <answer>) 的链条。其中,判断标签 $j_t \in \{Yes, No\}$ 充当了认知过滤器 (Cognitive Filter) 的作用。判断为 'No' 标志着当前路径对最终答案无益,有效“阻断”了错误逻辑的延续,避免重复犯错。
为了让 Agent 学会“什么是有用的信息”,ReSeek 引入了双层奖励函数:
JUDGE 时触发。利用外部轻量级 Reranker 模型(BGE-reranker-large)计算当前 observation 与 GT 答案的语义相似度,若分数 > 0.7 则定义理想判断 $j_t^*$ 为 'Yes',否则为 'No'。🚨 关键细节:非对称惩罚 (Asymmetric Penalty)
作者发现,“召回导向(Recall-Oriented)”在复杂搜索中会导致上下文充斥无关噪声(幻觉)。因此他们设计了非对称惩罚:
正确判断给 +0.3 奖励;但如果发生了 False Positive (接受了错误信息,即把没用的当成有用的) 惩罚高达 -0.6;而 False Negative (丢弃了有用信息) 惩罚仅为 -0.3。这极大抑制了模型接收“脏”上下文的冲动。
<judge> 是不够的(消融实验表明只加 Prompt 不加 RL 提升有限),必须通过 RL 强行矫正模型的价值网络。模型经过 80 个 step 的训练后,Format Violation 的错误率直接降为 0,说明模型内化了“停顿-审视-再行动”的逻辑范式。