作者:Bin Chen, Xinye Liao, Yiming Liu, Xin Liao, Chonghan Liu
机构:未知(通过邮箱 frederchen0@gmail.com 推测为独立研究者或隐匿机构)
当前,训练支持搜索的LLM智能体(Search-augmented LLM agents)的主流范式是基于可验证奖励的强化学习(RLVR, Reinforcement Learning with Verifiable Rewards),例如Search-R1和DeepSeek-R1中所采用的方法。在这种框架下,自动验证器(Verifier)仅根据最终答案的准确性(Outcome-only)给出0或1的稀疏奖励。
核心痛点:长程探索中的极端奖励稀疏性
本文提出了一种优雅且低成本的训练时干预机制——CAPF(Credit-Attenuated Privileged Feedback,信用衰减特权反馈),旨在通过复用RLVR中已经存在的Verifier信息,在无需额外标注的情况下恢复丢失的学习信号。
为了更直观地理解特权反馈如何将一条“死胡同”轨迹盘活,我们来看论文中给出的一个多跳QA失败修复案例(对应原文 Figure 11):
Question: the area in which crop is grown at a particular time or crop season is called? (特定时间或作物生长季节种植作物的区域称为什么?)
Reference answer (Ground Truth): growing season (生长季)
[Training Trace with CAPF]
Action (Agent): wiki_search(query="area in which crop is grown at a particular time or crop season")
Observation (Env): [Retrieved passages...]
Action (Agent): privileged_feedback
(Agent submits internal candidate: "growing region")
Observation (Privileged Env): "The candidate response focuses on a geographical area rather than the time period asked for. Revise the final answer."
(环境发现模型答非所问,提示其关注时间周期而非地理区域)
Action (Agent) [Post-feedback Repair]:
Reasoning: The term for the time period during which crops are grown is known as a growing season.
Answer: growing season
Outcome Verifier: Reward = 1
深度解析: 在 Outcome-only RL 中,模型输出 "growing region" 后游戏结束,Reward=0,模型学不到任何东西。在 CAPF 中,模型通过特权反馈意识到了语义焦点的偏差,执行了自我修复(Repair)。在这个过程中,模型学会了如何更好地审视问题约束、如何从证据中提取更精确的信息。这些修复技能是可泛化的(Transferable behavior),能够在部署时不依赖反馈工具而发挥作用。
CAPF 的核心在于非对称动作空间(Asymmetric Action Space)和后向信用衰减(Backward Credit Attenuation)。
定义基础搜索智能体动作空间为 $\mathcal{T}_{\text{base}}$(包含搜索、推理、最终答案)。训练时,扩展动作空间:$\mathcal{T}_{\text{train}} = \mathcal{T}_{\text{base}} \cup \{a_{\text{PF}}\}$。部署时恢复:$\mathcal{T}_{\text{test}} = \mathcal{T}_{\text{base}}$。
特权动作 $a_t = a_{\text{PF}}(\hat{y}_t)$ 本身不直接改变任务Reward,而是由环境对比候选答案 $\hat{y}_t$ 与 Ground Truth $y^\star$,将包含指导建议的文本(见上文Case Study)作为 Observation 返回。
普通的 RLVR 在一条轨迹最终成功时,会将 $R(\tau)=1$ 平均分配给轨迹中的所有动作。但对于依赖 $a_{\text{PF}}$ 成功的轨迹,其早期的错误尝试不应该获得高信用。设 $T$ 为生成最终答案的步数,对于步骤 $t$ 处的策略决策,定义该步骤之后发生特权反馈调用的次数为:
$N_t^{\text{PF}}(\tau) = \sum_{s=t}^{T-1} \mathbb{I}[a_s = a_{\text{PF}}(\cdot)]$
引入保留因子(Retention factor) $0 < \rho_{\text{PF}} \le 1$。步骤 $t$ 处的衰减回报(Return)定义为:
$G_t^{\text{CAPF}}(\tau) = R(\tau) \rho_{\text{PF}}^{N_t^{\text{PF}}(\tau)}$
工程实现直觉: 在从后向前的Reward传播中,每穿过一个 $a_{\text{PF}}$ 节点,当前的累计回报就乘以 $\rho_{\text{PF}}$(例如 0.8)。因此,特权反馈之后的修复动作拿全奖,而之前的瞎搜动作被惩罚(降权)。
使用 REINFORCE++ 进行 Critic-free 的策略优化。只需要将传统 Advantage 计算中基于 $R(\tau)$ 的 Return 替换为上述的 $G_t^{\text{CAPF}}$ 即可,无需改动优化器或 Baseline Subtraction 逻辑。Loss 函数如下:
$\mathcal{L}_{\text{pg}}(\theta) = - \sum_{t \in \mathcal{A}_\pi(\tau)} \widehat{A}_t \log \pi_\theta(a_t \mid h_t)$
环境返回的反馈文本(Tokens)被 Mask 掉,不参与策略梯度计算。
在移除了特权工具的严格部署环境 (Deployment Environment) 下:
论文对 $\rho_{\text{PF}} = 1.0$(即不衰减,把修复轨迹当做普通成功轨迹)进行了对比:
Authors: Nianyi Lin*, Jiajie Zhang*, Lei Hou, Juanzi Li
Institution: Tsinghua University
在当前的 LLM 研发中,长上下文推理(Long-Context Reasoning)是单次推理和多轮智能体系统(Agentic Systems)的核心能力瓶颈。虽然基于可验证奖励的强化学习(RLVR,如 DeepSeekMath 使用的方法)在数学和代码领域大放异彩,但在长文本推理中直接套用却面临两个致命痛点:
为了解决上述问题,清华团队提出了 LongTraceRL 框架,从数据构造和奖励函数设计双管齐下:
为了直观展现 LongTraceRL 的威力,我们来看一个来自 AA-LCR 基准测试的真实长文本推理失败与成功对比(对应原论文 Case 1):
[输入困境:信息冲突识别]
Question: "考虑一个包含560家中型(medium-sized)澳大利亚企业的样本,每家企业约有 450 名员工。预计有多少家企业会受员工非招揽条款的限制?"
陷阱:输入的背景文档 1 定义:“中型”企业为 20-199 人;“大型”企业为 >199 人。文档进一步给出数据:全体企业限制条款比例为 18.0%;但 200-999 人的大型企业该比例为 37.6%。题目字面声称“中型”,但给出的员工数 450 人实际上属于“大型”。
[Baseline (Outcome-Only GRPO) 的表现] ❌
模型陷入了语义字面捷径。它直接看到 "medium-sized" 和文档中的 "18.0%" 整体比例,简单相乘得出 $560 \times 18.0\% = 101$。它未能深入阅读并识别出分类标准的内部矛盾。
[LongTraceRL-4B 的表现] ✅
在 <think> 过程中,模型明确指出:"根据ABS分类,中型为20-199人,问题中的 450 人企业实际上落入了 '大型' 类别(200-999区间)。这似乎是题目用词的不规范(misnomer),我必须使用匹配员工人数(450人)的业务类别标准。"
随后模型正确提取了 37.6% 这个隐藏在长文档中的真实比例,得出 $560 \times 37.6\% \approx 211$ 的正确答案。这证明了 Rubric 奖励成功迫使模型进行深度阅读和多步验证,而非仅仅依赖表面关键词匹配。
1. 数据构造流水线 (Data Construction Pipeline):
2. 强化学习与奖励设计 (RL with Rubric Reward):
采用 GRPO (Group Relative Policy Optimization) 算法。基础的 Outcome 奖励 $r_{oc} \in \{0, 1\}$ 由 LLM Judge 评判答案是否正确。核心创新在于实体级的 Rubric 奖励($\hat{r}_{rb}$):
为了在 GRPO 的一个组(Group Size $G$)内保持尺度一致性,引入了 Group-Level Normalization(除以组内最大值)。
Positive-Only 组合策略:
从业者视角点评:这是一个非常工程化且优雅的 Hack 解决方案。如果不加条件限制(即 Positive&Negative),模型很快会发现:瞎猜答案但把上下文里看着像实体的词全抄一遍,也能获得高分(Reward Hacking)。限定 $r_{oc} > 0$ 强制让 Rubric 奖励的作用变为:在所有正确的回复中,选出那些推理链条最完整(提及最多正确中间实体)的样本给予更高权重。
实验设置:基于 Slime 框架训练,序列总长设为 160K(128K Prompt + 32K Response)。基座模型涵盖密集的 Qwen3-4B-Thinking、蒸馏的 DeepSeek-R1-0528-Qwen3-8B,以及混合专家模型 Qwen3-30B-A3B-Thinking。在 AA-LCR, MRCR, FRAMES, LongBench v2 等 5 个残酷的 Long-context 基准上进行评估。
核心结论:
traj-tiered (59.0) > traj-random (57.4) > search (单次检索 56.7) > random (纯随机负采样 55.7) 上的表现完美符合预期。统计显示,Tier-1 干扰项与真实问题存在大量实体交叉(Ent-Recall 达 14.65%),是真正能逼迫模型产生“认知辨析”的 Hard Negatives。👥 作者:Quy Minh Le, Minh Sao Khue Luu, Khanh-Tung Tran, Duc-Hai Nguyen, Hoang-Quoc-Viet Pham, Quan Le, Hoang Thanh Lam, Hoang D. Nguyen
🏫 机构:ToolBrain Research (爱尔兰), UCC (爱尔兰), UCD (爱尔兰), IBM Research (都柏林)
目前,基于大语言模型(LLM)的智能体(Agent)在执行复杂任务(如规划、代码生成、API交互)中已展现出巨大的潜力。然而,作为资深的LLM从业者,我们深知在真实业务场景中开发和部署 Tool-augmented Agents 的痛点:
Task-Tool 轨迹(Execution Traces)成本极其高昂。本文提出了 ToolBrain,一个极其轻量、对开发者友好的强化学习框架,专门为训练Agent的工具使用能力而设计。其核心贡献包括:
smolagents, langchain)。论文对 ToolBrain 处理无标注数据的 Zero-Learn 数据合成流水线进行了剖析,通过输入一段高级别的 task_description(如:"Generate tasks to learn to use simple finance tools"),框架会自动引导模型生成三种类型的 Queries:
"Calculate Loan Payment with annual rate of 5%, 7 years, principal of $10,000." (引导Agent调用相应财务函数)"What is the formula for calculating compound interest?""...convert this amount to USD using the current exchange rate and compute the NPV." (当前工具可能并不支持汇率转换)代码层面的极简体验:
ToolBrain 在计算 Reward 时的 API 设计极具实战价值。例如,针对 Agent 的执行步骤,开发者可以简单传入一个 Python callable 进行效率惩罚(如附录代码所示):
penalty = (num_turns - max_turns) * 0.1
return max(0.0, 1.0 - penalty)
配合 brain.train() 一行代码即可开启端到端的 GRPO 强化学习。

ToolBrain 的工作流封装在高度模块化的技术栈中:
Turn 包含:prompt_for_model,model_completion,解析出的 tool_code 以及 tool_output。这使得下游的 RL 算法完全与具体的 Agent 实现隔离。文章设计了一个核心实验和两个补充实验,验证了框架对不同规模模型的能力提升:
实验清晰地证明了无论是大模型的泛化推理提效,还是极小模型的特定领域任务注入,ToolBrain 的整套流程都极其有效。
站在工业界大模型研发的视角,ToolBrain 这篇论文最打动人的并非是提出了什么震惊世界的全新算法,而是其在 “工程化解耦” 和 “训练生态大一统” 上做的卓越抽象:
无中生有(Zero-Learn) -> 大带小(Distillation Warm-up) -> 精细雕琢(GRPO/DPO + Tool Retrieval) 的全套范式。这正是目前企业界快速适配垂直领域 Agent 最急需的 Standard Operating Procedure (SOP)。作者:Jiaqi Shao, Yuxiang Lin, Munish Prasad Lohani, Yufeng Miao, Bing Luo
机构:昆山杜克大学 (Duke Kunshan University), Microsoft AI
近年来,基于强化学习(RL)训练的自主式LLM Search Agents(如DeepSeek-R1系列、Search-R1等)在开放域问答(QA)任务中展现出了极高的能力。这些Agent通过在“思考”和“检索”之间交替,解决复杂的信息寻求问题。
行业痛点:目前的Agent评估体系严重依赖于“最终答案级”指标(如Exact Match、F1 Score)。这种唯结果论的评测范式掩盖了Agent在推理过程中的致命缺陷:它们缺乏认识能力(Epistemic Competence)。在实际业务中,我们经常发现高分Agent依然会“一本正经地胡说八道”(幻觉证据)、在检索不到有效信息时死循环(缺乏恢复策略)、或者在证据严重不足时盲目自信地给出最终答案(校准错误)。行业急需一种能够深入剖析多轮Trace、进行“过程级(Process-level)”量化评估的基准。
论文中展示了一个典型的 Correct Answer with Ungrounded Reasoning(答案正确但推理悬空) 失败案例(Case Study):
User Query: "Who won the first celebrity big brother on channel 5?"(谁赢得了第5频道的首届《名人老大哥》?)
Agent观察到的证据 (Evidence): "Celebrity Big Brother 1... concluded on 16 March 2001 when comedian Jack Dee was crowned the winner."(...喜剧演员Jack Dee夺冠。)
Agent的内部推理 (Reasoning): "I need to clarify which Big Brother series I am referring to... Now, I have to find out the winner of that show."(我需要弄清楚我指的是哪个老大哥系列……现在我得查出那个节目的赢家是谁。)
最终输出 (Answer): Jack Dee (EM=1, F1=1)
分析: 如果按传统F1评估,该Agent拿满分。但从Trace来看,Agent完全无视了已经完美回答该问题的检索结果(Jack Dee),继续制定了毫无必要的后续搜索计划。最终答对纯粹是因为底层知识(Parametric Memory)的碰巧,或是由于后续误打误撞的搜索。这种认知与行动的脱节,在企业级严谨应用中是不可接受的,凸显了SeekBench对Groundedness评估的必要性。

为了将抽象的认识能力(Epistemic Competence)转化为可量化的具体特征,研究团队首先定义了证据状态 (Evidence State),作为后续所有指标评估的锚点。
在Trace $\mathcal{T}$ 的第 $t$ 步,定义清晰度 $C_{i,t} \in \{0, 1\}$ 和充足度 $Q_{i,t} \in \{0, 1\}$。证据状态 $E_{i,t}$ 定义为:
$E_{i,t} := C_{i,t} + Q_{i,t} \in \{0, 1, 2\}$
其中 $E=0$ 表示差(不清不楚),$E=1$ 为部分证据,$E=2$ 为好证据(清晰且充足)。
衡量推理过程的 Groundedness。对于每一次推理步骤,其内容是否被当前检索到的证据所支撑(Grounding Label $G_{i,t} \in \{0, 1\}$)。模型级别的 RQI 表现为所有Trace的期望均值:
$\text{RQI}_{\text{model}} := \mathbb{E}_{i \in \mathcal{I}}[\text{RQI}_i] \quad \text{其中} \quad \text{RQI}_i = \mathbb{E}_{t \in S_i}[G_{i,t}]$
该指标还可以分解到特定的认知意图上(如:信息综合、计划生成、状态评估),并以 $E_{i,t}$ 为条件进行条件概率分析,看模型在证据充分($E=2$)时是否能比证据不足时($E=0$)做到更好的逻辑自洽。
评估 Agent 陷入信息贫乏时跳出困境的能力。定义一个恢复事件时间 $T_{\text{recover},i}$ 为首次获取到好证据($E_{i,t}=2$)或作答正确的 Turn:
$\text{ERF}(t) := \frac{1}{N} \sum_{i=1}^N \mathbb{I}(T_{\text{recover},i} \le t)$
借用生存分析(Kaplan-Meier)的思路,ERF曲线越陡峭,证明该 Agent 对抗“垃圾检索结果”的恢复效率越高。
Agent应只在掌握好证据($E_{i,t}=2$)时才结束思考并回答问题,即理想策略为 $\pi^*(k) := \mathbb{I}[k = 2]$。CE 用于衡量模型决策偏离理想状态的程度:
$\text{CE}_i := \sum_{k=0}^2 \mathbb{P}(E_{i,t} = k) \cdot \left| \mathbb{P}(\text{answer}_{i,t} = 1 \mid E_{i,t} = k) - \pi^*(k) \right|$
如果 Agent 在 $E=0$ 时高频回答,属于典型的“过度自信”(Overconfident);如果在 $E=2$ 时依然不断检索不输出,则是“过度谨慎”(Overcautious)。
实验对象: Qwen-2.5-7B (Base, Few-shot) 以及 SOTA 的基于 RL 训练的 Agent (Search-R1, ReSearch, ASearcher, DeepResearcher)。覆盖7大QA benchmark。
核心发现:
Refine(对新信息细化)和 FollowUp 搜索策略能最快促使状态恢复,而 Repeat(重复查询)毫无益处。ASearcher 在恢复能力上表现最优。由于这套过程级基准成功地将 Agent 能力解耦,研究团队提出了一个极具工业界落地价值的实验:Agent Synthesis(多Agent融合)。由于 ASearcher 擅长找证据和恢复,而 Search-R1 擅长信息综合(Information Synthesis RQI 高达 0.63)且态度严谨,那么把一个模型的 Trace 喂给另一个模型做决策会怎样?
反常识结果: 1. Search-R1 堪称最强“答题手”(作为 Synthesizer 时,给所有模型都带来了正向 F1 提升,最高提升 1.27)。 2. 令人意外的是,使用 Base 模型的检索证据输入给其它模型时,F1 的提升幅度最大(对Search-R1提升了 3.50 F1)!
深度Insight: 这一发现戳破了唯 F1 论的假象。Base 模型其实具有极强的“证据收集”底层素养,只是它不擅长基于庞杂证据合成最终答案。如果单看端到端性能,Base 被严重低估,而 RL 模型的进步则被一定程度上高估。在未来复杂 Agent 架构设计中,应当考虑走向模块化架构:使用 Base 型模型作为外层高效 Retriever,使用经特定 RL 对齐的模型(如 Search-R1)作为最终的 Synthesizer 和 Validator,以达到最佳效能与可靠性。
作者 / 机构:Lang Mei, Zhihan Yang, Xiaohan Yu, Huanyao Zhang, Chong Chen / 华为云计算事业部 (Huawei Cloud BU), 北京大学
近年来,将大语言模型(LLMs)与搜索引擎结合(Agentic Search)并利用强化学习(RL)进行端到端优化(如 Search-R1 等)展现出极高的潜力。然而,现有的 RL 驱动搜索 Agent 面临以下关键痛点:
因此,一种更务实、高效的架构呼之欲出:使用一个小尺寸、可训练的 LLM 专门负责“怎么搜”(Search Planner),搭配一个大尺寸、冻结的 LLM 专门负责“怎么答”(Frozen Generator)。
本文提出 AI-SearchPlanner 框架,专注于通过 RL 训练小参数量的独立搜索规划器,从而大幅提升复杂 QA 的端到端性能。其核心创新包含三个层面:
在应对复杂的多跳推理(Multi-hop Reasoning)问题时,AI-SearchPlanner 的优势极为明显。以下是原论文附录提供的真实截取案例:
Question: In what county is the city that shares a border with the capital of the state where Levi Casey was born? (Levi Casey 出生州的州首府,与该首府接壤的城市位于哪个县?)
Ground Truth: Richland County
对比 Baseline (Qwen3-32B):
- Direct Inference (无搜索): 答错(Grundy County)
- Naive RAG (一次性朴素检索): 检索到的文档包含 Levi Casey、罗马天主教教区等杂乱信息,无法串联逻辑,答错(Jefferson County)
AI-SearchPlanner 轨迹 (
"where was Levi Casey born",搜索获得文档表明他出生于 South Carolina(南卡罗来纳州)。"capital of South Carolina",检索出首府是 Columbia(哥伦比亚市)。"city that shares a border with Columbia, South Carolina",从文档确认 Columbia 及周边区域信息。"county that contains Columbia, South Carolina",检索确认 Columbia 是 Richland County 的县城。call_answer_llm 工具,将浓缩的轨迹信息丢给 Frozen Generator。最终大模型得出正确答案:Richland County。可训练的 $LLM_{plan}$ 在每一轮 $t$ 迭代生成规划上下文,并决定:(1) 调用 search 工具发出子查询 $\{sq\}^t$ 检索网页;或 (2) 终止推理,触发 call_answer_llm,将累积的轨迹 $T$ 喂给冻结的 $LLM_{gen}$ 输出答案 $a$。
模型不直接奖励绝对的 Answer 正确性,而是奖励“规划带来的增益”:
引入了系统交互成本,由规划轮数 $L$(影响延迟)和总查询词数量(影响搜索引擎计费)组成:
最终送入 PPO 训练的总 Reward 为效用与成本的组合:$R_{pareto} = R_{utility} + \alpha * R_{cost} + R_{format}$,通过调参 $\alpha$ 可控制模型趋向于“高性能”还是“低成本”。
在 PPO Rollout 阶段,模型上下文中包含大量从搜索引擎拉回的真实网页 Docs(环境观察)。在计算 Policy Gradient 时,作者严格做了 Loss Masking,把检索内容剔除在梯度回传之外。这确保了 RL 只优化大模型的“规划逻辑与思考过程”,防止其固有语言能力被外部杂乱文本污染。
实验设置:基于 Qwen2.5-7B-Instruct 训练 Planner;Generator 使用了 Qwen3-32B, Deepseek-V3 和 Deepseek-R1。在涵盖 7 个 Wiki-based 数据集(NQ, HotpotQA, Musique等)和 2 个 Web-based 数据集上进行了全面评测。
核心结论:
对于 LLM 工业界从业者,这篇论文带来了几个极其落地的启发: