大模型 Agent 与强化学习 (RL) 深度学术解读报告

Encouraging Good Processes Without the Need for Good Answers: Reinforcement Learning for LLM Agent Planning

无需“好答案”也能鼓励“好过程”:面向LLM Agent规划的强化学习

作者:Zhiwei Li, Yong Hu, Wenqing Wang

机构:WeChat, Tencent Inc. (微信/腾讯), Peking University (北京大学)

📄 查看 ArXiv 原文

研究背景与痛点

在当前大语言模型(LLM)Agent 的工作流中,核心能力主要拆分为两个阶段:规划(Planning)(即调用外部工具收集信息的阶段)和总结(Summarization)(即综合信息生成最终回复的阶段)。目前业内主流的 Agent 强化学习训练范式(如最近开源的各类复杂推理模型)通常采用**端到端(End-to-End)的多目标优化**,即将“最终答案的正确性”作为奖励(Reward),同时更新 Planning 和 Summary 策略。

然而,这种高度耦合的端到端范式在工业真实业务场景落地时,面临两个极为棘手的痛点:

核心贡献

为了解决上述工业界应用难题,微信/腾讯团队提出了一种创新框架:带有工具调用奖励的强化学习 (RLTR, Reinforcement Learning with Tool-use Rewards),其核心思想是“重过程,轻结果”。

具体案例剖析

论文通过具体 Case Study 展示了 RLTR 奖励机制相较于传统 Answer Reward 的优越性,以及 Planner 优化对最终输出的决定性作用(参见原文 Page 12-13 的 Figure 7):

案例一:当 Agent 学会了“骗”奖励(Reward Hacking)

Query: “计算北京和上海的温差”

Agent 轨迹: Agent 调用了 Search 搜索“北京天气”,获取到了北京温度(16~29℃)。随后,Agent 没有去搜索上海天气,而是直接基于幻觉(Hallucination)编造了上海温度,并计算给出了一个看似正确的温差数值。

传统终答评估 (Answer Reward): 判定最终回答包含具体数字且“回答了问题”,错误地给出了正向 Reward (1分)。

工具完整性评估 (Tool-Use Completeness): 敏锐捕捉到轨迹中缺失了获取上海天气的 API 调用,直接判定过程“不完整”,给出负向 Reward (0分)。

案例二:优化的 Planner 如何拯救最终结果

Query: “诗集《Moments So Quiet》的作者是谁?”

Unoptimized Planner: 仅仅发起一次搜索,匹配到了一个名为“王宗坤”的作家有类似短篇小说集,便停止调用并直接输出错误结论。

Optimized Planner (RLTR训练后): 发起第一次搜索后,发现存在多义性。其策略被优化为“必须获取充分证据”,因此主动发起了第二次搜索,专门查询了澳门诗人“贺绫声”与该诗集的关联。获取到决定性证据后,将完整上下文传给 Summarizer,最终输出了正确答案。

方法论与技术实现

传统范式下,策略 $\pi_e$ 同时生成动作 $a$ 和最终答案 $y$,优化目标高度耦合。RLTR 框架将其解耦,使得 Planner $\pi_p$ 根据查询 $q$ 和历史交互 $\mathcal{H}_t$ 仅负责生成轨迹 $\tau = (s_0, a_0, \dots, s_T, a_T)$。其整体优化目标重定义为:

$$ \pi^*_p = \arg\max_{\pi_p} \mathbb{E}_{\tau \sim \pi_p}[R(\tau)], \quad y = \pi_s(\tau), \text{where} \; \tau \sim \pi^*_p $$

具体的工程实现划分为三个核心阶段:

  1. 冷启动 (Cold Start): 利用强大的 Teacher LLM(如 Qwen3-32B)执行知识蒸馏。通过模拟环境生成交互轨迹,并进行拒绝采样(Rejection Sampling),保留 best-of-n 的轨迹,对 Planner 进行监督微调(SFT)。
  2. 工具调用完整性奖励 (Tool-Use Completeness Calculation): 为了避免对可验证答案的强依赖,定义完整性检查函数 $\gamma: \mathcal{S} \to \{0, 1\}$,由另一个 LLM(Comp. Checker)按特定 Prompt 执行。对生成的轨迹进行 $N$ 次采样取平均:

    $$ R_{comp} = \frac{1}{N} \sum_{i=1}^N \gamma_i(\tau) $$

  3. 多轮强化学习 (Multi-Turn Reinforcement Learning): 将工具完整性奖励与规则惩罚(重复调用惩罚 $R_{repeat}$、错误调用惩罚 $R_{error}$)结合:

    $$ R_{total} = \begin{cases} -1, & \text{if trajectory format is invalid,} \\ R_{comp} + R_{rule}, & \text{otherwise.} \end{cases} $$

    利用标准的 RL 目标更新 Planner(支持 PPO/GRPO/REINFORCE++ 等算法):

    $$ \pi^*_p = \arg\max_{\pi_p} \mathbb{E}_{x \sim \mathcal{D}, a \sim \pi_p(\cdot|x;\mathcal{T})} [R(x, a)] - \beta \mathbb{D}_{KL} [\pi_\theta(a|x;\mathcal{T}) \| \pi_{\text{ref}}(a|x;\mathcal{T})] $$

训练模板 Trick: 在构建 RL 轨迹时,作者使用 Mask 技术屏蔽了“非动作/非思考”部分的 Loss(例如屏蔽了工具返回的观测结果和最终 summary)。这使得梯度完全聚焦于 Agent 的“决策行为”,防止了梯度信号稀释。

实验设置与结论分析

实验在包含搜索(Search)和代码执行(Code)工具的沙盒环境中进行。模型基座选择了 Qwen3-1.7B 和 Qwen3-8B,基线对比包括直接推断(DIRECT)、端到端SFT(E2E SFT)、端到端RL(E2E RL)。

关键技术亮点分析

这篇论文为大模型 Agent 落地的两个致命瓶颈(可验证数据稀缺、长轨迹 RL 梯度混乱)提供了一个优雅的工程化解决方案。亮点总结如下:

  1. 巧妙的转化思路(Shift in perspective): 当前大部分 Agent 的 RL 工作(如 DeepSeek-R1 延伸的相关研究)仍执着于找寻“数学/代码”这类自带客观对错的场景。而本文立足于工业界 99% 的 Unverifiable 场景,通过将评估标尺从“答案对不对”转移到“动作完不完整”,开辟了弱监督强化学习的新路。
  2. 精准绕开 Credit Assignment 陷阱: 在复杂工作流中,如果把生成动作和生成最终文本放在同一个模型的同一次 forward-backward 中优化,必然面临表征空间的拉扯。解耦之后,Planner 的 Loss 和 Reward 完全贴合“工具交互”的特性,模型可以心无旁骛地学习如何当一个好“搜索员/程序员”,而把“发言人”的任务交给后置模块。
  3. 落地的极高泛化性: RLTR 提出的训练 Template 和 Mask 机制非常轻量级,它不需要专门收集特定的标注数据,可以直接利用现有的 SFT 经验进行冷启动,并通过验证模型快速自举,极大地降低了工业级复杂 Agent 系统(尤其是具备深层搜索、计算需求的 AI 助手)的 RL 对齐成本。

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

中文标题:Agent Lightning:用强化学习训练任意AI Agent

作者:Xufang Luo, Yuge Zhang, Zhiyuan He, 等

机构:Microsoft Research (微软亚洲研究院)

📄 查看 ArXiv 原文

🔍 研究背景与痛点

随着DeepSeek-R1等模型的成功,基于强化学习(RL)提升大模型(LLM)的推理和复杂决策能力成为当前的重中之重。然而,现有的RL训练框架(如verl、TRL、OpenRLHF)主要面向单轮交互(Single-turn)场景(如数学证明或指令对齐),当扩展到复杂的、需要多轮交互、工具调用甚至多智能体协同的真实AI Agent场景时,面临巨大的系统和算法瓶颈:

💡 核心贡献

微软提出了 Agent Lightning,这是首个实现了 Agent执行与RL训练完全解耦(Complete Decoupling) 的灵活可扩展框架,允许开发者以“近乎零代码修改”的方式对现有任意Agent进行RL微调:

🛠️ 具体案例剖析 (Case Study)

为了直观展示 Agent Lightning 如何将复杂工作流转换为 RL 数据集,论文给出了一个典型的 Retrieval-Augmented Generation (RAG) 多轮交互Agent的执行流程(基于OpenAI Agents SDK开发,执行基于维基百科的MuSiQue数据集问答):

Agent Workflow 拆解与变量追踪:

  1. Turn 1 - 检索意图生成:
    • Input/State:用户输入问题 UserInput: "xxx"
    • Action/LLM Call 1:策略模型(待优化LLM)根据输入生成搜索查询 Query = "xxx"
    • Environment:外部搜索工具 (Search Tool) 获取Query,返回文档片段 Passages。此步骤仅为环境反馈,无策略模型梯度。
  2. Turn 2 - 答案生成与汇总:
    • Input/State:此时系统的状态不仅包含初始的 UserInput,还融合了 Passages,以此作为 LLM 的新上下文。
    • Action/LLM Call 2:策略模型基于上述综合上下文,生成最终答案 Answer
    • Reward:基于生成的 Answer,计算最终的任务级奖励 $R$(如 F1-Score)。

传统框架做法:将上述所有 Prompt、Query、工具调用记录、Passages、Answer 拼接为一个长达数千Token的超长序列,通过精细计算Mask,仅对 QueryAnswer 计算 Loss。

Agent Lightning 做法:提取并分解出两条独立的 Transition:
Transition 1: (Input = Prompt1 + UserInput, Output = Query, Reward = R)
Transition 2: (Input = Prompt2 + Passages, Output = Answer, Reward = R)
这两条独立、变短的样本可直接扔进单轮GRPO进行优势估计和梯度更新,完全摒弃了Mask的繁琐实现!

核心架构图
图注:Agent Lightning 框架概览图。展示了用户定制的Agent(左侧,涵盖不同的逻辑、外部工具调用和数据源)如何通过高度解耦的接口,将轨迹数据(Trajectories)自动提取并输入到强化学习引擎中(右侧),形成“模型更新->Agent能力提升”的闭环迭代。

⚙️ 方法论与技术实现

1. 基于MDP的Agent状态转移抽象

将待优化的 LLM(参数 $\theta$)视为 Policy,Agent框架的每次执行视为部分可观测马尔可夫决策过程 (POMDP)。在时刻 $t$,系统捕获语义变量形成上下文 input_t。LLM生成一个Token序列 output_t 作为动作 $a_t$。每次完整执行(Execution)可抽象为:

$$ execution^{RL}(x, k) = \{ (\text{input}^{x,k}_t, \text{output}^{x,k}_t, r^{x,k}_t) \}_{t=1}^T $$

2. LightningRL 算法

由于LLM往往是以自回归形式逐Token生成的,而Agent侧的交互是以单次完整Call为粒度。LightningRL 采用分层强化学习 (HRL) 范式连接两者:

$$ \mathcal{L}(\theta) = -\mathbb{E}_{x \sim \mathcal{X}, \text{output} \sim \pi_\theta(\cdot|x)} \left[ \sum_{j=1}^N \log \pi_\theta(y_j|x, y_{

3. Training-Agent Disaggregation 分离架构

为解决训练态与执行态的资源错配与工程耦合,系统划分为 ServerClient

📊 实验设置与结论分析

为了证明框架通用性,论文选用了3个差异巨大的Agent任务(基座模型统一为 Llama-3.2-3B-Instruct):

结论:所有的Reward曲线都展现出稳定且持续的上升趋势,彻底验证了通过离散 Transition 代替长序列拼接这一范式的正确性和训练稳定性。

🌟 关键技术亮点分析 (Takeaways for LLM Practitioners)

  1. 直击落地痛点:对于工业界而言,用RL做Agent的对齐一直是个脏活累活,大家苦于“怎么把复杂的LangChain逻辑塞进PPO框架里”。Agent Lightning 的 Client-Server 架构优雅地解耦了算力密集(Trainer)与逻辑密集(Agent)的模块。这种 RPC 风格的微服务架构是做大规模 Agent 微调的必经之路。
  2. 打破 Sequence Masking 的“迷信”:过去社区一直认为要保持完整的 KV-Cache 和绝对位置编码,必须把历史 Interaction 全部塞进一条巨长的 Context 中并做复杂的 Loss Masking。本文证明了在 MDP 假设下,截断上下文为独立 Transition 不仅完全可行,更能极大程度节约长序列注意力计算(Quadratic Cost),显著提升训练 Throughput。
  3. 对 MARL (Multi-Agent RL) 极度友好:由于 Transition 被打散,系统可以非常容易地通过筛选 Component ID,只针对系统中特定的“思考型 Agent”回传梯度,而冻结“总结型 Agent”或外部大模型,这种灵活性是传统框架难以企及的。

基于大语言模型的深度搜索智能体综述:范式、优化、评估与挑战

A Survey of LLM-based Deep Search Agents: Paradigm, Optimization, Evaluation, and Challenges

👥 作者:Yunjia Xi, Jianghao Lin, Yongzhao Xiao, Zheli Zhou, Rong Shan, Te Gao, Jiachen Zhu, Weiwen Liu, Yong Yu, Weinan Zhang

🏛️ 机构:上海交通大学,中南大学

🔗 链接:📄 查看 ArXiv 原文

🔍 研究背景与痛点

近年来,大语言模型(LLMs)的出现彻底改变了信息检索范式。从最初依赖用户手动筛选信息的传统网页搜索 (Traditional Web Search),发展到现今广泛使用的LLM增强搜索 (LLM-enhanced Search, 如传统的 RAG),即通过LLM进行单轮的 Query Rewriting(查询重写)或摘要总结。然而,这种结合往往是静态的:模型高度依赖单轮检索或预设规则,缺乏主动探索能力,面对长尾知识、复杂逻辑或需要多步推理的动态上下文时显得捉襟见肘。

在此背景下,搜索智能体 (Search Agents) 应运而生。它标志着从“被动信息聚合”向“主动、深度、动态的自主信息搜寻”的关键转变。典型的代表如 OpenAI 的 Deep Research、Google Gemini、Perplexity 等,它们能够自主理解用户意图和环境上下文,执行多轮动态检索,不仅局限于互联网,还能深挖私有数据库和智能体内部记忆。然而,目前学术界和工业界对 Search Agents 的架构、优化路径及评估体系尚未有一个全局且系统性的梳理,这正是本篇综述试图解决的核心痛点。

💡 核心贡献

🎯 具体案例剖析:Deep Research 的执行轨迹

为了直观理解 Search Agent 的运作模式,我们可以将其形式化为一个马尔可夫决策过程(MDP)。假设用户输入一个高度复杂的意图 $q$ 及其上下文 $C$(例如:“分析近三年生成式AI在药物研发领域的商业化进展及最新监管政策”)。

  1. Plan (初始规划): Agent 根据 $q$ 初始化搜索策略 $\pi_0 = \text{Plan}(q, C)$,例如将其分解为“AI药物研发商业化现状”与“FDA最新AI医疗监管政策”。
  2. Act & Observe (执行与观察): 在步骤 $t$,Agent 执行动作 $a_{t+1} = \text{Act}(\pi_{t+1})$(如在特定领域数据库搜索或调用浏览器)。环境返回观察结果 $o_t$(如检索到的数篇网页长文)。
  3. Reflect (反思与动态调整): 这是与传统 RAG 最大的区别。Agent 阅读 $o_t$ 后,结合历史轨迹 $h_t$,评估当前信息是否充分或存在矛盾,并动态更新下一步计划 $\pi_{t+1} = \text{Reflect}(o_t, h_t, \pi_t)$。
  4. Select & Generate (综合生成): 经过多次迭代,直到获取充足信息,Agent 提取核心证据集 $E = \text{Select}(q, O)$,并最终输出符合用户意图的高质量研究报告 $\hat{y}_q = \text{Generate}(q, E)$。
核心架构图
图注:Search Agent 的全景结构概览:涵盖了如何搜索(搜索范式)、如何优化(Tuning/Tuning-free)、如何应用(内部/外部环境)以及如何评估(数据集与判别方法)。

🛠️ 方法论与技术实现

论文将当前构建 Search Agent 的技术栈拆解为“搜索结构”与“优化方法”两大核心支柱:

1. 如何构建搜索策略 (How to Search)

2. 如何优化 Agent (How to Optimize)

无微调方法 (Tuning-Free):

微调方法 (Tuning-based):

📊 评估体系与现状分析

对于 Search Agent,传统的单轮 QA 评估显然已失效,目前的评估体系正向以下维度演进:

🚀 资深从业者视角:核心挑战与未来破局点

尽管学术界与 OpenAI/Perplexity 等工业界产品在 Search Agent 取得了巨大进展,但论文指出的几个方向也是目前研发面临的核心壁垒:

  1. 从纯文本向多模态迈进 (From Text to Multi-Modality): 真实的搜索环境是网页、PDF、图片、视频交织的。下一代 Agent 必须能基于图像生成查询动作,或在反思环节 (Reflect) 综合处理跨模态观测(Observations)。
  2. 不完美检索下的鲁棒性 (Imperfect Retrieval): 现实中的外部知识库充满了噪音、偏见甚至事实冲突。Search Agent 急需强化自身的“批判性质疑能力(Skepticism)”,不仅是检索,而是具备跨源比对与去伪存真的事实核查机制。
  3. 定制化强化学习 (Customized RL for Search): 传统的 RL 框架面对长周期搜索任务时存在奖励稀疏、知识边界模糊的问题。对于 Open-ended 任务(没有标准答案),如何定义并训练鲁棒的 PRM 和 ORM 奖励模型,将是拉开各家大厂 Deep Research 能力差距的核心技术。
  4. 智能体的自我进化 (Self-Evolution): 终极的 Search Agent 应该能够通过在环境中持续交互,自主发现其搜索策略的局限性,自发生成修正假设,实现无人类干预的策略迭代,迈向更高级别的 AGI 探索能力。

WebAgent-R1:通过端到端多轮强化学习训练网页代理

英文标题:WEBAGENT-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

作者团队:Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang 等

研究机构:University of Virginia, Amazon, Georgia Institute of Technology

📄 查看 ArXiv 原文

研究背景与痛点

尽管强化学习(RL)在提升大语言模型(LLMs)能力方面取得了巨大成功(如近期引起轰动的 DeepSeek-R1),但现有应用绝大多数仍局限于单轮(Single-turn)、非交互式的任务,例如数学推理和代码生成。对于需要长视野(long-horizon)决策和持续动态交互的网页代理(Web Agents),RL 的潜力远未被充分挖掘。

当前业界训练 LLM-based Web Agent 面临以下核心痛点:

核心贡献

为了解决上述痛点,本文提出了 WebAgent-R1,一个极简且高效的端到端多轮强化学习框架:

  1. 提出了真正的端到端多轮 RL 范式:无需复杂的 Off-policy 数据清洗和额外的 Reward Model,纯靠与环境在线交互并依赖规则级成功指标(Rule-based binary reward)即可完成闭环。
  2. 引入两大工程机制:针对网页 DOM 动辄上万 Token 导致的 OOM 问题,提出了动态上下文压缩(Dynamic Context Compression);为了提高 M-GRPO 的采样效率,实现了并行轨迹展开(Parallel Trajectory Rollout)
  3. 刷新多轮交互 SOTA:在 WebArena-Lite 严苛测评下,Qwen-2.5-3B 成功率从 6.1% 暴涨至 33.9%,Llama-3.1-8B 从 8.5% 飙升至 44.8%,在同量级模型中形成代差优势,并显著超越闭源模型 OpenAI o3。
  4. 深入消融实验与洞见:探讨了纯 RL(Zero)、长思考微调(Long-CoT)对冷启动的影响,并揭示了多轮 Web Agent 在 Test-time Scaling 上的独特表现——即“通过增加交互轮数来换取成功率”。

具体案例剖析

论文对 R1(标准版)和 R1-CoT(基于长思考链预微调版)的决策轨迹进行了对比,任务目标是:"What are the top-3 best-selling products in Jan 2023?" (2023年1月销量排名前三的产品是什么?)

在 Step 2 阶段,需要代理在页面上准确点击报告,两者的输出截然不同:

从业者视角:虽然 R1-CoT 展现了令人惊艳的自我独白(如同 DeepSeek-R1 的输出风格),但后续实验数据却揭示了一个反常识现象:极其冗长的显式 CoT 模板反而可能限制 RL 在多轮复杂任务中的探索多样性,简单的 SFT 启动往往能在 RL 中取得更高上限。

核心架构图
图注:WebAgent-R1 端到端多轮 RL 架构概览。包含动态上下文压缩、并行轨迹采样(Parallel Rollout)以及基于多轮交互的 M-GRPO 优化回路。

方法论与技术实现

模型将 Web 导航任务形式化为一个部分可观察的马尔可夫决策过程 (POMDP) $\mathcal{(S, A, T, R)}$。实现端到端训练分为了两个关键阶段和三大组件:

1. 阶段一:Behavior Cloning(行为克隆热身)

完全放弃从随机初始化或通用 Base 模型做 RL。使用专家演示数据集 $\mathcal{D} = \{(h_t, a_t)\}$ 进行 SFT:

$$\mathcal{L}_{BC} = - \mathbb{E}_{(h_t, a_t) \sim \mathcal{D}} [\log \pi_{\theta} (a_t \mid h_t)]$$

这一步是后续 RL 能否存活的绝对关键,否则在极大的 DOM 动作空间中,模型根本无法拿到正向 Reward。

2. 阶段二:End-to-End Multi-Turn RL 优化

实验设置与结论分析

模型评测在高度拟真的 WebArena-Lite 基准上进行。环境包含 Reddit、GitLab、CMS、Map 商业等全链路 Web 任务。评价纯依赖内置规则脚本检测。

关键技术亮点分析

作为资深从业者,这篇论文揭示了 Agentic 领域几个非常重要的发展信号:

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

中文标题:迈向科学智能:基于LLM的科学智能体综述

作者:Shuo Ren, Can Xie, Pu Jian, Zhenjiang Ren, Chunlin Leng, Jiajun Zhang

机构:中科院自动化研究所 多模态人工智能系统全国重点实验室 (CAS)、中国科学院大学等

📄 查看 ArXiv 原文

🔬 研究背景与痛点 (Background & Problem Statement)

随着现代科学研究的复杂性呈指数级增长,科研人员需要处理海量异构数据、进行跨学科协作并加速实验迭代。虽然通用大语言模型(如 GPT-4、Claude)在文本生成和通用对话中表现出色,但当它们被直接应用于严谨的科学发现(Scientific Discovery)时,暴露出显著的局限性。

因此,亟需将通用 LLM 进化为领域专用的科学智能体(Scientific Agents)。本篇综述首次跳出了按“应用场景”分类的传统视角,独创性地从底层机制(Mechanism-centric)出发,对 LLM 科学智能体的架构设计进行了全面且深度的解构。

💡 核心贡献 (Core Contributions)

🔍 具体案例剖析 (Case Study: 锂离子电池正极材料设计)

为了直观展示四大模块如何协同工作,论文通篇使用了一个极具代表性的材料科学案例。以下是该 Scientific Agent 的完整执行流:

核心架构图
图注:LLM科学智能体的典型架构。用户输入请求后,Planner(规划器)进行任务分解并结合 Memory(记忆)生成计划;通过 Action Space(动作空间,含 API、模拟器等)与外部环境交互;生成的中间结果交由 Verifier(验证器)进行事实与科学逻辑校验;经验证的知识存入记忆库,持续迭代直到生成符合科学标准的最终结果。

⚙️ 方法论与技术实现 (Methodology & Architecture)

论文将科学智能体的底层技术解构为四大基石:

1. Planner (规划器):应对科学问题的高维与开放性

分为 提示原生规划器 (Prompt-Native)基于学习的规划器 (Learned Planners)

2. Memory (记忆模块):跨周期的知识累积

3. Action Space (动作空间):连接赛博与物理世界

这是科学 Agent 区别于通用 Agent 的最大特征:

4. Verifier (验证器):科学研究的“质检员”

针对 LLM 的幻觉,引入了硬性护栏:

📊 实验基准与评估体系 (Benchmarks & Evaluation)

文章整理了科学 Agent 的两类核心 Benchmarks:

结论: 评估范式正在从传统的“静态问答(Static QA)”向“端到端动态工作流(End-to-End Dynamic Workflow)”转变,强调在真实世界交互中的容错与迭代能力。

🌟 关键技术亮点与从业者启发 (Key Takeaways)