作者:Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao, Xiaosong Zhang
机构:电子科技大学 (UESTC)
工具调用(Tool Use)是当前大语言模型(LLMs)走向 Agentic 系统的核心能力。然而,现有的工具调用模型在处理异构任务时面临两大痛点:
为了解决上述问题,本文引入了基于案例推理(Case-Based Reasoning, CBR)的视角,提出了 CAST (Case-driven Adaptation for Schema-faithful Tool use) 框架。其核心逻辑是将历史执行轨迹(Trajectories)作为结构化的“经验案例”,从中提取细粒度信号来指导 GRPO 强化学习:
论文通过 Easy 和 Hard 两个具体 Case 展现了 CAST 是如何实现“自适应推理”和“Schema 忠实度”的(对应原论文 Fig. 7 & 8):
Query: "Could you check the current weather conditions in Beijing and New York City for me?"
痛点表现: 此时 GRPO 训练出的模型开始了冗长的“无用内耗”。其内部 CoT 思考了“是否会有高并发 429 报错”、“是否要加微小延迟”、“串行还是并行”等完全不需要在当前简单 API 下考虑的问题。
CAST 表现: 由于识别到该类 Case 复杂度低,模型被直接阻断了过度思考,迅速生成了极为简练的 Reasoning(仅一句规划),随后精准并发输出了两个 get_current_weather 调用。
Query: 包含计算密度(质量 50kg, 体积 10m³)、计算未来价值($5000 本金,5% 利率,10年)、苹果股价、亚马逊评分等多个并行复杂指令。
痛点表现: SFT 和 GRPO 模型在参数提取上犯了表面模式匹配的错误。例如把 Query 中的 "5%" 直接以整数 5 传给了 interest_rate 参数,导致 API 类型报错或数值溢出。
CAST 表现: 对于高复杂度 Case,CAST 保留了充足的 Reasoning Budget。模型在 CoT 中显式推理出“利率必须精确转换,5% = 0.05(小数)”,最终成功传参 (5000, 0.05, 10),避免了 Schema 和 Value 维度的崩溃。
CAST 的核心是将历史经验转译为强化学习的 Dense Reward,其训练管线包含两个极其优雅的解耦设计:
为了让模型“难事多想,易事少想”,CAST 定义了一个难度得分 $H(q) \in [0, 1]$(借由验证器和外部强模型打分得到)。基于此得分,模型为每类难度 $d(q)$ 设定一个动态的长度基线 $L_{emp}^{d(q)}$:
$$ \rho(q, L) = \max\left(0, \frac{L}{L_{emp}^{d(q)}} - 1\right) $$
此时 $\rho(q, L)$ 表示当前生成的思考长度超标了多少。巧妙之处在于引入了一个随难度反向变化的门控权重 $\lambda(q) = 1 - H(q)$:
$$ \alpha(q, r_a, L) = \max(0, 1 - \lambda(q)\rho(q, L)) \quad (当回答正确 r_a > 0 时) $$
精髓解析: 如果题目很简单($H(q) \approx 0$),那么 $\lambda \approx 1$,长度超标 $\rho$ 会极其严重地衰减总 Reward;如果题目极难($H(q) \approx 1$),则 $\lambda \approx 0$,惩罚项失效,模型可以放心大胆地使用长 CoT 来确保正确率。这种设计通过 Reward Shaping 完美重塑了策略模型的输出长度分布。
仅仅答案对还不够,API Schema 必须完全遵循。CAST 使用最大权值二分匹配(Maximum-weight Bipartite Matching)来对齐生成的 Tool Calls 和 Ground Truth。随后,奖励不仅是一个二元判断,而是被解构为六维向量:
$$ \mathbf{r}_{tool} = (r_{name}, r_{key}, r_{type}, r_{constraint}, r_{value}, r_{exact})^\top $$
比如:函数名对没对(Jaccard 覆盖率)?必填参数 key 有没有遗漏?参数 type 是否合法?这一机制极大缓解了 Tool Use RL 中的信用分配难题。
整体强化学习建立在 Group Relative Policy Optimization (GRPO) 框架上,其复合奖励定义为:
$$ \mathcal{R}_C = \mathcal{R}_{Think} + \mathcal{R}_{Format} + \mathcal{R}_{Tool} $$
此外,作者利用复杂度标签 $H(q)$ 组织了一套 Easy-to-Hard 的课程学习 (Curriculum Learning),实验证明这能有效防止模型在早期接触过难样本时陷入崩溃性的“无脑输出长 CoT”困境。
Auto-Evaluator,这是超越单纯依靠“LLM as a Judge”给出一个抽象大分数的关键工程提升。作者:Kai Yan, Alexander G. Schwing, Yu-Xiong Wang
机构:伊利诺伊大学厄巴纳-香槟分校 (UIUC)
📄 查看 ArXiv 原文背景:在后训练(Post-Training)范式中,基于可验证奖励的强化学习(RLVR,例如 DeepSeek-R1 使用的基于规则验证的 RL)正在成为继 RLHF 之后的另一大主流。由于依赖客观、确定的奖励信号(如代码单元测试、数学题的标准答案),RLVR 尤其适合解决高逻辑、重推理的复杂任务(如 Math 和 Coding)。
核心痛点:尽管 RLVR 表现惊艳,但在复杂任务上深受样本效率低下(Sample Inefficiency)的困扰。对于超出 Base Model 初始能力的难题,如果模型在采样阶段(Rollouts)生成的所有轨迹都是错的(即奖励全为 0),那么 Advantage 也是 0,模型将得不到任何有效梯度的引导(即探索瓶颈)。
当前解法及其局限:业界通常采用“Demonstration-guided RLVR”(即 SFT+RL 混合训练或统一后训练范式,如 HPT、ReLIFT)来解决该问题——当 RL 失败时退回 SFT。然而,高质量的长推理 SFT 数据获取成本极高(例如,精标 2500 道难题可能需要 1000 名博士)。能否在仅使用极少量(Few-Shot)SFT 数据的同时,打破 RL 的探索瓶颈?
假设我们有一个具有挑战性的 AIME 竞赛题目输入模型。我们来看看传统的 RL、传统的 DPO 与 FEST 算法在处理这一问题时的差异:

FEST (FEw-ShoT Demonstration-Guided RLVR) 的核心在于巧妙利用两份数据:少量带专家轨迹的 SFT 集合 $D_E$ (如 128 题) 和大规模仅带答案的 RL 集合 $D_I$。总 Loss 形式为:$L = c \cdot L_E + L_I$。
作者发现,对小样本数据集 $D_E$ 采用 Semi-online DPO(即正样本 $y^+$ 来自固定 SFT,负样本 $y^-$ 由当前策略实时生成),其梯度完美契合了所需的三个组件:
$\nabla_\theta L_E = -\beta \mathbb{E} \left[ \underbrace{\sigma(\beta(r^- - r^+))}_{\text{Decaying Weight}} \cdot \left( \underbrace{\nabla \log \pi_\theta(y^+|x)}_{\text{Supervised}} - \underbrace{\nabla \log \pi_\theta(y^-|x)}_{\text{On-Policy}} \right) \right]$
面对具有极长推理链条(Long-Chain Reasoning)的任务,作者提出不应采用全局统一的 $\beta$。通过判别一个 Batch 中 Rollouts 的情况,动态分配 $\beta$:
工程痛点:DPO 的 $L_E$ 是 Sequence-level 目标,梯度绝对值大($10^1 \sim 10^2$);而 GRPO 的 $L_I$ 是 Token-level 目标,经过 Clip 和平均后梯度极小($< 0.1$)。若强行相加,需要极度精细且不稳定的权重搜索(Tuning $c$)。
理论推导:作者敏锐地指出,上述 DPO 梯度公式在数学和功能上等价于:
Semi-online DPO ≈ 带负奖励的 REINFORCE + 带权重的 SFT
于是,顺水推舟,将容易引起不稳定方差的 "REINFORCE" 直接替换为业界目前最稳定的 GRPO,形成了 FEST-GRPO 变体。这一替换使得大小两个数据集均处于一致的 Token-level Clip 保护之下,天然实现了梯度的 Scale 统一,避免了繁琐的超参调试。
作者 / 机构:Jie Jiang, Xing Sun (腾讯等)
推测解码(Speculative Decoding, SD)是目前加速大语言模型(LLM)推理的主流技术,其核心思想是由一个轻量级的草稿模型(Drafter)生成一个候选的 Token 窗口(Speculative Window),再由庞大的目标模型(Target Model)并行验证这些候选 Token。然而,当前的 SD 训练范式存在一个根本性的 “训练-推理不一致(Train-Inference Mismatch)” 痛点:
为解决上述 Mismatch,本文提出了 PPOW(Performance-Driven Policy Optimization with Adaptive Windowing),将 Drafter 的训练从 Token 级模仿学习转变为 Window 级强化学习(RL)。主要贡献包括:
论文中通过两个直观的场景说明了为什么需要双重奖励设计(对应原论文图1):
场景 A:正常接受(触发 Cost-Aware Speedup Reward)
[ 8, /, 9, ., EOS ][ 8, /, 9 ],但在第4个 Token 处拒绝(Target 偏好为 then)。场景 B:早期截断但语义合理(触发 Distribution-Based Proximity Reward)
[ $, \frac, {8}, {9}, $ ] (LaTeX 格式)[ **, 8, /, 9, ** ] (Markdown 格式)
PPOW 建立在特征增强型 Drafter(如 EAGLE 系列)的基础上,其算法流程涵盖三个核心模块:
对于给定前缀 $x$,Drafter 采样出一组(Rollout group, 大小为 $G_{roll}$)推测窗口 $\hat{y}_1, \dots, \hat{y}_{G_{roll}}$。每个窗口视作一个整体获得标量奖励,并在组内进行归一化计算优势函数 $\hat{A}_i$。损失函数带有锚定 Target 模型分布的 KL 正则项,防止策略过度偏移:
$$ J(\theta) = \frac{1}{G_{roll}} \sum_{i=1}^{G_{roll}} \frac{1}{K} \sum_{t=1}^{K} \left[ \min \left( r_{i,t}(\theta) \hat{A}_i, \text{clip}(r_{i,t}(\theta), 1 \pm \epsilon_{clip}) \hat{A}_i \right) - \beta D_{KL}(\pi_\theta \| \pi_{target}) \right] $$
为避免在那些 Drafter 已经拟合得很好的“简单位置”浪费算力,PPOW 定义了 Token 级别的关键性得分 (Criticality Score) $v_t$:
$$ v_t = \left( 1 - \frac{H(P_t)}{\log |\mathcal{V}|} \right) \cdot D_{KL}(P_t \| Q_t) $$
其中 $P_t$ 和 $Q_t$ 分别是 Target 和 Drafter 的分布。前置项 $C(P_t)$ 代表目标模型的置信度(熵越低越自信)。该得分在整个窗口上求均值得到 $s_j$,训练时以正比于 $s_j$ 的概率优先采样“Target 很确信但 Drafter 预测分歧大”的瓶颈窗口。
最终奖励由两部分组成 $R = R_{speedup} + R_{dist}$:
实验设置:基于 LLaMA-3 (8B/70B) 和 Qwen3 (8B/32B) 模型家族。基座 Drafter 采用 EAGLE-3。测试基准涵盖多轮对话 (MT-Bench)、代码 (HumanEval) 和数学推理 (GSM8K)。解码温度测试了 $T=0.0$ 和 $T=1.0$ 两种场景。
核心结论:
作者:Xudong Chen, Yixin Liu, Hua Wei, Kaize Ding
虽然基于大语言模型(LLM)的多智能体系统(MAS)在解决复杂任务上展现了巨大潜力,但系统的有效性极度依赖于编排设计(Orchestration Design)。一个优秀的编排不仅需要决定“哪些角色(Role)参与”,还需要设定“分配什么级别能力的模型(Capacity)”以及“它们之间的信息流/拓扑结构(Dependency)”。
当前自动化多智能体编排的研究主要面临两个痛点:
为了解决上述问题,作者提出了 LEMON 框架,将多智能体编排定义为一个可学习、可执行的生成任务,并引入了细粒度的反事实 RL 机制:
论文中对比了 LEMON 和现有拓扑自适应方法(ARG-designer, OFA-MAS)在具体任务上的编排输出差异,直观展示了统一生成的优越性。
案例 1:GSM8K(数学应用题)
输入问题: “Harrington夫人买了12箱桔子,给了妈妈和姐姐各2箱。然后她保留了剩下的1/4,其余的卖掉了。每箱20个桔子,她卖了多少个?”
LEMON的编排: 编排器没有生搬硬套预定义的“数学家”、“评论家”角色,而是根据问题拆解直接生成了三个针对性 Agent:
1. Analyze Orange Distribution(负责提取箱数分配和保留比例,Medium模型)
2. Compute Orange Remaining(依赖Agent 1,负责转换为具体桔子数量并计算剩余,Medium模型)
3. Final Orange Decider(依赖前两者,负责验证逻辑并输出最终结果,Small模型)。
对比基线: OFA-MAS 和 ARG-designer 仍然使用了宽泛的“编程数学专家”、“历史学家”、“心理学家”等预设角色,只通过调整它们之间的图拓扑来工作,不仅解释性差,而且造成了算力的浪费(使用了大量的 Large 模型)。
案例 2:MMLU(医学诊断多选题)
针对一道“哪种诊断技术对诊断神经管缺陷没有价值”的选择题,LEMON 生成了一个精妙的漏斗型 DAG:
首先由 Parse Ntd Question 解析医学意图,接着并行交给两个 Agent:Compare Prenatal Tests(比对选项中的产前检查)和 Eliminate Valid Methods(排除有效方法,识别异常项)。最后汇集到 Final Ntd Answer 输出选项字母。能力分配上,涉及大量医学常识的比对 Agent 被分配了较高 Capacity,而首尾的解析和汇总 Agent 则使用了较低的 Capacity 以节省 Token。
LEMON 的核心在于通过强化学习(SFT + RL)训练一个 LLM 作为 Orchestration Policy $\pi_\theta$。技术实现可拆解为编排执行和策略优化两大部分:
给定任务 $x$,策略 $\pi_\theta$ 生成一个 YAML 规范 $y$。$y$ 隐式定义了一个计算图 $G=(V, E)$。对每个实例化节点 $v \in V$,规范指定了其角色描述 $R_v$(基础角色+定制职责)和模型能力等级 $L_v \in \{\text{small, medium, large}\}$。边 $(u,v) \in E$ 则通过引用的方式在 YAML 中确立。
在执行时,Runtime 根据 DAG 的拓扑顺序并行执行每个 Agent,子节点会将父节点的输出作为上游 Context 拼接入 Prompt 中。
为了防止 RL 早期 LLM 输出无效格式的 YAML,作者先利用更强的教师模型(如更强大的 LLM)生成合法的 YAML,经过过滤后对 Orchestrator 进行 SFT,让其掌握合法的语法约束、图连通性要求和角色设定先验。
在 RL 阶段,LEMON 采样 $B$ 个 YAML 候选进行执行,收集执行结果(是否正确、Token开销、Agent数量等)。构建全局 Reward $R_{orch}$ 并在 Group 内计算 Advantage $\hat{A}_i$,然后应用标准的 Token 级 GRPO 目标函数进行更新。这鼓励了编排的整体效用最大化。
为解决 GRPO 的监督信号对长 YAML 序列过于粗糙(把无关 Token 和关键 Token 赋予同样的 Advantage),作者设计了反事实操作:
工程优化(执行缓存 Node-level Caching): 为了不让反事实验证导致 RL 采样成本翻倍,作者开发了节点级缓存。因为突变通常只改变局部(比如某一条边),DAG 中所有位于该突变上游、且自身设定未改变的 Agent 节点可以直接复用缓存结果,极大降低了环境交互开销。
作者:Minghao Wu, Yuting Yan, Zhenyang Cai, Ke Ji, 等
机构:香港中文大学(深圳)、北京医院
在 ICU(重症监护室)中,脓毒症(Sepsis)的治疗是一个典型的高风险、高维度的序列决策问题(Sequential Decision-Making)。临床医生需要根据患者快速变化的生理指标,动态调整静脉输液和血管加压素的剂量,以恢复组织灌注并避免器官损伤。
虽然大语言模型(LLMs)具备丰富的医学知识和遵循指南进行推理的能力,但它们在复杂的临床序列决策中面临致命痛点:
为此,本文提出从“静态推理模型”向“动态具身智能体”范式转变,引入临床世界模型(Clinical World Model),构建了一个名为 SepsisAgent 的 LLM 医疗智能体。
Propose-Simulate-Refine(提出-模拟-修正)的推理工作流。LLM 提出候选方案,世界模型模拟生理反应,LLM 随后根据模拟结果和临床先验进行方案优选。为了直观理解 SepsisAgent 是如何工作的,我们可以考察其在某 ICU 时刻(决策步 $t$)的具体交互流程:
🩺 当前状态 ($s_t$): 患者处于脓毒症休克状态,平均动脉压(MAP)降至 58 mmHg,乳酸水平升至 2.8 mmol/L。
1. Propose(提出候选):
SepsisAgent (LLM) 分析当前状态,提出候选动作集 $\mathcal{C}_t = \{a_t^{(1)}, a_t^{(2)}, a_t^{(3)}\}$。例如:
- 动作 1:仅大量输液。
- 动作 2:适量输液 + 低剂量血管加压素。
- 动作 3:高剂量血管加压素。
2. Simulate(世界模型模拟):
Agent 查询 临床世界模型 (Clinical World Model),获得针对上述动作的反事实预测:
- 模拟动作 1 $\rightarrow$ 预测 MAP 无法达标,且可能引发肺水肿风险。
- 模拟动作 2 $\rightarrow$ 预测 MAP 升至 68 mmHg,乳酸水平预期下降(良好反应)。
- 模拟动作 3 $\rightarrow$ 预测 MAP 迅速升高,但引发心律失常或外周缺血风险指标上升。
3. Refine(修正与开具处方):
SepsisAgent 综合 LLM 内部的临床安全指南与世界模型返回的模拟反馈进行推理(Chain-of-Thought),最终摒弃动作 1 和 3,正式执行动作 2,将系统推入下一状态 $s_{t+1}$。
世界模型作为环境模拟器,基于两层 GRU 编码器 $h_t = \text{GRU}_\phi(\tau_{\le t})$,配备两个预测头:
以 Qwen3-4B-Instruct 为基座模型,进行了精细的阶段式训练:
Analysis(结合指南先验分析状态)到 Decision(推荐单步离散动作)的格式进行输出。实验设置:基于 MIMIC-IV 败血症患者轨迹数据(20,092次 ICU 停留)。动作空间被离散化为 5×5 的网格(静脉输液剂量 × 血管加压素剂量)。测试集包含 725 个 held-out 交互 episode。
评估指标:离线策略评估 (OPE)(包括 DR, WIS, WPDIS 来估计策略价值)、指南依从性 (Guideline Adherence)、不安全动作率 (Unsafe Actions)。
核心结论:
Propose-Simulate-Refine,在思想链(CoT)中嵌入了对未来状态的前向搜索(Forward Search),这是迈向具备物理/生理规律理解的 Agent 的重要一步。