作者:Hongjun Liu, Yifei Ming, Shafiq Joty, Chen Zhao
机构:New York University (NYU), Salesforce AI Research
近年来,具备多步推理和工具调用能力的 LLM Agents 在解决复杂长视距(long-horizon)任务上取得了显著进展。然而,在实际运行(Rollout)中,随着环境变化和反馈的累积,很多智能体容易陷入重复的失败模式:例如未经充分信息检索就过早终止(Premature Finalization)、对中间结果过度自信、或者在无用的搜索词上陷入死循环。
为了解决这些问题,目前的常见做法是总结历史失败经验,将其作为“文本技能(Textual Skills)”注入到系统提示词(Prompt)中,例如告诉模型“请在得出结论前验证证据”。但这种方法的痛点极其明显:
简而言之,目前业界的“经验复用”多停留在自然语言层面,存在“认知(知道该怎么做)与执行(能否切实改变 Action Space)脱节”的鸿沟。
本文提出了一种全新的框架 HASP (Harnessing LLM Agents with Skill Programs),将智能体的历史经验从“被动文本建议”升级为“可执行的程序函数 (Program Functions, PFs)”。其核心突破在于:
为了直观感受 PF 的强制干预能力,论文展示了在 MuSiQue(多跳实体解析数据集)上的一个真实轨迹对比:
问题: 找出 2005 年 John 死后,某位去世的著名 Walton 家族成员的丈夫是谁?
[Step 0] 搜出了一堆关于 Walton 家族的冗长信息。没有阅读文档就盲猜答案。[Step 1] 去搜 "Alice Walton death date",发现她还活着。[Step 2] 再次搜一模一样的 "Alice Walton death date"(陷入死循环)。[Step 3] 强行输出错误答案 FINAL("Bruce Walton")(模型幻觉)。[Step 0] 模型本打算直接搜索全句,此时 PF decompose_complex_question 被触发,它执行了 INJECT_CONTEXT,在观测结果后强制追加了一段系统级警告:“这是个多跳问题,请先拆解寻找中间实体”。[Step 1] 模型受此引导,重新规划,成功搜出中间实体 Helen Walton 并得知她死于 2007 年。[Step 2] 模型试图过早得出结论:PROPOSED ACTION: FINAL("Sam Walton")。此时 PF insufficient_exploration 检测到 action_type=FINAL 但 read_count=0,立即被触发!执行 MODIFY_ACTION,将模型的动作强制拦截并篡改为 READ(doc_0)。[Step 3] 模型阅读文档后,最终确信并合规输出最终答案,成功完成推理链。在这个案例中,PF 就像一个严格的监工,直接拦截并覆写了致命的错误决策(过早 Final 和未充分拆解),这是传统的 Prompt Engineering 根本无法做到的。

在 HASP 中,每个技能被定义为一个确定性的 Python 模块,包含两个核心接口:
should_activate(step_context, action_type, arg) $\rightarrow$ bool:一个判定逻辑,决定当前状态下该技能是否应当触发(例如判断当前是否是 SEARCH 动作且搜索词过短)。intervene(step_context, action_type, arg, teacher=None) $\rightarrow$ Intervention:具体的干预操作,返回的操作类型可以是修改动作(MODIFY_ACTION),或者是注入上下文(INJECT_CONTEXT)。在时刻 $t$,基础策略(Base Policy)提议一个动作 $a_t^{\text{orig}} \sim \pi_\theta(\cdot \mid s_t)$。接着,外置的 Harness 控制层检索相关的 PF。如果触发条件满足,PF 会计算并输出纠正后的最终执行动作 $\tilde{a}_t$ 以及需要注入的纠正上下文 $c_t$。模型最终执行并记录的是被 PF “修正”后的轨迹记录:$e_t = (s_t, a_t^{\text{orig}}, \tilde{a}_t, c_t, \kappa_t, \Delta_t)$。
仅仅在 Inference 时纠正还不够,我们需要让模型内化这些能力。HASP 为每次干预设计了四维监督信号聚合向量 $\mathbf{z}_t = (t_t, m_t, q_t, o_t)$,分别代表:干预时机(Timing)、干预模式(Mode)、局部正确性(Correctness)和最终结果(Outcome)。聚合得分记为:
$$ A_t = \lambda_t t_t + \lambda_m m_t + \lambda_q q_t + \lambda_o o_t $$
作者验证了三种后训练方法,其中 PF-guided Rejection Sampling (RS) 效果最稳定:对采样的轨迹使用全局成功率与中间 PF 打分的组合得分进行过滤,留下最符合“正确 PF 逻辑”的轨迹去 Fine-tune 学生模型($\mathcal{L}_{\text{SFT}} = - \sum_t w_t \log \pi_\theta(\tilde{a}_t \mid s_t)$)。这使得模型在不依赖外部探索的条件下迅速学到了高效行为策略。
HASP 提供了一个严格的闭环用于技能挖掘:
论文在 Web-Search Reasoning (HotpotQA, 2Wiki, MuSiQue), Math Reasoning (AIME24, AMC23, GameOf24) 和 Coding (HumanEval, MBPP, BigCodeBench) 上使用 Qwen2.5-7B-Instruct 进行了全面评测。
Ablation 洞察: 作者发现如果关闭“Executable Validation”和“Teacher Review”两个门控,让技能库无脑堆积(Evolution, no filtering),效果会断崖式暴跌(从 60.3% 降到 36.3%)。这证实了“内存污染(Memory Pollution)”是自我进化系统最致命的弱点,严格的编译通过和多维审核是构建高质量技能库的前提。
作者:Ziang Ye, Wentao Shi, Yuxin Liu, 等
机构:中国科学技术大学、美团
随着强化学习(特别是带有可验证奖励的强化学习,RLVR)在多步推理任务中的应用,LLM Agents 在复杂环境中执行长臂任务的能力得到了长足提升。然而,当这些被高度优化的 Agent 被部署到未知或发生动态分布偏移的环境时,它们往往会暴露出一个致命缺陷:过早利用(Premature Exploitation)。
目前的 Task-oriented(任务导向)训练模式,过度鼓励 Agent 为了达成特定预设目标而采取短视的工具行为。这导致了两个典型的失败模式:
在真实世界部署中,我们无法为每一个动态演变的环境预编译外挂知识库。因此,赋予 Agent 类似人类“三思而后行”的在线自主探索能力(Autonomous Exploration)成为了打破泛化瓶颈的关键。
论文在 ALFWorld 环境下对比了“纯任务训练模型”和“探索感知训练模型”在同一个场景中的表现。
任务指令: 拿起杯子 (mug),用冰箱 (fridge) 冷却它,然后把它放在咖啡机 (coffeemachine) 上。
❌ Task-Only 模型 (直接利用) - 执行失败 (100步耗尽):
cool mug 1 with fridge 1,但此时它并没有移动到冰箱面前(违反了近邻交互的前置约束)。Nothing happens.,Agent 无法理解错误原因,在此动作上死循环直至预算耗尽。✅ Exploration-Aware 模型 (Explore-then-Act范式) - 7步完美完成:

为了衡量探索的有效性,作者在每个环境实例中定义了一个隐含的检查点集合 $\mathcal{C} = \{c_1, c_2, \dots, c_M\}$。这些检查点包括:关键的导航位置(Rooms)、可交互的物体(Objects)以及功能性动作/状态转变(Affordances)。
一段探索轨迹 $\tau_{\text{EXP}}$ 的 ECC 定义为成功触发这些检查点的比例:
$\text{ECC}(\tau_{\text{EXP}}) = \frac{1}{M} \sum_{i=1}^M \mathbb{1}[c_i \in \tau_{\text{EXP}}]$
重要的是,ECC是一个基于物理环境状态引擎的客观指标,而非基于LLM主观打分。只有 Agent 真正走到了房间、或成功操作了物品触发了环境反馈,对应项才会被记为 1。
在模型训练中采用 Group Relative Policy Optimization (GRPO)。为了防止模型过拟合于预设任务而丧失探索欲,作者采用了一种交替调度策略 (Interleaved Training Schedule):
通过设定一个任务与探索批次比(默认 5:1),模型既学会了如何高效做任务,又被强化了系统性发现未知环境结构的潜意识。
摒弃传统的 ReAct 式一发到底的统一推理回路,将其分为两段:
实验在三个要求不同能力的代表性环境中进行:ALFWorld (具身导航操作)、ScienceWorld (复杂科学规则探索) 和 TextCraft (隐藏合成配方的规划)。
从从业者视角来看,这篇论文深刻指出了当前以 Reward 驱动的 Agent 训练存在的一个隐患:“捷径依赖”剥夺了 Agent 的好奇心。强化学习天生会寻找阻力最小的路径,当训练集中都是已知套路时,Agent 学会的是“背板”,而不是“如何去认识新世界”。
本文的亮点在于,它没有选择用笨重的 Offline MCTS / 预构建知识图谱来外挂解决这个问题,而是通过构造客观的校验指标 (ECC) 将“无目标的探索机制”直接融合到当前最前沿的 RLHF/GRPO 训练管线中。不仅流程优雅,并且给出了 Explore-then-Act 这样一个非常具有实际工程部署价值的 Inference Pattern(遇到新场景,先消耗部分 token 让 Agent 跑图探路,建立局部向量记忆或上下文总结,再让它干正事,磨刀不误砍柴工)。
Authors: Liqin Ye, Yanbin Yin, Michael Galarnyk, Yuzhao Heng, Sudheer Chava, Chao Zhang
Institution: Georgia Institute of Technology
📄 查看 ArXiv 原文随着DeepSeek-R1和Gemini 3 Pro等模型在复杂基准测试(如AIME、Humanity's Last Exam)上大放异彩,基于可验证奖励的强化学习(RLVR, Reinforcement Learning from Verifiable Rewards)已被证明是提升LLM推理能力的关键引擎。然而,RLVR的效果遭遇了显著的“天花板”:它极度受限于训练数据的多样性和复杂度分布。
为了打破静态昂贵的人类标注数据的限制,行业普遍采用合成数据(Data Synthesis,如Evol-Instruct等范式)。但当前的主流合成方法面临着致命的结构性缺陷:
简而言之,现有的“平面化”数据合成无法系统性地、呈阶梯状地推高LLM的计算复杂度和组合泛化能力。
为了解决上述痛点,本文提出了 Evolutionary Task Discovery (EvoTD) 框架,将数据合成建模为在结构化空间中的“定向进化搜索”,其核心突破在于:
EvoTD究竟是如何不改变题意却真正增加推理深度的?我们可以通过论文附录中的真实进化案例来直观感受:
背景: 原任务要求考察 sliding_window(滑动窗口)技能。
进化路径: EvoTD的变异算子识别到可以对原先的中间结果(前缀和)增加“Max-Window Phase(最大值窗口阶段)”作为复杂度提升点。
具体表现: 进化后的代码不仅保留了滑动窗口的内核,还在求和阶段后,引入了一个单调队列(deque)结构,以在线性时间内寻找第二个大小为 $m$ 的窗口内的最大值。这就将原本简单的数组聚合操作,拉升到了“多阶段双窗口数据流追踪”的算法难度。这种变异没有改变核心技能考点,却极大地拔高了结构复杂度,逼迫模型学习规模不变(Scale-invariant)的解法。
背景: 模型需要生成一道需要多种算法混合求解的综合推理题。
进化路径: 交叉算子将 Parametric Search(参数化二分搜索)、Difference Array(差分数组)、Prefix Sum(前缀和)与 Polygon Area / Shoelace Formula(多边形面积)深度融合。
具体表现: 代码实现了一个参数搜索框架优化更新次数。在每一步二分验证(Verify Feasibility)内部,首先用差分数组和前缀和在线性时间内重构多边形的Y坐标边界,然后调用Shoelace公式计算此时的面积,最后与Target进行对比。这种技能组合不是表面上把几个函数拼凑在一起,而是形成了严密的逻辑依赖链(Synergistic combination),任何一个环节出错都会导致全盘崩溃,极大锻炼了长链条推理能力。
EvoTD基于 Proposer-Solver(出题者-解题者)范式,底层优化方法采用典型的RLVR算法(如GRPO或DAPO)。其数据合成引擎的详细设计如下:
模型将一个推理任务 $t$ 抽象为双轴流形上的一个点 $\Phi(t) = (s, \mathbf{c})$,其中 $s \in \mathcal{S}$ 是算法技能(如二分查找、堆排序等),$\mathbf{c} \in \mathcal{C}$ 是复杂度属性集合(如输入规模、图的大小、树的深度等)。这一步的候选集通过具有元认知(Metacognitive)能力的LLM从种子数据集中抽取得到。
合成的数据如果不经验证,往往包含大量“语法错误”或“无法收敛的死循环”。EvoTD设计了一个严苛的联合指标函数 $\mathcal{V}(t)$ 过滤种群:
$$\mathcal{V}(t) = v_{exec}(t) \cdot v_{skill}(t) \cdot v_{learn}(t)$$实验广泛涵盖了5大基准测试:MBPP+, LiveCodeBench, AIME 2024/2025, OlympiadBench, MMLU-Pro 和 SuperGPQA。基座模型选择了Qwen3系列(4B/8B Base及Thinking版)和LLaMA系列。
Attribute Mutation机制能强迫模型学会真正的尺度不变法则(scale-invariant solutions),而不是仅仅对简单规模的数据进行模式匹配(Pattern matching)。消融实验印证组件价值: 移除Attribute Mutation会导致AIME成绩暴跌(-5.0%),因为硬核数学严重依赖细粒度复杂度拆解;移除Skill Crossover则导致宏观推理和抽象逻辑泛化能力大幅衰减。
作者:Yurui Du, Pinhao Song, Yutong Hu, and Renaud Detry
机构:KU Leuven(鲁汶大学), Flanders Make at KU Leuven
基于模型强化学习(Model-Based RL, MBRL)旨在通过学习世界模型(World Model)来大幅提升视觉控制的样本效率。近年来,该领域演化出两条主流路线:一是如 TD-MPC2 那样,直接在隐空间进行模型预测控制(Model Predictive Control, MPC),但其通常依赖简单的短帧堆叠(Frame Stacking)来处理状态;二是如 DreamerV3 系列,利用循环状态空间模型(RSSM)进行长期信念跟踪(Belief Tracking),但缺乏在线的轨迹优化控制。
当把这些方法应用到极具挑战性的部分可观测(Partial Observability)环境(如严重的视觉遮挡、传感器噪声)以及长视野(Long-horizon)规划时,暴露出两大核心痛点:
本文提出了一种全新的框架 ELVIS,这是首个融合了信念记忆(Memory-augmented)、多模态规划与不确定性截断的视觉隐空间MPC控制器。其核心贡献包括:
为了验证 ELVIS 在极端部分可观测环境下的表现,论文构建了一个极具工业背景的 Sim-to-Real 任务:控制机械臂在一个充满沙尘干扰和视觉遮挡的物理沙盘上均匀喷涂颗粒材料。
ELVIS 的整体框架建立在循环状态空间模型(RSSM)的基础上,其技术链路分为三大模块:
论文进行了详实的实验以回答两个核心问题:(1) 长视野与不确定性感知在标准视觉任务上是否有效?(2) 哪些组件决定了应对遮挡等硬核环境的鲁棒性?
从大模型推理与具身智能架构演进的视角来看,ELVIS 的思路极具启发性:
作者:Jinbin Bai, Yu Lei, Qingyu Shi, Aosong Feng, Yi Xin, Zhuoran Zhao, Fei Shen, Kaidong Yu, Jason Li
机构:新加坡国立大学、Collov Labs、北京大学、耶鲁大学、上海创新研究院等
在后训练阶段,将强大的生成模型与人类偏好对齐(Alignment)是一个核心难题。在语言模型领域,RLHF 和 DPO 已经成为对齐范式,并在视觉生成模型(如 Diffusion 和 Masked Generative Models)中得到了广泛借鉴。
然而,现有的策略拟合方法(如 DPO 及其变体)在视觉对齐任务中面临一个根本性的局限:它们重度依赖于成对的偏好标注数据(Paired Preference Data)。在实际业务中,获取高质量的成对图像比较成本高昂,而更自然、更易扩展的反馈形式往往是独立的标量评分(Unpaired Scalar Feedback)(例如用户给出的 1-5 星评分或外部 Reward Model 吐出的连续打分)。
强行将标量分数转化为伪成对数据(例如在 Batch 内两两比对)不仅显得 Ad-hoc,还会丢失绝对分数尺度的重要信息(例如 4.9分和4.8分的差距,与 4.9分和1.2分的差距显然不同),并在分数扎堆时放大噪声。因此,亟需一种能够直接从非成对标量反馈中高效学习的对齐算法。
以 Stable Diffusion v1.5 为基础模型,对比多种微调算法对语义还原和视觉质量的影响:
在带 KL 正则的强化学习框架下,最优策略 $\pi^*(y|x)$ 可表示为:
$$ \pi^*(y|x) = \frac{1}{Z(x)} \pi_{\text{ref}}(y|x) \exp\left(\frac{1}{\beta}\mathcal{R}(x, y)\right) $$
将其取对数并整理,策略增加的概率方向取决于一个不等式:
$$ \log \frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)} > 0 \iff \mathcal{R}(x,y) > \tau^*(x) $$
这里的 $\tau^*(x) = \beta \log Z(x)$ 充当了一个 Oracle 级别的 Instance-dependent Baseline。DPO 的做法是拿成对的 $(y_w, y_l)$ 作差,从而巧妙地把顽固的 $Z(x)$ 消掉。但在单样本标量反馈下,我们没有作差的条件。
TGO 选择迎难而上,既然 $\tau^*(x)$ 算不出,就用全局数据的统计分布来做一个强有力的近似。通过对所有样本的打分 $s_i$ 取分位数(通常是中位数 $p=0.5$),得到全局阈值 $\tau = \text{Percentile}(\{s_i\}, p)$。
这直接将回归问题转化为了更易优化的二分类问题。伪偏好标签定义为:$l = \mathbb{I}[s \ge \tau]$。分数大于阈值的算作伪正例(鼓励生成),反之为伪负例(抑制生成)。
强行二值化会损失分数的幅度信息(Absolute Scale)。为此,TGO 设计了置信度权重 $w(s, \tau) = 1 + c|s - \tau|$。距离阈值越远的极端高分/低分样本,权重越大,减少了阈值附近的噪声影响。
最终的代理分类损失函数为:
$$ \mathcal{L}_{\text{TG}}(\pi_\theta) = -\mathbb{E}_{(x,y,s)\sim\mathcal{D}} \left[ w(s, \tau) \Big( l \log \sigma(\hat{s}_{\theta,\text{ref}}) + (1 - l) \log(1 - \sigma(\hat{s}_{\theta,\text{ref}})) \Big) \right] $$
其中 $\hat{s}_{\theta,\text{ref}} = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)}$,在 Diffusion 模型中可通过缩放的负 MSE 损失($-\frac{1}{T}\text{MSE}(y, \hat{y}_\theta(x))$)进行近似计算,在 MaskGIT 中则直接提取交叉熵似然。