Bilevel Optimization of Agent Skills via Monte Carlo Tree Search
机构:新加坡国立大学 (NUS), 加州大学伯克利分校 (UC Berkeley), 香港中文大学 (CUHK)
作者:Chenyi Huang, Haoting Zhang, Jingxu Xu, Zeyu Zheng, Yunduan Lin
📄 查看 ArXiv 原文在大语言模型(LLM)的工程实践中,为了让 Agent 在特定复杂任务上表现更好,业界越来越倾向于使用 Agent Skills。这不仅是一段系统提示词,而是一个以特定目录结构组织的“能力包”。一个标准的 Skill 通常包含指令文档(SKILL.md)、工具代码脚本(scripts/)、辅助参考资料(references/)和静态资源(assets/)。
然而,如何系统性地迭代和优化这些 Skills 成了新的痛点:
传统针对纯文本或纯代码的优化方法难以直接应用。本文把 Skill 优化解耦为架构搜索与内容精炼两个层面。
论文以 ORQA(运筹学问答) 为例。任务要求 Agent 根据业务描述判断正确的运筹学建模方式。
输入示例: 一家广播网络必须选择播出哪些节目,每个节目有时长、截止日期和收视率,目标是在约束下最大化总收视率。问题:决策活动是什么?选项:(A) 截止日期 (B) 节目播放顺序 (C) 节目播放指示器 (D) 处理时间。答案:(C)。
优化前: 核心分类指南放在外挂 references/,Agent 经常漏看,分类错误。
优化后: MCTS 发现 reference 外置会导致检索脱节,于是把分类指导合并回 SKILL.md,新增前置的 Question-Type Triage Checklist,并把输出约束写得更硬。

论文将 Skill 表示为元组 $S=(\theta,\phi)$,其中 $\theta$ 表示结构配置,$\phi$ 表示该结构下的具体内容。目标是:
$$ \max_{\theta \in \Theta} \max_{\phi \in \Phi(\theta)} R_{S_0}(\theta, \phi) $$
外层 MCTS 完成 Selection / Expansion / Evaluation / Backpropagation 四步;内层则进行内容迁移、家族化精炼以及基于 $LCB=\bar{\delta}-t_{crit}\frac{s}{\sqrt{k}}$ 的悲观验收。
gpt-5.4,运行时评测模型使用 gpt-5.2-codex。0.90625,优化后达到 0.9375,绝对提升约 3.1%。英文标题:Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
作者:Guanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, 等
机构:中国人民大学、字节跳动 Seed
当前通用 Agent 训练面临两个硬伤:一是可交互、可验证、可扩展的真实世界环境极其稀缺;二是大多数 Agent RL 仍停留在静态环境或静态数据集,缺乏自我演进能力。
手工搭环境太贵,而让 LLM 直接“幻想”环境又会导致严重幻觉,无法逼真反映真实状态转移逻辑。
论文给出电商 MCP Server 的退货案例:Agent 需要先做身份验证,再枚举订单、判断已送达且可退商品、确认退款方式,最后真正提交退货动作并修改数据库状态。
这类任务不是“会说就行”,而是必须让数据库真实变成 return requested,所以奖励更接近工业级在线任务。

框架包含两块:一是 Agentic Environment-Task Discovery,从真实 MCP、API 文档、PRD 中挖掘环境并生成可验证任务;二是 Continuous Self-Evolving Training,把环境放入动态 POMDP 中,用 GRPO 在多环境上做训练。
奖励设计不是字符串匹配,而是代码/数据库状态验证。对于图任务与程序任务分别用不同验证器,保证 reward 真正对齐外部世界状态。
英文标题:ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning
作者:Zihan Lin, Xiaohan Wang, Jie Cao 等
机构:美团、中国科学院自动化研究所等
RLVR 已经成为提升 LLM 推理的重要后训练范式,但典型问题是模式坍缩:模型为了追求高 reward,生成越来越单一,Pass@k 和泛化能力下降。
已有方法 NSR 试图通过惩罚负样本维持多样性,但正负样本早期往往共享合理前缀,盲目惩罚会破坏本来正确的推理部分,形成严重梯度冲突。
在 Humaneval+ 中,ResRL 对同一题目可以生成暴力枚举和排序+扫描两种完全不同的解法;在数学题中也会保留不同推导风格,而不是坍缩成单一路径。
这说明它保住的不是表面措辞多样性,而是“多条通向正确答案的高价值思路”。

作者使用倒数第二层隐状态 $h_{i,t}$ 作为语义表示,对正样本做中心化和截断 SVD,得到正子空间投影矩阵 $P_S$。对负样本计算残差能量:
$$ \mathcal{R}_{i,t}=\frac{1}{d}\|(I-P_S)x^-_{i,t}\|_2^2 $$
残差越大,说明越偏离正确语义,负向权重越强;残差越小,说明与正样本共享合理前缀,应该弱化惩罚。最终用加权 Advantage 进入 GRPO 更新。
英文标题:Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
作者:Chenchen Zhang
机构:Independent Researcher
单智能体 RL 优化的是线性 trajectory,但 LLM 多智能体系统优化的是系统编排:什么时候 spawn 子 Agent、如何分工、如何通信、如何聚合、何时停止。
这让经典 MARL 的前提基本失效:动作是开放自然语言、智能体数量动态变化、通信是自由格式且异步,导致信用分配和训练稳定性都变得极难。
论文以 Kimi PARL 为代表案例,说明 Orchestrator 的 reward 不只是结果正确性,还包括并行加速和反伪并行惩罚:
$r_{orch}=r_{perf}+\lambda_1 r_{parallel}+\lambda_2 r_{finish}$
重点是这些辅助奖励需要在训练后期退火,不然系统会学会“刷并行度”而不是做好任务。
作者把经典 Dec-POMDP 扩展为 Dynamic-Dec-POMDP,允许智能体数量和联合动作空间随编排动态变化。价值函数不再基于固定状态,而是定义在 trace prefix 上:
$$V^\pi(G_{\le t})=\mathbb{E}_\pi[\sum_{\tau\ge t}\gamma^{\tau-t}r_\tau\mid G_{\le t}]$$
论文还系统梳理了 Team / Orchestrator / Role / Agent / Turn / Message / Tool / Token 八层信用承载结构。
这篇更像 position paper,不是给出单一算法指标,而是揭示三大工业限制:多 Agent rollout 成本极高、部署 harness 限制真实可学习动作空间、现有 benchmark 过度关注 success rate 而忽略协调质量与并发效率。
英文标题:OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
作者:Yuwen Du, Rui Ye, Shuo Tang, Keduan Huang 等
机构:上海交通大学
深度搜索已经成为前沿 LLM Agent 的核心能力,但工业界通常依赖 CPT→SFT→RL 的重型训练管线,门槛极高,开源社区难以复现。
本文的核心反问很直接:如果训练数据足够难、足够有信息量,是否只靠 SFT 就能把 Search Agent 做到很强?
论文的关键证据是轨迹统计特征:训练集中平均每条 trajectory 需要执行 64.67 次 tool-call,显著高于前代与对比方法。
这意味着模型不是在学浅层关键词检索,而是在学真正的多跳检索、证据汇聚、失败回退与替代路径探索。
作者围绕数据合成 pipeline 做三项核心改进:
这篇论文没有强制要求插图,我也没有从 PDF 中稳定拿到“足够代表全方法”的高质量架构图,因此这里不放图,避免污染页面质量。
Qwen3-30B-A3B-Thinking-2507,上下文窗口 256k。