Harnessing LLM Agents with Skill Programs

用技能程序（Skill Programs）驾驭 LLM 智能体

作者：Hongjun Liu, Yifei Ming, Shafiq Joty, Chen Zhao

机构：New York University (NYU), Salesforce AI Research

🔍 研究背景与核心痛点

近年来，具备多步推理和工具调用能力的 LLM Agents 在解决复杂长视距（long-horizon）任务上取得了显著进展。然而，在实际运行（Rollout）中，随着环境变化和反馈的累积，很多智能体容易陷入重复的失败模式：例如未经充分信息检索就过早终止（Premature Finalization）、对中间结果过度自信、或者在无用的搜索词上陷入死循环。

为了解决这些问题，目前的常见做法是总结历史失败经验，将其作为“文本技能（Textual Skills）”注入到系统提示词（Prompt）中，例如告诉模型“请在得出结论前验证证据”。但这种方法的痛点极其明显：

文本建议过于柔性（Advisory Guidance）： 文本只能告诉模型“原则上该怎么做”，却无法精确控制“何时触发”以及“如何强制改变接下来的行为”。
弱控制力（Weak Policy Control）： 在复杂状态下，模型很容易忽略 Prompt 中的长篇大论，继续重复之前的错误行为。

简而言之，目前业界的“经验复用”多停留在自然语言层面，存在“认知（知道该怎么做）与执行（能否切实改变 Action Space）脱节”的鸿沟。

💡 核心贡献

本文提出了一种全新的框架 HASP (Harnessing LLM Agents with Skill Programs)，将智能体的历史经验从“被动文本建议”升级为“可执行的程序函数 (Program Functions, PFs)”。其核心突破在于：

将技能转化为“状态-动作”的可执行干预函数： 技能不再是一段提示词，而是一段代码（PF）。它能根据当前状态决定是否触发，并在模型输出错误 Action 前直接拦截、修改 Action，或向上下文中强行注入纠正信息。
高度模块化的 Agent Harness： 提出了一个“智能体安全带/外挂控制层 (Harness)”机制。该机制可以即插即用，纯 Inference-time 就能大幅提升能力；也可以在 Post-training 阶段提供结构化的监督信号；更能支持安全的“自我进化 (Self-improving)”。
可控的技能库演进闭环： 摒弃了毫无限制的自我反思，HASP 要求模型针对失败案例编写出包含执行逻辑和接口的 PF 代码，且必须通过严格的代码沙盒编译测试（Executable Validation）及教师模型评审（Teacher Review）后，才能进入技能库，根除了技能污染。

🔎 具体案例剖析 (Case Study)

为了直观感受 PF 的强制干预能力，论文展示了在 MuSiQue（多跳实体解析数据集）上的一个真实轨迹对比：

问题： 找出 2005 年 John 死后，某位去世的著名 Walton 家族成员的丈夫是谁？

Baseline Agent (失败轨迹)：
- [Step 0] 搜出了一堆关于 Walton 家族的冗长信息。没有阅读文档就盲猜答案。
- [Step 1] 去搜 "Alice Walton death date"，发现她还活着。
- [Step 2] 再次搜一模一样的 "Alice Walton death date"（陷入死循环）。
- [Step 3] 强行输出错误答案 FINAL("Bruce Walton")（模型幻觉）。
HASP Agent (成功轨迹)：
- [Step 0] 模型本打算直接搜索全句，此时 PF decompose_complex_question 被触发，它执行了 INJECT_CONTEXT，在观测结果后强制追加了一段系统级警告：“这是个多跳问题，请先拆解寻找中间实体”。
- [Step 1] 模型受此引导，重新规划，成功搜出中间实体 Helen Walton 并得知她死于 2007 年。
- [Step 2] 模型试图过早得出结论：PROPOSED ACTION: FINAL("Sam Walton")。此时 PF insufficient_exploration 检测到 action_type=FINAL 但 read_count=0，立即被触发！执行 MODIFY_ACTION，将模型的动作强制拦截并篡改为 READ(doc_0)。
- [Step 3] 模型阅读文档后，最终确信并合规输出最终答案，成功完成推理链。

在这个案例中，PF 就像一个严格的监工，直接拦截并覆写了致命的错误决策（过早 Final 和未充分拆解），这是传统的 Prompt Engineering 根本无法做到的。

核心架构图 — 图注：HASP 框架概览。(a) 在推理阶段，检索到的 PF 作为干预函数，通过重写动作或注入上下文来引导 Agent 的多步推理；同时输出包含各种细粒度打分的结构化信号。(b) 这些由 PF 修正并打分的高质量轨迹，将被用于策略内化（SFT/RS/OPD）以及技能库的自我迭代闭环中。

⚙️ 方法论与技术实现

1. Program Functions (PFs) 结构设计

在 HASP 中，每个技能被定义为一个确定性的 Python 模块，包含两个核心接口：

should_activate(step_context, action_type, arg) $\rightarrow$ bool：一个判定逻辑，决定当前状态下该技能是否应当触发（例如判断当前是否是 SEARCH 动作且搜索词过短）。
intervene(step_context, action_type, arg, teacher=None) $\rightarrow$ Intervention：具体的干预操作，返回的操作类型可以是修改动作（MODIFY_ACTION），或者是注入上下文（INJECT_CONTEXT）。

2. 推理阶段的 Agent Harness

在时刻 $t$，基础策略（Base Policy）提议一个动作 $a_t^{\text{orig}} \sim \pi_\theta(\cdot \mid s_t)$。接着，外置的 Harness 控制层检索相关的 PF。如果触发条件满足，PF 会计算并输出纠正后的最终执行动作 $\tilde{a}_t$ 以及需要注入的纠正上下文 $c_t$。模型最终执行并记录的是被 PF “修正”后的轨迹记录：$e_t = (s_t, a_t^{\text{orig}}, \tilde{a}_t, c_t, \kappa_t, \Delta_t)$。

3. Post-Training: 通过 PF 信号进行策略内化

仅仅在 Inference 时纠正还不够，我们需要让模型内化这些能力。HASP 为每次干预设计了四维监督信号聚合向量 $\mathbf{z}_t = (t_t, m_t, q_t, o_t)$，分别代表：干预时机（Timing）、干预模式（Mode）、局部正确性（Correctness）和最终结果（Outcome）。聚合得分记为：

$$ A_t = \lambda_t t_t + \lambda_m m_t + \lambda_q q_t + \lambda_o o_t $$

作者验证了三种后训练方法，其中 PF-guided Rejection Sampling (RS) 效果最稳定：对采样的轨迹使用全局成功率与中间 PF 打分的组合得分进行过滤，留下最符合“正确 PF 逻辑”的轨迹去 Fine-tune 学生模型（$\mathcal{L}_{\text{SFT}} = - \sum_t w_t \log \pi_\theta(\tilde{a}_t \mid s_t)$）。这使得模型在不依赖外部探索的条件下迅速学到了高效行为策略。

4. 技能库自我进化 (Self-Improving Evolution)

HASP 提供了一个严格的闭环用于技能挖掘：

发现与提议： LLM 对当前 Checkpoint 遗留的失败轨迹进行分析（聚类），如果发现共性错误，则生成一个新的 PF 候选代码片段。
Executable Validation (执行门控)： 对该 PF 运行抽象语法树解析、接口匹配，并在 9 种 Mock 的上下文状态下进行沙盒空跑，一旦崩溃直接丢弃。
Teacher Review (评审门控)： 由 Teacher Model 根据 Concept, Trigger, Intervention, Executability, Validation 五个维度进行打分（$Q_{\text{skill}} \ge 0.60$ 才准入）。

📊 实验设置与结论分析

论文在 Web-Search Reasoning (HotpotQA, 2Wiki, MuSiQue), Math Reasoning (AIME24, AMC23, GameOf24) 和 Coding (HumanEval, MBPP, BigCodeBench) 上使用 Qwen2.5-7B-Instruct 进行了全面评测。

纯 Inference-time 的降维打击： 在 Web-search 任务上，纯基础模型（Multi-loop RA-Agent）准确率为 31.2%。仅仅将 Prompt-Only Skills 替换为 HASP PF-only intervention，准确率直接飙升至 51.0%；如果加入辅助 Teacher 选择 PF，可达 56.2%。这证明了主动式拦截远胜于被动式 Prompting。
Post-training 策略内化极具性价比： 在固定 PF 库下，仅仅通过 PF-guided Rejection Sampling，模型无需庞大的 RL 开销即可将 Web-search 能力进一步提升至 59.3%，On-policy Distillation 甚至达到 62.5%（大幅超越 Search-R1 等传统 RL 基线）。
安全进化： 在引入 Self-improving 闭环后（HASP-Evolve + RS），系统在 Web-search 达到 60.3%，在 Math Reasoning 达到 45.4%（比纯 SFT 提升 16.3 个点），在 Code 生成上达到 69.9% Pass@1。

Ablation 洞察： 作者发现如果关闭“Executable Validation”和“Teacher Review”两个门控，让技能库无脑堆积（Evolution, no filtering），效果会断崖式暴跌（从 60.3% 降到 36.3%）。这证实了“内存污染（Memory Pollution）”是自我进化系统最致命的弱点，严格的编译通过和多维审核是构建高质量技能库的前提。

🌟 关键技术亮点分析

将“慢思考 (System 2)”下沉为代码守卫 (Code Guardrails)： 过往的 Agent 研究过度依赖 LLM 自身的隐式反思能力（如 Reflexion）。HASP 的哲学是：那些确定的规则（比如“还没检索过文档就不许抛出答案”、“搜索词不能超过20个词”）没必要次次靠 LLM 自发思考，直接用 Python 规则和正则表达式作为外置拦截器，能极大收敛探索空间，消除低级幻觉。
绕过了纯 RL 探索的稀疏奖励陷阱： 在复杂工具调用和多跳推理中，RL 常常因为找不到正确路径而崩溃。HASP 把高难度的 Exploration 转化为了“提议(Proposal) + 拦截纠正(Intervention)”范式，PF 生成的高质量 Correction 直接化为了 SFT/RS 的密集正向标签，这种 Elicitation（能力激发）比盲目的 PPO 探索高效得多。
Agent Engineering 的模块化典范： 该研究的工程实现极其优雅。同样的机制既能在 Inference 时作为拦截网兜底（提升部署期业务可用性），又能在闲时作为打分器构建对齐数据集供下一次 SFT 迭代。对于正苦恼于 Agent 落地产出不稳定、易死循环的从业团队来说，HASP 提供了一条清晰的落地参考路线。

Look Before You Leap: Autonomous Exploration for LLM Agents

三思而后行：LLM智能体的自主探索

作者：Ziang Ye, Wentao Shi, Yuxin Liu, 等

机构：中国科学技术大学、美团

📄 查看 ArXiv 原文

🔥 研究背景与痛点

随着强化学习（特别是带有可验证奖励的强化学习，RLVR）在多步推理任务中的应用，LLM Agents 在复杂环境中执行长臂任务的能力得到了长足提升。然而，当这些被高度优化的 Agent 被部署到未知或发生动态分布偏移的环境时，它们往往会暴露出一个致命缺陷：过早利用（Premature Exploitation）。

目前的 Task-oriented（任务导向）训练模式，过度鼓励 Agent 为了达成特定预设目标而采取短视的工具行为。这导致了两个典型的失败模式：

缺乏清晰的切入点：面对新环境，Agent 倾向于盲目试错或自信地执行基于先验知识的“脑补计划”，而不是先去主动收集与任务相关的当前环境状态信息。
语义错配导致的错误累积：在未探明环境的隐式约束（如某个工具的具体参数格式、UI的特定 Affordances）前就强行交互，导致动作与环境报错死循环。

在真实世界部署中，我们无法为每一个动态演变的环境预编译外挂知识库。因此，赋予 Agent 类似人类“三思而后行”的在线自主探索能力（Autonomous Exploration）成为了打破泛化瓶颈的关键。

💡 核心贡献

探索能力的量化定义：首次将环境探索形式化为一种独立的、可学习的智能体能力，并引入了一个完全依赖环境验证的指标 Exploration Checkpoint Coverage (ECC)，摒弃了容易出现幻觉的 LLM-as-a-judge 评估。
揭示了 Task-oriented RL 的反噬效应：实验证明，单纯使用任务完成度作为奖励进行 RL 微调，会显著抑制大模型的探索意愿，使其陷入极其狭隘的状态交互圈。
探索感知训练策略 (Interleaved GRPO)：提出将探索专属的 Rollouts（用ECC作为奖励）与传统的任务 Rollouts 进行交替训练，从底层能力上植入“先探明环境再决策”的本能。
Explore-then-Act 推理范式：提出一种分离策略，推理时先给定探索预算让 Agent 梳理出环境的 Grounded Knowledge，再将其作为 Context 输入给后续的目标执行过程，大幅提升鲁棒性。

🔍 具体案例剖析 (Case Study)

论文在 ALFWorld 环境下对比了“纯任务训练模型”和“探索感知训练模型”在同一个场景中的表现。

任务指令： 拿起杯子 (mug)，用冰箱 (fridge) 冷却它，然后把它放在咖啡机 (coffeemachine) 上。

❌ Task-Only 模型 (直接利用) - 执行失败 (100步耗尽)：

行为表现：一上来就开始漫无目的地翻箱倒柜寻找 mug，翻遍了所有的橱柜 (cabinet) 和水槽才找到。
死循环：试图执行冷却动作 cool mug 1 with fridge 1，但此时它并没有移动到冰箱面前（违反了近邻交互的前置约束）。
结果：环境反复返回 Nothing happens.，Agent 无法理解错误原因，在此动作上死循环直至预算耗尽。

✅ Exploration-Aware 模型 (Explore-then-Act范式) - 7步完美完成：

Phase 1 (事前探索)：在任务开始前，它已经进行了无目标的自主探测。它尝试过拿两个物品发现环境有单物品限制 (One-object limit)，尝试远距离执行动作并收到了错误提示从而摸清了动作的语法与前置约束。
Phase 2 (任务执行)：凭借高 ECC 探索生成的内部认知图谱，模型接手任务后，精确地直接走到包含 mug 的台面，拿起它，走向冰箱执行冷却，最后走向咖啡机放下。
结果：整个执行过程仅消耗 7 步，行云流水。

⚙️ 方法论与技术实现

1. 可验证指标：Exploration Checkpoint Coverage (ECC)

为了衡量探索的有效性，作者在每个环境实例中定义了一个隐含的检查点集合 $\mathcal{C} = \{c_1, c_2, \dots, c_M\}$。这些检查点包括：关键的导航位置（Rooms）、可交互的物体（Objects）以及功能性动作/状态转变（Affordances）。

一段探索轨迹 $\tau_{\text{EXP}}$ 的 ECC 定义为成功触发这些检查点的比例：

$\text{ECC}(\tau_{\text{EXP}}) = \frac{1}{M} \sum_{i=1}^M \mathbb{1}[c_i \in \tau_{\text{EXP}}]$

重要的是，ECC是一个基于物理环境状态引擎的客观指标，而非基于LLM主观打分。只有 Agent 真正走到了房间、或成功操作了物品触发了环境反馈，对应项才会被记为 1。

2. 探索感知训练 (Interleaved GRPO)

在模型训练中采用 Group Relative Policy Optimization (GRPO)。为了防止模型过拟合于预设任务而丧失探索欲，作者采用了一种交替调度策略 (Interleaved Training Schedule)：

Task-focused 步：传统方式，基于是否成功完成任务给予 0 或 1 的 Reward。
Exploration-focused 步：将 Agent 扔在没有明确任务目标的环境中，让其自由探索产生多个 Rollouts $\{y^{(i)}\}_{i=1}^G$。此时对应的奖励函数被替换为 $R_{\text{EXP}}^{(i)} = \text{ECC}(\tau_{\text{EXP}}^{(i)})$。

通过设定一个任务与探索批次比（默认 5:1），模型既学会了如何高效做任务，又被强化了系统性发现未知环境结构的潜意识。

3. Explore-then-Act (E-t-A) 推理范式

摒弃传统的 ReAct 式一发到底的统一推理回路，将其分为两段：

Information Gathering (探索阶段)：在无目标状态下给予 $N$ 步预算进行自由探测，生成轨迹。Agent 利用 LLM 总结出物理接地的环境先验知识总结 $\mathcal{K}$（包含地图布局、物体用法、发现的规则等）。
Task Execution (执行阶段)：接受具体任务 $g$。此时 policy 在执行时的条件变为了依据历史和探索知识来输出动作：$a_t \sim \pi_{\text{ACT}}(\cdot \mid H_t, g, \mathcal{K})$。

📊 实验设置与结论分析

实验在三个要求不同能力的代表性环境中进行：ALFWorld (具身导航操作)、ScienceWorld (复杂科学规则探索) 和 TextCraft (隐藏合成配方的规划)。

现有模型的窘境： 即使如 LLaMA3.1-8B 或 Qwen2.5-7B 这样的优秀开源基座，在没有任务指引下的自主 ECC 覆盖率仅有 20%-30% 左右，容易早早触发 done 结束或陷入重复循环；纯 Task-oriented 强化的模型（如 Qwen3-4B+GRPO TaskOnly），探索能力（ECC）反而会从 28.5% 下跌至 18.8%。
双重性能提升： 采用 Interleaved GRPO 训练的模型不仅修复了探索缺陷，其在 Direct Execution (零样板直接测试) 模式下的平均任务成功率从 73.9% 升至 77.2%（证明探索训练强化了底层的泛化认知）；而在配合 E-t-A (先探索后执行) 范式时，成功率进一步攀升至 79.5%。
对环境微扰的鲁棒性 (Robustness)： 作者构建了 ALFWorld 的三种变体（物体挪位、交互前置条件更改、注入视觉干扰物）。在这些 Zero-shot 的动态偏移下，Task-Only 模型的成功率急剧下跌，而经过探索训练的模型，由于具备在 E-t-A 阶段自行排雷的能力，展现出了断崖式领先的韧性。

🌟 关键技术亮点分析

从从业者视角来看，这篇论文深刻指出了当前以 Reward 驱动的 Agent 训练存在的一个隐患：“捷径依赖”剥夺了 Agent 的好奇心。强化学习天生会寻找阻力最小的路径，当训练集中都是已知套路时，Agent 学会的是“背板”，而不是“如何去认识新世界”。

本文的亮点在于，它没有选择用笨重的 Offline MCTS / 预构建知识图谱来外挂解决这个问题，而是通过构造客观的校验指标 (ECC) 将“无目标的探索机制”直接融合到当前最前沿的 RLHF/GRPO 训练管线中。不仅流程优雅，并且给出了 Explore-then-Act 这样一个非常具有实际工程部署价值的 Inference Pattern（遇到新场景，先消耗部分 token 让 Agent 跑图探路，建立局部向量记忆或上下文总结，再让它干正事，磨刀不误砍柴工）。

进化任务发现：通过技能组合与复杂度缩放拓展推理边界

Evolutionary Task Discovery: Advancing Reasoning Frontiers via Skill Composition and Complexity Scaling

Authors: Liqin Ye, Yanbin Yin, Michael Galarnyk, Yuzhao Heng, Sudheer Chava, Chao Zhang

Institution: Georgia Institute of Technology

📄 查看 ArXiv 原文

1. 研究背景与痛点 (Background & Motivation)

随着DeepSeek-R1和Gemini 3 Pro等模型在复杂基准测试（如AIME、Humanity's Last Exam）上大放异彩，基于可验证奖励的强化学习（RLVR, Reinforcement Learning from Verifiable Rewards）已被证明是提升LLM推理能力的关键引擎。然而，RLVR的效果遭遇了显著的“天花板”：它极度受限于训练数据的多样性和复杂度分布。

为了打破静态昂贵的人类标注数据的限制，行业普遍采用合成数据（Data Synthesis，如Evol-Instruct等范式）。但当前的主流合成方法面临着致命的结构性缺陷：

黑盒且无结构的提示突变（Unstructured Mutation）： 仅仅通过Prompt让LLM“让这道题变难”或“添加更多约束”，导致生成的样本经常是近乎重复的废话，或者生成出语法错误的无效代码。
同质化崩溃（Homogeneity Collapse）： 虽然模型可能表面上覆盖了更多领域，但底层算法逻辑的复杂性并没有真正递进，导致模型仅学会了死记硬背单一解题路径（表现为Pass@1提升，但Pass@8下降）。

简而言之，现有的“平面化”数据合成无法系统性地、呈阶梯状地推高LLM的计算复杂度和组合泛化能力。

2. 核心贡献 (Key Contributions)

为了解决上述痛点，本文提出了 Evolutionary Task Discovery (EvoTD) 框架，将数据合成建模为在结构化空间中的“定向进化搜索”，其核心突破在于：

双轴任务流形抽象 (Dual-axis Manifold Abstraction)： 摒弃了将任务视为单纯文本的视角，创造性地将推理任务解耦为两个相互正交的维度：算法技能（Algorithmic Skills，即逻辑主干）和复杂度属性（Complexity Attributes，即结构化约束/规模）。
结构化的进化算子 (Structured Evolutionary Operators)： 设计了针对上述双轴的两种算子——Attribute Mutation（属性变异）用于实现复杂度垂直扩展，以及 Skill Crossover（技能交叉）用于发现新颖的技能组合以增强多样性。
基于最近发展区的自适应过滤 (ZPD-based Dynamic Filter)： 引入了动态适应度检验，确保合成任务恰好落在当前模型策略 $\pi_\theta$ 的“最近发展区（Zone of Proximal Development）”内，即“既非平凡亦非不可能”，从而自动形成随着模型变强而逐步升级的完美 Curriculum（课程）。
在Qwen3和LLaMA等不同架构、Base/Instruct/Thinking不同设定下均取得了SOTA成绩，特别是在硬核推理AIME基准上斩获巨大提升。

3. 具体案例剖析 (Case Study)

EvoTD究竟是如何不改变题意却真正增加推理深度的？我们可以通过论文附录中的真实进化案例来直观感受：

案例一：属性变异（Attribute Mutation）——从单一聚合到多阶段流水线

背景： 原任务要求考察 sliding_window（滑动窗口）技能。
进化路径： EvoTD的变异算子识别到可以对原先的中间结果（前缀和）增加“Max-Window Phase（最大值窗口阶段）”作为复杂度提升点。
具体表现： 进化后的代码不仅保留了滑动窗口的内核，还在求和阶段后，引入了一个单调队列（deque）结构，以在线性时间内寻找第二个大小为 $m$ 的窗口内的最大值。这就将原本简单的数组聚合操作，拉升到了“多阶段双窗口数据流追踪”的算法难度。这种变异没有改变核心技能考点，却极大地拔高了结构复杂度，逼迫模型学习规模不变（Scale-invariant）的解法。

案例二：技能交叉（Skill Crossover）——多层嵌套的深度协同

背景： 模型需要生成一道需要多种算法混合求解的综合推理题。
进化路径： 交叉算子将 Parametric Search（参数化二分搜索）、Difference Array（差分数组）、Prefix Sum（前缀和）与 Polygon Area / Shoelace Formula（多边形面积）深度融合。
具体表现： 代码实现了一个参数搜索框架优化更新次数。在每一步二分验证（Verify Feasibility）内部，首先用差分数组和前缀和在线性时间内重构多边形的Y坐标边界，然后调用Shoelace公式计算此时的面积，最后与Target进行对比。这种技能组合不是表面上把几个函数拼凑在一起，而是形成了严密的逻辑依赖链（Synergistic combination），任何一个环节出错都会导致全盘崩溃，极大锻炼了长链条推理能力。

4. 方法论与技术实现 (Methodology)

EvoTD基于 Proposer-Solver（出题者-解题者）范式，底层优化方法采用典型的RLVR算法（如GRPO或DAPO）。其数据合成引擎的详细设计如下：

4.1 双轴流形任务抽象 (Dual-axis Task Abstraction)

模型将一个推理任务 $t$ 抽象为双轴流形上的一个点 $\Phi(t) = (s, \mathbf{c})$，其中 $s \in \mathcal{S}$ 是算法技能（如二分查找、堆排序等），$\mathbf{c} \in \mathcal{C}$ 是复杂度属性集合（如输入规模、图的大小、树的深度等）。这一步的候选集通过具有元认知（Metacognitive）能力的LLM从种子数据集中抽取得到。

4.2 进化算子 (Evolutionary Operators)

Skill-based Seeding (技能引导播种)： 首先以提取出的原子技能 $s$ 为条件，利用Proposer生成初始的程序-输入对。这保证了进化种群在初始化时就具备了最大化的“语义覆盖率”。
Attribute Mutation (复杂度属性变异)： 负责“垂直”维度的进化。对于一个父代程序，Proposer首先决定哪些复杂度约束是适用的（例如含有树结构才能增加tree depth），然后定向增强这些属性： $$\mathcal{M}_{attr}(t, \pi_{prop}) = t' \quad \text{s.t.} \quad \Phi(t') = (s, \mathbf{c} + \Delta\mathbf{c}')$$ 在此过程中严格保证逻辑骨干 $s$ 不变。
Skill Crossover (技能交叉)： 负责“水平”探索组合逻辑。令 $\Lambda(\mathcal{D})$ 为当前种群已有的技能组合集，该算子负责搜索并生成具备未知技能组合 $S_{new}$ 的新任务： $$\mathcal{X}_{skill}(\Lambda(\mathcal{D}), \pi_{prop}) = t_{new} \quad \text{s.t.} \quad Skill(t_{new}) = S_{new} \notin \Lambda(\mathcal{D})$$ 为了防止生成毫无意义的强行拼接代码，Prompt严格要求新加入的技能必须高度协同且为解决问题所必需。

4.3 多目标适应度检查 (Multi-objective Fitness Check)

合成的数据如果不经验证，往往包含大量“语法错误”或“无法收敛的死循环”。EvoTD设计了一个严苛的联合指标函数 $\mathcal{V}(t)$ 过滤种群：

$$\mathcal{V}(t) = v_{exec}(t) \cdot v_{skill}(t) \cdot v_{learn}(t)$$

$v_{exec}(t)$ (可执行性): 使用Python执行器，确保程序没有语法错误且在限定时间内能够终止。
$v_{skill}(t)$ (技能对齐度): 利用LLM-as-a-judge执行代码审计，确保生成的代码中真正运用了目标算法技能，而不是抄近道或退化成了暴力解。
$v_{learn}(t)$ (可学习性/ZPD): 也是本工作的一大核心——测试对于当前正在被训练的模型（Solver $\pi_\theta$）来说，该题目是否太简单或太难？通过对Solver采样 $k$ 次，仅保留通过率严格介于0和1之间的题目： $$v_{learn}(t) = \mathbb{I}[0 < \mathbb{E}_{k \sim \pi_\theta}[\text{solved}(t_k)] < 1]$$ 这天然形成了一种自适应课程（Dynamic Curriculum）。

5. 实验设置与结论分析 (Experiments & Results)

实验广泛涵盖了5大基准测试：MBPP+, LiveCodeBench, AIME 2024/2025, OlympiadBench, MMLU-Pro 和 SuperGPQA。基座模型选择了Qwen3系列（4B/8B Base及Thinking版）和LLaMA系列。

极强的鲁棒与防崩溃能力： 传统的Evol-Instruct等方法经常陷入模式崩溃，导致Qwen3-4B Thinking版本的Pass@8指标甚至不如未微调的原模型（54.2% vs 55.1%）。而 EvoTD 则全面正向增长，Pass@8 达到了 61.6%（+6.5%）。由于保持了算法多样性，模型面对多次采样不会只吐出单一解法。
难度越高的测试提升越明显： 对于硬核的数学竞赛级别基准，EvoTD展现出了惊人的压制力。在 AIME 24 上相对Baseline猛增 +8.2%，在AIME 25上猛增 +7.2%。这有力证实了Attribute Mutation机制能强迫模型学会真正的尺度不变法则（scale-invariant solutions），而不是仅仅对简单规模的数据进行模式匹配（Pattern matching）。
破圈的通用泛化： 进化虽聚焦在代码和数学任务上生成，但强大的结构化推理训练外溢到了通用领域。在 MMLU-Pro 和 SuperGPQA 上的综合成绩均超越其他方法，特别是在依赖严密推理的 STEM 领域（如化学+5.6，物理+5.4）提升极为显著。

消融实验印证组件价值： 移除Attribute Mutation会导致AIME成绩暴跌（-5.0%），因为硬核数学严重依赖细粒度复杂度拆解；移除Skill Crossover则导致宏观推理和抽象逻辑泛化能力大幅衰减。

6. 关键技术亮点分析 (Key Highlights)

降维打击：从“文本操控”走向“参数化空间流形遍历”
传统的数据增强是典型的“黑盒Prompt调包侠”思路（"Add more constraints"）。EvoTD通过引入双轴流形抽象，把合成数据降维成了一种白盒的可控拓扑搜索。这使得LLM终于可以像玩积木一样，精准地单独调控“骨架”（逻辑点）和“肉体”（复杂度限制），从而彻底消除了合成数据的随机性和低效性。
把 Vygotsky 心理学派引入RL：动态ZPD课程的优雅落地
通过 $\mathbb{I}[0 < \mathbb{E}[\text{solved}] < 1]$ 这种简洁极客的过滤机制，EvoTD不仅拦截了脏数据，还在无形中建立了一个完美的自适应教师（Adaptive Curriculum）。随着Solver模型能力在RL训练中螺旋上升，以前 $\text{pass rate}=0$ 的难点自动进入了ZPD区间被激活，使得训练分布永远踩在模型能力突破的边界线上。
打破RLHF/RLVR的“能力税”（Alignment Tax）魔咒
传统认为“练数学会掉代码，练代码会降常识”。EvoTD由于将任务提炼到了高度抽象的 Algorithmic Primitives（算法基元）层面，证明了：在纯粹且多样的逻辑骨架上训练出来的推理能力，是一种高度可迁移的正资产，能够在化学、物理等STEM全面结出果实，这是一项极具里程碑意义的发现。

ELVIS: Ensemble-Calibrated Latent Imagination for Long-Horizon Visual MPC

ELVIS：用于长视野视觉MPC的集成校准隐空间想象

作者：Yurui Du, Pinhao Song, Yutong Hu, and Renaud Detry

机构：KU Leuven（鲁汶大学）, Flanders Make at KU Leuven

📄 查看 ArXiv 原文

1. 研究背景与痛点 (Background & Pain Points)

基于模型强化学习（Model-Based RL, MBRL）旨在通过学习世界模型（World Model）来大幅提升视觉控制的样本效率。近年来，该领域演化出两条主流路线：一是如 TD-MPC2 那样，直接在隐空间进行模型预测控制（Model Predictive Control, MPC），但其通常依赖简单的短帧堆叠（Frame Stacking）来处理状态；二是如 DreamerV3 系列，利用循环状态空间模型（RSSM）进行长期信念跟踪（Belief Tracking），但缺乏在线的轨迹优化控制。

当把这些方法应用到极具挑战性的部分可观测（Partial Observability）环境（如严重的视觉遮挡、传感器噪声）以及长视野（Long-horizon）规划时，暴露出两大核心痛点：

模式平均与坍塌 (Mode Averaging & Collapse)： 随着隐空间推演视野的拉长，环境动力学不可避免地会分岔出多条不同的未来演化路径。传统的基于单峰高斯分布的规划器（如标准 MPPI）会试图同时拟合多个不兼容的高奖励动作序列，最终产生一个取平均值的保守动作，导致策略失效。
误差累积与模型幻觉 (Compounding Errors under Occlusion)： 在严重遮挡下，模型只能通过先验“盲目”进行前向推演（Imagination）。随着步数增加，认知不确定性（Epistemic Uncertainty）飙升，导致模型给出的远期价值估计极不可靠。如果规划器盲目信任长视野Rollout，往往会被带偏。

2. 核心贡献 (Core Contributions)

本文提出了一种全新的框架 ELVIS，这是首个融合了信念记忆（Memory-augmented）、多模态规划与不确定性截断的视觉隐空间MPC控制器。其核心贡献包括：

GMM-MPPI（高斯混合轨迹优化）： 摒弃了传统的单峰高斯采样，在隐空间动力学中引入高斯混合模型（Gaussian-Mixture MPPI）。这使得规划器能够同时维护并探索多条互不干扰的长视野假设路径，完美规避了分岔未来下的模式坍塌问题。
基于不确定性感知的动态软截断 (UCB-gated $\lambda_t$-return)： 创新性地利用集成 Critic（Ensemble Critics）量化隐状态不确定性。通过计算置信加上界（UCB）分数，自适应调整时间差分学习中的衰减率 $\lambda_t$。当模型遇到不确定性激增的隐状态时，主动减小 $\lambda_t$（多依赖自举/Bootstrapping，缩短有效视野），反之则扩大视野。该机制统一应用于 Actor-Critic 的学习目标和 MPPI 的轨迹打分中。
极强的 Zero-shot Sim-to-Real 能力： 在极具挑战的真实世界沙喷涂（严重遮挡）任务上展现出卓越的鲁棒性，甚至颠覆了在纯仿真中基线方法的性能排序。

3. 具体案例剖析 (Case Study: 真实世界沙喷涂任务)

为了验证 ELVIS 在极端部分可观测环境下的表现，论文构建了一个极具工业背景的 Sim-to-Real 任务：控制机械臂在一个充满沙尘干扰和视觉遮挡的物理沙盘上均匀喷涂颗粒材料。

输入： 俯视双目相机捕捉的实时高度图（Heightmaps）。由于沙粒飞溅，画面中会持续出现大片盲区（观测缺失或噪声严重）。
挑战： 智能体仅在纯仿真环境中完成训练，随后直接 Zero-shot 部署到真实设备。在仿真阶段，TD-MPC2 的表现其实略优于 ELVIS，DreamerV3 最差。
实际输出表现： 在真实物理部署后发生了惊人的逆转（ELVIS $\gg$ DreamerV3 > TD-MPC2）。TD-MPC2 由于采用帧堆叠，一旦遭遇遮挡便丢失上下文，出现“策略锁死”（机械臂反复喷涂同一个角落）。DreamerV3 凭借 RSSM 记忆勉强工作，但因无 MPC 纠偏而表现平庸。而 ELVIS 输出的喷涂路径极度均匀，它通过 RSSM 维持对被遮挡区域的“信念”，利用 GMM-MPPI 规划多条候选路径，并在预测进入极度不可靠的深层虚假状态前，利用 UCB 分数及时截断了规划视野，实现了低至 2.2mm 的均方根粗糙度（远低于TD-MPC2的16.3mm）。

4. 方法论与技术实现 (Methodology)

ELVIS 的整体框架建立在循环状态空间模型（RSSM）的基础上，其技术链路分为三大模块：

建立部分可观测下的信念 (RSSM Filtered Belief)： 利用编码器推断随机变量 $z_t$，结合确定性记忆 $h_t$，形成紧凑的信念状态 $\hat{s}_t = (h_t, z_t)$。此状态能很好地捕获偶然不确定性（Aleatoric uncertainty）。
GMM-MPPI 轨迹并行优化： 将控制动作序列的提议分布建模为 $M$ 个高斯的混合 $q_m(a_{0:H-1}) = \mathcal{N}(a_{0:H-1}; \mu_m, \Sigma_m)$。规划时，从 $M$ 个模式中各自采样 $K$ 个动作序列，在 RSSM 的隐空间先验动力学下进行长视野展开（Rollout）。系统独立对每个模式内部基于相对最优的权重进行矩匹配更新，从而保留多条完全不一致的高收益解，而非强制平均。在下一时刻，再利用学得的 Actor 策略 $\pi_\psi(\cdot|\hat{s}_k)$ 辅助对这些多模态均值进行 Warm-start。
基于 UCB-gated $\lambda_t$ 的探索与软截断： 训练一组（Ensemble）隐空间 Critics $\{V_i(\hat{s})\}_{i=1}^M$，以捕捉认知不确定性（Epistemic uncertainty）。计算预测回报的均值 $\mu_t$ 与方差 $\sigma_t$，定义乐观评分： $$UCB(\hat{s}_t) := \mu_t + \beta \sigma_t$$ 利用该 UCB 动态映射到时间衰减系数 $\lambda_t \in [\lambda_{min}, \lambda_{max}]$： $$\lambda_t = \lambda_{max} - (\lambda_{max} - \lambda_{min}) \operatorname{norm}(UCB(\hat{s}_t))$$ 极高 UCB 表示价值高且不确定性大，此时 $\lambda_t$ 减小，促使递归的回报估计 $G_t$ 更依赖当前的 Critic 估计（Bootstrapping），拒绝被更深层的不稳定模型预测所干扰。最后，这个动态 $\lambda$-return 统一作为训练 Actor-Critic 的 TD Target，以及给 MPPI 规划路径打分的依据。

5. 实验设置与结论分析 (Experiments & Ablations)

论文进行了详实的实验以回答两个核心问题：(1) 长视野与不确定性感知在标准视觉任务上是否有效？(2) 哪些组件决定了应对遮挡等硬核环境的鲁棒性？

DMC标准视觉控制榜单： 在 DeepMind Control Suite 14 个连续控制任务中，ELVIS 的聚合性能全面超越 TD-MPC2 和 DreamerV3，取得了极具统治力的收敛速度和最高奖励。这表明，为解决极端遮挡设计的不确定性软截断等机制，在标准干净环境中同样能大幅强化模型泛化与样本效率。
细致的消融实验（Ablation Studies）： 作者解耦了各个模块的贡献度：
1. 若将规划视野缩短（从 $H=15$ 降至 $H=5$），总体回报大幅下降，证明世界模型长视野 Foresight 的红利不可替代。
2. 若去除不确定性 UCB 截断（采用固定 $\lambda$），模型因误差累积彻底崩溃，证明了“知道何时停止规划”是长视野MPC活命的前提。
3. 若去除 GMM 多模态支持，性能同样滑坡，侧面验证了长路径下隐空间分支会导致单高斯优化的失效。

6. 关键技术亮点分析 (Technical Highlights for LLM/AI Practitioners)

从大模型推理与具身智能架构演进的视角来看，ELVIS 的思路极具启发性：

规划与学习的深度对齐 (Unified Objective for RL and Planning)： 多数现有工作把模型学习和在线规划割裂开来。ELVIS 最出彩的一笔是：用同一个不确定性截断算子同时塑造了 Actor 的先验和 MPPI 的打分规则。这相当于在强化学习的离线更新（System 1）与在线 MPC 推演（System 2）之间建立了一套绝对一致的“可信度评估标准”，防止规划器挖掘出 Actor 未曾见过的对抗性 Bug。
对 LLM 推理搜索（如 MCTS / Tree of Thoughts）的启示： ELVIS 在隐空间面临的长视野“分支灾难（Branching futures）”与大语言模型在多步推理时面临的搜索空间爆炸极其相似。ELVIS 引入 GMM-MPPI 以保持“多条连贯假设共存”，并且利用 Ensemble-Critic 进行“软性提前截断（Soft Truncation）”，这完全可以类比于 LLM 推理过程中的高阶采样与基于置信度的主动回退机制。
解决 Sim-to-Real 的优雅姿态： 没有引入沉重的 Domain Randomization，而是通过增强模型内生的抗幻觉能力（认知不确定性拦截）和信念记忆，原生跨越了巨量遮挡造成的 Domain Gap。为下一代基于基础模型（Foundation Models）的具身智能体提供了极佳的范本。

Threshold-Guided Optimization for Visual Generative Models

视觉生成模型的阈值引导优化

作者：Jinbin Bai, Yu Lei, Qingyu Shi, Aosong Feng, Yi Xin, Zhuoran Zhao, Fei Shen, Kaidong Yu, Jason Li

机构：新加坡国立大学、Collov Labs、北京大学、耶鲁大学、上海创新研究院等

📄 查看 ArXiv 原文

💡 研究背景与痛点

在后训练阶段，将强大的生成模型与人类偏好对齐（Alignment）是一个核心难题。在语言模型领域，RLHF 和 DPO 已经成为对齐范式，并在视觉生成模型（如 Diffusion 和 Masked Generative Models）中得到了广泛借鉴。

然而，现有的策略拟合方法（如 DPO 及其变体）在视觉对齐任务中面临一个根本性的局限：它们重度依赖于成对的偏好标注数据（Paired Preference Data）。在实际业务中，获取高质量的成对图像比较成本高昂，而更自然、更易扩展的反馈形式往往是独立的标量评分（Unpaired Scalar Feedback）（例如用户给出的 1-5 星评分或外部 Reward Model 吐出的连续打分）。

强行将标量分数转化为伪成对数据（例如在 Batch 内两两比对）不仅显得 Ad-hoc，还会丢失绝对分数尺度的重要信息（例如 4.9分和4.8分的差距，与 4.9分和1.2分的差距显然不同），并在分数扎堆时放大噪声。因此，亟需一种能够直接从非成对标量反馈中高效学习的对齐算法。

🏆 核心贡献

提出 TGO (Threshold-Guided Optimization) 框架：针对视觉生成模型，设计了一种直接利用无配对标量反馈的对齐算法，打破了必须构建 Pairwise 偏好数据的限制。
基于 KL 正则化目标的理论推导：揭示了最优策略本质上是将样本 Reward 与一个难以计算的实例级 Baseline（配分函数）做比较。TGO 用数据驱动的全局阈值（Global Threshold）和置信度加权巧妙地近似了这一最优解。
广泛且一致的性能提升：在连续输出范式（Diffusion 模型，如 SD v1.5, FLUX）和离散 Token 范式（MaskGIT 模型，如 Meissonic），甚至视频生成（Wan 1.3B）上，TGO 均能显著超越 SFT 并在多项 Reward 评测上击败现有的 Pairwise 对齐方法（如 Diffusion-DPO, Diffusion-KTO）。

🔍 具体案例剖析 (Case Study)

以 Stable Diffusion v1.5 为基础模型，对比多种微调算法对语义还原和视觉质量的影响：

案例 1（复杂组合语义）：Prompt: "A giraffe with sunglasses and a bazooka." (一只戴着墨镜、拿着火箭筒的长颈鹿)。
- 原始 SD v1.5 经常漏掉火箭筒或者将其与长颈鹿身体融合。
- Diffusion-DPO 和 AlignProp 勉强生成了物体，但视觉结构错乱，甚至丢失了墨镜特征。
- TGO (Ours) 结果：准确呈现了长颈鹿的物理特征，墨镜完美佩戴，火箭筒也以合理的持握姿态呈现，画质清晰度极高，充分展现了其对复杂偏好特征的拟合能力。
案例 2（Meissonic 离散视觉模型范式）：Prompt: "A humanoid metal robot with an Anubis head captured in a full body shot."。
- SFT 与 CSFT 往往只能生成粗糙的机器人骨架，缺乏“阿努比斯”特定的风格细节。
- TGO (Ours) 结果：生成的机器人充满金属光泽，狗头（阿努比斯）细节锐利，背景干净且完全符合“全身照”的构图要求，证明该方法不仅在 Diffusion 上 work，在基于 Transformer 的 Masked 架构上同样出色。

⚙️ 方法论与技术实现

1. 理论根基：配分函数的解耦

在带 KL 正则的强化学习框架下，最优策略 $\pi^*(y|x)$ 可表示为：

$$ \pi^*(y|x) = \frac{1}{Z(x)} \pi_{\text{ref}}(y|x) \exp\left(\frac{1}{\beta}\mathcal{R}(x, y)\right) $$

将其取对数并整理，策略增加的概率方向取决于一个不等式：

$$ \log \frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)} > 0 \iff \mathcal{R}(x,y) > \tau^*(x) $$

这里的 $\tau^*(x) = \beta \log Z(x)$ 充当了一个 Oracle 级别的 Instance-dependent Baseline。DPO 的做法是拿成对的 $(y_w, y_l)$ 作差，从而巧妙地把顽固的 $Z(x)$ 消掉。但在单样本标量反馈下，我们没有作差的条件。

2. 数据驱动的阈值与伪标签 (Pseudo-Preferences)

TGO 选择迎难而上，既然 $\tau^*(x)$ 算不出，就用全局数据的统计分布来做一个强有力的近似。通过对所有样本的打分 $s_i$ 取分位数（通常是中位数 $p=0.5$），得到全局阈值 $\tau = \text{Percentile}(\{s_i\}, p)$。

这直接将回归问题转化为了更易优化的二分类问题。伪偏好标签定义为：$l = \mathbb{I}[s \ge \tau]$。分数大于阈值的算作伪正例（鼓励生成），反之为伪负例（抑制生成）。

3. 引入置信度权重 (Confidence Weighting)

强行二值化会损失分数的幅度信息（Absolute Scale）。为此，TGO 设计了置信度权重 $w(s, \tau) = 1 + c|s - \tau|$。距离阈值越远的极端高分/低分样本，权重越大，减少了阈值附近的噪声影响。

最终的代理分类损失函数为：

$$ \mathcal{L}_{\text{TG}}(\pi_\theta) = -\mathbb{E}_{(x,y,s)\sim\mathcal{D}} \left[ w(s, \tau) \Big( l \log \sigma(\hat{s}_{\theta,\text{ref}}) + (1 - l) \log(1 - \sigma(\hat{s}_{\theta,\text{ref}})) \Big) \right] $$

其中 $\hat{s}_{\theta,\text{ref}} = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)}$，在 Diffusion 模型中可通过缩放的负 MSE 损失（$-\frac{1}{T}\text{MSE}(y, \hat{y}_\theta(x))$）进行近似计算，在 MaskGIT 中则直接提取交叉熵似然。

📊 实验设置与结论分析

评测基准：涵盖 Pick-a-Pic (424条)、PartiPrompts (1632条)、HPSv2 (3200条) 的标准文本提示集。Reward 评测器采用了大满贯阵容：HPSv2.1, PickScore, CLIP Score, ImageReward, Aesthetic。
实验一（真实标量反馈 10k Prompts）：在一个由互联网收集的 1万条高质量提示上，直接使用打分作为监督。相比原始模型和普通 SFT，TGO 不仅在平均分上全面占优，还在中位数分布上体现出整体向右偏移（见原图 Score distributions），说明 TGO 是全局改善而不仅仅是优化了长尾。
实验二（标准 Pairwise 数据集转化对比）：为了在 Pick-a-Pic v2 这种经典 Pairwise 数据集上对标前人工作，作者将 Pair 数据转化为了 per-image 的标量分数。在同等数据前提下，TGO 全面击败了 Diffusion-DPO, Diffusion-KTO, AlignProp 等专门针对 Pair 设计的对齐算法。例如在 ImageReward 榜单上，TGO (0.6703) 明显高于 Diffusion-KTO (0.6381) 和 DPO (0.3433)。
视频延伸探索：TGO 被无缝迁移到 Wan 1.3B 视频生成模型。在 VideoAlign 评测中，TGO-LoRA 的 Overall Score (-1.1757) 全面超越了 SFT-LoRA 和基于 KTO 的微调。

🌟 关键技术亮点分析 (Takeaways)

破除 Pair 迷信，回归 KL 最优解：DPO 带来的配对范式几乎统治了当前的对齐方向，但该文通过回顾 KL 惩罚的基础公式，说明配对并非必须，寻找一个合格的 Baseline 代替配分函数 $Z(x)$ 同样能打通任督二脉。这是对 RLHF/DPO 理论的一次极其优雅的反思。
标量数据的工程潜力：在生产环境中收集 1-5 评分或直接使用开源 RM 跑分，比人工构造 $(y_{\text{win}}, y_{\text{lose}})$ 要便宜/高效得多。TGO 既用阈值获得了 Classification 的稳定梯度，又用 Distance 挽救了回归问题中的信息量，极其贴合工业界需求。
极高的架构普适性：通过对 $\log \pi(y|x)$ 进行针对性的工程适配（Diffusion 使用加噪重构 MSE 近似，自回归/Masked Tokenizer 直接使用 Logit），该 Loss 具备跨代际的泛化性。从 SD 1.5 一路杀到 FLUX 以及视频模型 Wan，证明了其机制的鲁棒性。

大模型 Agent 与强化学习 (RL) 深度学术解读报告

Harnessing LLM Agents with Skill Programs

用技能程序（Skill Programs）驾驭 LLM 智能体

🔍 研究背景与核心痛点

💡 核心贡献

🔎 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现

1. Program Functions (PFs) 结构设计

2. 推理阶段的 Agent Harness

3. Post-Training: 通过 PF 信号进行策略内化

4. 技能库自我进化 (Self-Improving Evolution)

📊 实验设置与结论分析

🌟 关键技术亮点分析

Look Before You Leap: Autonomous Exploration for LLM Agents

三思而后行：LLM智能体的自主探索

🔥 研究背景与痛点

💡 核心贡献

🔍 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现

1. 可验证指标：Exploration Checkpoint Coverage (ECC)

2. 探索感知训练 (Interleaved GRPO)

3. Explore-then-Act (E-t-A) 推理范式

📊 实验设置与结论分析

🌟 关键技术亮点分析

进化任务发现：通过技能组合与复杂度缩放拓展推理边界

Evolutionary Task Discovery: Advancing Reasoning Frontiers via Skill Composition and Complexity Scaling

1. 研究背景与痛点 (Background & Motivation)

2. 核心贡献 (Key Contributions)

3. 具体案例剖析 (Case Study)

案例一：属性变异（Attribute Mutation）——从单一聚合到多阶段流水线

案例二：技能交叉（Skill Crossover）——多层嵌套的深度协同

4. 方法论与技术实现 (Methodology)

4.1 双轴流形任务抽象 (Dual-axis Task Abstraction)

4.2 进化算子 (Evolutionary Operators)

4.3 多目标适应度检查 (Multi-objective Fitness Check)

5. 实验设置与结论分析 (Experiments & Results)

6. 关键技术亮点分析 (Key Highlights)

ELVIS: Ensemble-Calibrated Latent Imagination for Long-Horizon Visual MPC

ELVIS：用于长视野视觉MPC的集成校准隐空间想象

1. 研究背景与痛点 (Background & Pain Points)

2. 核心贡献 (Core Contributions)

3. 具体案例剖析 (Case Study: 真实世界沙喷涂任务)

4. 方法论与技术实现 (Methodology)

5. 实验设置与结论分析 (Experiments & Ablations)

6. 关键技术亮点分析 (Technical Highlights for LLM/AI Practitioners)

Threshold-Guided Optimization for Visual Generative Models

视觉生成模型的阈值引导优化

💡 研究背景与痛点

🏆 核心贡献

🔍 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现

1. 理论根基：配分函数的解耦

2. 数据驱动的阈值与伪标签 (Pseudo-Preferences)

3. 引入置信度权重 (Confidence Weighting)

📊 实验设置与结论分析

🌟 关键技术亮点分析 (Takeaways)