SKILLC: Learning Autonomous Skill Internalization in LLM Agents via Contrastive Credit Assignment

SKILLC：通过对比信用分配学习LLM Agent的自主技能内化

作者：Hongxiang Lin, Zhirui Kuai, Erpeng Xue*, Lei Wang

机构：美团 (Meituan)

💡 研究背景与痛点 (Background & Pain Points)

在基于大语言模型的Agentic RL（智能体强化学习）中，执行长视野（Long-horizon）任务是一项极具挑战的诉求。为了提升探索效率和样本利用率，引入结构化技能提示（Structured Skill Prompts）已成为当前的主流范式。然而，关于如何使用这些Skills，业界主要分为两条路线，也各自面临显著痛点：

Skill-augmented RL（技能增强RL，如SkillRL）： 推理时仍然保留技能库的支持。这种方案虽能优化性能，但Agent并没有真正掌握能力，离开了外挂技能就“原形毕露”。
Skill-internalization RL（技能内化RL，如SKILL0）： 在训练阶段提供技能引导，随着训练推进逐步撤掉技能，期望最终模型在无技能（without-skill）的纯自主状态下完成任务。

痛点：内化盲区（Internalization Blindness）
现有的内化方法往往只停留在“外部干预”层面（例如基于验证集胜率硬切断技能供应——Curriculum Control），而没有触及RL优化过程本身。在标准的 GRPO 算法更新步中，同一Prompt条件下的所有Rollouts被混在一起进行优势归一化（Advantage Normalization）。当技能注入（Skill-injected）的轨迹占据高Reward时，会无形中抬高整体Baseline，反而压制了那些偶然成功的无技能（Skill-free）轨迹的优势值（Advantage）。导致的结果是：模型根本无法在梯度层面区分哪些是“依赖技能的成功”，哪些是“自主能力的成功”，导致模型迟迟无法真正独立。

🚀 核心贡献 (Core Contributions)

为了解决上述的“内化盲区”，美团团队提出了一种全新的框架 SKILLC，其核心思想是将“技能内化”的差距转化为显式的对比信用分配（Contrastive Skill Credit Assignment, CSCA）信号，直接作用于策略更新（Policy Update）。

揭示了强化学习在技能内化中的信用分配缺陷： 明确指出单一条件下的归一化机制如何阻碍了模型的自主能力进化，并提出了成对对比采样和自适应课程调度方案来予以解决。
提出 CSCA 机制及其三大协同模块： 1) Paired Rollouts（成对采样）：在同一次更新中同图采样有/无技能的轨迹，暴露任务级的内化差距（Gap）；
2) Dual-Stream Advantage（双流优势估计）：在Advantage计算层面，将信用（Credit）重定向给“无技能的成功”；
3) Validation-driven Curriculum（验证驱动课程）：自适应调整归因强度、Rollout比例并对多技能集合做单调剪枝。
显著的纯自主性能提升： 在完全脱离外挂技能的评测中，SKILLC 在 ALFWorld 和 WebShop 上的表现分别超越了最强的内化基线（SKILL0）达 4.7% 和 3.1%，甚至逼近保留外挂技能的方法。

🔍 训练动态 Case 剖析 (Dynamic Case Analysis)

虽然本文并未提供具体的对话Case，但其在 ALFWorld 多任务环境中的训练动态轨迹 构成了极佳的“宏观Case Study”，清晰展示了SKILLC是如何引导Agent从“依赖”走向“独立”的：

早期训练（0-50 steps）： 对于困难任务（如 Cool, Pick2），模型严重依赖技能，With-skill 成功率极高，Without-skill 成功率极低。此时 SKILLC 的内部机制测得了巨大的对比Gap（$\Delta > 0$），将大量的“正向修正”给到了少有的无技能成功样本，同时抑制技能样本的优势值。
中期攻坚（50-120 steps）： 随着“无技能成功”不断被额外奖励，Without-skill 成功率快速爬升，Gap 迅速缩小。此时系统动态降低技能注入口比例（Rollout fraction），平滑过渡。
后期收敛（120-180 steps）： Gap 逼近并稳定在 0 以下（说明模型甚至觉得不加Prompt干扰表现更好）。课程机制（Curriculum Gate）敏锐捕捉到这一信号，触发该任务类别的 Skill Retirement（技能退役）。退役后表现依然平稳，证明模型已真正“内化”了该能力，而非简单拟合调度曲线。

⚙️ 方法论与技术实现 (Methodology & Implementation)

SKILLC 并不改变模型结构，而是从 RL 的采样与优势估计函数入手，设计极为优雅。以下是三大核心实现细节：

1. 任务级对比差距 (Task-Level Contrastive Gap)

让 $z \in \{0, 1\}$ 表示是否注入技能，任务级的内部差距定义为模型在有无技能下期望回报的差值：

$\Delta(x) = \mathbb{E}[R \mid x, z=1; \pi_\theta] - \mathbb{E}[R \mid x, z=0; \pi_\theta]$

为能在同一批次内观测到该信号，SKILLC 在每个更新步，强制针对同一Task同时分配有技能和无技能的 Rollouts（成对对比），通过平滑均值差得到 Batch 级的对比信号 $\hat{\Delta}(x)$。

2. 双流优势估计 (Dual-Stream Advantage Estimation)

这是 SKILLC 最精髓的改动。传统的 GRPO 计算出 Advantage 后直接更新策略，而 SKILLC 将 Advantage 拆解为两个“流”（Stream）：

$\hat{A}_{CSCA}(i, x) = \Phi(R_i, \mathcal{R}_{batch}) + \omega \cdot A_{contra}^{cond}(i, x)$

Stream 1 (全局质量): $\Phi$ 维持所有 Rollouts 的全局归一化，确保高分轨迹得到高Advantage，维护基础策略优化能力。
Stream 2 (内化压力): 针对条件（有/无技能）进行分别归一化，并加入一个单向修正项 $C(x) = \lambda_{eff}(x) [\hat{\Delta}(x)]_+$。如果轨迹是无技能（$z=0$），则 Advantage $+C(x)$（奖励独立自主）；如果是注入技能（$z=1$），则 Advantage $-C(x)$（打压技能依赖）。

妙处在于： 这是一个过渡性（Transient）信号。当模型内化完成时，$\hat{\Delta}(x) \leq 0$，修正项自动归零，算法退化为无偏差的分层归一化（Stratified Normalization）。

3. 内化感知课程 (Internalization-Aware Curriculum)

除了在 Batch 级别的细粒度指导，SKILLC 还使用周期验证集（Validation）产出的平滑 Gap 信号 $\bar{\Delta}^{(t)}_{\text{val}}(k)$ 来计算 Gate 值。这个 Gate 会动态且单调地控制三个变量：

归因强度 ($\lambda$)： 根据 Gap 大小自适应调整 Stream 2 的修正力度。
技能采样预算 ($\rho_{with}$)： Gap 越小，采样时分配给“注入技能”分支的量越少。
Active Set Pruning (主动剪枝)： 当某项技能的 Gap 缩小至阈值以下时，立刻从活动技能库中将其剔除（Retire），彻底切断外部干预，强制模型靠本体完成。

📊 实验设置与结论分析 (Experiments & Analysis)

实验设置：

基座模型： Qwen2.5-7B-Instruct
测试环境： ALFWorld（6种长视野任务分类，基于文本反馈的具身环境），WebShop（真实的网页浏览与商品检索环境，涉及长文本信息解析）。
核心对比基线： 传统RL（PPO, GRPO）、自我蒸馏RL（RLSD）、技能增强RL（SKILLRL, D2Skill，推理时带技能）、技能内化RL（SKILL0，推理时不带技能）。

核心结果：

突破内化天花板： 在纯自主（Without-skill）设定下，SKILLC 在 ALFWorld 上的成功率达到 90.6%，大幅领先此前的 SOTA SKILL0（85.9%）。在 WebShop 上达到 74.0%（高于 SKILL0 的 70.9%）。
比肩外挂基线： 即便与那些“开卷考试”（测试时带着技能Prompt）的算法如 SKILLRL、D2Skill 相比，SKILLC 的表现依然具备极强竞争力（在 ALFWorld 上 90.6% vs D2Skill 的 90.6%），真正做到了把书本知识化为己用。
消融实验揭示关键： 如果去掉 Paired Rollouts（回到单一条件采样），性能暴跌 3.3%；如果去掉 Dual-Stream（使用统一归一化），性能跌 2.2%。这充分证明了“同批对比”和“独立归一化重定向”对于破除内化盲区的核心价值。
计算成本可控： 由于后期技能逐渐退役，SKILLC 的额外计算开销从早期的 +26% 最终稳定在与 SKILL0 近似的水平，总体额外计算成本相较无技能 GRPO 约为 +30%。

🌟 关键技术亮点分析 (Key Technical Highlights)

站在 LLM 训练与后训练（Post-training）的前沿视角，SKILLC 的贡献不仅是刷高了指标，更重要的是为 Agentic RL 中的 Curriculum Learning 提供了一种极其优雅且具备数学闭环的思路：

用 Advantage 修正代替 Reward Shaping： 传统的做法常常是在外界塞一个 Reward Bonus 给“无技能”轨迹。但 Reward Shaping 会改变 MDP 的最优策略，容易导致过拟合或 Hack。SKILLC 巧妙地在优势函数（Advantage）层面做加减，并在收敛极限处（$\Delta \to 0$）自动退火至标准的策略梯度计算，保证了收敛的纯洁性（无永久性偏差）。
破除“刻舟求剑”的静态调度： 以往退掉技能的操作往往是基于 Step 数的硬编码（比如到了 1000 步硬切），这忽略了模型对不同复杂度技能内化速度的差异。SKILLC 通过 Validation Gap 建立的反馈闭环，让模型自己用“胜率差”投票决定何时抛弃这根拐杖，实现了完全 Data-driven 的内化进程。
直击多模态/大模型训练本质痛点： “Internalization blindness（内化盲区）”的提出非常深刻。在当前的各类 RLHF/RLAIF 训练中，当我们引入中间推理过程（如 CoT）或外部工具时，往往都会面临模型对其产生“依赖”的问题。SKILLC 利用对比采样的思路，为所有“引入中间步骤并最终希望隐式化”的研究方向提供了一个通用的解法范式。

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

通过混合On-Policy与Off-Policy优化的探索型记忆增强LLM Agent

作者：Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

机构：Microsoft Research, KAIST

📄 查看 ArXiv 原文

研究背景与痛点 (Background & Pain Points)

近年来，将强化学习（RL）与大型语言模型（LLM）结合，使Agent能够基于环境反馈自我进化（如 GRPO 算法）已成为重要范式。然而，在复杂的多步具身推理（Embodied Reasoning）任务中，当前基于 RL 训练的 LLM Agent 面临着一个致命瓶颈：探索（Exploration）能力严重不足。

具体而言，面临以下痛点：

过度依赖先验知识的“剥削（Exploitation）”：当环境需要发现新状态或规则时（例如需要去别的房间找特定物品），模型往往局限于其预训练的先验分布中“打转”，导致在线 RL 过早收敛到次优解。
非参数化记忆的局限性：尽管近期一些研究（如 Reflexion）引入了外部记忆（Long-term memory），让 Agent 通过查阅过往失败的记录来避坑。但这属于非参数化（Non-parametric）更新，模型参数一旦固定，其探索空间往往很快枯竭，难以实现模型内生泛化能力的持续、长期进化。

核心贡献 (Core Contributions)

微软研究院提出了 EMPO² (Exploratory Memory-Augmented On- and Off-Policy Optimization)，一种统一的混合强化学习框架，成功打破了“外部提示工程”与“内部参数优化”的次元壁。其主要贡献包括：

双重更新机制（Dual-Update Paradigm）：将参数化的 RL 策略优化与非参数化的自我反思记忆（Tips）结合。Agent 既能利用记忆作为探索的“脚手架”，又能通过参数更新将这些知识内化。
混合 On- / Off-Policy 优化：创新性地设计了混合更新策略。在使用带有记忆的轨迹进行参数更新时，部分数据通过 Off-Policy 的方式去掉了 Prompt 中的记忆部分。这相当于一种奖励引导的知识蒸馏（Reward-guided Knowledge Distillation），迫使无记忆的基础策略去拟合有记忆时的优质探索轨迹。
卓越的探索效率与泛化能力：在需要极强探索的 ScienceWorld 和 WebShop 基准测试中，相较于强大的 GRPO 基线，分别实现了 128.6% 和 11.3% 的巨大性能提升。同时，在跨任务 OOD（Out-of-distribution）测试中，展现了极具潜力的 Few-shot 适应能力。

具体案例剖析 (Case Study / Examples)

以下展示在 ScienceWorld 的 <power-component> 任务中，EMPO² 是如何通过记忆增强打破“行为死锁”的：

任务要求： 找到红灯泡，建立电路并点亮它。Agent 初始出生在“走廊（Hallway）”。

[无记忆的 GRPO Agent 行为 - 陷入死循环]
Observation: 房间是走廊，你看到了门、画等。
Action: focus on red bulb （试图聚焦红灯泡）
结果： 任务失败。因为当前房间根本没有红灯泡，由于没有记忆，Agent在后续多次 Rollout 训练中，像无头苍蝇一样重复这条失败指令，分数彻底停滞。

[EMPO² 借助自我生成的 Tips 破局]
在之前的 Trial 中，Agent 同样失败了，但它在当前回合结束时生成了一条总结并存入 Memory Buffer：
"Focus on red light bulb but cannot find it in the hallway... Eventually you got the score -100.0/100."

新的 Rollout (带有记忆增强的 Prompting):
Tips: 检索到了上述失败经验。
Action: go to workshop （前往工作室寻找）
结果： 成功转移房间并在新房间找到了红灯泡，跳出了局部最优，开始进行有意义的探索，随后这些优质轨迹被用于进一步优化策略模型。

核心架构图 — 图注：EMPO² 核心架构：展示了 Rollout 阶段的两种采样模式（带提示和不带提示）以及 Update 阶段的混合更新模式（On-policy 与 Off-policy 的巧妙组合）。

方法论与技术实现 (Methodology)

EMPO² 的核心在于将 Rollout 和 Update 阶段进行解耦，通过不同的条件组合实现“基于记忆的探索”和“剥离记忆的内化”。

1. 采样阶段 (Rollout Modes)

在每次交互生成数据时，Agent 依概率 $p$ 选择是否使用外挂记忆：

无记忆采样 (Prompting Without Memory, $1-p$)：仅根据当前状态 $s_t$ 和任务 $u$ 采样动作 $a_{t+1} \sim \pi_\theta(\cdot | s_t, u)$。
记忆增强采样 (Memory-Augmented Prompting, $p$)：通过 Cosine 相似度检索出与当前 $s_t$ 相关的自我反思 Tips（表示为 $\text{tips}_t$）。策略模型基于状态、任务和 Tips 共同条件进行动作采样：$a_{t+1} \sim \pi_\theta(\cdot | s_t, u, \text{tips}_t)$。

2. 更新阶段 (Update Modes) 与知识内化

通过“无记忆采样”获取的轨迹，按标准的 GRPO 直接更新。而通过“记忆增强采样”获取的轨迹，则分为两种情况进行强化学习更新：

On-Policy Updates (概率 $1-q$)：新策略 $\pi_\theta$ 的计算依然保留 $\text{tips}_t$ 条件，重要性采样比率 $\rho_\theta$ 完全对齐。这确保了训练的稳定性。
Off-Policy Updates (概率 $q$) ⚠️ 核心亮点：用于采样的老策略 $\pi_{\theta_{old}}$ 看到了 Tips，但我们在计算新策略 $\pi_\theta$ 的 Log Probability 时，强制将其中的 $\text{tips}_t$ 去掉（Mask out）。
此时的似然函数变为：$\ell_t^{\text{no-tips}} = \log \pi_\theta(a_t | s_t, u)$。
机制解析： 具有高优势值（$A > 0$）的探索动作是被 Tips 引导出来的，但梯度更新强迫当前模型在“没有看到 Tips”的情况下去提高这些高光动作的概率。这等价于利用 RL 优势函数的教师-学生知识蒸馏（Reward-guided Knowledge Distillation），最终模型将摆脱对外部记忆的依赖，原生掌握探索能力。

3. 稳定 Off-Policy 训练的 Masking 机制

由于 Off-Policy 强行去掉了 Tips 导致的分布偏移，极易造成重要性采样比率（Likelihood ratios）无界爆发。为此，作者设计了一个低概率截断的 Masking 机制：当某个 Token 在无提示条件下的生成概率低于阈值 $\delta$ 时，丢弃其 Advantage 带来的梯度更新：

$$ \mathbb{E} \left[ \frac{1}{NT} \sum_{i=1}^N \sum_{t=1}^T \min \left( \rho_\theta^{(i,t)} A(a_t^{(i)}), \text{clip}\left(\rho_\theta^{(i,t)}, 1-\epsilon, 1+\epsilon\right) A(a_t^{(i)}) \right) \cdot \mathbf{1}_{\pi_\theta(a_t^{(i)} | s_t^{(i)}, u) \geq \delta} - \beta D_{\text{KL}}(\dots) \right] $$

此外，为了鼓励长期探索，EMPO² 还结合了基于状态新颖性的内在奖励（Intrinsic Rewards, $r_{\text{intrinsic}} = 1/n$），防止策略早期坍塌到单一的行为模式上。

实验设置与结论分析 (Experiments)

实验配置：基座模型采用 Qwen2.5-7B-Instruct，训练框架基于 verl 进行多步 (multi-step) 和离线损失 (off-policy loss) 计算的改造。对比 Baseline 包括 Naive (直接推理), Reflexion (非参数化记忆 RL), Retrospex (离线 RL), GRPO 及 GiGPO (在线 RL)。

ScienceWorld 表现：在 19 个跨学科实验任务中，Qwen2.5 基准得分为 -61.3，标准 GRPO 得分为 33.2，而 EMPO² 惊人地达到了 75.9，相较于 GRPO 的提升超过了两倍，甚至在 7 个最初为负分的任务中满分通关。
WebShop 表现：在一个极其依赖步骤关联的网页端购物环境中，EMPO² (88.3) 同样击败了强在线 RL 算法 GiGPO (86.2) 和 GRPO (79.3)。
OOD 新任务泛化 (Zero/Few-Shot)：这是令人兴奋的一点。将仅在一个任务上训练过的 EMPO² 模型，不更新权重直接放在全新任务上。起初性能平平（Step 0），但当开放其记忆模块并允许其在环境中 Trial & Error 几轮后，其分数呈爆发式增长（10 个 step 内平均提升 136%），证明模型学会了“如何利用记忆去探索”这种高阶的 Meta-ability。

关键技术亮点分析 (Highlights)

真正的 Agent 闭环“自主进化”：目前大量的 LLM 训练依赖 GPT-4 生成的 Golden Trajectories 进行 SFT（如 RLAIF 范式）。EMPO² 里的 Tips 完完全全是小模型在不断碰壁中（Trial-and-error）自己总结的，再通过混合 RL 内化，展现了纯净的自我进化（Self-improvement）能力，极具 Scaling 潜力。
RL中对 Memory 的巧妙抽象（外挂变内生）：在 RAG 或 Agent 框架中，“外挂记忆”常常只停留在 Prompt Engineering 层面，治标不治本。EMPO² 的 Off-policy distillation 是一步妙棋。把“拿着作弊小抄做对的题目”，转化为了“模型自身的内化肌肉记忆”，使得最终部署时不再需要繁重的 RAG 或长 Prompt，推理效率极高。
有效抑制长文本 RL 容易引发的梯度崩溃：Off-policy 在 LLM 中之所以难搞，就在于一两个出入极大的 Token 会让 $\frac{\pi_{new}}{\pi_{old}}$ 爆炸，导致梯度 NaN。EMPO² 在 PPO 的 Clip 上再次加了一层 Hard Mask（$\mathbf{1}_{\pi_\theta \geq \delta}$），对工业界做复杂 RL 调优提供了一个极其宝贵的稳定 Trick 方案。

How Many Tools Should an LLM Agent See? A Chance-Corrected Answer

中文标题：LLM Agent 应该看到多少个工具？一个基于随机概率校正的答案

作者团队：Vyzantinos Repantis, Ameya Gawde, Harshvardhan Singh, Joey Blackwell II

所属机构：Meta Platforms

📄 查看 ArXiv 原文

💡 研究背景与痛点 (Background & Problems)

在构建 LLM Agent 框架（如基于 MCP 的系统、Function Calling 管道或 Tool-augmented RAG）时，开发者普遍面临一个相同的设计抉择：对于每次查询，应该给大模型展示多少个候选工具（即搜索深度 $K$）？

目前的痛点在于：

固定截断（Fixed-K）的局限性： 绝大多数工业级系统都采用固定的 $K$ 值（例如 $K=5$ 甚至“全量输入”）。这种“一刀切”的策略无法区分简单查询（只需要1个工具即可搞定）和复杂困难查询（可能需要在更多候选里大海捞针）。
缺乏科学的深度评估指标： 在传统的文档检索（Document Retrieval）领域，我们有 nDCG@K 或 MAP@K 这样的深度感知指标；但在 Tool Selection 领域，不仅候选池（Registry）较小（通常50-500个），而且目前没有标准的方法来告诉开发者“你选择的 $K$ 是否合理”。
上下文冗余与幻觉（Context Bloat & Distraction）： 工具描述通常较长，传入过多无用工具不仅徒增 Token 开销，还会带来严重的“干扰项（Distractors）”效应，导致大模型在最终决策时发生幻觉或选错工具。

🚀 核心贡献 (Core Contributions)

本文没有去卷“如何设计更好的召回模型”，而是将“展示给 LLM 的工具数量”本身作为优化的第一优先级目标。主要贡献如下：

引入基于随机校正的指标（Bits-over-Random, BoR）： 从信息论和化学信息学引入了 BoR 指标，用于衡量一个检索系统在特定深度下超越“随机盲猜”的信息增益（Selectivity）。
提出自适应深度的 RL Agent 探针模型： 将工具选择截断过程建模为马尔可夫决策过程（MDP），并将 BoR 直接作为强化学习的 Reward。该 Agent 能够根据 Query 的难度和 Scorer（召回模型）的置信度，动态决定在何时 STOP。
揭示 BoR 的数学“自剪枝（Self-Pruning）”属性： 摒弃了传统的启发式/手动设定的长度惩罚项。因为随着列表变长，随机蒙对的概率上升，BoR 奖励会自动衰减，从而驱动模型天然偏好更短、更精准的候选列表。
下游验证“Less is More”： 首次在真实 LLM（Claude Sonnet 4.6）上通过严格的分难度验证指出，更短且自适应的工具列表能显著提升模型的最终工具调用准确率。

🔍 具体案例剖析 (Case Study / Input-Output)

论文以 ToolBench (包含 3,251 个工具) 和 Claude Sonnet 4.6 的下游调用 为例，清晰展示了固定 $K$ 值与自适应深度的差异：

场景 1：简单查询 (Easy Queries)
现象： 召回模型（Embedding）非常有把握，把正确的 Gold Tool 排在了第 1 位。
固定策略（Fixed-K=5）： 强行给 LLM 展示 5 个工具。
BoR 自适应策略： 发现得分极高，果断在平均 $K=2.5$ 处停止。两者找对工具的概率都是 100%，但 BoR 节省了超过一半的 Prompt Token。
场景 2：中等难度查询 (Medium Queries)
现象： 正确工具被召回模型排在了第 2 到第 5 位。
固定策略（Fixed-K=5）： 能够 100% 确保正确工具在列表中。但交给 Claude 4.6 选择时，由于存在 4 个高度相关的干扰项，Claude 选对正确工具的概率暴跌至 60.9%。
BoR 自适应策略： 动态展示平均 $K=4.8$ 个工具。由于过滤掉了部分长尾冗余，Claude 选择正确工具的准确率回升到了 76.8%。
场景 3：困难查询 (Hard Queries)
现象： 召回模型失效，正确工具排在第 6 到第 20 位。
固定策略（Fixed-K=5）： 由于硬截断，正确工具根本没进入 LLM 的视线，命中率 0%。
BoR 自适应策略： Agent 观察到头部得分区分度低，主动继续探索（CONTINUE），平均将深度扩展至 $K=5.7$（最高扩展到更深），成功挽救了 16.7% 的困难样本。

⚙️ 方法论与技术实现 (Methodology)

1. Bits-over-Random (BoR) 指标设计

BoR 的核心思想是计算观测到的成功率相比于“闭着眼睛随机抓取同样数量的工具”的优势倍数（以比特为单位）。假设工具池大小为 $N$，相关工具数量为 $R_q$，我们展示了 $K$ 个工具。随机选中至少一个正确工具的概率为：

$$ P_{rand} = 1 - \frac{\binom{N-R_q}{K}}{\binom{N}{K}} $$

对于单工具查询（$R_q=1$），它退化为 $P_{rand} = K/N$。定义 BoR 为观测成功率 $P_{obs}$ 与随机概率的比值对数：

$$ BoR = \log_2 \left( \frac{P_{obs}}{P_{rand}} \right) $$

2. 强化学习中的“自剪枝”机制 (Self-Pruning Property)

传统强化学习为了控制长度，往往需要设定一个手工调节的惩罚项（比如论文基线测试的 $F_1 = 2/(K+1)$）。但 BoR 截然不同：当候选列表变长（$K$ 增加）时，$P_{rand}$ 会不可避免地升高。这意味着在 $K=100$ 时找到正确工具带来的奖励，远远低于在 $K=3$ 时找到正确工具的奖励。这种数学结构内生地惩罚了无脑堆砌候选工具的行为。

3. MDP (马尔可夫决策过程) 构建

状态 (State)： 在第 $t$ 步，Agent 观察目前为止遇到的最高相似度得分、当前与最高分的 Gap、分数离散度、当前深度 $k_t$、工具池大小 $N$ 等特征。
动作 (Action)： 二元动作——直接返回当前已看过的工具列表给 LLM (STOP)，或者继续看下一个召回的候选工具 (CONTINUE)。
奖励 (Reward)： 如果执行 STOP 并且列表里包含正确工具，给予 $-\log_2(P_{rand}(k_{stop}))$ 的正向 Reward；否则为 0。每执行一次 CONTINUE 施加极小的步进代价（如 0.01）以避免死循环。

📊 实验设置与结论分析 (Experiments & Results)

作者在三个工具选择 Benchmark (BFCL, MetaTool, ToolBench) 以及三个传统文档检索 Benchmark (SciFact, NFCorpus, MS MARCO) 上测试了 BoR Agent。底层使用了极为轻量级的 RL 架构（DQN / Tabular Q-learning）。

在同等召回率下深度大幅下降： 在 BFCL (370个真实工具，BM25召回) 任务中，BoR Agent 以均值 $K=7.4$ 达到了 90.3% 的 Coverage（至少包含一个正确工具）。这几乎媲美了 Fixed $K=50$ 的结果 (90.8%)，相当于在基本不掉点的情况下将上下文负担减轻了 7 倍。
根据 Scorer 质量自适应调节： 论文做了一个极其硬核的消融实验。在 MetaTool 任务中，如果采用极弱的召回器（BM25提取命名不规范的函数），BoR Agent 会疯狂探底，学到的停止策略达到了惊人的 $K=80.7$（基本把库全翻了一遍来保命）；而换成高语义的 Embedding 模型（MiniLM）后，同一个 Reward 函数驱使 Agent 在 $K=2.3$ 处就自信停止。证明了 BoR 能自适应“兜底”不同的基建质量。
对比常规 $F_1$ 惩罚： 对比实验显示，基于硬编码的 $F_1$ 惩罚项缺乏对难样本的同理心（所有 Query 都趋向于在相似的浅位置截断），而 BoR 能在困难样本上拉长战线，实现动态伸缩。

🌟 关键技术亮点分析 (Key Highlights)

对于 LLM Agent 开发者而言，这篇论文提供了几个极其务实的系统设计 Insight：

打破定势思维，K值不应该是超参，而应该是策略： 绝大多数 RAG/Agent 框架将 top_k 作为配置文件里的一个整型常量。本文证明了，根据相似度得分的分布（Score Distribution）动态决定截断位置，能极大改善系统的综合效率。
“少即是多（Less is More）”的严格证明： 工业界常有“大力出奇迹，把 Top 20 全塞给模型”的粗暴做法。本文 Table 1 的结果给了当头一棒：即使你能 100% 把正确工具塞进去，但随之而来的 19 个干扰项会让 SOTA 模型（Claude 4.6）的最终选择准确率大幅下降。砍掉无效上下文本身就是在提升 LLM 的推理能力。
Evaluation 指标的降维打击： 把化学制药领域（虚拟药物筛选，也是一种从海量分子库里找少数正确分子的任务）的概率校正思维（BEDROC 等）降维应用到 LLM Tool 检索上，不仅解决了难以评测的痛点，更直接将其转化为了优雅的 RL 奖励函数（且不需要繁琐调参），展现了极强的跨学科应用美感。

A-MapReduce: Executing Wide Search via Agentic MapReduce

A-MapReduce：基于智能体MapReduce框架执行广度搜索

Authors: Mingju Chen, Guibin Zhang, Heng Chang, Yuchen Guo, Shiji Zhou

Institutions: 北京航空航天大学 (Beihang University), 新加坡国立大学 (NUS), 清华大学 (Tsinghua University)

📄 查看 ArXiv 原文

🔍 研究背景与痛点 (Background & Pain Points)

当前基于大语言模型（LLM）的多智能体系统（MAS）在深度研究（Deep Research）任务中表现出色，这类任务侧重于迭代式、垂直结构的逻辑推理与信息搜索。然而，真实世界中存在大量广度搜索（Wide Search）任务，这类任务的特点是大规模、侧重覆盖率（Breadth-oriented）的实体与属性检索（例如：“请列出2019-2024年福布斯全球亿万富豪榜前10名，包含姓名、净资产、财富来源等，输出Markdown表格”）。

在面对广度搜索任务时，现有的多智能体框架暴露出了两个致命的困境（Dilemmas）：

困境 1：长周期执行中的状态崩溃。现有 MAS 高度依赖对话历史或自由文本形式的规划（Free-form textual plans）来隐式管理检索目标。在动辄需要数百次 API 调用的广度搜索中，极易出现实体遗漏、冗余检索或目标错位。
困境 2：缺乏跨任务的结构化经验复用。大多数 MAS 面对新 Query 时总是从零开始进行规划（Re-plan），无法抽象并保留相似广度搜索任务背后的结构化执行范式，导致效率低下且开销巨大。

因此，作者提出：广度搜索不应继续沿用垂直递归推理（Vertical recursive reasoning），而应被建模为水平结构化检索范式（Horizontal structured retrieval paradigm）。

💡 核心贡献 (Core Contributions)

范式重构 (Paradigm Reformulation)：提出了 A-MapReduce，一个受数据库系统中 MapReduce 范式启发的开源多智能体框架。它将广度搜索任务显式重构为一个可控的 MapReduce 执行过程，支持大规模目标的持久化覆盖跟踪、并行映射（Mapping）以及规范化的结构表归约（Reduction）。
经验驱动的进化机制 (Practical Evolution)：引入了带有记忆系统的进化机制。它通过从历史执行轨迹中提取高价值经验，提炼为结构化的 Hint（提示），以 Query 为条件干预未来的任务拆解和资源分配策略，让系统“越用越聪明”，在提升准确率的同时大幅降低成本。
SOTA 的性能与极高的性价比：在五个 Agentic Benchmark（包括 WideSearch 和 DeepWideSearch）上取得了 State-of-the-Art 的表现。在 GPT-5-mini 作为 Backbone 的设定下，相比于开源 MAS 基线，Item-level F1 绝对提升 5.11%~17.50%，同时运行时间缩短了 45.8%，平均每个任务节省 API 成本 $1.10。

📊 具体案例剖析 (Case Study)

论文中展示了一个极具代表性的 WideSearch 实例，直观展现了 A-MapReduce 与传统 MAS 的差异：

用户输入 (Query)：“请列出2019至2024年福布斯全球亿万富豪榜各年的前10名个人。包含姓名、排名、净资产、财富来源和年龄。请将结果整理成一个Markdown表格...”

❌ 常规 MAS (General MAS) 的表现：

系统采用基于年份的串行搜索（Sequential Search），一年一年地查询。当执行到后期时，长周期的上下文堆叠导致模型记忆发生混乱。最终输出：“Error: Cannot find markdown in agent output... 收集的信息高度碎片化和过载，无法可靠验证。” Row F1 = 0.0，彻底失败。

✅ A-MapReduce 的表现：

第一阶段 (无记忆)：将任务转化为一个 $6 \times 10$ 的任务矩阵 (Task Matrix)。制定了 per_atom 的 Batching 策略，直接拉起 60 个子智能体并行执行。虽然能够完成任务（Item F1 = 0.76），但耗时 39 分钟，花费 $1.56。

第二阶段 (引入经验记忆后)：系统从历史经验中提取到 “对于按年份发布的榜单，按年份分组可避免冗余请求” 的优化策略。系统随即将 Batching 策略修改为 by_attr(Year)，只需拉起 6 个子智能体。结果：耗时下降至 32 分钟，成本降至 $1.20，结构一致性大幅提升，Item F1 升至 0.79，Row F1 = 0.58。

⚙️ 方法论与技术实现 (Methodology & Technical Implementation)

A-MapReduce 将复杂的广度搜索建模为一个多智能体随机决策采样过程。核心由三大模块构成：

1. 决策空间的形式化定义 (MapReduce Decision)

框架将顶层规划决策具象化为一个元组 $\Theta_q \triangleq (M_q, P_q, B_q)$：

$M_q$ (Task Matrix)：任务矩阵。行代表目标实体，列代表已知/需查找的属性。将抽象的搜索目标具象化为可跟踪的表格状态。
$P_q$ (Template)：查询模板。包含与 $M_q$ 对应的占位符，用于将每一行实例化为原子的检索任务（Atomic retrieval tasks）。
$B_q$ (Batching Strategy)：批处理调度策略。支持 per_atom(独立执行)、by_attr(按属性分组)、open(自适应分块) 等模式，决定了并行度与上下文复用率。

2. Agentic MapReduce 执行流

Mapping 阶段：Manage Agent 基于决策 $\Theta_q$，将任务矩阵和模板实例化为任务集 $\mathcal{T}(q)$，并根据 $B_q$ 将其划分为 $m$ 个正交的 Batch（批次）。随后拉起 $m$ 个 Search Agent 并行执行 Web 检索。
Reducing 阶段：Search Agent 提取结果后，Manage Agent 收集这些 Partial Tables 并依据原始 Schema 进行校验合并。若存在缺失（Missing fields），系统会触发轻量级的 Delta-Patch 策略，仅对空白单元格发起定点重试（Resample repair decision $\Theta^{rep}_q$），避免全局重跑。

3. 基于经验的连续进化 (Experience-based Evolution)

为了让系统在多次运行中寻找最优的 $\Theta_q$，作者设计了经验记忆机制 $\mathcal{M} \triangleq \{\mathcal{D}, \mathcal{H}, F_\psi\}$：

效用评估 (Utility)：$u(q, \Theta) \triangleq Q(Y; q) - \lambda_c C(\tau) - \lambda_t D(\tau)$，综合考量结果质量 $Q$、成本 $C$ 和延迟 $D$。
检索与先验注入：对于新来的 Query，系统通过计算向量相似度检索历史正/负样本（$\epsilon_{pos}, \epsilon_{neg}$），并获取经过效用验证的 Hint 规则集 $\mathcal{H}_q$。将它们组合为经验先验 $\Delta_q$，注入到 Manage Agent 的 System Prompt 中：$\Theta_q \sim p(\Theta | q, \{Obs_t\}_{t=1}^T, \Delta_q, \Theta_q^{(0)})$。
记忆蒸馏 (Distillation Operator $F_\psi$)：为了防止记忆池膨胀和知识遗忘，系统离线使用聚类算法将历史记录划分为语义簇 $\{\mathcal{I}_k\}$，并利用 LLM 提取跨任务通用的结构化规则（使用 ADD/EDIT/REMOVE/AGREE 语法更新规则库），从而沉淀出高泛化性的任务切分与分组策略。

📈 实验设置与结论分析 (Experiments & Results)

作者在5个包含高度广度搜索特性的评测集上进行了测试：WideSearch、DeepWideSearch，以及基于 xBench、WebWalkerQA、TaskCraft 筛选出的 Agentic-Wide Subset。

核心性能 (SOTA)：在 WideSearch (Avg@4) 上，以 GPT-5-mini (注：论文表述，实为具有较高性价比的小模型) 为 Backbone 的 A-MapReduce 取得了 67.81% 的 Item F1 和 45.23% 的 Row F1，完胜 Flash-Searcher (54.99% / 34.42%)、Smolagents 等主流框架，甚至优于闭源强模型直接跑端到端（如 o3-mini、Claude 3.5 Sonnet）。
DeepWideSearch 极限挑战：在该深度与广度结合的数据集上，A-MapReduce (GPT-5-mini) 取得 79.09% 核心实体准确率 (CE Acc)，大幅超越了基线。
帕累托最优的成本与效率 (Cost-Efficiency)：消融实验证明，引入“经验驱动进化”后，系统在保证高准确率的同时，执行耗时（Delay）从均值 1460.8秒下降至 953.7秒（降低约34.7%），且平均 API 成本下降近一半，牢牢占据 Cost-Performance 的 Pareto 前沿。

🌟 关键技术亮点分析 (Key Highlights & Insights for Practitioners)

将“隐式规划”转为“显式状态机”：传统 Agent 极易在几百轮的 Tool Call 中“迷失自我”。A-MapReduce 强制系统首先输出一个 $M_q$ 矩阵（Task Matrix），这相当于给 Agent 构建了一个带 Checkpoint 的状态跟踪表。哪些行没跑完，哪些单元格为空，一目了然，从根本上解决了 Long-horizon 执行过程中的状态崩塌问题。
从 Workflow Search 降维至 MapReduce 参数搜索：目前很火的拓扑图搜索（如 GPTSwarm、AutoFlow）搜索空间巨大，且极难调参。本文巧妙地将拓扑结构固化为 MapReduce，把搜索空间压缩为 $(M, P, B)$ 这三个具象的物理参数。这使得“修改执行逻辑”变成了“调整分组和分块大小”，大大提升了系统的可解释性和鲁棒性。
极为优雅的 Meta-Optimizer (蒸馏更新设计)：论文中的 $F_\psi$ 操作器是一大亮点。单纯的 RAG Memory 很容易被脏数据污染，且带有强烈的历史 Query 偏见。A-MapReduce 在聚类后，强制 LLM 进行 Diff 级别的操作（ADD/EDIT/REMOVE/AGREE），不仅去除了冗余，还提炼出了真正的“方法论”（例如：什么时候该 by_attr 分组，什么时候该单点查询），这为构建自我演进的 Agentic OS 提供了一个非常好的工程范本。

Multi-Agent Coordination Adaptation via Structure-Guided Orchestration

通过结构引导编排的多智能体协同自适应

作者：Haoran Li, Shulun Chen, Shaoyuan Sun, Hanchen Wang

机构：南京大学，悉尼科技大学 (UTS)，新南威尔士大学 (UNSW)

📄 查看 ArXiv 原文

1. 研究背景与痛点

随着大语言模型（LLM）能力的提升，多智能体系统（Multi-Agent Systems, MAS）被广泛应用于复杂任务拆解与集体推理（如 ChatDev, MetaGPT 等）。然而，随着任务复杂度和系统规模的扩展，如何在结构稳定性（Structural Stability）与动态适应性（Dynamic Adaptability）之间取得平衡，成为了一个巨大的挑战。当前该领域主要存在两种截然不同的演进范式，但各有明显的局限性：

结构中心式适应（Structure-Centric Adaptation）：例如 AgentPrune 或 MaAS，系统在任务执行前，基于 Query 显式推断一个特定任务的多智能体拓扑结构。痛点：此类方法隐含地假设协作效率主要由初始结构决定，一旦执行开始，系统就被“锁死”在该结构中，缺乏根据任务中间状态（Task States）演进而进行细粒度动态干预的能力。
编排中心式适应（Orchestration-Centric Adaptation）：例如 Puppeteer 或基于 RL 的动态路由，系统将其视为纯粹的序贯决策过程，在每一步动态选择下一个激活的 Agent。痛点：在缺乏明确的拓扑先验约束下，随着智能体数量增加，状态空间发生爆炸。这种纯动态策略极易导致“角色漂移（Role drift）”和高方差的信用分配（Credit Assignment），使得系统在复杂任务中难以收敛，频繁消耗无效 Token。

更深层次的根本问题在于：当前的系统将“多智能体协作”视为一个单一的、单体式（Monolithic）的过程，忽略了结构先验与动态编排之间的解耦。此外，资源预算（如 Token 限制）通常只作为外部约束，并未在优化中被内化为影响协调空间的信号。

2. 核心贡献

本文提出了 MACA（Multi-Agent Coordination Adaptation），一种基于概率视角的自动协同框架。作者首次将多智能体协同建模为基于结构变量和编排变量的后验推断（Posterior Inference）问题。具体贡献如下：

理论创新：将自适应协调从简单的架构选择或采样，提升为严谨的概率公式。将复杂的协调过程解耦为“结构先验学习”与“策略编排”的联合推断。
架构创新（MACA框架）：设计了一个新颖的两阶段推理框架。首先学习一个条件化（Task- and Budget-Conditioned）的结构先验（GraphSpec），然后在该先验约束的空间内，利用 RL 优化 Token 感知的编排策略。
SOTA 性能：在 6 个主流基准测试中，MACA 相比自适应多智能体基线，平均性能提升 8.42%，同时大幅降低 43.19% 的 Token 消耗。

3. 具体案例剖析 (Case Study)

为直观展示 MACA “结构引导 + 动态编排”的效果，我们对比了其在 HumanEval 数据集中不同难度代码生成任务时的协调路径（参考原论文 Table 9 & 10）：

场景对比：代码生成任务 (Task: find_zero)

手动编排 (Manual, 固定流)：
AlgorithmDesigner → CodeWriting → UnitTestWriter → BugFixer
结果：Fail（失败）。Token 消耗：2.41k。
分析：面对较难的任务，固定的链式结构无法在中间步骤发现深层边界问题，且由于无法灵活请求 CodeReviewer 的介入，导致最终修复失败。
MACA 动态编排：
AlgorithmDesigner → CodeWriting → EdgeCaseHunter → CodeReviewer → BugFixer → UnitTestWriter → STOP
结果：Pass（成功）。Token 消耗：3.54k。
分析：MACA 在推断过程中感知到任务难度，结合学习到的结构先验，它没有走“捷径”，而是动态激活了 EdgeCaseHunter（挖掘边界情况）和 CodeReviewer，使得 BugFixer 拿到了更明确的反馈。虽然这道题多消耗了 Token，但保证了高难度任务的正确率。

智能体任务感知特化 (Agent Specialization)：
在系统过滤阶段，面对同一个问题，AlgorithmDesigner (偏向算法设计) 与 CodeWriting (偏向代码实现) 会根据输入文本生成截然不同的 Relevance Score (如 0.66 vs 0.88)。这意味着 MACA 并不是粗暴地开启所有领域相关的 Agent，而是对“角色能力”与“当前上下文”进行了细粒度匹配。

4. 方法论与技术实现

MACA 将协同系统定义为 $\mathcal{M} = \{\mathcal{G}, \mathcal{T}\}$，其中 $\mathcal{G}$ 是结构图，$\mathcal{T}$ 是编排轨迹。寻找最佳协同方案被转化为最大化后验概率问题：

$$ p(G, \tau | x, b, y^\star) \propto \underbrace{p(y^\star | \tau, x)}_{\text{输出保真度}} \cdot \underbrace{p(\tau | G, x, b)}_{\text{动态编排}} \cdot \underbrace{p(G | x, b)}_{\text{结构先验}} $$

由于该后验推断难以直接计算，作者使用变分推断（Variational Inference）来最大化证据下界（ELBO）。整个系统在实现上被拆分为两大核心模块：

(1) 结构先验学习 (Structural Prior Learning)

该模块生成一个被称为 GraphSpec 的概率约束空间：

Agent Relevance Scoring (节点相关性)：利用句子编码器计算任务/预算上下文与各个 Agent 描述之间的余弦相似度，得到初始分数 $s_i$。随后通过阈值 $\gamma$ 进行门控过滤，剔除低置信度的 Agent，保留下来的 Agent 形成集合 $Z_{prior}$。
Interaction Plausibility Estimation (交互合理性)：使用策略 $\pi_\phi$ 独立采样有向边，通过收集历史高质量轨迹进行监督训练。利用 MLP 预测两个节点在给定任务 $x$ 下的交互概率。
合成 GraphSpec：将节点相关性与边的概率相乘，得到最终的结构先验矩阵 $P_{prior}$。这就构建了一个去除了“无效通信链路”的安全探索子空间。

(2) Token 感知编排 (Token-Aware Orchestration)

基于 GraphSpec，MACA 将编排过程建模为马尔可夫决策过程（MDP），并利用 GRPO（Group Relative Policy Optimization） 训练策略 $\pi_\theta(a_t | s_t)$。其核心在于将结构先验和 Token 消耗注入到 RL 的优化中：

Action Masking (硬约束)：利用结构先验生成的掩码 $\mathcal{H}$，将不可能发生的交互路径的对数概率直接置负无穷，强制策略在合理的图拓扑内探索。
Token-Aware Reward (Token 感知奖励)：设计了 extrinsic reward $r_t = R_{acc} - \beta C_t^{token}$，其中 $C_t^{token}$ 是通信与生成的 Token 开销，迫使模型在“正确率”和“计算成本”间寻找帕累托最优。
KL 正则化 (软约束)：为了防止策略陷入盲目探索，在奖励中引入 KL 惩罚项 $r'_t = r_t - \lambda \cdot D_{KL}(\pi_\theta || \pi_{mix})$，让当前策略锚定在先验分布 $\pi_{mix}$ 附近，从而极大稳定了强化学习在复杂多智能体环境中的训练。

5. 实验设置与结论分析

实验基础：涵盖代码生成 (HumanEval, MBPP)，QA (MMLU-Pro, ARC-C)，数学推理 (SVAMP, GSM-Hard) 等 6 个数据集；主要使用 Llama-3.1-8B 和 70B 模型（附录中也测试了 Qwen2.5-14B 和 DeepSeek-R1-Distill）。
整体表现 (Performance vs. Baseline)：MACA 一致优于各类 Baseline。例如在 Llama-3.1-8B 规模下，相比 CoT，在难度极高的 GSM-Hard 和 MMLU-Pro 上实现了惊人的 +13.69% 绝对增益。更有趣的是，MACA (基于 8B 模型) 在 GSM-Hard 上的准确率 (50.30%) 甚至超越了 Vanilla Llama-3.1-70B (48.87%)。
性价比 (Cost-Performance)：相比现有的多智能体动态框架（如 DyLAN，AgentPrune, MaAS），MACA 展现了极强的成本控制能力。准确率提升的同时，Token 开销降低了 36.2% 到 51.9% 不等。
涌现的协调模式 (Emergent Coordination Patterns)：通过分析转移概率矩阵，MACA 自然涌现出类似于 Self-Refine 的自修正模式（生成器 ↔ 验证器）。同时，模型自主学习到了分层协调（Hierarchical Coordination）结构：高层规划 (Router/Designer) 负责分解任务，中间层 (Parser/Analyzer) 负责表征，底层 (Solver/Checker) 负责具体计算。这证明了无需人工写死 SOP (Standard Operating Procedure)，优质的协同模式可以在结构引导下被 RL 自主发现。

6. 资深从业者视角：关键技术亮点分析

从大模型工程实践和 Agent 架构演进的角度来看，MACA 的设计哲学具有极强的启发意义：

终结“拓扑决定论”与“裸奔路由”的对立：传统的基于图论的 Agent 网络（如基于 GNN 裁剪的拓扑）缺乏执行时的灵活性；而直接让 LLM 当 Router 的纯动态编排（如 AutoGen 的某些动态设定）常常因为 LLM 发散导致死循环或上下文爆炸。MACA 提出的 GraphSpec + RL Policy 是一种非常优雅的 “粗筛 (Prior) + 精调 (Posterior)” 范式，极大地收敛了 RL 的动作空间。
Budget (Token) 作为一等公民 (First-Class Citizen)：在工业级落地中，多智能体系统最令人头疼的就是 Token 的不可控激增。MACA 直接将 Budget $b$ 作为 condition 注入先验，并在 GRPO 奖励函数中设置 $\beta C_t^{token}$ 惩罚。这种将“系统思考时间”内化为策略优化的做法，直接赋予了系统可调节的“性价比”旋钮。
解决联合优化的不稳定性 (Two-Stage RL paradigm)：如果同时让系统学习“该跟谁聊”和“具体聊什么/怎么聊”，在一个非平稳的协同空间里 RL 极难收敛。MACA 采用两阶段策略：先由离线经验构建一个静态的结构参考分布（Reference Distribution），随后用 GRPO 并辅以 KL 惩罚进行策略优化，巧妙地避开了 “Moving Target” 难题。

大模型 Agent 与强化学习 (RL) 深度学术解读报告

SKILLC: Learning Autonomous Skill Internalization in LLM Agents via Contrastive Credit Assignment

SKILLC：通过对比信用分配学习LLM Agent的自主技能内化

💡 研究背景与痛点 (Background & Pain Points)

🚀 核心贡献 (Core Contributions)

🔍 训练动态 Case 剖析 (Dynamic Case Analysis)

⚙️ 方法论与技术实现 (Methodology & Implementation)

1. 任务级对比差距 (Task-Level Contrastive Gap)

2. 双流优势估计 (Dual-Stream Advantage Estimation)

3. 内化感知课程 (Internalization-Aware Curriculum)

📊 实验设置与结论分析 (Experiments & Analysis)

🌟 关键技术亮点分析 (Key Technical Highlights)

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

通过混合On-Policy与Off-Policy优化的探索型记忆增强LLM Agent

研究背景与痛点 (Background & Pain Points)

核心贡献 (Core Contributions)

具体案例剖析 (Case Study / Examples)

方法论与技术实现 (Methodology)

1. 采样阶段 (Rollout Modes)

2. 更新阶段 (Update Modes) 与知识内化

3. 稳定 Off-Policy 训练的 Masking 机制

实验设置与结论分析 (Experiments)

关键技术亮点分析 (Highlights)

How Many Tools Should an LLM Agent See? A Chance-Corrected Answer

💡 研究背景与痛点 (Background & Problems)

🚀 核心贡献 (Core Contributions)

🔍 具体案例剖析 (Case Study / Input-Output)

⚙️ 方法论与技术实现 (Methodology)

📊 实验设置与结论分析 (Experiments & Results)

🌟 关键技术亮点分析 (Key Highlights)

A-MapReduce: Executing Wide Search via Agentic MapReduce

A-MapReduce：基于智能体MapReduce框架执行广度搜索

🔍 研究背景与痛点 (Background & Pain Points)

💡 核心贡献 (Core Contributions)

📊 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现 (Methodology & Technical Implementation)

1. 决策空间的形式化定义 (MapReduce Decision)

2. Agentic MapReduce 执行流

3. 基于经验的连续进化 (Experience-based Evolution)

📈 实验设置与结论分析 (Experiments & Results)

🌟 关键技术亮点分析 (Key Highlights & Insights for Practitioners)

Multi-Agent Coordination Adaptation via Structure-Guided Orchestration

通过结构引导编排的多智能体协同自适应

1. 研究背景与痛点

2. 核心贡献

3. 具体案例剖析 (Case Study)

4. 方法论与技术实现

(1) 结构先验学习 (Structural Prior Learning)

(2) Token 感知编排 (Token-Aware Orchestration)

5. 实验设置与结论分析

6. 资深从业者视角：关键技术亮点分析