大模型 Agent 与强化学习 (RL) 深度学术解读报告

SKILLC: Learning Autonomous Skill Internalization in LLM Agents via Contrastive Credit Assignment

SKILLC:通过对比信用分配学习LLM Agent的自主技能内化

作者:Hongxiang Lin, Zhirui Kuai, Erpeng Xue*, Lei Wang

机构:美团 (Meituan)

📄 查看 ArXiv 原文

💡 研究背景与痛点 (Background & Pain Points)

在基于大语言模型的Agentic RL(智能体强化学习)中,执行长视野(Long-horizon)任务是一项极具挑战的诉求。为了提升探索效率和样本利用率,引入结构化技能提示(Structured Skill Prompts)已成为当前的主流范式。然而,关于如何使用这些Skills,业界主要分为两条路线,也各自面临显著痛点:

痛点:内化盲区(Internalization Blindness)
现有的内化方法往往只停留在“外部干预”层面(例如基于验证集胜率硬切断技能供应——Curriculum Control),而没有触及RL优化过程本身。在标准的 GRPO 算法更新步中,同一Prompt条件下的所有Rollouts被混在一起进行优势归一化(Advantage Normalization)。当技能注入(Skill-injected)的轨迹占据高Reward时,会无形中抬高整体Baseline,反而压制了那些偶然成功的无技能(Skill-free)轨迹的优势值(Advantage)。导致的结果是:模型根本无法在梯度层面区分哪些是“依赖技能的成功”,哪些是“自主能力的成功”,导致模型迟迟无法真正独立。

🚀 核心贡献 (Core Contributions)

为了解决上述的“内化盲区”,美团团队提出了一种全新的框架 SKILLC,其核心思想是将“技能内化”的差距转化为显式的对比信用分配(Contrastive Skill Credit Assignment, CSCA)信号,直接作用于策略更新(Policy Update)。

🔍 训练动态 Case 剖析 (Dynamic Case Analysis)

虽然本文并未提供具体的对话Case,但其在 ALFWorld 多任务环境中的训练动态轨迹 构成了极佳的“宏观Case Study”,清晰展示了SKILLC是如何引导Agent从“依赖”走向“独立”的:

⚙️ 方法论与技术实现 (Methodology & Implementation)

SKILLC 并不改变模型结构,而是从 RL 的采样与优势估计函数入手,设计极为优雅。以下是三大核心实现细节:

1. 任务级对比差距 (Task-Level Contrastive Gap)

让 $z \in \{0, 1\}$ 表示是否注入技能,任务级的内部差距定义为模型在有无技能下期望回报的差值:

$\Delta(x) = \mathbb{E}[R \mid x, z=1; \pi_\theta] - \mathbb{E}[R \mid x, z=0; \pi_\theta]$

为能在同一批次内观测到该信号,SKILLC 在每个更新步,强制针对同一Task同时分配有技能和无技能的 Rollouts(成对对比),通过平滑均值差得到 Batch 级的对比信号 $\hat{\Delta}(x)$。

2. 双流优势估计 (Dual-Stream Advantage Estimation)

这是 SKILLC 最精髓的改动。传统的 GRPO 计算出 Advantage 后直接更新策略,而 SKILLC 将 Advantage 拆解为两个“流”(Stream):

$\hat{A}_{CSCA}(i, x) = \Phi(R_i, \mathcal{R}_{batch}) + \omega \cdot A_{contra}^{cond}(i, x)$

妙处在于: 这是一个过渡性(Transient)信号。当模型内化完成时,$\hat{\Delta}(x) \leq 0$,修正项自动归零,算法退化为无偏差的分层归一化(Stratified Normalization)。

3. 内化感知课程 (Internalization-Aware Curriculum)

除了在 Batch 级别的细粒度指导,SKILLC 还使用周期验证集(Validation)产出的平滑 Gap 信号 $\bar{\Delta}^{(t)}_{\text{val}}(k)$ 来计算 Gate 值。这个 Gate 会动态且单调地控制三个变量:

📊 实验设置与结论分析 (Experiments & Analysis)

实验设置:

核心结果:

🌟 关键技术亮点分析 (Key Technical Highlights)

站在 LLM 训练与后训练(Post-training)的前沿视角,SKILLC 的贡献不仅是刷高了指标,更重要的是为 Agentic RL 中的 Curriculum Learning 提供了一种极其优雅且具备数学闭环的思路:

  1. 用 Advantage 修正代替 Reward Shaping: 传统的做法常常是在外界塞一个 Reward Bonus 给“无技能”轨迹。但 Reward Shaping 会改变 MDP 的最优策略,容易导致过拟合或 Hack。SKILLC 巧妙地在优势函数(Advantage)层面做加减,并在收敛极限处($\Delta \to 0$)自动退火至标准的策略梯度计算,保证了收敛的纯洁性(无永久性偏差)。
  2. 破除“刻舟求剑”的静态调度: 以往退掉技能的操作往往是基于 Step 数的硬编码(比如到了 1000 步硬切),这忽略了模型对不同复杂度技能内化速度的差异。SKILLC 通过 Validation Gap 建立的反馈闭环,让模型自己用“胜率差”投票决定何时抛弃这根拐杖,实现了完全 Data-driven 的内化进程。
  3. 直击多模态/大模型训练本质痛点: “Internalization blindness(内化盲区)”的提出非常深刻。在当前的各类 RLHF/RLAIF 训练中,当我们引入中间推理过程(如 CoT)或外部工具时,往往都会面临模型对其产生“依赖”的问题。SKILLC 利用对比采样的思路,为所有“引入中间步骤并最终希望隐式化”的研究方向提供了一个通用的解法范式。

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

通过混合On-Policy与Off-Policy优化的探索型记忆增强LLM Agent

作者:Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

机构:Microsoft Research, KAIST

📄 查看 ArXiv 原文

研究背景与痛点 (Background & Pain Points)

近年来,将强化学习(RL)与大型语言模型(LLM)结合,使Agent能够基于环境反馈自我进化(如 GRPO 算法)已成为重要范式。然而,在复杂的多步具身推理(Embodied Reasoning)任务中,当前基于 RL 训练的 LLM Agent 面临着一个致命瓶颈:探索(Exploration)能力严重不足

具体而言,面临以下痛点:

核心贡献 (Core Contributions)

微软研究院提出了 EMPO² (Exploratory Memory-Augmented On- and Off-Policy Optimization),一种统一的混合强化学习框架,成功打破了“外部提示工程”与“内部参数优化”的次元壁。其主要贡献包括:

具体案例剖析 (Case Study / Examples)

以下展示在 ScienceWorld 的 <power-component> 任务中,EMPO² 是如何通过记忆增强打破“行为死锁”的:

任务要求: 找到红灯泡,建立电路并点亮它。Agent 初始出生在“走廊(Hallway)”。

[无记忆的 GRPO Agent 行为 - 陷入死循环]
Observation: 房间是走廊,你看到了门、画等。
Action: focus on red bulb (试图聚焦红灯泡)
结果: 任务失败。因为当前房间根本没有红灯泡,由于没有记忆,Agent在后续多次 Rollout 训练中,像无头苍蝇一样重复这条失败指令,分数彻底停滞。


[EMPO² 借助自我生成的 Tips 破局]
在之前的 Trial 中,Agent 同样失败了,但它在当前回合结束时生成了一条总结并存入 Memory Buffer:
"Focus on red light bulb but cannot find it in the hallway... Eventually you got the score -100.0/100."

新的 Rollout (带有记忆增强的 Prompting):
Tips: 检索到了上述失败经验。
Action: go to workshop (前往工作室寻找)
结果: 成功转移房间并在新房间找到了红灯泡,跳出了局部最优,开始进行有意义的探索,随后这些优质轨迹被用于进一步优化策略模型。

核心架构图
图注:EMPO² 核心架构:展示了 Rollout 阶段的两种采样模式(带提示和不带提示)以及 Update 阶段的混合更新模式(On-policy 与 Off-policy 的巧妙组合)。

方法论与技术实现 (Methodology)

EMPO² 的核心在于将 Rollout 和 Update 阶段进行解耦,通过不同的条件组合实现“基于记忆的探索”和“剥离记忆的内化”。

1. 采样阶段 (Rollout Modes)

在每次交互生成数据时,Agent 依概率 $p$ 选择是否使用外挂记忆:

2. 更新阶段 (Update Modes) 与知识内化

通过“无记忆采样”获取的轨迹,按标准的 GRPO 直接更新。而通过“记忆增强采样”获取的轨迹,则分为两种情况进行强化学习更新:

3. 稳定 Off-Policy 训练的 Masking 机制

由于 Off-Policy 强行去掉了 Tips 导致的分布偏移,极易造成重要性采样比率(Likelihood ratios)无界爆发。为此,作者设计了一个低概率截断的 Masking 机制:当某个 Token 在无提示条件下的生成概率低于阈值 $\delta$ 时,丢弃其 Advantage 带来的梯度更新:

$$ \mathbb{E} \left[ \frac{1}{NT} \sum_{i=1}^N \sum_{t=1}^T \min \left( \rho_\theta^{(i,t)} A(a_t^{(i)}), \text{clip}\left(\rho_\theta^{(i,t)}, 1-\epsilon, 1+\epsilon\right) A(a_t^{(i)}) \right) \cdot \mathbf{1}_{\pi_\theta(a_t^{(i)} | s_t^{(i)}, u) \geq \delta} - \beta D_{\text{KL}}(\dots) \right] $$

此外,为了鼓励长期探索,EMPO² 还结合了基于状态新颖性的内在奖励(Intrinsic Rewards, $r_{\text{intrinsic}} = 1/n$),防止策略早期坍塌到单一的行为模式上。

实验设置与结论分析 (Experiments)

实验配置:基座模型采用 Qwen2.5-7B-Instruct,训练框架基于 verl 进行多步 (multi-step) 和离线损失 (off-policy loss) 计算的改造。对比 Baseline 包括 Naive (直接推理), Reflexion (非参数化记忆 RL), Retrospex (离线 RL), GRPO 及 GiGPO (在线 RL)。

关键技术亮点分析 (Highlights)

How Many Tools Should an LLM Agent See? A Chance-Corrected Answer

中文标题:LLM Agent 应该看到多少个工具?一个基于随机概率校正的答案

作者团队:Vyzantinos Repantis, Ameya Gawde, Harshvardhan Singh, Joey Blackwell II

所属机构:Meta Platforms

📄 查看 ArXiv 原文

💡 研究背景与痛点 (Background & Problems)

在构建 LLM Agent 框架(如基于 MCP 的系统、Function Calling 管道或 Tool-augmented RAG)时,开发者普遍面临一个相同的设计抉择:对于每次查询,应该给大模型展示多少个候选工具(即搜索深度 $K$)?

目前的痛点在于:

🚀 核心贡献 (Core Contributions)

本文没有去卷“如何设计更好的召回模型”,而是将“展示给 LLM 的工具数量”本身作为优化的第一优先级目标。主要贡献如下:

  1. 引入基于随机校正的指标(Bits-over-Random, BoR): 从信息论和化学信息学引入了 BoR 指标,用于衡量一个检索系统在特定深度下超越“随机盲猜”的信息增益(Selectivity)。
  2. 提出自适应深度的 RL Agent 探针模型: 将工具选择截断过程建模为马尔可夫决策过程(MDP),并将 BoR 直接作为强化学习的 Reward。该 Agent 能够根据 Query 的难度和 Scorer(召回模型)的置信度,动态决定在何时 STOP。
  3. 揭示 BoR 的数学“自剪枝(Self-Pruning)”属性: 摒弃了传统的启发式/手动设定的长度惩罚项。因为随着列表变长,随机蒙对的概率上升,BoR 奖励会自动衰减,从而驱动模型天然偏好更短、更精准的候选列表。
  4. 下游验证“Less is More”: 首次在真实 LLM(Claude Sonnet 4.6)上通过严格的分难度验证指出,更短且自适应的工具列表能显著提升模型的最终工具调用准确率。

🔍 具体案例剖析 (Case Study / Input-Output)

论文以 ToolBench (包含 3,251 个工具)Claude Sonnet 4.6 的下游调用 为例,清晰展示了固定 $K$ 值与自适应深度的差异:

⚙️ 方法论与技术实现 (Methodology)

1. Bits-over-Random (BoR) 指标设计

BoR 的核心思想是计算观测到的成功率相比于“闭着眼睛随机抓取同样数量的工具”的优势倍数(以比特为单位)。假设工具池大小为 $N$,相关工具数量为 $R_q$,我们展示了 $K$ 个工具。随机选中至少一个正确工具的概率为:

$$ P_{rand} = 1 - \frac{\binom{N-R_q}{K}}{\binom{N}{K}} $$

对于单工具查询($R_q=1$),它退化为 $P_{rand} = K/N$。定义 BoR 为观测成功率 $P_{obs}$ 与随机概率的比值对数:

$$ BoR = \log_2 \left( \frac{P_{obs}}{P_{rand}} \right) $$

2. 强化学习中的“自剪枝”机制 (Self-Pruning Property)

传统强化学习为了控制长度,往往需要设定一个手工调节的惩罚项(比如论文基线测试的 $F_1 = 2/(K+1)$)。但 BoR 截然不同:当候选列表变长($K$ 增加)时,$P_{rand}$ 会不可避免地升高。这意味着在 $K=100$ 时找到正确工具带来的奖励,远远低于在 $K=3$ 时找到正确工具的奖励。这种数学结构内生地惩罚了无脑堆砌候选工具的行为。

3. MDP (马尔可夫决策过程) 构建

📊 实验设置与结论分析 (Experiments & Results)

作者在三个工具选择 Benchmark (BFCL, MetaTool, ToolBench) 以及三个传统文档检索 Benchmark (SciFact, NFCorpus, MS MARCO) 上测试了 BoR Agent。底层使用了极为轻量级的 RL 架构(DQN / Tabular Q-learning)。

🌟 关键技术亮点分析 (Key Highlights)

对于 LLM Agent 开发者而言,这篇论文提供了几个极其务实的系统设计 Insight:

  1. 打破定势思维,K值不应该是超参,而应该是策略: 绝大多数 RAG/Agent 框架将 top_k 作为配置文件里的一个整型常量。本文证明了,根据相似度得分的分布(Score Distribution)动态决定截断位置,能极大改善系统的综合效率。
  2. “少即是多(Less is More)”的严格证明: 工业界常有“大力出奇迹,把 Top 20 全塞给模型”的粗暴做法。本文 Table 1 的结果给了当头一棒:即使你能 100% 把正确工具塞进去,但随之而来的 19 个干扰项会让 SOTA 模型(Claude 4.6)的最终选择准确率大幅下降。砍掉无效上下文本身就是在提升 LLM 的推理能力。
  3. Evaluation 指标的降维打击: 把化学制药领域(虚拟药物筛选,也是一种从海量分子库里找少数正确分子的任务)的概率校正思维(BEDROC 等)降维应用到 LLM Tool 检索上,不仅解决了难以评测的痛点,更直接将其转化为了优雅的 RL 奖励函数(且不需要繁琐调参),展现了极强的跨学科应用美感。

A-MapReduce: Executing Wide Search via Agentic MapReduce

A-MapReduce:基于智能体MapReduce框架执行广度搜索

Authors: Mingju Chen, Guibin Zhang, Heng Chang, Yuchen Guo, Shiji Zhou

Institutions: 北京航空航天大学 (Beihang University), 新加坡国立大学 (NUS), 清华大学 (Tsinghua University)

📄 查看 ArXiv 原文

🔍 研究背景与痛点 (Background & Pain Points)

当前基于大语言模型(LLM)的多智能体系统(MAS)在深度研究(Deep Research)任务中表现出色,这类任务侧重于迭代式、垂直结构的逻辑推理与信息搜索。然而,真实世界中存在大量广度搜索(Wide Search)任务,这类任务的特点是大规模、侧重覆盖率(Breadth-oriented)的实体与属性检索(例如:“请列出2019-2024年福布斯全球亿万富豪榜前10名,包含姓名、净资产、财富来源等,输出Markdown表格”)。

在面对广度搜索任务时,现有的多智能体框架暴露出了两个致命的困境(Dilemmas):

因此,作者提出:广度搜索不应继续沿用垂直递归推理(Vertical recursive reasoning),而应被建模为水平结构化检索范式(Horizontal structured retrieval paradigm)

💡 核心贡献 (Core Contributions)

📊 具体案例剖析 (Case Study)

论文中展示了一个极具代表性的 WideSearch 实例,直观展现了 A-MapReduce 与传统 MAS 的差异:

用户输入 (Query):“请列出2019至2024年福布斯全球亿万富豪榜各年的前10名个人。包含姓名、排名、净资产、财富来源和年龄。请将结果整理成一个Markdown表格...”

❌ 常规 MAS (General MAS) 的表现:

系统采用基于年份的串行搜索(Sequential Search),一年一年地查询。当执行到后期时,长周期的上下文堆叠导致模型记忆发生混乱。最终输出:“Error: Cannot find markdown in agent output... 收集的信息高度碎片化和过载,无法可靠验证。” Row F1 = 0.0,彻底失败。

✅ A-MapReduce 的表现:

第一阶段 (无记忆):将任务转化为一个 $6 \times 10$ 的任务矩阵 (Task Matrix)。制定了 per_atom 的 Batching 策略,直接拉起 60 个子智能体并行执行。虽然能够完成任务(Item F1 = 0.76),但耗时 39 分钟,花费 $1.56。

第二阶段 (引入经验记忆后):系统从历史经验中提取到 “对于按年份发布的榜单,按年份分组可避免冗余请求” 的优化策略。系统随即将 Batching 策略修改为 by_attr(Year),只需拉起 6 个子智能体。结果:耗时下降至 32 分钟,成本降至 $1.20,结构一致性大幅提升,Item F1 升至 0.79,Row F1 = 0.58。

⚙️ 方法论与技术实现 (Methodology & Technical Implementation)

A-MapReduce 将复杂的广度搜索建模为一个多智能体随机决策采样过程。核心由三大模块构成:

1. 决策空间的形式化定义 (MapReduce Decision)

框架将顶层规划决策具象化为一个元组 $\Theta_q \triangleq (M_q, P_q, B_q)$:

2. Agentic MapReduce 执行流

3. 基于经验的连续进化 (Experience-based Evolution)

为了让系统在多次运行中寻找最优的 $\Theta_q$,作者设计了经验记忆机制 $\mathcal{M} \triangleq \{\mathcal{D}, \mathcal{H}, F_\psi\}$:

📈 实验设置与结论分析 (Experiments & Results)

作者在5个包含高度广度搜索特性的评测集上进行了测试:WideSearch、DeepWideSearch,以及基于 xBench、WebWalkerQA、TaskCraft 筛选出的 Agentic-Wide Subset。

🌟 关键技术亮点分析 (Key Highlights & Insights for Practitioners)

  1. 将“隐式规划”转为“显式状态机”:传统 Agent 极易在几百轮的 Tool Call 中“迷失自我”。A-MapReduce 强制系统首先输出一个 $M_q$ 矩阵(Task Matrix),这相当于给 Agent 构建了一个带 Checkpoint 的状态跟踪表。哪些行没跑完,哪些单元格为空,一目了然,从根本上解决了 Long-horizon 执行过程中的状态崩塌问题。
  2. 从 Workflow Search 降维至 MapReduce 参数搜索:目前很火的拓扑图搜索(如 GPTSwarm、AutoFlow)搜索空间巨大,且极难调参。本文巧妙地将拓扑结构固化为 MapReduce,把搜索空间压缩为 $(M, P, B)$ 这三个具象的物理参数。这使得“修改执行逻辑”变成了“调整分组和分块大小”,大大提升了系统的可解释性和鲁棒性。
  3. 极为优雅的 Meta-Optimizer (蒸馏更新设计):论文中的 $F_\psi$ 操作器是一大亮点。单纯的 RAG Memory 很容易被脏数据污染,且带有强烈的历史 Query 偏见。A-MapReduce 在聚类后,强制 LLM 进行 Diff 级别的操作(ADD/EDIT/REMOVE/AGREE),不仅去除了冗余,还提炼出了真正的“方法论”(例如:什么时候该 by_attr 分组,什么时候该单点查询),这为构建自我演进的 Agentic OS 提供了一个非常好的工程范本。

Multi-Agent Coordination Adaptation via Structure-Guided Orchestration

通过结构引导编排的多智能体协同自适应

作者:Haoran Li, Shulun Chen, Shaoyuan Sun, Hanchen Wang

机构:南京大学,悉尼科技大学 (UTS),新南威尔士大学 (UNSW)

📄 查看 ArXiv 原文

1. 研究背景与痛点

随着大语言模型(LLM)能力的提升,多智能体系统(Multi-Agent Systems, MAS)被广泛应用于复杂任务拆解与集体推理(如 ChatDev, MetaGPT 等)。然而,随着任务复杂度和系统规模的扩展,如何在结构稳定性(Structural Stability)动态适应性(Dynamic Adaptability)之间取得平衡,成为了一个巨大的挑战。当前该领域主要存在两种截然不同的演进范式,但各有明显的局限性:

更深层次的根本问题在于:当前的系统将“多智能体协作”视为一个单一的、单体式(Monolithic)的过程,忽略了结构先验动态编排之间的解耦。此外,资源预算(如 Token 限制)通常只作为外部约束,并未在优化中被内化为影响协调空间的信号。

2. 核心贡献

本文提出了 MACA(Multi-Agent Coordination Adaptation),一种基于概率视角的自动协同框架。作者首次将多智能体协同建模为基于结构变量和编排变量的后验推断(Posterior Inference)问题。具体贡献如下:

3. 具体案例剖析 (Case Study)

为直观展示 MACA “结构引导 + 动态编排”的效果,我们对比了其在 HumanEval 数据集中不同难度代码生成任务时的协调路径(参考原论文 Table 9 & 10):

场景对比:代码生成任务 (Task: find_zero)

智能体任务感知特化 (Agent Specialization):
在系统过滤阶段,面对同一个问题,AlgorithmDesigner (偏向算法设计) 与 CodeWriting (偏向代码实现) 会根据输入文本生成截然不同的 Relevance Score (如 0.66 vs 0.88)。这意味着 MACA 并不是粗暴地开启所有领域相关的 Agent,而是对“角色能力”与“当前上下文”进行了细粒度匹配。

4. 方法论与技术实现

MACA 将协同系统定义为 $\mathcal{M} = \{\mathcal{G}, \mathcal{T}\}$,其中 $\mathcal{G}$ 是结构图,$\mathcal{T}$ 是编排轨迹。寻找最佳协同方案被转化为最大化后验概率问题:

$$ p(G, \tau | x, b, y^\star) \propto \underbrace{p(y^\star | \tau, x)}_{\text{输出保真度}} \cdot \underbrace{p(\tau | G, x, b)}_{\text{动态编排}} \cdot \underbrace{p(G | x, b)}_{\text{结构先验}} $$

由于该后验推断难以直接计算,作者使用变分推断(Variational Inference)来最大化证据下界(ELBO)。整个系统在实现上被拆分为两大核心模块:

(1) 结构先验学习 (Structural Prior Learning)

该模块生成一个被称为 GraphSpec 的概率约束空间:

(2) Token 感知编排 (Token-Aware Orchestration)

基于 GraphSpec,MACA 将编排过程建模为马尔可夫决策过程(MDP),并利用 GRPO(Group Relative Policy Optimization) 训练策略 $\pi_\theta(a_t | s_t)$。其核心在于将结构先验和 Token 消耗注入到 RL 的优化中:

5. 实验设置与结论分析

6. 资深从业者视角:关键技术亮点分析

从大模型工程实践和 Agent 架构演进的角度来看,MACA 的设计哲学具有极强的启发意义:

  1. 终结“拓扑决定论”与“裸奔路由”的对立:传统的基于图论的 Agent 网络(如基于 GNN 裁剪的拓扑)缺乏执行时的灵活性;而直接让 LLM 当 Router 的纯动态编排(如 AutoGen 的某些动态设定)常常因为 LLM 发散导致死循环或上下文爆炸。MACA 提出的 GraphSpec + RL Policy 是一种非常优雅的 “粗筛 (Prior) + 精调 (Posterior)” 范式,极大地收敛了 RL 的动作空间。
  2. Budget (Token) 作为一等公民 (First-Class Citizen):在工业级落地中,多智能体系统最令人头疼的就是 Token 的不可控激增。MACA 直接将 Budget $b$ 作为 condition 注入先验,并在 GRPO 奖励函数中设置 $\beta C_t^{token}$ 惩罚。这种将“系统思考时间”内化为策略优化的做法,直接赋予了系统可调节的“性价比”旋钮。
  3. 解决联合优化的不稳定性 (Two-Stage RL paradigm):如果同时让系统学习“该跟谁聊”和“具体聊什么/怎么聊”,在一个非平稳的协同空间里 RL 极难收敛。MACA 采用两阶段策略:先由离线经验构建一个静态的结构参考分布(Reference Distribution),随后用 GRPO 并辅以 KL 惩罚进行策略优化,巧妙地避开了 “Moving Target” 难题。