👥 作者:Ziyan Liu, Zhezheng Hao, Yeqiu Chen, Hong Wang, Jingren Hou, Ruiyi Ding, 等
🏛️ 机构:中国科学技术大学 (USTC),浙江大学,腾讯
在构建通用人工智能(AGI)的过程中,如何让LLM智能体在“长视距(Long-Horizon)”的复杂环境中保持可靠的内部记忆,是一个核心挑战。当前主流的范式是记忆增强智能体(Memory-augmented Agents),即通过递归地总结过去的交互轨迹,将其压缩成紧凑的记忆(Context),从而缓解大模型的“Lost-in-the-middle”问题和原生上下文窗口限制。
然而,这种递归总结范式在RL优化上面临着极大的痛点:
本文提出了一种全新的框架 MMPO (Metacognitive Memory Policy Optimization),核心贡献在于通过引入认知科学中的“元认知”概念,优雅地实现了长视距记忆策略的密集奖励优化:
要理解 Belief Entropy,最直观的方法是看作者如何设计 Anchor Question(锚点问题) 来激发模型的元认知(知道自己不知道什么)。
Prompt 设计模板 (以QA任务为例):
背后的逻辑:
what is the current task progress 探测模型当前的 State Estimate;后半句 what information is still needed 探测残余的未知信息。动态演变表现:根据论文 Figure 3 和 5,在成功的长视距推理轨迹中,随着有效信息的不断收集,Belief Entropy 呈现出持续下降的趋势;而失败的轨迹中,熵值往往停滞或反而上升,这完美印证了它作为动态 Reward 信号的合理性。
1. 异构时序图构建 (Heterogeneous Temporal Graph Construction)
系统监听OS流式事件并确定性地构建会话图 $G_t = (V_t, E_t)$:
has_entity(事件关联实体)、belongs_to,以及用于序列建模的 next_event 前后向时序边。2. 双头联合预测 (Joint Trigger and Routing as Two Heads)
网络骨干采用三层关系感知 GATv2(Relation-aware GATv2),并辅以 Jumping Knowledge 机制直接拼接所有层特征,以兼顾低层语义(实体表面名称)与高层图上下文。
基于共享的隐藏层状态 $h$,模型并行两个 MLP 读出头:
联合训练损失极其简洁:
$$ \mathcal{L} = 0.3 \, \text{BCE}(\text{logit}_{\text{trig}}, y_{\text{trig}}) + 1.0 \, \text{BCE}(\text{logit}_{\text{rout}}, y_{\text{rout}}) $$
3. 下游生成 (Downstream LLM Agent)
推理阶段使用严格的因果掩码(阻断未来边)。如果 $p_{\text{trig}}(t) \ge \tau$ 阈值,则将 $s_{\text{rout}}(v)$ 排序最高的实体(如 email_filter.py)连同会话历史拼接成结构化 prompt,请求下游冻结的指令微调 LLM 产生预测动作。此时的LLM彻底摆脱了复杂的时序模式匹配,只需要做好它最擅长的事:基于给定的实体把动作“翻译”成自然语言交互。
让我们看一个典型的代码编写 + 拼音搜索的测试用例:
email_filter.py 时,切换到搜索引擎搜索 dianz youjian dizhi jiaoyan4 python (拼音意为:电子 邮件 地址 校验 python)。在桌面端 ProactiveAgent 和移动端 FingerTip-20K 基准上的实验揭示了压倒性的优势:
TGL + Qwen2-7B-Instr 零样本组合就能达到 F1=70.68,彻底证明了在前端“挂载”一个小图模型比用庞大数据死磕微调大模型有效得多。这篇论文的本质是对 Agent 数据模态认知的一次正本清源。
App, Window, Process, URL 这样的图节点实体。以往的研究为了强行凑“纯文本输入”,将这些丰富的数据模态转成流水账句式,再指望大模型通过 self-attention 重新找到“刚才我开的哪个文件和搜索的哪个词有关联”。TGL 证明了使用原生的异构图建模不仅速度快几个数量级,而且空间拓扑直接给定了答案。
Authors: Wenwu Li, Yuran Song, Mingze Zhao, Bo Jin, Wenhao Li*
Institutions: 同济大学 (Tongji University), 香港大学 (The University of Hong Kong)
📄 查看 ArXiv 原文虽然大模型驱动的多智能体系统 (Multi-Agent Systems, MAS) 通过角色协作(如提议者、辩论者、审查者)和多轮迭代大幅提升了复杂任务的推理能力,但如何自动优化MAS内部的交互动态(Interaction Dynamics)一直是个极具挑战的难题。
从优化视角来看,LLM-based MAS的运行本质上是一个离散、不可微(non-differentiable)的计算图。区别于神经网络可以通过反向传播将误差精准回传给每一个权重,MAS面临极其严重的信用分配问题(Credit Assignment Problem, CAP):
作者认为:要让MAS优化变得可计算且高效,必须在计算图上引入结构性归纳偏置(Structural Inductive Biases)来解耦误差信号。
以旅游行程规划 (Travel Itinerary Planning) 为例,假设系统有3个Agent:Planner (A), Solver (B), Critic (C),共讨论2轮(Round 1 & 2)。
1. 推理轨迹生成与信用分配:
2. 定向 Prompt 优化:
系统不会盲目修改全局提示词,而是生成精准的文本反馈(Textual Gradient),仅针对 Agent A 在第二轮的缺点进行指导更新:
[Before Prompt] (泛化目标): Create a 5-day travel itinerary.
[After Prompt] (针对性指导): Focus on refining daily plans after initial flight selection (R2). Prioritize destination logic and flow over initial cost (Agent A).
这种更新直击要害,不仅节约了 Token/Query 成本,还避免了原本表现良好的组件(如 Agent B 和 R1)被“负优化”。
为了使MAS优化变得可行(tractable),作者设计了两个关键松弛条件(Relaxations),将原本混乱的交互图变成了结构化的优化曲面:
全连接的MAS中信息流动发散,无从追溯。作者引入了由Prompt驱动的聚合模块 (Aggregation Module),在每轮 $t$ 对所有Agent的输出 $\mathcal{U}_t$ 进行摘要总结,生成一个共享状态 $S_t = f_t(\mathcal{U}_t; \psi_t)$。这形成了一个马尔可夫决策过程 (MDP) 的状态瓶颈,使得系统在中间步骤的评估成为可能,能够生成中间态的文字代理梯度: $\Delta_t = \mathcal{G}_t(x, S_t, S_R, J(\tau; x))$。
如果让每一个Agent在每一轮都有一个独立的Prompt,参数量会爆炸。方法强制要求“同一角色跨轮次共享Prompt”(如辩论者角色共用一个核心System Prompt)。优化目标从朴素的端到端得分 $\max_\Phi \mathbb{E}_{\tau} [J(\tau; x)]$ 演变为基于共享参数集合的:
$\max_{\{\phi_i\}_{i=1}^N, \Psi} \mathbb{E}_{x\sim\mathcal{D}} \mathbb{E}_{\tau\sim p(\cdot|x; \{\phi_i\}, \Psi)} \big[ J(\tau; x) \big]$
此处的 $\phi_i$ 是第 $i$ 个角色的Prompt,$\Psi$ 是聚合器策略(轮次导向)。
这是一种巧妙将数值最优化理论迁移到 Prompt Engineering 的设计:
实验配置:在四大多项选择推理基准(AQuA, MedMCQA, GPQA, MMLU)上,使用 Qwen2.5-7B, LLaMA3-8B 和 Gemma-7B,评估了在 DyLAN 和 Debate 这两大多智能体框架上的表现。基线对比包括未优化版本以及目前先进的黑盒优化器 DSPy (MIPRO)。
核心结论 (Takeaways):
对于资深从业者来说,这篇论文带来了关于“如何调教复杂大模型Agent链路”的深刻启发:
中文标题:带有鲁棒多维度评价标准奖励的强化学习
作者:Ya-Qi Yu, Hao Wang, Fangyu Hong, Xiangyang Qu, 等
机构:华为技术有限公司 (Huawei Technologies Co., Ltd.)
在基于规则/可验证奖励的强化学习(RLVR,Reinforcement Learning with Verifiable Rewards)推动下,大模型在数学和代码等具有确定性验证边界(Deterministic Verification)的任务上取得了显著突破(如 DeepSeek-R1)。然而,当我们将视角转向视觉-语言模型(VLMs)时,这种范式遇到了巨大的阻碍。
本文提出了一种全新的奖励建模与强化学习框架 RLR³ (Reinforcement Learning with Robust Rubric Rewards),成功将 RLVR 范式从“任务级别 (Task-level)”推进到了“标准级别 (Criterion-level)”。
论文在附录提供了几个极具启发性的“攻击测试(Adversarial Audit)”案例,完美展示了 LLM 裁判的脆弱性以及 RLR³ 的鲁棒性:
🚨 Case 1:权威绕圈子攻击 (Authoritative circumlocution)
predict=''。代码 Verifier 核对发现为空,打分 0(零分),成功防御了作弊!🚨 Case 2:符号等价性虚张声势 (Symbolic-equivalence bluff)
输入 $x$,为其生成特定的 Rubric $C^x = \{c^x_1, ..., c^x_K\}$。每个 Criterion 被定义为一个五元组:$c^x_k = \langle d^x_k, t^x_k, w^x_k, V_k, z^x_k \rangle$。
将输入分解为文本 $x^t$ 和图像 $x^i$。两条路径都对大模型共享权重 $\phi$,且仅输入文本(屏蔽图像):
在 GRPO 中,如果一个 Group 内的样本得分差距太小(例如编辑距离的微小差异都算0.9以上),会导致优势函数分辨力不足。RLR³ 引入了解耦归一化,定义了针对组内的上下界重映射:
$$ \ell_k = \begin{cases} 0, & s_{k,min} < \tau \\ 0.5, & s_{k,min} \ge \tau \end{cases} \quad u_k = \begin{cases} 1, & s_{k,max} > \tau \\ 0.5, & s_{k,max} \le \tau \end{cases} $$
$$ \tilde{s}_{k,i} = \frac{s_{k,i} - s_{k,min}}{s_{k,max} - s_{k,min}}(u_k - \ell_k) + \ell_k $$
门控机制:补充要求得分不能用来弥补核心要求的失败。如果任意一个 ESSENTIAL 标准彻底失败($<0.5$),或者有两个以上 ESSENTIAL 标准仅部分正确($<1$),则该 Response 整体的内容 Mask 为 0。
$$ m_{\text{content}} = \begin{cases} 0, & |\{k : t^x_k = \text{ESSENTIAL}, \tilde{s}_k < 0.5\}| \ge 1, \\ 0, & |\{k : t^x_k = \text{ESSENTIAL}, 0.5 \le \tilde{s}_k < 1\}| \ge 2, \\ 1, & \text{otherwise}. \end{cases} $$
最终 Reward $\tilde{r} = m_{\text{content}} \cdot m_{\text{format}} \cdot \sum (w^x_k \tilde{s}_k)$,送入 GRPO 目标函数进行优化。
对于正在死磕大模型/多模态 RLHF 或 RLVR 落地的人来说,这篇文章切中要害,解决的都是工程和算法上的“血泪坑”:
作者:Corrado Rainone, Davide Belli, Bence Major, Arash Behboodi
机构:高通 AI 研究院 (Qualcomm AI Research)
当前 Agentic AI 的推理部署陷入了两极分化的困境:
面对此困局,业内开始探索将两者结合的混合多智能体系统 (Hybrid MAS)。然而,当前的 Hybrid 系统大多基于特定任务的 Ad-hoc 经验调优。在模型准确度 (Accuracy)、货币成本 (Cost) 和端侧能耗 (Energy) 的“不可能三角”中,缺乏一套通用的设计原则与系统化评估框架。
为了直观展示两种混合架构的内部工作流差异,论文在附录中给出了 AppWorld (系统界面交互任务) 场景下的两种干预案例对比。AppWorld 环境具有强状态依赖特性,一个错误的 API 调用可能产生不可逆的后果。
🔥 案例一:PEVR (基于计划的硬性重置) 的 Supervisor 输出
场景:端侧 Agent 在查询 Amazon 购物车时卡住。
云端大模型生成的 <REPLAN> (节选):
1. 发现 Amazon APIs: 使用 apis.api_docs.show_api_descriptions(app_name='amazon'),预期输出 API 名称列表。
2. 获取详细文档: 使用 show_api_doc(...) 了解请求所需的 Input/Output。
3. 获取用户凭证: 使用 apis.supervisor.show_account_passwords() 获得账号和密码字典。
4. 登录系统: 使用获取的密码登录,拿到 access_token。
分析:极其详尽、可执行的 Step-by-step 指南,端侧小模型只需按部就班当“打工人 (Executor)”,不易跑偏,高度契合状态依赖的 UI 交互域。
💡 案例二:EVA (基于建议的软性引导) 的 Supervisor 输出
场景:同样在尝试查询购物车时连续报错 422 Invalid API。
云端大模型生成的 <ADVICE> (节选):
1. 使用 show_api_descriptions('amazon') 列出所有可用的 API。
2. 找出查询购物车小计的正确 API 名称。
3. ... Corrections: 不要猜测 API 名称,务必确认 access_token,提供正确的语法结构。
分析:属于高层指导(泛泛而谈的建议)。在 AppWorld 中,端侧模型拿到这种“抽象建议”后往往依旧无从下手,容易陷入原地循环的试错陷阱 (Trial-and-error)。
论文设计了两种经典的混合多智能体角色编排体系。在两者中,高智能的云端 LLM 担任监督者 (Supervisor),资源受限的端侧 SLM 担任执行者 (Executor),端侧负责耗费巨量 Token 的 ReAct 交互循环,云端负责低频的干预纠偏。
该架构侧重于强中心化编排与重规划:
该架构侧重于轻量级顾问指导:
为了衡量端侧的能耗,论文建立了一个基于硬件效率的估算公式,计算每次推理的总焦耳 (Joules) 消耗:
$$ E \approx \frac{2\mathcal{N}(n_p + n_d)}{\eta} $$
其中 $\mathcal{N}$ 为模型参数量,$n_p, n_d$ 为 prefill 和 decode 的 Token 数,$\eta$ 为 NPU 硬件能效比(约为 $10^{12} \text{ Ops/J}$)。
实验基座与基准:
深度结论一:任务属性决定最佳架构
在 AppWorld (UI 助手) 任务中,PEVR 架构显著碾压 EVA。因为状态型环境具有强耦合依赖,精确的初始规划和详细的 Replan 能极大收敛端侧的动作空间空间;相反,在 FanOutQA (深度搜索/深网打捞) 中,EVA 则大幅超越 PEVR。深度搜索需要不断试错累积碎片线索,PEVR 动辄触发的强行重置 (Restart) 会将端侧刚刚建立的探索上下文无情腰斩,因此保留柔性总结 (Summarization + Advice) 的 EVA 表现更佳。
深度结论二:过度验证是有害的 (Illusion of More Compute)
从 Pareto 散点图可以看出,随着云端干预步长 $T_v$ 的缩短(成本急剧上升),整体性能曲线往往先升后降。验证策略取决于底层环境容忍“重启”的程度。无意义的频繁介入反而引发高频率的 False Positive 误判,强行打断了原本顺畅的思维链条。
深度结论三:端云角色反转是次优解
论文验证了一个“反直觉”的设定:如果让云端当高频 Executor,端侧小模型当低频 Supervisor 会怎样?实验证明其表现不仅弱于纯云端 Monolithic 系统,且云端 API 成本暴涨。确立了“小模型执行 + 大模型高层监督”是混合系统中唯一成立的最佳形态。