8
精选论文
7
发布于近3天
6
研究方向
cs.AI
主要分类
30+
参与作者
📋 目录
  1. 1BioLLMAgent:计算精神病学中的混合可解释决策框架
  2. 2EvoTool:基于进化范式的 LLM Agent 工具调用策略自优化
  3. 3HiMAP-Travel:面向长程约束旅行规划的层次多智能体框架
  4. 4A-MAC:LLM Agent 的自适应记忆准入控制框架
  5. 5Memex(RL):基于索引经验记忆的长程 LLM Agent 扩展
  6. 6MAGE:面向策略性探索与利用的 Meta-RL 语言 Agent
  7. 7Mozi:药物发现领域 LLM Agent 的受治理自主架构
  8. 8PAE:超越任务完成的 LLM Agent 流程感知评测框架
📄 论文详情
论文 01 · cs.AI · 2026-03-05
BioLLMAgent:面向计算精神病学的混合框架——提升人类决策仿真的结构可解释性
BioLLMAgent: A Hybrid Framework with Enhanced Structural Interpretability for Simulating Human Decision-Making in Computational Psychiatry
计算精神病学 混合 Agent 强化学习 可解释 AI 认知建模 多智能体
👤 作者: Zuo Fei, Kezhi Wang, Xiaomin Chen, Yizhou Huang
🏛️ 机构: 不列颠哥伦比亚大学 / 相关研究机构
📅 2026-03-05
摘要概述
计算精神病学长期面临一个根本性的权衡困境:传统 RL 模型虽然可解释性强,但行为真实性不足;LLM Agent 能够生成逼真行为,却缺乏结构性可解释性。BioLLMAgent 通过引入一套新颖的混合框架,首次将经过验证的认知模型与 LLM 的生成能力深度融合,在爱荷华赌博任务(IGT)的六个临床与健康数据集上,准确再现了人类行为模式,参数可识别性相关性达 0.67 以上。框架还成功模拟了认知行为疗法(CBT)原则,并通过多智能体动态揭示了社区层面教育干预可能优于个体治疗的重要发现,为精神病学假设检验提供了可计算的"沙盒"平台。
核心贡献
  • 提出 BioLLMAgent 混合框架,首次将经过临床验证的认知 RL 模型与 LLM 的语言生成能力统一整合,突破可解释性与行为真实性的两难困境。
  • 设计三大核心组件:内部 RL 引擎(基于经验的价值学习)、外部 LLM Shell(高层认知策略与治疗干预)、决策融合机制(基于加权效用的多源整合)。
  • 在 IGT 基准上跨六个临床及健康被试数据集验证,参数可识别性相关系数均 >0.67,行为拟合度超越现有方法。
  • 成功模拟 CBT(认知行为疗法)干预效果,并借助多智能体协作揭示群体教育干预的潜在社会效益,为公共卫生政策提供量化依据。
  • 将框架推广至奖励-惩罚学习与时间折扣任务,证明跨任务泛化能力,确立了可复用的精神病学"计算沙盒"范式。
研究方法
框架以经典 RL 认知模型(如 Prospect Valence Learning)为内核,构建内部 RL 引擎,负责跨试验的价值更新与期望估计。外层 LLM Shell 则读取当前任务状态、内核的价值估计及历史交互,生成高层次的认知策略(如风险规避/寻求倾向调整),并输出治疗性话语。决策融合机制通过加权效用函数将 RL 的数值化价值信号与 LLM 的语言推理输出动态整合为最终行为选择。在多智能体实验中,多个 BioLLMAgent 实例构成虚拟社区,通过模拟相互影响的干预传播过程来评估群体级治疗效果。
研究意义
BioLLMAgent 为精神病学研究提供了一个兼具行为真实性与参数可解释性的 Agent 平台,有望成为新药临床前模拟、CBT 方案优化及大规模干预政策评估的重要工具。该工作同时推动了 LLM Agent 在高可解释性科学领域(如医学、认知科学)的落地应用范式。
论文 02 · cs.AI · 2026-03-05
EvoTool:通过归因感知突变与多样性感知选择实现 LLM Agent 工具调用策略自进化优化
EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection
工具调用 进化算法 策略优化 信用分配 模块化 Agent
👤 作者: Shuo Yang, Soyeon Caren Han, Xueqi Ma, Yan Li, Mohammad Reza Ghasemi Madani, Eduard Hovy
🏛️ 机构: 悉尼大学 / 卡内基梅隆大学 / 相关高校联合
📅 2026-03-05
摘要概述
基于 LLM 的 Agent 依赖有效的工具调用策略来解决复杂任务,但由于长程轨迹中的延迟监督与信用分配困难,策略优化极具挑战。现有方法要么采用整体优化方式(容易纠缠行为),要么仅优化单一方面(忽视跨模块的错误传播)。EvoTool 提出一套无梯度进化范式,将 Agent 的工具调用策略分解为规划器(Planner)、选择器(Selector)、调用器(Caller)和综合器(Synthesizer)四大模块,通过三项创新机制迭代优化:轨迹归因定位错误模块、自然语言反馈驱动精准突变、多样性感知种群选择保留互补候选方案。在四个基准上,EvoTool 在 GPT-4.1 和 Qwen3-8B 上均超过强基线 5 分以上,同时表现出更优的效率和可迁移性。
核心贡献
  • 提出将工具调用策略模块化为 Planner/Selector/Caller/Synthesizer 四组件的新范式,实现细粒度独立优化,避免行为纠缠。
  • 轨迹归因定位(Trajectory-Grounded Blame Attribution):利用诊断轨迹将失败准确定位至具体模块,解决长程任务中的延迟信用分配难题。
  • 反馈引导的靶向突变(Feedback-Guided Targeted Mutation):仅对归因为失败的模块施以自然语言批评驱动的编辑,实现精准且高效的策略改进。
  • 多样性感知种群选择(Diversity-Aware Population Selection):保留互补候选解以维持解空间多样性,防止种群塌缩至局部最优。
  • 在 GPT-4.1 与 Qwen3-8B 上跨四个基准验证,较强基线提升 5+ 分,代码将在论文接受后开源。
研究方法
EvoTool 采用进化算法框架(无需梯度):首先执行完整任务轨迹,收集工具调用序列;随后通过轨迹分析模型(另一 LLM)进行归因,输出针对各模块的自然语言错误报告;目标模块随即接收此报告作为突变指令,生成新版本策略(即"子代");最后从当前种群中依据多样性度量(语义去重+性能排名)筛选保留最优子集,进入下一轮迭代。该循环在无监督奖励信号下通过内部自评估驱动持续演进。
研究意义
EvoTool 将进化计算与 LLM 自我反思相结合,为工具增强型 Agent 的策略持续优化提供了一条无需人工标注、无需梯度反传的新路径,对工业界部署可自主迭代的 Agent 系统具有重要参考价值。该方法的可迁移性也表明,进化范式有望成为跨任务 Agent 策略通用优化框架。
论文 03 · cs.AI / cs.CL · 2026-03-05
HiMAP-Travel:面向长程约束旅行规划的层次多智能体并行规划框架
HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel
多智能体规划 长程推理 GRPO 训练 约束满足 旅行规划
👤 作者: The Viet Bui, Wenjun Li, Yong Liu
🏛️ 机构: A*STAR 新加坡科技研究局
📅 2026-03-05
摘要概述
顺序式 LLM Agent 在面对具有预算、多样性等硬约束的长程规划任务时往往失效——随着规划深度增加,上下文膨胀导致 Agent 逐渐偏离全局约束。HiMAP-Travel 提出层次多智能体框架,将规划拆分为战略协调与并行天级执行两层。协调者(Coordinator)跨天分配资源,各天执行器(Day Executor)独立并行规划。三项关键机制保障方案质量:跨并行 Agent 执行预算与唯一性约束的事务监控器;允许 Agent 拒绝不可行子目标并触发重规划的协商协议;以及驱动所有 Agent 的单一 GRPO 训练策略(通过角色条件化区分行为)。在 TravelPlanner 上,HiMAP-Travel + Qwen3-8B 达到 52.78%(验证集)/ 52.65%(测试集)的最终通过率,较顺序基线 DeepTravel 提升 +8.67 pp,同时通过并行化将延迟降低 2.5 倍。
核心贡献
  • 提出两层层次架构:宏观 Coordinator 负责跨天资源与约束分配,微观 Day Executor 组并行处理每日子计划,实现全局约束与局部灵活性的有效解耦。
  • 设计事务性监控器,跨并行 Agent 实时追踪预算消耗与地点唯一性约束,防止并行执行产生全局不一致。
  • 引入协商协议(Bargaining Protocol):当 Day Executor 判断子目标不可行时,可主动发起重新谈判,触发 Coordinator 调整全局分配。
  • 采用单一 GRPO 训练策略 + 角色条件化方案,无需为不同角色训练独立模型,大幅降低训练成本并提升跨角色知识共享。
  • 在 TravelPlanner 和 FlexTravelBench 多轮场景上全面超越 ATLAS(+17.65 pp)、MTP(+10 pp)及 DeepTravel(+8.67 pp),延迟降低 2.5 倍。
研究方法
系统在推理阶段的执行流程为:Coordinator 首先分析整体旅行需求,基于预算约束和多样性要求制定跨天的资源分配方案;随后启动 N 个 Day Executor 实例并行工作,每个实例仅关注分配给自己的预算与约束片段;事务监控器作为共享的全局状态管理器,在每次 Executor 提交方案时验证全局约束是否满足;若某 Executor 遇到不可行子目标,通过协商协议通知 Coordinator 重新规划。训练阶段采用 GRPO(Group Relative Policy Optimization)对所有角色的行为进行统一优化,奖励信号来自最终规划方案的约束满足率与多样性指标。
研究意义
HiMAP-Travel 展示了层次化多智能体协作在解决长程约束规划任务中的巨大潜力,其并行化设计不仅提升了规划质量,还将推理延迟降低 2.5 倍,具备工业级部署价值。该框架的设计思路可推广至供应链优化、大规模项目管理等其他需要全局约束与局部执行协调的复杂规划场景。
论文 04 · cs.AI / cs.CL / cs.MA · 2026-03-04
A-MAC:面向 LLM Agent 的自适应记忆准入控制框架
Adaptive Memory Admission Control for LLM Agents
长期记忆 记忆管理 可解释 AI 多会话推理 知识过滤
👤 作者: Guilin Zhang, Wei Jiang, Xiejiashan Wang, Aisha Behr, Kai Zhao, Jeffrey Friedman, Xu Chu, Amine Anoun
🏛️ 机构: 佐治亚理工学院 / ServiceNow Research
📅 2026-03-04
摘要概述
基于 LLM 的 Agent 越来越依赖长期记忆支撑多会话推理,但现有系统对"哪些信息应被保留"缺乏有效控制:要么无差别积累大量对话内容(包括幻觉和过时事实),要么依赖不透明的 LLM 驱动记忆策略(成本高昂且难以审计)。A-MAC 将记忆准入建模为结构化决策问题,将记忆价值分解为五个互补可解释因子:未来效用、事实置信度、语义新颖性、时间近期性和内容类型先验。在 LoCoMo 基准上,A-MAC 将 F1 提升至 0.583,同时较最先进的 LLM 原生记忆系统降低延迟 31%。消融实验揭示内容类型先验是最重要的准入决策因子。
核心贡献
  • 将 LLM Agent 的记忆准入问题首次形式化为结构化决策框架(A-MAC),填补了 Agent 记忆架构设计中的关键空白。
  • 提出五维记忆价值分解:未来效用(预估未来被使用的概率)、事实置信度(信息准确性估计)、语义新颖性(去重与增量价值评估)、时间近期性(时间衰减加权)、内容类型先验(依信息类别赋予不同基础权重)。
  • 结合轻量级规则特征提取与单次 LLM 效用评估,避免每条记忆均需完整 LLM 推理,显著降低计算开销。
  • 通过交叉验证优化学习领域自适应的准入策略,使系统能够根据任务特性动态调整各因子权重。
  • 在 LoCoMo 基准上 F1=0.583,延迟降低 31%,消融实验量化了各因子的独立贡献。
研究方法
A-MAC 的工作流程分为特征提取、价值评估与准入决策三阶段。特征提取阶段采用轻量级规则模块,从对话片段中快速计算五个因子的数值化特征(如语义相似度计算新颖性、时间戳计算近期性、分类器计算内容类型)。价值评估阶段仅对特征置信度低的候选片段调用一次 LLM 进行效用判断,其余片段完全依赖规则打分。准入决策阶段将五维特征输入一个经交叉验证优化的轻量分类器,输出"保留/丢弃"决策。整套流程以透明可审计的方式替代了传统的黑盒 LLM 记忆策略。
研究意义
A-MAC 为 LLM Agent 长期记忆管理提供了一套透明、高效、可审计的工程解决方案。随着 Agent 被部署于越来越长期的多会话任务(如个人助手、企业 AI 等),记忆质量直接决定系统可靠性。该工作明确指出记忆准入应被视为 Agent 架构的一等公民,并为后续研究建立了清晰的评测框架。
论文 05 · cs.CL / cs.LG · 2026-03-04
Memex(RL):基于索引经验记忆扩展长程 LLM Agent 能力
Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
长程记忆 强化学习 上下文压缩 索引检索 Agent 扩展性
👤 作者: Zhenting Wang, Huancheng Chen, Jiayun Wang, Wei Wei
🏛️ 机构: 卡内基梅隆大学 / 斯坦福大学
📅 2026-03-04
摘要概述
LLM Agent 在长程任务中根本上受限于有限的上下文窗口:随着轨迹增长,保留工具输出和中间推理变得不可行——工作上下文过长、超出预算,且即使信息仍存在,远处的证据也难以有效利用。现有解决方案(截断或滚动摘要)本质上是有损压缩,因为它们会丢弃过去的证据本身。Memex 引入索引经验记忆机制,在不丢弃证据的前提下压缩上下文:维护由简洁结构化摘要和稳定索引构成的紧凑工作上下文,同时将完整交互存储于外部经验数据库。Agent 可按需解引用索引、恢复精确的历史证据。MemexRL 通过奖励塑形优化写与读行为,使 Agent 学会何时摘要、何时归档、如何索引以及何时检索。
核心贡献
  • 提出 Memex 索引经验记忆机制:通过"摘要+索引"维护紧凑工作上下文,同时在外部数据库中完整保存历史交互,实现"无损压缩"而非传统有损摘要。
  • 设计 MemexRL 强化学习框架:以上下文预算约束下的索引记忆使用为奖励塑形目标,端到端优化 Agent 的写(何时归档/摘要/索引)与读(何时解引用检索)行为。
  • 提供理论分析:证明 Memex 循环在有界解引用次数下可维持决策质量,同时保持有效上下文计算随历史增长有界,给出收敛性与效率保证。
  • 在多项挑战性长程任务上,Memex Agent 在使用显著更小工作上下文的同时提升了任务成功率,展示了与上下文扩展相比更具扩展性的记忆方案。
  • 与纯摘要方法相比,Memex 在关键证据需要精确回溯的任务上表现出明显优势,验证了"保真度保留"的核心价值主张。
研究方法
Memex 系统由三部分组成:工作上下文层(包含结构化摘要和指向外部数据库的稳定索引)、外部经验数据库(存储完整历史交互的键值对)、解引用操作(Agent 决定检索某个索引时触发,返回完整原始内容)。训练阶段,MemexRL 为正确使用索引记忆的行为(合理归档、准确检索、高效压缩)设计奖励信号,并通过 RL 训练使 Agent 内化这些记忆使用策略。理论上,论文将 Memex 循环建模为受限马尔可夫决策过程,在预算约束下证明其决策质量界。
研究意义
Memex(RL) 从根本上重新思考了 LLM Agent 的长程记忆问题:现有上下文扩展方案成本高昂且存在上限,而 Memex 提供了一种与上下文窗口大小解耦的扩展路径。该工作对构建能够处理数天、数周甚至更长时间跨度任务的 Agent 系统具有深远意义,也为 RL 训练与外部存储相结合的研究方向树立了重要范例。
论文 06 · cs.AI · 2026-03-04
MAGE:面向策略性探索与利用的元强化学习语言 Agent 框架
MAGE: Meta-Reinforcement Learning for Language Agents toward Strategic Exploration and Exploitation
Meta-RL 探索与利用 非平稳环境 多智能体博弈 种群训练
👤 作者: Lu Yang, Zelai Xu, Minyang Xie, Jiaxuan Gao, Zhao Shok, Yu Wang, Yi Wu
🏛️ 机构: 清华大学 / Institute for AI Industry Research (AIR)
📅 2026-03-04
摘要概述
LLM Agent 在已学习任务上表现卓越,但在需要反馈适应的非平稳环境中往往力不从心。上下文学习和外部记忆虽提供了一定灵活性,却无法将适应性内化为长期能力。元强化学习(Meta-RL)通过将学习过程直接嵌入模型来提供替代方案,但现有 Meta-RL 方法主要关注单智能体的探索,忽视了多智能体环境中必要的策略性利用。MAGE 提出元强化学习框架,赋予 LLM Agent 在探索与利用间动态平衡的能力,通过多回合训练机制将交互历史与反思融入上下文窗口,以最终回合奖励为目标激励 Agent 基于过去经验精炼策略,并结合种群训练与 Agent 特定优势归一化增强多样性与学习稳定性。
核心贡献
  • 提出 MAGE Meta-RL 框架,首次专注于在多智能体博弈场景中同时解决策略性探索(发现对手弱点)与利用(稳定获益)问题。
  • 设计多回合训练机制:将完整交互历史(含反思内容)纳入上下文,以最终回合奖励为优化目标,促使 Agent 学会跨回合的渐进策略优化。
  • 提出Agent 特定优势归一化技术:在种群训练中对每个 Agent 的优势函数独立归一化,解决不同能力水平 Agent 共训时的梯度干扰问题,确保学习稳定性。
  • 实验证明 MAGE 在探索任务和利用任务上均超越现有基线,并对未见过的对手展现出强泛化能力,表明其内化了元层面的策略适应能力而非记忆特定对手。
  • 代码已开源:github.com/Lu-Yang666/MAGE
研究方法
MAGE 在训练阶段将多个游戏回合(Episode)串联为一个"超级回合"(Meta-Episode),Agent 的上下文窗口包含所有历史回合的完整交互记录与由 LLM 生成的反思摘要。优化目标设为最终回合的累积奖励,这迫使 Agent 在前期回合主动探索(即使短期收益较低),以积累信息用于后期回合的策略改进。种群训练通过维护多个具有不同行为风格的 Agent 副本,配合 Agent 特定优势归一化,确保种群多样性并防止所有 Agent 收敛至同一策略。最终测试通过与未见对手的对局来评估元学习泛化能力。
研究意义
MAGE 为 LLM Agent 在动态对抗环境(如谈判、游戏、金融博弈)中的自适应决策提供了理论和工程基础。将 Meta-RL 的"学会学习"能力赋予语言 Agent,使其能够在与未知对手的交互中快速找到最优策略,对于构建真正鲁棒的通用 AI Agent 具有重要意义。
论文 07 · cs.AI · 2026-03-04
墨子(Mozi):药物发现领域 LLM Agent 的受治理自主双层架构
Mozi: Governed Autonomy for Drug Discovery LLM Agents
药物发现 工具治理 人机协作 HITL 科学 Agent 错误缓解 技能图谱
👤 作者: He Cao, Siyu Liu, Fan Zhang, Zijing Liu, Hao Li, Bin Feng, Shengyuan Bai, Leqing Chen, Kai Xie, Yu Li
🏛️ 机构: 香港中文大学 / 深圳先进技术研究院
📅 2026-03-04
摘要概述
工具增强型 LLM Agent 有望统一科学推理与计算能力,但在药物发现等高风险领域的部署受到两大瓶颈制约:无约束的工具使用治理不足,以及长程任务可靠性差。在依赖链复杂的制药流水线中,自主 Agent 常常偏离可重现轨迹,早期幻觉的乘法效应导致下游大规模失败。Mozi 提出双层架构,以"安全任务自由推理,长程流水线结构化执行"为设计原则,通过角色隔离、执行约束、反思性重规划以及人机协作检查点,将 LLM 从脆弱的对话者转变为可靠、受治理的共同科学家。在 PharmaBench 生物医学 Agent 基准上,Mozi 的编排准确性超越现有基线。
核心贡献
  • 提出双层治理架构:控制层(Control Plane)建立受治理的监督者-工作者层次,执行基于角色的工具隔离,将执行限制在受约束动作空间内;工作流层(Workflow Plane)将药物发现各阶段(靶点识别→先导化合物优化)建模为有状态的可组合技能图谱。
  • 实现反思性重规划机制:当子任务失败时,监督者触发基于当前状态的反思分析,生成修正后的执行计划,从根本上遏制错误积累。
  • 在高不确定性决策节点引入人机协作(HITL)检查点,确保在毒理性筛选、候选化合物选择等关键环节保留人类专家判断,维护科学有效性。
  • 设计严格数据合约,规范各技能节点的输入输出格式,保证整个流水线的可追溯性和可重现性,实现轨迹级别的可审计性。
  • 在 PharmaBench 上验证优于现有基线,并通过端到端治疗案例研究展示在海量化学空间导航、毒性过滤和竞争性虚拟候选化合物生成方面的实际能力。
研究方法
Mozi 的控制层维护一个监督者 LLM Agent,负责任务分解、子任务分配和全局状态追踪;各工作者 Agent 被限定在预定义的工具集和动作空间内执行,无法访问超出其角色权限的工具,从而防止跨模块的幻觉传播。工作流层将药物发现的标准流程(靶点识别、苗头化合物发现、ADMET 优化、先导化合物优化等)编码为有状态的 DAG(有向无环图)技能图谱,每个节点对应一个专门化工具调用序列,节点间的数据传递经过严格的 Schema 验证。HITL 检查点由预设的置信度阈值或任务类型标签触发,确保人类专家在关键时刻参与决策。
研究意义
Mozi 代表了将 LLM Agent 应用于真实科学发现流水线的重要里程碑。其"治理+自主"双层设计为高风险 AI 应用(医疗、法律、金融等)提供了可借鉴的安全架构范本。随着 AI 辅助药物发现成为产业趋势,Mozi 所展示的可审计性、可重现性和错误控制机制将成为监管合规的核心能力要求。
论文 08 · cs.AI · 2026-03-03
超越任务完成:通过流程感知评测(PAE)揭示 LLM Agent 的"腐化成功"现象
Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation
Agent 评测 流程完整性 基准分析 失败模式 多维评估 GPT-5 分析
👤 作者: Hongliu Cao, Ilias Driouich, Eoin Thomas
🏛️ 机构: Telnyx
📅 2026-03-03
摘要概述
LLM Agent 在高风险场景中的应用日益广泛,但当前基准测试主要评估任务"是否完成",而非"如何完成"。研究者提出流程感知评测框架(PAE),将 Agent 执行流程形式化为结构化观测,揭示 Agent 在观测、通信与执行之间的一致性关系。PAE 从四个互补维度评估 Agent(效用、效率、交互质量、流程完整性),并应用多维门控彻底排除"腐化成功"结果。令人震惊的发现是:在 tau-bench 基准上,最先进 LLM Agent 报告的成功案例中有 27%–78% 是"腐化成功"(表面完成实则违规),且不同模型呈现出截然不同的失败特征:GPT-5 错误分布在策略、执行和意图三个维度;Kimi-K2-Thinking 78% 的违规集中在策略忠实性;Mistral-Large-3 主导性失败为忠实性问题。
核心贡献
  • 提出流程感知评测(PAE)框架,将 Agent 评测从二元"成功/失败"扩展至四维:效用(Utility)、效率(Efficiency)、交互质量(Interaction Quality)、流程完整性(Procedural Integrity)。
  • 定义并量化"腐化成功"(Corrupt Success)现象:Agent 完成了任务表面指标却在过程中违反了策略、执行规范或意图一致性——tau-bench 上 27%–78% 的"成功"实为腐化成功。
  • 实现多维门控(Multi-Dimensional Gating)机制:当任意维度出现腐化时,该成功案例被强制降级,从而大幅压缩 Pass^4 通过率并改变模型排名。
  • 首次对 GPT-5、Kimi-K2-Thinking、Mistral-Large-3 等主流前沿模型进行系统化的失败模式画像,揭示各自独特的违规分布特征,为针对性改进提供方向。
  • 在基准层面暴露 tau-bench 的结构性缺陷:任务范围空白、奖励信号矛盾以及模拟器伪影导致的意外成功,推动基准设计改进。
研究方法
PAE 框架的核心是将 Agent 执行轨迹解构为结构化观测三元组(<观测内容, 通信内容, 执行动作>),通过一致性规则检查三者之间是否存在矛盾(如 Agent 观测到 X 却报告 Y,或报告 Y 却执行 Z)。基于此,PAE 沿四个轴计算得分并应用门控逻辑:若任一轴的腐化标志被触发,整个案例即被标记为腐化成功并从通过率统计中排除。失败模式分析通过对腐化案例按维度聚类,生成每个模型的"失败指纹",量化各维度违规的比例分布。基准结构性缺陷分析则通过对比 PAE 门控前后的模型排名变化来识别排名不稳定性来源。
研究意义
PAE 的核心贡献在于提醒整个 LLM Agent 研究社区:仅仅用任务完成率来衡量 Agent 能力是危险的。在医疗、金融、法律等高风险场景中,"腐化成功"不仅无益,甚至可能造成严重后果。该框架为构建更负责任的 Agent 评测生态系统奠定了基础,也为 Agent 安全研究提供了新的测量维度。论文同时揭示了主流基准设计的系统性缺陷,推动了评测基础设施的改进。