作者:Jeongeun Lee, Chanyoung Park, Dongha Lee
机构:Yonsei University (延世大学), KAIST (韩国科学技术院)
随着多模态大语言模型 (MLLMs) 的飞速发展,基于 MLLM 的具身智能体 (Embodied Agents) 在物理环境中的复杂任务决策中展现出巨大潜力。然而,从通用指令遵循走向真正的“个性化助理”,存在着巨大的鸿沟。
因此,对于具身个性化助理而言,仅仅具有“记忆容量”是不够的,核心在于如何将长期积累的非结构化交互转化为支持精准 Grounding 和具身 Planning (路径规划) 的结构化知识。
本文提出了一种名为 POLAR (Personalized Object-centric Long-term Agent via Retrieval) 的多模态记忆增强框架,专门解决长期多轮交互下的具身个性化难题。
论文中通过一个非常直观的例子展示了 POLAR 是如何将含糊的泛化指令转换为精准的个性化具身动作的。
当前用户指令: "Bring my trip to-go!"(带上我旅行要带的东西!)
无记忆基线 (Generic Baseline): 智能体依靠大模型的常识先验,认为旅行用品大概率在客厅 (Living Room) 或储物间,进行盲目搜索,这通常无法找到真正想要的物品。
使用 POLAR 框架的不同用户表现:
[当前房间 -> 客厅] 的高效寻路动作。洞察: 个性化不仅体现在“认出目标对象”,更深刻体现在它改变了具身智能体的物理搜索策略(Embodied Search Strategy),实现了“经验复用”。
整个任务被建模为一个部分可观测马尔可夫决策过程 (POMDP)。POLAR 将记忆处理机制分为两步核心阶段:Memorization (记忆化) 和 Utilization (利用)。
每次交互后,产生的新历史 $\mathcal{E}_{<k}$ 会被映射到多模态知识图谱 $\mathcal{M} = (\mathcal{V}, \mathcal{E})$ 中。这里的节点被精细拆分为三类:
图谱构建时通过 Object ID 匹配或者基于参考图像的视觉特征相似度,动态更新边(Edges)和加入时间戳,实现了随时间演化下的对象绑定更新机制。
在当前 Task execution 时:
实验基准与模型: 基于 Habitat-Matterport3D 构建了 PinNED 个性化具身导航数据集。覆盖了 Qwen3-VL-8B, Qwen2.5-VL-8B, GPT-5, GPT-4o-mini 和 Gemini-2.5-Flash 等多种 MLLM Backbones。评价指标主要为 Success Rate (SR) 和 SPL。
核心发现:
作为从业者,这篇文章有两个极具参考价值的 Design Pattern:
作者:Jianing Zhu, Yeonju Ro, John T. Robertson, Kevin Wang, Junbo Li, Haris Vikalo, Aditya Akella, Zhangyang "Atlas" Wang
机构:The University of Texas at Austin (得克萨斯大学奥斯汀分校)
当前的大语言模型(LLM)Agent正在从“单次对话(one-shot chat)”向拥有状态、需要跨越海量 Session 持久运行的“长周期系统(long-lived systems)”演进(例如:接管你几个月日程的私人助理,或追踪大型代码库重构轨迹的编码Agent)。
然而,现有的 Agent 评测基准普遍是一种 “首日评估(Day-one benchmarks)”——它们只关心 Agent 刚初始化时的记忆与推理能力。对于已部署在生产环境的系统而言,一个致命的盲区是:即使底层模型权重被完全冻结(Frozen),Agent 作为一个整体系统的“有效状态(Effective State)”依然在不断变化。
随着交互历史被不断压缩、内存库逐渐臃肿、既往事实被反复更新,甚至经历例行的系统维护(如日志清理、内存重新压实),Agent 的可靠性会随时间推移而严重退化。这篇论文深刻地指出,这种隐蔽的、随时间推移的退化现象类似于人类的 “Agent Aging(Agent 老化)”。如果不对其进行系统的“寿命工程(Lifespan Engineering)”评估与干预,表面上侃侃而谈的 Agent,其内核极有可能已经在执行过期的约束,或混淆了不同阶段的事实。
该论文从“系统可靠性工程”的视角,将评估维度从“单点能力快照”拉长到了“生命周期轨迹”,做出了以下开创性贡献:
为了直观感受“老化”是如何隐秘发生的,论文在附录 G.2 Tracing a Compounding Error 中展示了一个 修订老化(Revision Aging) 下潜在状态追踪(Latent State Tracking)崩溃的灾难性案例:
场景设定: S2 生活助理场景,测试模型为 DeepSeek-R1-7B,采用有损压缩策略(Lossy Compression),运行10个 Session。
事实注入与演进:
- Session 0: 设定用户的每月餐饮总预算为 $309。
- 后续 Sessions (动态演进): 用户在不同时间点告知 Agent 新的消费,例如 "spent $87 at Bella Notte","spent $68 on takeout"。
老化现象(Compounding Error):
由于采用了文本有损压缩,前序 Session 中具体的交易数额(Deltas)被压缩成了极其泛化的描述(例如:"User has dining preferences and a budget... used transport service"),具体的扣款金额丢失。当在后面的 Session 询问 “我这个月还剩多少餐饮预算?” 时,Agent 的回答发生了非单调的崩溃,误差达到了数百美元。
反事实探针揭示的真相:
评测工具强制注入了完全准确的底层检索事实(P2 / P3 Oracle Context)喂给模型,但即使把完整的 Delta 历史摆在面前,模型依然无法在长文本中正确还原累加余额(Accumulator Error 依然高达 ~125)。这证明了这并非单纯的“检索(Read)失败”,而是由于文本形态的 Memory 对于 “数值累加状态(Derived/Latent state)” 的表征能力存在根本性缺陷(Representational gap),依靠换更强的模型并不能解决这种老化,必须引入显式的 Typed-state(强类型状态)组件来防御。
长周期系统中的老化被严格定义为以下四类,分别对应内存流水线的不同压力:
为了让上述机制可度量,AgingBench 使用编程式图生成器构建了一个带时间戳的依赖拓扑 $\mathcal{G} = (\mathcal{F}, \mathcal{E}, \mathcal{I})$。生成的内容包含:Version chains(记录谁覆盖了谁)、Dependency edges(跨多 Session 的聚合推理要求)、Interference pairs(植入特征高度重合的干扰项)。
这是整篇论文最精妙的工程设计。将 Agent Memory 抽象为 $W$ (Write/Compress), $S$ (Store), $R$ (Read/Retrieve), $U$ (Utilize) 的循环状态机: $$M_{t+1} = U(M_t, H_t; \theta)$$ 当评测到某个 Probe 发生失败(即 Accuracy 不满分)时,如何知道是哪个环节搞砸了?作者设计了三个逐渐增强的测试条件进行 Ablation Ladder:
通过这三个探针的算术差值,将整体错误率解耦:
实验评估了包括 Llama-3.1, Qwen3系列, DeepSeek-R1系列, Gemma-4以及闭源 API(GPT-4o, Claude Opus/Sonnet/Haiku 等)在内的 14 款模型,运行跨越了长达 8 到 200 个 Sessions。
对于 LLM 工程落地而言,本文具有极高的前瞻指导价值。过去大模型社区对于“长文本”和“Memory”的评测大多停留在 “静态横截面(Static snapshot)”,例如“大海捞针(Needle in a haystack)”。
但本文作者敏锐地意识到,工程部署的 Agent 是一个具有“时间状态(Stateful over time)”的循环演进系统。每次交互后的记忆总结、定期的数据落盘,就如同人类新陈代谢一样,会在漫长的 Lifespan 中引入累积噪声(Compounding Noise)和状态漂移(State Drift)。
特别是其引入的反事实归因流水线(Counterfactual Diagnostic),在生产环境中极具启发性。它启示我们在构建企业级 Agent 时,必须从单一的“回答对错”上升到对系统的 Storage/Write/Read/Reason 组件分别设立埋点与独立监控。此外,作者在附录提到的针对 Revision Aging 引入的强类型辅助外挂(Typed-state overlay,将结构化状态从纯文本流中剥离维护),以及轻量级的运行时触发调优(Runtime Controller),更是为未来构建“防衰老(Anti-aging)”长寿命智能体提供了可落地的工程抓手。
作者:Rui Meng, Bhavana Dalvi Mishra, Jiefeng Chen, et al.
机构:Google Cloud AI Research
随着大语言模型(LLM)能力的跃升,我们正经历从“AI 助手”向“端到端自动化科研 Agent(AI Scientist)”的范式转变。近期涌现的自动化科研系统(如 AI Scientist、AutoResearchClaw 等)能够自动完成文献调研、提出假设、编写代码执行实验,并最终生成排版精美的 LaTeX 学术论文。
核心痛点:生成的幻觉(Generation)与验证的缺失(Verification)之间的结构性张力。
当前大多数评估方法(如自动化 Peer Review 评分或 Benchmark 榜单)仅停留在“表面呈现(Surface Presentation)”层面——即论文读起来是否通顺、逻辑是否看似合理、跑分是否高。然而,这掩盖了致命的可验证性失效(Verifiability Failures):
为了解决上述“金玉其外,败絮其中”的 AI 科研造假问题,Google Cloud AI Research 团队提出了三大核心贡献,将可验证性作为一等公民引入 AI 科研框架中:
通过对现有先进系统生成的 75 篇论文进行 CoE Audit,作者揭露了令人触目惊心的系统性作弊与幻觉案例(附录 A.1),极具启发性:

为满足 CoE 标准,ScientistOne 将整个科研生命周期重构为三个严格传递上下文的阶段,核心策略是“限制大模型的自由发挥,强制挂载溯源”。
传统的 AI 科研 Agent 往往让模型直接头脑风暴。ScientistOne 的 Problem Investigator (PI) 则从种子论文出发,调用 Semantic Scholar API 构建文献图谱,阅读高达 100 篇 PDF 原文,提取带有准确出处标记的结构化研究简报(Research Brief)。这就从根本上阻断了引用幻觉。
内置 Parallel Explore-Exploit (PEE) 编排器。在多个并行分支中,Agent 迭代生成代码方案,通过 Evaluator 评分,保留 Top-K 方案并进行消融实验。所有的 evaluator 分数、执行日志、消融测试结果都会被系统精确打包,作为第三阶段的唯一合法信息源。
抛弃了传统的“让模型一口气写完论文”的流程,采用五步走策略:
{source: "experimental_log.md:N"} 或 {cite: "key"}。论文在 ADRS (Automated Design of Research Systems) 系统的 5 个真实软硬件系统优化 Benchmark 上进行了评估,对比了 4 个主流基线:Sakana AI-Scientist v2、AutoResearchClaw (ARC)、DeepScientist (DS)、AI-Researcher (AIR)。为公平起见,全部统一使用 Gemini 3.1 Pro 作为 Backbone。
基线系统全军覆没,均暴露出严重的完整性问题,而 ScientistOne 表现出断层领先:
可验证性并未牺牲其基础能力。在 ADRS 上,ScientistOne 超越了所有人类专家基线,并在 Cloudcast 和 EPLB 两个复杂系统任务上取得了第一名。例如在 Cloudcast 中,Agent 自主创新结合了分数多商品流 LP 松弛与对数转换权重的启发式策略。
为了证明不仅在系统领域有效,作者直接将 未经修改 的 ScientistOne 测试于医疗图像、3D 感知 (MLE-Bench Kaggle 数据集) 和极具挑战的 Parameter Golf (约束 16MB 体积内训练最强 LLM)。
结果:ScientistOne 在 RSNA Brain Tumor 等复杂任务斩获 金牌 (Gold Medal),并在 Parameter Golf 中击败现有 SOTA (达成了 1.0600 BPB),引入了包含 Hessian-diagonal SVD 初始化等创新算法,而基线工具(如 DeepScientist)在这些硬核任务下完全崩溃。
中文标题:利用局部动力学规律在离线分层强化学习中提取可重用技能
作者:Sarthak Dayal*, Abhinav Peri*, Carl Qi, Claas Voelcker, Alexander Levine, Caleb Chuck, Amy Zhang
机构:UT Austin, OpenAI
📄 查看 ArXiv 原文在长视野(Long-horizon)任务中,分层强化学习(Hierarchical RL, HRL)通过引入时间抽象(Temporal Abstraction)被寄予厚望。HRL 的核心思想是发现并重用低层(Low-level)技能(Skills),从而让高层(High-level)策略专注于宏观规划。然而,在现有 HRL 范式中获取“真正可重用”的技能一直是个巨大挑战:
本文从局部动力学规律(Local Dynamics Regularity)的视角出发,提出了一种全新的表征学习框架,旨在让 HRL 重新掌握可重用的技能抽象。其核心贡献包括:
为了直观说明 CARL 如何使技能具备“跨域可复用性”,论文设计了多个诊断和可视化实验,以下列举最具代表性的案例:
CARL 的核心理念是通过离线数据中的“行为足迹 (Behavioral Footprint)”来近似理论上的局部动力学等价性。具体实现依赖于以下组件:
对于一条长度为 $H$ 的轨迹 $\tau = (s_0, a_0, s_1, a_1, \dots)$,提取一个 $k$ 步的状态-动作元组 $(s_t, \mathbf{a}_k, s_{t+k})$,其中 $\mathbf{a}_k = (a_t, a_{t+1}, \dots, a_{t+k-1})$。目标是学习两个编码器:
为了让局部动力学一致的 $(s, g)$ 具有相似表征,CARL 采用 InfoNCE 损失函数将 $(s, g)$ 和相应的 $\mathbf{a}_k$ 互相拉近:
$\mathcal{L}_{InfoNCE}\left(\{ (s^i, g_k^i, \mathbf{a}_k^i) \}_{i=1}^B ; \phi, \psi\right) = -\frac{1}{B} \sum_{i=1}^B \log \frac{\exp(\langle \phi(s^i, g_k^i), \psi(\mathbf{a}_k^i) \rangle / \tau)}{\sum_{j=1}^B \exp(\langle \phi(s^i, g_k^i), \psi(\mathbf{a}_k^j) \rangle / \tau)}$
在获得了这种富含“技能聚类”属性的表征 $\phi$ 之后,CARL 能够非常优雅地集成到如 HIQL 等分层 RL 算法中:
论文在 OGBench 离线目标条件 RL 基准(涵盖从低维导航到高维 6自由度机械臂和 Humanoid)上进行了全面测评:
antmaze-giant, humanoidmaze, scene)上成功率甚至提升了 10%~30%。以资深 RL 从业者的视角审视,本文的核心高光在于其对表征学习“靶点”视角的切换:
作者:Xiaohua Wang, Jiakang Yuan, Zisu Huang, Muzhao Tian, Changze Lv, Kaitao Song, Chen Tao, Xiaoqing Zheng
机构:复旦大学 (Fudan University)
构建能够维持连贯、安全且目标导向的多轮对话的LLM智能体,是当前社区的一大目标。为了对齐模型行为,强化学习(RL)被广泛应用。目前的RL范式主要分为两类,但它们在多轮对话场景中都面临根本性的局限:
论文中提供了一个极具代表性的 MATH-Chat(多轮数学辅导)对比案例,展示了静态训练模型与本文提出的校准交互式模型在长文本多轮交互中的行为差异。
任务:求带有嵌套平方根的函数 $f(x) = \sqrt{x^2 - 16} - 3$ 的定义域。
论文首先给出了误差复合的理论界限。假设对话视野为 $H$,单步策略误差为 $\varepsilon_i$,则静态RL的预期回报差界限为:
$$ |J(\pi) - J(\pi')| \le R_{max} \sum_{i=0}^{H-1} (H - i)\varepsilon_i $$
同理,如果模拟器存在单步误差 $\delta_i$(如“谄媚”行径),也会产生类似的二次方累积效应(定理3.2)。为了同时解决 $\Delta_t$ 和 $\delta_t$,作者设计了分为两阶段的 Calibrated Interactive RL 框架:
为克服基于Prompt的模拟器的缺点,研究人员将 Qwen2.5-7B-Instruct 作为一个可训练代理。利用拥有全局Ground Truth的Oracle模拟器生成高质量的多轮交互参考历史。然后通过行为克隆 (SFT) 最小化负对数似然 (NLL) 来对齐模拟器:
$$ \mathcal{L}_{\text{Calibration}}(\phi) = -\mathbb{E}_{(x, y^*, h_{real}, a_{real}) \sim \mathcal{D}} \left[ \sum_t \log \pi_\phi^{sim} (u_t \mid x, y^*, h_t, a_t) \right] $$
这一步至关重要,它使得模拟器学会在真实人类分布中提供反馈(例如,要求澄清,表达部分理解,或者坚持拒绝不正确的解决方案),从而封堵了策略模型进行 Reward Hacking 的漏洞。
冻结已校准的模拟器,并将基础策略模型 (Gemma-3-4B-IT) 放入该模拟环境进行闭环交互。生成完整的多轮轨迹($h \sim d^\pi_t$),从而让模型在自生成的分布中学习错误恢复。
实验评估了模型在 MATH-Chat(数学多轮推理)和 MediumDocEdit-Chat(协作文档编辑)上的表现。所有生成和评测均由独立的强模型(Qwen3-235B)担任裁判以确保公平。
本研究极大地丰富了多轮对话RL领域的理论理解与工程实践: