中文标题:BALAR:一种面向主动推理的贝叶斯 Agent 外循环
作者:Aymen Echarghaoui, Dongxia Wu, Emily B. Fox
机构:Stanford University
这篇论文解决的是一个很典型但一直被低估的问题:当用户问题本身信息严重不足时,LLM 系统到底应该如何“主动地问对问题”,而不是被动地继续胡乱推理。传统的 ReAct、ToT 或纯对话式 agent,大多只擅长在已有信息上做规划,却不擅长显式建模“不确定性来自哪里、下一问能消掉多少不确定性”。
作者把这个问题 formalize 成 latent state inference:用户当前任务背后存在一个隐变量状态 $\theta$,系统必须通过若干轮高价值澄清问题,把 posterior belief 逐步收缩到足够确定的区域。这种视角对医疗问诊、侦探推理、客服定位问题都非常自然。
输入案例:用户只说“我最近一直头痛”。这在临床上几乎没有可直接诊断的信息量。
BALAR 不会立刻给出诊断,而是先在 sleep-time 阶段构造潜在维度,例如:血管性/非血管性、偶发/慢性、是否伴随 autonomic features。然后用互信息选择最高价值问题,比如“疼痛是否伴随搏动感?”
输出路径:如果用户回答“像脑子里在打鼓一样一阵一阵地疼”,系统会把自由文本 soft-map 到预定义选项分布,再做 Bayesian update,使 vascular headache 的 posterior 快速上升。若剩余问题预算不足以区分 migraine 与 cluster headache,系统再动态增加新维度继续问。

初始 belief 记为 $\pi_0(\theta)$。第 $t$ 轮的熵为:
$$ \mathbb{H}(\pi_t) = - \sum_{\theta \in \Theta} \pi_t(\theta) \log \pi_t(\theta) $$
对候选问题 $(q,u)$,系统计算其带来的预期信息增益:
$$ I_t(\theta;Y\mid \mathcal{H}_t;q,u)=\mathbb{H}(\pi_t)-\mathbb{H}(\theta\mid Y,\mathcal{H}_t;q,u) $$
真正高明的点在于:用户回答不是结构化 label,而是自由文本,因此作者用 LLM 做 soft semantic alignment,把回答映射成 answer-option distribution,再进行 soft Bayesian update。这样既保留了数学上的 belief update,又适配真实对话形态。
在医疗诊断任务 iCraft-MD 上,BALAR 和 Oracle 之间的差距已经被大幅压缩,说明高质量澄清问题本身几乎等价于“补采关键观察”。更重要的是,移除 EXPAND 后性能明显下降,表明固定 slot/schema 的 dialog state tracking 对复杂开放问题确实不够。
中文标题:PRISM:面向序贯决策的交错式感知-推理框架
作者:Mohamed Salim Aissi, Clemence Grislain, Clement Romac, Laure Soulier, Mohamed Chetouani, Olivier Sigaud, Nicolas Thome
机构:Sorbonne Université / CNRS / Inria / Hugging Face 等
Embodied agent 里一个老问题是:VLM 看到了图像,但没抓住任务真正相关的信息;LLM 擅长规划,但拿到的是一段目标无关、噪声很大的视觉描述。于是系统出现 perception-reasoning-decision gap:不是 planner 不会想,而是 perception 根本没把该看的地方讲清楚。
直接把 goal 塞给 VLM 虽然能让它“更聚焦”,但又容易 hallucinate 出任务想要的对象。PRISM 的出发点非常对:不要让 VLM 一次性给完答案,而是让 LLM 先读初始描述,再反过来追问 VLM 缺失的视觉细节。
输入案例:任务是“把 CD 放到餐桌上”。VLM 初始描述只会说“桌子上有杯子、电脑,背景有墙”,完全没有告诉 agent 当前视野有没有 CD、有没有 dining table、路径是否可达。
PRISM 中,LLM 会立刻追问:附近是否能看到 CD?能否看到通往餐桌的路径?VLM 分别回答后,LLM 再 synthesize 出一个更适合决策的 compact description。这样 agent 不会在错误的 table 上瞎操作,而是知道必须先探索环境。

给定观测 $o^t$,VLM 先生成初始描述 $d_i^t$,LLM 基于目标 $g$ 产生问题集 $Q^t$,VLM 对每个问题回答 $\lambda_j^t$,然后 LLM 生成最终状态描述 $d_f^t$:
$$ d_i^t = \mathcal{V}_p(d_p, o^t), \quad Q^t = \mathcal{R}(d_i^t, g), \quad d_f^t = \mathcal{R}(d_i^t, Q^t, \Lambda^t) $$
之后策略网络按自回归方式预测动作:
$$ \pi_\theta(a_i \mid g,\mathcal{H},d_f^t)=\prod_{j=0}^{|a_i|} P_{LLM}(w_j \mid g,\mathcal{H},d_f^t,w_{ 从工程角度看,作者最聪明的设计不是更大的模型,而是让 perception output 变成可以被 RL 稳定优化的 textual state representation。
在 ALFWorld 上,PRISM 相比单体 VLM 或简单拼接 QA 的方案有非常明显的提升;在 R2R 上也优于固定问题模板方法。这说明“动态生成问题 + 语义融合”比把多轮 QA 原样塞回 prompt 更有效。
中文标题:面向金融文档问答的 Agentic RAG 框架
作者:Yang Shu, Yingmin Liu, Zequn Xie
机构:Zhejiang University
金融文档 QA 难点不只是 retrieval,而是 multi-step numerical reasoning + heterogeneous evidence alignment。企业年报里同一个问题往往横跨表格、正文、脚注和不同 fiscal year;普通 RAG 的一次检索根本不够,而且 LLM 的心算对财务问题尤其不靠谱。
所以本文不是简单做“更强检索器”,而是完整设计了一个 financial agent loop:复杂问题要拆解、要重写 query、要执行代码、要做 cross-evidence verification,还要控制 token 成本。
案例 1:问 2018 到 2019 所得税 provision 的百分比变化。第一轮检索拿对了 2019 数字,却拿错了 2018 的来源口径。Self-verifier 发现一个数来自主表、另一个来自附注,触发 query refinement,再次检索后得到正确配对证据。
案例 2:问 operating expenses 的 CAGR。普通 CoT 容易把 CAGR 当平均增长率乱算;PoT 则生成 Python:
cagr = (v_end / v_begin) ** (1/n) - 1
让计算回到确定性执行环境,这是金融场景里非常必要的 architectural choice。

检索器采用对比学习损失:
$$ \mathcal{L}_{\text{contrast}} = -\log \frac{e^{\mathrm{sim}(e_q,e_{d^+})/\tau}}{e^{\mathrm{sim}(e_q,e_{d^+})/\tau} + \sum_i e^{\mathrm{sim}(e_q,e^-_i)/\tau}} $$
最终答案接受条件由 verifier 决定:
$$ v_k = \begin{cases}\text{ACCEPT}, & v_{\text{suff}} \land v_{\text{num}} \land v_{\text{cross}} \\ \text{REJECT}, & \text{otherwise} \end{cases} $$
其中 $v_{\text{suff}}$ 表示证据充分,$v_{\text{num}}$ 表示数值过程可追溯,$v_{\text{cross}}$ 表示跨数据源口径一致。这个设计比很多只会“再搜一次”的 agent 方案成熟得多。
在三大金融 QA benchmark 上,FinAgent-RAG 都明显优于对照组。更重要的是,自适应路由在只带来轻微精度损失的情况下大幅降低 token 成本,这一点对真实生产系统比 leaderboard 分数还重要。
中文标题:从历史到状态:面向 LLM Agent 的固定上下文技能学习
作者:Haoyang Xie, Xinyuan Wang, Yancheng Wang, Puda Zhao, Feng Ju
机构:Arizona State University
LLM agent 的一个根本性工程瓶颈,是每走一步都在把历史轨迹、技能说明、工具上下文不断塞回 prompt,导致 token 成本暴涨,而且越长越不稳。对 personal agent 尤其糟糕:长历史既贵,又可能把隐私材料持续送去云端。
这篇论文的核心观点很强:对于重复型 workflow,真正应该保留在上下文里的不是越来越长的 history,而是一个小而稳定的 task state;至于程序性技能知识,应该迁移进权重而不是留在 prompt 里。
以 WebShop 为例,传统 ReAct 到第 5 步时 prompt 里通常已经堆满了搜索词、翻页历史、看过的商品与冗长说明;而本文方法只保留三类输入:任务目标、当前观测、以及 tracker 渲染出的 state block,例如:
Current phase: browse_resultsQueries tried: noneItems inspected: none
这种状态表示使模型无需回读全历史,就能判断下一个动作是继续搜索、点击商品还是切换筛选器。

tracker 递推更新内部状态:
$$ m_t = \mathrm{Update}_k(m_{t-1}, a_{t-1}, o_t), \quad b_t = \mathrm{Render}_k(m_t) $$
模型每步输入写成:
$$ x_t = \mathrm{Format}(g, o_t, q_t, b_t), \quad |x_t| \le B_k $$
SFT 阶段优化下一动作预测:
$$ \mathcal{L}_{SFT}^{(k)} = -\sum_{(x_t,a_t^*)\in\mathcal{D}_k} \log p_{\theta_0,\phi_k}(a_t^*\mid x_t) $$
强化学习阶段则用环境奖励与子目标进度奖励联合驱动,这种“deterministic tracker as reward scaffold”的设计非常适合真实 agent 系统。
论文展示了非常夸张的 token 节省:相对标准 ReAct,每步 prompt token 可下降 2–7 倍,整条 episode 甚至能省到 10–14 倍。同时性能并没有因此牺牲,反而在多个环境上达到或超过强基线。
中文标题:多智能体 AI 系统中的授权传播:身份治理即基础设施
作者:Krti Tallam
机构:Kamiwaza AI
这篇论文不是典型的算法 paper,而是一篇很有分量的 system/security position paper。作者指出,业界把 agent 安全问题过度收缩成 prompt injection,是一个危险的误判。即便 prompt injection 被完美解决,多 agent 系统仍然存在一个更底层的问题:authorization propagation。
当多个非人类主体跨工具、跨数据边界协作时,权限不是静态附着在某个 API 上,而是在整个 workflow DAG 中流动、衰减、聚合和过期。传统 RBAC/ABAC/ReBAC 在这里都不够。
论文用 due-diligence workflow 举例非常到位:分析师请求总结影响公司估值的责任风险,orchestrator 调 retrieval agent 抓取财务室文档与限制级备忘录,再交 synthesis agent 汇总。问题在于,agent 也许分别有权读取这些源,但未必有权把它们合成成一个跨边界输出,更未必有权向最终用户暴露“哪些敏感信息被排除了”。
作者还列举了生产环境中的非对抗性故障:session 绑定失败后悄悄回退到更宽权限、delegation 绑定名义成功但实则丢失作用域、基础设施层无法证明容器身份等。这些都不是 prompt injection,却足以导致严重越权。
论文将系统抽象为主体、资源与工作流图,并强调聚合结果本身也可能构成新的授权对象。给定资源 $d_1,\dots,d_j$ 与合成函数 $f$:
$$ f(d_1, d_2, \dots, d_j) \to r $$
即便每个输入单独可访问,也不代表输出 $r$ 自动可访问;这正是 aggregation inference 的本质。另一方面,temporal validity 指出权限检查不能只发生在 initiation time,而必须覆盖 access-time / completion-time,甚至支持更细粒度的 revocation 机制。
这篇文章没有传统 benchmark,而是整合近期企业安全报告和新系统论文。价值不在于打榜,而在于给出了一个很清晰的系统设计 checklist:如果你的 multi-agent platform 还在依赖 ambient credentials、静态 service account、入口处一次性鉴权,那基本已经落后于问题本身。