作者:Hanchen Li, Runyuan He, Qizheng Zhang, et al.
机构:UC Berkeley, Stanford University, Tensormesh, Gradient Network
近年来,Prompt Learning(提示学习/上下文学习) 成为大模型智能体(LLM Agents)自我进化的核心范式。不同于传统的权重微调(Weight Update),诸如 ACE 或 GEPA 等前沿方法采用 Generate-Reflect-Update 循环:智能体在推理时执行任务,对轨迹(Trajectories)进行反思(Reflect),提取任务相关知识,并将其浓缩为可复用的上下文资产(如 Playbooks、Memories 或 System Prompts),从而提升未来任务的准确率。
核心痛点:上下文过载(Context Overload)导致的“有损压缩”
随着多智能体并行部署成为标配,系统会瞬间产生海量的交互轨迹。现有的 Prompt Learning 方法多为单线程或低并发设计。当我们尝试进行朴素扩展(Naive Scaling)——即简单地增大 Batch Size,将成百上千条反思直接塞给一个聚合器大模型(Aggregator LLM)时,灾难发生了。
尽管现代 LLM(如实验中使用的 DeepSeek-V3.1)拥有高达 128K 的超长上下文窗口,能“装下”这些内容,但它们在处理如此密集的信息时会陷入上下文过载,表现为严重的有损压缩(Lossy Compression):LLM 会倾向于保留宽泛、通用的废话模式,而直接丢弃掉那些高度具体、能真正驱动下游任务准确率提升的“高价值见解”。这导致并发量越大,学习到的 Prompt 质量反而越差,彻底锁死了智能体通过大规模并发实现快速进化的路径。
Map-Shuffle-Reduce 范式的分布式 Prompt Learning 框架,能够无缝包裹现有的 ACE、GEPA 等算法。论文在附录和正文中对 ACE(Agentic Context Engineering)方法在 Formula(金融数值推理)数据集上的表现进行了深刻的剖析,直观展示了什么叫作“大模型的有损压缩”:
场景 A:串行学习(Batch Size = 1)
在逐条反思和更新的情况下,系统最终学习到的 Playbook 极度丰富,包含 264 条极具价值的规则。例如:
"[calc-00014] 对于期初年金(Cash flows at beginning of periods),使用公式 PV = C * [1 - (1 + r)^(-n)] / r * (1 + r)... 请仔细验证时间点。"
在推理时,这些高度具体的公式和边界情况处理策略(Edge-case handling)使得模型准确率高达 87.0%。
场景 B:朴素并发扩展(Batch Size = 100)
当把 100 条智能体的反思同时扔给 Aggregator 提取经验时,生成的 Playbook 迅速坍缩到了仅仅 21 条!那些高价值的、带有深刻业务洞察的具体策略全部丢失,只剩下了极为宽泛的“通用提醒”(Generic reminders)。
比如上述细粒度的年金公式完全消失,变成了诸如 "Avoid automatically converting decimal results to percentages..." 这种极其泛泛而谈的废话。结果导致模型准确率暴跌至 72.5%。
场景 C:应用 Combee 框架扩展(Batch Size = 40)
使用 Combee 进行高并发训练,最终产出的 Playbook 长度保留了 6,887 Tokens(对比之下,朴素并发扩展此时只剩下可怜的 526 Tokens)。Combee 成功拦截了信息流失,在实现 12 倍训练速度提升的同时,AppWorld 上的平均得分不仅没有下降,反而从串行的 58.1 提升到了 65.8。
Combee 的核心思想是将 Prompt Learning 视为一种类似分布式训练(Distributed Training)的过程,通过 Map-Shuffle-Reduce 范式解耦执行与聚合。
评测基准:涵盖智能体操作(AppWorld - API工具调用、Terminal-Bench 2.0 - 命令行与软件工程)以及垂直领域推理(FiNER - XBRL财务实体提取、Formula - 财务公式推理)。基础模型使用 DeepSeek-V3.1。
基线方法对比:串行 ACE/GEPA、朴素并行(Naive Parallel)、基于 Top-K 检索的聚合、基于摘要(Summarization)的聚合。
MapReduce 范式中的规约(Reduce)操作,展现了跨学科架构设计的优雅。作者:Hongyuan Yuan, Xinran He, Run Shao, Bolei He, 等
机构:中南大学、百度 (Baidu Inc.)
随着 OpenAI o1 和 DeepSeek-R1 的发布,Test-Time Scaling(测试时计算扩展) 结合带有可验证奖励的强化学习(RL),显著增强了 LLM 在数学、代码等复杂任务上的逻辑推理能力。这种范式鼓励模型生成超长的思维链(CoT)。
然而,长 CoT 带来了一个不可忽视的痛点:Overthinking(过度思考)。由于 RL 训练中的奖励信号通常是稀疏和延迟的(尤其对于极长轨迹),模型面临困难的信用分配(Credit Assignment)问题,从而衍生出低效的思考模式——生成大量对最终答案毫无贡献的“冗余中间反思”,这不但没有提高正确率,反而极大增加了推理阶段的 Token 成本(Inference Cost)。
作者将这种冗余反思归结为两种典型模式:
为了精准剔除无效的冗余反思并保留核心逻辑结构,本文提出了一种基于图的 CoT 优化框架,核心贡献包括:
论文在 AIME 数学场景(求解 Aya 步速与咖啡店停留时间问题)展示了非常直观的对比(对应图7):
Base 模型原始 CoT(极度冗余):
模型在推导出方程解 $s=2.5$,所需时间 24 分钟后,陷入了典型的 Repetitive Reflection:
"... Let me verify with equation 2 to ensure consistency... matches, so that's correct... But let me check if the problem is expecting the answer in hours or minutes... Wait... 3 hours is 180 minutes, plus 24 minutes is 204 minutes... Wait... let me make sure that the coffee shop time remains 24 minutes in all cases... Wait... in the first scenario... in the second scenario... Alternatively, maybe I can think of it another way..."
模型在已经得到正解后,反复进行无意义的自检、单位换算怀疑以及替换方法论证,浪费了数百个 Token。
经过 Graph-Pruning 优化的推理表现:
在模型经过该图剪枝数据和 3-stage 训练后,遇到同样的问题,其输出极其干脆:
"... Solve the quadratic equation and discard the negative solution to get s=2.5... Plug s=2.5 back... Let me check this with equation (2) to ensure consistency... this checks out. Now, the problem asks for the total time... 3 hours + 24 minutes = 204 minutes. Therefore, the final answer is \boxed{204}."
优化后的模型有效抑制了长尾的“Wait”节点和自我怀疑,验证一次即收敛,保留了最核心的主干逻辑路径。
给定问题 $q$ 及其思维链 $r = [c_1, \dots, c_n]$,算法逐步构建图 $G_t = (V_t, E_t, \ell_t)$。借助一个外部 LLM(如 Qwen-turbo),判断新 Chunk $c_i$ 应当 insert(作为新推理节点)还是 merge(合并至现有节点)。每个节点打上两种标签:
有向无环图中,定义节点后代数量为 $B(v)$,相对深度为 $d(v)/d_{max}$。两种剪枝规则如下:
review 节点的 $B(v) < k$(默认 $k=2$)时,说明该反思节点只引发了一个极窄的分支,未发展为主干,予以剪除(解决 Indiscriminate Reflection)。review 节点出现较晚,相对深度 $> m$(如 $m=0.9$)时,说明它大概率是后验确认(Post-answer backtracking),不提供新知识,予以剪除(解决 Repetitive Reflection)。剪除后,利用拓扑排序将图重新线性化,得到精简版轨迹 $\tilde{r}$。
实验配置: 基座模型选用 DeepSeek-R1-Distill-Qwen-1.5B 及 7B。在五大数学推理评测集(AIME24, AIME25, AMC23, OlympiadBench, MATH500)上与 O1-Pruner, TokenSkip, AdaptThink 等近期高效推理 Baseline 开展对比。
核心性能提升:
消融实验与有效性验证(Does Pruning Preserve Logic?):
从大模型从业者角度来看,本文的设计极其优雅,深刻抓住了当前 O1/R1 类模型的缺陷本质:
作者:Varun Pratap Bhardwaj
机构:独立研究员,系统架构师 (Independent Researcher, Solution Architect, India)
随着大语言模型(LLM)智能体技术的爆发,当前的Agent生态面临极其严重的碎片化(Fragmentation)问题。开发者不得不在各种互不兼容的框架(如 AutoGen、CrewAI、MetaGPT、LangGraph)之间做出选择,这引发了以下核心痛点:
针对这一痛点,作者提出了“Universal Type-C”设计哲学,并开发了 Qualixar OS。正如USB Type-C统一了充电、数据和视频接口,Qualixar OS旨在提供一个通用的运行时(Runtime),通过统一的命令协议将异构的多智能体系统无缝连接与编排。
Qualixar OS 构建了一个宏大的生产级Agent编排体系,其核心贡献多达12项,主要包括:
为了直观展示 Qualixar OS 的12步编排流水线(12-Step Orchestrator Pipeline),论文在 Section 3.1 给出了一个极其典型的开发场景:
输入提示词(User Prompt): "Build a REST API for user management."(构建一个用户管理的 REST API)
Qualixar OS 执行流转:
code。随后 Forge 引擎动态组建了一个 3-Agent 的顺序 Pipeline 拓扑,角色分配为:架构师(Architect)、实现者(Implementer)、审查员(Reviewer)。Code Profile 评估产出(考察正确性、安全性、性能等)。Debate(辩论) 模式,让两个具有不同侧重点的Coder Agent互相辩论以优化性能。系统的技术架构极具工程深度,划分为表现层、传输层、编排层、执行层、基础设施层与持久层。核心技术亮点包括:
相比于目前业界常见的链式(Sequential)和 DAG,Qualixar OS 创新性引入了以下执行模式:
为了在成本、质量、延迟间取得平衡,系统设计了嵌套的路由引擎:
这是整篇论文中最引人注目的学术结合点。针对“LLM作为裁判(LLM-as-a-judge)”容易遭受度量作弊的问题:
作者展示了非常坚实的工程规模与严谨的评估态度:
Forge→Judge→RL 自进化闭环时,作者十分诚实地报告称:目前的简化模拟环境下,经过3次迭代,系统得分实际上出现了轻微下滑(从0.564 降至 0.519),无显著统计学意义 ($p=0.578$)。这提醒业界,基于闭环的自我进化需要更复杂的全量流水线支持,而非简单叠加 RL 逻辑。作者 / 机构:Yuanfu Sun, Kang Li, Dongzhe Fan, Jiajin Liu, Qiaoyu Tan (NYU Shanghai, New York University, Tsinghua University)
论文链接:📄 查看 ArXiv 原文
在当前的LLM演进路线中,Agentic(智能体化)能力(如迭代检索、工具调用、决策规划)正成为突破模型静态参数知识瓶颈的关键。然而,现有的Agentic框架(包括传统的RAG及最新的Agentic Search)几乎都将外部环境视为扁平的非结构化文本 (Unstructured Text),完全忽略了现实世界数据中普遍存在的拓扑依赖关系 (Topological Dependencies)。
在引文网络、社交平台、电商生态等核心领域,数据以文本属性图 (Text-Attributed Graphs, TAGs) 的形式存在,其真实语义由文本内容与图拓扑结构的交织共同决定。针对图结构数据的推理,现有技术栈面临以下三大困境:
基于此,作者提出核心拷问:能否将Agentic Learning范式扩展到图结构环境中,实现动态、拓扑感知的推理?
AgentGL在推理时的表现非常接近人类图数据分析师“提出假设-搜证-验证-终止”的思考流。以下是两个典型任务中的具体轨迹拆解:
1-hop 工具查询经常一起购买的商品。2-hop 观察更广泛的共现购买图谱。pagerank 获取全局显著节点对齐品类边界。<answer>Tripods & Monopods</answer>。1-hop 工具查询它们共同的直接邻居。yes。作者打破了RAG扁平化的检索逻辑,为LLM设计了包含4个原语的图探索工具箱,覆盖“局部 vs. 全局”以及“拓扑 vs. 语义”的探索维度。在召回节点后,使用一种融合了语义和查询相关性的打分函数进行排序:
$$s(n) = \cos \left(\mathbf{h}_n, \lambda_r \mathbf{h}_Q + (1 - \lambda_r)\mathbf{h}_x\right)$$
为了让模型在图上“学会走路并知道何时停下”,作者采用了Critic-Free的RL算法(如GRPO或REINFORCE++),将训练分为巧妙的两个阶段:
Stage 1: Policy Bootstrapping (策略自举阶段)
此阶段目标是让LLM掌握复杂的工具使用。通过设计稠密的Reward,尤其是引入覆盖度奖励 $r_{\text{COV}}(\tau)$,强制模型探索所有的可用工具,避免早期的模式崩溃(如一直不搜索或只用一个工具):
$$R(\tau) = r_{\text{FMT}}(\tau) + r_{\text{ACC}}(\hat{y}, y) + r_{\text{COV}}(\tau)$$
Stage 2: Mitigating Search Overuse (缓解搜索滥用)
掌握工具后,模型往往会陷入“穷举搜索”的低效状态。此阶段引入搜索约束型思维 (Search-Constrained Thinking):
不同于一般推理任务依赖昂贵的Rollout或人类标注来划分难度,图数据具有天然的拓扑属性来代理“学习难度”。作者针对NC任务,巧妙利用威尔逊下界 (Wilson Lower Bound)修正邻居标签一致性,并结合节点度数惩罚,构建了无成本的难度代理函数:
$$S_{\text{NC}}(v) = \frac{\hat{p}_v + \frac{z^2}{2d_v} - z \sqrt{\frac{\hat{p}_v(1-\hat{p}_v)}{d_v} + \frac{z^2}{4d_v^2}}}{1 + \frac{z^2}{d_v}} + \eta \log(1 + d_v)$$
基于此,模型实现了从Easy(结构清晰的Hub节点)到Hard(低一致性、高噪声孤立点)的平滑过渡,极大加速了RL的收敛并降低了波动。
AgentGL为解决LLM如何处理复杂关联数据提供了一个极其优雅的范本,其亮点值得工业界借鉴:
👥 作者:Tianle Chen, Deepti Ghadiyaram
🏛️ 机构:波士顿大学 (Boston University)
传统的排版攻击(Typographic Attacks)局限于视觉:过去的研究已经充分证明,视觉-语言模型(VLM)极易受到视觉排版攻击的影响(例如,在苹果的图片上贴一张写着“iPod”的纸条,模型就会将其识别为iPod)。这类攻击揭示了模型对文本信息的过度依赖以及鲁棒性的缺失。然而,这类研究主要将“排版/文本注入”视为一种视觉伪影(Visual Artifact)。
当前多模态大模型(MLLMs)的盲区:现代视听全能模型(如 Qwen-Omni, Gemini)通过三个不同的模态流来处理语义信息:文本提示(Text Prompt)、语音音频(Spoken Audio)和屏幕上的视觉文本(On-screen Visual Text)。尽管这三种模态可能传递完全相同的语义,但它们在模型内部经历的是不同的感知路径。
核心痛点:在当前的对抗鲁棒性研究中,音频/语音作为一种语义注入的攻击面被严重低估了。相比于画面中突兀的文字叠加,视频中的旁白或背景对话(语音)在自然场景中极为常见。攻击者能否通过在音频中注入误导性语音(Audio Typography),实现对模型视听推理过程的跨模态劫持?多模态协同攻击的破坏力究竟有多大?
论文中展示了一个典型的多模态语义劫持场景:
本研究的重点是基于语音(Speech-based)的攻击,而非通用的音频对抗噪声,因为语音自带强语义通道,且完美伪装成视频旁白。
实验设置:
核心数据与结论 (基于 Table 1):
1. 音频:一种比视觉更隐蔽且天然的攻击向量 (Stealthy Attack Vector)
视觉排版攻击(如在画面上贴文字)在现实应用中往往显得极其突兀和不自然。而音频(尤其是语音)天然就是视频的组成部分(旁白、对话、背景音)。由于当前 MLLMs 的预训练严重依赖基于转录(Transcription-based)的监督信号,模型已经被训练成了“极度信任语音语义”的形态,这使得音频成为一个高维且隐蔽的安全缺口。
2. 暴露了模态对齐(Modality Alignment)的深层脆弱性
当前模型在处理跨模态冲突(Cross-modal disagreement)时显得极其脆弱。实验证实,即使是先进的 Omni 模型,在遇到视听语义矛盾时,依然缺乏交叉验证能力,往往会被语音文本中的显式语义直接接管逻辑链路。
3. 对多模态智能体(Agent)及内容审核的警示
这项研究不仅在学术界具有重要的分析价值,对工业界的安全落地更敲响了警钟。由于多模态协同攻击的成功率极高,攻击者完全可以利用“表面无害但带有特定指令的音频”绕过多模态内容过滤系统(越狱 / Jailbreak),这为未来端到端视听交互模型的安全对齐(Safety Alignment)提出了全新的挑战。