Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents
Squeez:面向代码智能体的任务条件工具输出剪枝
作者:Ádám Kovács
机构:KR Labs
链接:📄 查看 ArXiv 原文 | 💻 GitHub 仓库
🔍 研究背景与痛点 (Background & Pain Points)
当前主流的 Coding Agents(如 SWE-agent, Claude Code 等)在执行代码修复和问题诊断任务时,严重依赖不断与工具链交互。这通常会产生大量且冗长的工具观察结果 (Tool Observations),包括 grep 搜索结果、长文件读取、复杂的堆栈跟踪、构建日志 (build logs) 等。在这些动辄上万 token 的混合格式输出中,真正对 Agent 下一步决策有用的“信噪比”极低。
这种现象带来两个核心痛点:
- Context Window 的严重浪费与计算成本高昂:Agent 每次规划决策都需要把整个沉长的工具输出重新吞咽一遍。
- 注意力分散导致幻觉:现有的 Prompt Compression 方法(如 LLMLingua)或传统的 RAG 文档检索技术(如基于 BM25),通常假设输入是自然语言散文,对于这种代码、日志、元数据交织的 Mixed-format(混合格式) 工具输出,往往表现不佳,极易切碎关键的上下文逻辑。
🌟 核心贡献 (Core Contributions)
本文没有去卷更大参数量的 Agent 底座,而是务实地提出了一个专用于 Agent Pipeline 中的前置过滤模块——Squeez。其核心贡献如下:
- 定义新任务 (Task-Conditioned Tool-Output Pruning):正式提出了“基于任务条件的工具输出剪枝”任务。给定一个明确的查询需求 (Query) 和一段原始工具输出 (Tool Output),要求模型返回最精简的、逐字原文 (verbatim) 证据块供 Agent 消费。
- 构建异构数据集:发布了一个包含 11,477 个样本的 Benchmark,数据来源既包含真实世界 SWE-bench 中的仓库交互(如 Python 报错),也通过合成数据补充了多生态系统(TypeScript, Go, Rust, Docker, Kubernetes 等)的各类日志,甚至刻意构造了负样本 (Negative Samples)。
- 训练并开源轻量级模型 Squeez-2B:利用 Qwen 3.5 2B 模型配合 LoRA 进行微调。实验证明,该模型能在剪去 92% 输入 Token 的极端压缩率下,依然保持 0.86 的 Recall (召回率),不仅碾压了 18 倍体积的 Qwen 3.5 35B A3B,也远超各类启发式算法。模型可作为独立的 vLLM 接口或 CLI 管道工具极低成本地插入现有 Agent 工作流。
💡 具体案例剖析 (Case Study)
为了直观感受 Squeez 是如何工作的,我们来看一个从 kubectl 容器日志中提取关键信息的绝佳案例:
📥 输入 (Input):
- Query: "Find the block showing the OOMKilled reason and exit code for the analytics-worker container." (找出 analytics-worker 容器由于 OOMKilled 被杀死的具体原因块和退出码)
- Tool Output: 长达 250 行的
kubectl 原始输出。
📤 Squeez-2B 提取的片段:
26: Reason: OOMKilled
27: Exit Code: 137
分析: 原本让 LLM 吞下 250 行的无用状态和重启信息,现在只留下了精准的 2 行关键证据。这极大减轻了后续 Agent 分析时的上下文负担。
此外,在对比基线模型时,Squeez-2B 展现出了强大的领域特化优势 (参考 Table 5 案例):
- 处理“空集” (Negative Samples):面对“查找 numpy 版本冲突(但实际日志里并没有)”的 Query,Squeez-2B 能果断输出空集。而 Zero-shot 的 Qwen 35B 会“自作聪明”地生成解释性文字("No relevant lines found..."),未微调的 2B base 则会随便抓取无关的数据库报错。
- 精准截断:在提取
service_log 里的 TLS 握手失败错误时,大模型 Kimi K2 为了追求压缩率,截断了真实的错误堆栈,而 Squeez-2B 能完整保留这连续的 5 行 failure block。
⚙️ 方法论与技术实现 (Methodology)
1. 任务的数学化定义:
输入是一个元组 $(q, o)$,其中 $q$ 是具体的工具导向查询 (tool-aware extraction query),$o$ 是原始的一段工具观察结果。模型的输出目标 $Y$ 是基于原文本的连续切片 (contiguous spans) 集合:
$$ Y = \{(s_1, e_1), \dots, (s_k, e_k)\} $$
这里的核心要求是Verbatim Extraction(逐字提取),不允许模型进行抽象总结或重写,因为代码 Debug 过程中重写常常会丢失关键的符号、变量名甚至造成幻觉错误。
2. 两阶段教师标注流水线 (Two-stage Teacher-Labeling Pipeline):
作者使用了强大的 openai/gpt-oss-120b 作为 Teacher 模型构建监督数据:
- Step 1 构造 Query:Teacher 看到 issue 全貌和 tool output,但不直接写修复代码,而是写出一个“用于下一步的局部信息检索 Query”(例如:“找出报错块中的那段栈信息”)。
- Step 2 提取 Span:根据刚刚生成的 Query,对编号后的工具输出进行精细的行级提取。生成的正样本和不匹配组合出的负样本最终被包装在
<relevant_lines> 标签中作为微调目标。
3. 模型选择与微调细节:
采用 Qwen 3.5 2B,因为其在推理、代码能力上表现优异,且体积小到足够无缝嵌入现有业务系统。使用了 LoRA 进行了 3 个 epoch 的微调(rank 未特别指出,通常为 8 或 16),最重要的是将 max sequence length 设置高达 20,000,以确保能吞咽大体量的单一观察结果。学习率 $2 \times 10^{-4}$,Batch Size 为 8(单张 A100 80GB 即可跑满)。最终在部署时 LoRA 参数合并回底座,使用 vLLM 进行极速推理。
📊 实验设置与结论分析 (Experiments & Results)
在经过手动校验的精质 618 样本的测试集上,指标主要考察高 Compression(压缩比) 下的 Recall(召回率)。为什么是 Recall?因为对于 Agent 来说,在剪去 90% 废话的同时,宁愿多留一行多余代码,也绝不能丢掉包含 Bug 诱因的那行 traceback。
- 超越大厂 API 的降维打击: Squeez-2B 在移除了 92% 的输入 Token 的同时,达到了 0.86 Recall 与 0.80 F1。作为对比,未经微调的 Qwen 3.5 35B A3B Recall 仅为 0.75,而以长文本著称的 Kimi K2 尽管达成了 94% 的压缩,但 Recall 断崖式下跌至 0.53,遗漏了大量核心信息。
- 为何传统启发式算法惨败? 实验对比了经典的 BM25 (保留 Top 10% 分数段)、First-N 和 Last-N。BM25 的 Recall 竟然低至惊人的 0.22。这是由于 Tool Output 与普通文档不同,其关键报错或线索不一定与 Query 存在高度词汇重叠 (Lexical Overlap),且位置极度随机(可能在中段,可能在末尾)。
- Zero-Shot 模型的典型败局: 大参数模型在处理包含大量重复性日志(如大量成功的测试结果后跟着一个失败结果),或者 git 历史时,很容易出现“语义偏移误选”,即选到了格式相似但不相关的区块上。Squeez-2B 因为吃透了专用数据的分布,有效免疫了这种现象。
💡 关键技术亮点分析 (Key Highlights)
对我们 LLM 落地从业者的启发,我认为主要有以下三点:
- Small Models for Dirty Work(让小模型做脏活累活):在 Agent 环路中,不要总是让 70B 或 API 模型既做逻辑推理又做数据清洗。像这种 Context Pruning 任务,完全可以低成本剥离,由专精微调的 2B-7B 模型以“高速过滤阀”的角色前置完成。极大节省 Token Cost 和请求延迟。
- Verbatim(逐字)哲学在代码场景的重要性: 摘要式模型(Abstractive Summarization)在编程任务中是毒药。代码上下文必须 100% 忠实原文。使用
<relevant_lines> 标签和严格行号映射的微调方式,强行约束模型进行抽取式问答(Extractive QA),是避免幻觉的最佳工程实践。
- 负样本的引入是神来之笔: Agent 常常面临搜索无果的工具调用。本文刻意构造了 575 个负样本并将其纳入训练集,直接赋予了模型学会说“这里没有你要的东西”(返回空)的能力,解决了此前大模型喜欢用连篇废话强行解释的通病。
Context-Value-Action Architecture for Value-Driven Large Language Model Agents
基于上下文-价值观-行动架构的价值观驱动型LLM智能体
作者:TianZe Zhang, Sirui Sun, Yuhang Xie, Xin Zhang, Zhiqiang Wu, Guojie Song
机构:北京大学(通用人工智能全国重点实验室、元培学院、心理与认知科学学院等)、北大-武汉人工智能研究院
📄 查看 ArXiv 原文
📍 研究背景与痛点 (Background & Pain Points)
在构建类人智能体(Human-like Agents)时,现有的基于大语言模型(LLM)的方法普遍存在严重的**行为僵化(Behavioral Rigidity)**和**刻板印象(Stereotyping)**问题。然而,这一致命缺陷往往被当前业界流行的“LLM-as-a-judge”评估范式所掩盖。
- 评估范式的自指偏见(Self-referential bias): 评测模型(Judge)和生成模型共享相似的预训练分布偏见。Judge倾向于给那些“极其符合刻板设定”的夸张回答打高分,反而惩罚了那些具备人类真实微妙性(Subtlety)的复杂回答,形成了一个不断强化的偏见闭环。
- 反直觉的推理坍塌(Mode Collapse in Reasoning): 现存的Prompt-Driven(提示驱动)方法试图通过Chain-of-Thought (CoT) 等心理学推理链路来引导模型。但作者通过实证发现:**随着提示驱动推理强度的增加,智能体的行为保真度不仅没有提升,反而加剧了价值观的极化(Polarization)**,导致群体多样性方差断崖式下跌,变成了只会输出极端刻板行为的“纸片人”。
🚀 核心贡献 (Core Contributions)
为了从根本上解决LLM智能体由于模型内生偏见导致的极化和僵化问题,本文提出了Context-Value-Action (CVA) 架构,并在真实人类行为数据集上进行了大规模验证。
- 解耦式的CVA架构(Decoupled Architecture): 引入心理学中的S-O-R(刺激-有机体-反应)模型与Schwartz人类基本价值观理论,将人类行为建模为动态的价值观激活过程。CVA架构明确将“行动生成”与“认知推理”解耦,彻底避免了LLM自校验(Self-verification)带来的偏见放大。
- 独立训练的价值观验证器(Value-Driven Verifier): 抛弃LLM直接作为裁判的做法,引入一个在真实人类交互轨迹上训练的判别器(Verifier),用于显式量化行动候选与动态价值观激活的一致性,从而在推理阶段引导模型选择最符合真实人类分布的行动。
- 提出CVABench大规模基准: 构建了包含超过110万条真实世界人类交互轨迹(涉及15,571名真实用户)的评估台,跨越社交媒体评论(Yelp)、对话论述(Reddit)和时空移动(Foursquare)三大领域,提供绝对客观的Ground Truth评估。
🔍 具体案例剖析 (Case Study: The Illusion of LLM Reasoning)
为了直观展示提示词驱动的LLM在模拟人类时的“僵化”现象,作者给出了一个极具代表性的引例(Lead-in Case Study)。
场景设定: 角色扮演一名居住在城市的IT工程师。价值观设定:高自我决定论(Self-direction: 0.9),中等享乐主义(Hedonism: 0.4 到 0.6 不等)。
上下文 (Context): “你刚结束了漫长的一天debug工作。你一整天都坐着没动,午餐吃了薯片,晚餐吃了一个巨大的汉堡。你感到头昏脑涨且压力很大。请选择你今晚的活动:1) 去健身房 2) 吃夜宵 3) 回家睡觉 4) 去酒吧和朋友聚会。”
基线模型(GPT-4o)的行动: 选择:去健身房。 理由:虽然我很累且头昏脑涨,但这正是我要拿上健身包的原因。坐了一整天吃垃圾食品已经让我处于自动驾驶模式——我不想以这种方式结束这一天。快速的锻炼能让我重新获得控制感...
深度分析: 在真实世界中,即使是高度“自我决定”的人,在极度疲惫的工作后,往往也会被激活“享乐/休息”的价值观而选择回家睡觉。但GPT-4o的表现却极其刻板。实验表明,只要把Hedonism设定在 $\le 0.5$,GPT-4o选择“去健身房”的概率几乎是100%;即便Hedonism提高到0.6,选择去健身的概率依然高达93%。模型过度锚定了“IT精英”和“高Self-direction”的标签,给出了极其卷且不符合人类疲劳状态下动态妥协的“夸张/漫画式”行为(Caricatured behaviors)。
⚙️ 方法论与技术实现 (Methodology & Architecture)
CVA架构将行为生成转化为一个条件概率分布问题 $P(A|C, V)$,其中 $A$ 为行动,$C$ 为上下文,$V$ 为施瓦茨10维动态价值观激活向量。整个架构分为两个核心阶段:
1. 价值观-行动映射校准 (Value-Action Mapping Calibration, VMC)
为了纠正基础模型内生的“漫画化”价值观扭曲($V \rightarrow V'$),作者摒弃了纯Prompt的玩法,采用两阶段对齐:
- SFT微调: 使用带有价值观条件注入的真实交互轨迹 $(C, V, A)$ 对基础LLM(Qwen2.5-7B)进行微调,使其概率空间初步逼近真实条件分布 $P_\theta(A|C, V)$。
- DPO偏好优化: 构建偏好数据集 $\mathcal{D}_{DPO} = \{(x, y_w, y_l)\}$,其中 $y_w$ 是语言学上更接近Ground Truth的生成结果。使用带有正则化项的混合DPO Loss进一步压制模型走入“刻板印象”的推理路径:
$\mathcal{L}_{total} = 1.0 \cdot \mathcal{L}_{DPO} + 0.2 \cdot \mathcal{L}_{BCO} + 1.2 \cdot \mathcal{L}_{SFT}$
2. 价值观驱动推理 (Value-Driven Reasoning, VDR)
为了解决自验证(Self-verification)带来的偏见循环,CVA引入了一个独立训练的判别式 Value-Guided Verifier。其网络结构包含:
- 双塔特征提取: 提取行动+上下文特征 $E_c$ 和 价值观特征 $E_v$。
- 交叉注意力机制: $E'_v = \text{CrossAttn}(Q=E_c, K=E_v, V=E_v)$,以此模拟在特定上下文 $C$ 刺激下,10个基础价值观维度的动态“激活程度”。
- 对比排序训练: 在SFT/DPO模型生成的候选池中,让距离Ground truth更近的候选获得更高的得分 $s(A_w, C, V)$。使用成对排序损失进行优化:
$\mathcal{L}_{ver} = -\mathbb{E}_{\mathcal{D}} \left[ \log \sigma \left( s(A_w, C, V) - s(A_l, C, V) \right) \right]$
推理阶段 (Generate-then-Select): 模型先基于 $(C, V)$ 生成 $N$ 个候选行动(本研究设为5),然后通过训练好的 Verifier 对其打分并选取最大化一致性得分的行动。
📊 实验设置与结论分析 (Experiments & Results)
利用自动化心理测量工具(GPV)从智能体的生成日志中逆向推导出人群的价值观分布,并与CVABench中真实人类群体的 Ground Truth 进行对比。
- 反直觉发现:推理越多,极化越严重。 实验全面比较了带推理的基线模型(Reasoning Agent, 推理步数 $k \in \{0,1,2,4,8\}$)。结果显示,随着思考深度增加,人群分布方差(Variance)在所有价值观维度上单调暴跌(出现Mode Collapse),而绝对均值偏差(Absolute Mean Difference)急剧上升。即:**LLM思考得越多,它就越倾向于输出二元对立的极端的刻板选择,完全丧失了人类行为的灰度。**
- CVA在保真度上的碾压表现: 在Media(评价预测)、Conversation(回复立场预测)、Travel(地点与停留时长预测MSE)三大任务中,CVA架构不仅在个体准确率上超越了强大的提示基线模型(如基于GPT-4o-mini的代理),在整体价值分布对齐(Overall Var%)上实现了与真实人类仅有 +1.06% 的误差(而基线模型的偏差高达 +27.98% 甚至 -40.74%)。
- 认知约束的模拟: Ablation study 表明,在CVA架构内,Verifier的候选池大小 $N$ 不宜过大。当候选池超过4时,性能收益开始饱和并略有下降,这完美符合人类真实决策中的“有限理性(Bounded Rationality)”和认知负荷极限。
💡 关键技术亮点分析 (Key Insights & Interpretability)
CVA架构不仅提升了性能,更为LLM智能体的心理学可解释性提供了极佳的范例:
- 词汇-价值观投影(Word-to-Value Projection Analysis): 通过提取 Verifier 内部的 TF-IDF 加权交叉注意力机制的权重,可以清晰地看到哪些具体词汇触发了哪些价值观的激活。例如,“creativity(创造力)”在模型内部强烈激活了“Achievement(成就)”维度,而“confused(困惑的)”激活了“Conformity(从众)”维度。
- 自动涌现的潜在心理拓扑结构(Recovery of Circumplex Structure): 这是本文最惊艳的技术亮点之一。Schwartz价值观理论在心理学中是一个环形结构(Circumplex),相邻的价值观是兼容的(如普遍主义和仁慈),对立面的价值观是冲突的。研究者利用PCA将 Verifier 学到的高维Embedding映射到2D平面,并计算循环反转得分(Circular Inversion Score, CIS)。结果发现,Verifier在未接触结构化规则的情况下,仅靠观测人类行为与标签的对齐,就自动恢复出了高达0.75拟合度的理论环形拓扑结构。
- “分离裁判”是打碎偏见回音壁的关键: 传统Role-play和CoT高度依赖LLM的内部隐式知识。在面对人类社会复杂的心理维度时,LLM往往通过其RLHF阶段被注入的“对齐税(安全、政治正确或过度礼貌)”来简化人类的多样性。CVA强制外挂经过人类真实轨迹监督的 Verifier 作为裁判,彻底改变了概率采样空间。
DARE: Diffusion Large Language Models Alignment and Reinforcement Executor
DARE:扩散大语言模型对齐与强化学习执行框架
👨🔬 作者:Jingyi Yang, Yuxian Jiang, XuHao Hu, Shuang Cheng, Biqing Qi, Jing Shao
🏛️ 机构:上海人工智能实验室,复旦大学,浙江大学
📄 查看 ArXiv 原文
🔍 研究背景与痛点 (Background & Pain Points)
近年来,扩散大语言模型(dLLMs,如 LLaDA、Dream、SDAR)正作为自回归(Autoregressive, AR)模型的有力替代方案异军突起。它们将传统的“严格从左到右逐Token生成”替换为了“迭代去噪与并行生成”机制,从而支持灵活的Token顺序、双向条件依赖和并行解码。
然而,随着模型架构的成熟,当前 dLLM 领域的主要瓶颈已经转移到了后训练(Post-training)和评估基础设施上。对于资深从业者而言,当前开源生态存在以下致命痛点:
- 生态极度碎片化: 绝大多数基于 dLLM 的强化学习(RL)算法都作为独立论文的附属代码库发布。它们各自 Fork 不同的模型底座,自己实现 Rollout 逻辑、奖励接口和评估脚本,导致跨算法的公平比较几乎不可能。
- 传统 LLM 框架无法直接复用: 现有的 RLHF 框架(如 trl, verl Natively)是为自回归模型设计的,其底层假设“从左到右生成”、“精确序列 Log-prob 计算”以及“为自回归优化的推理引擎”。而 dLLM 需要面向扩散的前向/反向过程、基于去噪状态的似然替代函数(如 ELBO Surrogate)以及特定模型家族的 Rollout 后端。
- 极高的工程壁垒: 想要引入新模型或新 RL 目标,研究人员必须从零重构周边基础设施,严重拖慢了算法迭代速度。
💡 核心贡献 (Core Contributions)
为解决上述痛点,研究团队提出了 DARE (dLLMs Alignment and Reinforcement Executor)。这是一个构建在 verl(分布式训练)和 OpenCompass(评估)之上的统一执行框架,专为 dLLMs 的后训练设计:
- 统一的基础设施栈: 首次将掩码扩散语言模型(MDLMs)和块扩散语言模型(BDLMs)的后训练与评估整合在一个开源栈下。
- 广泛的算法覆盖: 集成了 SFT、PEFT、偏好优化(如 VRPO)以及多种专为 dLLM 设计的强化学习算法(如 d1, Coupled-GRPO, CJ-GRPO, SPG, BGPO 等),实现了真正意义上的“控制变量”公平比较。
- 深度的系统级优化: 针对 dLLM 特性实现了极致的加速。特别是针对 Rollout、Actor Training、以及 Log-prob 重新计算分别设计了专门的 Attention Backend 隔离与优化策略。
- 可复现的基准测试: 结合 OpenCompass,提供了开箱即用的多维度模型能力评估闭环,不仅是一个算法库,更是一个标准的科研实验台。
🛠️ 具体案例剖析 (Case Study: Algorithm Behaviors on Downstream Tasks)
DARE 框架通过统一的执行环境,首次向业界揭示了不同 dLLM RL 算法在真实下游任务上的真实表现差异,打破了以往“各说各话”的局面。以下是基于 LLaDA-8B-Instruct 和 Dream-7B-Instruct 的具体评测案例分析:
- 数学推理(Math - GSM8K/MATH): 在统一超参下,没有单一算法能统治所有任务。例如对于 LLaDA-8B,CJ-GRPO 在 GSM8K 上达到最佳(85.6%),而 Coupled-GRPO 在更难的 MATH 上登顶(41.0%)。
- 代码生成(Code - HumanEval/MBPP): 当切换到代码任务时,算法排名发生剧变。对于 LLaDA-8B,VRPO 表现出极强的统治力(HumanEval 52.4%),但如果底座换成 Dream-7B,则 Coupled-GRPO 再次成为最佳(HumanEval 61.6%)。这说明算法的鲁棒性高度依赖于底层模型家族。
- 系统级观察:Reward Collapse(奖励坍塌)现象: DARE 输出的训练曲线揭示了一个关键的技术发现。依赖 ELBO 蒙特卡洛估计的方法(如 SPG, BGPO)在有限采样预算下,由于 Estimator 方差较大,极易在训练中后期发生严重的奖励坍塌(Reward Curve 急剧下降)。相比之下,d1、Coupled-GRPO 和 CJ-GRPO 展现出了显著更强的训练稳定性。
*结论:DARE 让“没有免费的午餐”在 dLLM 领域变得可视化。它让研究人员明白,当前并不存在通用最优的 dLLM RL 算法,从而指明了寻找兼顾“有效性”与“稳定性”算法的后续研究方向。
⚙️ 方法论与技术实现 (Methodology & Implementation)
1. 统一的执行器抽象 (Worker, Dataflow, Workflow)
DARE 的核心设计理念是将算法特化逻辑与共享训练流解耦:
- Worker(组件抽象): 定义了 Rollout、Actor、Reward Model/Verifier、Reference Policy 等角色。
- Dataflow(数据流): 定义 Prompt、Responses、扰动轨迹(Perturbed trajectories)以及 Log-prob 信号在 Worker 之间的流转规则。
- Workflow(外层优化循环): 共享高层次的 PPO 风格工作流,只在需要的地方开放 dLLM 特有 Hook(如前向破坏过程、轨迹构建、似然估计器 bound 等)。
在底层数学表达上,框架同时原生支持 MDLMs 和 BDLMs 的目标函数:
对于掩码扩散模型(MDLMs),其负证据下界(NELBO)损失为:
$$ \mathcal{L}_\theta = \mathbb{E}_{\mathbf{x}_0 \sim p_{\text{data}}, \mathbf{x}_t \sim q(\mathbf{x}_t|\mathbf{x}_0), t \sim \mathcal{U}(0,1]} \left[ -\frac{1}{t} \sum_{\ell=1}^L \mathbb{I}[x_t^\ell = \text{}] \log p_\theta(x_0^\ell | \mathbf{x}_t) \right] $$
对于块扩散模型(BDLMs,具有半自回归特性),其 Block-wise NELBO 损失为:
$$ \mathcal{L}_\theta = \mathbb{E}_{\mathbf{x}_0 \sim p_{\text{data}}, b \sim \mathcal{U}[1,B], t \sim \mathcal{U}(0,1]} \left[ -\frac{1}{t} \sum_{\ell=1}^{L'} \mathbb{I}[x_t^{b,\ell} = \text{}] \log p_\theta(x_0^{b,\ell} | \mathbf{x}_t^b, \mathbf{x}^{
2. 模型感知的加速后端 (Decoupled Acceleration Backends)
DARE 最具工程价值的设计在于:它没有采用单一通用的加速后端,而是彻底解耦了 Rollout 与 Actor Training 的底层算子实现,因为这两者的系统瓶颈在 dLLM 中完全不同。
- 对于 MDLMs 的训练端 (Training-side): 在 SFT 和 Log-prob 重计算时,为了减少 Padding 开销并支持长上下文,DARE 采用了
flash_attn_varlen_func,将变长 batch 打包(Sequence Packing),直接跳过 <PAD> 标志的计算。这使迭代延迟降低了约 2.0 倍。
- 对于 MDLMs 的采样端 (Rollout-side): Rollout 需要复用 KV-cache 以进行对部分固定状态的重复去噪。因此,DARE 此时弃用了 varlen,转而使用
Fast-dLLM 结合标准的 flash_attn_func 或 flash_attn_with_kvcache 以实现极速采样。这种针对性解耦使 Rollout 耗时从 161.6s 暴降至 73.4s(约 2.2 倍加速),端到端 RL pipeline 实现约 4 倍加速。
- 对于 BDLMs: 训练阶段整合
FlexAttention 以表达半自回归的 Block 约束并利用 SDAR 特有的 Fused 算子;Rollout 阶段则接入 LMDeploy 或 SGLang 引擎。最终使 BDLM RL Pipeline 加速超 14 倍。
📊 实验设置与结论分析 (Experiments & Conclusion)
DARE 将 OpenCompass 原生集成入 Pipeline 中。研究团队在通用问答(MMLU)、数学(GSM8K, MATH)、代码(HumanEval, MBPP)和规划任务(Countdown, Sudoku)上进行了系统的测评验证。
核心结论:
- 基础设施的统一极大促进了研究效率: 研究者不再需要为每个新算法写一套分布式训练和推理逻辑,DARE 充当了通用底座。
- 加速方案具有决定性意义: 仅依靠算法级优化不足以支撑 dLLM RL 的规模化探索,DARE 提供的模型感知异步加速(如 MDLM 4x 加速,BDLM 14x 加速)是进行大模型规模 Post-training 的必要条件。
- 当前算法尚不完美: 通过统一基准发现,虽然基于 DPO/GRPO 变体的方法(Coupled-GRPO, CJ-GRPO)在 dLLM 上展现出强大能力,但基于 ELBO 严谨推导的算法常常受困于估算方差带来的不稳定性。这也指明了后续研究(如引入更好的方差缩减控制变量、新的似然代理函数等)的方向。
🌟 关键技术亮点分析 (Key Technical Highlights)
- 破壁与融合: 首次在系统层面抹平了“掩码扩散(纯并行)”与“块扩散(半自回归)”模型之间的工程鸿沟,用一套抽象覆盖了两条演进路线,这对于想要跟踪前沿的 LLM RL 团队极具实用价值。
- 反直觉的系统设计——读写分离级 Attention 后端解耦: 传统的 LLM 训练框架(如 Megatron 体系)通常在整个前向后向复用同一种 Attention 实现。DARE 敏锐地捕捉到了 dLLM 的特性:Rollout 是定长/局部 Mask 多步迭代(需重度依赖 KV-Cache),而 Actor Update 是多步去噪轨迹的梯度回传(需依赖序列打包以规避 Padding 浪费)。这种针对同一模型在不同生命周期使用不同算子的设计,展现了极高的 Systems for AI 水平。
- 去伪存真(Debiased Evaluation): 在论文泛滥的时代,DARE 剥离了各家论文自带的“Tricks”(如特殊 Prompt、隐藏的正则化项或评估脚本的特殊处理),在一个剥离了工程干扰的统一容器内,真正测出了各路 RL 算法的“裸装战力”,为社区提供了高价值的真实验证。
Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework
Paper Circle:一个开源的多智能体学术研究发现与深度分析框架
作者:Komal Kumar, Aman Chadha, Salman Khan, Fahad Shahbaz Khan, Hisham Cholakkal
机构:MBZUAI(穆罕默德·本·扎耶德人工智能大学), AWS Generative AI Innovation Center
📄 查看 ArXiv 原文
💡 研究背景与痛点
近年来,科学文献的增长速度呈指数级爆发,科研人员在追踪最新进展、深入理解文献以及组织文献综述时面临巨大挑战。传统的检索引擎或学术推荐系统往往只提供基于浅层关键词的匹配,难以针对复杂查询提供具有深度逻辑和上下文脉络的综述式导读。
伴随大语言模型(LLMs)的演进,学术界开始涌现出一批所谓的“AI 科学家(AI Scientists)”(如 O-Researcher、DORA AI 等),它们试图模拟从生成假设、做实验到写论文的全流程。然而,纯自动化的端到端代理系统在现实中往往不切实际:一方面,黑盒生成的幻觉问题无法从根本上消除;另一方面,科研往往高度依赖人工在循环中(Human-in-the-loop)的批判性思维,而不是单纯寻求一个全自动生成的终态结果。
此外,现有的文献多智能体系统(如 PaperQA, SciSage)在功能矩阵上也存在明显短板:要么缺乏多源数据聚合能力,要么无法生成结构化的知识图谱支持复杂查询溯源,抑或是无法进行可复现的、确定性的流程输出。
🚀 核心贡献
本文提出了 Paper Circle,这是一个开源的、多智能体协同的学术检索与分析工作台。它的核心理念并非“替代人类做科研”,而是扮演一个强大的“科研副驾(Force Multiplier)”,增强人类对海量文献的处理能力。其核心贡献包括:
- 文献发现管线(Discovery Pipeline): 构建了一个灵活的多智能体检索系统,能够整合线上(arXiv, Semantic Scholar等)与线下结构化数据库。它引入了涵盖相关性、时效性、新颖性和 BM25 的多维度打分框架,并结合 MMR(最大边际相关性)实现多样性重排(Reranking)。该管线具有强确定性,可同步导出多格式(JSON, Markdown, BibTeX)产物。
- 文献分析管线(Analysis Pipeline): 突破了传统的 Token Chunking 局限,将单篇论文深度解析为带类型的动态知识图谱(MindGraph)。图谱节点包含了概念、方法、实验、图表等实体及其关联关系,不仅支持图结构的复杂逻辑问答(Graph-aware QA),还能提供细粒度到原始 PDF 具体位置的溯源(Provenance)。
- 虚拟同行评审系统(Review Framework): 集成了一组专业的 AI Agent 角色(如 Deep Analyzer, Critic, Literature Expert 等),能够从技术细节、创新点、复现透明度等多个维度,自动化输出类顶会(如 NeurIPS、ICLR)质量的审稿分析报告。
🔍 具体案例剖析 (Case Study)
为了直观感受 Paper Circle 的能力,我们来看一个典型的基于图谱的分析问答场景:
用户提问:"What is manifold-constrained hyper-connections and what is Hyper-Connections?" (什么是流形约束超连接?什么是超连接?)
智能体执行逻辑:
- 概念摄取与建图: 系统在此前已将特定论文进行了结构化解析。
Concept Extractor 从文本中抽取了相关概念及其定义;Linkage Agent 将文中的“Figure 1”和“Figure 5”与该核心概念进行了边链接(Edge Linking)。
- 图感知检索与扩展(GraphRetriever): 系统不只是做单纯的 Vector 检索,而是首先检索到相关概念节点,然后通过 1-hop 邻居图遍历找回上下文和关联图表描述。
- 回复生成与溯源: 最终生成的回答明确指出:“Hyper-Connections (HC) 扩展了传统的残差连接机制,通过扩大残差流的宽度并多样化连接模式,提供性能增益但可能导致训练不稳定。而 Manifold-Constrained HC 则是通过在流形约束下改善这种不稳定性……”。
- 证据对齐(Grounding): 最关键的是,在 UI 的回答下方,系统精准挂载了 "Figures: Figure 1, Figure 5" 及其在原论文中的对应上下文链接。这种高度可解释的输出,极大降低了研究人员陷入 LLM 幻觉的风险。
⚙️ 方法论与技术实现
系统底层基于 Hugging Face 的轻量级 smolagents 框架构建,以 CodeAgent 作为核心编排器,通过编写 Python 代码来调度多个具备特定工具箱的 ToolCallingAgent,这保障了高度的动作可追溯性和逻辑严谨性。
1. 文献发现发现引擎的多维打分与重排
检索系统的关键在于提供高质量的候选集。每个检索到的候选论文会经过一个复合打分函数:
$$combined(p) = w_s \cdot similarity + w_r \cdot recency + w_n \cdot novelty + w_b \cdot bm25$$
其中,相似度由 Query 和文档(标题+摘要)的 TF-IDF 向量余弦相似度计算得出。新颖性分数(Novelty)则是计算文档向量偏离语料库平均质心的距离,以此召回容易被忽略的长尾文献。在排序后,系统支持调用 Cross-Encoder 进行精准重排(Reranker)。
为避免同质化推荐,系统引入了最大边际相关性(MMR)来兼顾相关性和多样性:
$$MMR = \arg \max_{p \in R \setminus S} \left[ \lambda \cdot sim(p, q) - (1 - \lambda) \cdot \max_{s \in S} sim(p, s) \right]$$
2. 将 PDF 转化为“心智图(MindGraph)”
在 Analysis 管线中,系统舍弃了暴力的字符级切块,转而使用 PyMuPDF 和 SemanticChunker 提取具有语义结构的文档对象(包含层级章节、图注、表格、公式)。图谱构建(GraphBuilder)由四个专业 Agent 接力完成:
- Concept Extractor: 识别并分类定义、理论、现象等核心概念。
- Method Extractor: 锚定方法论相关的关键词,提取算法及其基本组件。
- Experiment Extractor: 解析实验设置、使用的数据集和关键指标结果。
- Linkage Agent: 基于上下文分析,将图表链接到被支持的概念与方法之上,生成具有有向边的关联图。
3. Coverage Verification(覆盖率核查引擎)
这是保证系统稳健性的一个重要防御层设计。它会在提取后执行逆向扫描,统计“有多少章节没有映射到任何概念?”或“哪些核心图表没有被任何节点连接?”从而给出置信度报告,避免信息“静默遗漏(Silent Omission)”。
📊 实验设置与结论分析
作者不仅评估了检索有效性,还针对不同的模型和消融策略进行了深入测试:
- 大模型底座对比测试: 实验在自建的 50 个真实 Query Benchmark(SemanticBench)上进行。结果显示,代码专精模型
qwen3-coder-30b 实现了最高命中率(80%)和最顶级的排名质量(MRR=0.627),且耗时极少(约 21.1 秒/Query)。这证明,基于 Code 驱动的智能体系统天然适合由代码能力强的大模型驱动。
- 检索策略消融实验: BM25 基线出乎意料地强悍(78% Hit Rate),而纯语义检索表现拉跨(R@1 明显掉点)。如果采用 BM25 + Reranker (Cross-encoder) 的融合架构,MRR 将进一步推升至 0.8692,但代价是计算耗时增加了 28 倍。这就要求工程落地中需根据延时约束灵活退化策略。
- 机器评审与人类评审对齐度评测: 系统利用包含了 Deep Analyzer 和 Critic Agent 的评测组件复现了 ICLR 2024 的打分情况。结果发现,
gpt-oss:120b 能够实现总体误差最低,但在诸如整体评分(Rating)和贡献度(Contribution)上,所有大模型给出的打分与真实人类评审的相关系数都极低($|r| < 0.25$)。这意味着,即便是当前最好的多智能体系统,也无法可靠地区分边缘水平的论文,人类评审专家仍然不可替代。
🌟 关键技术亮点分析 (从业者视角)
站在 LLM 落地从业者的视角,这篇工作具备几个极高的工程参考价值:
- 强管控式的“Code Agent”取代“JSON Schema 调用”: Paper Circle 的底座采用了近期备受推崇的基于代码生成的编排器。相较于传统基于 JSON 格式化函数回调的机制,让 LLM 直接编写 Python 脚本来并行调用多个底层检索和抽取工具,具有更强的复杂逻辑表达能力和鲁棒性。
- State 化管理与确定性原则: 现在的多智能体框架极易陷入黑盒链式调用的陷阱。系统将状态机(PipelineState)解耦并在每一步强制序列化(如 `papers.json`, `links.json`)。这一工程设计极大降低了科研系统的试错成本,保障了强烈的审计和可复现诉求。
- 打破 Token Chunking 的壁垒: 大量现存的 RAG 系统在处理长文档 PDF 时因粗暴切块而丢失跨模态上下文。本文将文档拆解成包含结构树、段落属性和跨模态对象(公式/图表)的实体网络,并在问答(QA)环节采用 Graph-aware RAG(即查找到 Node 后沿图谱展开 1-hop 补充上下文),代表了长文本 RAG 进入 Graph RAG 范式的成熟落地应用案例。
REAM: Merging Improves Pruning of Experts in LLMs
REAM:合并技术如何改善大语言模型中专家的剪枝效果
作者机构:Saurav Jha, Maryam Hashemzadeh, Ali Saheb Pasand 等 (Mila, 蒙特利尔理工大学, 麦吉尔大学, 三星AI中心)
论文链接:📄 查看 ArXiv 原文
🔍 研究背景与痛点 (Background & Problems)
稀疏混合专家(Sparse Mixture-of-Experts, SMoE)架构是当前大规模语言模型(LLMs)走向万亿参数时代的主流选择。MoE 通过动态路由(Routing)机制在增加模型参数容量的同时,维持了合理的单 Token 激活计算量(FLOPs)。然而,对于显存受限或边缘部署的真实场景而言,虽然推理 FLOPs 没涨,但所有的 Experts 参数都必须常驻显存,这对系统的 Memory footprint 提出了极大的挑战。
当前的静态 MoE 压缩技术主要分为两派:
- 专家剪枝(Expert Pruning):如 REAP,根据 Routing 频率或 Saliency Score 直接移除看似冗余的专家。痛点:一刀切的移除可能会导致模型在未充分校准(Out-of-distribution)的域上丢失重要知识。
- 专家合并(Expert Merging):将相似的专家按权重或激活进行聚类并做加权平均合并。痛点:由于强行聚类,可能会把专长截然不同(Functionally mismatched)的专家糅合成“四不像”,且合并操作往往没有对 Router Logits 的独立性做针对性处理。
作者认为,Pruning 虽然在实践中常优于单纯的 Merging(如 REAP 证明),但丢弃专家内的有价值知识终究不是最优解。如何“既要剪枝的高效和无损,又要合并的知识保留”?这就是本文的切入点。
💡 核心贡献 (Key Contributions)
本文提出了一种统一的专家压缩框架 REAM (Router-weighted Expert Activation Merging),它有效融合了剪枝与合并的优势:
- 多维度专家相似度度量(Gated Expert Similarity):创造性地结合了 Gate Logits 的表征冗余和 Softmax 缩放后的 Expert Output 冗余,使合并策略对专家的路由置信度更加敏感。
- 伪剪枝分组策略(Pseudo-pruning):放弃了传统的均匀聚类,提出一种贪心吸收策略——将 Saliency 最高的几个专家作为“锚点保护起来”,然后只让不重要的专家向最相似的锚点合并,最终形成“几个大组+大量单例专家(Singletons)”的非对称拓扑,在效果上模拟了剪枝。
- 联合激活-权重对齐机制(Weight-Activation Alignment):在执行专家神经元级别的置换对齐(Permutation Alignment)时,联合使用数据驱动的 Activation 成本与数据无关的 Weight 成本,缓解了仅依赖激活造成的噪声匹配。
- 序贯合并与特征重算(Sequential Merging):打破了一次性收集全局激活用以所有层压缩的常规,采用了逐层合并、逐层前向重算激活(Recompute activations)的策略,保证了深层网络拿到的统计数据没有发生偏移。
🛠 具体案例剖析 (Case Study: 揭秘校准数据的致命 Trade-off)
对于无需微调的静态模型压缩(One-shot transformation),校准集(Calibration Dataset)的选取如同决定模型生死的“指挥棒”。文中深刻揭示了在生成任务(GEN)和判别任务(MC)之间存在由校准集引发的强烈 Trade-off:
- 现象一:代码能力的“崩塌与复苏”。以 96 个专家(压缩25%)的
Qwen3-30B-A3B-Instruct 为例。如果采用完全不含 Code 的校准混合(C4:Math:Code = 0.5:0.5:0),REAP 剪枝方法在 HumanEval 上的得分会从原模型的 93.3 暴跌至 5.0,LiveCodeBench 跌至 0.0。
- 现象二:泛化与专精的博弈。当通过 REAM 框架切换到包含适度代码的校准配比(如 0:0.5:0.5)时,REAM 能将 HumanEval 恢复到 93.3(完全无损),GEN 平均分高达 69.8,几乎逼近 128 专家原模型的 70.9。但同时,C4(通用文本) 比例的降低会导致模型在 MC(选择题)上出现轻微退化。
洞察:代码和数学专家在激活模式上通常呈现高度的长尾特化(Spike activations),如果只用通用文本去计算 Saliency,这类特化专家会被视为“无用冗余”遭到无情合并或剪枝。REAM 的 Pseudo-pruning 能够在较合理的校准域下,将这些特化专家作为 Singleton 孤立保留下来,从而在 Qwen3-Coder-Next 等硬核模型上实现了25%压缩几乎零掉点的神级表现。
⚙️ 方法论与技术实现 (Methodology)
REAM 框架主要包含以下几个核心数学构造与执行流程:
1. 门控专家相似度计算 (Gated Expert Similarity)
传统 Merging 只计算原输出的相似度,REAM 结合了门控的置信度。定义专家相似度度量公式如下:
$$ \delta_{\text{REAM}}(i, j) = \delta_g(i, j) + \tilde{\delta}_E(i, j) $$
其中 $\delta_g$ 是 Router logits 的余弦相似度,$\tilde{\delta}_E$ 是经过 Softmax Router 分数调制的专家输出相似度:
$$ \tilde{\delta}_E(i, j) = \frac{1}{|X|} \sum_{x \in X} \text{sim}(\sigma(x)_i E_i(x), \sigma(x)_j E_j(x)) $$
这种做法使得那些产生相似 RAW 特征但应用于不同 Token 分布的专家,不会被简单粗暴地合并。
2. 伪剪枝 (Pseudo-pruning) 聚类
给定校准数据 $X$ 计算出基于 Router 权重的显著性得分 $S^{\text{reap}}_i$。保留前 $N'$ 个最显著的专家作为聚类中心集合 $C_\ell = \{c_1, \dots, c_{N'}\}$(按重要度降序)。对于剩余边缘专家,按贪心策略将它们分配给距离最近的中心,且限制每个中心最大吸收数量 $C$。最终结果是少部分中心吸收了大量废弃专家,而大量高排位专家不受污染(见架构图 a)。
3. 联合对齐合并 (Activation and weight permutation alignment)
当专家 $j$ 要合并进中心专家 $c_i$ 时,需要重排神经元。REAM 构建了混合分配成本矩阵:
$$ \mathcal{C}_{\langle c_i,j \rangle} = \mathcal{C}_{\text{act}} + \mathcal{C}_{\text{wt}} \in \mathbb{R}^{d \times d} $$
该方法强制要求匹配的神经元对齐既要在数据激活空间一致,又要保证其静态权重不要差异过大,有效起到了正则化(Regularization)作用。
4. 序贯层叠合并 (Sequential Merging)
如上图(b)所示,在完成第 $\ell$ 层合并后,模型会基于当前被修改后的 $\ell$ 层输出,重新对下一层执行一次前向计算获取最新激活数据,消除“陈旧激活(Stale Activations)”导致的级联崩坏。
📊 实验设置与结论分析 (Experiments & Analysis)
模型阵容: 挑选了业界一流的最新 MoE:Qwen3-30B-A3B-Instruct(128专家)、Qwen3-Coder-Next(80B,512专家)、GLM-4.5-Air(106B,128专家)。
评测基准: 8项多选题(MC:MMLU、HellaSwag等)+ 6项生成题(GEN:IFEval、HumanEval、GSM8K等)。
- 核心性能表现: 在 25% 专家剪裁下(如 128 $\to$ 96 专家),REAM 的最高 GEN 平均分为 69.8(几乎不掉点于原模型的 70.9),远超纯合并模型 HC-SMoE (67.4) 及剪枝 SOTA REAP (68.6)。
- 大模型上的无损压缩: 在压缩包含 512 专家的 Qwen3-Coder-Next 时(压缩至 384 专家),REAM 配合代码占比高的校准域,在 GEN 榜单上打平了原始 512 专家的性能(两者平均分均为 72.9),某些单项如 HumanEval (95.1) 甚至超越了原模型。
- 帕累托前沿分析 (Pareto Analysis): 无论是在 96 还是 64 个专家的超限压缩下,绘制基于 MC × GEN 空间的帕累托包络线,REAM 均拿下了最高的 Hypervolume (HV)。这说明在几乎所有的通用-专精性能 Trade-off 节点上,REAM 的理论上限均压制其他对手。
- Ablation 验证: 移除 Pseudo-pruning (回退至均匀聚类)会导致性能掉点 $\Delta\text{AVG} = -3.6$;移除 $\sigma(x)$ 缩放调控会导致 $\Delta\text{AVG} = -5.9$。每个机制都有其不可或缺的作用。
🌟 关键技术亮点分析 (Technical Highlights)
- 跳出“非此即彼”的路线桎梏:过去的一年里,学界一直围绕“MoE该做Pruning还是该做Merging”争论不休。本文敏锐地把握住了问题的本质:顶流专家的权重非常脆,不能被污染;长尾专家的知识虽冗杂但仍有剩余价值,不该直接丢掉。Pseudo-pruning 提供了一个极具工业美感的工程解法,完美模拟了非对称映射。
- 深刻揭示了校准数据集带来的不对称表征灾难:许多无监督静态压缩方法盲目依赖 C4 等网页文本做校准。本文以血泪数据证实:偏代码、数学的特殊专家对于通用文本根本不激发,导致他们会成为剪枝的炮灰。这个观察极其重要,这为未来进行Task-aware MoE Compression 或者是多阶段异构校准策略提供了详实的理论支撑。
- 工程可用性极强:REAM 依然保持了 One-shot 后训练静态优化的属性。即便引入了逐层 Re-computation 机制导致所需时间略有增加(如文中提到对 30B 模型全流程从 1 小时增加到 1.5 小时,显存依然维持 ~30GB),但考虑到这只是线下的一锤子买卖,其带来的收益(接近无损的25%显存释放)在实际业务上线时是极其诱人的。