Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents

Squeez：面向代码智能体的任务条件工具输出剪枝

作者：Ádám Kovács

机构：KR Labs

🔍 研究背景与痛点 (Background & Pain Points)

当前主流的 Coding Agents（如 SWE-agent, Claude Code 等）在执行代码修复和问题诊断任务时，严重依赖不断与工具链交互。这通常会产生大量且冗长的工具观察结果 (Tool Observations)，包括 grep 搜索结果、长文件读取、复杂的堆栈跟踪、构建日志 (build logs) 等。在这些动辄上万 token 的混合格式输出中，真正对 Agent 下一步决策有用的“信噪比”极低。

这种现象带来两个核心痛点：

Context Window 的严重浪费与计算成本高昂：Agent 每次规划决策都需要把整个沉长的工具输出重新吞咽一遍。
注意力分散导致幻觉：现有的 Prompt Compression 方法（如 LLMLingua）或传统的 RAG 文档检索技术（如基于 BM25），通常假设输入是自然语言散文，对于这种代码、日志、元数据交织的 Mixed-format（混合格式） 工具输出，往往表现不佳，极易切碎关键的上下文逻辑。

🌟 核心贡献 (Core Contributions)

本文没有去卷更大参数量的 Agent 底座，而是务实地提出了一个专用于 Agent Pipeline 中的前置过滤模块——Squeez。其核心贡献如下：

定义新任务 (Task-Conditioned Tool-Output Pruning)：正式提出了“基于任务条件的工具输出剪枝”任务。给定一个明确的查询需求 (Query) 和一段原始工具输出 (Tool Output)，要求模型返回最精简的、逐字原文 (verbatim) 证据块供 Agent 消费。
构建异构数据集：发布了一个包含 11,477 个样本的 Benchmark，数据来源既包含真实世界 SWE-bench 中的仓库交互（如 Python 报错），也通过合成数据补充了多生态系统（TypeScript, Go, Rust, Docker, Kubernetes 等）的各类日志，甚至刻意构造了负样本 (Negative Samples)。
训练并开源轻量级模型 Squeez-2B：利用 Qwen 3.5 2B 模型配合 LoRA 进行微调。实验证明，该模型能在剪去 92% 输入 Token 的极端压缩率下，依然保持 0.86 的 Recall (召回率)，不仅碾压了 18 倍体积的 Qwen 3.5 35B A3B，也远超各类启发式算法。模型可作为独立的 vLLM 接口或 CLI 管道工具极低成本地插入现有 Agent 工作流。

💡 具体案例剖析 (Case Study)

为了直观感受 Squeez 是如何工作的，我们来看一个从 kubectl 容器日志中提取关键信息的绝佳案例：

📥 输入 (Input)：

Query: "Find the block showing the OOMKilled reason and exit code for the analytics-worker container." (找出 analytics-worker 容器由于 OOMKilled 被杀死的具体原因块和退出码)
Tool Output: 长达 250 行的 kubectl 原始输出。

📤 Squeez-2B 提取的片段：

26: Reason: OOMKilled
27: Exit Code: 137

分析： 原本让 LLM 吞下 250 行的无用状态和重启信息，现在只留下了精准的 2 行关键证据。这极大减轻了后续 Agent 分析时的上下文负担。

此外，在对比基线模型时，Squeez-2B 展现出了强大的领域特化优势 (参考 Table 5 案例)：

处理“空集” (Negative Samples)：面对“查找 numpy 版本冲突（但实际日志里并没有）”的 Query，Squeez-2B 能果断输出空集。而 Zero-shot 的 Qwen 35B 会“自作聪明”地生成解释性文字（"No relevant lines found..."），未微调的 2B base 则会随便抓取无关的数据库报错。
精准截断：在提取 service_log 里的 TLS 握手失败错误时，大模型 Kimi K2 为了追求压缩率，截断了真实的错误堆栈，而 Squeez-2B 能完整保留这连续的 5 行 failure block。

⚙️ 方法论与技术实现 (Methodology)

1. 任务的数学化定义：

输入是一个元组 $(q, o)$，其中 $q$ 是具体的工具导向查询 (tool-aware extraction query)，$o$ 是原始的一段工具观察结果。模型的输出目标 $Y$ 是基于原文本的连续切片 (contiguous spans) 集合：

$$ Y = \{(s_1, e_1), \dots, (s_k, e_k)\} $$

这里的核心要求是Verbatim Extraction（逐字提取），不允许模型进行抽象总结或重写，因为代码 Debug 过程中重写常常会丢失关键的符号、变量名甚至造成幻觉错误。

2. 两阶段教师标注流水线 (Two-stage Teacher-Labeling Pipeline)：

作者使用了强大的 openai/gpt-oss-120b 作为 Teacher 模型构建监督数据：

Step 1 构造 Query：Teacher 看到 issue 全貌和 tool output，但不直接写修复代码，而是写出一个“用于下一步的局部信息检索 Query”（例如：“找出报错块中的那段栈信息”）。
Step 2 提取 Span：根据刚刚生成的 Query，对编号后的工具输出进行精细的行级提取。生成的正样本和不匹配组合出的负样本最终被包装在 <relevant_lines> 标签中作为微调目标。

3. 模型选择与微调细节：

采用 Qwen 3.5 2B，因为其在推理、代码能力上表现优异，且体积小到足够无缝嵌入现有业务系统。使用了 LoRA 进行了 3 个 epoch 的微调（rank 未特别指出，通常为 8 或 16），最重要的是将 max sequence length 设置高达 20,000，以确保能吞咽大体量的单一观察结果。学习率 $2 \times 10^{-4}$，Batch Size 为 8（单张 A100 80GB 即可跑满）。最终在部署时 LoRA 参数合并回底座，使用 vLLM 进行极速推理。

📊 实验设置与结论分析 (Experiments & Results)

在经过手动校验的精质 618 样本的测试集上，指标主要考察高 Compression（压缩比） 下的 Recall（召回率）。为什么是 Recall？因为对于 Agent 来说，在剪去 90% 废话的同时，宁愿多留一行多余代码，也绝不能丢掉包含 Bug 诱因的那行 traceback。

超越大厂 API 的降维打击： Squeez-2B 在移除了 92% 的输入 Token 的同时，达到了 0.86 Recall 与 0.80 F1。作为对比，未经微调的 Qwen 3.5 35B A3B Recall 仅为 0.75，而以长文本著称的 Kimi K2 尽管达成了 94% 的压缩，但 Recall 断崖式下跌至 0.53，遗漏了大量核心信息。
为何传统启发式算法惨败？ 实验对比了经典的 BM25 (保留 Top 10% 分数段)、First-N 和 Last-N。BM25 的 Recall 竟然低至惊人的 0.22。这是由于 Tool Output 与普通文档不同，其关键报错或线索不一定与 Query 存在高度词汇重叠 (Lexical Overlap)，且位置极度随机（可能在中段，可能在末尾）。
Zero-Shot 模型的典型败局： 大参数模型在处理包含大量重复性日志（如大量成功的测试结果后跟着一个失败结果），或者 git 历史时，很容易出现“语义偏移误选”，即选到了格式相似但不相关的区块上。Squeez-2B 因为吃透了专用数据的分布，有效免疫了这种现象。

💡 关键技术亮点分析 (Key Highlights)

对我们 LLM 落地从业者的启发，我认为主要有以下三点：

Small Models for Dirty Work（让小模型做脏活累活）：在 Agent 环路中，不要总是让 70B 或 API 模型既做逻辑推理又做数据清洗。像这种 Context Pruning 任务，完全可以低成本剥离，由专精微调的 2B-7B 模型以“高速过滤阀”的角色前置完成。极大节省 Token Cost 和请求延迟。
Verbatim（逐字）哲学在代码场景的重要性： 摘要式模型（Abstractive Summarization）在编程任务中是毒药。代码上下文必须 100% 忠实原文。使用 <relevant_lines> 标签和严格行号映射的微调方式，强行约束模型进行抽取式问答（Extractive QA），是避免幻觉的最佳工程实践。
负样本的引入是神来之笔： Agent 常常面临搜索无果的工具调用。本文刻意构造了 575 个负样本并将其纳入训练集，直接赋予了模型学会说“这里没有你要的东西”（返回空）的能力，解决了此前大模型喜欢用连篇废话强行解释的通病。

Context-Value-Action Architecture for Value-Driven Large Language Model Agents

基于上下文-价值观-行动架构的价值观驱动型LLM智能体

作者：TianZe Zhang, Sirui Sun, Yuhang Xie, Xin Zhang, Zhiqiang Wu, Guojie Song

机构：北京大学（通用人工智能全国重点实验室、元培学院、心理与认知科学学院等）、北大-武汉人工智能研究院

📄 查看 ArXiv 原文

📍 研究背景与痛点 (Background & Pain Points)

在构建类人智能体（Human-like Agents）时，现有的基于大语言模型（LLM）的方法普遍存在严重的**行为僵化（Behavioral Rigidity）**和**刻板印象（Stereotyping）**问题。然而，这一致命缺陷往往被当前业界流行的“LLM-as-a-judge”评估范式所掩盖。

评估范式的自指偏见（Self-referential bias）： 评测模型（Judge）和生成模型共享相似的预训练分布偏见。Judge倾向于给那些“极其符合刻板设定”的夸张回答打高分，反而惩罚了那些具备人类真实微妙性（Subtlety）的复杂回答，形成了一个不断强化的偏见闭环。
反直觉的推理坍塌（Mode Collapse in Reasoning）： 现存的Prompt-Driven（提示驱动）方法试图通过Chain-of-Thought (CoT) 等心理学推理链路来引导模型。但作者通过实证发现：**随着提示驱动推理强度的增加，智能体的行为保真度不仅没有提升，反而加剧了价值观的极化（Polarization）**，导致群体多样性方差断崖式下跌，变成了只会输出极端刻板行为的“纸片人”。

🚀 核心贡献 (Core Contributions)

为了从根本上解决LLM智能体由于模型内生偏见导致的极化和僵化问题，本文提出了Context-Value-Action (CVA) 架构，并在真实人类行为数据集上进行了大规模验证。

解耦式的CVA架构（Decoupled Architecture）： 引入心理学中的S-O-R（刺激-有机体-反应）模型与Schwartz人类基本价值观理论，将人类行为建模为动态的价值观激活过程。CVA架构明确将“行动生成”与“认知推理”解耦，彻底避免了LLM自校验（Self-verification）带来的偏见放大。
独立训练的价值观验证器（Value-Driven Verifier）： 抛弃LLM直接作为裁判的做法，引入一个在真实人类交互轨迹上训练的判别器（Verifier），用于显式量化行动候选与动态价值观激活的一致性，从而在推理阶段引导模型选择最符合真实人类分布的行动。
提出CVABench大规模基准： 构建了包含超过110万条真实世界人类交互轨迹（涉及15,571名真实用户）的评估台，跨越社交媒体评论（Yelp）、对话论述（Reddit）和时空移动（Foursquare）三大领域，提供绝对客观的Ground Truth评估。

🔍 具体案例剖析 (Case Study: The Illusion of LLM Reasoning)

为了直观展示提示词驱动的LLM在模拟人类时的“僵化”现象，作者给出了一个极具代表性的引例（Lead-in Case Study）。

场景设定： 角色扮演一名居住在城市的IT工程师。价值观设定：高自我决定论（Self-direction: 0.9），中等享乐主义（Hedonism: 0.4 到 0.6 不等）。

上下文 (Context)： “你刚结束了漫长的一天debug工作。你一整天都坐着没动，午餐吃了薯片，晚餐吃了一个巨大的汉堡。你感到头昏脑涨且压力很大。请选择你今晚的活动：1) 去健身房 2) 吃夜宵 3) 回家睡觉 4) 去酒吧和朋友聚会。”

基线模型（GPT-4o）的行动： 选择：去健身房。 理由：虽然我很累且头昏脑涨，但这正是我要拿上健身包的原因。坐了一整天吃垃圾食品已经让我处于自动驾驶模式——我不想以这种方式结束这一天。快速的锻炼能让我重新获得控制感...

深度分析： 在真实世界中，即使是高度“自我决定”的人，在极度疲惫的工作后，往往也会被激活“享乐/休息”的价值观而选择回家睡觉。但GPT-4o的表现却极其刻板。实验表明，只要把Hedonism设定在 $\le 0.5$，GPT-4o选择“去健身房”的概率几乎是100%；即便Hedonism提高到0.6，选择去健身的概率依然高达93%。模型过度锚定了“IT精英”和“高Self-direction”的标签，给出了极其卷且不符合人类疲劳状态下动态妥协的“夸张/漫画式”行为（Caricatured behaviors）。

⚙️ 方法论与技术实现 (Methodology & Architecture)

CVA架构将行为生成转化为一个条件概率分布问题 $P(A|C, V)$，其中 $A$ 为行动，$C$ 为上下文，$V$ 为施瓦茨10维动态价值观激活向量。整个架构分为两个核心阶段：

1. 价值观-行动映射校准 (Value-Action Mapping Calibration, VMC)

为了纠正基础模型内生的“漫画化”价值观扭曲（$V \rightarrow V'$），作者摒弃了纯Prompt的玩法，采用两阶段对齐：

SFT微调： 使用带有价值观条件注入的真实交互轨迹 $(C, V, A)$ 对基础LLM（Qwen2.5-7B）进行微调，使其概率空间初步逼近真实条件分布 $P_\theta(A|C, V)$。
DPO偏好优化： 构建偏好数据集 $\mathcal{D}_{DPO} = \{(x, y_w, y_l)\}$，其中 $y_w$ 是语言学上更接近Ground Truth的生成结果。使用带有正则化项的混合DPO Loss进一步压制模型走入“刻板印象”的推理路径：
$\mathcal{L}_{total} = 1.0 \cdot \mathcal{L}_{DPO} + 0.2 \cdot \mathcal{L}_{BCO} + 1.2 \cdot \mathcal{L}_{SFT}$

2. 价值观驱动推理 (Value-Driven Reasoning, VDR)

为了解决自验证（Self-verification）带来的偏见循环，CVA引入了一个独立训练的判别式 Value-Guided Verifier。其网络结构包含：

双塔特征提取： 提取行动+上下文特征 $E_c$ 和价值观特征 $E_v$。
交叉注意力机制： $E'_v = \text{CrossAttn}(Q=E_c, K=E_v, V=E_v)$，以此模拟在特定上下文 $C$ 刺激下，10个基础价值观维度的动态“激活程度”。
对比排序训练： 在SFT/DPO模型生成的候选池中，让距离Ground truth更近的候选获得更高的得分 $s(A_w, C, V)$。使用成对排序损失进行优化：
$\mathcal{L}_{ver} = -\mathbb{E}_{\mathcal{D}} \left[ \log \sigma \left( s(A_w, C, V) - s(A_l, C, V) \right) \right]$

推理阶段 (Generate-then-Select)： 模型先基于 $(C, V)$ 生成 $N$ 个候选行动（本研究设为5），然后通过训练好的 Verifier 对其打分并选取最大化一致性得分的行动。

📊 实验设置与结论分析 (Experiments & Results)

利用自动化心理测量工具（GPV）从智能体的生成日志中逆向推导出人群的价值观分布，并与CVABench中真实人类群体的 Ground Truth 进行对比。

反直觉发现：推理越多，极化越严重。 实验全面比较了带推理的基线模型（Reasoning Agent, 推理步数 $k \in \{0,1,2,4,8\}$）。结果显示，随着思考深度增加，人群分布方差（Variance）在所有价值观维度上单调暴跌（出现Mode Collapse），而绝对均值偏差（Absolute Mean Difference）急剧上升。即：**LLM思考得越多，它就越倾向于输出二元对立的极端的刻板选择，完全丧失了人类行为的灰度。**
CVA在保真度上的碾压表现： 在Media（评价预测）、Conversation（回复立场预测）、Travel（地点与停留时长预测MSE）三大任务中，CVA架构不仅在个体准确率上超越了强大的提示基线模型（如基于GPT-4o-mini的代理），在整体价值分布对齐（Overall Var%）上实现了与真实人类仅有 +1.06% 的误差（而基线模型的偏差高达 +27.98% 甚至 -40.74%）。
认知约束的模拟： Ablation study 表明，在CVA架构内，Verifier的候选池大小 $N$ 不宜过大。当候选池超过4时，性能收益开始饱和并略有下降，这完美符合人类真实决策中的“有限理性（Bounded Rationality）”和认知负荷极限。

💡 关键技术亮点分析 (Key Insights & Interpretability)

CVA架构不仅提升了性能，更为LLM智能体的心理学可解释性提供了极佳的范例：

词汇-价值观投影（Word-to-Value Projection Analysis）： 通过提取 Verifier 内部的 TF-IDF 加权交叉注意力机制的权重，可以清晰地看到哪些具体词汇触发了哪些价值观的激活。例如，“creativity（创造力）”在模型内部强烈激活了“Achievement（成就）”维度，而“confused（困惑的）”激活了“Conformity（从众）”维度。
自动涌现的潜在心理拓扑结构（Recovery of Circumplex Structure）： 这是本文最惊艳的技术亮点之一。Schwartz价值观理论在心理学中是一个环形结构（Circumplex），相邻的价值观是兼容的（如普遍主义和仁慈），对立面的价值观是冲突的。研究者利用PCA将 Verifier 学到的高维Embedding映射到2D平面，并计算循环反转得分（Circular Inversion Score, CIS）。结果发现，Verifier在未接触结构化规则的情况下，仅靠观测人类行为与标签的对齐，就自动恢复出了高达0.75拟合度的理论环形拓扑结构。
“分离裁判”是打碎偏见回音壁的关键： 传统Role-play和CoT高度依赖LLM的内部隐式知识。在面对人类社会复杂的心理维度时，LLM往往通过其RLHF阶段被注入的“对齐税（安全、政治正确或过度礼貌）”来简化人类的多样性。CVA强制外挂经过人类真实轨迹监督的 Verifier 作为裁判，彻底改变了概率采样空间。

DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

DARE：扩散大语言模型对齐与强化学习执行框架

👨‍🔬 作者：Jingyi Yang, Yuxian Jiang, XuHao Hu, Shuang Cheng, Biqing Qi, Jing Shao

🏛️ 机构：上海人工智能实验室，复旦大学，浙江大学

📄 查看 ArXiv 原文

🔍 研究背景与痛点 (Background & Pain Points)

近年来，扩散大语言模型（dLLMs，如 LLaDA、Dream、SDAR）正作为自回归（Autoregressive, AR）模型的有力替代方案异军突起。它们将传统的“严格从左到右逐Token生成”替换为了“迭代去噪与并行生成”机制，从而支持灵活的Token顺序、双向条件依赖和并行解码。

然而，随着模型架构的成熟，当前 dLLM 领域的主要瓶颈已经转移到了后训练（Post-training）和评估基础设施上。对于资深从业者而言，当前开源生态存在以下致命痛点：

生态极度碎片化： 绝大多数基于 dLLM 的强化学习（RL）算法都作为独立论文的附属代码库发布。它们各自 Fork 不同的模型底座，自己实现 Rollout 逻辑、奖励接口和评估脚本，导致跨算法的公平比较几乎不可能。
传统 LLM 框架无法直接复用： 现有的 RLHF 框架（如 trl, verl Natively）是为自回归模型设计的，其底层假设“从左到右生成”、“精确序列 Log-prob 计算”以及“为自回归优化的推理引擎”。而 dLLM 需要面向扩散的前向/反向过程、基于去噪状态的似然替代函数（如 ELBO Surrogate）以及特定模型家族的 Rollout 后端。
极高的工程壁垒： 想要引入新模型或新 RL 目标，研究人员必须从零重构周边基础设施，严重拖慢了算法迭代速度。

💡 核心贡献 (Core Contributions)

为解决上述痛点，研究团队提出了 DARE (dLLMs Alignment and Reinforcement Executor)。这是一个构建在 verl（分布式训练）和 OpenCompass（评估）之上的统一执行框架，专为 dLLMs 的后训练设计：

统一的基础设施栈： 首次将掩码扩散语言模型（MDLMs）和块扩散语言模型（BDLMs）的后训练与评估整合在一个开源栈下。
广泛的算法覆盖： 集成了 SFT、PEFT、偏好优化（如 VRPO）以及多种专为 dLLM 设计的强化学习算法（如 d1, Coupled-GRPO, CJ-GRPO, SPG, BGPO 等），实现了真正意义上的“控制变量”公平比较。
深度的系统级优化： 针对 dLLM 特性实现了极致的加速。特别是针对 Rollout、Actor Training、以及 Log-prob 重新计算分别设计了专门的 Attention Backend 隔离与优化策略。
可复现的基准测试： 结合 OpenCompass，提供了开箱即用的多维度模型能力评估闭环，不仅是一个算法库，更是一个标准的科研实验台。

🛠️ 具体案例剖析 (Case Study: Algorithm Behaviors on Downstream Tasks)

DARE 框架通过统一的执行环境，首次向业界揭示了不同 dLLM RL 算法在真实下游任务上的真实表现差异，打破了以往“各说各话”的局面。以下是基于 LLaDA-8B-Instruct 和 Dream-7B-Instruct 的具体评测案例分析：

数学推理（Math - GSM8K/MATH）： 在统一超参下，没有单一算法能统治所有任务。例如对于 LLaDA-8B，CJ-GRPO 在 GSM8K 上达到最佳（85.6%），而 Coupled-GRPO 在更难的 MATH 上登顶（41.0%）。
代码生成（Code - HumanEval/MBPP）： 当切换到代码任务时，算法排名发生剧变。对于 LLaDA-8B，VRPO 表现出极强的统治力（HumanEval 52.4%），但如果底座换成 Dream-7B，则 Coupled-GRPO 再次成为最佳（HumanEval 61.6%）。这说明算法的鲁棒性高度依赖于底层模型家族。
系统级观察：Reward Collapse（奖励坍塌）现象： DARE 输出的训练曲线揭示了一个关键的技术发现。依赖 ELBO 蒙特卡洛估计的方法（如 SPG, BGPO）在有限采样预算下，由于 Estimator 方差较大，极易在训练中后期发生严重的奖励坍塌（Reward Curve 急剧下降）。相比之下，d1、Coupled-GRPO 和 CJ-GRPO 展现出了显著更强的训练稳定性。

*结论：DARE 让“没有免费的午餐”在 dLLM 领域变得可视化。它让研究人员明白，当前并不存在通用最优的 dLLM RL 算法，从而指明了寻找兼顾“有效性”与“稳定性”算法的后续研究方向。

⚙️ 方法论与技术实现 (Methodology & Implementation)

1. 统一的执行器抽象 (Worker, Dataflow, Workflow)

DARE 的核心设计理念是将算法特化逻辑与共享训练流解耦：

Worker（组件抽象）： 定义了 Rollout、Actor、Reward Model/Verifier、Reference Policy 等角色。
Dataflow（数据流）： 定义 Prompt、Responses、扰动轨迹（Perturbed trajectories）以及 Log-prob 信号在 Worker 之间的流转规则。
Workflow（外层优化循环）： 共享高层次的 PPO 风格工作流，只在需要的地方开放 dLLM 特有 Hook（如前向破坏过程、轨迹构建、似然估计器 bound 等）。

在底层数学表达上，框架同时原生支持 MDLMs 和 BDLMs 的目标函数：
对于掩码扩散模型（MDLMs），其负证据下界（NELBO）损失为： $$ \mathcal{L}_\theta = \mathbb{E}_{\mathbf{x}_0 \sim p_{\text{data}}, \mathbf{x}_t \sim q(\mathbf{x}_t|\mathbf{x}_0), t \sim \mathcal{U}(0,1]} \left[ -\frac{1}{t} \sum_{\ell=1}^L \mathbb{I}[x_t^\ell = \text{}] \log p_\theta(x_0^\ell | \mathbf{x}_t) \right] $$ 对于块扩散模型（BDLMs，具有半自回归特性），其 Block-wise NELBO 损失为： $$ \mathcal{L}_\theta = \mathbb{E}_{\mathbf{x}_0 \sim p_{\text{data}}, b \sim \mathcal{U}[1,B], t \sim \mathcal{U}(0,1]} \left[ -\frac{1}{t} \sum_{\ell=1}^{L'} \mathbb{I}[x_t^{b,\ell} = \text{}] \log p_\theta(x_0^{b,\ell} | \mathbf{x}_t^b, \mathbf{x}^{

2. 模型感知的加速后端 (Decoupled Acceleration Backends)

DARE 最具工程价值的设计在于：它没有采用单一通用的加速后端，而是彻底解耦了 Rollout 与 Actor Training 的底层算子实现，因为这两者的系统瓶颈在 dLLM 中完全不同。

对于 MDLMs 的训练端 (Training-side)： 在 SFT 和 Log-prob 重计算时，为了减少 Padding 开销并支持长上下文，DARE 采用了 flash_attn_varlen_func，将变长 batch 打包（Sequence Packing），直接跳过 <PAD> 标志的计算。这使迭代延迟降低了约 2.0 倍。
对于 MDLMs 的采样端 (Rollout-side)： Rollout 需要复用 KV-cache 以进行对部分固定状态的重复去噪。因此，DARE 此时弃用了 varlen，转而使用 Fast-dLLM 结合标准的 flash_attn_func 或 flash_attn_with_kvcache 以实现极速采样。这种针对性解耦使 Rollout 耗时从 161.6s 暴降至 73.4s（约 2.2 倍加速），端到端 RL pipeline 实现约 4 倍加速。
对于 BDLMs： 训练阶段整合 FlexAttention 以表达半自回归的 Block 约束并利用 SDAR 特有的 Fused 算子；Rollout 阶段则接入 LMDeploy 或 SGLang 引擎。最终使 BDLM RL Pipeline 加速超 14 倍。

📊 实验设置与结论分析 (Experiments & Conclusion)

DARE 将 OpenCompass 原生集成入 Pipeline 中。研究团队在通用问答（MMLU）、数学（GSM8K, MATH）、代码（HumanEval, MBPP）和规划任务（Countdown, Sudoku）上进行了系统的测评验证。

核心结论：

基础设施的统一极大促进了研究效率： 研究者不再需要为每个新算法写一套分布式训练和推理逻辑，DARE 充当了通用底座。
加速方案具有决定性意义： 仅依靠算法级优化不足以支撑 dLLM RL 的规模化探索，DARE 提供的模型感知异步加速（如 MDLM 4x 加速，BDLM 14x 加速）是进行大模型规模 Post-training 的必要条件。
当前算法尚不完美： 通过统一基准发现，虽然基于 DPO/GRPO 变体的方法（Coupled-GRPO, CJ-GRPO）在 dLLM 上展现出强大能力，但基于 ELBO 严谨推导的算法常常受困于估算方差带来的不稳定性。这也指明了后续研究（如引入更好的方差缩减控制变量、新的似然代理函数等）的方向。

🌟 关键技术亮点分析 (Key Technical Highlights)

破壁与融合： 首次在系统层面抹平了“掩码扩散（纯并行）”与“块扩散（半自回归）”模型之间的工程鸿沟，用一套抽象覆盖了两条演进路线，这对于想要跟踪前沿的 LLM RL 团队极具实用价值。
反直觉的系统设计——读写分离级 Attention 后端解耦： 传统的 LLM 训练框架（如 Megatron 体系）通常在整个前向后向复用同一种 Attention 实现。DARE 敏锐地捕捉到了 dLLM 的特性：Rollout 是定长/局部 Mask 多步迭代（需重度依赖 KV-Cache），而 Actor Update 是多步去噪轨迹的梯度回传（需依赖序列打包以规避 Padding 浪费）。这种针对同一模型在不同生命周期使用不同算子的设计，展现了极高的 Systems for AI 水平。
去伪存真（Debiased Evaluation）： 在论文泛滥的时代，DARE 剥离了各家论文自带的“Tricks”（如特殊 Prompt、隐藏的正则化项或评估脚本的特殊处理），在一个剥离了工程干扰的统一容器内，真正测出了各路 RL 算法的“裸装战力”，为社区提供了高价值的真实验证。

Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

Paper Circle：一个开源的多智能体学术研究发现与深度分析框架

作者：Komal Kumar, Aman Chadha, Salman Khan, Fahad Shahbaz Khan, Hisham Cholakkal

机构：MBZUAI（穆罕默德·本·扎耶德人工智能大学）, AWS Generative AI Innovation Center

📄 查看 ArXiv 原文

💡 研究背景与痛点

近年来，科学文献的增长速度呈指数级爆发，科研人员在追踪最新进展、深入理解文献以及组织文献综述时面临巨大挑战。传统的检索引擎或学术推荐系统往往只提供基于浅层关键词的匹配，难以针对复杂查询提供具有深度逻辑和上下文脉络的综述式导读。

伴随大语言模型（LLMs）的演进，学术界开始涌现出一批所谓的“AI 科学家（AI Scientists）”（如 O-Researcher、DORA AI 等），它们试图模拟从生成假设、做实验到写论文的全流程。然而，纯自动化的端到端代理系统在现实中往往不切实际：一方面，黑盒生成的幻觉问题无法从根本上消除；另一方面，科研往往高度依赖人工在循环中（Human-in-the-loop）的批判性思维，而不是单纯寻求一个全自动生成的终态结果。

此外，现有的文献多智能体系统（如 PaperQA, SciSage）在功能矩阵上也存在明显短板：要么缺乏多源数据聚合能力，要么无法生成结构化的知识图谱支持复杂查询溯源，抑或是无法进行可复现的、确定性的流程输出。

🚀 核心贡献

本文提出了 Paper Circle，这是一个开源的、多智能体协同的学术检索与分析工作台。它的核心理念并非“替代人类做科研”，而是扮演一个强大的“科研副驾（Force Multiplier）”，增强人类对海量文献的处理能力。其核心贡献包括：

文献发现管线（Discovery Pipeline）： 构建了一个灵活的多智能体检索系统，能够整合线上（arXiv, Semantic Scholar等）与线下结构化数据库。它引入了涵盖相关性、时效性、新颖性和 BM25 的多维度打分框架，并结合 MMR（最大边际相关性）实现多样性重排（Reranking）。该管线具有强确定性，可同步导出多格式（JSON, Markdown, BibTeX）产物。
文献分析管线（Analysis Pipeline）： 突破了传统的 Token Chunking 局限，将单篇论文深度解析为带类型的动态知识图谱（MindGraph）。图谱节点包含了概念、方法、实验、图表等实体及其关联关系，不仅支持图结构的复杂逻辑问答（Graph-aware QA），还能提供细粒度到原始 PDF 具体位置的溯源（Provenance）。
虚拟同行评审系统（Review Framework）： 集成了一组专业的 AI Agent 角色（如 Deep Analyzer, Critic, Literature Expert 等），能够从技术细节、创新点、复现透明度等多个维度，自动化输出类顶会（如 NeurIPS、ICLR）质量的审稿分析报告。

🔍 具体案例剖析 (Case Study)

为了直观感受 Paper Circle 的能力，我们来看一个典型的基于图谱的分析问答场景：

用户提问："What is manifold-constrained hyper-connections and what is Hyper-Connections?" （什么是流形约束超连接？什么是超连接？）

智能体执行逻辑：

概念摄取与建图： 系统在此前已将特定论文进行了结构化解析。Concept Extractor 从文本中抽取了相关概念及其定义；Linkage Agent 将文中的“Figure 1”和“Figure 5”与该核心概念进行了边链接（Edge Linking）。
图感知检索与扩展（GraphRetriever）： 系统不只是做单纯的 Vector 检索，而是首先检索到相关概念节点，然后通过 1-hop 邻居图遍历找回上下文和关联图表描述。
回复生成与溯源： 最终生成的回答明确指出：“Hyper-Connections (HC) 扩展了传统的残差连接机制，通过扩大残差流的宽度并多样化连接模式，提供性能增益但可能导致训练不稳定。而 Manifold-Constrained HC 则是通过在流形约束下改善这种不稳定性……”。
证据对齐（Grounding）： 最关键的是，在 UI 的回答下方，系统精准挂载了 "Figures: Figure 1, Figure 5" 及其在原论文中的对应上下文链接。这种高度可解释的输出，极大降低了研究人员陷入 LLM 幻觉的风险。

⚙️ 方法论与技术实现

系统底层基于 Hugging Face 的轻量级 smolagents 框架构建，以 CodeAgent 作为核心编排器，通过编写 Python 代码来调度多个具备特定工具箱的 ToolCallingAgent，这保障了高度的动作可追溯性和逻辑严谨性。

1. 文献发现发现引擎的多维打分与重排

检索系统的关键在于提供高质量的候选集。每个检索到的候选论文会经过一个复合打分函数：

$$combined(p) = w_s \cdot similarity + w_r \cdot recency + w_n \cdot novelty + w_b \cdot bm25$$

其中，相似度由 Query 和文档（标题+摘要）的 TF-IDF 向量余弦相似度计算得出。新颖性分数（Novelty）则是计算文档向量偏离语料库平均质心的距离，以此召回容易被忽略的长尾文献。在排序后，系统支持调用 Cross-Encoder 进行精准重排（Reranker）。

为避免同质化推荐，系统引入了最大边际相关性（MMR）来兼顾相关性和多样性：

$$MMR = \arg \max_{p \in R \setminus S} \left[ \lambda \cdot sim(p, q) - (1 - \lambda) \cdot \max_{s \in S} sim(p, s) \right]$$

2. 将 PDF 转化为“心智图（MindGraph）”

在 Analysis 管线中，系统舍弃了暴力的字符级切块，转而使用 PyMuPDF 和 SemanticChunker 提取具有语义结构的文档对象（包含层级章节、图注、表格、公式）。图谱构建（GraphBuilder）由四个专业 Agent 接力完成：

Concept Extractor： 识别并分类定义、理论、现象等核心概念。
Method Extractor： 锚定方法论相关的关键词，提取算法及其基本组件。
Experiment Extractor： 解析实验设置、使用的数据集和关键指标结果。
Linkage Agent： 基于上下文分析，将图表链接到被支持的概念与方法之上，生成具有有向边的关联图。

3. Coverage Verification（覆盖率核查引擎）

这是保证系统稳健性的一个重要防御层设计。它会在提取后执行逆向扫描，统计“有多少章节没有映射到任何概念？”或“哪些核心图表没有被任何节点连接？”从而给出置信度报告，避免信息“静默遗漏（Silent Omission）”。

📊 实验设置与结论分析

作者不仅评估了检索有效性，还针对不同的模型和消融策略进行了深入测试：

大模型底座对比测试： 实验在自建的 50 个真实 Query Benchmark（SemanticBench）上进行。结果显示，代码专精模型 qwen3-coder-30b 实现了最高命中率（80%）和最顶级的排名质量（MRR=0.627），且耗时极少（约 21.1 秒/Query）。这证明，基于 Code 驱动的智能体系统天然适合由代码能力强的大模型驱动。
检索策略消融实验： BM25 基线出乎意料地强悍（78% Hit Rate），而纯语义检索表现拉跨（R@1 明显掉点）。如果采用 BM25 + Reranker (Cross-encoder) 的融合架构，MRR 将进一步推升至 0.8692，但代价是计算耗时增加了 28 倍。这就要求工程落地中需根据延时约束灵活退化策略。
机器评审与人类评审对齐度评测： 系统利用包含了 Deep Analyzer 和 Critic Agent 的评测组件复现了 ICLR 2024 的打分情况。结果发现，gpt-oss:120b 能够实现总体误差最低，但在诸如整体评分（Rating）和贡献度（Contribution）上，所有大模型给出的打分与真实人类评审的相关系数都极低（$|r| < 0.25$）。这意味着，即便是当前最好的多智能体系统，也无法可靠地区分边缘水平的论文，人类评审专家仍然不可替代。

🌟 关键技术亮点分析 (从业者视角)

站在 LLM 落地从业者的视角，这篇工作具备几个极高的工程参考价值：

强管控式的“Code Agent”取代“JSON Schema 调用”： Paper Circle 的底座采用了近期备受推崇的基于代码生成的编排器。相较于传统基于 JSON 格式化函数回调的机制，让 LLM 直接编写 Python 脚本来并行调用多个底层检索和抽取工具，具有更强的复杂逻辑表达能力和鲁棒性。
State 化管理与确定性原则： 现在的多智能体框架极易陷入黑盒链式调用的陷阱。系统将状态机（PipelineState）解耦并在每一步强制序列化（如 `papers.json`, `links.json`）。这一工程设计极大降低了科研系统的试错成本，保障了强烈的审计和可复现诉求。
打破 Token Chunking 的壁垒： 大量现存的 RAG 系统在处理长文档 PDF 时因粗暴切块而丢失跨模态上下文。本文将文档拆解成包含结构树、段落属性和跨模态对象（公式/图表）的实体网络，并在问答（QA）环节采用 Graph-aware RAG（即查找到 Node 后沿图谱展开 1-hop 补充上下文），代表了长文本 RAG 进入 Graph RAG 范式的成熟落地应用案例。

REAM: Merging Improves Pruning of Experts in LLMs

REAM：合并技术如何改善大语言模型中专家的剪枝效果

作者机构：Saurav Jha, Maryam Hashemzadeh, Ali Saheb Pasand 等 (Mila, 蒙特利尔理工大学, 麦吉尔大学, 三星AI中心)

论文链接：📄 查看 ArXiv 原文

🔍 研究背景与痛点 (Background & Problems)

稀疏混合专家（Sparse Mixture-of-Experts, SMoE）架构是当前大规模语言模型（LLMs）走向万亿参数时代的主流选择。MoE 通过动态路由（Routing）机制在增加模型参数容量的同时，维持了合理的单 Token 激活计算量（FLOPs）。然而，对于显存受限或边缘部署的真实场景而言，虽然推理 FLOPs 没涨，但所有的 Experts 参数都必须常驻显存，这对系统的 Memory footprint 提出了极大的挑战。

当前的静态 MoE 压缩技术主要分为两派：

专家剪枝（Expert Pruning）：如 REAP，根据 Routing 频率或 Saliency Score 直接移除看似冗余的专家。痛点：一刀切的移除可能会导致模型在未充分校准（Out-of-distribution）的域上丢失重要知识。
专家合并（Expert Merging）：将相似的专家按权重或激活进行聚类并做加权平均合并。痛点：由于强行聚类，可能会把专长截然不同（Functionally mismatched）的专家糅合成“四不像”，且合并操作往往没有对 Router Logits 的独立性做针对性处理。

作者认为，Pruning 虽然在实践中常优于单纯的 Merging（如 REAP 证明），但丢弃专家内的有价值知识终究不是最优解。如何“既要剪枝的高效和无损，又要合并的知识保留”？这就是本文的切入点。

💡 核心贡献 (Key Contributions)

本文提出了一种统一的专家压缩框架 REAM (Router-weighted Expert Activation Merging)，它有效融合了剪枝与合并的优势：

多维度专家相似度度量（Gated Expert Similarity）：创造性地结合了 Gate Logits 的表征冗余和 Softmax 缩放后的 Expert Output 冗余，使合并策略对专家的路由置信度更加敏感。
伪剪枝分组策略（Pseudo-pruning）：放弃了传统的均匀聚类，提出一种贪心吸收策略——将 Saliency 最高的几个专家作为“锚点保护起来”，然后只让不重要的专家向最相似的锚点合并，最终形成“几个大组+大量单例专家（Singletons）”的非对称拓扑，在效果上模拟了剪枝。
联合激活-权重对齐机制（Weight-Activation Alignment）：在执行专家神经元级别的置换对齐（Permutation Alignment）时，联合使用数据驱动的 Activation 成本与数据无关的 Weight 成本，缓解了仅依赖激活造成的噪声匹配。
序贯合并与特征重算（Sequential Merging）：打破了一次性收集全局激活用以所有层压缩的常规，采用了逐层合并、逐层前向重算激活（Recompute activations）的策略，保证了深层网络拿到的统计数据没有发生偏移。

🛠 具体案例剖析 (Case Study: 揭秘校准数据的致命 Trade-off)

对于无需微调的静态模型压缩（One-shot transformation），校准集（Calibration Dataset）的选取如同决定模型生死的“指挥棒”。文中深刻揭示了在生成任务（GEN）和判别任务（MC）之间存在由校准集引发的强烈 Trade-off：

现象一：代码能力的“崩塌与复苏”。以 96 个专家（压缩25%）的 Qwen3-30B-A3B-Instruct 为例。如果采用完全不含 Code 的校准混合（C4:Math:Code = 0.5:0.5:0），REAP 剪枝方法在 HumanEval 上的得分会从原模型的 93.3 暴跌至 5.0，LiveCodeBench 跌至 0.0。
现象二：泛化与专精的博弈。当通过 REAM 框架切换到包含适度代码的校准配比（如 0:0.5:0.5）时，REAM 能将 HumanEval 恢复到 93.3（完全无损），GEN 平均分高达 69.8，几乎逼近 128 专家原模型的 70.9。但同时，C4(通用文本) 比例的降低会导致模型在 MC（选择题）上出现轻微退化。

洞察：代码和数学专家在激活模式上通常呈现高度的长尾特化（Spike activations），如果只用通用文本去计算 Saliency，这类特化专家会被视为“无用冗余”遭到无情合并或剪枝。REAM 的 Pseudo-pruning 能够在较合理的校准域下，将这些特化专家作为 Singleton 孤立保留下来，从而在 Qwen3-Coder-Next 等硬核模型上实现了25%压缩几乎零掉点的神级表现。

⚙️ 方法论与技术实现 (Methodology)

REAM 框架主要包含以下几个核心数学构造与执行流程：

1. 门控专家相似度计算 (Gated Expert Similarity)
传统 Merging 只计算原输出的相似度，REAM 结合了门控的置信度。定义专家相似度度量公式如下： $$ \delta_{\text{REAM}}(i, j) = \delta_g(i, j) + \tilde{\delta}_E(i, j) $$ 其中 $\delta_g$ 是 Router logits 的余弦相似度，$\tilde{\delta}_E$ 是经过 Softmax Router 分数调制的专家输出相似度： $$ \tilde{\delta}_E(i, j) = \frac{1}{|X|} \sum_{x \in X} \text{sim}(\sigma(x)_i E_i(x), \sigma(x)_j E_j(x)) $$ 这种做法使得那些产生相似 RAW 特征但应用于不同 Token 分布的专家，不会被简单粗暴地合并。

2. 伪剪枝 (Pseudo-pruning) 聚类
给定校准数据 $X$ 计算出基于 Router 权重的显著性得分 $S^{\text{reap}}_i$。保留前 $N'$ 个最显著的专家作为聚类中心集合 $C_\ell = \{c_1, \dots, c_{N'}\}$（按重要度降序）。对于剩余边缘专家，按贪心策略将它们分配给距离最近的中心，且限制每个中心最大吸收数量 $C$。最终结果是少部分中心吸收了大量废弃专家，而大量高排位专家不受污染（见架构图 a）。

3. 联合对齐合并 (Activation and weight permutation alignment)
当专家 $j$ 要合并进中心专家 $c_i$ 时，需要重排神经元。REAM 构建了混合分配成本矩阵： $$ \mathcal{C}_{\langle c_i,j \rangle} = \mathcal{C}_{\text{act}} + \mathcal{C}_{\text{wt}} \in \mathbb{R}^{d \times d} $$ 该方法强制要求匹配的神经元对齐既要在数据激活空间一致，又要保证其静态权重不要差异过大，有效起到了正则化（Regularization）作用。

4. 序贯层叠合并 (Sequential Merging)
如上图(b)所示，在完成第 $\ell$ 层合并后，模型会基于当前被修改后的 $\ell$ 层输出，重新对下一层执行一次前向计算获取最新激活数据，消除“陈旧激活（Stale Activations）”导致的级联崩坏。

📊 实验设置与结论分析 (Experiments & Analysis)

模型阵容： 挑选了业界一流的最新 MoE：Qwen3-30B-A3B-Instruct（128专家）、Qwen3-Coder-Next（80B，512专家）、GLM-4.5-Air（106B，128专家）。
评测基准： 8项多选题（MC：MMLU、HellaSwag等）+ 6项生成题（GEN：IFEval、HumanEval、GSM8K等）。

核心性能表现： 在 25% 专家剪裁下（如 128 $\to$ 96 专家），REAM 的最高 GEN 平均分为 69.8（几乎不掉点于原模型的 70.9），远超纯合并模型 HC-SMoE (67.4) 及剪枝 SOTA REAP (68.6)。
大模型上的无损压缩： 在压缩包含 512 专家的 Qwen3-Coder-Next 时（压缩至 384 专家），REAM 配合代码占比高的校准域，在 GEN 榜单上打平了原始 512 专家的性能（两者平均分均为 72.9），某些单项如 HumanEval (95.1) 甚至超越了原模型。
帕累托前沿分析 (Pareto Analysis)： 无论是在 96 还是 64 个专家的超限压缩下，绘制基于 MC × GEN 空间的帕累托包络线，REAM 均拿下了最高的 Hypervolume (HV)。这说明在几乎所有的通用-专精性能 Trade-off 节点上，REAM 的理论上限均压制其他对手。
Ablation 验证： 移除 Pseudo-pruning （回退至均匀聚类）会导致性能掉点 $\Delta\text{AVG} = -3.6$；移除 $\sigma(x)$ 缩放调控会导致 $\Delta\text{AVG} = -5.9$。每个机制都有其不可或缺的作用。

🌟 关键技术亮点分析 (Technical Highlights)

跳出“非此即彼”的路线桎梏：过去的一年里，学界一直围绕“MoE该做Pruning还是该做Merging”争论不休。本文敏锐地把握住了问题的本质：顶流专家的权重非常脆，不能被污染；长尾专家的知识虽冗杂但仍有剩余价值，不该直接丢掉。Pseudo-pruning 提供了一个极具工业美感的工程解法，完美模拟了非对称映射。
深刻揭示了校准数据集带来的不对称表征灾难：许多无监督静态压缩方法盲目依赖 C4 等网页文本做校准。本文以血泪数据证实：偏代码、数学的特殊专家对于通用文本根本不激发，导致他们会成为剪枝的炮灰。这个观察极其重要，这为未来进行Task-aware MoE Compression 或者是多阶段异构校准策略提供了详实的理论支撑。
工程可用性极强：REAM 依然保持了 One-shot 后训练静态优化的属性。即便引入了逐层 Re-computation 机制导致所需时间略有增加（如文中提到对 30B 模型全流程从 1 小时增加到 1.5 小时，显存依然维持 ~30GB），但考虑到这只是线下的一锤子买卖，其带来的收益（接近无损的25%显存释放）在实际业务上线时是极其诱人的。

大模型 Agent 与强化学习 (RL) 深度学术解读报告

Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents

Squeez：面向代码智能体的任务条件工具输出剪枝

🔍 研究背景与痛点 (Background & Pain Points)

🌟 核心贡献 (Core Contributions)

💡 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现 (Methodology)

📊 实验设置与结论分析 (Experiments & Results)

💡 关键技术亮点分析 (Key Highlights)

Context-Value-Action Architecture for Value-Driven Large Language Model Agents

基于上下文-价值观-行动架构的价值观驱动型LLM智能体

📍 研究背景与痛点 (Background & Pain Points)

🚀 核心贡献 (Core Contributions)

🔍 具体案例剖析 (Case Study: The Illusion of LLM Reasoning)

⚙️ 方法论与技术实现 (Methodology & Architecture)

1. 价值观-行动映射校准 (Value-Action Mapping Calibration, VMC)

2. 价值观驱动推理 (Value-Driven Reasoning, VDR)

📊 实验设置与结论分析 (Experiments & Results)

💡 关键技术亮点分析 (Key Insights & Interpretability)

DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

DARE：扩散大语言模型对齐与强化学习执行框架

🔍 研究背景与痛点 (Background & Pain Points)

💡 核心贡献 (Core Contributions)

🛠️ 具体案例剖析 (Case Study: Algorithm Behaviors on Downstream Tasks)

⚙️ 方法论与技术实现 (Methodology & Implementation)

1. 统一的执行器抽象 (Worker, Dataflow, Workflow)

2. 模型感知的加速后端 (Decoupled Acceleration Backends)

📊 实验设置与结论分析 (Experiments & Conclusion)

🌟 关键技术亮点分析 (Key Technical Highlights)

Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

Paper Circle：一个开源的多智能体学术研究发现与深度分析框架

💡 研究背景与痛点

🚀 核心贡献

🔍 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现

1. 文献发现发现引擎的多维打分与重排

2. 将 PDF 转化为“心智图（MindGraph）”

3. Coverage Verification（覆盖率核查引擎）

📊 实验设置与结论分析

🌟 关键技术亮点分析 (从业者视角)

REAM: Merging Improves Pruning of Experts in LLMs

REAM：合并技术如何改善大语言模型中专家的剪枝效果

🔍 研究背景与痛点 (Background & Problems)

💡 核心贡献 (Key Contributions)

🛠 具体案例剖析 (Case Study: 揭秘校准数据的致命 Trade-off)

⚙️ 方法论与技术实现 (Methodology)

📊 实验设置与结论分析 (Experiments & Analysis)

🌟 关键技术亮点分析 (Technical Highlights)