大模型 Agent 与强化学习 (RL) 深度学术解读报告

Kernel-Smith: 用于进化内核优化的统一配方

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

作者:He Du, Qiming Ge, Jiakai Hu, Aijun Yang, Zheng Cai, Yicheng Chen, Bowen Li, Qipeng Guo, Kai Chen 等

机构:上海人工智能实验室 (Shanghai AI Laboratory), 沐曦 (MetaX), 复旦大学 (Fudan University)

📄 查看 ArXiv 原文

1. 研究背景与痛点

高性能GPU内核(Kernel)的生成对于发掘现代加速器的硬件潜力至关重要。无论是大型语言模型的训练/推理系统(如Megatron、vLLM、SGLang、LMDeploy),还是AI for Science (AI4S) 中的科学计算工作负载,都高度依赖细致的内核优化(Kernel Optimization)来实现极致的吞吐量。

尽管现代LLM在通用编程能力上取得了长足进步,但生成高性能的底层硬件内核远未被真正解决。将其从实验室的单次生成(One-shot code generation)推向生产环境面临两大核心痛点:

2. 核心贡献

为了解决上述痛点,本文提出了 Kernel-Smith,这是一个统一的、用于生成高性能GPU内核的框架,它将稳定的评估驱动进化Agent与面向进化的后训练(Post-training)配方紧密结合。

3. 具体案例剖析 (Case Study)

内核生成的最终目的是在真实的推理框架中应用。Kernel-Smith成功实现了由自动化Agent挖掘优化机会,并将生产级代码合并到流行推理系统中的完整工作流:

4. 方法论与技术实现

4.1 评估驱动的进化 Agent 框架 (AlphaEvolve)

传统的单线对话范式存在严重的早期锚定效应。Kernel-Smith借鉴岛屿进化算法和MAP-Elites的思想,维护了一个“种群-存档(Archive)”结构。在每轮迭代中,模型被输入PyTorch参考代码以及从存档中采样的表现最好或多样性最高的历史实现,并以此生成新的内核变体。每次评估返回结构化的精细反馈,包括错误日志、硬件信息和真实加速比,这为LLM提供显式的执行证据,而非纯文本维度的对话反思。

4.2 鲁棒的评估沙盒后端

为了给强化学习(RL)提供可信奖励,防止因评测抖动导致的“奖励黑客(Reward Hacking)”,评估后端做了以下处理:

4.3 面向进化的训练配方 (SFT & GRPO RL)

在获取训练数据时,系统先抓取了GitHub野生环境中的59k高质量 PyTorch Module,利用冷启动模型跑出多轮进化轨迹。随后使用聚类(HDBSCAN)提取专家数据以保证多样性。针对模型训练,作者揭示了一个关键点:不能盲目利用整条轨迹进行强化学习。

5. 实验设置与结论分析

所有评估均在控制变量的统一Kernel-Smith Agent框架内进行,给予每个模型40轮进化机会,杜绝了系统级差异。核心关注三个指标:正确率(Corr)、初次通过率(Fast₁)、以及平均加速比 (Avg AMSR)。Avg AMSR计算方法为所有算子加速比均值(如果加速比<1 则计为0)。

5.1 NVIDIA Triton 后端评估 (KernelBench)

在KernelBench的测试中,尽管Claude-4.6-opus在正确率(99.33%)和Fast₁上达到顶峰,但 Kernel-Smith-235B-RL 在核心指标 Avg AMSR 上以 3.70 分取得了跨所有难度层级的绝对统治地位(SOTA)。特别是在中等难度(Level 2)中,其 Avg AMSR 高达 7.77,远超 Claude-4.6-opus 的 5.83。即使在困难(Level 3)算子上,正确率也达到了惊人的94%,大幅领先Gemini-3.0-pro的88%及所有开源大模型。

5.2 跨平台适应性:MetaX MACA 后端

为了证明评估-演化框架具备脱离特定硬件架构的普适性,团队进一步在国产芯片 MetaX MACA 后端测试了Kernel生成。针对CUDA到MACA的迁移任务,Kernel-Smith-MACA-30B 即达到了 13.27 的平均加速比,远超包含 Qwen3-235B 和 DeepSeek-v3.2 的庞然大物。而 235B 版本进一步推高至 14.26。

6. 关键技术亮点分析

Heddle: A Distributed Orchestration System for Agentic RL Rollout

Heddle: 面向Agentic RL Rollout的分布式编排系统

作者:Zili Zhang, Yinmin Zhong, Chengxu Yang, Chao Jin, Bingyang Wu, Xinming Wei, Yuliang Liu, Xin Jin

机构:Peking University, Independent Researcher

📄 查看 ArXiv 原文

研究背景与核心痛点

随着大模型从静态推理向自主智能体(Autonomous Agents)演进,基于强化学习的 Agentic RL(如 PPO, GRPO)成为解锁复杂任务(如编码、搜索、数学推理)的关键范式。典型的代表包括 Claude Code 和 DeepSeek-R1。在 Agentic RL 的训练 pipeline 中,**数据收集阶段(Rollout)**占据了超过 80% 的时间,是绝对的系统瓶颈。

Agentic Rollout 的核心特征是**模型推理与外部工具调用的多步交替(Multi-step Trajectories)**。这种交互会导致极其严重的**长尾分布(Straggler Effect)**:绝大多数轨迹很短,但极少数极其复杂的轨迹会显著拖慢整个全局 Batch 的 makespan,导致集群大量计算资源闲置等待。

现有的开源框架(如 Verl, SGLang, Slime)采用的是 Step-centric(以单步为中心) 的架构,将 Agent 轨迹的每一步视为独立的 LLM 推理请求。这种割裂上下文的视角引发了三个致命问题:

核心贡献

本文提出 HEDDLE,这是首个采用 Trajectory-centric(以轨迹为中心) 设计的分布式 Agentic RL 编排系统。它将系统目标公式化为最小化最长轨迹的 makespan,并从计算任务的 When、Where、How 三个维度进行深度解耦优化:

具体案例剖析 (Case Study)

考虑一个 Coding Agent 任务(如基于 CodeForces 数据集)。在强化学习(如 GRPO)中,对同一个代码编写 Prompt,模型会通过高 Temperature 采样生成多个不同的解答轨迹(Trajectories,例如 $\tau_1$ 和 $\tau_2$)。

动态不确定性导致的严重长尾:

现有框架的灾难: 在传统的 Step-centric 框架(如 Verl)下,$\tau_2$ 每次从测试工具(Tool Execution)返回,系统都将其视为一个“全新的普通请求”放在等候队列末尾。如果它需要交互 10 次,就要被强制插队排队 10 次;而且可能被分配到负载了大量 $\tau_1$ 的节点上,被拥挤的显存和计算单元卡住。HEDDLE 的设计理念正是为了在第一次错误返回时,立刻识别出 $\tau_2$ 的长尾潜质,将其拉升至最高调度优先级,并单独分配高并行度计算资源为其“开绿灯”。

方法论与技术实现

⚙️ 方法论与技术实现

论文采用了最近因 DeepSeek R1 而名声大噪的 GRPO (Group Relative Policy Optimization) 作为底座强化学习算法。传统的 RL(如 PPO)容易出现模式崩塌,而 GRPO 约束组内采样的相对优势评估,十分契合 RTL“同一种功能有多种等效结构解”的特性。

1. 三阶段混合训练流水线 (Three-stage Training Pipeline)

为了对抗数据稀缺,作者设计了极为精细的训练阶段划分:

2. 多目标奖励调度机制

总奖励函数定义为四个维度的加权:

$$R_{total} = R_{syn} + R_{func} + R_{div} + R_{cont}$$

3. GRPO 核心策略更新

对于输入问题 $q$,GRPO 采样一组回复,并基于这组内的相对 Advantage 计算优化目标,同时引入 KL 散度约束防止偏离原策略过远:

$$ \mathcal{J}_{GRPO}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^{G} \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} \hat{A}_i, \text{clip}(...)\hat{A}_i \right) - \beta \mathbb{D}_{KL} \right) \right] $$

📊 实验设置与结论分析

🌟 关键技术亮点分析 (资深从业者视角)

从大语言模型落地 EDA 和代码生成的角度来看,RTLSeek 在方法论上有极具启发性的创新:

  1. 在 Train-Time 利用 Compute,突破了领域数据天花板: RTL 最大的痛点就是“高质量带测试集代码”比金子还贵。与其死磕合成更多监督数据,RTLSeek 把策略转为用算力换数据(Compute over Data)。通过 GRPO 多次采样加上自研的自动化多维判分系统(语法 + AST差异 + 模拟器),硬生生在极其贫瘠的数据基础上让模型自己把解空间“踩透”了。
  2. 利用 AST 破解了强化学习中的“Reward Hacking”: 在做 RLHF / RLAIF 时,只要给“多样性”打分,聪明的 LLM 一定会投机取巧,比如仅做改名、换行、或者塞无用逻辑。这篇工作最巧妙的工程实现是将硬件描述语言转换为抽象语法树(AST)去比对结构拓扑,逼迫 LLM 必须从架构(Architecture)层面进行实质创新(如用结构建模替换行为建模),这是真正 Domain-Specific 的巧思。
  3. 揭示了 RTL 设计本身就是强化学习绝佳的 Testbed: 数字逻辑设计有着极强的确定性验证标准(通过 VCS 等工具),同时又是一个高度多解的连续设计空间(PPA Trade-off)。将类似 DeepSeek-R1 的逻辑推理训练手法迁移至 EDA 领域,RTLSeek 证明了这种范式的泛化威力。

DSevolve: Enabling Real-Time Adaptive Scheduling on Dynamic Shop Floor with LLM-Evolved Heuristic Portfolios

中文标题:DSevolve:利用LLM演化的启发式组合实现动态车间的实时自适应调度

作者:Jin Huang, Jie Yang, XinLei Zhou, Qihao Liu, Liang GAO, Xinyu Li

机构:华中科技大学机械科学与工程学院

📄 查看 ArXiv 原文

研究背景与痛点

在现代制造业中,动态柔性作业车间调度(Dynamic Flexible Job Shop Scheduling Problem, DFJSSP)是一项核心挑战。车间经常面临机器故障、紧急插单等随机扰动,要求调度系统在秒级时间内做出响应,以维持高吞吐量和按时交付率。

当前的调度方法存在显著瓶颈:

核心贡献

本文提出了 DSevolve (Dynamic Scheduling Evolve) 框架,将高质量多样性的启发式演化(离线)与基于探针的实时检索(在线)解耦。核心贡献包括:

具体案例剖析 (Case Study)

假设某柔性作业车间正在运行,突然发生动态扰动:机器6发生故障,预计50分钟后修复,同时有一批新订单到达。 DSevolve 的处理流程如下:

方法论与技术实现

DSevolve 框架主要由三大模块构成:

1. 行为特征空间构建 (Behavioral Feature Space)

为了量化 LLM 生成的 HDR 的表型行为,定义了一个三维描述符映射 $\Phi: \mathcal{C} \rightarrow \mathbb{R}^3$: $$\mathbf{v}_c = \Phi(c) = [f_{\text{skew}}, f_{\text{wait}}, f_{\text{div}}]^\top$$ 其中,$f_{\text{skew}}$ 衡量各机器负载的偏度(资源均衡性),$f_{\text{wait}}$ 捕获作业的平均等待比例(流程效率),$f_{\text{div}}$ 量化该规则相对于现有存档种群的行为新颖性(多样性)。此 3D 空间用于 MAP-Elites 的网格化存档索引。

2. 拓扑感知的多样性演化 (Topology-Aware Diversity Evolution)

不仅关注目标函数的优劣,更关注个体在特征空间 $\mathcal{F}$ 中的拓扑结构:

3. 基于探针的快速调度 (Probe-Based Rapid Scheduling)

将演化好的多样性规则库(Archive $\mathcal{A}$)应用于在线环境。定义探针指纹 $\mathbf{f} \in \mathbb{R}^6$。离线阶段,针对多尺度静态实例构建知识库 $KB = \{(\mathbf{f}_i, \mathcal{R}_i^*)\}_{i=1}^N$。在线调度时,计算当前状态的归一化指纹 $\hat{\mathbf{f}}_{\text{curr}}$,通过加权欧式距离检索: $$d(i) = \|\mathbf{w} \odot (\hat{\mathbf{f}}_{\text{curr}} - \hat{\mathbf{f}}_i)\|_2$$ (其中 $w_j \propto \text{Var}(f_j)$,方差大的特征给予更高权重)。最后提取候选规则执行极速验证,选取使得 Makespan 最短的规则进行在线分派: $$r^* = \arg\min_{r \in \mathcal{C}} \text{Makespan}(\text{Sim}(S_t, r))$$

实验设置与结论分析

实验设置:

核心结论:

关键技术亮点分析

从大语言模型工程师的视角来看,本文的核心巧思在于对 “生成成本与部署延迟” 以及 “LLM 坍塌趋同” 两个痛点进行了优雅的降维打击:

  1. 范式转移(Offline Diversity + Online Retrieval): 没有强行让 LLM 参与在线推理,而是将其作为一个“超级编译器”,在离线阶段充分榨取 LLM 的代码生成与逻辑演绎能力,生成一个“弹药库(Quality-Diverse Archive)”。这完美规避了 LLM 毫秒级在线调度的延迟硬伤。
  2. MAP-Elites 思想在 Prompt 层的渗透: 大多数基于代码演化的论文仍然遵循单维度的“标量奖励”优化(即寻找最高分的代码)。本文创造性地将传统遗传算法中的 MAP-Elites(多维精英保留机制)结合到了 LLM 演化链路中,并通过 Contrastive Prompting 实现了“定向反骨”(明确要求 LLM 往偏度不同、拥挤度低的方向生成代码),极大地提升了多样性。
  3. 轻量级探针(Probe)设计: 工业调度状态很难被完美向量化。作者摒弃了复杂的图神经网络(GNN)表征,转而采用极简的 SPT(最短时间)规则先行模拟“探底”,用模拟结果的偏度/饱和度作为环境的 Embedding(指纹)。这种基于先验逻辑提取特征的方法具有极高的可解释性和运行效率,对工业部署极度友好。

PeopleSearchBench: A Multi-Dimensional Benchmark for Evaluating AI-Powered People Search Platforms

PeopleSearchBench:用于评估AI驱动的人物搜索平台的多维基准测试

作者:Wei Wang, Tianyu Shi, Shuai Zhang, Boyang Xia, Zequn Xie, 等

机构:LessieAI Research Team

📄 查看 ArXiv 原文

🔍 研究背景与核心痛点

在招聘、B2B销售拓客、KOL/网红发现等真实商业场景中,“找人”(People Search)是一个极为高频且高价值的Workflow。随着Agentic AI的发展,越来越多的AI平台开始自动化这一过程。然而,目前业界缺乏一个标准化、多维度的基准测试来评估这些AI找人系统的真实表现。传统的评估方法在这一领域遭遇了严重的瓶颈:

💡 核心贡献

🛠️ 具体案例剖析 (Case Studies)

论文在附录中提供了非常典型的Bad Case,精准反映了单源数据库与多源AI Agent在复杂多条件约束下的表现差异:

案例 1:长尾/利基网红发现 (Niche Influencer Discovery)
Query: "Find influencers on Instagram with 'slot' in their username and also in their regular name, they must be from Brazil, have at least 300 to 50k followers, and promote casinos."
(在Instagram上寻找用户名和真实姓名中包含“slot”的网红,必须来自巴西,粉丝在300到5万之间,并且推广赌场。)

各平台表现:
  • Exa (结构化搜索API): 匹配了“巴西”+“赌场”,但未能遵守平台约束,返回了LinkedIn上的博彩行业从业者,而非Instagram网红。
  • Juicebox (专业招聘数据库): 返回了根本没有Instagram账号的视频剪辑师。由于其底层依赖传统职业简历库,面对社交媒体特定查询时直接“抓瞎”。
  • Lessie (多源AI搜索Agent): 成功识别出符合命名规则的Instagram账号(如 carol.martins_slots),并核实了地理位置和粉丝数量约束。P@10达到 1.00。
案例 2:跨领域专家搜索 (Cross-Domain Expert Finding)
Query: "Find people who have both a strong academic publication record in NLP and also hold senior engineering positions at tech companies. I want the rare academics-turned-practitioners."
(寻找既在NLP领域有强大论文发表记录,又在科技公司担任高级工程职位的罕见“学者转型实战派”。)

分析: 这类Query极度考验Agent的跨库信息融合能力。
  • Exa: 返回了大量大学教授(仅满足学术条件),在过滤“目前受雇于科技公司”这一条件时失败。
  • ⚠️ Juicebox: 返回了部分强相关候选人,但混入了在读PhD学生(不满足“高级工程职位”)。
  • Lessie: 准确找出了如“在Amazon任Principal并在ACL/EMNLP发文”或“前OpenAI研究副总裁”等精准目标,所有条件均得到外部证据交叉验证。

⚙️ 方法论与技术实现

核心架构图
图注:PeopleSearchBench 评估流水线总览。系统首先将各平台的输出对齐到统一的Schema,随后通过LLM从Query中提取硬性标准(Criteria),再调用Web Search逐人、逐条标准进行严格的事实核验( met / partially_met / not_met ),最后计算出三维度的最终得分。

论文摒弃了直接让LLM进行黑盒打分,而是设计了Criteria-Grounded Verification (基于标准的接实验证) 三阶段流水线:

Stage 1: Criteria Extraction (标准提取)

使用LLM(默认使用Gemini 3 Flash)将非结构化Query解析为 $N$ 个具体的可验证标准(例如:角色、雇主、地点)。

Stage 2: Per-Person Verification (逐人验证)

对于返回的每一个候选人 $p_i$,Agent通过 Tavily Search API 实时检索网页证据。对每一个提取出的标准 $c_j$ 给出离散评分:满足(1.0),部分满足(0.5),不满足(0.0)。个人的相关性得分计算为:

$$rel(p_i) = \frac{1}{N} \sum_{j=1}^N \text{score}(c_j, p_i)$$

Stage 3: 三大核心评估指标计算

📊 实验设置与结论分析

基准测试评估了四种代表不同架构方向的平台:Lessie (专用多源AI搜索Agent)、Exa (结构化实体检索API)、Juicebox (拥有8亿+数据的专业AI招聘平台)、Claude Code (基于Claude 3.5 Sonnet的通用型AI代码/任务Agent)。

🌟 关键技术亮点分析 (For LLM Practitioners)

  1. Tool-Augmented Evaluation 的极佳范式: 传统 RAG/Agent 评估中,我们往往被困在“大模型做裁判到底准不准”的泥沼里。本文提供了一条明路:把“打分”降维成“事实核查”,并赋予裁判联网能力(Live Web Search)。这剥离了LLM对自身旧权重的依赖,将其职责纯化为“阅读理解+逻辑比对”,大幅降低了评测方差。
  2. 多源数据融合 (Multi-Source Data Fusion) 是破局点: 实验证明,依赖单一结构化数据库(如仅仅爬取LinkedIn)的系统泛化能力极弱。Lessie 的成功在于它能跨社交平台、学术库、工商注册信息进行联合检索。对于做 B2B Agent 或 Talent Sourcing Agent 的团队来说,建立多数据源联邦(Federation)和实体消歧(Entity Disambiguation)机制是构建壁垒的关键。
  3. 评测指标设计的反内卷: Padded nDCG 的设计非常巧妙。在生成式搜索中,模型很容易通过“拒答”或“只给最保险的1-2个结果”来骗取极高的 Precision。强制设定理想召回深度($K=10$)作为分母,逼迫 Agent 必须在保证精度的前提下深入挖掘(Deep Research),这高度契合真实的商业找人需求。