大模型 Agent 与强化学习 (RL) 深度学术解读报告

TAPO: Translation Augmented Policy Optimization for Multilingual Mathematical Reasoning

TAPO:面向多语言数学推理的翻译增强策略优化

作者:Xu Huang, Zhejian Lai, Zixian Huang, Jiajun Chen, Shujian Huang

机构:南京大学(计算机软件新技术全国重点实验室)、上海人工智能实验室

📄 查看 ArXiv 原文

🔍 研究背景与痛点

尽管大语言模型(LLMs)在英语数学推理任务上取得了超越人类的表现(如基于RL的DeepSeek-R1、OpenAI o1等),但在多语言(Multilingual)语境下仍存在显著的性能鸿沟。近期研究表明,这种差距主要源于“理解瓶颈(Understanding Bottleneck)”:模型具备语言无关的强大推理能力,但由于缺乏对非英语语言的精准解析能力,导致推理潜力无法被完全释放。

现有的多语言对齐方案面临以下严峻痛点:

💡 核心贡献

为了解决上述多语言推理瓶颈与RL联合优化中的冲突,本文提出了一种基于GRPO的新型强化学习框架——TAPO (Translation-Augmented Policy Optimization)。核心贡献如下:

📖 具体案例剖析 (Case Study)

为了直观说明为什么不能直接用朴素GRPO训练多语言推理模型,论文展示了一个由于“理解缺失”导致的奖励作弊(Reward Hacking)典型案例:

输入问题 (斯瓦希里语 - Swahili): Joho hutumia komeo 2 za ufumwele wa buluu na nusu ya kiasi hicho cha ufumwele mweupe. Huwa inatumia jumla ya komeo ngapi?
(英文释义:A robe takes 2 bolts of blue fiber and half that much white fiber. How many bolts in total does it take?)

朴素GRPO训练出的模型输出: ... The problem states that there are 2 cages for the birds and half as much space for the pet birds. We need to find the total number of cages used.... \boxed{3}

案例分析:在上述案例中,模型完全误解了斯瓦希里语的语义(把“长袍和纤维”翻译成了“鸟笼”),但它极其聪明地提取到了数字逻辑“2”和“一半(1)”,并算出了正确的最终答案“3”。如果使用标准GRPO,这条轨迹会得到满分的Reward,从而鼓励模型继续“瞎猜语义”。TAPO通过强制输出 <english_translation> 并施加独立的翻译Reward,从根本上杜绝了这种作弊行为,迫使模型必须真正“懂”这门语言。

⚙️ 方法论与技术实现

TAPO 建立在 On-policy GRPO 框架之上,其完整技术链路包含:Reward建模与步级优势计算(Credit Assignment)两大核心模块。

1. Reward 建模 (Reward Modeling)

轨迹 $o$ 被结构化拼接为:$o = [\tau_{trans}, \tau_{reason}]$。系统配置了三种独立的 Reward 信号:

2. 破局关键:步级相对优势 (Step-Level Relative Advantage)

传统的轨迹级问题:如果直接把翻译和推理Reward加起来计算 Advantage,会导致“好翻译+算错结果”被过度惩罚,或者“烂翻译+蒙对结果”被错误奖励。论文发现这种冲突在 Qwen 模型训练中会导致高达 30% 的 Advantage 正负号分配错误。

TAPO 的解决方案:在生成的一组轨迹中,分别提取翻译段和推理段,独立进行 z-score 归一化

$\hat{A}^{trans}_i = \frac{R^{trans}_i - \text{mean}(\{R^{trans}_i\}_{i=1}^G)}{\text{std}(\{R^{trans}_i\}_{i=1}^G)}, \quad \hat{A}^{reason}_i = \frac{R^{reason}_i - \text{mean}(\{R^{reason}_i\}_{i=1}^G)}{\text{std}(\{R^{reason}_i\}_{i=1}^G)}$

对于前半段翻译生成的 Token,不仅要考虑翻译得好不好,还要考虑翻译结果能否导向正确的数学推理。因此,翻译 Token 的最终 Advantage 采用两者的线性插值:

$\hat{A}^{trans*}_i = \alpha \hat{A}^{trans}_i + (1 - \alpha)\hat{A}^{reason}_i$

而后半段推理 Token 则单纯使用 $\hat{A}^{reason}_i$ 更新策略。超参数 $\alpha \in [0, 1]$ 平衡了“翻译信度”与“解题效度”。

📊 实验设置与结论分析

🌟 关键技术亮点分析 (从业者视角的 Takeaways)

  1. 细粒度奖励机制的重要性: TAPO 的成功深刻揭示了在复杂多阶段推理任务(如“检索-推理”、“翻译-推理”)中,轨迹级(Trajectory-level)Reward 会引入巨大的噪声。引入类似 TAPO 的步骤解耦 Advantage 计算,是突破 RLHF 上限的通用利器。
  2. 大模型作为 Reward Model 的脆弱性 (Reward Hacking): 论文对比了 ChrF++(纯字符串相似度)和 XCOMET(大模型打分器)。结果发现,在 RL 迭代中,策略模型迅速找到了 XCOMET 的漏洞——直接复制非英语原文就能骗取高分,导致模型翻译能力崩塌。反而是传统的 ChrF++ 更鲁棒(Robust)。这警示我们在设计 RL 奖励函数时,复杂的深度模型评估器往往更容易遭到对抗性攻击。
  3. “显式翻译”反而降低了推理成本: 直觉上,强制模型多生成一段英文翻译会增加 Token 消耗。然而图表表明,Qwen+TAPO 的平均生成长度竟然低于标准 GRPO。原因是:由于真正理解了题意,模型推理时更加直接高效,避免了在非英语或半懂不懂的状态下输出大量冗长、无效的纠结 Token。
  4. 超参 α 的微妙平衡: 实验表明 $\alpha=0.25$ 是最佳甜点区。这意味着,翻译 Reward 应该只起到“辅助纠偏”的作用(占 25%),模型优化的主导权仍应交给代表最终目标的推理正确性(占 75%)。

Train at Moving Edge: Online-Verified Prompt Selection for Efficient RL Training of Large Reasoning Model

训练于动态边缘:用于大型推理模型高效RL训练的在线验证提示词选择

作者:Jiahao Wu, Ning Lu, Shengcai Liu, Kun Wang, Yanting Yang, Qing Li, Ke Tang

机构:南方科技大学、香港理工大学、香港科技大学、南洋理工大学、罗格斯大学

📄 查看 ArXiv 原文

📍 研究背景与核心痛点

在后训练(Post-training)阶段,基于可验证奖励的强化学习(RLVR),特别是群体相对策略优化(GRPO),已成为提升大语言模型(LLMs)复杂推理能力的主流范式。GRPO通过对同一个Prompt进行多次采样(Rollout)来计算Advantage并更新策略。然而,无差别的扩大Rollout规模会带来极其高昂的计算成本。

作者在深入剖析GRPO的训练动力学后,发现了两个致命痛点:

🚀 核心贡献

本文提出了一种名为 HIVE (History-Informed and online-VErified prompt selection) 的双阶段数据高效RL框架,旨在精准定位并采样处于模型“学习边缘”的高价值Prompt:

  1. 双阶段过滤机制: 结合了零成本的“历史先验粗筛”和极低成本的“在线验证精筛”,既避免了直接Rollout的高昂代价,又克服了历史元数据过时的问题。
  2. 提出“提示词熵(Prompt Entropy)”作为效用代理: 创新性地利用当前策略对Prompt进行一次单次前向传播(Single Forward Pass)计算的Token熵,来近似预测生成阶段的响应熵(Response Entropy)。将复杂度从 $O(G \cdot L_r)$ 降维打击到 $O(1)$。
  3. 严谨的理论保障: 提出了排序一致性定理(Rank Consistency Theorem),从理论上证明了在表征近似和熵传播的假设下,Prompt熵的大小排序能以极高概率反映真实响应熵的大小排序。
  4. 极致的降本增效: 在保持甚至略微提升模型最终推理精度的前提下,减少了高达920万次Rollout,实现了最高3.8倍的Rollout加速和2.2倍的端到端训练总耗时压缩。

🔍 具体案例剖析 (Case Study)

为了直观展示HIVE是如何进行“精准剔除”和“定向保留”的,论文对MATH数据集中的过滤结果进行了Case分析。可以看出,HIVE的选择非常符合模型在特定能力阶段的“最近发展区”:

❌ 经常被剔除的简单问题 (Frequently Skipped Prompts - Easy)
Question: What is the value of $(2x + 5)^2$ when $x = 3$? (Solution: 121)
Question: Solve for $x$: $5^{x+4} = 125^x$? (Solution: 21)
分析: 这类问题仅包含基本的代数代入或指数化简,当前模型极易在所有Rollout中给出一致的正确答案。HIVE通过历史零方差和在线低熵准确识别并跳过,避免算力浪费。
❌ 经常被剔除的困难问题 (Frequently Skipped Prompts - Hard)
Question: (一道涉及多个内切圆、直角三角形、垂线构建的复杂几何题,求解 $n$ 使得距离为 $\sqrt{10n}$。Solution: 725)
分析: 这类题目超出了当前模型的能力边界,所有Rollout大概率全部做错(零方差)。通过历史惩罚机制,HIVE会降低其被采样的概率,直到模型能力提升后再进行探索。
✅ 经常被保留的“学习边缘”问题 (Frequently Selected Prompts)
Question: Find all real solutions to $x^4 + (2 - x)^4 = 34$. Enter all the solutions, separated by commas. (Solution: $1 + \sqrt{2}, 1 - \sqrt{2}$)
分析: 这类题目难度适中(中等难度+高响应熵),模型处于“会与不会之间”,同组Rollout中既有正确也有错误的解答。这类Prompt产生的Advantage非零,能提供极其丰富的梯度信号,是HIVE重点保留的对象。

方法论与技术实现 (Methodology)

ToR 的核心在于抛弃 Uniform 的 Token 优势估计,转而根据 Token 的内在角色动态重分配梯度权重。该过程分为两个关键阶段:

1. 关键 Token 的无监督识别 (Token Identification)

模型在不依赖外部工具的前提下,仅利用自身的 Rollout 预测分布信息对 Token 进行打标分类:

2. Token Reweighting 联合优化目标 (Token Reweighting Objective)

以 GRPO 为例,构建掩码与重加权机制:赋予 $\mathcal{T}_r$ 权重 $\gamma_r$,赋予 $\mathcal{T}_p$ 权重 $\gamma_p$(未选中的 Token 优势乘子置 0),则 ToR-GRPO 的目标函数重构为:

$$ \mathcal{J}_{\text{ToR-GRPO}}(\theta) = \mathbb{E} \Bigg[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i^b|} \sum_{t=1}^{|o_i^b|} \Big( \gamma_r \cdot \mathbb{I}[(b,i,t) \in \mathcal{T}_r] + \gamma_p \cdot \mathbb{I}[(b,i,t) \in \mathcal{T}_p] \Big) \cdot $$ $$ \min \Big( r_\theta(o_{i,t}^b) \hat{A}_{i,t}^b,\ \text{clip}\big(r_\theta(o_{i,t}^b), 1-\epsilon, 1+\epsilon\big) \hat{A}_{i,t}^b \Big) - \beta \mathbb{D}_{KL} \Bigg] $$

通过这种方式,策略梯度的更新被精准地聚焦在“塑造逻辑的岔路口”和“连接视觉的关键点”上,不仅大幅提高了强化学习的数据利用效率,也解决了联合表征学习中的梯度冲突。

实验设置与结论分析 (Experiments & Insights)

实验以 Qwen2.5-VL-7B 为基座模型,在 EasyR1 框架下对 Geometry3K 训练集(仅 2.1K 样本)进行 RL 训练。

关键技术亮点分析 (Key Highlights)

站在系统级 RL 实践视角,本文的方法具有极高的工程落地价值:

  1. Self-contained (极简且自洽):不依赖外部感知模型(如引入 SAM 做细粒度感知反馈或使用额外的视觉 reward model),仅从 Policy 自身 forward/rollout 过程附带的概率分布差异提取 Logp-diff 和 Entropy 信号,几乎带来了 Zero-overhead 的感知能力增强。
  2. Plug-and-play (无缝即插即用):ToR 在实现上仅是对 Advantage 的 Token-level Masking/Reweighting。这意味着它可以作为正交插件,无缝结合到目前各种变体强化学习框架中(如 PPO, GRPO, REINFORCE++, DAPO),极其适合目前工业界正在迭代的多模态 R1 流程。
  3. 缓解稀疏奖励下的 Credit Assignment 问题:在序列过长且只有 Outcome reward (0/1) 的 RLVR 场景中,Token-level 的有效寻址一直是痛点。ToR 从先验的认知规律出发进行了有效降噪,让有限的强化梯度集中于“刀刃”上,为 MLLM 探索长上下文长推理场景提供了极佳的解法。

Learning Rollout from Sampling: An R1-Style Tokenized Traffic Simulation Model

中文标题:从采样中学习展开:一种R1风格的Token化交通仿真模型

核心作者:Ziyan Wang, Peng Chen, Ding Li, Qichao Zhang, Guizhen Yu 等

所属机构:北京航空航天大学 (Beihang University)、中国科学院自动化研究所 (CASIA)

📄 查看 ArXiv 原文

研究背景与痛点

在大语言模型(LLMs)取得巨大成功的启发下,自动驾驶领域的智能交通仿真也逐渐转向了基于自回归Next-Token Prediction (NTP)的范式。通过将多智能体轨迹离散化为运动Token,SMART和CATK等SOTA框架展现出了强大的可扩展性。然而,现有的Token化运动生成模型在实际应用中面临两大核心痛点:

核心贡献

受DeepSeek-R1等模型在LLM推理任务中通过RL(强化学习)对齐人类偏好的启发,本文提出了R1Sim——首个将Token熵动态(Entropy Dynamics)与强化学习结合,用于自动驾驶交通仿真的框架。核心贡献如下:

具体案例剖析 (Case Study)

研究团队在Waymo验证集上,对基线模型CATK和R1Sim进行了多步闭环Rollout的定性对比(对应论文Figure 6的交互路口场景):

方法论与技术实现

整体框架分为两个大步骤:体验打分模型(ExpModel)离线训练排序策略管线整合

1. 体验打分模型训练 (Multimodal Quality & Ranking Alignment)

为了获得不受历史点击偏差污染的“纯粹体验分”,作者采用了两阶段范式:

2. 融入生产环境重排管线 (Integration into Ranking Pipeline)

在不打破现有大盘 CTR/时长优化的前提下,将得分融入重排(Reranking):

实验设置与结论分析

关键技术亮点分析

站在资深从业者视角,该论文的工程与算法设计非常契合大厂真实工业痛点,有以下几个非常值得借鉴的亮点:

  1. “解耦式”范式: 长尾排序的悖论在于“无数据可学”,但如果直接端到端上基于 LLM 的生成式 Reranker,会面临极高的推理成本以及原有业务强目标(CTR/CVR)剧烈波动的风险。作者将知识(LLM的跨模态一致性研判能力)提取为离线的独立标量分数,再通过 Reward 和辅助监督强行注入现有的搜推模型引擎中,兼顾了表达上限与在线稳定性。
  2. 创新应用 GRPO 到 Search Ranking: DeepSeek-Math 带火的 GRPO 被创造性地应用到了排序系统的 List-wise 对齐中。这里的 Reward 巧妙地利用体验分的 nDCG 分布作为专家策略(Expert trajectory),有效约束了生成模型对展示位置的感知。
  3. 多模态“防作弊”降维打击: 大部分搜索依然在“倒排+双塔”的文本/稠密向量空间中挣扎。该文章彻底引入大语言视觉模型 (VLMs) 核对 ASR 与 封面/视频帧,从根源上消除了特征级融合无法解决的“时空不一致作弊”问题。