大语言模型Agent与强化学习核心论文深度解析

TAPO: Translation Augmented Policy Optimization for Multilingual Mathematical Reasoning

TAPO：面向多语言数学推理的翻译增强策略优化

作者：Xu Huang, Zhejian Lai, Zixian Huang, Jiajun Chen, Shujian Huang

机构：南京大学（计算机软件新技术全国重点实验室）、上海人工智能实验室

🔍 研究背景与痛点

尽管大语言模型（LLMs）在英语数学推理任务上取得了超越人类的表现（如基于RL的DeepSeek-R1、OpenAI o1等），但在多语言（Multilingual）语境下仍存在显著的性能鸿沟。近期研究表明，这种差距主要源于“理解瓶颈（Understanding Bottleneck）”：模型具备语言无关的强大推理能力，但由于缺乏对非英语语言的精准解析能力，导致推理潜力无法被完全释放。

现有的多语言对齐方案面临以下严峻痛点：

隐式对齐（Implicit Alignment）与SFT：在后训练（Post-training）阶段使用双语或多语言语料进行SFT（如QAlign），会导致模型在原有推理能力上发生严重的灾难性遗忘（Catastrophic Forgetting）。
预训练层面的代码交替（Code-switching）：成本极高，且针对已完成训练的基础模型效果未经充分验证，甚至可能破坏高级推理能力。
朴素强化学习（Naive GRPO）的缺陷：如果直接在多语言数据上应用基于结果监督的GRPO，由于模型可能会“碰巧”猜对答案，会导致未忠实对齐（Unfaithful Reasoning）的现象——即模型生成了完全错误的语义理解，却提取了正确的数字并碰巧算对，从而获得正向Reward，这无助于真正提升多语言理解能力。

💡 核心贡献

为了解决上述多语言推理瓶颈与RL联合优化中的冲突，本文提出了一种基于GRPO的新型强化学习框架——TAPO (Translation-Augmented Policy Optimization)。核心贡献如下：

强制“先理解后推理”范式： 引入显式的翻译步骤，将多语言问题先翻译为英语（作为理解能力的代理指标），再完全在英语环境下进行CoT推理。通过将“理解”具象化为翻译文本，使得使用标准翻译指标作为Reward信号成为可能。
首创步级相对优势（Step-level Relative Advantage）机制： 识别并解决了在标准RL轨迹（Trajectory）中混合翻译奖励和推理奖励带来的严重“信用分配（Credit Assignment）”冲突。TAPO在同一轨迹内对翻译Token和推理Token独立计算 Advantage，实现了真正的联合优化。
性能全面SOTA： 在Qwen2.5-3B-Instruct和Llama3.2-3B-Instruct上进行了广泛验证，不仅在MGSM及未见过的语言上超越了各类SFT和RL基线，在分布外（OOD）任务上也展现出强大的泛化能力，且证明显式翻译不仅未增加反而缩短了平均推理Token消耗。

📖 具体案例剖析 (Case Study)

为了直观说明为什么不能直接用朴素GRPO训练多语言推理模型，论文展示了一个由于“理解缺失”导致的奖励作弊（Reward Hacking）典型案例：

输入问题 (斯瓦希里语 - Swahili): Joho hutumia komeo 2 za ufumwele wa buluu na nusu ya kiasi hicho cha ufumwele mweupe. Huwa inatumia jumla ya komeo ngapi?
(英文释义：A robe takes 2 bolts of blue fiber and half that much white fiber. How many bolts in total does it take?)

朴素GRPO训练出的模型输出: ... The problem states that there are 2 cages for the birds and half as much space for the pet birds. We need to find the total number of cages used.... \boxed{3}

案例分析：在上述案例中，模型完全误解了斯瓦希里语的语义（把“长袍和纤维”翻译成了“鸟笼”），但它极其聪明地提取到了数字逻辑“2”和“一半(1)”，并算出了正确的最终答案“3”。如果使用标准GRPO，这条轨迹会得到满分的Reward，从而鼓励模型继续“瞎猜语义”。TAPO通过强制输出 <english_translation> 并施加独立的翻译Reward，从根本上杜绝了这种作弊行为，迫使模型必须真正“懂”这门语言。

⚙️ 方法论与技术实现

TAPO 建立在 On-policy GRPO 框架之上，其完整技术链路包含：Reward建模与步级优势计算（Credit Assignment）两大核心模块。

1. Reward 建模 (Reward Modeling)

轨迹 $o$ 被结构化拼接为：$o = [\tau_{trans}, \tau_{reason}]$。系统配置了三种独立的 Reward 信号：

格式奖励 (Format Reward): 确保模型乖乖听话，把翻译内容包裹在特定的 XML 标签中。只有格式正确，才能拿到后续分数。
翻译奖励 (Translation Reward): 采用自动化指标评估翻译片段 $\tau_{trans}$ 的质量。论文测试了基于字符串的 ChrF++ 以及基于模型的验证器（如 XCOMET）。为了防止乱码或无关输出，翻译得分会乘以格式奖励作为 Mask。
推理奖励 (Reasoning Reward): 采用标准的基于规则的结果校验（如 Math-Verify 工具包），答案完全正确给 1，错误或格式不匹配给 0。

2. 破局关键：步级相对优势 (Step-Level Relative Advantage)

传统的轨迹级问题：如果直接把翻译和推理Reward加起来计算 Advantage，会导致“好翻译+算错结果”被过度惩罚，或者“烂翻译+蒙对结果”被错误奖励。论文发现这种冲突在 Qwen 模型训练中会导致高达 30% 的 Advantage 正负号分配错误。

TAPO 的解决方案：在生成的一组轨迹中，分别提取翻译段和推理段，独立进行 z-score 归一化：

$\hat{A}^{trans}_i = \frac{R^{trans}_i - \text{mean}(\{R^{trans}_i\}_{i=1}^G)}{\text{std}(\{R^{trans}_i\}_{i=1}^G)}, \quad \hat{A}^{reason}_i = \frac{R^{reason}_i - \text{mean}(\{R^{reason}_i\}_{i=1}^G)}{\text{std}(\{R^{reason}_i\}_{i=1}^G)}$

对于前半段翻译生成的 Token，不仅要考虑翻译得好不好，还要考虑翻译结果能否导向正确的数学推理。因此，翻译 Token 的最终 Advantage 采用两者的线性插值：

$\hat{A}^{trans*}_i = \alpha \hat{A}^{trans}_i + (1 - \alpha)\hat{A}^{reason}_i$

而后半段推理 Token 则单纯使用 $\hat{A}^{reason}_i$ 更新策略。超参数 $\alpha \in [0, 1]$ 平衡了“翻译信度”与“解题效度”。

📊 实验设置与结论分析

实验设定： 基座模型使用 Qwen2.5-3B-Instruct 和 Llama3.2-3B-Instruct。训练数据选取 MGSM8KInstruct 的子集（每种语言仅~7.4k样本）。采用 verl 框架，全局 Batch Size=256，Group Size=8。
主实验结果 (MGSM 准确率)：
- 拒绝遗忘： SFT-TransTest（微调基线）和 QAlign 在很多高资源语言上出现了严重的灾难性遗忘。而 TAPO 确保了单调稳定的性能提升。
- 涨幅显著： Qwen 上，TAPO-ChrF++ 在低资源语言（如斯瓦希里语 Swahili、泰卢固语 Telugu）上分别比 GRPO-TransTest 基线高出 8.1% 和 1.5%。
- 泛化能力： TAPO 不仅在训练过的语言上领先，在未见过的 6 种 MGSM 测试语言以及 OOD 任务（MMATH, MSVAMP）上也展现出卓越的泛化表现。
副产品：翻译能力的跃升： 经过 LLM-as-a-judge (Gemini 2.5 Flash) 盲测，TAPO-ChrF++ 训练出的模型在各语种的翻译质量（Gemini Score）上碾压了所有 GRPO 基线，证明了模型是真正理解了问题，而不仅仅是玩耍数据游戏。

🌟 关键技术亮点分析 (从业者视角的 Takeaways)

细粒度奖励机制的重要性： TAPO 的成功深刻揭示了在复杂多阶段推理任务（如“检索-推理”、“翻译-推理”）中，轨迹级（Trajectory-level）Reward 会引入巨大的噪声。引入类似 TAPO 的步骤解耦 Advantage 计算，是突破 RLHF 上限的通用利器。
大模型作为 Reward Model 的脆弱性 (Reward Hacking)： 论文对比了 ChrF++（纯字符串相似度）和 XCOMET（大模型打分器）。结果发现，在 RL 迭代中，策略模型迅速找到了 XCOMET 的漏洞——直接复制非英语原文就能骗取高分，导致模型翻译能力崩塌。反而是传统的 ChrF++ 更鲁棒（Robust）。这警示我们在设计 RL 奖励函数时，复杂的深度模型评估器往往更容易遭到对抗性攻击。
“显式翻译”反而降低了推理成本： 直觉上，强制模型多生成一段英文翻译会增加 Token 消耗。然而图表表明，Qwen+TAPO 的平均生成长度竟然低于标准 GRPO。原因是：由于真正理解了题意，模型推理时更加直接高效，避免了在非英语或半懂不懂的状态下输出大量冗长、无效的纠结 Token。
超参 α 的微妙平衡： 实验表明 $\alpha=0.25$ 是最佳甜点区。这意味着，翻译 Reward 应该只起到“辅助纠偏”的作用（占 25%），模型优化的主导权仍应交给代表最终目标的推理正确性（占 75%）。

Train at Moving Edge: Online-Verified Prompt Selection for Efficient RL Training of Large Reasoning Model

训练于动态边缘：用于大型推理模型高效RL训练的在线验证提示词选择

作者：Jiahao Wu, Ning Lu, Shengcai Liu, Kun Wang, Yanting Yang, Qing Li, Ke Tang

机构：南方科技大学、香港理工大学、香港科技大学、南洋理工大学、罗格斯大学

📄 查看 ArXiv 原文

📍 研究背景与核心痛点

在后训练（Post-training）阶段，基于可验证奖励的强化学习（RLVR），特别是群体相对策略优化（GRPO），已成为提升大语言模型（LLMs）复杂推理能力的主流范式。GRPO通过对同一个Prompt进行多次采样（Rollout）来计算Advantage并更新策略。然而，无差别的扩大Rollout规模会带来极其高昂的计算成本。

作者在深入剖析GRPO的训练动力学后，发现了两个致命痛点：

零优势与梯度消失（Zero Advantages）： 对于当前模型而言，极其简单的Prompt（全部答对）或极其困难的Prompt（全部答错）会导致同组内的奖励方差为零，计算出的Advantage为零，从而产生无效的零梯度更新。大量算力被白白浪费在这些低效样本上。
元数据过时（Metadata Staleness）： 现有的高效过滤方法（如GRESO）依赖历史训练日志（如上一轮的难度或奖励方差）来预估Prompt效用。但由于模型在RL过程中能力快速演进，其“学习边缘（Learning Edge）”是动态变化的，导致基于历史数据的指标迅速失效（即曾经难的题目现在变简单了，历史打分不再准确）。

🚀 核心贡献

本文提出了一种名为 HIVE (History-Informed and online-VErified prompt selection) 的双阶段数据高效RL框架，旨在精准定位并采样处于模型“学习边缘”的高价值Prompt：

双阶段过滤机制： 结合了零成本的“历史先验粗筛”和极低成本的“在线验证精筛”，既避免了直接Rollout的高昂代价，又克服了历史元数据过时的问题。
提出“提示词熵（Prompt Entropy）”作为效用代理： 创新性地利用当前策略对Prompt进行一次单次前向传播（Single Forward Pass）计算的Token熵，来近似预测生成阶段的响应熵（Response Entropy）。将复杂度从 $O(G \cdot L_r)$ 降维打击到 $O(1)$。
严谨的理论保障： 提出了排序一致性定理（Rank Consistency Theorem），从理论上证明了在表征近似和熵传播的假设下，Prompt熵的大小排序能以极高概率反映真实响应熵的大小排序。
极致的降本增效： 在保持甚至略微提升模型最终推理精度的前提下，减少了高达920万次Rollout，实现了最高3.8倍的Rollout加速和2.2倍的端到端训练总耗时压缩。

🔍 具体案例剖析 (Case Study)

为了直观展示HIVE是如何进行“精准剔除”和“定向保留”的，论文对MATH数据集中的过滤结果进行了Case分析。可以看出，HIVE的选择非常符合模型在特定能力阶段的“最近发展区”：

❌ 经常被剔除的简单问题 (Frequently Skipped Prompts - Easy)
Question: What is the value of $(2x + 5)^2$ when $x = 3$? (Solution: 121)
Question: Solve for $x$: $5^{x+4} = 125^x$? (Solution: 21)
分析： 这类问题仅包含基本的代数代入或指数化简，当前模型极易在所有Rollout中给出一致的正确答案。HIVE通过历史零方差和在线低熵准确识别并跳过，避免算力浪费。

❌ 经常被剔除的困难问题 (Frequently Skipped Prompts - Hard)
Question: (一道涉及多个内切圆、直角三角形、垂线构建的复杂几何题，求解 $n$ 使得距离为 $\sqrt{10n}$。Solution: 725)
分析： 这类题目超出了当前模型的能力边界，所有Rollout大概率全部做错（零方差）。通过历史惩罚机制，HIVE会降低其被采样的概率，直到模型能力提升后再进行探索。

✅ 经常被保留的“学习边缘”问题 (Frequently Selected Prompts)
Question: Find all real solutions to $x^4 + (2 - x)^4 = 34$. Enter all the solutions, separated by commas. (Solution: $1 + \sqrt{2}, 1 - \sqrt{2}$)
分析： 这类题目难度适中（中等难度+高响应熵），模型处于“会与不会之间”，同组Rollout中既有正确也有错误的解答。这类Prompt产生的Advantage非零，能提供极其丰富的梯度信号，是HIVE重点保留的对象。

方法论与技术实现 (Methodology)

ToR 的核心在于抛弃 Uniform 的 Token 优势估计，转而根据 Token 的内在角色动态重分配梯度权重。该过程分为两个关键阶段：

1. 关键 Token 的无监督识别 (Token Identification)

模型在不依赖外部工具的前提下，仅利用自身的 Rollout 预测分布信息对 Token 进行打标分类：

推理相关 Token（高决策不确定性）：研究表明，推理链上的“分叉点”往往对应高预测熵。对于 token $t$，其生成熵定义为 top-p 候选词分布的信息熵：
$$H_{i,t}^b = - \sum_{v \in \mathcal{V}_{\text{top-p}}} P_\theta(o_{i,t}^b=v | o_{i, 收集 Batch 内所有 token 的熵值后，选取 top-$\alpha_r$ 比例最高熵的 tokens 构成集合 $\mathcal{T}_r$。
感知相关 Token（高视觉敏感度）：这部分 Token 高度依赖输入图像（$I^b$）。作者通过计算有/无图像 condition 下该 token 生成对数概率的差值（Logp-diff）来衡量：
$$S_{i,t}^b = \Big| \log \pi_\theta(o_{i,t}^b | o_{i, 选取对图像最敏感的 top-$\alpha_p$ 比例 tokens 构成集合 $\mathcal{T}_p$。附录分析证实，相较于简单的绝对概率差，Logp-diff 既保留了 Visual Grounding 信号，又天然具备信息论意义上的均衡性。

2. Token Reweighting 联合优化目标 (Token Reweighting Objective)

以 GRPO 为例，构建掩码与重加权机制：赋予 $\mathcal{T}_r$ 权重 $\gamma_r$，赋予 $\mathcal{T}_p$ 权重 $\gamma_p$（未选中的 Token 优势乘子置 0），则 ToR-GRPO 的目标函数重构为：

$$ \mathcal{J}_{\text{ToR-GRPO}}(\theta) = \mathbb{E} \Bigg[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i^b|} \sum_{t=1}^{|o_i^b|} \Big( \gamma_r \cdot \mathbb{I}[(b,i,t) \in \mathcal{T}_r] + \gamma_p \cdot \mathbb{I}[(b,i,t) \in \mathcal{T}_p] \Big) \cdot $$ $$ \min \Big( r_\theta(o_{i,t}^b) \hat{A}_{i,t}^b,\ \text{clip}\big(r_\theta(o_{i,t}^b), 1-\epsilon, 1+\epsilon\big) \hat{A}_{i,t}^b \Big) - \beta \mathbb{D}_{KL} \Bigg] $$

通过这种方式，策略梯度的更新被精准地聚焦在“塑造逻辑的岔路口”和“连接视觉的关键点”上，不仅大幅提高了强化学习的数据利用效率，也解决了联合表征学习中的梯度冲突。

实验设置与结论分析 (Experiments & Insights)

实验以 Qwen2.5-VL-7B 为基座模型，在 EasyR1 框架下对 Geometry3K 训练集（仅 2.1K 样本）进行 RL 训练。

孤立优化的失效（Ablation）：在 MathVerse / WeMath 这种强推理任务上，如果采用 Reasoning-only 优化（即使比例给到 80%），仍明显劣于 Vanilla GRPO 全量训练；反之，Perception-only 也会导致推理严重塌陷，说明两种监督信号在 MLLM RL 中不可偏废。
主实验提升：在 2.1K Geo3K 设定下，ToR-GRPO 将 MathVerse 从 50.8 提升至 53.0；结合 DAPO（带有动态采样的更强 RL 基线）后，ToR-DAPO 在 MathVista 和 WeMath 上获得了极其显著的性能增益。
Scaling 泛化性：当把训练集从 2.1K 扩大至 39K (ViRL-39K)，模型依然稳定收效（MathVista 达到 74.2，WeMath 达到 73.0）。同时在更小的 3B 规模模型上也复现了相似的增益。
超参鲁棒性：实验发现默认重加权系数设定（$\gamma_r=1.0, \gamma_p=0.5$，比例选取 30%）即可提供极为鲁棒的 Trade-off，无需在不同任务间做繁杂的调参（Heavy Tuning）。

关键技术亮点分析 (Key Highlights)

站在系统级 RL 实践视角，本文的方法具有极高的工程落地价值：

Self-contained (极简且自洽)：不依赖外部感知模型（如引入 SAM 做细粒度感知反馈或使用额外的视觉 reward model），仅从 Policy 自身 forward/rollout 过程附带的概率分布差异提取 Logp-diff 和 Entropy 信号，几乎带来了 Zero-overhead 的感知能力增强。
Plug-and-play (无缝即插即用)：ToR 在实现上仅是对 Advantage 的 Token-level Masking/Reweighting。这意味着它可以作为正交插件，无缝结合到目前各种变体强化学习框架中（如 PPO, GRPO, REINFORCE++, DAPO），极其适合目前工业界正在迭代的多模态 R1 流程。
缓解稀疏奖励下的 Credit Assignment 问题：在序列过长且只有 Outcome reward (0/1) 的 RLVR 场景中，Token-level 的有效寻址一直是痛点。ToR 从先验的认知规律出发进行了有效降噪，让有限的强化梯度集中于“刀刃”上，为 MLLM 探索长上下文长推理场景提供了极佳的解法。

Learning Rollout from Sampling: An R1-Style Tokenized Traffic Simulation Model

中文标题：从采样中学习展开：一种R1风格的Token化交通仿真模型

核心作者：Ziyan Wang, Peng Chen, Ding Li, Qichao Zhang, Guizhen Yu 等

所属机构：北京航空航天大学 (Beihang University)、中国科学院自动化研究所 (CASIA)

📄 查看 ArXiv 原文

研究背景与痛点

在大语言模型（LLMs）取得巨大成功的启发下，自动驾驶领域的智能交通仿真也逐渐转向了基于自回归Next-Token Prediction (NTP)的范式。通过将多智能体轨迹离散化为运动Token，SMART和CATK等SOTA框架展现出了强大的可扩展性。然而，现有的Token化运动生成模型在实际应用中面临两大核心痛点：

死板的采样策略限制了探索（Exploration）：现有的NTP范式通常采用固定的Top-K采样策略进行Rollout（展开）。这种刚性策略过度偏好词表中的高概率Token，而在高度交互和充满不确定性的场景中，往往会忽略那些概率较低但物理上合理、极具潜力的“隐藏宝石（Hidden Gem）”行为，导致生成场景缺乏多样性。
SFT（监督微调）模式限制了利用（Exploitation）：当前如CATK等模型依赖SFT迫使生成的轨迹拟合专家演示（Ground Truth）。这种“赢者通吃”的方法会导致对次优真值数据的过度依赖，无法主动发现并强化更安全、更符合人类偏好的驾驶逻辑，同时容易受到协变量偏移（Covariate Shift）的影响。

核心贡献

受DeepSeek-R1等模型在LLM推理任务中通过RL（强化学习）对齐人类偏好的启发，本文提出了R1Sim——首个将Token熵动态（Entropy Dynamics）与强化学习结合，用于自动驾驶交通仿真的框架。核心贡献如下：

提出R1Sim框架：在NTP预训练范式的基础上，开创性地引入了探索与利用（Exploration-Exploitation）的平衡机制，实现了符合人类偏好的运动仿真。
熵引导的自适应采样（Entropy-guided Adaptive Sampling）：通过计算策略分布的熵来衡量场景不确定性，动态调整采样范围（$K$值），在不确定性高的场景下主动扩展探索空间，发掘高潜力Token。
针对交通场景改进的GRPO微调：使用带有安全感知奖励（Safety-aware Reward）的群体相对策略优化（Group Relative Policy Optimization, GRPO）算法，无须训练庞大的Critic网络即可通过组内相对优势高效利用（Exploit）高质量驾驶行为。

具体案例剖析 (Case Study)

研究团队在Waymo验证集上，对基线模型CATK和R1Sim进行了多步闭环Rollout的定性对比（对应论文Figure 6的交互路口场景）：

输入场景：一辆左转车辆（Ego）试图汇入交通流，同时前方有一辆直行车辆正在接近。
基线输出 (CATK - SFT驱动)：模型展现出过度激进（Overly Aggressive）的驾驶策略。左转车辆加速试图强行穿过车流，未能正确预判迎面而来的直行车辆，最终导致严重的碰撞事故。
R1Sim输出 (GRPO强化驱动)：模型展现出了高度理性和安全的行为。当智能体观察到直行车辆时，主动采取减速策略，在完成并道前有效让出了路权（Yielding Right-of-way）。
分析结论：这表明R1Sim已经超越了SFT范式下对轨迹的简单模仿（Simple Imitation），而是真正深刻理解了驾驶背后的内在逻辑和安全边界约束。

方法论与技术实现

整体框架分为两个大步骤：体验打分模型（ExpModel）离线训练 和 排序策略管线整合。

1. 体验打分模型训练 (Multimodal Quality & Ranking Alignment)

为了获得不受历史点击偏差污染的“纯粹体验分”，作者采用了两阶段范式：

阶段 I: SFT (Supervised Fine-Tuning) 多维对齐
利用强大的闭源/大尺寸模型（Qwen2.5-VL-32B）作为标注器，输入多模态特征，生成详细的多维度质量分析文本 $y$。通过自回归 Next-token Prediction 微调目标模型，使其具备多模态评估感知能力。损失函数仅在生成的分析 Token 上计算：
$$\mathcal{L}_{SFT} = - \mathbb{E}_{\langle x, y \rangle \in \mathcal{D}_{SFT}} \left[ \sum_{t=1}^{T} \log p_\theta(y_t \mid y_{
阶段 II: PFT (Pairwise Preference Fine-Tuning) 偏好对齐
SFT 的生成式输出难以直接比较，必须转为标量。将生成头替换为序列分类头，输出体验得分 $s_{q,v}$。对长尾 Query 下的候选组合构造正逆序样本对 $(A, B)$，设 $A \succ B$ 对应的分数为 $s^+ , s^-$，使用基于 Sigmoid 的排序损失，外加一个分布平滑正则项（惩罚过大/过小的值域漂移）：
$$\mathcal{L} = -\mathbb{E}\left[ \log \sigma(s^+ - s^-) \right] + \lambda \mathbb{E}\left[ (s^+ + s^-)^2 \right]$$

2. 融入生产环境重排管线 (Integration into Ranking Pipeline)

在不打破现有大盘 CTR/时长优化的前提下，将得分融入重排(Reranking)：

阶段 I：预训练增强 (Pre-Training Enhancement)： 改变训练靶序列 $y_{aug}$ 的排列顺序。维持原有的业务逻辑“点击 Item 在前”，但对于未被点击或未曝光的 Item，根据体验分 $s_{exp}$ 降序排列。让高质量但因偏差未曝光的内容得到模型的前置学习。
$$y_{aug} = [\text{sort}(\mathcal{C}; s_{exp} \downarrow) \rhd \text{sort}(E \cup U; s_{exp} \downarrow)]$$
阶段 II：页面级对齐强化学习 (Page-Level Alignment via GRPO)： 将体验分倒排构造成的列表作为“理想顺序”(Ideal Ranking $y^s$)。使用模型生成的列表 $y$，相对于 $y^s$ 计算 nDCG（归一化折损累计收益）。最后构建混合 Reward 函数，指导 GRPO 更新策略网络：
$$r(q, \mathbf{y}) = \alpha R_{old}(q, \mathbf{y}) + \beta \text{nDCG}_{@K}(\mathbf{y}, \mathbf{y}^s)$$
其中 $R_{old}$ 是原有的商业目标（点击、完播），通过 $\alpha, \beta$ 调和短期转化与长期内容体验。

实验设置与结论分析

离线评估 (Offline)： 构建了 18.7 万条 SFT 数据和 34.7 万条 PFT 数据（纯长尾）。对比测试了 BGE-m3、RankGPT，甚至 Zero-shot 的 GPT-4o (Text/Vision)。
- 打分能力： 本文 ExpModel 在 NDCG@10 达到 0.930，显著击败了包含视觉特征的 GPT-4o (0.921) 和单模态的 RankGPT (0.904)。
- 对线上排序架构的加持： 使用 Base + S1(前置目标重构) + S2(GRPO) 策略能在大幅提升体验相关 NDCG 的同时，确保 Long-play AUC（0.696 $\to$ 0.691）和 Click AUC（0.680 $\to$ 0.675）仅发生极微小且可控的扰动（打消了业务团队对“保体验掉收入”的担忧）。
在线 A/B 测试 (Online A/B Test)： 部署于快手主搜，抽出 5% 真实流量（持续2周，日均 5000 万请求）。模型压缩为 4B 左右，使用 TensorFlow 和 A10 GPU 实现在线毫秒级推理。
- 长尾 Query 大盘下：IQRR（意图重搜率，越低越好）下降 1.28%，表明首屏直出满意度增加；CTR 提升 1.24%，LVR（长播率）提升 1.67%。成功实现了“以质换量，打破负循环”的系统级改良。

关键技术亮点分析

站在资深从业者视角，该论文的工程与算法设计非常契合大厂真实工业痛点，有以下几个非常值得借鉴的亮点：

“解耦式”范式： 长尾排序的悖论在于“无数据可学”，但如果直接端到端上基于 LLM 的生成式 Reranker，会面临极高的推理成本以及原有业务强目标（CTR/CVR）剧烈波动的风险。作者将知识（LLM的跨模态一致性研判能力）提取为离线的独立标量分数，再通过 Reward 和辅助监督强行注入现有的搜推模型引擎中，兼顾了表达上限与在线稳定性。
创新应用 GRPO 到 Search Ranking： DeepSeek-Math 带火的 GRPO 被创造性地应用到了排序系统的 List-wise 对齐中。这里的 Reward 巧妙地利用体验分的 nDCG 分布作为专家策略（Expert trajectory），有效约束了生成模型对展示位置的感知。
多模态“防作弊”降维打击： 大部分搜索依然在“倒排+双塔”的文本/稠密向量空间中挣扎。该文章彻底引入大语言视觉模型 (VLMs) 核对 ASR 与封面/视频帧，从根源上消除了特征级融合无法解决的“时空不一致作弊”问题。

大模型 Agent 与强化学习 (RL) 深度学术解读报告