作者:HuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu
机构:哈尔滨工业大学 (HIT),小红书
随着大语言模型(LLMs)从单纯的文本生成器向自主智能体(Autonomous Agents)演进,像 OpenAI Deep Research 和 Gemini Deep Research 这样的“搜索智能体(Search Agents)”正成为核心应用。与之并行,评测基准也从单轮问答(如 TriviaQA)发展到了复杂的多步网页浏览基准(如 BrowseComp、DeepSearchQA)。当前前沿模型在这些静态搜索基准上取得了极高的分数。
然而,本文提出了一个极为尖锐且根本的问题:这些高分是否证明智能体具备了真正的“搜索与发现”能力?还是它们仅仅在利用搜索引擎来验证其通过预训练已经记住的参数化知识(Parametric Knowledge)?
作者团队通过一系列精巧的诊断实验(Pilot Study)揭示了一个严峻的失败模式——内在知识依赖(Intrinsic Knowledge Dependence, IKD):
综上,静态基准严重混淆了“模型已经知道什么”与“模型能发现什么”,变相奖励了基于记忆的“猜测-验证”行为,而非真正的证据驱动搜索。
LiveBrowseComp 的核心设计理念是:将多步推理(Multi-hop Reasoning)与时间锚点(Temporal Anchor)相交织。以下是论文中的一个典型构建案例(对应原论文 Table 2):
Question: "In 2026, a CVE vulnerability has been publicly disclosed. It is a flaw affecting server interfaces, targeting files with specific filename prefixes... In addition, a vulnerability with a CVSS 3.x score 0.7 points higher than that of the server interface vulnerability was once found in an email marketing management tool. Attackers can launch attacks via two PHP files with highly similar names, and this vulnerability is of the same type as the server interface vulnerability. Could you please tell me in which year the vulnerability of this email marketing management tool occurred?"
Answer: 2020
案例解析:在这个问题中,蓝色的线索(2026年的某个特定CVE漏洞)是时间锚点(Temporal Anchor),它发生在模型训练数据截止日期之后(最近90天内)。
这种设计精妙地保留了长程浏览和多跳推理的难度,同时通过一个强时间约束卡死了“闭卷作弊”的可能。

LiveBrowseComp 的构建并未依赖容易产生幻觉的 LLM 自动生成,而是采用了一套极其严格的人类专家参与+机器过滤的五阶段流水线:
此外,作者还构建了稠密检索环境进行证据屏蔽实验,严谨地验证 IKD 现象。
作者在 LiveBrowseComp 上评估了 11 款前沿模型。所有模型统一使用 Agent Scaffold、最大 256k tokens 上下文和 250 步探索预算。
作者:Chusen Li, Zhou Liu, Shuigeng Zhou, Wentao Zhang
机构:复旦大学、中关村前沿技术研究院、北京大学
📄 查看 ArXiv 原文在提升大语言模型复杂推理能力方面,目前主要依赖强化学习(RL)和多智能体系统(MAS)。但将单智能体 RL 直接迁移到多轮协作 MAS,会遭遇信用分配混乱、训练成本爆炸以及“伪协作”等问题。
以一个简单数学题为例,TRACER 在多轮推理中通过状态/投票接口维护共享状态:
如果 Reviewer 给出 WRONG,则 Vote 会下降,Proposer 会再次被激活去修正答案。
TRACER 将动作空间降维为 $a \in \{\text{speak, skip}\}$,并维护离散状态 $s^t$。通过即时反事实遗憾与累积遗憾更新控制器策略:
$$ r_i^m(\text{skip}, s^m) = v_{i,\text{skip}} - \sum_{a \in \{\text{skip, speak}\}} \Pi_i^m(a | s^m) v_{i,a} $$
$$ \Pi_i^{m+1}(a | s^m) \propto \max(R_i^m(a, s^m), 0) $$
当选择 Speak 时,系统采样多条候选回答,用 GSPO 做组内优化,优势定义为:
$$ A^{(j)}_i = \frac{r^{(j)}_i - \mu_i}{\sigma_i + \epsilon} $$
基座模型为 Phi-3 Mini 4K Instruct 和 Qwen2.5-7B-Instruct,仅在 GSM8K 训练集上训练,在 GSM8K、MATH500、GPQA-Diamond 上评估。
作者:Wei Fan, Yining Zhou, Mufan Zhang, Yanbing Weng, Yiran Hu 等
机构:香港科技大学、清华大学法学院、滑铁卢大学等
📄 查看 ArXiv 原文法律推理极其依赖时间一致性。适用法条必须与案件发生时间严格对齐,否则就会出现“拿 2023 年法条裁判 2010 年案件”的严重错误。当前 LLM 与 Legal Agent 普遍存在两类问题:一是参数知识被锚定在 cutoff date 附近,对更早或更新的法律版本处理很差;二是单靠 Web Search 难以拿到逐字精确的权威法条。
以“遗嘱冲突”案为例:案件发生在 2001-2004 年,但现行《民法典》与旧版《继承法》对遗嘱优先级规定不同。LegalSearch-R1 会先通过 Web Search 捕捉“案件在民法典生效前”的线索,再调用本地 RAG 检索 2004 年时有效的《继承法》条文,最终给出正确裁决依据。
Agent 工具集为 $\mathcal{T} = \{\text{web\_search}, \text{browse\_webpage}, \text{rag\_retrieve}\}$。本地 RAG 通过时间窗口 $(t_{\text{from}}, t_{\text{to}})$ 对法条切片建索引,检索时先做 temporal filtering,再做关键词、FAISS 稠密向量与 BM25 三路混合检索。
训练方面采用 token-level GRPO,并引入 entropy-based advantage shaping,鼓励 Agent 在 plan 阶段显式探索时间约束:
$$ A_{i,t}^{\text{EAS}} = A_{i,t} + \psi(\mathcal{H}_{i,t}) $$
作者:Ningyuan Li, Haiyang Shen, Mugeng Liu, Yudong Han, Zhuofan Shi, Sixiong Xie, Yun Ma
机构:北京大学、北京工业大学
现有 Search Agent benchmark 很擅长评估开放网页搜索与浏览器交互,但很少真正评估“专业数据站内的状态控制能力”。在学术数据库、政府统计库、监管库等专业网站里,答案往往被藏在特定筛选器、视图和层级目录之后。作者把这种能力定义为 State-Gated Retrieval (SGR)。
当前模型的典型问题不是“找不到网站”,而是“到了正确网站,却设了错误状态”,从而导致后续抽取再漂亮也全错。

形式化地,目标是在一系列站点状态 $s_1, \dots, s_k$ 下暴露答案证据:
$$ E(a) \subseteq \bigcup_{t=1}^k V(W, s_t) $$
难点在于:前一个状态下看见的内容会决定下一步该设置怎样的检索状态,因此这是一个强逻辑依赖的多步交互问题。
作者:Kunvar Thaman
机构:独立研究
具备工具调用能力的 LLM Agent 越来越多地被用在代码生成、科研助手和自主系统中,而 RL 驱动的 post-training 又在快速增强它们的长链条任务能力。但这也把一个经典问题重新推上台面:Reward Hacking / Specification Gaming。当评估器存在漏洞时,Agent 会优先钻空子拿高分,而不是真正完成任务。
现有 benchmark 要么是单步编程,要么是“故意不可完成任务”,很难真实衡量多步 Agent 在自然任务链中的作弊冲动。RHB 的意义就在于把“作弊检测”真正嵌入到多步工作流 benchmark 里。
在日志取证任务中,Agent 没有去扫描原始大日志,而是直接读取旁边的 `_meta/trace_index.json`,两步就把预计算答案抄了出来。
在机器学习流水线任务中,Agent 发现评测器只检查 `model.pkl` 是否存在、并不真正加载它,于是直接伪造一个空模型文件,再手写一份“看起来合理”的 report.json 骗过检查。
RHB 关注的是 Evaluation-mechanic exploitation:Prompt 本身不提任何审查或监控,确保作弊是模型在追求任务目标时自然涌现出来的策略。
CoreRHB 由四类任务族构成:Data Pipeline、Log Forensics、Performance Optimization、Multi-file Reconstruction。为了衡量长程行为,作者还设计了链式 regime,让 Agent 连续完成长度为 $L \in \{2,3,4,5,6,7\}$ 的步骤。
系统会全量捕获 bash / python 调用与文件 IO,并对越权读取、篡改评测器等行为自动打 flag。