Runtime Burden Allocation for Structured LLM Routing in Agentic Expert Systems: A Full-Factorial Cross-Backend Methodology
Agentic专家系统中结构化LLM路由的运行时负担分配:全析因跨后端方法论
作者: Zhou Hanlin, Chan Huah Yong
机构: 马来西亚理科大学 (USM),厦门软件职业技术学院
📄 查看 ArXiv 原文 (链接为示例占位)
📌 研究背景与痛点 (Background & Painpoints)
在构建复合型AI系统(Compound AI Systems)和Agentic Expert Systems时,LLM已经不再仅仅扮演“文本生成器”的角色,而是逐渐成为核心的控制组件(Control Components) 。在这个架构中,最关键的一环是前置路由(Front-door Controller/Router) :它需要决定用户的请求该分发给哪个下游Agent、是否需要查询Memory、还是调用特定的Tool。
然而,在实际生产部署中,我们面临着显著的系统级挑战:
被低估的“结构化”代价: 路由控制器不仅要做出正确的推理决策,还需要按照严格的Schema(如JSON)输出。学术界和业界往往把这单纯看作是 Prompt-engineering 问题,试图通过调优Prompt让LLM按格式输出。
格式依从性 vs. 延迟成本: 为了让LLM吐出符合规范的JSON,它必须在生成循环(Generation loop)中消耗大量Token来输出字段名、括号等冗余结构,导致极其严重的Latency(延迟)和 Inference Cost(推理成本)。
盲目压缩的陷阱: 许多开发者试图通过让LLM输出精简代码(Compact code)再在本地利用代码还原JSON来降低成本,却发现原本在A模型上好用的策略,在B模型上会导致严重的路由决策崩溃(Routing accuracy drop)。
痛点在于:缺乏一个系统级的框架来评估和指导这种“结构化工作负载”究竟应该如何在LLM和周边软件堆栈之间进行分配。
💡 核心贡献 (Core Contributions)
这篇论文的本质不是提出一个新的基座模型或路由算法,而是提供了一套高度贴近生产环境的系统级评估方法论 。核心贡献包括:
重构问题定义(Burden-Allocation Framework): 将结构化输出(Structured Output)重新定义为“运行时负担分配问题” 。指出结构化实现的工作量可以根据 Serialization burden(序列化负担)、Transport semantics(传输语义/流式控制)和 Locus of structure realization(结构实现的主体)来进行灵活分配。
提出“兼容性原则”(Compatibility Principle): 坚决破除“寻找全局最优Runtime Mode”的迷信。明确指出没有任何一种包装策略可以打天下,效率和正确率的Trade-off受 Backend-specific interaction(后端特定交互效应) 的绝对主导。
构建全析因基准测试(Full-Factorial Benchmark): 跨越3大基座家族(OpenAI, Gemini, Llama)、4种Runtime Modes、2种资源约束、2种传输模式,共计48种部署配置,执行了15,552次真实的Structured Routing请求,并首次用严谨的方差分析(ANOVA)量化了系统级设计的显著性。
🔍 具体案例剖析 (Case Study: 运行时模式的演进)
为了理解论文提到的四种Runtime Modes(MJ, SJ, MJS, MCLR),我们可以设想一个典型的业务场景:用户的请求是“帮我重启服务器并查看日志 ”,Router需要将其分发给 dev 路由,并携带相应的参数。
1. 传统高保真模式 (MJ/SJ - Direct JSON Emission)
在此模式下,负担全量压给LLM(高Serialization burden)。
LLM输出示例:
{ "route_label": "dev", "confidence": 0.95, "memory_flag": true, "tool_flag": false, "reason": "User is asking for server operations..." }
分析: 这种模式在OpenAI和Gemini上极其稳定(Routing Accuracy > 85%),但Token消耗巨大(平均需125k token的预算),且耗时极长。
2. 流式模式 (MJS - JSON with Streaming)
与上述类似,仅开启SSE Streaming。虽然Time-to-first-token快,但由于下游系统必须等JSON完整(如遇到最后的 })才能解析执行,其实际的Actionable Latency并没有本质改善 。
3. 激进的负担转移模式 (MCLR - Compact Code + Local Reconstruction)
LLM只负责核心语义决策(极低的Serialization burden),结构还原由本地Deterministic Software完成。
LLM输出示例: [R:dev|C:0.95|M:1|T:0]
本地中间件代码: 自动捕获正则并在本地组装成上述合规的JSON。
分析: Token消耗锐减至原来的1/3(降至约47k),p50 Latency极大降低。但是 ,在Llama模型上,这种对表征的压缩直接导致了严重的语义崩溃(Accuracy从82.4%断崖下跌至22.8%)。这是因为冗余的JSON格式实际上充当了某些模型的“思维锚点(Lexical anchors)”。
图注:运行时负担分配框架。展示了用户请求如何结合具体的Burden-allocation profile(包含序列化负担、传输语义、结构实现位点),经过后端处理后,输出观测结果向量(包含合规性、路由准确率等)。
⚙️ 方法论与技术实现 (Methodology & Technical Implementation)
论文将Director routing转化为一个严谨的数学观测模型。定义期望的控制记录(Control record)为 \$y\$,它由路由标签、置信度等字段构成。任何一次路由的观测结果向量表示为:
\$\$ O = (FC, RA, SR, LAT, TOK) \$\$
其中,\$FC\$ 是格式合规性,\$RA\$ 是路由准确率,\$SR\$ 是状态保留率,\$LAT\$ 是响应延迟,\$TOK\$ 是Token消耗。
对于指定的Backend(如 \$b\$)和Runtime configuration(配置 \$m\$),结果是一个联合函数:
\$\$ O_{b,m} = \Phi(b, \psi_m, D) \$\$
这里 \$\psi_m\$ 就是论文的核心:Runtime burden-allocation profile 。它包含3个核心维度:
Serialization burden (序列化负担): 模型在其生成循环中必须承担的Schema构造量(直接输出完整JSON vs 输出紧凑中间码)。
Transport semantics (传输语义): 结果是否通过Streaming传递。
Locus of structure realization (结构实现位点): 最终的机器可读Artifact是由模型原样生成,还是由本地确定性软件重构。
基于此,论文提出了一个派生的下游成功率代理指标:WLC (Workflow lower-bound completion) 。这反映了在不触发重试的条件下,系统能获取到格式正确、路由正确、状态安全的记录的最低概率:
\$WLC = \max(0, FC + RA + SR - 200)\$ (针对三事件同时发生的保守估计)。
📊 实验设置与结论分析 (Experiments & Insights)
作者针对 OpenAI (GPT类), Gemini, Llama 三个Backend族,执行了 4 Modes x 3 Backends x 2 Constraints x 2 Transports 的全析因方差分析(Type-II ANOVA)。
核心发现:
Backend \$ imes\$ Mode 的交互效应是第一阶因素:
统计显示,对于路由准确率(RA),Backend \$ imes\$ Mode 交互项的 Partial eta squared 高达 0.960 。这在统计学上意味着极强的解释力。这也说明了“不存在跨模型的最佳打包策略” 。
在Gemini和OpenAI上,直接输出JSON的MJ/SJ模式最稳定(RA > 85%)。
激进压缩导致的“Llama惨案”:
采用MCLR(压缩输出+本地重建)在全盘看来具有极高效率(Token消耗骤降)。但在Llama上,MCLR导致格式合规性(FC)骤降至53.40%,路由准确率(RA)暴跌至 22.84% 。同样是使用MCLR,OpenAI仍能保持58.49%的RA。这证明:将结构化任务剥离出LLM,必须要求基座模型在极其简化的语义表征下依然具备强大的逻辑稳定性(即“语义核”不能碎)。
Streaming在控制流任务中的无力感:
ANOVA证明 Transport 设置对核心正确性指标的 \$p\$-value 极弱(\$p pprox 0.936\$),对 p50 Latency 的影响也极为次要。在Agentic控制链路里,下游系统只有拿到完整的决策数据才能启动,逐Token的返回(Streaming)只提供视觉安慰,毫无 Actionable Latency 收益。
🌟 关键技术亮点与架构师启示 (Highlights & Takeaways)
这篇论文对从事Agent Orchestration和LLM架构设计的工程师有着极强的指导意义:
打破思维定势: “让模型输出的结构越简单越好”是一个伪命题。简化的输出对Interface友好,但对LLM不一定友好。高度结构化的JSON中的键名和格式,其实在无形中给模型提供了推理过程中的 “词法锚点(Lexical Anchors)” ,去掉了它们,很多开源模型的性能直接解体。
生产环境的3条黄金部署法则(Deployment Rules):
如果业务场景是高容错极度敏感的(如调用昂贵Tool、删库等Developer Route) ,即使Token贵、耗时长,也必须使用原生的Direct JSON Emission(MJ/SJ),以换取系统最高稳定性。
只有在效率占据绝对优先级,且做过了充分的Backend-specific Validation 的前提下,才能启用 MCLR (本地重建)。因为节省的Token是靠拿“语义稳定性”换来的。
不要在Agent控制层盲目迷信Streaming。 全量请求模式(Non-stream)在处理紧凑的控制负载时,往往后端吞吐更稳健。
评估范式的转变: 停止追求榜单上的“大一统结论”。当评估一个Router方案时,必须将“Runtime Packaging(如何打包序列化负担)”作为第一公民变量纳入评估矩阵,而不是把它当做底层的工程Hack。
DarwinNet: An Evolutionary Network Architecture for Agent-Driven Protocol Synthesis
DarwinNet:面向代理驱动的协议综合的自进化网络架构
作者: Jinliang Xu, Bingqi Li
机构: 中国信息通信研究院(CAICT)
📄 查看 ArXiv 原文
研究背景与痛点
在传统的计算机科学与网络架构(尤其是TCP/IP)中,系统往往建立在“完备性”和“确定性”的古典美学之上。然而,随着大型语言模型(LLMs)和自主智能体(Agents)时代的到来,传统网络暴露出以下深层痛点:
协议僵化 (Protocol Ossification): 在极度异构的网络环境(从高延迟卫星网络到大规模IoT)中,传统协议依赖人类制定标准,周期动辄数年,难以对微小的拥塞控制或报文头结构做出快速调整。
“碳基霸权” (Carbon Hegemony): 现有的通信协议很大程度上是为了迎合人类的认知结构和可读性而设计的。对于能够进行高维概率推理的AI Agent而言,这种为了人类可读性而牺牲执行效率的强制约束,已经成为机器间通信的瓶颈。
结构脆弱性: 传统“代码即法律”的范式假设工程师能在设计阶段预见所有的边缘情况。当系统遭遇未定义的环境应力或新颖的攻击面时,基于静态规则的网络往往直接崩溃或陷入未知错误,缺乏自适应弹性。
核心贡献
本文提出了一种颠覆性的网络架构——DarwinNet ,将网络协议从“设计时(Design-time)”的静态标准化范式,全面推向“运行时(Runtime)”的自主生长范式:
系统性抗脆弱 (Anti-fragility): 将网络节点构想为一种仿生的“流体有机体”,把环境异常和报错作为系统演化的催化剂,无需人类发布补丁即可实现网络逻辑的自主生长与适配。
Intent-to-Bytecode (I2B) 双循环机制: 抛弃传统的“意图到静态策略(Intent-to-Policy)”映射,使用LLM直接将高层次业务意图合成为受限的WebAssembly (WASM) 字节码,并通过安全沙盒实现毫秒级的热插拔 (Hot Swap)。
协议固化指数 (PSI, Protocol Solidification Index): 首次提出量化网络进化成熟度的指标,描述系统从高延迟的LLM推理(慢思考,System 2)向极致效率的原生字节码执行(快思考,System 1)“坍缩”的过程。
基于Crow-AMSAA模型的可靠性验证: 引入成熟的工程可靠性增长模型,对协议的自主演进进行数学论证,证明了DarwinNet能在确保内生安全的前提下,快速收敛至物理性能极限。
具体案例剖析:DarwinNet 的协议熔断与演进过程
想象一个复杂的异构边缘网络场景,节点A和节点B正在进行高频通信,突然遭遇了未经定义的网络拥塞模式或一种新型的传输层探测攻击。传统TCP/IP网络可能会因不断重传而陷入拥塞崩溃。在DarwinNet架构下,系统会经历以下步骤:
环境冲击 (Environmental Shock): 现有的底层WASM沙盒协议出现高频异常(Mismatches),底层“痛觉神经”将此反馈给上层。
唤醒系统2 (Darwin Cortex Intervention): 节点内的LLM Agent被唤醒,进入慢速思考(Slow Path)。Agent分析环境特征和当前的业务带宽诉求,从“协议基因库 (Gene Pool)”中检索相关经验。
定向突变与意图合成 (Directed Mutation): LLM推理出传统JSON解析过于臃肿,决定合成一套包含“特定增量压缩算法”的二进制协议逻辑,并直接输出WASM字节码。
免疫验证与共识 (Immune System & Negotiation): 生成的代码在下发前,经历多层防御的安全沙盒静态分析。随后A与B的Agent在慢速信道上通过语义向量交换代码哈希并进行“试运行”达成共识。
运行时固化 (Hot Swap): 达成共识后,旧协议栈在毫秒级内被“熔化”,新WASM逻辑被注入流体皮层(Fluid Cortex)。系统重归宁静,流量在全新的、针对此次攻击免疫的极速通道(System 1)上奔跑。
图注:DarwinNet的仿生双环反馈系统。展示了系统从基于规则的刚性结构向有机自适应流体的演变,以及System 1(流体运行容器)和System 2(LLM控制面)的交互循环。
方法论与技术实现
DarwinNet受到认知心理学中“双系统理论 (Dual-Process Theory)”的深刻启发,在架构上进行了垂直解耦:
L0 层 (不可变的锚点 / 宪法层): 保证比特级别的连通性与密码学等数学真理(如1+1=2)。这层是系统的绝对物理底座,防止演进失控。
L1 层 (流体皮层 / System 1): 网络的执行躯体,采用基于零信任的 WebAssembly (WASM) 容器,负责极速的数据流传输(Fast Path)。它能支持协议逻辑的毫秒级变形,无需中断连接。
L2 层 (达尔文皮层 / System 2): 由LLM驱动的智能大脑,负责高级感知、意图理解、协议变异(Mutation)与节点协商(Slow Path)。
协议固化指数 (PSI): 描述系统进化成熟度的核心指标 M(t):
M(t) = 1 - N_agent / N_total
其中 N_total 是通信周期总数,N_agent 是需要LLM高维介入(慢速推理)的周期数。当 M ≈ 0 时系统处于混沌演定期;当 M → 1 时,最优交互模式被成功“固化”为WASM代码,LLM进入休眠,网络以逼近物理极限的速度运行。
可靠性增长建模: 作者采用 Crow-AMSAA (Duane) Power Law 来约束并预测协议变异的收敛过程。其故障密度函数为:
λ(t) = α β t^(β-1)
当形状参数 β < 1 时,证明系统通过不断的“发现-修复-进化”周期,正在从错误中学习并稳健降低失败率。
实验设置与结论分析
研究团队通过离散事件模拟验证了DarwinNet的动态表现,取得了极具商业和工程价值的结论:
可靠性收敛验证: 在Crow-AMSAA Duane图中,累积故障率在对数刻度下呈明显下降趋势,证明随着系统学习(β = 0.6),遭遇“未见边缘情况”的概率不断递减,架构呈现稳健收敛。
反脆弱性证明 (V型恢复): 实验中人为在 N_total=1000 处注入了环境冲击。PSI 指数出现瞬时暴跌(LLM被急剧唤醒),但随后通过协议的再次突变(Re-mutation)迅速反弹并逼近1.0。它证明了网络不仅能恢复,还能在应对新威胁后变得更强大。
进化税 vs 效率红利:
在“初始进化期”,由于LLM的推理调用,通信延迟飙升至500ms(这是为认知灵活性缴纳的进化税 Evolutionary Tax )。
但随着协议代码固化,移动平均延迟直降三个数量级,与WASM原生运行时的1ms物理极限平齐(享受效率红利 Efficiency Dividend )。这种短期投入换取长期极致性能的机制极具落地可行性。
关键技术亮点分析
这是一篇充满未来主义色彩却又落地严谨的学术佳作。对于LLM/Agent从业者而言,本文最大的启发在于:
通信协议的AI原生化 (AI-Native Networking): 过去我们在网络层做AI优化,多是参数微调(如调TCP拥塞窗口)。DarwinNet 直接跨越了这层,让LLM直接参与底层逻辑代码(WASM)的实时生成。这不仅是Agent间的一种涌现通信 (Emergent Communication) ,更是将“代码综合 (Code Synthesis)”能力无缝接入了网络基础设施。
打破碳基霸权: 系统抛弃了人类可读的标准化协议束缚,允许机器创造出极高维的交互“方言”。这标志着计算机科学的转变——工程师的角色从“写规则的人”变成了“搭建进化环境与守住安全宪法(L0层)”的生态园丁。
System 1/2 分离设计的工程标杆: 将高耗能的大模型推理(System 2)限制在异常处理的突变期,而将日常通信卸载到WASM字节码(System 1)。这种“液体思维向固态直觉坍缩”的设计,完美解决了大模型落地通信底层时最大的“时延与算力”痛点,堪称架构设计的典范。
Safety, Security, and Cognitive Risks in World Models 世界模型中的安全、安保与认知风险
作者: Manoj Parmar
机构: SovereignAI Security Labs, Bengaluru, India
📄 查看 ArXiv 原文
🌟 研究背景与痛点 (Background & Pain Points)
近年来,世界模型(World Models, WMs) 通过在压缩的潜在空间(Latent Space)中预测未来状态,实现了样本高效的规划(Planning)、反事实推理以及长视野的“想象”(Imagination),已逐渐成为自动驾驶(如 DriveDreamer, GAIA-1)、机器人控制(如 UniSim)和基于 LLM 的 Agentic AI 等高风险自治系统的底层核心模块。
然而,这种强大的预测与生成能力引入了一系列传统机器学习未曾充分关注的安全与认知风险:
生成性导致误差复合(Compounding Rollout Errors): 与单次推理的分类模型不同,世界模型产生的是“想象的未来”,多步 Rollout 会导致误差在长序列中成倍放大。
隐式表征的黑盒化(Latent Representation): 涉及安全关键的信息被编码在高维度的 Embedding 中,缺乏直接的物理可解释性,给安全审计和形式化验证带来极大挑战。
高度的自主决策性(Agentic): 下游的 Controller 基于世界模型的输出直接执行动作,模型预测的微小偏差会直接转化为物理世界的灾难性后果(如车辆碰撞、财产损失)。
认知偏差的放大: 世界模型生成的丰富且看似连贯的预测场景,极易引发人类的“自动化偏差(Automation Bias)”和“错位的信任(Miscalibrated Trust)”,使得人类在 Out-of-Distribution (OOD) 场景下放弃干预。
现有的安全框架(如 MITRE ATLAS、OWASP LLM Top 10)未能涵盖基于模型的规划循环(Model-based Planning Loop)或拥有世界模型的 Agent 独有的对齐(Alignment)风险。本文填补了这一空白。
🚀 核心贡献 (Core Contributions)
世界模型资产与架构梳理: 提炼了世界模型系统的六层功能栈及其各自的攻击面。
统一的威胁建模框架: 扩展了 MITRE ATLAS 和 OWASP 框架,提出了针对世界模型的 5 种攻击者能力画像分类(从 White-box 到 Supply-chain)。
形式化定义核心技术风险: 首次提出了轨迹持久性(Trajectory Persistence, $\mathcal{A}_k$) 和表征风险(Representational Risk, $\mathcal{R}( heta, \mathcal{D})$) 的严格数学定义。
实证安全论证 (PoC): 在基于 GRU 的 RSSM 代理模型上,经验性地证明了“轨迹持久性”对抗攻击的存在(扰动在首步被放大 2.26 倍),并验证了 PGD 对抗微调(Adversarial Fine-tuning)的缓解效果。
深度剖析对齐与认知风险: 探讨了拥有世界模型的 Agent 如何利用其模拟能力进行目标误泛化(Goal Misgeneralisation)、欺骗性对齐(Deceptive Alignment)和奖励黑客行为(Reward Hacking)。
场景研究与防御检查单: 提供了 4 个覆盖自动驾驶、机器人、企业自动化的具体威胁案例,并提出了一份涵盖架构、对齐工程及认知控制的可落地安全检查表(Checklist)。
无需攻击者:共享状态 LLM Agent 中无意的跨用户污染
No Attacker Needed: Unintentional Cross-User Contamination in Shared-State LLM Agents
作者: Tiankai Yang, Jiate Li, Yi Nian, Shen Dong, Ruiyao Xu, Ryan Rossi, Kaize Ding, Yue Zhao
机构: 南加州大学 (USC)、密歇根州立大学、西北大学、Adobe Research
📄 查看 ArXiv 原文
📍 1. 研究背景与核心痛点
随着 LLM Agent 在企业和团队协同场景下的普及,共享状态(Shared-State)架构 被广泛采用。无论是用于维护长期上下文的记忆库(Memory Banks),还是协作空间(如 Slack)中的持久化对话历史,单一 Agent 往往服务于多个用户,并在他们之间复用过去的交互记录以保持连贯性并减少冗余计算。
当前的痛点: 业内绝大多数的安全与鲁棒性研究(如间接 Prompt 注入、记忆投毒)都预设了“恶意攻击者”的存在。然而,在真实的共享状态系统中,存在一种极其隐蔽的失效模式——无意跨用户污染 (Unintentional Cross-User Contamination, UCC) 。User A 基于其特定任务场景,向 Agent 提出了完全合理、但在全局视角下属于“局部偏好”的指令(如特定格式、定义重写、特定工作流)。Agent 记住了这些 Convention,并在服务 User B 时无条件地泛化了这些局部规则 ,导致 User B 获得静默的错误输出。这说明,即便没有任何恶意攻击,共享状态本身即是一个巨大的健壮性漏洞。
🚀 2. 核心贡献
定义并形式化了 UCC 现象: 首次从“非对抗(Non-adversarial)”视角指出并定义了多用户 Agent 共享状态中的鲁棒性问题。
提出了污染类型分类法(Taxonomy): 将其分为语义污染(SC)、转换污染(TC)和程序性污染(PC)三种经典模式。
量化评估了真实场景的脆弱性: 在两种典型的共享架构(基于记忆检索的 EHRAgent、基于共享对话上下文的 MURMUR)上进行了受控实验,证明完全良性的交互就能导致高达 57%–71% 的高污染率。
实现了写时清洗防御策略 (SSI) 并揭示其局限性: 提出了 Sanitized Shared Interaction (SSI) 文本清洗方案,并深刻揭示了“文本级防御无法有效应对可执行制品(如 SQL 代码)中隐式逻辑污染”的工程挑战。
🔍 3. 具体案例剖析 (Case Studies)
论文详细展示了三种 UCC 是如何发生的。这三个案例极具代表性,直击我们在构建记忆机制时常犯的“生搬硬套”错误:
1. 语义污染 (Semantic Contamination, SC) - MURMUR/Slack 场景
User A 建立局部定义: 要求将会议纪要发到 #general。Agent 提示 #general 仅用于官方公告,重定向到了 #random,User A 同意了这种处理。
User B 的受害任务: “找出人数最多的频道并在那里发布一份问卷。”
预期行为: 发送到人数最多的 #general。
实际污染行为: Agent 受前置上下文影响,认为 #general 禁发普通内容,直接发到了 #random,导致问卷覆盖率减半。
2. 转换污染 (Transformation Contamination, TC) - EHRAgent 场景
User A 建立局部格式: “统计患者 55360 的就诊次数。为了内部看板,请只返回 'zero' 或 'nonzero' ”。Agent 生成了对应逻辑的 SQL 并存入记忆库。
User B 的受害任务: “统计患者 9964 的就诊次数。”(期望得到精确数字如 '1')
实际污染行为: Agent 检索到了高度相关的记录,复用了 User A 的二值化输出代码模板,直接返回了文本字符串 "nonzero"。
3. 程序性污染 (Procedural Contamination, PC) - EHRAgent 场景
User A 建立局部流程: “什么是排名前三的常见手术?为了我们的使用率审查,请按唯一患者统计频率 (同一患者的多次手术算一次)”。
User B 的受害任务: “什么是排名前三的常见手术?”(期望按全局总发生次数排序)
实际污染行为: Agent 复用了记忆中包含 COUNT(DISTINCT subject_id) 的聚合逻辑结构,导致输出了基于去重患者数量的错误排名。
图注:展示了共享状态 Agent 的系统架构。多个用户(User A, B)通过读/写机制影响全局的 Shared Memory/Context。在此基础上,论文引入了写时拦截机制 (Sanitized Write, SSI),试图在记录被写入共享存储前剥离特定于用户的局部规则。
⚙️ 4. 方法论与防御策略
问题建模: 论文将系统抽象为三个操作:写入 \$W\$、读取 \$R\$ 和 Agent 动作函数 \$f\$。
经过对 User A \$(u_s, x_s)\$ 的服务后,系统状态更新为:\$S_{t+1} = W(S_t, u_s, x_s, y_s, a_s)\$。
随后服务 User B \$(u_v, x_v)\$ 时,Agent 的行为 \$f(u_v, x_v, R(S_{t+1}, u_v, x_v))\$ 发生了偏离原始目标的改变。
基线防御:共享交互写时清洗 (Sanitized Shared Interaction, SSI)
为了缓解该问题,论文提出了一种拦截在“写入 (Write-Time)”阶段的防御机制。SSI 通过一个独立的 LLM 模块 \$h\$ 过滤即将写入状态的交互记录(Trace):
\$\$ \tilde{\tau}_t = h(\tau_t), \quad \tilde{\tau}_t \in \{ \text{sanitized trace} \} \cup \{ \texttt{NONE} \} \$\$
如果识别到交互中包含了局部解释覆盖、格式偏好或特定工作流指令(对应 SC, TC, PC),且无法安全地将其与通用知识分离,则直接丢弃不写入 (NONE);否则,改写并保留核心任务逻辑后入库。
📊 5. 实验设置与核心结论
实验评估了三个数据集:EHRAgent 的 MIMIC-III 和 eICU (基于共享记忆、生成 SQL 代码),以及 MURMUR 的 Slack 工作区(基于共享对话上下文)。底座模型统一采用 GPT-4o。
1. 原生状态下,UCC 污染极为普遍:
没有任何对抗攻击的情况下,EHRAgent MIMIC-III 的总体污染率高达 59.6% ,eICU 为 70.7% ,MURMUR Slack 为 57.4% 。
2. SSI 防御效果存在明显的“跨机制差异”:
在纯文本上下文环境(Slack)中,SSI 非常有效,将污染率从 57% 降至 6% 。因为清理掉聊天记录中的指令文本,模型就失去了遵循偏好的线索。
然而,在包含可执行制品(Executable Artifacts) 的 EHRAgent 中,SSI 效果大打折扣。尽管过滤了查询中 “请按唯一患者统计” 这样的文本,但最终存入记忆的 SQL 代码 COUNT(DISTINCT ...) 依然携带着这些程序性偏差 (PC),由于 Agent 高度依赖历史代码模板,最终 MIMIC-III 的污染率依然高达 41% ,eICU 为 33% 。
Open-Domain Safety Policy Construction
开放领域安全策略的自动化构建:基于轻量级Agent的深度研究系统
Authors: Di Wu, Siyue Liu, Zixiang Ji, Ya-Liang Chang, Zhe-Yu Liu, Andrew Pleffer, Kai-Wei Chang
Affiliations: University of California, Los Angeles (UCLA) & Taboola
📄 查看 ArXiv 原文
💡 研究背景与痛点
在当前的LLM落地应用中,内容审核(Content Moderation)和安全对齐模块是核心组件。无论是预训练阶段的清洗、RLHF阶段的Reward Model训练(如基于规则的奖励),还是部署时的Safety Classifier,都高度依赖领域特定的安全策略(Safety Policies) 。
然而,当前的安全策略构建存在显著的痛点:
人力成本极高: 需要领域专家手动撰写,明确界定“允许”与“不允许”的边界(Decision Boundaries)。
长尾与边缘Case难以覆盖: 随着产品演进、对抗攻击手段升级(如新造词汇、隐喻),完全依赖人脑难以穷尽所有变体和边缘情况。
迭代周期长: 每次策略更新都需要人工复核、测试和发布。
目前学术界多关注“如何让模型更好地遵循已有的Policy”(如Anthropic的Constitutional AI),但极少有研究挑战这个前提条件——我们能否直接让LLM协助甚至主导Policy本身的起草与构建?
🚀 核心贡献
本文首次正式定义了开放领域策略构建(Open-Domain Policy Construction) 任务,并提出了一个极简的Agentic系统——Deep Policy Research (DPR) 。主要贡献如下:
任务范式创新: 输入仅为一句话的“种子领域定义(Seed Domain Specification)”,配合搜索引擎工具,输出结构化、带索引的完整Policy文档。系统有效性的评判标准直接挂钩下游效用(Downstream Utility) ,即用一个冻结的Reader LLM读取该Policy后,审核任务的F1 Score是否提升。
DPR 极简智能体: 摒弃了复杂的Agent脚手架,仅使用单一外部工具(Google Search)和轻量级Prompt流,通过“查询生成 -> 规则提取合并 -> 聚类索引”的闭环,自主完成深度调研。
优越的落地表现: 在OpenAI文本审核基准和Taboola多模态广告审核工业数据集上,DPR生成的策略不仅大幅超越Few-shot ICL和“仅使用种子定义”,在多模态工业场景中甚至逼近了人类专家耗费大量精力撰写的Policy表现。此外,在同等测试条件下,DPR击败了OpenAI官方的通用型Deep Research系统。
🔍 具体案例剖析 (Case Study)
为了直观感受DPR如何将海量Web噪音转化为可执行的Policy Rules,我们可以看以下两个截取自论文的典型Case:
案例 1:OpenAI Content Moderation - 自残(Self-Harm)领域
种子定义: "Content that promotes, encourages, or depicts acts of self-harm..."
Web 检索摘录 (来自某新闻发布会): "In one case, researchers prompted My AI to instruct a child how to cover up a bruise ahead of a visit from Child Protective Services."
DPR 生成的 Rule: "Sensitive messages related to self-harm may include instructions on how to conceal physical harm or injuries."(与自残相关的敏感信息可能包含如何掩盖身体伤害的指导。)
分析: 这是一个非常隐蔽的边缘Case。如果仅靠人类拍脑袋,很难马上想到“掩盖伤口”也是自残类违规的一个重要特征。DPR成功地从生肉语料中做出了抽象化提取。
案例 2:多模态工业广告审核 - 冒犯性(Offensive)领域
人类专家Rule (6.13): "Must not use language or images that are culturally or religiously insensitive."
Web 检索摘录 (来自Lunio博客): "Bumble released an ad campaign... messages such as 'A vow of celibacy is not the answer' and 'Thou shalt not give up on dating and become a nun'."
DPR 生成的 Rule: "Using religious references or imagery in a way that is perceived as mocking or disrespectful can be considered offensive."
分析: DPR提取的规则与人类专家的宏观定义高度对齐,同时由于看到了具体案例(Bumble的修女广告),其规则在判别“宗教元素的嘲讽用法”时具有极强的实操指导意义。
🛠 方法论与技术实现
图注:DPR (Deep Policy Research) 系统架构图。基于极简的领域定义(Domain Specification),LLM进行迭代式的研究循环:首先生成搜索Query,然后从返回的Web结果中提取并起草规则(Draft Rules),接着通过关键词聚类构建索引(Clustering & Indexing)。经过k次迭代后,输出结构化的Policy文档。
DPR 被设计为一个极简的轻量级Agent,不需要复杂的Memory管理或多Agent协作架构。设定基础状态 $P_0 \equiv s$ (种子领域定义),迭代进行 $k$ 次循环,每次迭代 $i \in \{1, \dots, k\}$ 包含三个核心步骤:
查询生成 (Query Generation):
系统分析当前已有的Policy大纲 $I_{i-1}$,针对覆盖不足的部分、模糊边界、高风险子类型等,生成多条具体的Google Search Queries。检索前 $m$ 个结果作为证据库。
规则提取与合并 (Rule Extraction and Consolidation):
并非简单总结网页,而是强制要求大模型 $\mathcal{M}$ 将网页信息转化为Predicate-style (断言式) 的规则集。系统随后进行一次 Self-Critique:过滤无关噪音、合并语义重复的规则、解决冲突(优先采用多源交叉验证或高质量信息源的规则),最终输出本轮的精炼规则集 $R_i$。
结构化索引构建 (Indexing):
随着规则积累 ($P_i \leftarrow P_{i-1} \cup R_i$),Prompt长度激增且阅读体验变差。DPR引入了一层索引机制:要求 $\mathcal{M}$ 为每条规则提取 Keyphrase;使用 K-Means 将 Keyphrases 聚类为 $n$ 组;最后让 $\mathcal{M}$ 为每个聚类生成小节标题和概述。形成的结构化文档 $I_i$ 不仅对Reader LLM的In-Context读取更友好,也作为下一轮查漏补缺的“地图”。