基于大语言模型(LLM)的Agent在强化学习(RL)框架下已展现出强大的复杂交互任务处理能力。然而,当前主流RL范式存在两个根本性缺陷:一是过度依赖"求解"而非"持续适应"——Agent往往因探索不足而收敛于次优策略,在某条行动路径被发现后便停止探索;二是知识的隐式编码问题——过往经验仅以隐式方式嵌入模型参数,无法被显式检索和复用,导致在面对类似任务时无法有效迁移经验。
现有研究要么专注于缓解"利用偏差"以增强探索(如利用元强化学习进行跨episode训练),要么构建显式记忆机制存储历史轨迹或提炼后的技能,但两条路线相互独立,未能形成协同。具体而言,纯粹稀疏的外部奖励无法为Agent指明"如何改进"——仅告诉Agent成功与否,却不指示哪些子步骤值得探索、哪些经验教训可以复用。这一问题在 ALFWorld、WebShop、Sokoban、MineSweeper 等典型交互式benchmark中尤为突出,Agent经常陷入局部最优并停滞。