Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
今天的主题是:
Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
Summary
本文提出了一种用于自适应大型语言模型(LLM)智能体的全新学习范式,该范式无需对底层 LLM 进行微调。现有方法往往存在两类局限:要么依赖静态、人工设计的反思工作流,灵活性不足;要么计算成本高昂,需要对 LLM 模型参数进行梯度更新。相比之下,我们的方法通过基于记忆的在线强化学习,实现了低成本的持续自适应。
我们将该过程形式化为一种记忆增强的马尔可夫决策过程(Memory-augmented Markov Decision Process,M-MDP),并引入一个神经化的案例选择策略来指导行动决策。历史经验被存储在情景记忆中,该记忆既可以是可微的,也可以是非参数化的。策略通过一种记忆重写机制,基于环境反馈持续更新;而策略改进则通过高效的记忆读取(检索)来实现。
我们在深度研究(deep research)场景中实例化了该智能体模型,命名为 Memento。该模型在 GAIA 验证集上取得了第一名(Pass@3 为 87.88%),在测试集上达到 79.40%。在 DeepResearcher 数据集上,其 F1 值为 66.6%,PM 为 80.4%,超过了当前最先进的基于训练的方法;同时,基于案例的记忆机制在分布外任务上带来了 4.7% 至 9.6% 的绝对性能提升。
总体而言,我们的方法为构建具备持续、实时学习能力且无需梯度更新的通用型 LLM 智能体提供了一条可扩展且高效的路径,推动了机器学习在开放式技能获取和深度研究场景中的发展。代码已在上述 HTTPS 链接中公开。
原文链接:https://arxiv.org/abs/2508.16153