Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
今天的主题是:
Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
Summary
近年来,大型语言模型(LLM)和多智能体系统的快速发展,已在深度研究、氛围式编程(vibe coding)以及数学推理等复杂问题求解任务中展现出卓越能力。然而,现有的大多数多智能体系统依赖人工设计的提示词与工作流工程,并构建在复杂的智能体框架之上,这使得它们在计算上效率低下、能力受限,且难以从以数据为中心的学习范式中获益。
在本文中,我们提出了 Chain-of-Agents(CoA)——一种新的 LLM 推理范式,使单一模型即可原生地端到端完成复杂问题求解,其方式与多智能体系统等价(即通过多轮交互、使用多种工具并扮演多个智能体角色来解决问题)。在 Chain-of-Agents 的问题求解过程中,模型会动态激活不同的工具型智能体和角色扮演型智能体,以端到端的方式模拟多智能体协作。
为在 LLM 中激发端到端的 Chain-of-Agents 求解能力,我们提出了一种多智能体蒸馏框架,将最先进的多智能体系统蒸馏为 Chain-of-Agents 轨迹,用于智能体化的监督微调(agentic supervised fine-tuning)。随后,我们在可验证的智能体任务上引入智能体强化学习(agentic reinforcement learning),进一步提升模型在 Chain-of-Agents 问题求解方面的能力。我们将最终得到的模型称为智能体基础模型(Agent Foundation Models,AFMs)。
大量实验结果表明,AFM 在 Web 智能体和代码智能体等多种设置下的多项基准测试中均取得了新的最先进性能。我们将全部研究成果完全开源,包括模型权重、训练与评估代码以及训练数据,为未来关于智能体模型和智能体强化学习的研究提供了坚实的起点。
原文链接:https://arxiv.org/abs/2508.13167