
Sign up to save your podcasts
Or


SWE-CI 是一个针对大型语言模型(LLM)驱动的智能体设计的代码维护基准测试。与侧重单次修复的传统测试不同,该基准通过持续集成(CI)循环评估智能体在真实代码仓库中进行长期演进的能力。它包含 100 个基于真实 GitHub 项目的任务,每个任务平均跨越 233 天的历史版本,要求智能体通过架构师与程序员双智能体协作完成多轮迭代。该研究引入了 EvoScore 指标,旨在衡量代码在后续开发中的可维护性与功能正确性。实验结果显示,尽管顶尖模型在短期任务中表现出色,但在处理长期维护和控制回归错误方面仍面临显著挑战。
By 天池青藤SWE-CI 是一个针对大型语言模型(LLM)驱动的智能体设计的代码维护基准测试。与侧重单次修复的传统测试不同,该基准通过持续集成(CI)循环评估智能体在真实代码仓库中进行长期演进的能力。它包含 100 个基于真实 GitHub 项目的任务,每个任务平均跨越 233 天的历史版本,要求智能体通过架构师与程序员双智能体协作完成多轮迭代。该研究引入了 EvoScore 指标,旨在衡量代码在后续开发中的可维护性与功能正确性。实验结果显示,尽管顶尖模型在短期任务中表现出色,但在处理长期维护和控制回归错误方面仍面临显著挑战。