March 16, 2026

AI程序员为何难过维护关

18 minutes

SWE-CI 是一个针对大型语言模型（LLM）驱动的智能体设计的代码维护基准测试。与侧重单次修复的传统测试不同，该基准通过持续集成（CI）循环评估智能体在真实代码仓库中进行长期演进的能力。它包含 100 个基于真实 GitHub 项目的任务，每个任务平均跨越 233 天的历史版本，要求智能体通过架构师与程序员双智能体协作完成多轮迭代。该研究引入了 EvoScore 指标，旨在衡量代码在后续开发中的可维护性与功能正确性。实验结果显示，尽管顶尖模型在短期任务中表现出色，但在处理长期维护和控制回归错误方面仍面临显著挑战。

...more

View all episodes

By 天池青藤

March 16, 2026

AI程序员为何难过维护关

18 minutes

...more

Share AI程序员为何难过维护关

Sign up to save your podcasts

AI程序员为何难过维护关

AI程序员为何难过维护关