QuantCode-Bench,一个专为评估大语言模型生成量化交易策略代码能力而设计的全新基准测试。该基准包含 400 个源自 Reddit 和 GitHub 等平台的任务,要求模型利用 Backtrader 框架将自然语言描述转化为可执行的策略。研究人员构建了一个四阶段评估流程,涵盖代码编译、历史数据回测、交易信号触发以及语义一致性检查。实验结果显示,顶级模型在单轮生成中虽能保证语法正确,但在实现复杂的交易逻辑时仍面临挑战。然而,在提供反馈的智能体多轮对话模式下,模型的表现显著提升,成功率可达 95% 以上。该研究强调,量化策略生成不仅需要编程技巧,更需要模型精准理解金融逻辑与 API 的深度运用。