本文介绍了 OpenAI 开发的新型 AI 基准测试
FrontierScience,旨在评估大语言模型在物理、化学和生物领域的
专家级科学推理能力。该基准由
奥林匹克 (Olympiad) 和
科研 (Research) 两个轨道组成,分别涵盖了国际竞赛水平的问题以及博士级别的开放式科研子任务。为了保证评估的严谨性,所有题目均由
顶尖奖牌得主和资深科学家原创编写,有效避免了由于模型训练数据污染导致的评分偏差。研究团队还为复杂的科研任务引入了基于
细颗粒度量表 (Rubric) 的评分架构,从多个维度衡量模型的逻辑严密性。初步评估显示,虽然
GPT-5.2 等尖端模型在竞赛题目上表现出色,但在处理复杂的科研实战问题时仍有巨大提升空间。这一工具为衡量 AI 推动
科学发现的潜力提供了更具挑战性的标准。
References:
- Wang M, Lin R, Hu K, et al. FrontierScience: Evaluating AI's Ability to Perform Expert-Level Scientific Tasks[J]. arXiv preprint arXiv:2601.21165, 2026.