这项研究揭示了广泛使用的MMLU基准测试中存在严重的数据错误,这些错误往往会误导对大语言模型真实能力的评估。通过对57个学科的5,700个问题进行手动复核,研究人员开发了MMLU-Redux数据集,估算原始基准的整体错误率约为6.49%。调查发现,某些特定学科(如病毒学)的错误率竟高达57%,涵盖了标准答案错误、题目模棱两可及选项解析失误等多种类型。实验证明,修正这些错误会显著改变顶级AI模型的性能排名,凸显了高质量评估数据的必要性。尽管研究尝试利用检索增强生成 (RAG) 等技术进行自动错误检测,但结果表明,目前仅靠模型自身尚难以完全替代人工审核的精准度。研究者最终呼吁学术界重视测试集的可靠性,并公开发布了更准确的子集供后续研究使用。