这份研究介绍了 OpenMOSS 团队开发的 RLCF(社区反馈强化学习) 训练范式,旨在提升人工智能的“科学品味”。研究者利用 700,000 对基于引用量匹配的论文数据,训练出具备模拟科学共同体判断能力的模型。其中,Scientific Judge 模型能够精准评估研究想法的潜在影响力,其表现超越了 GPT-5.2 等主流商业大模型。此外,以该评价模型作为奖励机制,团队进一步开发了 Scientific Thinker,使其能够自主提出更具学术价值和原创性的科研课题。实验结果证明,科学品味并非人类独有的神秘特质,而是一种可以被 AI 学习并规模化的目标函数。这一进展为实现具备人类专家级判断力的“AI 科学家”迈出了关键一步。