December 21, 2024

热点：OpenAI最强推理模型o3发布

3 minutes

热点：OpenAI 重磅发布 o3

12月21日凌晨，OpenAI顺利完成了其长达12天的新品发布会，并重磅发布了其下一代推理模型o3及其迷你版o3-mini。

这次发布会不仅展示了这两款新型模型的强大之处，同时也揭示了OpenAI在追求通用人工智能（AGI）道路上迈出的一大步。

o3作为一个高性能推理模型，无论是在代码编写、数学解题还是科学研究等多个领域均实现了显著的进步。

在软件测试基准SWE-bench Verified上的准确率达到71.7%，相较于之前的型号提升了约20个百分点；

在国际知名编程竞赛平台CodeForces上的得分高达2727 ，几乎相当于顶级选手的表现；

而在美国数学竞赛AIME中的解答精度更是达到了令人惊叹的96.7%。

除此之外，o3还在多个科研级别的问答测试中刷新记录，特别是在ARC-AGI测试中首度超过了人类平均水平，达成了87.5%的成功率。

与此同时，o3-mini作为o1-mini的延续之作，同样以其小巧的设计赢得了关注。

尽管体积缩小了许多，但它依然保留着出色的推理能力和较低的成本优势。

这款小型化的模型提供了多种不同的运算强度设定，让用户可以根据实际需求自由调节性能等级，即使是在最低配置状态下也能轻松超越前辈o1。

更重要的是，即便大幅度降低了硬件要求，o3-mini仍然能够在诸如GPQA Diamond这样的高标准学术测验中拿到不错的成绩，证明了自己的实力不容小觑。

除了技术创新外，OpenAI此次还引入了一项名为“审慎对齐”的全新安全保障机制，利用先进的算法和技术手段有效提高了系统的安全性，减少了误判的可能性。

为此，他们公开招募了一批专业的第三方机构参与前期的安全检测流程，力求打造一款既先进又能让人放心使用的优质产品。

按照计划，o3-mini将于2025年的1月底先行上市，以便让更多开发人员有机会提前试用并反馈宝贵意见。

至于完整的o3，则会在稍晚时候推向市场，届时也必将引发新一轮的技术革新浪潮。

不过需要注意的是，由于涉及到了较为敏感的数据隐私等问题，现阶段这两个版本都将主要用于封闭环境下的实验阶段，直到得到相关部门的认可才会逐渐放开权限范围。

...more

By 听梦想小分队