热点:OpenAI 重磅发布 o3
12月21日凌晨,OpenAI顺利完成了其长达12天的新品发布会,并重磅发布了其下一代推理模型o3及其迷你版o3-mini。
这次发布会不仅展示了这两款新型模型的强大之处,同时也揭示了OpenAI在追求通用人工智能(AGI)道路上迈出的一大步。
o3作为一个高性能推理模型,无论是在代码编写、数学解题还是科学研究等多个领域均实现了显著的进步。
在软件测试基准SWE-bench Verified上的准确率达到71.7%,相较于之前的型号提升了约20个百分点;
在国际知名编程竞赛平台CodeForces上的得分高达2727 ,几乎相当于顶级选手的表现;
而在美国数学竞赛AIME中的解答精度更是达到了令人惊叹的96.7%。
除此之外,o3还在多个科研级别的问答测试中刷新记录,特别是在ARC-AGI测试中首度超过了人类平均水平,达成了87.5%的成功率。
与此同时,o3-mini作为o1-mini的延续之作,同样以其小巧的设计赢得了关注。
尽管体积缩小了许多,但它依然保留着出色的推理能力和较低的成本优势。
这款小型化的模型提供了多种不同的运算强度设定,让用户可以根据实际需求自由调节性能等级,即使是在最低配置状态下也能轻松超越前辈o1。
更重要的是,即便大幅度降低了硬件要求,o3-mini仍然能够在诸如GPQA Diamond这样的高标准学术测验中拿到不错的成绩,证明了自己的实力不容小觑。
除了技术创新外,OpenAI此次还引入了一项名为“审慎对齐”的全新安全保障机制,利用先进的算法和技术手段有效提高了系统的安全性,减少了误判的可能性。
为此,他们公开招募了一批专业的第三方机构参与前期的安全检测流程,力求打造一款既先进又能让人放心使用的优质产品。
按照计划,o3-mini将于2025年的1月底先行上市,以便让更多开发人员有机会提前试用并反馈宝贵意见。
至于完整的o3,则会在稍晚时候推向市场,届时也必将引发新一轮的技术革新浪潮。
不过需要注意的是,由于涉及到了较为敏感的数据隐私等问题,现阶段这两个版本都将主要用于封闭环境下的实验阶段,直到得到相关部门的认可才会逐渐放开权限范围。