网事头条|畅听版

热点:OpenAI最强推理模型o3发布


Listen Later

热点:OpenAI 重磅发布 o3

12月21日凌晨,OpenAI顺利完成了其长达12天的新品发布会,并重磅发布了其下一代推理模型o3及其迷你版o3-mini。

这次发布会不仅展示了这两款新型模型的强大之处,同时也揭示了OpenAI在追求通用人工智能(AGI)道路上迈出的一大步。

o3作为一个高性能推理模型,无论是在代码编写、数学解题还是科学研究等多个领域均实现了显著的进步。

在软件测试基准SWE-bench Verified上的准确率达到71.7%,相较于之前的型号提升了约20个百分点;

在国际知名编程竞赛平台CodeForces上的得分高达2727 ,几乎相当于顶级选手的表现;

而在美国数学竞赛AIME中的解答精度更是达到了令人惊叹的96.7%。

除此之外,o3还在多个科研级别的问答测试中刷新记录,特别是在ARC-AGI测试中首度超过了人类平均水平,达成了87.5%的成功率。

与此同时,o3-mini作为o1-mini的延续之作,同样以其小巧的设计赢得了关注。

尽管体积缩小了许多,但它依然保留着出色的推理能力和较低的成本优势。

这款小型化的模型提供了多种不同的运算强度设定,让用户可以根据实际需求自由调节性能等级,即使是在最低配置状态下也能轻松超越前辈o1。

更重要的是,即便大幅度降低了硬件要求,o3-mini仍然能够在诸如GPQA Diamond这样的高标准学术测验中拿到不错的成绩,证明了自己的实力不容小觑。

除了技术创新外,OpenAI此次还引入了一项名为“审慎对齐”的全新安全保障机制,利用先进的算法和技术手段有效提高了系统的安全性,减少了误判的可能性。

为此,他们公开招募了一批专业的第三方机构参与前期的安全检测流程,力求打造一款既先进又能让人放心使用的优质产品。

按照计划,o3-mini将于2025年的1月底先行上市,以便让更多开发人员有机会提前试用并反馈宝贵意见。

至于完整的o3,则会在稍晚时候推向市场,届时也必将引发新一轮的技术革新浪潮。

不过需要注意的是,由于涉及到了较为敏感的数据隐私等问题,现阶段这两个版本都将主要用于封闭环境下的实验阶段,直到得到相关部门的认可才会逐渐放开权限范围。


...more
View all episodesView all episodes
Download on the App Store

网事头条|畅听版By 听梦想小分队