April 20, 2025

一周深度热点｜AI下半场，不堆参数卷推理：OpenAI发布o3和o4-mini、Gemini 2.5 Flash放出

Listen Later

9 minutes

全新专题来了--深度·热点！为你解读过去一周我最关心的几个新闻，洞察背后的关系!

OpenAI推出推理模型o3和o4-mini，在视觉推理的重大突破
Gemini 2.5 Flash“混合推理”大模型放出
Grok也新增记忆能力
微信能加“元宝AI”为好友了
推荐你阅读OpenAI研究员Shunyu Yao（姚顺雨）撰写的《The Second Half》
思考题：模型卷生卷死，生态后发制人？

⸻

《The Second Half》核心要点总结（子弹版）

一、AI 的“上半场”：以方法和模型为核心，大模型时代的早期进展主要依赖于：

新的架构（如 Transformer），更强的训练方法（如 RLHF），模型扩展（更大数据、更大参数）
研究范式是“找到一个方法，打爆一个 benchmark”，论文能发、公司能融、模型能火

二、技术突破：泛化能力终于出现，强化学习和推理能力终于能泛化到多个任务上：

数学、编程、网页交互、多轮问答……这标志着模型的“能力瓶颈”基本突破
问题不再是“怎么训练出一个模型”，而是“如何用好它”

三、AI 的“下半场”：定义任务 & 评估方式成为核心，接下来比拼的重点将是：

如何定义 AI 要完成的任务（定义就是力量）
如何评估 AI 是否真的“会了”（评估决定方向）

范式变化：从“建模型”变成“设任务+设考卷+设标准”。更像产品经理在做的事情，而不是传统工程师。

为什么“推理能力”成为下半场的主战场？

推理 = 多步骤思考 + 工具使用 + 上下文理解。推理让 AI 能从“一次性回答问题”进化成“规划+执行+迭代反馈”的 Agent。它是连接模型能力和真实世界复杂任务的桥梁。
巨头都在推理上下注，不是巧合，是新门槛。GPT-4-Turbo、Gemini 1.5、Claude 3 都强调 reasoning、memory、tool-use。

原因很简单：没有推理，就没有靠谱的 Agent，也就没法产品化。推理是“下半场”的钥匙

没有推理，就无法定义复杂任务（task decomposition）
没有推理，就无法持续优化评估体系（feedback loop）
没有推理，就只能做静态测试题，无法胜任动态现实任务

一句话总结：“上半场，赢在方法；下半场，胜在推理。”——巨头为什么现在集体发力推理？因为这是通往产品化、场景落地、商业模式的唯一通道。

...more

View all episodes

View all episodes

Download on the App Store

Download on the App Store

Get it on Google Play

人民公园说AI

By JustSayAI

5

77 ratings

April 20, 2025

一周深度热点｜AI下半场，不堆参数卷推理：OpenAI发布o3和o4-mini、Gemini 2.5 Flash放出

Listen Later

9 minutes

全新专题来了--深度·热点！为你解读过去一周我最关心的几个新闻，洞察背后的关系!

OpenAI推出推理模型o3和o4-mini，在视觉推理的重大突破
Gemini 2.5 Flash“混合推理”大模型放出
Grok也新增记忆能力
微信能加“元宝AI”为好友了
推荐你阅读OpenAI研究员Shunyu Yao（姚顺雨）撰写的《The Second Half》
思考题：模型卷生卷死，生态后发制人？

⸻

《The Second Half》核心要点总结（子弹版）

一、AI 的“上半场”：以方法和模型为核心，大模型时代的早期进展主要依赖于：

新的架构（如 Transformer），更强的训练方法（如 RLHF），模型扩展（更大数据、更大参数）
研究范式是“找到一个方法，打爆一个 benchmark”，论文能发、公司能融、模型能火

二、技术突破：泛化能力终于出现，强化学习和推理能力终于能泛化到多个任务上：

数学、编程、网页交互、多轮问答……这标志着模型的“能力瓶颈”基本突破
问题不再是“怎么训练出一个模型”，而是“如何用好它”

三、AI 的“下半场”：定义任务 & 评估方式成为核心，接下来比拼的重点将是：

如何定义 AI 要完成的任务（定义就是力量）
如何评估 AI 是否真的“会了”（评估决定方向）

范式变化：从“建模型”变成“设任务+设考卷+设标准”。更像产品经理在做的事情，而不是传统工程师。

为什么“推理能力”成为下半场的主战场？

推理 = 多步骤思考 + 工具使用 + 上下文理解。推理让 AI 能从“一次性回答问题”进化成“规划+执行+迭代反馈”的 Agent。它是连接模型能力和真实世界复杂任务的桥梁。
巨头都在推理上下注，不是巧合，是新门槛。GPT-4-Turbo、Gemini 1.5、Claude 3 都强调 reasoning、memory、tool-use。

原因很简单：没有推理，就没有靠谱的 Agent，也就没法产品化。推理是“下半场”的钥匙

没有推理，就无法定义复杂任务（task decomposition）
没有推理，就无法持续优化评估体系（feedback loop）
没有推理，就只能做静态测试题，无法胜任动态现实任务

一句话总结：“上半场，赢在方法；下半场，胜在推理。”——巨头为什么现在集体发力推理？因为这是通往产品化、场景落地、商业模式的唯一通道。

...more

More shows like 人民公园说AI

疯投圈 by 黄海、Rio

疯投圈

113 Listeners

声东击西 by ETW Studio

声东击西

324 Listeners

三五环 by 刘飞Lufy

三五环

45 Listeners

科技乱炖 by DAO

科技乱炖

25 Listeners

商业就是这样 by 商业就是这样

商业就是这样

291 Listeners

大小马聊科技 by 大小马聊科技

大小马聊科技

5 Listeners

Web3 101 by Web3 101

Web3 101

24 Listeners

半拿铁 | 商业沉浮录 by 潇磊&刘飞

半拿铁 | 商业沉浮录

323 Listeners

42章经 by KaiQu

42章经

12 Listeners

起朱楼宴宾客 by 大卫翁

起朱楼宴宾客

52 Listeners

厚雪长波 by 雪球官方账号

厚雪长波

10 Listeners

投资实战派 by wong永庆

投资实战派

4 Listeners

一劳永逸 by 麦迪森

一劳永逸

4 Listeners

小Lin说 by 小Lin说

小Lin说

52 Listeners

涉市未深 by 九州_Aaron

涉市未深

8 Listeners