June 17, 2025

谷歌AI大转折Gemini全模态革命，告别Transformer时代！

7 minutes

今天咱们来聊聊一个炸裂的科技新闻谷歌的AI路线图曝光了，简直像一场好莱坞大片！你们知道吗，就在最近，谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会上，放出了一堆猛料。我敢说，这不仅是谷歌的反击，更是整个AI世界的分水岭。想象一下，一个曾经发明Transformer的巨头，现在却要亲手终结它？这剧情，比科幻小说还精彩！来来来，让老田我带你们一步步拆解这个惊天大戏。

首先，Logan Kilpatrick这位哥们儿，可真是个传奇人物。他现在是谷歌AI Studio的产品负责人，还负责Gemini API和AGI研究。据说，Gemini制造笑话的能力就是根据他的推文训练的难怪那些笑话那么冷，粉丝们都调侃说Logan的幽默感，得再训练训练模型才行！但别小看他，他在演讲中可是干货满满，把Gemini的未来蓝图铺得清清楚楚。他指出，Gemini 25 Pro被谷歌内部称为一个转折点，这不是瞎吹的。Gemini 25 Pro在数学编程和推理上，横扫所有榜单，稳坐第一宝座。这感觉像什么？就像谷歌从后起之秀一夜之间跃居榜首，把OpenAIMeta这些对手都甩在了后头。Logan说，这为Gemini的未来打下了坚实的基础，我听着就觉得谷歌这回真是憋了个大招啊！

现在，聊聊核心问题为什么谷歌要抛弃Transformer的注意力机制？Logan在演讲中直言不讳现有的注意力机制有致命缺陷，它根本无法实现无限上下文。说白了，就是当前AI模型处理长文本时，效率低下资源浪费，像个笨拙的机器人。Logan的原话是以当前注意力机制和上下文处理方式，这是不可能实现的。我们需要在核心架构层面进行全新创新，才能实现这一目标。这消息一出，圈内都炸锅了！Transformer可是谷歌自己的发明啊，现在却要亲手淘汰它？Logan解释，这就像汽车发明者说内燃机过时了，得换电动车一样。无限上下文是AI的圣杯想想看，一个模型能处理整本书整个数据库，而不会忘事。但现有的架构拖了后腿，谷歌正全力研发新结构，可能涉及扩散模型之类的黑科技。Gemini Diffusion的早期实验就展示了惊人潜力，每秒能采样1000多token，吞吐量逆天。这让我感叹科技进化真快，昨天的王者，今天可能就成了历史！

接下来，Gemini的全模态转型是重头戏。Logan强调，Gemini从诞生起就被设计成一个统一多模态模型，目标是把音频图像视频都搞定。现在，它已经原生支持图像和音频生成，下一步就是视频整合。谷歌的Veo技术Video Other在多个指标上达到业界领先水平，很快就会并入Gemini主线。Logan还秀了Astro原型和Gemini Live的演示，语音交互自然得像在和朋友聊天。这方向多酷啊！未来，AI不再是冷冰冰的工具，而是能看能听能说的全能助手。Logan展望道Gemini将成为谷歌的统一线程，串联所有产品，打造真正的全域助手。想想GmailGoogle DocsYouTube，全由Gemini无缝连接。这愿景，让老田我都热血沸腾了谷歌这不是在玩AI，是在造数字生命啊！

但Gemini的野心不止于此。Logan重点谈到了Agent能力和推理扩展。他说，过去AI模型就是个黑盒工具，输入token出token，靠外部支架增强功能。但现在，模型正进化成智能体，能自主推理主动决策。Logan的原话是模型正在逐步变成智能体，推理能力还会持续扩展。他预测，未来AI的变革点在于推理扩展模型内部整合外部功能，彻底改变开发方式。例如，AI能主动发现问题提供建议，甚至自动处理任务。Logan称之为主动式AIProactive AI，这阶段将让AI从助手升级为伙伴。谷歌正押注这个范式转移，小模型生态针对移动端，大模型追求极致能力。Logan透露，更多小模型即将上线，满足低功耗设备需求大模型则是规模即一切，瞄准高端市场。这双轨策略，显示出谷歌的深思熟虑既要普及，又要尖端。

路线图的其他亮点也值得细品。Logan分了优先级s短期项目如推理扩展和小模型，m中期如Agent工具整合，r长期研究如无限上下文和扩散模型。他提到，嵌入模型Embeddings仍是核心，谷歌即将发布最先进的Gemini嵌入模型。Deep Research API将聚合研究能力，Veo和Imagine接入API也快上线。AI Studio将重新定位为开发者平台，内嵌Agent构建工具，如Jules代码Agent。这整套计划，Logan形容为谷歌最疯狂的一年。在谷歌IO上，CEO劈柴展示的幻灯片显示，过去12个月压缩了10年的开发工作，服务器AI推理任务处理量提升了50倍！Logan将此归功于组织变革2023年初，谷歌整合多个AI团队到DeepMind，现在产品团队也加入其中。新任命的首席AI架构师Koray Kavukcuoglu正推动前沿研究落地。Logan总结谷歌的公式找到最优秀的人，发现基础设施优势，然后不断发布！这节奏，快得让对手喘不过气。

聊到竞争格局，Logan没直接点名，但素材提到了硅谷大厂混战。X上的大VChubby做了年中盘点OpenAI凭借GPT系列领先，但用户增长放缓DeepSeek在r1成功后等待r2Anthropic专注商业自动化Meta落后了，Llama 4失败，新团队在追赶Grok 35待观察。而谷歌，从后起跃居领头羊，产品更新快TPU优势强。Logan自信地说，谷歌的强项是跨界研究从科学几何到机器人，成果都反馈到Gemini。这种生态优势，让谷歌如虎添翼。老田我觉得这就像AI版的三国演义，谷歌正上演一出逆袭大戏！

最后，Logan的演讲收尾充满激情这创新节奏令人兴奋，才刚刚开始。是啊，Gemini的未来不是梦全模态统一模型无限上下文突破智能体主流化，每一步都指向AGI。作为敢想老田，我不得不感慨谷歌的路线图，既是挑战，也是机遇。它提醒我们，AI进步永不止步。Transformer的告别，象征着新时代的开启。朋友们，咱们一起期待Gemini的下一章吧这趟旅程，绝对比任何播客都刺激！好了，今天就聊到这儿，我是敢想老田，下期见！

...more

View all episodes

By 无何有老田

June 17, 2025

谷歌AI大转折Gemini全模态革命，告别Transformer时代！

7 minutes

...more

Share 谷歌AI大转折Gemini全模态革命，告别Transformer时代！

Sign up to save your podcasts

谷歌AI大转折Gemini全模态革命，告别Transformer时代！

谷歌AI大转折Gemini全模态革命，告别Transformer时代！