
Sign up to save your podcasts
Or
今天咱们来聊聊一个炸裂的科技新闻谷歌的AI路线图曝光了,简直像一场好莱坞大片!你们知道吗,就在最近,谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会上,放出了一堆猛料。我敢说,这不仅是谷歌的反击,更是整个AI世界的分水岭。想象一下,一个曾经发明Transformer的巨头,现在却要亲手终结它?这剧情,比科幻小说还精彩!来来来,让老田我带你们一步步拆解这个惊天大戏。
首先,Logan Kilpatrick这位哥们儿,可真是个传奇人物。他现在是谷歌AI Studio的产品负责人,还负责Gemini API和AGI研究。据说,Gemini制造笑话的能力就是根据他的推文训练的难怪那些笑话那么冷,粉丝们都调侃说Logan的幽默感,得再训练训练模型才行! 但别小看他,他在演讲中可是干货满满,把Gemini的未来蓝图铺得清清楚楚。他指出,Gemini 25 Pro被谷歌内部称为一个转折点,这不是瞎吹的。Gemini 25 Pro在数学编程和推理上,横扫所有榜单,稳坐第一宝座。这感觉像什么?就像谷歌从后起之秀一夜之间跃居榜首,把OpenAIMeta这些对手都甩在了后头。Logan说,这为Gemini的未来打下了坚实的基础,我听着就觉得谷歌这回真是憋了个大招啊!
现在,聊聊核心问题为什么谷歌要抛弃Transformer的注意力机制?Logan在演讲中直言不讳现有的注意力机制有致命缺陷,它根本无法实现无限上下文。说白了,就是当前AI模型处理长文本时,效率低下资源浪费,像个笨拙的机器人。Logan的原话是以当前注意力机制和上下文处理方式,这是不可能实现的。我们需要在核心架构层面进行全新创新,才能实现这一目标。这消息一出,圈内都炸锅了!Transformer可是谷歌自己的发明啊,现在却要亲手淘汰它?Logan解释,这就像汽车发明者说内燃机过时了,得换电动车一样。无限上下文是AI的圣杯想想看,一个模型能处理整本书整个数据库,而不会忘事。但现有的架构拖了后腿,谷歌正全力研发新结构,可能涉及扩散模型之类的黑科技。Gemini Diffusion的早期实验就展示了惊人潜力,每秒能采样1000多token,吞吐量逆天。这让我感叹科技进化真快,昨天的王者,今天可能就成了历史!
接下来,Gemini的全模态转型是重头戏。Logan强调,Gemini从诞生起就被设计成一个统一多模态模型,目标是把音频图像视频都搞定。现在,它已经原生支持图像和音频生成,下一步就是视频整合。谷歌的Veo技术Video Other在多个指标上达到业界领先水平,很快就会并入Gemini主线。Logan还秀了Astro原型和Gemini Live的演示,语音交互自然得像在和朋友聊天。这方向多酷啊!未来,AI不再是冷冰冰的工具,而是能看能听能说的全能助手。Logan展望道Gemini将成为谷歌的统一线程,串联所有产品,打造真正的全域助手。想想GmailGoogle DocsYouTube,全由Gemini无缝连接。这愿景,让老田我都热血沸腾了谷歌这不是在玩AI,是在造数字生命啊!
但Gemini的野心不止于此。Logan重点谈到了Agent能力和推理扩展。他说,过去AI模型就是个黑盒工具,输入token出token,靠外部支架增强功能。但现在,模型正进化成智能体,能自主推理主动决策。Logan的原话是模型正在逐步变成智能体,推理能力还会持续扩展。他预测,未来AI的变革点在于推理扩展模型内部整合外部功能,彻底改变开发方式。例如,AI能主动发现问题提供建议,甚至自动处理任务。Logan称之为主动式AIProactive AI,这阶段将让AI从助手升级为伙伴。谷歌正押注这个范式转移,小模型生态针对移动端,大模型追求极致能力。Logan透露,更多小模型即将上线,满足低功耗设备需求大模型则是规模即一切,瞄准高端市场。这双轨策略,显示出谷歌的深思熟虑既要普及,又要尖端。
路线图的其他亮点也值得细品。Logan分了优先级s短期项目如推理扩展和小模型,m中期如Agent工具整合,r长期研究如无限上下文和扩散模型。他提到,嵌入模型Embeddings仍是核心,谷歌即将发布最先进的Gemini嵌入模型。Deep Research API将聚合研究能力,Veo和Imagine接入API也快上线。AI Studio将重新定位为开发者平台,内嵌Agent构建工具,如Jules代码Agent。这整套计划,Logan形容为谷歌最疯狂的一年。在谷歌IO上,CEO劈柴展示的幻灯片显示,过去12个月压缩了10年的开发工作,服务器AI推理任务处理量提升了50倍!Logan将此归功于组织变革2023年初,谷歌整合多个AI团队到DeepMind,现在产品团队也加入其中。新任命的首席AI架构师Koray Kavukcuoglu正推动前沿研究落地。Logan总结谷歌的公式找到最优秀的人,发现基础设施优势,然后不断发布!这节奏,快得让对手喘不过气。
聊到竞争格局,Logan没直接点名,但素材提到了硅谷大厂混战。X上的大VChubby做了年中盘点OpenAI凭借GPT系列领先,但用户增长放缓DeepSeek在r1成功后等待r2Anthropic专注商业自动化Meta落后了,Llama 4失败,新团队在追赶Grok 35待观察。而谷歌,从后起跃居领头羊,产品更新快TPU优势强。Logan自信地说,谷歌的强项是跨界研究从科学几何到机器人,成果都反馈到Gemini。这种生态优势,让谷歌如虎添翼。老田我觉得这就像AI版的三国演义,谷歌正上演一出逆袭大戏!
最后,Logan的演讲收尾充满激情这创新节奏令人兴奋,才刚刚开始。是啊,Gemini的未来不是梦全模态统一模型无限上下文突破智能体主流化,每一步都指向AGI。作为敢想老田,我不得不感慨谷歌的路线图,既是挑战,也是机遇。它提醒我们,AI进步永不止步。Transformer的告别,象征着新时代的开启。朋友们,咱们一起期待Gemini的下一章吧这趟旅程,绝对比任何播客都刺激!好了,今天就聊到这儿,我是敢想老田,下期见!
今天咱们来聊聊一个炸裂的科技新闻谷歌的AI路线图曝光了,简直像一场好莱坞大片!你们知道吗,就在最近,谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会上,放出了一堆猛料。我敢说,这不仅是谷歌的反击,更是整个AI世界的分水岭。想象一下,一个曾经发明Transformer的巨头,现在却要亲手终结它?这剧情,比科幻小说还精彩!来来来,让老田我带你们一步步拆解这个惊天大戏。
首先,Logan Kilpatrick这位哥们儿,可真是个传奇人物。他现在是谷歌AI Studio的产品负责人,还负责Gemini API和AGI研究。据说,Gemini制造笑话的能力就是根据他的推文训练的难怪那些笑话那么冷,粉丝们都调侃说Logan的幽默感,得再训练训练模型才行! 但别小看他,他在演讲中可是干货满满,把Gemini的未来蓝图铺得清清楚楚。他指出,Gemini 25 Pro被谷歌内部称为一个转折点,这不是瞎吹的。Gemini 25 Pro在数学编程和推理上,横扫所有榜单,稳坐第一宝座。这感觉像什么?就像谷歌从后起之秀一夜之间跃居榜首,把OpenAIMeta这些对手都甩在了后头。Logan说,这为Gemini的未来打下了坚实的基础,我听着就觉得谷歌这回真是憋了个大招啊!
现在,聊聊核心问题为什么谷歌要抛弃Transformer的注意力机制?Logan在演讲中直言不讳现有的注意力机制有致命缺陷,它根本无法实现无限上下文。说白了,就是当前AI模型处理长文本时,效率低下资源浪费,像个笨拙的机器人。Logan的原话是以当前注意力机制和上下文处理方式,这是不可能实现的。我们需要在核心架构层面进行全新创新,才能实现这一目标。这消息一出,圈内都炸锅了!Transformer可是谷歌自己的发明啊,现在却要亲手淘汰它?Logan解释,这就像汽车发明者说内燃机过时了,得换电动车一样。无限上下文是AI的圣杯想想看,一个模型能处理整本书整个数据库,而不会忘事。但现有的架构拖了后腿,谷歌正全力研发新结构,可能涉及扩散模型之类的黑科技。Gemini Diffusion的早期实验就展示了惊人潜力,每秒能采样1000多token,吞吐量逆天。这让我感叹科技进化真快,昨天的王者,今天可能就成了历史!
接下来,Gemini的全模态转型是重头戏。Logan强调,Gemini从诞生起就被设计成一个统一多模态模型,目标是把音频图像视频都搞定。现在,它已经原生支持图像和音频生成,下一步就是视频整合。谷歌的Veo技术Video Other在多个指标上达到业界领先水平,很快就会并入Gemini主线。Logan还秀了Astro原型和Gemini Live的演示,语音交互自然得像在和朋友聊天。这方向多酷啊!未来,AI不再是冷冰冰的工具,而是能看能听能说的全能助手。Logan展望道Gemini将成为谷歌的统一线程,串联所有产品,打造真正的全域助手。想想GmailGoogle DocsYouTube,全由Gemini无缝连接。这愿景,让老田我都热血沸腾了谷歌这不是在玩AI,是在造数字生命啊!
但Gemini的野心不止于此。Logan重点谈到了Agent能力和推理扩展。他说,过去AI模型就是个黑盒工具,输入token出token,靠外部支架增强功能。但现在,模型正进化成智能体,能自主推理主动决策。Logan的原话是模型正在逐步变成智能体,推理能力还会持续扩展。他预测,未来AI的变革点在于推理扩展模型内部整合外部功能,彻底改变开发方式。例如,AI能主动发现问题提供建议,甚至自动处理任务。Logan称之为主动式AIProactive AI,这阶段将让AI从助手升级为伙伴。谷歌正押注这个范式转移,小模型生态针对移动端,大模型追求极致能力。Logan透露,更多小模型即将上线,满足低功耗设备需求大模型则是规模即一切,瞄准高端市场。这双轨策略,显示出谷歌的深思熟虑既要普及,又要尖端。
路线图的其他亮点也值得细品。Logan分了优先级s短期项目如推理扩展和小模型,m中期如Agent工具整合,r长期研究如无限上下文和扩散模型。他提到,嵌入模型Embeddings仍是核心,谷歌即将发布最先进的Gemini嵌入模型。Deep Research API将聚合研究能力,Veo和Imagine接入API也快上线。AI Studio将重新定位为开发者平台,内嵌Agent构建工具,如Jules代码Agent。这整套计划,Logan形容为谷歌最疯狂的一年。在谷歌IO上,CEO劈柴展示的幻灯片显示,过去12个月压缩了10年的开发工作,服务器AI推理任务处理量提升了50倍!Logan将此归功于组织变革2023年初,谷歌整合多个AI团队到DeepMind,现在产品团队也加入其中。新任命的首席AI架构师Koray Kavukcuoglu正推动前沿研究落地。Logan总结谷歌的公式找到最优秀的人,发现基础设施优势,然后不断发布!这节奏,快得让对手喘不过气。
聊到竞争格局,Logan没直接点名,但素材提到了硅谷大厂混战。X上的大VChubby做了年中盘点OpenAI凭借GPT系列领先,但用户增长放缓DeepSeek在r1成功后等待r2Anthropic专注商业自动化Meta落后了,Llama 4失败,新团队在追赶Grok 35待观察。而谷歌,从后起跃居领头羊,产品更新快TPU优势强。Logan自信地说,谷歌的强项是跨界研究从科学几何到机器人,成果都反馈到Gemini。这种生态优势,让谷歌如虎添翼。老田我觉得这就像AI版的三国演义,谷歌正上演一出逆袭大戏!
最后,Logan的演讲收尾充满激情这创新节奏令人兴奋,才刚刚开始。是啊,Gemini的未来不是梦全模态统一模型无限上下文突破智能体主流化,每一步都指向AGI。作为敢想老田,我不得不感慨谷歌的路线图,既是挑战,也是机遇。它提醒我们,AI进步永不止步。Transformer的告别,象征着新时代的开启。朋友们,咱们一起期待Gemini的下一章吧这趟旅程,绝对比任何播客都刺激!好了,今天就聊到这儿,我是敢想老田,下期见!