June 19, 2025

Gemini 2.5深度解析：一份技术报告的六层审问

21 minutes

各位AI爱好者、好奇心驱使的朋友们，你是否曾想象一个能理解数小时视频、能为你撰写复杂代码、甚至在奥林匹克数学竞赛中大放异彩的AI助手？Google DeepMind 最新发布的 Gemini 2.5 家族模型，正是我们迈向“通用AI助手”愿景的又一个里程碑。它不仅在编码、数学和推理基准测试中展现了顶尖性能 (SOTA)，更以其独特的“思考”（Thinking）机制，能够投入数万次前向传播进行深度推理，让AI的“思维”变得前所未有的强大。

Gemini 2.5的进步不仅仅体现在冷冰冰的跑分上。它原生支持文本、图像、视频和音频四种核心输入模态，拥有超过100万token的超长上下文窗口，甚至能处理长达3小时的视频内容！这使得它能够开启“新一代智能体系统”的未来。想象一下，一个AI能将你的视频讲座转化为互动Web应用，将剧本PDF变成台词练习工具，或者作为“Gemini Deep Research”代理，战略性地浏览网页，回答最冷门的用户查询。这些都预示着AI将从“信息检索”转向“任务执行”，深刻改变我们的工作和生活。

然而，在这份光鲜的报告背后，我们作为“模式的考古学家”，却挖掘出了更多耐人寻味的“秘密”：

AI也会“恐慌”？ 在著名的“Gemini玩宝可梦”实验中，这个能力超群的AI，竟然在游戏角色生命值过低时，陷入了一种类似“智能体恐慌”（Agent Panic）的状态，导致其推理能力“定性地观察到下降”。
它的“看”并非人类的“看懂”？ 尽管具备多模态能力，但在玩宝可梦时，模型却“难以直接利用Game Boy屏幕的原始像素”，需要依赖文本化信息才能有效游戏。
AI的“妄想”与“拓扑陷阱”： 模型会固执地花费数小时寻找一个根本不存在的“茶”（TEA）道具，甚至在迷宫中陷入“拓扑陷阱”，无法找到需要“绕远路”的正确解法。
长上下文的“双刃剑”： 尽管支持百万级tokens，但当上下文超过10万tokens时，模型却倾向于“重复其庞大历史中的行为，而不是综合出新的计划”。

更引人深思的是，报告坦诚，Gemini 2.5在网络安全能力方面已达到内部“警报阈值”，且在图像理解中仍存在对不同肤色人物推断差异的不公平偏见。这些都提示我们，随着AI能力几何级增长，其潜在的风险和盲区也日益凸显。

我们正站在一个由少数科技巨头通过其庞大计算资源和专有技术（如8960个TPUv5p芯片集群）构建的AI新时代的开端。如何评估这些快速发展的、甚至能展现“涌现能力”（如发现游戏Bug）的智能体系统，已经成为一个“新颖且足够有挑战性的评估基准”。

加入我们，深入这场对Gemini 2.5的“灵魂”拷问。我们将一同揭示AI的强大与脆弱，理解其设计背后的商业逻辑和价值观，并思考我们人类在未来AI驱动世界中的位置。点击播放，开启你对AI未来的深度思考之旅！

...more

View all episodes

By 谢可新

June 19, 2025

Gemini 2.5深度解析：一份技术报告的六层审问

21 minutes

然而，在这份光鲜的报告背后，我们作为“模式的考古学家”，却挖掘出了更多耐人寻味的“秘密”：

AI也会“恐慌”？ 在著名的“Gemini玩宝可梦”实验中，这个能力超群的AI，竟然在游戏角色生命值过低时，陷入了一种类似“智能体恐慌”（Agent Panic）的状态，导致其推理能力“定性地观察到下降”。
它的“看”并非人类的“看懂”？ 尽管具备多模态能力，但在玩宝可梦时，模型却“难以直接利用Game Boy屏幕的原始像素”，需要依赖文本化信息才能有效游戏。
AI的“妄想”与“拓扑陷阱”： 模型会固执地花费数小时寻找一个根本不存在的“茶”（TEA）道具，甚至在迷宫中陷入“拓扑陷阱”，无法找到需要“绕远路”的正确解法。
长上下文的“双刃剑”： 尽管支持百万级tokens，但当上下文超过10万tokens时，模型却倾向于“重复其庞大历史中的行为，而不是综合出新的计划”。

...more

Share Gemini 2.5深度解析：一份技术报告的六层审问

Sign up to save your podcasts

Gemini 2.5深度解析：一份技术报告的六层审问

Gemini 2.5深度解析：一份技术报告的六层审问