大家好,我是敢想老田。今天咱们聊个劲爆的19岁德国少年Georg von Manstein声称破解了谷歌最新的AI模型Gemini Diffusion,这事儿在科技圈炸开了锅。
先说说这个Gemini Diffusion有多厉害。谷歌在最近的IO大会上悄悄发布了这个模型,虽然被Veo 3等消息盖过了风头,但这玩意儿可是个狠角色每秒能生成1479个token,启动时间只要084秒,比现有的非扩散模型快得多。
这个19岁的小伙子Georg在社交媒体上晒出了所谓的破解成果,配上动态演示,乍一看还真像那么回事。但很快就有眼尖的网友发现,他用的动图其实是来自国内的研究Dream 7B,后面放出来的论文也没给出合理解释。
不过甭管这小子是不是在搞噱头,Gemini Diffusion确实是实打实的技术突破。它采用了扩散模型的架构,从随机噪声出发,逐步细化出完整的文本段落。这种生成方式跟传统的自回归模型完全不同后者是一个词一个词地往外蹦,而Gemini Diffusion可以一次生成整个词块,还能在过程中不断调整优化。
在实际应用中,Gemini Diffusion表现相当亮眼。著名Web开发工程师Simon Willison试用后发现,让它Build a simulated chat app,几秒钟就生成了包含HTML和JavaScript的交互式页面。在HumanEval代码测试中一次性通过率高达896,AIME 2025数学竞赛测试准确率233,都超过了同类产品。
但也不是没有短板。在通用知识类任务上,比如MMLU多任务问答,Gemini Diffusion得分691,还是不如GPT4的864。科学推理GPQA Diamond测试中,准确率404,明显落后于FlashLite的565。
这事儿让我想起今年二月Inception Labs推出的Mercury模型,那是首个商业级别的扩散语言模型。斯坦福大学教授Stefano Ermon说,过去很多尝试将扩散模型用于文本生成都失败了,因为语言必须严守语法规则,迭代优化过程比图像复杂得多。
IBM研究员Benjamin Hoover更直言,两三年内大多数人都会转向使用扩散模型。现在谷歌作为AI四巨头中第一个推出扩散语言生成模型的,确实给行业带来了新方向。
从技术角度看,Gemini Diffusion的工作原理其实跟谷歌的BERT模型颇有渊源。简单来说,它通过多次迭代,逐步修复被遮蔽的文本,最终生成完整内容。这种Block Diffusion方法可以在速度和质量之间找到平衡。
未来可能会出现自回归和扩散融合的模型用扩散模型快速生成初稿,再用自回归模型微调润色。这种多模型协作的框架可能会成为新的行业标准。
说实话,看到这种技术进步,老田我是既兴奋又担忧。兴奋的是AI发展日新月异,担忧的是我们普通人怎么跟上这个节奏。不过有一点是肯定的文本生成的范式正在发生根本性转变,而这次,扩散模型可能要改写游戏规则了。
各位听众朋友,你们怎么看这个19岁少年和谷歌AI的这场对决?欢迎在评论区留言讨论。我是敢想老田,咱们下期再见!