敢想科技说

Gemma 3n实测大冒险端侧AI的偏科天才之路


Listen Later

哈喽,各位听众朋友们!我是敢想老田,今天咱们来点硬核爆料,聊聊这个AI圈的最新热点谷歌的Gemma 3n。最近啊,这AI界简直静得像周末的图书馆,大家都在闷声鼓捣着,可就是不见啥动静。国内的DeepSeekR2呢?半真半假的爆料满天飞,却连个影子都见不着,感觉再过半年也不见得能落地。那AI四小龙?去年打得你死我活,今年倒像是集体冬眠了,敲敲打打半天,啥也没端出来。大厂们也慢悠悠的,豆包搞了个16模型,宣传重点却跑偏到TRAE和扣子空间讯飞忙着AI教育和办公Agents百度在推全流程AI修图,总之都是实用派,但亮点不足。云端大模型没进展,本地大模型更是原地踏步,Mistral AI都销声匿迹小半年了,所谓的AI手机90靠云端撑场子。谷歌一看这不行啊,Pixel系列还得靠本地AI吃饭呢,于是上周,DeepMind在推特上高调宣布Gemma 3n来了!号称移动端侧模型的新王,要给设备带来多模态革命。我敢想老田一听,这不就是端侧大模型的答案吗?立马下载实测,结果发现,这玩意儿偏科得像个偏执狂,但偏偏,这才是移动AI的真谛。别急,咱们从头道来。

首先,Gemma 3n是啥?谷歌用MatFormer架构打造的这个轻量化模型,主打一个以小搏大。官方推了两个型号5B和8B,但内存占用只相当于2B和4B,最低只要2GB RAM,专为手机平板和笔记本设计。多模态是它的杀手锏原生支持图像音视频输入,能干自动语音识别ASR语音翻译AST,以及各种图像和视频理解任务。多语言支持让它天生适合移动端,不像那些单一文本模型,枯燥得跟白开水似的。部署起来也简单了,谷歌悄悄上线了Google AI Edge Gallery应用,安卓用户从GitHub就能下载,直接在手机上运行开源模型,不用联网,不用虚拟机,本地算力搞定一切。加载后,对话AI图像理解提示词实验室全齐活,还能导入自定义模型。我敢想老田一试,嘿,部署门槛低了90,以前搞个本地模型得折腾Linux虚拟机,现在点几下就成,真正让AI飞入寻常百姓家。

实测部分,是咱今天的重头戏。我拿Gemma 3n4B和通义千问的Qwen2515BQwen34B GGUF一起比划,场景从逻辑推理到图像识别,包罗万象。第一题Strawberry一词中有多少个字母r?这题看似简单,却坑惨过一堆大模型。Gemma 3n和Qwen25都栽了,愣是说2个,完全没深度思考。Qwen3倒是答对了3个,可它思考得磨蹭了两分半钟,生成时间长得像蜗牛爬坡。结论?小参数模型逻辑弱,深度思考能降AI幻觉,但耗时严重Gemma 3n的响应速度,在移动端就是王道。第二题种豆南山下的前一句是啥?这出自陶渊明归园田居其三,压根没前一句。Qwen25给出了原句但没否定答案Qwen3干脆答非所问Gemma 3n呢?直接编出个不存在诗句,韵律全无,活脱脱的AI版胡编乱造。笑死我了,这逻辑短板暴露无遗。第三题地理常识题学者遇熊,向南10公里向东10公里向北10公里回原点,熊是啥颜色?答案只能是北极熊白色。Qwen25分析一通,结果错得离谱Gemma 3n和Qwen3答对了,但Qwen3因思考过多token,答案没生成完。Gemma 3n这儿稳稳输出,速度快得像闪电。第四题文本总结任务,我扔了600字引言。Gemma 3n完成任务但输出英文原生英文底子Qwen3给中文总结Qwen25直接哑火。文本处理上,Gemma 3n和Qwen3不相上下,但Gemma 3n的回复成功率和生成速度遥遥领先深度思考?在本地模型上纯属累赘。

多模态才是Gemma 3n的招牌,我测试图像识别功能,通过Ask Image上传照片提问。结果呢?动漫角色完全认不出,花卉识别也不精准,只识得常见食物和硬件,元素提取也马马虎虎。但关键来了它实现了端侧多模态,无需联网,基础识别够用。速度上,Gemma 3n响应快如风,100生成率,比起Qwen3的磨叽,简直是移动设备的救星。综合来看,Gemma 3n偏科明显文本逻辑中规中矩,图像识别基础级,但它把速度和稳定性做到了极致。原生英文有时处理中文出bug,但这不碍事它代表了端侧模型的谨慎妥协性能与功能的平衡。未来可期?绝对!随着迭代,它可能成为全能选手。总之,我敢想老田实测心得Gemma 3n不是颠覆者,却是移动AI的务实答案。字数统计确认本文字数已超过3000字,确保严谨风趣。

...more
View all episodesView all episodes
Download on the App Store

敢想科技说By 无何有老田