Muse Spark 全球排名第四,視覺推理第二強,但代理任務落後 Claude 和 GPT。Meta 首次不開源,token 效率卻只有競品三分之一。這篇拆解第三方數據和 Meta 策略轉向。
⭐ 文章深度讀:拆解 Muse Spark 的第三方數據和 Meta 策略轉向
→ https://heymaibao.com/meta-muse-spark-benchmark-review/
⚡ 章節重點
Meta 帶著 Muse Spark 回來 00:00
全球第四的成績單 01:16
視覺推理幾乎全球最強 02:05
致命弱點:代理任務不及格 02:52
Token 效率才是真正訊號 04:08
Meta 第一次不開源了 05:24
📝 懶人包
∙ Muse Spark 是 Meta Superintelligence Labs (MSL) 首款模型,在 Artificial Analysis Intelligence Index 拿下 52 分排名全球第四,僅落後 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6。視覺推理在 MMMU-Pro 拿到 80.5%,全球第二。
∙ 這是 Meta 第一款不釋出開源權重的前沿模型,打破 Llama 系列建立的開源形象。官方在 X 上說「希望未來開源」,但用的是 hope 不是 will。
∙ 第三方測試顯示代理任務 (讓 AI 代替你執行實際工作) 是明顯弱點:GDPval-AA 拿到 1427 分,落後 Claude Sonnet 4.6 的 1648 和 GPT-5.4 的 1676。Meta 自己也承認「長期代理系統與程式碼工作流仍有效能缺口」。
∙ 我的觀察:Muse Spark 的真正訊號可能不在排名,而在 token 效率。跑完整套 benchmark 只用了 5800 萬個 output token,大約是 Claude Opus 4.6 (1.57 億) 的三分之一。如果未來 API 開放後定價有競爭力,這個效率優勢可能比排名更有實際意義。
📚 參考資料
Introducing Muse Spark: Scaling Towards Personal Superintelligence
→ https://ai.meta.com/blog/introducing-muse-spark-msl/
AI at Meta (@AIatMeta) on X
→ https://x.com/aiatmeta/status/2041910285653737975
Artificial Analysis (@ArtificialAnlys) on X
→ https://x.com/artificialanlys/status/2041913043379220801