GPT-5.4 操作電腦首次超越人類,知識工作跳 12%。但定價漲了 43%,coding 相比上代進步有限,前端設計落後 Gemini 和 Claude。三來源拆解帶你分辨真突破和效率話術。
⭐ 文章深度讀:拆解了 tool search 兩種模式的實作差異和選擇邏輯
→ https://heymaibao.com/gpt-54-computer-use-tool-search/
📝 懶人包
∙ GPT-5.4 在知識工作上跳幅最大 (GDPval 從 71% 升到 83%),在桌面操作上首次超越人類 (OSWorld 75% vs 人類 72.4%)。但 coding 能力相比上一代專用模型 GPT-5.3-Codex 進步有限。
∙ 新增的 tool search 功能讓 AI agent 動態載入需要的工具,省下 47% 的 token 用量。這不只是省錢,而是讓 agent 能接入大規模工具生態的基礎設施。
∙ OpenAI 在 3-4 個月內發了三個大版本,定價漲了 (input +43%) 但用效率包裝。前端設計仍落後 Gemini 和 Claude。真正該關注的是 benchmark 快速飽和後,差異化正在轉向效率和生態。
∙ 我的觀點:GPT-5.4 最值得關注的不是任何一個分數,而是 OpenAI 正在用「三線合流」的策略重新定義通用模型該做什麼。把 coding、操作電腦、知識工作塞進同一個模型,這不是技術突破,是產品架構的轉變。
📚 參考資料
Introducing GPT-5.4
→ https://openai.com/index/introducing-gpt-5-4/
Tool search - OpenAI API Docs
→ https://developers.openai.com/api/docs/guides/tools-tool-search
GPT-5.4 發佈整理影片
→ https://youtu.be/KRK8KCY_YoE?si=Et6-rpWmJCvC5AzW