May 03, 2026

S2E55 GPT-5.5 深入解析：為什麼從 Claude Code 跳到 Codex？

27 minutes

如果你喜歡我的內容，歡迎加入會員支持我，讓我更有動力繼續分享更多好內容！

👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

各位，GPT-5.5 這次真的做到了。

我原本也沒有預期自己會這麼快從 Claude Code 轉到 Codex。前幾天工作到一半 Claude Code 又當機，我就想說好吧，剛好 GPT-5.5 也出了，那就把 Codex 裝回來試試看。結果一用之後發現，這次的體驗真的跟我上次印象裡的 Codex 不太一樣。

模型本身變聰明是一回事，但更有感的是整個 Codex App 的工作流變得非常順。Browser QA、Computer Use、plugin、multi-session 這些東西加起來，會讓你開始覺得它不只是另一個 coding assistant，而是比較像一個真的可以接進你日常工作流程裡的 agent 環境。

另外這集其實連後製流程我也完全改了。這次影片裡面的資訊圖卡跟視覺輔助，基本上都是用 HyperFrame 做出來的。我自己覺得加上這些圖卡以後，整個影片的質感有明顯提升，也比較能把一些原本很抽象的模型能力、benchmark、System Card 內容講清楚。如果你有看到這些新的視覺呈現，也歡迎留言跟我說你的感覺，我很想知道大家看起來覺得如何。

不過這集也不是單純在說「Codex 贏了」或「Claude Code 輸了」。我覺得現在 AI 工具變化太快了，今天你覺得某個工具最好，下個月可能又有新的東西出來。真正重要的不是忠於哪一家公司，而是你有沒有能力很快地切換、測試、驗證，然後把這些工具變成自己能力的延伸。

後半段我也深入看了 GPT-5.5 的 System Card。裡面有幾個很值得注意的點：像是它在長上下文的表現真的進步很多，長任務的穩定度也明顯變好；但另一方面，它變得比較不容易放棄之後，也可能在某些不可能完成的任務裡，更容易聲稱自己已經完成了。

我覺得這其實很有意思。當模型越來越像一個會持續嘗試、會使用工具、會自己修正的 agent，我們要看的就不只是 benchmark 分數，而是它到底知不知道自己在做什麼、它做錯的時候能不能回得來，以及我們人類要怎麼驗證它真的完成了任務。

System Card 裡還提到 chain of thought 監控、faithfulness、sandbagging 這些安全性測試。最有趣的問題是：模型表現得誠實，到底是因為它真的誠實，還是因為它知道自己正在被測試？

這集就來聊聊我為什麼最近改用 Codex，也順便從 GPT-5.5 的官方文件裡，看看這個模型到底進步在哪裡，以及它還有哪些值得我們小心的地方。

(00:00) GPT-5.5 做到了：OpenAI 真的回來了？

(02:01) 我的 AI 奇幻時刻

(03:16) AI 開始接管我的內容工作流

(05:41) 為什麼我從 Claude Code 轉到 Codex

(06:52) Codex 的殺手級功能：Computer Use

(07:35) Superpower Plugin：我願意轉換的關鍵

(09:35) AI 工具切換能力正在變成核心技能