
Sign up to save your podcasts
Or


如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
各位,GPT-5.5 這次真的做到了。
我原本也沒有預期自己會這麼快從 Claude Code 轉到 Codex。前幾天工作到一半 Claude Code 又當機,我就想說好吧,剛好 GPT-5.5 也出了,那就把 Codex 裝回來試試看。結果一用之後發現,這次的體驗真的跟我上次印象裡的 Codex 不太一樣。
模型本身變聰明是一回事,但更有感的是整個 Codex App 的工作流變得非常順。Browser QA、Computer Use、plugin、multi-session 這些東西加起來,會讓你開始覺得它不只是另一個 coding assistant,而是比較像一個真的可以接進你日常工作流程裡的 agent 環境。
另外這集其實連後製流程我也完全改了。這次影片裡面的資訊圖卡跟視覺輔助,基本上都是用 HyperFrame 做出來的。我自己覺得加上這些圖卡以後,整個影片的質感有明顯提升,也比較能把一些原本很抽象的模型能力、benchmark、System Card 內容講清楚。如果你有看到這些新的視覺呈現,也歡迎留言跟我說你的感覺,我很想知道大家看起來覺得如何。
不過這集也不是單純在說「Codex 贏了」或「Claude Code 輸了」。我覺得現在 AI 工具變化太快了,今天你覺得某個工具最好,下個月可能又有新的東西出來。真正重要的不是忠於哪一家公司,而是你有沒有能力很快地切換、測試、驗證,然後把這些工具變成自己能力的延伸。
後半段我也深入看了 GPT-5.5 的 System Card。裡面有幾個很值得注意的點:像是它在長上下文的表現真的進步很多,長任務的穩定度也明顯變好;但另一方面,它變得比較不容易放棄之後,也可能在某些不可能完成的任務裡,更容易聲稱自己已經完成了。
我覺得這其實很有意思。當模型越來越像一個會持續嘗試、會使用工具、會自己修正的 agent,我們要看的就不只是 benchmark 分數,而是它到底知不知道自己在做什麼、它做錯的時候能不能回得來,以及我們人類要怎麼驗證它真的完成了任務。
System Card 裡還提到 chain of thought 監控、faithfulness、sandbagging 這些安全性測試。最有趣的問題是:模型表現得誠實,到底是因為它真的誠實,還是因為它知道自己正在被測試?
這集就來聊聊我為什麼最近改用 Codex,也順便從 GPT-5.5 的官方文件裡,看看這個模型到底進步在哪裡,以及它還有哪些值得我們小心的地方。
(00:00) GPT-5.5 做到了:OpenAI 真的回來了?
(02:01) 我的 AI 奇幻時刻
(03:16) AI 開始接管我的內容工作流
(05:41) 為什麼我從 Claude Code 轉到 Codex
(06:52) Codex 的殺手級功能:Computer Use
(07:35) Superpower Plugin:我願意轉換的關鍵
(09:35) AI 工具切換能力正在變成核心技能
(11:26) 工具不是重點,駕馭 Agent 才是
(12:49) GPT-5.5 到底強在哪?
(16:51) System Card 深讀:模型到底怎麼變了?
(18:57) 思想鏈會不會只是編給你看的?
(20:40) 模型會不會刻意裝弱?
(24:10) AI 工具風向變太快
By 柯柯與肯吉在矽谷4.8
161161 ratings
如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
各位,GPT-5.5 這次真的做到了。
我原本也沒有預期自己會這麼快從 Claude Code 轉到 Codex。前幾天工作到一半 Claude Code 又當機,我就想說好吧,剛好 GPT-5.5 也出了,那就把 Codex 裝回來試試看。結果一用之後發現,這次的體驗真的跟我上次印象裡的 Codex 不太一樣。
模型本身變聰明是一回事,但更有感的是整個 Codex App 的工作流變得非常順。Browser QA、Computer Use、plugin、multi-session 這些東西加起來,會讓你開始覺得它不只是另一個 coding assistant,而是比較像一個真的可以接進你日常工作流程裡的 agent 環境。
另外這集其實連後製流程我也完全改了。這次影片裡面的資訊圖卡跟視覺輔助,基本上都是用 HyperFrame 做出來的。我自己覺得加上這些圖卡以後,整個影片的質感有明顯提升,也比較能把一些原本很抽象的模型能力、benchmark、System Card 內容講清楚。如果你有看到這些新的視覺呈現,也歡迎留言跟我說你的感覺,我很想知道大家看起來覺得如何。
不過這集也不是單純在說「Codex 贏了」或「Claude Code 輸了」。我覺得現在 AI 工具變化太快了,今天你覺得某個工具最好,下個月可能又有新的東西出來。真正重要的不是忠於哪一家公司,而是你有沒有能力很快地切換、測試、驗證,然後把這些工具變成自己能力的延伸。
後半段我也深入看了 GPT-5.5 的 System Card。裡面有幾個很值得注意的點:像是它在長上下文的表現真的進步很多,長任務的穩定度也明顯變好;但另一方面,它變得比較不容易放棄之後,也可能在某些不可能完成的任務裡,更容易聲稱自己已經完成了。
我覺得這其實很有意思。當模型越來越像一個會持續嘗試、會使用工具、會自己修正的 agent,我們要看的就不只是 benchmark 分數,而是它到底知不知道自己在做什麼、它做錯的時候能不能回得來,以及我們人類要怎麼驗證它真的完成了任務。
System Card 裡還提到 chain of thought 監控、faithfulness、sandbagging 這些安全性測試。最有趣的問題是:模型表現得誠實,到底是因為它真的誠實,還是因為它知道自己正在被測試?
這集就來聊聊我為什麼最近改用 Codex,也順便從 GPT-5.5 的官方文件裡,看看這個模型到底進步在哪裡,以及它還有哪些值得我們小心的地方。
(00:00) GPT-5.5 做到了:OpenAI 真的回來了?
(02:01) 我的 AI 奇幻時刻
(03:16) AI 開始接管我的內容工作流
(05:41) 為什麼我從 Claude Code 轉到 Codex
(06:52) Codex 的殺手級功能:Computer Use
(07:35) Superpower Plugin:我願意轉換的關鍵
(09:35) AI 工具切換能力正在變成核心技能
(11:26) 工具不是重點,駕馭 Agent 才是
(12:49) GPT-5.5 到底強在哪?
(16:51) System Card 深讀:模型到底怎麼變了?
(18:57) 思想鏈會不會只是編給你看的?
(20:40) 模型會不會刻意裝弱?
(24:10) AI 工具風向變太快

5 Listeners

185 Listeners

158 Listeners

57 Listeners

766 Listeners

65 Listeners

60 Listeners

174 Listeners

77 Listeners

12 Listeners

24 Listeners

13 Listeners

86 Listeners

10 Listeners

43 Listeners