脈報

By 思思主播

脈報... more

· Technology

Download on the App Store

Download on the App Store

Get it on Google Play

FAQs about 脈報:

How many episodes does 脈報 have?

The podcast currently has 572 episodes available.

脈報 episodes:

July 27, 2026 Cursor 實測：讓貴模型只負責規劃，AI 帳單少掉近九成

Cursor 實測：同一個任務、同樣通過全部測試，帳單從 10,565 美元掉到 1,339 美元。省錢的關鍵是讓貴模型只負責規劃，把執行交給便宜模型，指令一旦明確照做就行。

⭐ 文章深度讀：五種失效模式的完整修法、舊版崩壞的逐項數據，還有 Field Guide 的做法

→ https://heymaibao.com/cursor-agent-swarm-model-economics/

⚡ 章節重點

開場 00:00

實驗長什麼樣 00:25

四種模型組合 01:22

帳單差在哪 02:23

便宜的規劃者不等於便宜的整體 03:35

為什麼拆成想和做會有效 04:22

五種失效模式 05:28

失控長什麼樣 06:30

我會怎麼用這篇 07:19

📝 懶人包

∙ 在新版系統下，四種模型組合最終都通過 100% 測試套件，但總花費從 1,339 美元 (Opus 4.8 規劃、Composer 2.5 執行) 到 10,565 美元 (GPT-5.5 從頭包到尾) 不等

∙ 執行端扛下至少 69% 的 token (模型的計價單位，用量直接等於帳單)，多數情況超過 90%。但在 Opus 4.8 那組裡，規劃端那一小撮 token 吃掉了約三分之二的錢

∙ 省錢的關鍵不在挑便宜的模型。Fable 5 當規劃者的帳單比 Opus 4.8 低，卻讓執行端多燒好幾倍 token，整輪算下來反而更貴

∙ 我的觀察是，這篇真正能帶走的東西是一條分工原則：貴模型負責收斂模糊，便宜模型負責執行明確指令。它不需要你有上千個 agent 才成立，手上有兩三個並行任務時就開始值錢

📚 參考資料

Agent swarms and the new model economics

→ https://cursor.com/zh-Hant/blog/agent-swarm-model-economics

Agent swarms and the new model economics (英文原版)

→ https://cursor.com/blog/agent-swarm-model-economics

cursor/minisqlite

→ https://github.com/cursor/minisqlite

sqllogictest

→ https://sqlite.org/sqllogictest

Scaling long-running autonomous coding

→ https://cursor.com/blog/scaling-agents
...more
8min
July 27, 2026 OpenAI 把「不要停」寫進 Codex：/goal 如何改變長任務

Codex CLI 0.128.0 的 /goal 能保存目標、跨回合自動續跑，並要求 Agent 以實際證據稽核完成。本文從官方原始碼、release 與實測拆解適用任務、安全煞車和成功標準。

⭐ 文章深度讀：能長跑還不夠，真正難的是把完成定義寫成可驗證的證據

→ https://heymaibao.com/codex-goal-long-running-tasks/

⚡ 章節重點

開場：/goal 適合什麼任務 00:00

Codex 如何讓 goal 跨回合存活 00:44

目標狀態與自動續跑 01:25

完成稽核怎麼證明真的做完 01:50

長跑 Agent 的安全煞車 02:39

回饋環境決定證據品質 03:01

怎麼寫可驗證的 goal 03:27

探索型任務的現實代價 03:50

權限與隔離邊界 04:16

完成定義才是稀缺能力 04:41

📝 懶人包

∙ Codex CLI 0.128.0 一次補上 goal 的持久化、app-server API、model tools、自動續跑與終端控制

∙ active goal 在 thread 閒置後會自動建立下一個 turn，讓同一個目標跨回合繼續

∙ 每輪續跑都要求 agent 對照實際 artifacts 與成功條件做完成稽核，單靠測試綠燈或 manifest 完整還不夠

∙ 我的觀察是，/goal 最適合解法未知、終點可驗證的任務，缺少真實回饋時，跑得再久也只會放大猜測

📚 參考資料

Felipe Coury：Codex CLI 0.128.0 的 /goal 定位

→ https://x.com/fcoury/status/2049917871799636201

Ray Amjad：The Codex Feature That's Going Viral Right Now

→ https://www.youtube.com/watch?v=p88mkfPkOZc

OpenAI Codex 官方 repository

→ https://github.com/openai/codex

Codex CLI 0.128.0 官方 release

→ https://github.com/openai/codex/releases/tag/rust-v0.128.0

OpenAI Developers：Follow a goal

→ https://developers.openai.com/codex/use-cases/follow-goals/
...more
6min
July 26, 2026 OpenAI Codex 寵物看似玩具，9 個動作全對應 agent 狀態

OpenAI Codex 桌面寵物用 /pet 喚醒、/hatch 自訂。官方 hatch-pet 規格顯示 9 個動畫狀態全對應 app 執行狀態，等你批准時會擺出期待姿勢，做砸了就垮下來給你看。

⭐ 文章深度讀：影片講的是這 9 個動作怎麼對應 agent 狀態，文章版多了每一格的毫秒表、禁用效果清單的完整條目，還有鏡射那三道門的原文限制

→ https://heymaibao.com/openai-codex-pets-agent-states/

⚡ 章節重點

開場 00:00

先講它是什麼 00:25

內部人自己先擋了一句 01:18

9 個動作，就是 Codex app 的 9 種狀態 01:46

規格嚴到什麼程度 03:33

真正值得抄的三件事 05:34

想自己孵一隻的話，現況有點尷尬 06:57

我的判斷 07:55

📝 懶人包

∙ Pets 是 Codex app 的可選動畫夥伴，在「設定 > Pets」開啟，用 /pet 喚醒、/hatch 自訂，以浮動疊層的形式浮在畫面上

∙ OpenAI 官方的 hatch-pet 技能文件定義了一套死規格：8 欄 9 列、每格 192×208 像素的固定拼版圖，9 列直接對應 Codex app 的 9 個狀態，連每一格要停留幾毫秒都寫死

∙ 整條產製流程把圖像模型和確定性腳本切開，圖像模型只負責畫，幾何對齊與驗證交給 Python 腳本，而且機械驗證通過了還要再用眼睛看一遍才算過

∙ 我的觀察是，這份規格書的價值高過寵物本身，但成立條件很明確：你手上要真的有一條需要驗收 AI 生成素材的流程，否則它就只是一份寫得很好的文件

📚 參考資料

Codex app settings：Pets

→ https://developers.openai.com/codex/app/settings

Tibo (@thsottiaux) 的使用心得

→ https://x.com/thsottiaux/status/2050280111820406795

openai/skills 的 hatch-pet skill 目錄

→ https://github.com/openai/skills/tree/main/skills/.curated/hatch-pet

OpenAI Developers 的 /hatch 公告

→ https://x.com/openaidevs/status/2050275779452588309

Pets 官方說明文件

→ https://learn.chatgpt.com/codex/pets

hatch-pet SKILL.md 原始檔

→ https://github.com/openai/skills/blob/main/skills/.curated/hatch-pet/SKILL.md

openai/plugins：接班 repository

→ https://github.com/openai/plugins

Codex 官方 skills 文件

→ https://developers.openai.com/codex/skills

9to5Mac：Codex Pets 發佈當日實測

→ https://9to5mac.com/2026/05/01/i-think-i-just-vibe-coded-lil-finder-guy-onto-my-mac/

Agent Skills 格式規格

→ https://agentskills.io/specification
...more
9min
July 23, 2026 GPT-5.6 誤刪整個家目錄：要三個開關同時關掉才會發生

整個家目錄被 GPT-5.6 刪掉：貼文列出的觸發組合是 full access 開啟、沒有 sandbox、auto review 也沒開。這篇說明失誤如何從 $HOME 覆寫發生，以及你該檢查哪三個開關。

⭐ 文章深度讀：三個開關的完整檢查清單，加上 $HOME 覆寫怎麼變成刪掉家目錄的機制拆解

→ https://heymaibao.com/gpt-5-6-home-directory-deletion/

⚡ 章節重點

開場 00:00

這件事到底發生了什麼 00:51

三個開關，缺一個就不會出事 01:15

錯誤發生在環境變數，不在意圖 03:18

他們的回應方式值得記一筆 04:33

你現在可以做的檢查 05:58

📝 懶人包

∙ Tibo (@thsottiaux) 在 X 上以第一人稱「我們」代表一個調查團隊說明，他們已經查了數起 GPT-5.6 非預期刪除檔案的回報

∙ 最常見的觸發組合是三個條件同時成立：full access 模式開啟、執行時沒有 sandbox 保護、auto review 也沒有啟用

∙ 失效點在環境變數這一層，模型想覆寫 $HOME 來指定一個暫存目錄，弄錯之後，刪除動作打在真正的家目錄上

∙ 我的觀察是，這件事的教育價值在條件組合。三個開關的關係是「而且」，不是「或者」，這決定了你該檢查什麼

📚 參考資料

On file deletions - Tibo (@thsottiaux)

→ https://x.com/thsottiaux/status/2077630111499882637

Codex Permission modes

→ https://learn.chatgpt.com/docs/permission-modes

Codex Auto-review

→ https://learn.chatgpt.com/docs/sandboxing/auto-review

GPT-5.6 System Card

→ https://deploymentsafety.openai.com/gpt-5-6

OpenAI's new flagship model deletes files on its own, people keep warning

→ https://techcrunch.com/2026/07/14/openais-new-flagship-model-deletes-files-on-its-own-people-keep-warning/
...more
8min
July 20, 2026 Kimi K3 每 token 便宜一半，實際帳單卻和 GPT-5.6 打平

2.8 兆參數的 Kimi K3 能力擠進第一梯隊，價格也是。它每 token 便宜一半但用掉兩倍，總帳單和 GPT-5.6 Sol 打平。原因是它只有 max 一個思考檔位，完全沒有省的餘地。

⭐ 文章深度讀：7 月 27 日的開放權重會不會準時釋出

→ https://heymaibao.com/kimi-k3-cost-reality-check/

⚡ 章節重點

開場 00:00

K3 是什麼 00:36

公告裡沒有出現的那個字 01:09

價格才是這次真正的新聞 01:22

Theo 的算法：單價砍半，帳單打平 02:05

評測數字對得上 03:08

兩個數字只差一毛，這叫打平 03:21

因為它只有一個檔位 03:37

鵜鶘實測：八成輸出花在想 04:04

能力上它擠進了第一梯隊 05:04

兩個 token 數字，比較對象不同 05:33

那個鵜鶘測試被作者除役了 06:02

開放權重還是一張期票 06:23

我的觀察：要比就比每個任務 06:33

📝 懶人包

∙ Moonshot 發佈 Kimi K3，官方主打 2.8 兆參數、100 萬 token context 與原生多模態，定位在 agentic coding，也就是讓模型自己來回呼叫工具、跑完整段開發任務的用法。開放權重承諾在 2026 年 7 月 27 日前釋出，公告當下還沒發生

∙ K3 的 API 定價是每百萬 token 輸入 3 美元、輸出 15 美元，和 Anthropic 的 Claude Sonnet 系列同一級，是中國 AI 實驗室至今發佈過最貴的模型。更早的 Kimi K2.6 只要 0.95 美元 / 4 美元

∙ t3.gg 的 Theo 依日常使用估算，多數任務下 K3 的總成本和 GPT-5.6 Sol 差不多，因為單價便宜一半的優勢被兩倍的 token 用量吃掉了。另一邊，評測機構 Artificial Analysis 跑出的每任務成本是 K3 的 0.94 美元對 GPT-5.6 Sol 的 1.04 美元

∙ 我的觀察是，「每百萬 token 多少錢」是評估 AI 模型時最容易誤導人的一張表。它假設所有模型解同一個任務會用掉差不多的 token，而這個假設在會先「想」一輪再回答的推理模型普及之後就已經失效了。要比就比每個任務的實際支出

📚 參考資料

Introducing Kimi K3: Open Frontier Intelligence

→ https://x.com/Kimi_Moonshot/status/2077830229968683203

Kimi K3, and what we can still learn from the pelican benchmark

→ https://simonwillison.net/2026/Jul/16/kimi-k3/

Theo 對 Kimi K3 實際成本的判斷

→ https://x.com/theo/status/2078215659948052984

Kimi K3 Tech Blog: Open Frontier Intelligence

→ https://www.kimi.com/blog/kimi-k3

Flagship Model Kimi K3 Pricing

→ https://platform.kimi.ai/docs/pricing/chat-k3

Kimi K3 achieves #3 in the Artificial Analysis Intelligence Index

→ https://artificialanalysis.ai/articles/kimi-k3-achieves-3-in-the-artificial-analysis-intelligence-index-comparable-to-opus-4-8-and-gpt-5-5
...more
8min
July 20, 2026 他不換工具，把 Hermes 的記憶系統重建在 Claude Code 裡

記憶系統可以拆成三個問題：怎麼存、開新對話載入什麼、問三個月前的事找不找得到。有人用這三個問題，決定不換工具，直接把 Hermes 的記憶重建在 Claude Code 裡。

⭐ 文章深度讀：影片講的是三個問題怎麼拆，文章多寫了我保留的部分與可查證邊界

→ https://heymaibao.com/rebuild-hermes-memory-in-claude-code/

⚡ 章節重點

開場 00:00

大家離開的理由 00:28

拆記憶系統的三個問題 01:55

前兩格兩邊幾乎打平 03:12

真正的差距在第三格 04:29

最容易被跳過的一步 05:53

為什麼不換工具 06:21

我保留的部分 07:16

你今天可以做的 07:54

📝 懶人包

∙ Kilo 的留言分析指出，大家換到 Hermes agent 的第一名理由是記憶，不是整合數量，也不是自建技能 (影片轉述，未出示可查證出處)

∙ 任何記憶系統都可以拆成三個問題：重要的事怎麼存、開新對話時自動載入什麼、問一件三個月前的事怎麼找回來

∙ 前兩個問題兩邊做法幾乎一樣，真正的差距全部落在第三個

∙ 我的觀察是，這整套主張目前沒有附上任何量測，沒有檢索準確率、沒有成本數字、也沒有失敗案例

📚 參考資料

I Rebuilt Hermes's Best Feature in Claude Code (Steal This)

→ https://www.youtube.com/watch?v=9CiOwbmOKdU

NousResearch/hermes-agent

→ https://github.com/NousResearch/hermes-agent

Hermes Agent Sessions 文件

→ https://hermes-agent.nousresearch.com/docs/user-guide/sessions

Claude Code 記憶機制官方文件

→ https://code.claude.com/docs/en/memory

Claude Code 資料使用說明

→ https://code.claude.com/docs/en/data-usage

garrytan/gbrain

→ https://github.com/garrytan/gbrain
...more
9min
July 20, 2026 GPT-5.6 額度爆炸的真正原因：Ultra 根本不是推理等級

Codex 的 Ultra 被放在推理強度滑桿上，但 OpenAI 官方文件寫的是它預設協調四個代理平行跑。這篇拆解 GPT-5.6 額度爆炸的三個放大器，以及四個可以立刻執行的調整。

⭐ 文章深度讀：文章多了一段把模型固定住只換工具的對照實驗，以及它踩到服務條款的那一面

→ https://heymaibao.com/gpt-5-6-ultra-usage-burn/

⚡ 章節重點

開場 00:00

Ultra 到底做了什麼 01:01

放大器一併發加最高強度 02:27

放大器二子任務繼承不了較低設定 02:40

放大器三系統提示詞 03:37

可以立刻做的四件事 04:10

有沒有終點才是真正的差別 05:44

更正節目的一處說法 06:43

我的判斷 07:41

📝 懶人包

∙ 在 OpenAI 官方文件裡，Ultra 做的事是預設協調四個代理平行跑，Max 才是給單一代理更多推理時間。這是兩個不同維度的東西

∙ 節目的說法是，Codex 目前的子任務實作不讓上層指定要用哪個模型與多高的強度，所以開著 Ultra 派工時，整棵樹都跟著跑在最高設定

∙ 同樣據節目查證，Codex 的系統提示詞 (system prompt) 裡有大量前端設計規範，不分任務類型都會載入，寫 Rust 這種跟網頁無關的程式語言也會吃到

∙ 我的觀察是，這件事最重要的訊號藏在它被發現的過程裡。一個使用者要花好幾天翻自己的紀錄，才能拼出「我的錢花到哪裡去了」，這種資訊本來應該由工具方提供

📚 參考資料

We're back to "too many models" (Nerd Snipe)

→ https://www.youtube.com/watch?v=bjW7nL3l08g

GPT-5.6: Frontier intelligence that scales with your ambition

→ https://openai.com/index/gpt-5-6/

Codex 模型與 reasoning effort 說明

→ https://developers.openai.com/codex/models

Orchestrate subagents at scale with dynamic workflows

→ https://code.claude.com/docs/en/workflows

Claude Code 法遵與合規說明

→ https://code.claude.com/docs/en/legal-and-compliance

openai/codex 開源儲存庫

→ https://github.com/openai/codex
...more
9min
July 20, 2026 ChatGPT 記憶以前很健忘，新版靠 Dreaming 突然變聰明

ChatGPT 記憶以前只記幾筆筆記還會過時，新版靠背景機制 Dreaming 大幅翻新。OpenAI 官方評估裡，跟上時間變化從 9.4% 拉到 75.1%，算力降約 5 倍，免費版 6 月起跟上。

⭐ 文章深度讀：你最想先讓 ChatGPT 記住你哪一件事

→ https://heymaibao.com/chatgpt-memory-dreaming-upgrade/

⚡ 章節重點

開場 00:00

記憶系統是什麼 00:20

以前記憶爛在哪 00:38

轉捩點是 Dreaming 01:42

三個數字攤開看 02:47

為什麼現在才輪到免費版 04:22

思思的判斷 05:06

📝 懶人包

∙ 舊版「已儲存的記憶」只在對話中寫入，還得靠你講出很強的指令 (像「記住我七月要去新加坡」) 才會觸發，而且會慢慢過時，用起來像跟一個只記了幾筆筆記、其他全忘光的人講話。

∙ 2025 年 OpenAI 加進 Dreaming，讓 ChatGPT 在背景自動整理記憶，不用你開口要求它記住，這才是記憶開始變好的真正轉捩點。

∙ 新版 (OpenAI 把版號直接標到 Dreaming V3) 在官方三軸評估上大幅躍進，最誇張的是「跟上時間變化」的能力，從 9.4% 一路拉到 75.1%。

∙ 我的觀察是，這次更新對最多人真正有感的點，其實是 OpenAI 把提供給免費版的 Dreaming 算力砍掉約 5 倍，免費版終於排得進來，6 月起陸續開放，還沒輪到的可以留意。

📚 參考資料

ChatGPT 記憶系統全面升級 - OpenAI

→ https://openai.com/zh-Hant/index/chatgpt-memory-dreaming/

Memory FAQ - OpenAI Help Center

→ https://help.openai.com/en/articles/8590148-memory-faq
...more
6min
July 20, 2026 只問 Claude 一間咖啡店，它就交出你的姓名、雇主和老家

安全研究者示範：只要請 Claude 看一個被動過手腳的網站，它就把你的姓名、雇主、老家悄悄交給攻擊者，畫面毫無異狀。本文拆解攻擊面與 AI 助理記憶功能真正的安全教訓。

⭐ 文章深度讀：這個攻擊為什麼連零失誤的使用者都擋不掉，記憶以外還有哪些工具同樣危險

→ https://heymaibao.com/claude-memory-heist-pii-leak/

⚡ 章節重點

開場：一句話就交出個資 00:00

攻擊者要偷的是 Claude 的記憶 00:48

兩個安全能力，相乘才是破口 01:38

假咖啡店騙過了 Claude 02:31

它說出你沒講過的事 03:42

使用者根本無從察覺 04:22

洞補了，但真正的教訓 05:08

📝 懶人包

∙ 整條攻擊只用了 Claude 內建的網頁瀏覽工具 web_fetch 當外洩通道，不需要任何實驗性設定、外掛或程式碼執行

∙ Claude 的記憶系統本身是安全的，真正的破口來自「有記憶的助理」加上「能上網」這兩種能力相乘

∙ 更毛的是，Claude 還會推理出你根本沒說過的事，實驗中它從一個 hackathon 的名字，推斷出研究者從小長大的城市

∙ 我的觀察是，這個具體漏洞據 Ayush 說 Anthropic 已經緩解，但真正該記住的教訓是這個：給 AI agent 的權限，要按「組合起來之後」的攻擊面來評估，逐項看起來都安全，湊在一起未必安全

📚 參考資料

How I tricked Claude into leaking your deepest, darkest secrets

→ https://www.ayush.digital/blog/the-memory-heist
...more
7min
July 19, 2026 Fable 5 vs GPT-5.6：上線一週，該選誰不如問怎麼分工

Fable 5 和 GPT-5.6 上線一週，社群共識和一位重度使用者的答案一致：別再問誰比較強，把對的任務路由給對的模型。便宜的贏用量，聰明的贏落地，這篇幫你理清怎麼分工。

⭐ 文章深度讀：影片濃縮過的完整分工清單，還有那些數字哪些是第一手、哪些只是社群廣傳的 96%/46%，都攤在文章裡

→ https://heymaibao.com/fable-5-vs-gpt-5-6-first-week/

⚡ 章節重點

開場 00:00

為什麼重疊只有一週 00:45

社群十條其實是同一句 01:31

一個人的真實帳單 02:46

便宜的代價 04:17

聰明的代價 04:45

到底怎麼分工 05:42

你才是變數 06:01

📝 懶人包

∙ 社群共識：Matt Van Horn 讀遍重疊第一週的 Reddit、YouTube、TikTok 討論後發現，兩家官方 prompting guide 同一週落在同一句話，你 over-prompting (過度指令) 了，該停。他整理的十條實踐收束成一句，你的槓桿從 prompt 移到了 process (流程)。

∙ 重度使用者：Theo 被逼到牆角只能選一個時選了 Fable 5，因為它更聰明。但他坦承日常大多數工作其實送給 GPT-5.6，因為便宜太多、token 效率高太多。

∙ 兩者交集：真正的技能是路由。難的、要落地的、要好設計的交給 Fable 5，便宜的、要跑很久的、在你系統上做雜事的交給 GPT-5.6。

∙ 我的觀察是，這場比較最誠實的一句話，是「連認為 Fable 更聰明的人，日常都主用 GPT-5.6」。剩下的都是這句話的註腳。先劇透兩個要點。GPT-5.6 便宜好用，但聽話到底的性格會在錯的設定下刪掉你的檔案。Fable 聰明，卻貴又慢，還不能當自己作品的裁判。下面拆開講。

📚 參考資料

/last7days of Fable 5 and GPT-5.6: What Thousands of Upvotes Say Actually Works

→ https://x.com/mvanhorn/status/2077510447016890433

Fable 5 vs GPT-5.6

→ https://www.youtube.com/watch?v=IfkBQyWuTOE

Claude Fable 5 and Claude Mythos 5

→ https://www.anthropic.com/news/claude-fable-5-mythos-5

Redeploying Claude Fable 5

→ https://www.anthropic.com/news/redeploying-fable-5

Prompting Claude Fable 5

→ https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/prompting-claude-fable-5

GPT-5.6: Frontier intelligence that scales with your ambition

→ https://openai.com/index/gpt-5-6/

GPT-5.6 model guidance

→ https://developers.openai.com/api/docs/guides/prompt-guidance-gpt-5p6

OpenAI's newest AI model is 54% more token efficient

→ https://www.cnbc.com/2026/07/09/open-ai-sam-altman-chatgpt-5-6-sol.html
...more
7min

FAQs about 脈報:

How many episodes does 脈報 have?

The podcast currently has 572 episodes available.