PinchTab 是一個 12MB 的 Go binary,用 HTTP API 讓 AI agent 直接控制 Chrome。每頁只需 800 tokens,比截圖便宜 5-13 倍。不綁框架、不挑語言,curl 就能操作。
⭐ 文章深度讀:完整拆解 PinchTab 的技術架構和適用場景判斷
→ https://heymaibao.com/pinchtab-http-api-ai-agent-browser-automation/
📝 懶人包
∙ PinchTab 是一個獨立的 HTTP 伺服器,讓任何 AI agent 透過 HTTP 請求控制 Chrome 瀏覽器,不綁定特定框架或 SDK。
∙ 它用無障礙樹 (accessibility tree) 做文字擷取,每頁約 800 token,比截圖方案便宜 5-13 倍,批量任務的成本差距更明顯。
∙ 內建隱身模式、持久 session 和多實例平行操作,但目前版本 v0.7.7 還在 pre-1.0 階段,API 可能有變動。
∙ 我的觀察:PinchTab 的價值不在「比 Playwright 更好」,而在它對 agent 框架零假設。HTTP API 是最低公約數,這讓它能嵌入任何工具鏈。但 pre-1.0 代表你得有承受重大變更的心理準備。
📚 參考資料
@heynavtoor 的 PinchTab 介紹
→ https://x.com/heynavtoor/status/2028922003365986705
PinchTab GitHub
→ https://github.com/pinchtab/pinchtab